OpenAI o1: El nuevo modelo de IA que "piensa" antes de responder

Un modelo de IA que razona antes de responder, superando a expertos humanos en pruebas complejas. Descubre cómo esta nueva tecnología podría cambiar la forma en que interactuamos con la IA.

sep 18, 2024

Hace 5 días, el 12 de septiembre, OpenAI lanzó su nueva serie de modelos de IA llamada OpenAI o1, y el primero de la serie es o1-preview. ¿Qué tiene de especial? Bueno, imagina a un amigo súper inteligente que, en lugar de soltar lo primero que le viene a la mente, se toma un momento para pensar detenidamente antes de responder. Eso es básicamente lo que hace o1-preview.

Un modelo de IA que trata de razonar y se toma su tiempo antes de responder. (en versión comic) por Midjourney

¿Qué es eso de "razonar" para una IA?

Cuando hablo de que una IA "razona", no me refiero a que de repente se haya vuelto consciente y esté filosofando sobre el sentido de la vida (aunque quién sabe, tal vez algún día...). Lo que realmente significa es que el modelo ha sido entrenado para procesar la información de una manera más parecida a cómo lo haríamos nosotros los humanos.

Recuerdas cuando estabas en el colegio y tu profesora preguntaba: "Si un tren sale de la ciudad X a las 10:00 AM y viaja a 200 km/h hacia la ciudad Y, que está a 620 km, ¿a qué hora llegará?". Probablemente no responderías de inmediato. Primero pensarías: "Ok, necesito calcular el tiempo de viaje. Para eso, divido la distancia por la velocidad...". Este proceso interno es lo que llamamos "cadena de pensamiento".

o1-preview hace algo parecido. Antes de responder, genera una especie de diálogo interno donde desglosa el problema, considera diferentes enfoques y corrige sus propios errores. Es como si tuviera una mini conversación consigo mismo antes de responder.

Lo interesante es que este proceso de "pensamiento" mejora cuanto más tiempo se le da al modelo para pensar. Es como cuando nos dicen "tómate tu tiempo para responder". En general, mientras más tiempo nos tomemos, mejor respondemos.

Pero, ¿realmente es tan bueno?

Cuando se lanza un nuevo modelo de IA, siempre vamos a preguntamos: "¿Y esto qué tan bueno es realmente?". Bueno, para medir el rendimiento de estos modelos, los expertos utilizan una serie de pruebas estandarizadas, como en el colegio.
Ya hablé un poco de eso en el post: ¿Cómo sabemos qué tan inteligente es una inteligencia artificial?, te recomiendo que le des una mirada.

Resulta que o1-preview ha sacado notas muy buenas en estos "exámenes". Veamos algunos ejemplos:

En un examen de clasificación para la Olimpiada Internacional de Matemáticas (algo así como las olimpiadas para genios matemáticos), GPT-4o (el modelo anterior) solo resolvió correctamente el 13% de los problemas. o1-preview? Nada menos que el 83%. Es como pasar de reprobar a ser el primero de la clase.
En pruebas de programación competitiva, o1-preview alcanzó el percentil 89. En términos simples, esto significa que es mejor que el 89% de los programadores que participan en estas competencias. No está nada mal, ¿eh?
En pruebas que evalúan conocimientos de física, química y biología a nivel de doctorado, o1-preview superó el rendimiento de estudiantes de PhD reales. Sí, leyeron bien. En algunas áreas, este modelo de IA está resolviendo problemas mejor que personas que han dedicado años a estudiar esos temas.

Pero no te asustes, esto no significa que la IA esté a punto de reemplazar a todos los científicos y matemáticos. Más bien, es una herramienta increíblemente poderosa que puede ayudar en la resolución de problemas complejos.

Puedes ver un poco más de los “exámenes” que le tomaron al modelo en este post de OpenAI.

Safety first

Ahora, cada vez que escuchamos sobre una IA súper poderosa, es natural preocuparse un poquito. Al fin y al cabo ¿Qué pasa si se da cuenta que los humanos somos una amenaza para el planeta y empieza a crear un plan cómo acabar de nosotros? (Tranquilo, estoy bromeando... más o menos… creo).

Ya en serio, la seguridad es un tema clave cuando se trata de IA. OpenAI dice que ha desarrollado un nuevo enfoque de entrenamiento en seguridad que aprovecha las capacidades de razonamiento de o1-preview para que siga mejor a las pautas de seguridad.

¿Qué significa esto en la práctica? Bueno, una forma en que miden la seguridad es probando qué tan bien el modelo sigue sus reglas de seguridad si un usuario intenta hacerle hacer algo que no debería (lo que llaman "jailbreaking"). En una de sus pruebas más difíciles de jailbreaking, GPT-4o obtuvo una puntuación de 22 (en una escala de 0-100), mientras que o1-preview obtuvo 84. Es como pasar de tener un guardaespaldas un poquito subido de peso a tener a Batman a tu lado.

¿Quién puede jugar con este nuevo juguete?

Ahora viene la pregunta del millón: ¿quién puede usar o1-preview? Bueno, la respuesta es un poco complicada, así que vamos por partes:

Usuarios de ChatGPT Plus y Team: Si eres uno de los afortunados que paga por estas versiones tienes acceso a o1-preview directamente en ChatGPT. Eso sí, hay un límite: puedes hacer 30 consultas por semana con o1-preview.
Usuarios de ChatGPT Enterprise y Edu: Ustedes tendrán acceso a partir de la próxima semana.
Desarrolladores API: Si eres desarrollador y calificas para el nivel 5 de uso de la API, puedes empezar a jugar con o1-preview hoy mismo. Pero ojo, el límite es de 20 solicitudes por minuto.
Usuarios gratuitos de ChatGPT: Por ahora, me temo que tendrán que esperar 😔 Pero no todo son malas noticias, OpenAI dice que está planeando traer acceso a o1-mini (una versión más pequeña y rápida) para todos los usuarios gratuitos en el futuro.

o1-mini: El hermanito veloz

Hablando de o1-mini, este es como la versión compacta de o1-preview. Es más rápido, más barato (80% menos costoso que o1-preview) y especialmente bueno en tareas de programación. Si o1-preview es como un científico loco que puede resolver cualquier problema pero tarda en hacerlo, o1-mini es como un programador que va por su quinta tasa de café y escribe código más rápido que Trinity.

Mi experiencia personal

Ahora, sé que están esperando que les diga si estes realmente un salto gigante en la IA o si es solo otro truco publicitario. La verdad es que he tenido la oportunidad de probarlo brevemente y, aunque parece prometedor, todavía estoy formando mi opinión.

Lo que sí puedo decirles es que la idea de una IA que "piensa" antes de responder es increíblemente interesante. Imagina que tu asistente no solo responde rápidamente, sino que realmente se toma el tiempo para considerar la mejor respuesta. Eso podría cambiar la forma en que interactuamos con la IA en nuestro día a día.

¿Y ahora qué?

Este es solo el comienzo. OpenAI dice que planean seguir mejorando tanto la serie o1 como la serie GPT. También están trabajando para agregar funciones como navegación web, carga de archivos e imágenes, y otras características para hacer que estos modelos sean aún más útiles para todos.

Si tienes acceso, mi consejo es: pruébalo. Juega con él. Mira qué puede hacer. Si aún no tienen acceso, no te preocupes. La tecnología avanza rápido y antes de que te des cuenta, modelos como estos estarán al alcance de todos.

¡Hasta la próxima!

Germán