Strawberry: ¡el nuevo modelo de OpenAI es capaz de razonar!

septiembre 16, 2024

Close-up of a woman's mouth holding a strawberry near her lips. Her upper teeth are visible, as if about to bite the fruit, with vibrant colors and a retro aesthetic. The lighting is soft and dynamic, creating subtle reflections and enhancing the ethereal quality of the image, evoking a lively, energetic style.

OpenAI, líder en el desarrollo de inteligencia artificial, ha dado un paso gigante con el lanzamiento de su nueva serie de modelos «o1«. Esta innovadora línea de IA promete transformar la manera en que las máquinas abordan problemas complejos, especialmente en campos como la ciencia, la programación y las matemáticas.

OpenAI anunció la versión preliminar el jueves en una publicación de su blog, diciendo que estará disponible en ChatGPT y en la API. Puedo confirmar que tanto o1-preview como o1-mini (un modelo más “pequeño” pero más rápido) ya están disponibles en las cuentas de ChatGPT Plus. Sin embargo, los nuevos modelos aún no aparecen en las cuentas gratuitas de ChatGPT.

Este nuevo modelo, conocido tambien como «Strawberry», ha sido muy esperado por sus posibles capacidades de razonamiento similar al humano. En las semanas previas a este anuncio, el CEO de OpenAI, Sam Altman, nos había dado varias pistas con referencias humorísticas a frutas, pero también ha dejado claro en los últimos meses que la IA generativa estaba a punto de dar un salto significativo.

i love summer in the garden pic.twitter.com/Ter5Z5nFMc
— Sam Altman (@sama) August 7, 2024

^{Fuente: X.com}

Cómo Strawberry destaca en múltiples niveles

Strawberry ha establecido nuevos estándares para el razonamiento de IA mediante aprendizaje por refuerzo (reinforcement learning). A diferencia de modelos anteriores, Strawberry puede «pensar» antes de responder, generando una cadena interna de razonamiento. Esto le permite descomponer problemas complejos, identificar errores y aplicar nuevas estrategias. OpenAI ha revelado que la capacidad del modelo para mejorar su razonamiento aumenta con más entrenamiento y mayor potencia computacional, tanto en la fase de aprendizaje como al procesar respuestas.

El rendimiento de Strawberry en tareas de razonamiento es impresionante. En pruebas como las clasificatorias de la Olimpiada de Matemáticas de EE. UU. (AIME), se ubicó entre los 500 mejores estudiantes a nivel nacional, resolviendo el 74% de los problemas, en comparación con el 12% de precisión de GPT-4o, su predecesor.

La mejora de Strawberry sobre modelos anteriores es evidente en varios indicadores. Superó significativamente a GPT-4o en 54 de 57 categorías en el test MMLU (Massive Multitask Language Understanding), capacidades de comprensión y razonamiento de los modelos de lenguaje en una amplia variedad de temas.

OpenAI también destaca sus capacidades de razonamiento, que lo hacen especialmente bueno en tareas complejas de matemáticas y programación. Además, superó a expertos humanos con doctorado en un test de inteligencia avanzado sobre biología, física y química. Estos resultados indican que Strawberry ha elevado el razonamiento de la IA a un nivel experto en áreas especializadas.

Cómo funciona

El avance clave de Strawberry radica en su razonamiento basado en una “cadena de pensamiento”. Este enfoque permite que la IA analice los problemas paso a paso antes de proporcionar una respuesta, imitando el proceso humano al enfrentar preguntas complejas. A través del aprendizaje por refuerzo, Strawberry aprende a descomponer tareas difíciles en partes más manejables y a ajustar sus estrategias cuando se enfrenta a nuevos desafíos.

Aunque la «cadena de pensamiento» de Strawberry es una característica poderosa, también presenta ciertos desafíos. OpenAI ha señalado que este sistema puede derivar en «reward hacking«, donde el modelo identifica atajos no deseados para obtener mejores resultados, sacrificando la precisión o desviándose de su propósito. Además, aunque su capacidad de razonamiento mejora la seguridad en algunos contextos al prevenir sesgos o resultados dañinos, persisten preocupaciones sobre cómo toma decisiones internamente. Para mitigar riesgos, OpenAI ha optado por no revelar a los usuarios toda la cadena de pensamiento del modelo, manteniendo partes del proceso de razonamiento ocultas. Esto plantea preguntas sobre la transparencia y control en la toma de decisiones de la IA, lo que sugiere que, aunque más avanzado, el modelo aún necesita ajustes para equilibrar eficacia y seguridad.

Limitaciones

A pesar de su rendimiento innovador en tareas de razonamiento, Strawberry tiene algunas limitaciones. Aunque es el modelo preferido para tareas que requieren análisis profundo, como la interpretación de datos y la programación, no destaca tanto en tareas de lenguaje natural. Los evaluadores humanos encontraron que GPT-4o, su predecesor, superaba a Strawberry en tareas que requerían un enfoque más conversacional o intuitivo, lo que sugiere que Strawberry no es la mejor opción para todas las aplicaciones.

Esta diferencia subraya el reto de desarrollar un modelo que sobresalga en todos los ámbitos. Aunque Strawberry destaca en tareas que requieren lógica y cálculos complejos, su enfoque basado en la «cadena de pensamiento» puede hacerlo más lento o menos adaptable en situaciones donde se necesita rapidez o respuestas intuitivas.

Cómo usarlo

Los usuarios de ChatGPT Plus y Team podrán acceder a los modelos o1 desde el jueves 12 de septiembre. Tanto o1-preview como o1-mini se pueden seleccionar manualmente en el selector de modelos. Al lanzamiento, habrá un límite semanal de 30 mensajes para o1-preview y 50 para o1-mini, pero OpenAI está trabajando para aumentar estos límites y permitir que ChatGPT elija automáticamente el modelo más adecuado para cada solicitud.

OpenAI también tiene planes de ampliar el acceso al modelo o1-mini para todos los usuarios de ChatGPT Free. Esto permitirá que un mayor número de personas puedan experimentar las capacidades avanzadas de razonamiento y procesamiento de este modelo, aunque en una versión más ligera y económica.

Según lo declarado por OpenAI, en un futuro cercano se espera agregar también funciones como navegación, carga de archivos e imágenes para hacer que los modelos sean más útiles para todos. Además, planean continuar desarrollando y lanzando modelos de la serie GPT, así como la nueva serie OpenAI o1.

Reflexiones Finales

OpenAI continúa empujando los límites de lo que es posible, ofreciendo herramientas cada vez más poderosas que pueden abordar problemas complejos con un nivel de razonamiento similar al humano. Sin embargo, este avance también trae consigo desafíos que deben ser abordados con cuidado.

Es esencial encontrar un equilibrio entre la eficiencia y la seguridad, asegurando que estas tecnologías se desarrollen de manera responsable. La transparencia en cómo las IA toman decisiones y la mitigación de riesgos como el «reward hacking» son aspectos cruciales para generar confianza entre los usuarios y la comunidad en general. Aunque Strawberry no es perfecto y no es la mejor opción para todas las aplicaciones, su desarrollo marca un paso adelante hacia sistemas más avanzados y capaces.

Si tienes una suscripción a ChatGPT, ¡debes probarlo!

Un Saludo 😉

Post Views: 327