Todo Sobre GPT-5: Características y Avances del Nuevo Modelo de OpenAI

abril 23, 2024

Las redes sociales están alborotadas con rumores de un anuncio importante de OpenAI. Este interés se ha visto avivado por el éxito del modelo Llama 3 de Meta (con un modelo aún más grande previsto para julio).

¿Qué sabemos sobre GPT-5?

View this post on Instagram

A post shared by OpenAI (@openai)

Sabemos muy poco sobre GPT-5 ya que OpenAI ha mantenido en gran medida en secreto el rendimiento y la funcionalidad de su modelo de próxima generación. Sabemos que será “material mejor”, ya que Altman ha hecho esa declaración más de una vez en entrevistas.

Es muy probable que sea multimodal, lo que significa que puede tomar entradas de más que solo texto, aunque en qué medida, no está claro.

Cada nuevo modelo de lenguaje grande de OpenAI es una mejora significativa sobre la generación anterior en razonamiento, programación, conocimiento y conversación. GPT-5 no será una excepción.

Ha estado en entrenamiento desde finales del año pasado y tendrá o bien significativamente más de los 15 billones de parámetros en GPT-4, o un número similar pero con una arquitectura subyacente más robusta que permita una mejora de rendimiento importante sin aumentar el tamaño total del modelo.

Esto es algo que hemos visto de otros, como con su modelo Llama 3 de 70B, un modelo mucho más pequeño que los similares a GPT-3.5 pero que rinde a un nivel parecido en pruebas de referencia.

Se espera que Chat GPT-5 también sea multimodal, lo que significa que puede dar entradas de más que solo texto, aunque en qué medida, no está claro. Los modelos Gemini 1.5 de Google pueden comprender texto, imágenes, video, habla, código, información espacial e incluso música. Es probable que GPT-5 tenga capacidades similares.

¿Qué será capaz de hacer GPT-5?

Uno de los cambios más significativos que podríamos ver con GPT-5 en comparación con versiones anteriores es un cambio de enfoque de chatbot a agente. Esto permitiría que el modelo de IA asignara tareas a subos o se conectara a diferentes servicios y realizara acciones en el mundo real por sí mismo.

Esta es un área que toda la industria está explorando y es parte de la magia detrás del dispositivo de IA Rabbit r1. Permite al usuario hacer más que simplemente hacerle una pregunta a la IA; podrías pedirle a la IA que maneje llamadas, reserve vuelos o cree una hoja de cálculo a partir de datos recopilados en otro lugar.

Un uso potencial para agentes está en la gestión de tareas cotidianas de la vida. Podrías darle a ChatGPT con GPT-5 tus requisitos dietéticos, acceso a la cámara de tu refrigerador inteligente y a tu cuenta de la tienda de comestibles, y podría hacer pedidos automáticos sin que tengas que intervenir.

Creo que esto es poco probable que suceda este año, pero los agentes es ciertamente la dirección hacia la que se dirige la industria de la IA, especialmente a medida que más dispositivos y sistemas inteligentes se conectan.

¿En qué medida será diferente GPT-5?

Una de las cosas que podríamos ver con GPT-5, especialmente en ChatGPT, es que OpenAI siga el ejemplo de Google con Gemini y le dé acceso predeterminado a internet. Esto eliminaría el problema del corte de datos en el que solo tiene conocimientos tan actualizados como su fecha de finalización de entrenamiento.

Es probable que la multimodalidad expandida también signifique que interactuar con GPT-5 con voz, video o habla se convierta en algo predeterminado en lugar de una opción adicional. Esto facilitaría que OpenAI convirtiera a ChatGPT en un asistente inteligente similar a Siri o Google Gemini.

Finalmente, creo que la ventana de contexto será mucho más grande de lo que es actualmente. En este momento es de aproximadamente 128,000 tokens, que es la cantidad de la conversación que puede almacenar en su memoria antes de olvidar lo que dijo al principio de una charla.

Ya estamos viendo algunos modelos como Gemini Pro 1.5 con una ventana de contexto de más de un millón, y estas ventanas de contexto más grandes son esenciales para el análisis de video debido a los puntos de datos aumentados de un video en comparación con un texto simple o una imagen estática.

Saca a los robots

Una de las tendencias más importantes en la IA generativa del año pasado ha sido proporcionar un cerebro para los robots humanoides, permitiéndoles realizar tareas por sí mismos sin que un desarrollador tenga que programar cada acción y comando antes de que el robot pueda llevarlo a cabo.

OpenAI ha invertido fuertemente en la startup de robótica Figure, utilizando GPT-4 para alimentar el Figure 01, y es probable que GPT-5 tenga cierta conciencia espacial como parte de su entrenamiento para hacer esto aún más confiable y capaz, entendiendo cómo los humanos interactúan con el mundo.

Nvidia también está trabajando en modelos de IA en este espacio que estarán ampliamente disponibles, y el fundador de la startup de IA AI21, el profesor Amnon Shashua, ha lanzado Mentee Robotics para crear robots impulsados por GenAI que podrían encontrar su camino en hogares y lugares de trabajo tan pronto como el próximo año.

Google también está construyendo robots alimentados por IA generativa que podrían usar futuras versiones de los modelos Gemini, especialmente con ventanas de contexto masivas; y Meta está entrenando a Llama para entender información espacial para dispositivos AR basados en IA más competentes como las gafas inteligentes.

Qué significa todo esto

Esencial, estamos empezando a llegar a un punto, como predice el científico jefe de IA de Meta, Yann LeCun, donde toda nuestra vida digital pasa a través de un filtro de IA. Los agentes y la multimodalidad en GPT-5 significan que estos modelos de IA pueden realizar tareas en nuestro nombre, y los robots ponen la IA en el mundo real.

OpenAI enfrenta una competencia creciente de modelos de código abierto de empresas como Mistral y Meta, además de competidores directos como Anthropic con Claude y Google con Gemini. Luego está Microsoft, que se aleja de su dependencia de OpenAI, aunque todavía creo que OpenAI estará presente en Build 2024 en mayo.

Antes de que veamos GPT-5, creo que OpenAI lanzará una versión intermedia como GPT-4.5 con datos de entrenamiento más actualizados, una ventana de contexto más grande y un rendimiento mejorado. GPT-3.5 fue un avance significativo desde el modelo básico GPT-3 e inició ChatGPT.

Altman dice que tienen una serie de modelos y productos emocionantes para lanzar este año, incluyendo Sora, posiblemente el producto de voz de IA Voice Engine y alguna forma de modelo de lenguaje de IA de próxima generación..