0
0
Dias
0
0
Horas
0
0
Minutos
0
0
Segundos

OpenAI ha revelado las capacidades de voz de GPT-4 Omni, las cuales son verdaderamente impresionantes

mayo 13, 2024

OpenAI lanzó GPT-4 Omni (GPT-4o) en su evento de Actualización de Primavera, celebrado en San Francisco un lunes por la mañana. Mira Murati, la Directora de Tecnología de OpenAI, junto con su equipo, presentó este nuevo modelo emblemático, destacando su capacidad para mantener conversaciones verbales en tiempo real, asemejándose asombrosamente a la comunicación humana.

Anuncio
 

Murati resaltó la velocidad y eficiencia mejorada de GPT-4o, señalando un avance significativo hacia una colaboración futura donde las interacciones serán más naturales y fluidas. “GPT-4o lleva la inteligencia al nivel de GPT-4, pero con una velocidad superior”, expresó Murati. La voz de GPT-4o, inspirada en la de Scarlett Johansson, como se evidenció en sus emocionales y convincentes demostraciones, emula la participación emocional y la adaptabilidad en las conversaciones, identificando incluso el tono emocional de los usuarios.

La funcionalidad de GPT-4o va más allá del audio, ya que este modelo puede procesar texto, audio y visión, lo cual representa una mejora significativa respecto a las capacidades de procesamiento dividido de versiones anteriores. Esto implica una respuesta más ágil y eficaz, incluso permitiendo al usuario interactuar verbalmente mientras utiliza la cámara de su móvil para presentar problemas visuales, por ejemplo, de matemáticas. La aplicación de GPT-4o en MacOS ya está disponible para usuarios de pago y se espera que esté accesible para los usuarios gratuitos eventualmente, facilitando la interacción directamente desde las computadoras de escritorio y ofreciendo una experiencia de usuario mejorada y sin trabas.

Durante la presentación, el personal de OpenAI, Mark Chen y Barret Zoph, demostraron la versatilidad y capacidad de respuesta del modelo en una serie de escenarios en tiempo real, mostrando sus habilidades en contar historias, resolver problemas matemáticos y adaptarse a cambios súbitos en la dirección de la conversación. Pese a algunos desafíos para entender la intención del usuario en momentos específicos, GPT-4 Omni manejó estas situaciones con destreza.

GPT-4o también ha sido probado en el dominio de los chatbots bajo el pseudónimo “soy-también-un-buen-chatbot-gpt2” en la arena de chatbot de LMSYS Org, superando incluso a modelos líderes en la industria como GPT-4 Turbo y Claude 3 Opus según menciona un tweet de un miembro del equipo de OpenAI. Esto señala un punto de inflexión significativo en la evolución de los chatbots de IA, superando problemas de latencia y ofreciendo una interacción más fluida y natural, imaginable en futuras versiones de asistentes virtuales como Siri.

La innovación continua de OpenAI se destacó en esta demostración, reforzando su posición como líder en el avance de la inteligencia artificial. Aunque queda por ver si la presentación refleja completamente las capacidades de GPT-4o sin ocultamientos, la expectativa es alta respecto a lo que esta tecnología promete para el futuro de la interacción humano-computadora.

Post
Filter