Chat GPT-4o: La nueva versión de IA de OpenAI
Open AI, el creador de Chat GPT, ha anunciado que un nuevo modelo de IA llamado GPT-4o es capaz de mantener conversaciones de voz realistas que interactúan a través de texto y video. Esto le permite obtener resultados en tiempo real y sin demora. Los investigadores utilizaron modelos de IA actualizados para proporcionar ecuaciones matemáticas, análisis de datos gráficos y traducción de idiomas en tiempo real.
¿Qué es GPT-4o?
Chat GPT-4o es una versión nueva y mejorada de GPT-4. Esto significa que la tecnología subyacente es la misma y tiene muchas similitudes con la inteligencia artificial que puedes encontrar en Copilot u otras soluciones GPT-4 gratuitas. Sin embargo, esta sigue siendo una versión nueva, lo que también significa que hay muchas mejoras internas que permiten algunos saltos evolutivos interesantes. De hecho, esta versión es bastante revolucionaria.
Si no lo recuerda o no lo sabe, GPT es el motor de inteligencia artificial de Chat GPT. Estos hechos artificiales incluyen tecnología y diversas opciones. La versión gratuita de Chat GPT incluye GPT-3.5 y la opción de pago GPT-4. Para Chat GPT-4o, este es un salto revolucionario porque tiene baja latencia, permite la interacción en tiempo real y es inherentemente multimodal.
Esto significa una funcionalidad mejorada para texto, audio e imagen. Una de las mejores cosas de este nuevo modelo es que es gratuito para todos los usuarios de Chat GPT. Esto significa que este será uno de los mayores saltos evolutivos en IA para usuarios gratuitos. Sin embargo, una vez que se lance, llegará primero a los usuarios de pago.
¿Cuáles son las mejoras en Chat GPT 4-o?
Una de las innovaciones clave en esta versión es «capacidades mejoradas de texto, imagen y audio», dijo la gerente técnica Mira Murati en un anuncio oficial en línea. El director ejecutivo de OpenAI, Sam Altman, confirmó que este modelo «multimodo» ya está en uso y también está disponible para los usuarios del plan gratuito. Anteriormente, esta opción sólo estaba habilitada para suscriptores mensuales. Según los dirigentes de la empresa, esto es coherente con su misión.
Diferencias entre GPT-4o y GPT-4
Una de las diferencias clave en la nueva versión GPT-4o es la latencia reducida, que proporciona una respuesta casi instantánea. Mientras que GPT-4 tarda una media de 5 segundos en responder, Chat GPT-4o tarda una media de 320 milisegundos. Sin embargo, esto siempre depende de su solicitud.
Otra diferencia importante es el procesamiento multimodal. Entiende lo que escribes en texto y lo que envías en fotos, audio y vídeo. Entonces, la forma en que interactuamos con la IA usando este motor será muy flexible.
En la demostración, OpenAI demostró que el modelo puede reaccionar instantáneamente y dar diferentes tonos de voz, además de sonreír, cantar o mostrar diferentes estados de ánimo. Chat GPT-4o se integra en la aplicación Chat GPT y ofrece allí funcionalidad de ciencia ficción.
En primer lugar, cuando se trata de responder por voz, muestra emociones, lo que lo acerca más a la sensación de hablar con una persona real. También pueden interpretar sus expresiones faciales y decirle cómo se describe a sí mismo cuando está triste o feliz.
También se puede utilizar para realizar traducciones en tiempo real. Estas traducciones mantienen el tono. En otras palabras, si hablas mientras sonríes, Chat GPT traducirá mientras sonríes.
Chat GPT puede contar chistes, cantar canciones, crear frases sarcásticas, aprender idiomas y reaccionar ante lo que le muestras como lo hace un perro ante la cámara. La aplicación Chat GPT te convertirá en una película de ciencia ficción como «It».
¿Cómo acceder a GPT-4o?
Chat GPT-4o se está implementando actualmente para los usuarios de Chat GPT Plus y Teams, con prioridad para los usuarios pagos. Cuando se completa esta implementación, comienza el chat gratuito. Este es un «repetitivo» que solo tiene lugar con noticias e imágenes.
Los usuarios pagos seguirán disfrutando de beneficios, incluidos límites de reclamo más altos, que los usuarios gratuitos. También tendrás acceso a un modo de votación en vivo que estará disponible más adelante para usuarios pagos. y es gratis.
Meera Murathi, directora ejecutiva de Open AI Technology, dijo en el evento que el nuevo modelo será gratuito en esta nueva versión porque es más rentable que el modelo anterior de la compañía. Los usuarios pagos de Chat GPT-4o tendrán mayor capacidad y más margen de memoria que los usuarios gratuitos de la compañía, dijo.
El modelo GPT-4o estará disponible en Chat GPT la próxima semana. Además, los usuarios de Chat GPT ahora pueden acceder a la función «Buscar» que permite a Chat GPT mostrar información web actualizada. La compañía no tiene planes de monetizar a los usuarios gratuitos vendiendo anuncios, dijo el director de tecnología de la aplicación.
Las nuevas características de Chat GPT-4o
Historia fluida y conmovedora
Según OpenAI, la nueva tecnología puede responder a solicitudes de voz (como preguntas o comandos pronunciados en voz alta por un usuario) en un promedio de 320 milisegundos. Es similar al tiempo que le toma a un humano responder en una conversación en línea. Los usuarios pueden desactivar la IA en cualquier momento. Además, el modelo puede generar un discurso en diferentes estilos emocionales, como «dramático» o «sarcástico».
Posee visión real
Uno de los vídeos que demuestra la nueva tecnología muestra a una inteligencia artificial explicando a los usuarios el comportamiento de los patos en un lago en tiempo real o advirtiéndoles cuando se acerca un taxi.
El Chat GPT-4o puede leer e interpretar las imágenes que aparecen en la cámara. Las emociones también se pueden reconocer en las expresiones faciales. Esta función fue diseñada en colaboración con Be My Eyes, una aplicación de citas diseñada para ayudar a las personas con discapacidad visual.
Traducción en tiempo real
Incluso si se producen errores, GPT4o puede actuar como traductor en conversaciones entre dos personas que no hablan el mismo idioma. La IA también puede utilizar modelos de procesamiento de imágenes para indicar a los usuarios qué objetos específicos muestra la cámara en diferentes idiomas.
Ayuda matemática
GPT-4o puede ayudar a los usuarios a completar tareas matemáticas, cómo resolver ecuaciones, sin tener que decir la respuesta. Por ejemplo, según la demostración de la empresa, un estudiante de GPT-4o puede analizar un problema de trigonometría en un libro de texto y la IA le hará preguntas y corregirá cualquier error.
Crea una foto
La nueva versión de Chat GPT incluye funciones de herramientas de creación de imágenes como Dall-E (también disponible en OpenAI). Por ejemplo, puede crear una imagen con comandos de texto, convertir una foto en una caricatura o crear un póster de película convirtiendo imágenes e ideas en texto personalizado.
Las fallas del nuevo modelo
La demostración no salió bien. En un momento, la IA confundió a un conductor sonriente con una cara de madera. En otro caso, me propuse resolver una ecuación que aún no se había mostrado.
James O’Donnell, reportero de inteligencia artificial de MIT Technology Review, escribió sobre la demostración: «La voz de GPT-4o pareció mezclarse torpemente en la conversación y comentar sobre la ropa de uno de los conductores sin previo aviso». Esto demostró inadvertidamente que los chatbots todavía tienen un largo camino por recorrer para abordar los fallos y alucinaciones que los hacen poco fiables y potencialmente peligrosos.
Pero los lanzamientos recientes muestran hacia dónde se dirige OpenAI. Transformando Chat GPT en un asistente virtual como Siri o Hey Google. El editor de la BBC, Zoe Kleinman y GPT-4O, administra el control de texto, el audio y las fotos en una respuesta pública a la competencia.
Por supuesto, solo la imagen y la demostración de la compañía fueron preparadas y organizadas en ese momento.