Gemini 1.5 AI: Llega la nueva actualización de la IA de Google
Google sigue ampliando su proyecto de inteligencia artificial, Gemini, esta vez para desarrolladores (de momento sólo abierto a un grupo selecto) y pretende cerrar la brecha. Chat GPT es mucho más popular entre los desarrolladores. Ahora disponible en OpenAI (aprobado por Microsoft). Este nuevo producto, Gemini 1.5 AI, puede procesar simultáneamente grandes cantidades de información, incluyendo 1 hora de vídeo, 11 horas de audio, 30.000 líneas de código o más de 700.000 palabras. ¡Sigue leyendo!
Se ha lanzado Gemini Pro 1.5 AI
Demis Hassabis, director ejecutivo de Google DeepMind, que desarrolló el nuevo modelo, compara su capacidad para procesar cantidades masivas de datos con la memoria de trabajo humana, que estudió como neurocientífico hace años. En una demostración, Google mostró a Gemini Pro 1.5 analizando un archivo PDF de 402 páginas de registros de comunicaciones del Apolo 11, pidiendo al modelo que encontrará chistes o frases divertidas y mostrando diferentes momentos en los que los astronautas dijeron que las comunicaciones estaban retrasadas.
Las versiones anteriores de Gemini sólo podían responder estas preguntas en cantidades mucho más cortas de texto o vídeo. Google espera que la nueva función permita a los desarrolladores crear nuevos tipos de aplicaciones basadas en plantillas. «Es realmente mágico ver al modelo haciendo este tipo de pensamiento en cada página y cada palabra», dijo el investigador de Google DeepMind, Oriol Viñales.
Google quiere liderar la IA
No es ningún secreto que Google está pasando por un momento difícil en la carrera por convertirse en líder del mundo de la inteligencia artificial. Mountain View tiene bajo su protección algunos de los laboratorios más reconocidos en el campo, pero sus esfuerzos por establecerse parecen haber sido infructuosos. Gemini 1.5 se esfuerza por brindar lo mejor de Google a los usuarios, desarrolladores y empresas en una industria altamente competitiva.
En una publicación de blog, la empresa promovió Gemini 1.5 AI como una solución que es a la vez un asistente personal y una herramienta empresarial. Esta definición es interesante dado que, como señala mi colega Ricardo Aguilar, Gemini 1.0 no es el mejor sustituto del Asistente de Google en Android. Hablando de gemelos, hay tres versiones diferentes de uno. Diseñado para ejecutarse de forma nativa en dispositivos, Nano Pro es una versión gratuita disponible para todos los usuarios, mientras que Ultra está disponible como Gemini Advance y se puede acceder a él mediante una tarifa.
Una de las mejoras más notables de Gemini 1.5 es que la versión Pro ahora está a la par de la versión Gemini 1.0 Ultra (la versión más avanzada hasta hace unos minutos). Esto significa que los usuarios pueden acceder a un modelo más avanzado con una barrera de entrada con una suscripción mensual a Google One AI Premium de $19,99. Gemini 1.5 AI, al igual que su predecesor, es multimodo. Esto significa que hay más que solo funcionalidad de texto. Por ejemplo, puede entender imágenes. Este modelo ahora viene con una arquitectura mejorada llamada Experto entre expertos (MoE), como se ve en el modelo Mixtral de Mistral AI.
Características y ventajas de Gemini 1.5 AI
La principal ventaja de BM es que se aproxima a modelos de lenguaje grandes de manera más eficiente. En enfoques anteriores, cuando surgía una pregunta, todo el modelo generalmente funcionaba para responder por nosotros. Gemini 1.5 ahora cuenta con «expertos» que se activan en función del tipo de pregunta que hacemos.
Por lo tanto, cuando haces una pregunta relacionada con un tema literario, solo se activan los expertos literarios del modelo. Otros expertos, como los expertos en programación, reconocimiento de imágenes y otras tareas, no están activos. En última instancia, esto significa importantes ahorros de costos y promete velocidades mucho más rápidas para los usuarios.Otra mejora significativa en Gemini 1.5 es la ventana contextual. El nuevo modelo de Google viene con una ventana de contexto predeterminada de 128.000 tokens, pero un «grupo limitado de desarrolladores y clientes empresariales» tendrá acceso a una ventana de contexto de 1 millón de tokens a través de las herramientas AI Studio y Vertex AI.
Comparar esto con el producto OpenAI muestra mejoras notables. La versión estándar de GPT-4 ofrece una ventana contextual de 8.000 tokens, pero existe una versión especial de 32.000 tokens y una versión de 128.000 tokens llamada GPT-4 Turbo. Este último está limitado a desarrolladores o clientes comerciales de pago. Los tokens son una forma de medir cuánta información puede absorber un modelo de IA a la vez, como leer varias páginas de un libro a la vez. Cuantos más tokens tengas, más datos podrás proporcionar.
Gemini 1.5 AI tiene buenas referencias
Según los puntajes del Gemini Pro 1.5 en varias pruebas de referencia populares, al menos funciona mejor para su tamaño. El nuevo modelo utiliza técnicas previamente ideadas por investigadores de Google para lograr un mejor rendimiento sin requerir más potencia informática. Una técnica llamada combinación experta hace que el entrenamiento y la ejecución sean más eficientes al activar selectivamente las partes de la arquitectura del modelo que mejor se adaptan a resolver una tarea particular.
Google afirma que el Gemini Pro 1.5 AI es mucho más pequeño, pero puede realizar muchas de las mismas tareas que su producto más potente, el Gemini Ultra. Hassabis dice que no hay razón para utilizar los mismos métodos utilizados para mejorar Gemini 1.5 AI para mejorar Gemini Ultra.
Géminis 1.5 AI para desarrolladores
Una versión avanzada de Gemini Pro está disponible para los desarrolladores a través de AI Studio, un espacio aislado para probar la funcionalidad del modelo, y para un número limitado de desarrolladores a través de la API de Google Vertex AI Cloud Platform. Aún no hay una fecha de lanzamiento general.
Google también está lanzando nuevas herramientas para ayudar a los desarrolladores a utilizar Gemini en sus aplicaciones, incluidas nuevas formas de utilizar el modelo para analizar vídeo y audio. La compañía también anunció que el proyecto agrega nuevas funciones, incluida la depuración de código y pruebas de inteligencia artificial, a IDX, una herramienta de codificación basada en web.
Gemini 1.5 AI es tan rápido como un startup
La tasa de actualización de Gemini es una señal de la carrera de IA desencadenada por el éxito de Chat GPT. A principios de esta semana, OpenAI anunció que ChatGPT podrá retener información útil de las conversaciones durante un período prolongado. La semana pasada, Google renovó su chatbot Bard y anunció que Gemini Ultra ahora está disponible como suscripción paga.
El sorprendente ritmo del progreso en la IA generativa choca con las preocupaciones sobre los riesgos que esta tecnología puede plantear. Google dijo que ha probado exhaustivamente Gemini Pro 1.5 y que brindar acceso limitado es una forma de recopilar comentarios sobre riesgos potenciales. La compañía también brindó a los investigadores del Instituto de Seguridad de Inteligencia Artificial del Reino Unido acceso a sus modelos más robustos para probarlos.