Project Astra AI AI: El asistente futurista de Google
Olvídate de escribir recordatorios. La inteligencia artificial ahora es multimodal. Esto significa que podemos interactuar con él hablando como un asistente de voz o vía vídeo, reconociendo todo lo que está delante de la cámara. Google lo llama Project Astra AI.
Aunque Project Astra AI tiene previsto lanzar móviles y aplicaciones Gemini a finales de este año, lo cierto es que ya lo está haciendo muy bien. La versión multimodal de Gemini 1.5 Pro está lista, aunque la demo que nos mostró Google confirma que aún queda trabajo por hacer. ¡Sigue leyendo!
¿Qué es Project Astra AI?
Project Astra AI es como una versión supervitaminada de Google Lens. Enfocamos la cámara en algo y la IA lo reconoce y nos da una respuesta en tiempo real. Tenemos una habitación con algunos objetos, una pantalla y una cámara en el techo apuntando directamente debajo de la pantalla.
Durante la actuación podremos elegir algunos peluches y colocarlos debajo para que creen sus propias historias. Por ejemplo, un dinosaurio, un donut, una barra de pan o una herramienta. Podemos preguntarle sobre cualquier cosa y él nos responderá. Si agregamos un nuevo objeto, nos notificará inmediatamente al respecto.
Las respuestas llegan en tiempo real y funcionan como era de esperar. El objetivo del Project Astra AI es poner a prueba sus enormes capacidades. Para ver cómo colocamos un objeto y cómo lo reconoce.
Astra crea una historia basada en los objetos que ve frente a ella. Este es sólo un ejemplo, ya que también podemos pedirle que diga cuál es el más grande; que nos cuenten chistes sobre ellos mismos; nos habla de sus propiedades físicas o color. Date tantas ideas como sea posible.
Project Astra AI es la visión de Google para el futuro de los asistentes de IA
Si alguna vez has visto la película «Ella», entenderás que el personaje principal (interpretado por Joaquin Phoenix) interactúa de una manera muy humana y natural con una inteligencia artificial sintética, multifuncional y muy integrada con el mundo humano principal. la vida del personaje.
Si bien la progresión de la película y su final nos dan una visión inquietante del uso de esta tecnología, lo cierto es que, hasta cierto punto, este es el objetivo que las grandes empresas tienen en relación con el uso de la IA, es decir, la inteligencia artificial en general. (AIG).
Con el que podemos interactuar desde cualquier dispositivo y que puede facilitarnos y ayudarnos en infinidad de tareas en nuestro día a día. Para Google, la visión del futuro de la IA incluye el Project Astra AI. Es un asistente impulsado por IA que puede responder e interactuar con todo nuestro entorno utilizando cámaras y dispositivos. Estos manejan interacciones basadas en el lenguaje interno.
Este dispositivo puede ser un teléfono móvil, gafas inteligentes, tablet, Smart TV, ordenador o cualquier otro dispositivo. Esta inteligencia artificial siempre estará consciente del contexto de la conversación y de nuestro entorno. Utilizará las capacidades del dispositivo y dará respuestas basadas en el LLM (Large Language Model) que utiliza para la acción.
Características de Project Astra AI
Google enfatiza que los asistentes de IA deben tener aplicaciones del mundo real y “comprender y responder a un mundo complejo y dinámico como el de los humanos” para que sean verdaderamente útiles y relevantes para la vida de los usuarios. Google DeepMind desarrolló el Project Astra AI basándose en esta suposición.
Por lo que ha presentado Google, la tecnología detrás del agente de IA le dará la capacidad de aprender y recordar lo que ve y oye para comprender mejor el contexto en el que se utiliza, así como reaccionar a las solicitudes e interacciones de los usuarios.
Gracias a ello, serás más proactivo y absorberás nuevos conocimientos con mayor facilidad. Google está trabajando para optimizar los tiempos de respuesta y brindar conexiones sin demoras para una experiencia más personal e íntima. Admite que reducir los tiempos de respuesta de las llamadas es un desafío técnico difícil en los sistemas de inteligencia artificial.
El Project Astra AI aprovecha los avances del modelo de inteligencia artificial Gemini de Google y otros modelos diseñados para realizar tareas específicas. Los agentes pueden procesar información más rápido codificando continuamente cuadros de video. Esto lo hacen combinando entradas de video y voz en una línea de tiempo de eventos y almacenando estos datos en un buffer
De esta forma los asistentes de IA pueden memorizarlos de manera efectiva. La voz generada por este asistente de IA es también uno de sus logros más importantes. Google enfatiza que está trabajando para mejorar la naturalidad del habla mediante el uso de muestras conversacionales y agregando más entonación.
Los asistentes conversacionales de IA representan un hito importante en la carrera de la IA. Ayer, OpenAI presentó el nuevo modelo multimodal GPT-4o para Chat GPT. La natural capacidad conversacional de su asistente, demostrada en un evento que duró apenas 25 minutos, sorprendió al mundo. El futuro que Spike Jonze relató en la película de ciencia ficción Her hace casi 11 años ha llegado antes de lo que esperábamos.
Google Astra es atrevido pero a la vez muy básico
A diferencia de las demostraciones de OpenAI con GPT-4o, la voz de Astra la establece Google de forma predeterminada y tiene un tono más didáctico y menos encantador. La presentación de Google Astra fue impresionante por la enorme innovación que representó, pero está claro que la idea final es que pronto todos tengamos esta aplicación en nuestros teléfonos móviles y nos resulte trivial.
El Project Astra AI es un proyecto al que le ha ido bien, pero no se espera que se integre en la aplicación Gemini hasta finales de este año. Comparado con GPT-4o, el Project Astra AI no tiene ese factor sorpresa. En realidad, es una IA multimodal y hace lo mismo, sin embargo, los ejemplos elegidos en la demostración y las tasas de respuesta no son tan efectivos como lo que se observó usando el motor OpenAI.
Si bien GPT-4o afirma una latencia promedio de 320 milisegundos, Google no comparte el número. A fin de cuentas, no sería sorprendente que esta carrera de velocidad vaya y venga dependiendo de cuánto estés dispuesto a pagar. La verdadera revolución de GPT-4o es la capacidad de hablar con las máquinas como si nada hubiera pasado.
Aunque Google amaneció tarde con Bard y luego Gemini, la compañía sigue por buen camino, ofreciéndonos nuevos productos y servicios basados en el uso de inteligencia artificial. Durante la última presentación de I/O de Google, además de todos los nuevos modelos Gemini, la compañía nos dio una pequeña idea de su visión para el futuro de los asistentes de IA. A continuación te contamos todo sobre Project Astra, el asistente más innovador de la compañía.