Moshi AI: Conoce la IA de voz avanzada de Kyutai
Kyutai, un startup francés respaldada por grandes nombres de la tecnología y las finanzas, lanzó Moshi AI, un asistente de inteligencia artificial que puede hablar y escuchar en tiempo real, similar a lo que OpenAI prometió GPT-4o, pero con latencia corta.
Imagine un modelo de inteligencia artificial que pueda expresar más de 70 emociones, hablar en una variedad de estilos e incluso imitar voces de manera convincente. Esto no es ciencia ficción; es Moshi, el último logro de Kyutai en tecnología de inteligencia artificial de voz. Echemos un vistazo a las características, desarrollos y potencial de esta interesante innovación.
¿Qué es Moshi AI?
Moshi es conocido por su asombrosa habilidad para transmitir emociones realistas y adaptar su voz a una variedad de situaciones. En una serie de actuaciones, Moshi hizo una transición fluida entre varios estilos de habla:
- La poesía tiene acento franc
- és: Cuando le pidieron a Moshi que adoptara un acento francés, recitó un poema sobre París que capturaba la naturaleza romántica de la ciudad. Esto demuestra que no sólo puede cambiar su tono sino también adaptarse a los matices culturales del contenido.
- Aventura pirata: Moshi se convirtió en un valiente pirata que contaba historias de valentía y aventuras a través de los siete mares. Esto demuestra su capacidad para retratar plenamente a un personaje con el tono y la energía adecuados.
- Susurros secretos: En otra demostración, Moshi susurró una historia misteriosa, demostrando su capacidad para transmitir suspenso y misterio. Estos ejemplos muestran cómo Moshi puede mejorar la experiencia interactiva haciendo que las conversaciones sean más atractivas y realistas.
¿Cómo funciona Moshi AI?
Durante la presentación, el equipo de Kyutai demostró el potencial de Moshi como entrenador o compañero, así como su creatividad a la hora de representar personajes en juegos de rol o históricos utilizando diferentes voces (incluso puede imitar voces).
Moshi es compacto y se puede instalar localmente para que pueda ejecutarse de forma segura en un dispositivo independiente. De esta manera, Kütai quiere contribuir a la investigación de la IA abierta y al desarrollo de ecosistemas. Este laboratorio fue establecido en 2023 por Iliad Group, CMA CGM y Schmidt Sciences.
El peso del código y del modelo pronto se distribuirá gratuitamente, es decir, el código fuente será de código abierto. Esto beneficiará tanto a los investigadores como a los desarrolladores de productos y servicios de voz, permitiéndoles explorar, modificar, ampliar o especializar tecnologías según sea necesario.
En su web, los desarrolladores explican que se trata de un modelo experimental y todo lo que nos dice «debe tomarse con cautela», es decir, no debe darse por sentado. Consejos generales a la hora de trabajar con IA ya que puede cometer algunos errores.
Los chats con Moshi están limitados a 5 minutos. Es compatible con todos los navegadores, aunque admiten que Chrome funciona mejor. Para usarlo y unirse a la lista de espera, debe proporcionar su dirección de correo electrónico y permitirle usar el micrófono de su dispositivo. De hecho, varios usuarios han publicado sus primeras experiencias con Moshi. Destaca por su velocidad, aunque sus capacidades aún son limitadas.
Moshi supera las limitaciones tradicionales
Los sistemas tradicionales de inteligencia artificial de voz enfrentan desafíos importantes, como la latencia y la pérdida de información no textual durante el procesamiento. Kütai resolvió estos problemas con un nuevo enfoque:
Red neuronal profunda integrada
En lugar de depender de modelos separados para cada tarea, Kutai combina todo en una red neuronal profunda. Esta integración reduce la latencia y mantiene la riqueza del lenguaje hablado que a menudo se pierde cuando se procesa solo texto.
Aprendizaje de voz
El modelo de Moshi se entrena en segmentos de voz anotados altamente comprimidos, lo que permite que el modelo comprenda la complejidad del habla, incluidas las características específicas del habla y las condiciones del sonido. Al eliminar estas limitaciones, Kyutai ha creado una inteligencia artificial que responde de forma más rápida y natural.
¿Cómo se construye Moshi AI?
Se utilizaron varias tecnologías avanzadas en el desarrollo de Moshi:
Modelo de lenguaje de audio
En lugar de entrenar solo con texto, el modelo de Moshi se entrena con datos de voz. La voz se comprime en pseudopalabras, que luego se utilizan para entrenar el modelo para predecir el siguiente clip de audio. Este enfoque permite que el modelo comprenda tanto el contenido como el contexto del lenguaje hablado.
Diálogo generalizado
Para enseñarle a hablar a Moshi, Kyutai creó diálogos sintéticos basados en un modelo de lenguaje textual. Luego, estas conversaciones se sintetizan utilizando un motor interno de conversión de texto a voz. Gracias a este método, Moshi aprendió a afrontar la dinámica real de una conversación. Este proceso de aprendizaje creativo le dio a Moshi una profunda comprensión del lenguaje natural y hablado.
Capacidades multimodales y multiproceso
Moshi es más que una simple IA de voz; Es un modelo multimodal capaz de manejar tanto texto como audio:
Texto pensado
Al hablar en voz alta, Moshi crea pensamientos por escrito. Este enfoque dual aumenta sus posibilidades de dar respuestas precisas y contextualmente apropiadas. Al pensar por escrito, Moshi puede organizar sus respuestas de manera más efectiva y aprovechar una base de conocimientos más rica.
Escuche y hable al mismo tiempo
Moshi admite audio de transmisión múltiple para que puedas escuchar y responder al mismo tiempo. Esta función simula conversaciones humanas naturales, que son propensas a distorsiones y palabras duplicadas.
A diferencia de los sistemas tradicionales que se basan en la detección de la actividad de la voz para dictar cambios, Moshi mantiene un flujo continuo de diálogo. Estas características hacen que la interacción con Moshi sea más fluida y realista.
Ejecutar en tu dispositivo
Uno de los aspectos más impresionantes de Moshi son sus capacidades en el dispositivo. En la demostración en vivo, Moshi se ejecuta en una MacBook Pro estándar sin conexión a Internet:
Computación en el dispositivo
Esta característica aborda las preocupaciones de privacidad y hace que la IA sea más accesible y receptiva en aplicaciones en tiempo real. Los usuarios pueden interactuar con Moshi sin tener que preocuparse por enviar datos a un servidor remoto.
Optimización móvil futura
Kutai planea optimizar aún más Moshi para dispositivos móviles, asegurando su adopción generalizada. Esto hará que Moshi sea aún más versátil y pueda usarse en una variedad de contextos, desde asistentes personales hasta herramientas de aprendizaje móviles.
Consideraciones éticas y de seguridad
Con un gran poder viene una gran responsabilidad. Kutai es muy consciente del posible abuso de la IA de voz avanzada con fines maliciosos como el phishing:
- Identificación de contenidos: Para mitigar este riesgo, Kutai ha implementado estrategias para identificar contenido generado por Moshi. Esto incluye mantener una base de datos de firmas de audio generadas y utilizar técnicas de marcas de agua para incrustar caracteres inaudibles en el audio.
- Investigación activa de seguridad de IA: Kyutai participa en una investigación continua de seguridad de IA para abordar problemas emergentes. Este enfoque proactivo garantiza que Moshi pueda utilizarse de forma responsable y ética.
Aplicaciones de Moshi AI
Las habilidades de Moshi abren todo un mundo de posibilidades:
- Atención al cliente: Los asistentes de IA impulsados por Moshi pueden brindar un servicio al cliente receptivo y eficiente, aumentar la satisfacción del usuario y reducir los tiempos de espera.
- Aprende idiomas: La capacidad de Moshi para imitar acentos nativos y transmitir emociones podría revolucionar el aprendizaje de idiomas, haciéndolo más divertido y eficaz.
- Atención sanitaria: En el sector sanitario, Moshi puede actuar como acompañante de los pacientes, proporcionándoles apoyo e información, además de adaptar su tono a las emociones del estado del usuario.
- Entretenimiento: En la industria del entretenimiento, Moshi puede animar personajes con una variedad de voces y emociones, enriqueciendo la narración interactiva.