EMO AI: Conoce a la IA de Alibaba que le da vida a tus fotos
Alibaba, el gigante chino del comercio electrónico, dio un paso que sorprendió a muchos expertos y entusiastas al introducir EMO AI. El nombre hace referencia a Emote Portrait Alive y se traduce como tecnología basada en inteligencia artificial para crear vídeos a partir de fotografías. EMO es la IA innovadora de Alibaba y está ingresando a un mercado que no parece estar saturado de servicios impulsados por IA. ¡Sigue leyendo para saber más!
¿Qué es EMO AI?
Emote Portrait Alive (EMO) es una inteligencia sintética que le permite crear videos de retratos a partir de imágenes y archivos de voz. Pero lo mejor son los resultados. La sincronización de labios es excelente, al igual que las expresiones faciales, que se pueden ajustar según el tono de voz.
EMO fue desarrollado por Lingrui Tian, Qi Wang, Ban Zhang y Lifeng Bo del Instituto de Inteligencia Computacional del Grupo Alibaba. Al igual que Sora, actualmente es una herramienta de investigación y no se utiliza mucho. Dan muchos ejemplos con diferentes posibilidades.
Además de observar a personas cantando o hablando, también encontramos ejemplos en los que la imagen misma creaba un vídeo de una persona enojada, feliz o perdida en sus pensamientos. EMO AI puede crear videos verticales de diferentes duraciones, dependiendo de la duración del archivo de audio a partir del cual se crea.
Tal y como explican los investigadores, la coherencia de los personajes se mantiene a lo largo de toda la película. Lo que hace EMO AI es dar vida a cualquier fotografía, creando un vídeo increíblemente realista de la persona representada hablando o cantando. Alibaba ha creado el sitio web oficial de EMO AI, que demuestra plenamente cómo la inteligencia artificial puede realizar esta tarea y sobre todo proporciona ejemplos de diferentes aplicaciones de esta herramienta.
¿Cómo se usa la Magia de EMO AI?
El proyecto fue desarrollado por Lingrui Tian, Qi Wang, Ban Zhang y Lifng Bo, investigadores del Instituto de Inteligencia Computacional de Alibaba. Este equipo presentó al mundo una inteligencia artificial capaz de enfrentarse a Sora, un proyecto de OpenAI. Según el equipo de investigación, EMO AI puede crear movimientos faciales expresivos, naturales y fluidos.
Todo ello hace que el resultado sea tremendamente realista, la imagen cobra vida con una serie de elementos que revelan su origen. Tiene sentido que todo esto esté dentro de un marco que tenga en cuenta otras herramientas diseñadas para esta tarea. Lo que puedes leer en el sitio web oficial de la EMO explica completamente cómo funciona.
El modelo que desarrollaron para permitir que EMO entregue resultados realistas se debe a que puede capturar toda la gama de expresiones humanas. EMO se desarrolló para servir como otro ejemplo del potencial de la IA y aún no está disponible, pero es importante señalar que su uso debe respetar los límites éticos y evitar situaciones como ésta.
¿Cómo funcionan EMO AI?
Básicamente, esta nueva IA nos brinda una herramienta para convertir imágenes fijas en videos. Esto puede proporcionar una versión animada de esta foto en una variedad de situaciones, ya sea cantando o hablando animadamente. Todo ello ajustando fielmente la apariencia original de la imagen y transfiriéndola a un vídeo generado generativamente mediante IA.
La duración del vídeo puede ser cualquiera, aunque también dependerá del audio que queramos añadir a la imagen original, así que ajusta el vídeo para que se ajuste a la pista de audio. Sus creadores nos han mostrado varios tipos de inteligencia artificial, mostrando imágenes fijas convertidas en vídeos.
En las mismas no sólo gesticulan mientras hablan, sino que también se transforman en cantantes con una apariencia muy singular y fiable. Por tanto, la inteligencia artificial puede combinar tanto la imagen de entrada como la duración del audio original con un nuevo vídeo generado sintéticamente.
El proceso detrás de EMO AI es fascinante y complejo. A diferencia de los métodos anteriores que requieren modelos 3D o puntos de referencia faciales, EMO utiliza síntesis directa de audio y vídeo. Utiliza un modelo de transmisión entrenado en más de 250 horas de video que incluye discursos, películas, programas de televisión y presentaciones musicales.Este enfoque permite a EMO capturar no sólo movimientos suaves y expresiones faciales sino también rasgos de personalidad asociados con el habla natural.
Crea videos animados con solo una foto
Esta IA también puede crear videos a partir de imágenes en cualquier idioma. El vídeo resultante muestra así a una persona hablando un idioma diferente y gesticulando perfectamente, como si se tratara del discurso original. Hay muchos ejemplos dados por Alibaba, con fotografías en blanco y negro y en color de estrellas de cine y gente corriente.
Incluso, personajes de dibujos animados, transformados en personajes de dibujos animados y que parecen completamente reales. No es una IA impresionante como Sora de OpenAI, pero ciertamente nos muestra que cada vez más jugadores están adoptando la ola de IA y, por supuesto, los asiáticos tienen un mercado enorme para soluciones.
Oye, cada una de estas soluciones se está volviendo cada vez más popular. . común en nuestra vida diaria. Esta es una nueva herramienta para crear retratos y videos a partir de audio, por lo que será una manera fácil de darle vida a tus fotos con audio personalizado.
Y, por supuesto, una nueva herramienta que muestra un gran problema al que nos enfrentaremos a diario en el futuro será Deppfake, ya que herramientas cada vez más avanzadas pueden crear vídeos creíbles de muchas fuentes diferentes. En este caso con imágenes y clips de audio, o en el caso de Sora con unas simples líneas de texto. Esta tecnología de Alibaba actualmente es solo experimental y parece que no tenemos ninguna herramienta de acceso masivo cerca.
Cuestiones éticas y el futuro
Sin embargo, no todo es color de rosa y aquí es donde entra en juego el uso juicioso de imágenes resucitadas de los difuntos. Además de la posibilidad de que los EMO AI se hagan pasar por otros o difundan información falsa, esto plantea graves cuestiones éticas;
La capacidad de cualquier imagen para hablar o cantar podría usarse de manera poco ética, generando preocupaciones sobre la privacidad, la seguridad y la integridad de los datos. Aunque la herramienta no se ha puesto a disposición del público, existe un debate continuo sobre sus implicaciones y es esencial establecer un marco ético y legal para su uso.
Aún no hay fecha de lanzamiento ni de aplicación, pero por ahora, es posible que te sorprendas, incluso después de haber escapado del horror, por la capacidad de la IA para transformar la realidad en formas que antes eran inimaginables. Se trata de un paso más, nuevo cada día, que confirma que 2024 será el año del lanzamiento y consolidación definitiva de la inteligencia artificial en nuestras vidas y en la mayoría de sectores económicos e industriales.