Sora AI: El nuevo modelo de OpenAI de texto a video
| |

Sora AI: El nuevo modelo de OpenAI de texto a video

Sora AI: El nuevo modelo de OpenAI de texto a video

Los chatbots de OpenAI pueden ayudarte a aprobar la universidad si lo deseas. Al parecer ahora podrás también una nueva aplicación OpenAI llamada Sora AI espera ayudarte a dominar el cine sin tener que ir a la escuela de cine. Sora, que sigue siendo un producto de investigación, se centra en que varios fabricantes y varios expertos en seguridad trabajen juntos para encontrar vulnerabilidades de seguridad. ¡Sigue leyendo para saber más!

¿Qué es Sora AI?

Sora AI es una herramienta de IA generativa que puede ayudarte a crear videos de hasta 60 segundos con imágenes muy realistas. Todo esto lo hace en poco tiempo y siguiendo todas tus indicaciones dadas en texto. OpenAI planea ponerlo a disposición de todos los autores potenciales en una fecha desconocida, pero ha decidido mantenerlo en versión preliminar. 

Otras empresas, desde gigantes como Google hasta nuevas empresas como Runway, también han presentado proyectos de inteligencia artificial de texto a video. Pero OpenAI dice que lo que distingue a Sora es su increíble fotorrealismo (algo que no se ve en productos de la competencia) y su capacidad para generar clips más largos que los clips más cortos que normalmente producen otros modelos, de hasta un minuto. 

Los investigadores que entrevistamos no dijeron cuánto tiempo llevaría reproducir un video completo, pero describieron presionarlo como «salir a tomar un burrito» en lugar de «tomarse unos días libres». Si puedes creer en los ejemplos cuidadosamente seleccionados que he visto, vale la pena el esfuerzo. OpenAI no me permitió escribir un tutorial, pero compartí cuatro ejemplos de las potentes funciones de Sora AI. 

Nadie se acercó al límite estimado de un minuto; el más largo fue de 17 segundos. El primero surgió de instrucciones detalladas, como la meticulosa preparación de un guionista. “La hermosa ciudad cubierta de nieve de Tokio está llena de actividad. La cámara se mueve por las concurridas calles de la ciudad, siguiendo el clima nevado de la ciudad, y sigue a varias personas comprando en los puestos cercanos. «Preciosos pétalos de cerezo revolotean con el viento junto con los copos de nieve».

¿Cómo funciona Sora AI?

¿Cómo funciona Sora AI?

El resultado es una visión convincente de cómo será Tokio en ese momento mágico en el que coexisten la nieve y los cerezos en flor. La cámara virtual sigue a la pareja mientras caminan lentamente por el paisaje urbano, como si estuvieran conectadas a un dron. Uno de los transeúntes lleva una máscara. A la izquierda, los coches pasan a toda velocidad por la carretera que bordea el río, y a la derecha, las pequeñas tiendas se alinean y los compradores van y vienen. 

Con la cámara virtual todavía grabando, sólo después de ver el clip unas cuantas veces te das cuenta de lo improbables que son los personajes principales (una pareja caminando por una acera cubierta de nieve). La acera en la que vivo parece un callejón sin salida. Tuvieron que saltar una pequeña valla hasta llegar a un extraño pasillo paralelo a la derecha. 

A pesar de estos pequeños defectos, El modelo de Tokio es un gran ejercicio de construcción del mundo. En el futuro, los diseñadores de producción debatirán si se trata de una contribución poderosa o de un factor que acaba con el empleo. Además, las personas en este vídeo, creado íntegramente por redes neuronales digitales, no presentan primeros planos ni muestran emociones. Sin embargo, el equipo de Sora AI dice que ha habido casos en los que actores falsos han mostrado emociones reales.

Otros clips también son impresionantes, en particular «una toma animada de un monstruo bajo y peludo arrodillado junto a una lámpara carmesí», junto con pistas detalladas de la escena y descripciones de imágenes. Cuando se estrenó la última película se habló mucho de lo difícil que era para Pixar crear texturas muy complejas. 

Características de Sora AI

Características de Sora AI

La habilidad más sorprendente de Sora es una para la que no está entrenado. Utilizando el pintor Dalle-3 de OpenAI y una versión del modelo de difusión utilizado en el motor basado en transformador GPT-4, Sora no solo produce videos que cumplen con los requisitos de orientación, sino que también demuestra una comprensión cada vez mayor de ellos. Gramática cinematográfica. 

Es un regalo para las historias. Se creó otro vídeo a partir de solicitudes de «un mundo de papel bellamente ilustrado de arrecifes de coral llenos de peces coloridos y vida marina». Bill Peebles, otro investigador del proyecto, señala que Sora creó un impulso narrativo a través de los ángulos y la sincronización de la cámara. “En realidad, el escenario ha cambiado bastante. No están relacionados entre sí, sino que el modelo los genera sobre la marcha», afirma. «No le dije que hiciera eso. Lo hizo automáticamente».

En otro ejemplo, Sora AI recreó un zoológico. Comenzó poniendo el nombre del zoológico en un cartel grande, el video se desplazó gradualmente y luego en las otras escenas se reflejó la variedad de animales que viven en el zoológico. La hizo lucir hermosa y definitivamente fue una película que no debería haber hecho

Una característica de Sora que el equipo de OpenAI no ha demostrado y que puede que no publique durante algún tiempo es la capacidad de crear un vídeo a partir de una sola imagen o una serie de fotogramas. «Esta será otra forma divertida de mejorar la narración», dice Brooks. OpenAI reconoce que esta característica tiene un potencial significativo para generar información falsa y desinformación.

Limitaciones de este modelo

Sora AI tiene las mismas restricciones de contenido que Dall-E 3. Eso significa que no hay violencia, ni pornografía, ni suplantaciones de personas reales ni el estilo de artistas nombrados. Además, al igual que Dall-E 3, OpenAI permite a los espectadores determinar los resultados generados por la IA. Pero OpenAI dice que la seguridad y la confiabilidad son problemas constantes en muchas empresas. «Abordar la desinformación requiere cierta moderación de nuestra parte, pero también requiere comprensión pública, y las redes sociales deben adaptarse a eso», dijo Aditya Ramesh, investigador principal y jefe del equipo de Dall-E. 

Otro problema potencial es si el contenido del vídeo de Sora infringe el trabajo protegido por derechos de autor de otra persona. Los datos de entrenamiento provienen de contenido disponible públicamente, así como de contenido bajo licencia, según Peebles. En el centro de las muchas demandas contra OpenAI está si el contenido protegido por derechos de autor disponible públicamente es un tema válido para la capacitación en IA.

Pasará mucho tiempo antes de que la conversión de texto a vídeo se convierta en una amenaza para el cine real. No, no puedes combinar 120 clips de Sora de un minuto para hacer una película coherente. Esto se debe a que los modelos no responden a las señales de la misma manera. La continuidad es imposible. Pero los límites de tiempo no son un obstáculo para que Sora y programas similares transformen TikTok, Reels y otras plataformas sociales.

«El cine profesional requiere muchos equipos costosos«, afirma Peebles. «Este modelo permite al creador promedio de videos de redes sociales crear contenido de muy alta calidad». Por ahora, OpenAI tiene la difícil tarea de asegurarse de que Sora AI no se convierta en un desastre de desinformación. Pero comienza la larga cuenta atrás hasta que el próximo Christopher Nolan o Celine Song gane una estatua.

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *