V-JEPA: Meta presenta su modelo predictivo de aprendizaje
| |

V-JEPA: Meta presenta su modelo predictivo de aprendizaje

V-JEPA: Meta presenta su modelo predictivo de aprendizaje

Tras el lanzamiento de I-JEPA el año pasado, Meta lanzó V-JEPA, acelerando sus esfuerzos para hacer realidad la visión de Yann Lekun de inteligencia artificial avanzada. La declaración reitera el objetivo más amplio de mejorar la inteligencia artificial para imitar los procesos de aprendizaje humano mediante la construcción de modelos internos del mundo para facilitar el aprendizaje, la adaptación y la planificación eficientes de tareas complejas.

¿Qué es V-JEPA? 

V-JEPA es un modelo de visión que se entrena utilizando únicamente el objetivo de predicción de características. A diferencia de los métodos tradicionales de aprendizaje automático que se basan en codificadores previamente entrenados para imágenes, texto o anotaciones humanas, V-JEPA aprende directamente de los datos de video sin supervisión externa. 

Características clave de V-JEPA

Características clave de V-JEPA

Autoestudio

V-JEPA utiliza técnicas de aprendizaje autosupervisadas que mejoran la adaptabilidad y versatilidad en una variedad de tareas sin requerir datos etiquetados durante el entrenamiento.

Propósito de la predicción de funciones

V-JEPA prioriza la predicción de características de video en lugar de reconstruir imágenes o confiar en la predicción a nivel de píxeles. Este enfoque conduce a un aprendizaje más eficiente y a un mayor rendimiento en tareas posteriores.

Eficiencia

Con V-JEPA, Meta logra eficiencias significativas que requieren programas de capacitación más cortos en comparación con los métodos tradicionales de predicción de píxeles, manteniendo altos niveles de rendimiento. expresión integral

V-JEPA demuestra su eficacia en la captura de interacciones complejas en datos de vídeo, produciendo imágenes excepcionalmente versátiles para tareas basadas tanto en movimiento como en apariencia. 

Metodología V-JEPA

El modelo de IA se entrena utilizando el conjunto de datos VideoMix2M para rastrear pasivamente los píxeles de video sin instrucciones específicas. Con el objetivo de predecir características no supervisadas, V-JEPA se diferencia de los métodos existentes al aprender a predecir características a partir de videos sin depender de etiquetas o anotaciones externasEl modelo no utiliza codificadores de imágenes previamente entrenados, texto, muestras de voz, anotaciones humanas ni reconstrucción a nivel de píxeles durante el proceso de entrenamiento. V-JEPA se diferencia de los métodos generativos porque realiza predicciones en un espacio oculto en lugar de decodificar directamente información a nivel de píxeles. 

Se entrena un modelo de difusión condicional para decodificar las predicciones de este espacio de características en píxeles interpretables, y el código V-JEPA y la red de predicción previamente entrenada se congelan durante este proceso. Es importante destacar que el decodificador hizo predicciones aproximadas solo para las regiones faltantes en el video y no tuvo acceso a las regiones desenmascaradas. Esta técnica garantiza que las predicciones de características generadas por V-JEPA sean compatibles espacial y temporalmente con las partes ocultas de la imagen y contribuye a la capacidad de producir representaciones visuales integrales que funcionan bien en tareas posteriores de video e imagen sin ajuste del modelo. 

Ventajas sobre la predicción de píxeles

Ventajas sobre la predicción de píxeles

V-JEPA realiza predicciones en un espacio de escena abstracto, lo que le permite centrarse en la información conceptual de alto nivel de la imagen en lugar de perderse en detalles irrelevantes. El primer modelo de vídeo experto para «estimación congelada» que entrena previamente codificadores y predictores una vez y luego los mantiene ahí. Para aplicar este modelo a una nueva tarea, solo necesita entrenar una capa ligera de expertos en la parte superior, lo que hace que el proceso sea eficiente y rápido. 

A diferencia de los métodos anteriores que requieren un ajuste completo para cada tarea, el método V-JEPA permite reutilizar la misma parte del modelo para múltiples tareas sin necesidad de un entrenamiento especial cada vez, lo que muestra versatilidad en tareas como la clasificación del movimiento y la interacción. objetos. 

Rendimiento de V-JEPA

V-JEPA se entrenó en un gran conjunto de datos que consta de 2 millones de vídeos de conjuntos de datos disponibles públicamente. Luego evaluamos el modelo en una serie de operaciones secuenciales de imágenes y videos, mostrando un rendimiento general impresionante.

Comparar píxeles con predicciones

V-JEPA se evaluó utilizando un enfoque de video basado en predicción de píxeles, que proporciona una arquitectura consistente en las líneas de base. Modelos como VideoMAE, Hiera y OmniMAE se evaluaron utilizando codificadores ViT-L/16 o Hiera-L con configuraciones similares. 

La evaluación incluyó una revisión exhaustiva del siguiente trabajo de imágenes y videos, seguida de una evaluación privada con refinamientos finales. V-JEPA tuvo un buen desempeño en todas las tareas de evaluación estacionarias posteriores, excepto en ImageNet, logrando precisiones relativas del 74,8 % y 75,1 %, respectivamente, logradas por el modelo OmniMAE entrenado directamente en ImageNet. Según el protocolo de regularización, V-JEPA superó a otros modelos entrenados con ViT-L/16, igualando el rendimiento de Hiera-L y mejorando al mismo tiempo el rendimiento de la predicción de subrayado al utilizar significativamente menos muestras durante el entrenamiento previo. 

Principios de enseñanza

Este video compara el rendimiento del modelo V-JEPA previamente entrenado con modelos de imagen y video autosupervisados, más grandes y de última generación. Esta comparación incluye varios puntos de referencia: OpenCLIP, DINOv2 e I-JEPA para modelos previamente entrenados en imágenes, y VideoMAE, OmniMAE, Hiera, VideoMAEv2 y MVD para modelos previamente entrenados en videos. 

La evaluación incluyó una rigurosa evaluación ad hoc de las tareas posteriores de imagen y video, lo que demuestra una mejora constante de V-JEPA en todas las tareas, particularmente la superioridad en las tareas que requieren reconocimiento de acciones. Reduce efectivamente la brecha entre modelos de video e imágenes en tareas que requieren funciones basadas en renderizado estático. 

Casos de uso de V-JEPA

Casos de uso de V-JEPA

V-JEPA se destaca en la comprensión del contenido de varias transmisiones de video, lo que lo hace extremadamente útil para tareas de visión por computadora como clasificación de video, reconocimiento de movimiento y detección de movimiento espaciotemporal. La capacidad de capturar interacciones detalladas con objetos y distinguir movimientos detallados lo distingue en el campo de la comprensión de videos. 

La comprensión contextual del contenido de video de V-JEPA puede enriquecer las experiencias de AR al proporcionar información contextual relevante para el entorno del usuario. Ya sea mejorando las experiencias de juego o proporcionando superposiciones de información en tiempo real, V-JEPA puede contribuir al desarrollo de aplicaciones AR inmersivas. 

Un objetivo clave del desarrollo de V-JEPA fue capturar contenido de varias secuencias de vídeo para la percepción, es decir, la comprensión contextual inmediata del mundo que nos rodea. Los predictores en una arquitectura de predicción anidada colaborativa sirven como un modelo del mundo físico inicial que nos permite conceptualizar lo que sucede en un cuadro de video sin tener que analizar cada detalle. 

De cara al futuro, el objetivo de Meta es utilizar este modelo predictivo para tareas de planificación y toma de decisiones secuenciales, ampliando su utilidad más allá de la simple percepción. Como modelo de investigación, V-JEPA es prometedor para varias aplicaciones futuras. La comprensión contextual podría ser fundamental para los esfuerzos de IA y el desarrollo de asistentes de IA sensibles al contexto para futuras gafas de realidad aumentada (RA). Meta se centra en la ciencia abierta responsable y ha lanzado el modelo V-JEPA bajo la licencia CC BY-NC. Esto fomenta la colaboración dentro de la comunidad de investigación de IA y una mayor expansión de este trabajo innovador.

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *