SAM 2 AI: ¿Qué es y cómo funciona el nuevo modelo de Meta?
Meta acaba de presentar Segment Everything Model 2 (o SAM 2), una versión actualizada de su modelo de aprendizaje automático capaz de identificar los píxeles que componen los elementos de la imagen y asignarlos de manera integral. Además de capacidades mejoradas, SAM 2 AI también incluye aplicaciones de vídeo.
Esta herramienta se ha vuelto muy popular porque la segmentación es una tarea fundamental en la visión por computadora (la tecnología que permite a las máquinas reconocer, analizar e identificar objetos). Una necesidad a la que Meta respondió lanzando SAM en 2023. ¡Sigue leyendo para saber más!
¿Qué es y cómo funciona SAM 2 AI?
SAM 2 AI es una mejora con respecto a su predecesor. El mismo proporciona una segmentación de imágenes mejor y más precisa, lo que permite el reconocimiento de cualquier objeto y campo de visión, incluso si nunca antes se ha visto. Además, puede realizar sus funciones consumiendo tres veces menos tiempo de interacción.
Al desarrollar SAM 2, Meta enfrentó importantes desafíos a la hora de segmentar objetos en vídeo. Al desarrollar el nuevo modelo, se tuvieron en cuenta cuestiones como el movimiento de los objetos, la distorsión, los cambios de iluminación, el aliasing de elementos, la calidad de la imagen y el desenfoque. Esto puede proporcionar una respuesta satisfactoria a muchos de estos problemas.
A la izquierda, vemos una foto de algunos peces tropicales y cómo la herramienta SAM identifica dos especies de peces apiladas una encima de la otra para formar un solo objeto. A la derecha, SAM 2 solo identifica peces en primer plano, lo que muestra una mayor precisión en la segmentación de objetos.
Características de SAM 2 AI
Segmentación rápida y cribado visual
El motor Segment Everything Model 2 predice instantáneamente qué componentes de video necesitan aplicar una máscara espacio-temporal (también llamada enmascaramiento) en función del mensaje de entrada y lo propaga a la región de destino en todos los segmentos de video.
El usuario puede explicar interactivamente la selección con mensajes adicionales. Esta operación se puede repetir tantas veces como sea necesario hasta obtener la mascarilla deseada.
Segmentación de imágenes y vídeos en una arquitectura
El nuevo modelo SAM 2 tiene una arquitectura más compleja que su predecesor. Esto se puede habilitar mediante clics del mouse (positivos o negativos), cuadros delimitadores o máscaras para segmentar objetos dentro de un marco determinado.
Luego, el codificador de máscara liviano toma la imagen incrustada del cuadro actual y codifica las señales recibidas para crear una máscara de segmentación. Para realizar esta tarea correctamente, la herramienta implementa un motor de memoria que consta de un codificador de memoria, un banco de memoria y un módulo de atención de memoria.
Una vez que se completa este proceso, se pueden pasar instrucciones al motor en cualquier cuadro posterior. Esto permite mejorar la segmentación de la máscara final.
Segmentación de video más grande
Una de las dificultades de los modelos de entrenamiento como SAM 2 es la falta de conjuntos de datos de segmentación que cubran una amplia gama de temas. Además, estos segmentos preexistentes a menudo pertenecen a audiencias enteras (por ejemplo, personas) más que a elementos de esa «audiencia» (ropa, accesorios, cabello, etc.).
Meta resolvió este problema creando un motor de procesamiento de datos y utilizando anotadores. Este proceso se repite muchas veces hasta conseguir el objetivo: crear un modelo que identifique tanto los objetos completos como sus partes. Además, Meta ahora cuenta con un gran conjunto de datos SA-V que contiene más de 600 000 anotaciones para aproximadamente 51.000 videos de 47 países.
Estas anotaciones incluye tanto objetos completos como sus partes, que en las películas pueden mostrarse en situaciones complejas, ocultarse parcialmente, desaparecer y reaparecer.
¿Cómo funciona SAM 2 AI?
SAM 2 AI es una versión actualizada de su modelo de aprendizaje automático que puede identificar los píxeles que componen los elementos de una imagen y describir cómo funciona.
- Identificación precisa. SAM 2 AI es capaz de reconocer cualquier objeto en una foto o video con un solo toque.
- Supervisión directa. Una vez que se identifica un objeto, el modelo lo rastrea a lo largo del vídeo, incluso si desaparece temporalmente de la escena.
- Adaptabilidad. Funciona con objetos y escenas incluso si nunca los has visto antes. Esto lo hace muy universal.
- Interactividad. Permite a los usuarios mejorar los resultados con lecturas adicionales, aumentando el nivel de control. Aquí puedes ver SAM 2 en acción.
Tenga cuidado al elegir una bicicleta que tenga la capacidad de ajustarse incluso cuando el ciclista la oculte parcialmente. Posible aplicación. Hay varios casos de uso que Meta tenía en mente al presentar este modelo:
- La edición de vídeo facilita la eliminación de fondos o la adición de efectos especiales a objetos específicos.
- Le ayuda a analizar imágenes médicas o videos quirúrgicos.
- Se han utilizado estudios marinos, o SAM, para analizar imágenes de sonar de arrecifes de coral.
- Manténgase seguro con sistemas mejorados de detección y monitoreo de amenazas.
- Realidad mixta, potenciando experiencias interactivas como las que ofrece Quest
SAM 2 AI representa un gran paso adelante en el campo de la visión por computadora. Promueve democratizar tareas complejas de análisis de imágenes y edición de videos. Y como es de código abierto, pronto podremos esperar una variedad de aplicaciones innovadoras basadas en esta tecnología.
Limitaciones del modelo
Si bien es cierto que Meta ha podido mejorar su modelo Segment Everything, también es cierto que puede seguir mejorando su rendimiento y precisión. SAM 2 puede perder la visibilidad de un objeto si el ángulo de visión de la cámara cambia repentinamente, si el objeto queda oculto por otro elemento de la imagen durante mucho tiempo o si el vídeo es largo.
El atajo utilizado por Meta para solucionar este problema es la posibilidad de intervención manual al interactuar con él mediante clics del mouse ajustando diferentes marcos. Por otro lado, cuando el objeto de destino se especifica en un solo cuadro, la herramienta puede confundirlo con otro cuadro y segmentarlo incorrectamente.
Aunque este problema se puede resolver siguiendo los pasos de reelaboración manual mencionados. De manera similar, aunque SAM 2 puede segmentar múltiples objetos independientes simultáneamente, puede ser menos eficiente.
Para objetos muy complejos y que se mueven rápidamente, el vídeo SAM 2 puede perder detalles, creando predicciones de segmentación desiguales entre fotogramas. Este problema se puede superar hasta cierto punto añadiendo lecturas en diferentes fotogramas al dispositivo.
Meta explica que: “durante el entrenamiento, no aplicamos ninguna penalización a las predicciones del modelo si se mueven entre fotogramas, por lo que no garantizamos la uniformidad temporal”. «Mejorar esta capacidad podría facilitar aplicaciones del mundo real que requieren una localización detallada de estructuras delicadas».
La importancia de SAM 2 AI e impacto
La creación del Modelo Todo Segmentado, o SAM, es un gran logro en el campo de la visión artificial, ya que crear un modelo específico y preciso para tareas específicas de este tipo es una tarea muy costosa.
La aparición de la meta herramienta y su disponibilidad para empresas y usuarios ha superado esta barrera al proporcionar un modelo listo para usar y disponible para esta funcionalidad. La información proporcionada por Meta muestra que, desde que este sistema de defensa aérea se introdujo en el mercado, se ha utilizado en muy diversos campos de trabajo.
Desde el desarrollo de nuevas funciones dentro del propio Meta (como fondos y recortes para Instagram) hasta empresas y organizaciones que las utilizan para analizar arrecifes de coral, examinar imágenes satelitales para desarrollar planes de ayuda en casos de desastre o segmentación de imágenes celulares para detectar cáncer de piel.