Stable Diffusion 3: El nuevo generador de imágenes con IA
Stable AI ha anunciado una vista previa de Stable Diffusion 3, un modelo de IA de generación de texto a imagen. Stable ha anunciado el lanzamiento de Stable Diffusion 3. Esta es la última versión de su inteligencia artificial que genera imágenes a partir de texto. Aún no está disponible, pero la compañía ha creado una lista de espera donde puedes registrarte para probar la versión beta.
¿Qué es Stable Diffusion 3?
Stable Diffusion es una familia de modelos de IA para la generación de texto a imagen. Esto significa que ingresa un mensaje que describe lo que desea ver y la plantilla generará una imagen basada en su descripción. Existe una interfaz de usuario web que hace que la IA sea fácilmente accesible. La principal diferencia entre OpenAI y su competidor, DALL·E Phenotypic AI, es que tiene «pesos abiertos». Esto significa que los detalles de la red neuronal que proporciona los cálculos del modelo están disponibles públicamente.
Características de Stable Diffusion 3
El nuevo modelo incluye muchas mejoras con respecto a su predecesor, incluido un mejor rendimiento, calidad de imagen y funciones de alerta, afirma la compañía. El objetivo principal de la estabilidad es aumentar la capacidad del modelo para generar palabras con precisión y registrar mejor las imágenes generadas. Lo que han descubierto muchas personas que trabajan con modelos de IA para la generación de imágenes es que cuando se les pide que generen escenas que contengan palabras, a veces terminan diciendo tonterías.
Stable Diffusion 3 está disponible en tres tamaños de muestra diferentes, con entre 800 y 8 mil millones de variables definibles por el usuario llamadas parámetros, lo que permite a los desarrolladores e investigadores ajustarlas para producir las imágenes que desean. Variar el tamaño o el peso significa modelos más capaces y complejos que pueden crear escenas más realistas e igualmente complejas. Pero, los modelos más grandes también requieren una infraestructura informática más grande para coordinarlos e implementarlos.
El nuevo modelo se basa en una nueva columna vertebral que utiliza un diseño de transformador de difusión, explorando una nueva clase de arquitecturas de modelos de difusión. Transformer es una base de imágenes tradicional, pero se desarrolló en la columna vertebral de U-Net. Se llama así porque la columna vertebral se asemeja a una arquitectura de codificador-decodificador en forma de U que divide la imagen en segmentos en forma comprimida y luego los decodifica para reconstruirlos en su forma original.
El nuevo modelo sustituye la red U-Net por un transformador de difusión que divide la imagen en varias partes. Como el modelo aún está en versión preliminar, Stability dijo que está implementando una variedad de medidas de seguridad para evitar abusos y trabajará con investigadores, expertos y la comunidad para desarrollar las mejores prácticas de seguridad de IA a medida que se acerque la fecha de lanzamiento.
¿Cómo funciona?
Fixed Spread 3 utiliza una arquitectura de convertidor de spread similar a Sora. Las versiones anteriores de difusión continua (y la IA de imágenes más nueva) utilizan modelos de difusión. Los modelos de lenguaje básico para la generación de texto, como GPT, utilizan una arquitectura de transformación. La capacidad de combinar los dos modelos es una innovación reciente y permite utilizar las mejores características de ambas arquitecturas.
Los modelos de difusión son buenos para generar detalles en áreas pequeñas, pero no son adecuados para generar la apariencia general de una imagen. Por el contrario, los transformadores tienen un gran diseño, pero son deficientes en la fabricación de piezas. Entonces, Constant Diffusion puede usar transductores para crear la forma de una imagen completa y luego usar difusores para crear parches.
Esto significa que puedes esperar que Stable Diffusion 3 funcione mejor que su predecesor cuando se trata de componer escenas complejas. El anuncio menciona que a esta app utiliza una tecnología llamada coincidencia de flujo. Esta es una forma computacionalmente más eficiente de entrenar un modelo y generar imágenes de ese modelo que las técnicas de difusión actuales. Esto significa que la IA es más barata de crear y las imágenes generadas por IA son más baratas de crear, lo que reduce el costo de la IA.
¿Cuáles son las tres limitaciones de Stable Diffusion 3?
Una de las limitaciones actuales de la IA a la hora de crear imágenes es su capacidad para generar texto. En particular, el anuncio de Stability AI comenzó con una imagen con el nombre del modelo «Stable Diffusion 3». La ubicación de los caracteres en el texto es buena, pero no perfecta. Tenga en cuenta que la distancia entre «B» y «L» es mayor que la distancia entre «L» y «E» en constante. Del mismo modo, las dos «F» en Difusión están demasiado juntas.
En general, hay mejoras significativas con respecto al modelo de la generación anterior. Otro problema con el modelo es que debido a que el difusor genera planos de imagen por separado, puede generar inconsistencias entre las regiones de la imagen. Esto es especialmente problemático al crear imágenes fotorrealistas.
Si bien no hubo muchos ejemplos específicos en la propaganda, las fotografías de autobuses circulando por las calles de la ciudad revelan algunos ejemplos de estos problemas. Las sombras debajo del autobús representan la luz que viene desde detrás del autobús, y las sombras de los edificios en la calle representan la luz que viene desde el lado izquierdo del marco.
Además, la ubicación de las ventanas del edificio en la esquina superior derecha de la imagen es algo inconsistente en diferentes partes del edificio. Los autobuses tampoco tienen conductor, pero una ruta cuidadosa puede resolver este problema.
¿Cómo acceder a Stable Diffusion 3?
Se corrigió el spread 3 en modo «vista previa». Esto significa que solo está disponible para investigadores con fines de prueba únicamente. El estado de vista previa tiene como objetivo permitir que Stability AI recopile comentarios sobre el rendimiento y la seguridad del modelo antes de lanzarlo al público.
¿Qué condiciones se utilizan para stable difusión 3?
Las imágenes de IA han encontrado una variedad de casos de uso, desde ilustración hasta diseño gráfico y materiales de marketing. Se utiliza de la misma manera y tiene el beneficio adicional de permitirle crear imágenes de aspecto complejo.
¿Cuáles son los riesgos?
El conjunto de datos en el que se entrenó la difusión constante contenía algunas imágenes con derechos de autor, lo que resultó en varios procesos pendientes. No está claro cuál será el resultado de estas demandas, pero en teoría, cualquier imagen creada mediante transmisión permanente podría considerarse una infracción de derechos de autor.
¿Qué es lo que todavía no sabemos?
Los detalles técnicos completos de Stable Diffusion 3 aún no se han publicado y no hay forma de probar específicamente el rendimiento de la IA. Una vez que se lance el modelo y se establezcan los puntos de referencia, podremos ver cuánto ha mejorado la IA con respecto a los modelos anteriores. Otros factores, como el tiempo y el coste de las imágenes, también se hacen evidentes. Uno de los desarrollos tecnológicos que OpenAI defendió firmemente en su documento DALL·E 3 pero que no abordó en la presentación de Sustainability AI fue la recaptura. Esta es una forma de aprendizaje automático que reconstruye el texto escrito por el usuario y proporciona detalles adicionales para brindar una guía más precisa al modelo. No se sabe si esta app utiliza este método.