En un contexto de creciente interés por las herramientas de inteligencia artificial que permiten generar imágenes, las grandes compañías tecnológicas están presentando sus propias soluciones. Recientemente, Meta anunció Make-A-Video, una herramienta que permite crear vídeos a partir de texto. Ahora, Google también se suma a esta tendencia con Imagen Video y Phenaki.
Google ha mejorado su sistema anterior, llamado Imagen, para desarrollar Imagen Video, una herramienta que transforma imágenes estáticas en vídeos fluidos. A diferencia de su otro nuevo sistema, Imagen Video se enfoca en la calidad de la imagen y puede generar vídeos cortos sin sonido.
Imagen Video ofrece los mejores resultados en composiciones abstractas y animaciones, pero aún se pueden optimizar aquellas que involucran movimiento de personas y animales, ya que los usuarios tienen una idea clara de lo que esperan. La tecnología emplea Modelos de Difusión en Cascada para generar vídeos de alta resolución, con una resolución de 1280 × 768, 24 fotogramas por segundo y una duración de 128 fotogramas.
Según Google, Imagen Video utiliza un modelo de generación de vídeo base y una secuencia de modelos de superresolución espacial y temporal para convertir mensajes de texto en vídeos de alta definición. La herramienta ofrece control y conocimiento del mundo, permitiendo generar diversos vídeos y animaciones de texto en diferentes estilos artísticos, incluyendo objetos 3D.
Además de los desafíos técnicos, Google también se enfrenta a retos de seguridad y ética. La compañía implementa pruebas internas y filtros para evitar la generación de contenido falso, ofensivo o dañino. Aunque el sistema aún no está disponible públicamente, Google continúa trabajando en la optimización de la herramienta para mitigar posibles problemas relacionados con prejuicios y estereotipos.
Por otro lado, Google también ha presentado Phenaki, un sistema basado en la conversión de instrucciones de texto a vídeo que se centra en la generación de vídeos de mayor duración. Phenaki es capaz de generar vídeos de duración arbitraria, lo que significa que no tiene límites predefinidos.
Generar vídeos a partir de texto presenta desafíos en cuanto a costos computacionales, la disponibilidad limitada de datos de alta calidad y la duración variable de los vídeos. Aunque la calidad de los vídeos generados por Phenaki aún no es indistinguible de los vídeos reales, Google cree que es posible alcanzar ese nivel en el futuro. Sin embargo, se debe tener cuidado con el mal uso de la herramienta, especialmente cuando se genera contenido sin el consentimiento y conocimiento de las personas involucradas.
Google considera estas soluciones como herramientas que impulsan la creatividad y espera que las versiones futuras sean parte de un conjunto cada vez más amplio de opciones tanto para artistas como para no artistas, brindando nuevas y emocionantes formas de expresarse creativamente.