Cómo la IA de texto a video ampliaría las herramientas de los marketers
(Ad Age) - Meta, Google y Runway pelean palmo a palmo por las nuevas herramientas entrenadas en recoger video donde los generadores de imágenes lo dejan.
Por Asa Hiken
Reportero de tecnología de Ad Age
Con herramientas de IA como Dall-E y Midjourney, los usuarios pueden generar una imagen altamente descriptiva con nada más que una línea de texto. Pero, ¿y si pudiera tomar la misma entrada simple y generar un video dinámico?
Este es el objetivo central de una carrera entre Meta, Google y las nuevas empresas tecnológicas que buscan construir la próxima herramienta de inteligencia artificial imprescindible. Y los marketers ya están soñando con innovaciones que la IA de texto a video traerá a su trabajo.
El espacio se calentó esta semana con el anuncio de una nueva plataforma de IA de video de la startup Runway Research, que se lanzará a audiencias limitadas en las próximas semanas. El modelo, denominado “Gen-2, permitirá a los usuarios producir un clip de tres segundos de metraje original a partir de una línea de texto, como “el sol de la tarde asomándose por la ventana de un departamento en la ciudad de Nueva York”. Gen-1 se lanzó a principios de este año y es puramente de video a video, lo que significa que el video preexistente sólo se puede editar, no crear desde cero.
Trailer del modelo “Gen-2” de Runway.
La calidad del contenido de texto a video actualmente no está ni cerca de estar lista para la producción. Pero con el tiempo, el método puede avanzar en la digitalización que los marketers ya están aplicando a su creatividad, dijo Luke Hurd, director de diseño de experiencia en VMLY&R. Los autos que aparecen en los comerciales de televisión, por ejemplo, a menudo son producto de imágenes generadas por computadora (CGI), porque usar un modelo real presenta todo tipo de dificultades, desde el transporte hasta la edición de video. La inteligencia artificial podría digitalizar de manera similar otros detalles engorrosos en video, como el paisaje de fondo y, potencialmente, todo el lugar en sí.
La IA de texto a video puede expandir el conjunto de herramientas de IA generativa de los vendedores si las plataformas son fáciles de usar e integrar, como con el popular modelo ChatGPT de texto a texto. Por supuesto, existen desventajas potenciales, como los sesgos de IA que podrían infiltrarse en el contenido de video y las ineficiencias informáticas. Los próximos seis meses a un año serán una prueba importante para que estos modelos resuelvan sus problemas.
Tim Hawkey, director creativo de la agencia Area 23, ha experimentado con el Gen-1 de Runway y está ansioso por tener en sus manos el Gen-2. Él considera que los modelos de texto a video alivian ciertas peculiaridades de los modelos de texto a imagen. El “efecto flipbook”, por ejemplo, se refiere a cómo cualquier persona que desee simular un video con la ayuda de un generador de imágenes necesitará crear cientos de imágenes diferentes y luego unirlas. El producto final funciona de manera similar a un flipbook.
”Efecto flipbook”, como se muestra en un video creado por Tim Hawkey para su canal de YouTube.
Sin embargo, dado que los generadores de texto a video están entrenados en contenido de video real, las creaciones tienen consistencia de cuadro a cuadro. El resultado es una producción más realista y de mayor calidad, que muchos marketers probablemente preferirán como un medio para producir creatividad, en lugar de lo que es efectivamente animación stop-motion.
No sorprende que los gigantes tecnológicos ya se hayan lanzado de cabeza al nicho de video de la IA. Meta presentó en septiembre pasado “Make-A-Video”, un generador de texto a video que produce clips de no más de cinco segundos. Los mensajes de ejemplo en la página de inicio de la plataforma incluyen “Un golden retriever comiendo helado en una hermosa playa tropical al atardecer, alta resolución” y “Humanos construyendo una carretera en Marte, muy detallado”.
Google ha presentado dos modelos de texto a video: “Imagen Video”, que se parece mucho a Gen-2 de Runway, y “Make-A-Video”, de Meta, y “Phenaki”, un modelo destinado a crear videos más largos basados en más indicaciones descriptivas. Esta última herramienta está explorando lo que probablemente será el futuro de la generación de IA de texto a video, ya que los videos cortos finalmente tendrán que empalmarse, como imágenes, para formar un contenido más largo.
Ejemplo de aviso y video de la herramienta “Make-A-Video”, de Meta.
Tanto los modelos de Meta como los de Google son principalmente proyectos de investigación, y ninguna de las dos compañías ha publicado detalles sobre cuándo podrían lanzarse al público.
Además, los marketers que esperan integrar pronto cualquier tipo de contenido de texto a video deberán frenar su entusiasmo, dijo Paul Roetzer, fundador y director ejecutivo del Marketing AI Institute. Está claro, con sólo mirar los resultados producidos por los modelos de Runway, Meta y Google, que los videos generados por IA son de mala calidad. Parece que les resulta especialmente difícil simular movimientos, como bailar y caminar.
Y aunque los generadores de imágenes han avanzado a pasos agigantados en comparación con sus lanzamientos hace un año, Roetzer cree que la curva de aprendizaje es más pronunciada para la IA de video. Los generadores de imagen y texto producen una única salida estática, mientras que los generadores de video producen algo mucho más dinámico. Lidiar con problemas de continuidad y consistencia requiere bastante trabajo, dijo Roetzer.
Aún así, si algo ha enseñado la explosión de la IA generativa es que no se debe apostar en contra de las capacidades de estos modelos.
Como dijo Hawkey: “Gen 2 es una pequeña novedad, pero su tecnología es un descubrimiento”.