Videos con IA retan lo que vemos

La presentación de la nueva herramienta de OpenAI para crear videos causó asombro y temor. ¿Ayudará a liberar la mente humana o será una amenaza en su contra?

José Betancur* | Publicado

El impacto reciente de la inteligencia artificial generativa (GenAI) en la creación de video sin duda marcará un antes y un después en la forma como consumimos y creamos contenido audiovisual.

Hace un tiempo, proyectos como Runway ML, Leonardo.AI y PikaLabs comenzaron a explorar las posibilidades de generar videos a través de Inteligencia Artificial (IA). Estas iniciativas, aunque innovadoras, enfrentaban el desafío de crear contenidos que mantuvieran una continuidad lógica y cohesiva. Los resultados eran fragmentos cortos, apenas segundos de video que, aunque creativos, a menudo carecían de la fluidez necesaria para contar una historia completa.

Sora: transformando textos en realidades visuales

Sin embargo, la aparición de tecnologías como Sora, desarrollada por OpenAI, ha cambiado el juego por completo. Sora es capaz de generar videos de un minuto con una calidad asombrosa partiendo de simples textos. Imagine usted conceptualizar una historia, describirla con palabras y de repente verla cobrar vida en una sucesión lógica de imágenes en movimiento de gran factura. Esto no solo amplifica la creatividad humana, sino que democratiza la producción de contenidos visuales, permitiendo a artistas y creativos de todo el mundo expresar sus visiones o narrativas complejas sin el enorme costo que implicaría la producción tradicional.

Lo que distingue a Sora de sus predecesores, entre otras características, es su capacidad para interpretar y reaccionar a las leyes de la física del mundo real en sus creaciones. Una característica que les permite a los videos generados lucir visualmente atractivos y comportarse de manera coherente con el entorno que los rodea, algo inédito hasta ahora. De nuevo, imagine usted la posibilidad de crear contenido que no solo narre una historia convincente, sino que también interactúe de manera realista con elementos como la luz, la gravedad y la materia (las sombras no contradicen el movimiento, lo que sube, sube, y lo que baja, baja, los objetos no se deforman ni actúan en contra de las leyes de la física), abriendo un sinfín de posibilidades creativas.

Por el momento, el acceso a Sora se ha limitado a un grupo selecto de artistas visuales, diseñadores, creativos y cineastas. La razón detrás de esta decisión es recopilar retroalimentación de calidad de aquellos que mejor entienden el arte de la narrativa visual, asegurando que la tecnología se refine de manera que maximice su utilidad en aplicaciones prácticas.

Esta estrategia de despliegue recuerda a lo observado con Midjourney en la generación de imágenes, donde la calidad de las creaciones mejora significativamente cuando son los propios artistas con experiencia en fotografía quienes formulan los prompts (indicaciones). Del mismo modo, podemos anticipar que la contribución de cineastas a Sora nos traerá ejemplos de uso que literalmente nos dejarán boquiabiertos, ampliando nuestras concepciones de lo que es posible en la creación de video.

La fusión de la inteligencia artificial y la creatividad humana

Cada nuevo ejemplo que vemos realizado por Sora nos asombra más, demostrando la capacidad de la IA para entender y manipular elementos narrativos y visuales de maneras que antes eran exclusivas del ingenio humano. Este nivel de sofisticación nos invita a soñar con futuros en los que las barreras entre la creación humana y la inteligencia artificial se vuelven cada vez más difusas, ofreciendo un lienzo en blanco para una expresión creativa sin precedentes.

Pronto podríamos ver la integración de esta tecnología con proyectos innovadores como EMO: Emote Portrait Alive del Instituto de Computación Inteligente del Grupo Alibaba, que propone transformar imágenes estáticas en videos expresivos, impulsados por audio, lo que permite crear o generar avatares vocales con expresiones faciales dinámicas y diversas.

Solo basta una imagen de referencia (un retrato) y una pista de audio –puede ser un diálogo o una canción– y EMO se encarga del resto, generando videos donde los personajes hablan o cantan de forma sincronizada con el audio proporcionado. Este avance es simplemente revolucionario y permite crear contenido en el que los personajes parecen vivos, capaces de expresar emociones complejas y comunicarse de manera natural.

Defendiendo la integridad digital

No obstante, con grandes poderes vienen grandes responsabilidades. La capacidad de generar videos realistas trae consigo dilemas éticos significativos, sobre todo en lo que respecta a la creación de deepfakes. Estos videos generados artificialmente pueden hacer parecer que personas reales dicen o hacen cosas inimaginadas, lo que representa un desafío considerable para la integridad y la verdad en nuestra sociedad. Mientras nos aventuramos en estas nuevas fronteras, es importante mantener una actitud crítica y reflexiva sobre los impactos sociales y morales de nuestras creaciones.

La difusión de información falsa y la manipulación pueden traer consecuencias profundas, desde influir en unas elecciones hasta afectar la reputación de individuos, con potencial para dañar las bases mismas de nuestra convivencia democrática y el respeto mutuo.

Recientemente, Taylor Swift se convirtió en blanco de una controversia significativa relacionada con la creación y distribución de imágenes deepfake de carácter sexual explícito. Estas imágenes, generadas por inteligencia artificial, proliferaron inicialmente en plataformas de redes sociales como X (anteriormente conocida como Twitter), provocando una reacción considerable tanto de sus fanáticos como de diversas organizaciones y figuras públicas. A pesar de los esfuerzos de X por suspender cuentas y bloquear temporalmente búsquedas relacionadas con el nombre de Swift, las imágenes se compartieron ampliamente.

Si bien los fanáticos de Swift, conocidos como “Swifties”, jugaron un papel activo en la lucha contra la circulación de estas imágenes, utilizando el hashtag #ProtectTaylorSwift para promover imágenes y videos positivos de la artista y contrarrestar la difusión del contenido deepfake, este incidente ha resaltado la vulnerabilidad de figuras públicas y la necesidad de una mayor conciencia y reforma política respecto a este tema.

Este caso subraya los desafíos éticos y legales asociados con la tecnología deepfake, especialmente cuando se utiliza para crear contenido sin el consentimiento de las personas representadas. Mientras la tecnología continúa avanzando, la necesidad de regulaciones efectivas y medidas de protección para las víctimas se vuelve cada vez más urgente, no sólo para salvaguardar la dignidad de individuos específicos, sino también para preservar la integridad de nuestra información y discurso público en la era digital.

Por lo tanto, es esencial que desarrollemos e implementemos medidas de seguridad, éticas y legales que acompañen el avance de estas tecnologías. La creación de marcos regulatorios claros, la educación pública sobre los medios digitales y el fomento de una cultura de responsabilidad entre los desarrolladores y usuarios de IA son pasos críticos para garantizar que las ventajas de la generación de contenido mediante inteligencia artificial se realicen sin comprometer nuestros valores éticos fundamentales.

“Mis mayores temores son que nosotros —la esfera tecnológica, la propia tecnología, la industria— provoquemos un daño significativo al mundo. Creo que esto puede desviarse de muchas maneras. Si esta tecnología se descontrola, el resultado podría ser realmente grave, y es importante que hablemos claro sobre esto. Deseamos colaborar con el gobierno para prevenir tal situación”, dijo Sam Altman, CEO de OpenAI frente al Congreso de Estados Unidos.

Solo así podremos asegurarnos de que la revolución en la creación de contenidos impulsada por herramientas como Sora contribuya positivamente a nuestra sociedad, fomentando la innovación y la creatividad mientras nos protegemos de los riesgos inherentes a estas poderosas capacidades.

Imaginando el futuro

El futuro que se avecina con Sora y tecnologías complementarias como EMO es asombroso. Tendremos la capacidad de generar contenido que no solo es visualmente impresionante y realista, sino que también puede interactuar con el espectador de manera emocional y significativa. Estos desarrollos prometen cambiar la forma en que se crea el contenido y cómo lo experimentamos, ofreciendo nuevas vías para la narración de historias, la educación y el entretenimiento.

Por último, imagine usted las aplicaciones: desde la creación de materiales educativos que capturan la atención de los estudiantes hasta el desarrollo de nuevas formas de entretenimiento donde los personajes pueden interactuar con el público de maneras nunca antes posibles. Estamos presenciando el nacimiento de una era donde la creatividad no está limitada por los recursos físicos o técnicos, ahora el único límite será la imaginación del creador.

Es claro que este amanecer de la narrativa visual está redefiniendo los límites de la creatividad y a su vez plantea preguntas fundamentales sobre la autenticidad, la ética y el impacto social de la tecnología. La promesa de Sora, al permitirnos visualizar cualquier historia que podamos imaginar con una fidelidad sin precedentes, nos invita a soñar con un mundo donde las historias no conocen fronteras y la expresión artística se democratiza como nunca antes.

Sin embargo, este futuro también nos exige una reflexión profunda y una acción consciente para asegurar que mientras abrazamos estas nuevas posibilidades, también protejamos y fomentemos valores fundamentales. En la intersección de la tecnología y lo humano (la creatividad), estamos frente a herramientas que nos ofrecen lienzos ilimitados; depende de nosotros pintar un futuro que refleje lo que somos capaces de crear y lo que aspiramos a ser.

Así, mientras el sol asciende en este nuevo horizonte de narrativa visual, nos encontramos en el umbral de una era apasionante, cargada de potencial y responsabilidad. La revolución de Sora en la creación de contenidos es solo el comienzo.

*Director del programa Nodo de la Universidad Eafit. Ingeniero apasionado por las tecnologías emergentes. Su último libro publicado es The Art of Design Thinking (2017).

Si quiere más información:

Revista Generación

Edición
EL ENCARGO INEVITABLE

Videos con IA retan lo que vemos

José Betancur* | Publicado