El futuro de la edición de vídeo

En lo que respecta a la edición audiovisual, la humanidad ha avanzado mucho. Desde el primer «talkie» o película con sonido en 1927, pasando por el empalme manual de la película, hasta los efectos CG de hoy en día, es un oficio que se perfecciona constantemente. Con cada nuevo avance, los cineastas pueden centrarse menos en los obstáculos técnicos de su medio y más en las historias que quieren contar.

El pasado otoño, Adobe desató la polémica en su conferencia anual MAX cuando un ponente hizo una demostración de un software de edición de audio que tenía la capacidad de alterar y reconstruir el habla. El software, llamado VoCo, ingiere un clip de 20-40 minutos del discurso de una persona y crea una transcripción. A continuación, el usuario puede modificar la transcripción reordenando el texto o añadiendo nuevas palabras. Aislando sílabas independientes del discurso de la persona, VoCo es capaz de reconstruir la grabación de audio en el contenido escrito en la pantalla.

La conferencia tuvo lugar menos de una semana antes de las elecciones presidenciales de 2016 en Estados Unidos y se habló de noticias falsas y prácticas desleales en los medios de comunicación, señala la productora audiovisual Leovel. La tecnología fue criticada por su amenaza a la seguridad y por la posibilidad de que socavara aún más la confianza en el periodismo. No cabe duda de que la tecnología suscita una preocupación legítima. Hemos visto cómo Photoshop ha alterado la confianza de la gente en las imágenes y la forma maliciosa en que se ha utilizado en línea para dar forma a las historias sobre celebridades, políticos, eventos de noticias y más. Un «Photoshop para audio», como lo llaman algunos, podría prestarse fácilmente a la propaganda y amplificar la avalancha de «noticias falsas» de la que estamos plagados en Internet.

Pero si se utiliza de forma responsable, esta tecnología podría ser revolucionaria para la industria del entretenimiento. Desde el punto de vista de la realización de documentales, podría ser increíblemente útil para proporcionar contexto cuando los entrevistados no hablan con frases completas o no introducen el tema sobre el que están hablando. Si un presentador de noticias se equivoca en una estadística, un nombre o un lugar, se puede editar para que la información sea correcta y esté actualizada cuando se vuelva a emitir. Por supuesto, este tipo de edición de audio sólo funciona cuando la persona que habla no está delante de la cámara. Por suerte para nosotros, la respuesta podría estar cerca.

Equipos de investigación de universidades de todo Estados Unidos, como Stanford, la Universidad de Carolina del Sur y la Universidad de Washington, han estado investigando tecnologías de inteligencia artificial para la manipulación facial y han podido aplicarlas al vídeo. Un equipo de informáticos de la Universidad de Washington ha generado con éxito un vídeo de Barack Obama dando una charla que realmente dio, pero en un contexto totalmente diferente.

El equipo publicó un informe en julio explicando su metodología. Entrenaron una red neuronal de IA, un sistema informático basado en el cerebro y el sistema nervioso humanos, en 17 horas de grabación de los discursos semanales del ex presidente para generar las formas únicas de la boca de Obama a partir del audio y el vídeo que el sistema informático ingirió. A continuación, fueron capaces de repetir el vídeo de destino, un clip en un lugar, tiempo y contexto totalmente nuevos, de modo que el movimiento de la boca y las expresiones físicas de Obama coincidieran con el audio del clip original.

Está claro que la tecnología está lejos de ser perfecta. Incluso un ojo inexperto puede ver la digitalización de los movimientos de su boca y captar cuando se desvía ocasionalmente de la sincronización. Pero si le damos cinco años a esta tecnología, podríamos tener algo que cambie las reglas del juego. Combinada con programas como VoCo, la tecnología de manipulación facial podría ser muy valiosa para la edición de vídeo. Si una agencia de publicidad produce un anuncio con un famoso y quiere emitirlo en todo el mundo, combinando estos programas podría recrear el guión en otro idioma y utilizar la manipulación facial para asegurarse de que los labios del actor se sincronizan con el audio. Los informativos y los documentales podrían tener grandes ventajas a la hora de corregir errores de pronunciación o torpezas en las presentaciones y proporcionar contexto en las entrevistas en pantalla.

Dicho esto, las implicaciones de estas tecnologías combinadas son desalentadoras desde el punto de vista periodístico. En las manos equivocadas, podría destruir carreras políticas y crear propaganda y arruinar la integridad periodística.

La inteligencia artificial es y seguirá siendo un tema controvertido. ¿Dónde trazamos la línea entre la innovación productiva y el poder tecnológico peligroso? Si la tecnología está ahí, seguramente los cineastas tienen derecho a acceder a ella y utilizarla para mejorar su oficio, pero a medida que estas potentes tecnologías entren en juego en la próxima década, es necesario poner en marcha una normativa estricta para garantizar que estas herramientas se utilicen de forma responsable. Desde el punto de vista de la tecnología, el futuro parece bastante impresionante.