"La IA no es la evolución natural de la traducción en general ni de la TAV en particular: es una función que no tiene cabida en el área de la creación humana”.
Virginia Stonek
Cada semana que pasa hay novedades con respecto al uso de la IA en general y en particular en doblaje. Es muy difícil seguirle el rastro y estar al tanto de las novedades. De hecho, antes de continuar, los invito a que se queden -o salten- hasta el final de esta edición para ver dos de las noticias más destacadas referidas al tema que se agregaron mientras escribía esto.
En esta publicación quiero explorar un concepto que considero equivocado y cómo se relaciona con las tecnologías actuales de doblaje, para demostrar sus límites. Suena ambicioso, pero veamos qué resulta. Espero que me acompañen con su lectura.
Sobre la creatividad y un enfoque que considera solo los resultados:
Hace casi un mes ocurrió algo que muchos de ustedes quizás hayan visto en las redes. Este evento terminó de darle forma a una idea que he estado reflexionando sobre la manera en que se crea contenido en la mayoría de las innovaciones recientes.
Todo empezó cuando Apple lanzó su nueva versión del iPad Pro con el siguiente anuncio:
La publicidad generó una gran controversia, lo que llevó a la empresa a disculparse y decidir no emitirla en televisión. Muchos espectadores encontraron las imágenes perturbadoras y lo interpretaron como una falta de respeto hacia las herramientas creativas tradicionales. Recuerdo un twit que decía mas o menos así: «La destrucción de la experiencia humana. Cortesía de Silicon Valley».
Fue tan grande la decepción que algunos usuarios compartieron una versión «reparada» del anuncio, simplemente pasándolo en reversa. Con una jugada mucho más inteligente, Samsung recogió el guante y ofreció su interpretación del asunto.
Más allá de su fallido, el concepto detrás del comercial de Apple sugiere que la creatividad puede lograrse utilizando herramientas que condensan múltiples funciones y permiten obtener resultados asombrosos. Quédense con esa idea: resultados.
Voy a incluir dos ejemplos más que están relacionados.
Se trata del «primer corto creado íntegramente con Sora». Siendo muy sintético, Sora permite crear contenido realista en video solo con el uso de un prompt. Aquí se abre otra pequeña ventana para la que dejo el link si quieren desviarse un poco: Suele haber mucho «humo» en los anuncios que se hacen sobre estas nuevas tecnologías. Basta con ver el video del detrás de escena de este corto para ver que lo de «íntegramente» no es tan así.
Otro ejemplo: Suno.ai es una plataforma que permite crear canciones completas, incluyendo música, letra y voz, a partir de simples descripciones textuales o ,una vez más, prompts. Utilizando IA facilita la generación rápida y personalizada de contenido musical.
Dejo este divertido video que muestra el potencial de esta tecnología. Algo que no deja de ser impresionante, claro.
Todas estas herramientas se desarrollan y promocionan bajo el lema de que han democratizado el acceso a la creación artística, permitiendo a cualquier persona producir música y videos sin conocimientos técnicos previos. Sin embargo, esto puede llevar a una deshumanización del proceso creativo. Crear arte no solo se trata del producto final, sino también del viaje emocional y colaborativo que implica. Las interacciones humanas, la interpretación emocional y las experiencias compartidas durante el proceso son esenciales para la autenticidad del arte.
La creación de una canción o un video involucra una serie de interacciones entre músicos, directores, actores y otros colaboradores. Estas interacciones no solo son técnicas, sino que también son profundamente emocionales y contextuales. Las emociones del cantante al interpretar una letra, o las reacciones de los actores en un set de filmación, aportan una riqueza que la IA no puede replicar. Y no es solo que no pueda, debería ser reservado para los humanos, porque allí radica nuestra humanidad.
Además, el proceso creativo tradicional está lleno de errores, revisiones y momentos de espontaneidad que a menudo resultan en innovaciones significativas. La IA, al seguir parámetros predefinidos, tiende a eliminar esta aleatoriedad e imperfección.
A riesgo de ponerme más filosófico: El resultado puede ser simpático, pero ¿puede conmovernos una música que no está interpretada por una persona real? ¿Cantada por una voz que es la suma o el muestreo de muchas otras voces? Aquí surge otro tema muy amplio y sin respuesta definitiva: el dilema ético de en quién se basa la generación de esto, porque nada es creado desde cero.
La reducción del arte a parámetros
"En aquel Imperio, el Arte de la Cartografía logró tal Perfección que el mapa de una sola Provincia ocupaba toda una Ciudad, y el mapa del Imperio, toda una Provincia. Con el tiempo, estos Mapas Desmesurados no satisficieron y los Colegios de Cartógrafos levantaron un Mapa del Imperio, que tenía el tamaño del Imperio y coincidía puntualmente con él." Suárez Miranda, Viajes de Varones Prudentes, Libro Cuarto, Cap. XLV, Lérida, 1658. («Del rigor en la ciencia» Jorge Luis Borges)
En el cuento de Borges "Del rigor en la ciencia", se presenta la paradoja de un mapa que es tan exacto y detallado que llega a coincidir completamente con el territorio que representa. Este mapa, aunque perfecto en teoría, se vuelve inútil en la práctica debido a su escala y complejidad.
En el campo de la IA, los prompts (instrucciones o comandos que damos a un modelo de IA para generar un resultado específico) pueden llegar a ser extremadamente detallados. Cuando se requiere un resultado muy específico, es necesario incluir una gran cantidad de detalles. Sin embargo, si este nivel de especificidad se lleva al extremo, el proceso de creación del prompt puede llegar a ser tan laborioso que equivale a realizar el trabajo manualmente, lo que anula el propósito de simplificar o automatizar la tarea.
Entonces, existe un riesgo de que al parametrizar en exceso, se pierda la esencia del arte. El arte no se trata solo de cumplir con un conjunto de requisitos técnicos, sino de expresar emociones, ideas y experiencias de una manera que resuene profundamente con las personas. Una parametrización excesiva puede reducir la riqueza del proceso creativo a una serie de tareas mecánicas.
Las tecnologías que usan deep learning tienen mucho de «caja negra»: ingresamos una información, la máquina la procesa, y nos devuelve otra cosa.
El arte y la creatividad son procesos evolutivos que se desarrollan a lo largo del tiempo y a través de la interacción con otros. Un prompt puede generar un resultado inmediato, pero no puede reemplazar la evolución de una idea a través de la reflexión, la crítica constructiva y la colaboración. Este proceso evolutivo es fundamental para el desarrollo personal y artístico.
¿Cómo se relaciona esto con el doblaje?
Para eso primero tengo que aclarar a qué parte del proceso de doblaje me refiero y cuáles son a grandes rasgos las tecnologías disponibles hoy.
Con respecto a las implicancias que tiene el uso de IA en la traducción, me resultó muy interesante lo que Virginia Stonek dice en esta entrevista.
Para la adaptación requerida específicamente para doblaje aplican los mismo criterios. Es tan creativo este proceso y tan compleja su automatización que, al menos por ahora, los mejores resultados se obtienen con humanos. De allí que casi todas las empresas recurran al human-in-the-loop.
Ahora bien, quiero concentrarme en la generación/grabación de voces para ver cuánto de esto es pensando únicamente en el resultado y cuánto de esto podría ser parametrizable.
Allí tenemos las siguientes opciones (más algunas posibles combinaciones):
Doblaje completo generado por IA: La IA genera toda la pista de doblaje desde cero, incluyendo voz, entonación y sincronización con el contenido visual. Aquí no hay muchos parámetros ajustables y el resultado o la calidad dependerá de únicamente de los algoritmos.
Doblaje de Texto a Voz (TTS): Este método genera voces sintéticas a partir de guiones de texto. Los sistemas TTS avanzados pueden producir un habla cada vez más natural pero es compleja la sincronización con los movimientos de labios y si bien mucho dependerá de la adaptación, no hay un «actor» que pueda además tener en cuenta el ritmo y los movimientos de los labios. Cuantos más parámetros sean ajustables, más largo el prompt o el trabajo que habrá que hacer y de ahí el dilema planteado más arriba. Para un tipo de producto no muy riguroso ni con muchos matices puede ser una solución posible, pero no si queremos calidad.
Guía de voz con ajuste de IA: Los actores graban una pista guía (con la interpretación adecuada y sincronizándose como se hace en el doblaje convencional) y la IA modifica esta pista clonando la voz original o modificándole su timbre de acuerdo a lo requerido. En términos de calidad, sería lo que nos permite alcanzar un mejor producto. Nótese que en este caso la IA es una herramienta que se agrega al proceso convencional (o se la combina) pero que no reemplaza lo que se hace habitualmente.
En otra categoría aparte entran las aplicaciones que permiten modificar la imagen para lograr una mejor sincronía fonética.
Por si quieren seguir profundizando esto que aquí apenas nombro les comparto estos otros artículos que escribí sobre el tema:
https://www.ata-divisions.org/AVD/ai-and-its-implementation-in-the-dubbing-process/ (en inglés)
https://apuntesdedoblaje.substack.com/p/innovacion-en-el-doblaje-las-tecnologias
Aquí hago algo de futurología y por supuesto puedo equivocarme: Aunque se alcance la perfección técnica y todo pueda ser parametrizable (duración, velocidad, entonación, ritmo, acentuaciones, sincronía fonética, etc) esta tecnología será incapaz de transmitir emociones. O tal vez sea posible transmitirlas pero solo con la correcta cantidad de parámetros para cada uno de los casos (y esos casos pueden ser oraciones, segmentos, o incluso palabras). Ahora si esto es así, ¿no es mejor seguir usando el doblaje convencional y en todo caso poner las energías en mejorar algún otro aspecto del proceso?
¿Qué podemos esperar para el futuro?
Hace poco recibí este comentario en Facebook. Le pedí a su autor que me diera un tiempo, sabía que debía una opinión al respecto y aquí estamos.
Ya está dando vueltas un vaticinio que dice que al rubro del doblaje le quedan de 3 a 5 años de vida.
Esto es lo que creo: De la misma forma que se puede llegar a usar Sora para hacer un video corto, incluso dentro de una ficción más grande, o Suno para hacer una música de una cortina de un podcast o una humorada con una canción, ciertos materiales son más susceptibles que otros para ser doblados con estas herramientas.
Para aquellos trabajos donde lo importante es la información, es decir el «que» y no tanto el «como» (o el contenido y no la forma) tal como e-learnings, cursos, institucionales, voice-overs donde la interpretación no sea tan importante, el reemplazo es inminente. De hecho ya está ocurriendo. Sus detractores dirán que la calidad es inferior, algo que es cierto. Mientras que sus defensores dirán que muy probablemente ese material no hubiese contado nunca con doblaje debido su alto costo habitual (comparado con subtitulado). Incluso algunas de las empresas que usan esta tecnología ya promocionan sus servicios reconociendo que el doblaje por IA no juega a dar calidad, sino a dar escala y rapidez.
Aquí cabe aclarar algo sobre la supuesta calidad del doblaje convencional: a mí nadie me la cuenta. Yo estuve en lugares donde se realizaban doblajes para señales de cable y se grababan cientos de horas de programas por mes, en los que nadie tenía muy claro lo que pasaba. Por ejemplo: en algunos casos, la traducción podía ser un desastre y se grababan diálogos técnicos durante un programa de mecánicos de autos, donde todos hablaban de manera automática sin entender lo que decían. En una comparación objetiva de ambos productos finales no veo una diferencia sustancial.
Aquellos materiales donde la interpretación y la actuación humana son cruciales serán más difíciles de reemplazar. Creo que, al menos por un tiempo, seguirán haciéndose de manera tradicional o solo con una asistencia de estas tecnologías, simplemente porque es la mejor forma de hacerlo.
Ya para ir cerrando, le respondo puntualmente a Pablo pero también a quienes puedan tener las mismas dudas. Creo que la recomendación que puedo dar es concentrarse en estudiar, formarse, practicar todo aquello que defina nuestra humanidad. En el caso del doblaje, los matices necesarios para interpretar un papel, entender el subtexto, comunicar emociones, son cosas que por ahora pertenecen solamente a los humanos. Estos elementos requieren una comprensión profunda de las emociones y las experiencias, algo que las máquinas todavía no pueden alcanzar con la misma precisión y sensibilidad.
Por lo tanto, mi consejo para aquellos que se dedican al doblaje y a otras artes que requieren habilidades humanas profundas es que sigan invirtiendo en su formación y desarrollo. La práctica continua en la interpretación, la empatía y la comunicación emocional es invaluable. Aquellos que dominan estas habilidades estarán mejor preparados para trabajar junto a la tecnología, utilizando las herramientas disponibles para mejorar su arte sin perder el toque humano que hace que su trabajo sea especial y significativo.
Un caso similar para tener en consideración:
Para tratar de entender esta problemática siempre trato de encontrar analogías y/o ejemplos parecidos. Podemos trazar un paralelo entre nuestra actividad y lo que viene ocurriendo con el diseño de producción en cine y su evolución (y también reemplazo, en algunos casos) con CGI.
Lo ilustro con un ejemplo cortito: para la escena en la que Nick Fury sorprende a Peter Parker en su habitación en «Spider-Man: Far From Home» (2019), nada de lo que se ve allí era real. Samuel L. Jackson y Tom Holland tuvieron que actuar como si estuvieran en una habitación completamente amueblada mientras decían sus diálogos. La filmación de esta escena se llevó a cabo en los estudios Warner Bros. Leavesden, ubicados en Watford, Inglaterra.
Consecuencias:
La Art Directors Guild (ADG) ha decidido suspender su programa de Iniciativa de Diseño de Producción (PDI) para el año 2024. Esta decisión fue tomada debido a la alta tasa de desempleo entre sus miembros, que alcanza el 75% según algunas fuentes. La ADG comunicó que no pueden alentar a nuevos aspirantes a ingresar en la profesión mientras que muchos de sus miembros actuales permanecen sin trabajo. (Fuente: Indiewire)
Este newsletter siempre será gratuito, pero si consideras que el contenido merece apoyo, te invito a colaborar conmigo a través de estos botones. Los primeros tres son para suscribirte mensualmente en pesos, a través de Mercado Pago. (Recuerda que puedes darte de baja en cualquier momento si así lo deseas). Y si estás en el exterior puedes hacerlo a través de PayPal (También con una suscripción mensual o un único aporte). Tu contribución será una forma de respaldar mi trabajo y ayudar a que este proyecto siga creciendo.
Por favor, si no puedes hacerlo no te vayas, ¡Corre por mi cuenta la invitación para que sigas leyendo!
Y MUCHÍSIMAS GRACIAS A LOS QUE YA ESTÁN COLABORANDO.
NOTICIAS:
«Mi hombre es un cupido»: ¿El primer doblaje latino con IA?
«Recientemente Prime Video añadió a su catálogo la comedia romántica coreana Mi hombre es un cupido con aparente "doblaje" al español latinoamericano, y las quejas ya están apareciendo por todos lados» (continúa en la nota original).
Fuente: https://www.anmtvla.com/2024/05/mi-hombre-es-un-cupido-el-primer.html
Meta busca usar tus fotos en Instagram y Facebook para su inteligencia artificial: formas de evitarlo.
Meta Platforms ha anunciado una nueva política de privacidad, efectiva a finales de junio, que permitirá usar fotos, textos y audios de usuarios de Facebook e Instagram para entrenar su IA, Llama 3. Esto ha generado preocupación entre los usuarios europeos por el uso potencial de sus datos personales sin consentimiento explícito.
Desde el 26 de junio, si los usuarios no rechazan explícitamente las nuevas condiciones, estas se aplicarán por defecto. Para evitar que Meta use sus datos, los usuarios deben completar un formulario disponible en la política de privacidad de Instagram o Facebook, explicando su objeción. Si Meta acepta la solicitud, el usuario quedará excluido de la nueva política.
Al parecer, por ahora, estas opciones de privacidad están disponibles solo en algunos territorios. Deben estar atentos para especificarlo en su perfil en cuanto sea posible, especialmente si en su cuenta profesional suelen poner audios de sus trabajos o incluso videos trabajando con su voz.
Fuente: