Recientemente leí un comentario en LinkedIn de un colega de la industria del doblaje que se oponía a colaborar con un proyecto que usaba su voz para «no alimentar» a las IA. Aunque por supuesto respeto esa postura, no estoy convencido de que este gesto sea suficiente para frenar el avance de estas tecnologías.
Las voces sintéticas han llegado para quedarse, y su desarrollo es inevitable. Aun si algunos artistas rechazan participar, siempre habrá otros que cederán sus derechos de voz, y con eso el proceso seguirá avanzando. Lo importante aquí no es solo si uno colabora o no, sino entender cómo estas voces se alimentan y cómo es que aprenden. Si bien no estoy a favor de que la tecnología suplante el trabajo humano, me parece crucial explicar cómo estas voces se alimentan y cómo es que aprenden, para que podamos tomar decisiones informadas.
El aprendizaje detrás de una voz sintética
Las voces sintéticas se entrenan con grabaciones de voces humanas. Esto no se trata de tomar una única voz y replicarla, sino de alimentar modelos de IA con cientos o miles de horas de grabaciones diversas para que aprendan patrones de habla, prosodia, tono y emoción.
Una parte importante de este entrenamiento proviene de datasets de audio. Por ejemplo, el Spotify Podcasts Dataset, que contiene más de 47,000 horas de audio transcrito de podcasts, ha sido utilizado para entrenar sistemas de reconocimiento de voz y generación de lenguaje. Este conjunto de datos es un ejemplo del tipo de información que ayuda a modelos como los de doblaje automatizado a desarrollar una comprensión profunda del lenguaje hablado en diferentes estilos, ritmos y emociones. Además, Spotify ha adquirido compañías como Sonantic, especializadas en la creación de voces sintéticas, para integrar esta tecnología en experiencias personalizadas como narraciones de audiolibros y DJs virtuales.
Fuentes:
En el caso de compañías como Papercup, las voces generadas por IA combinan métodos de text-to-speech (de texto a voz) y speech-to-speech (de voz a voz). El proceso empieza con un modelo de lenguaje base que ha sido alimentado con miles de horas de grabaciones generales. Luego, este modelo se entrena de manera más específica con datos adicionales recopilados de actores profesionales que otorgan su consentimiento explícito para usar su voz.
Fuente:
Esto nos lleva a un punto clave: aunque una IA puede aprender a generar voces realistas con base en grandes cantidades de datos, no puede replicar el timbre específico ni las características particulares de una voz concreta si esa persona no ha cedido sus derechos.
La «zona gris» de las voces modificadas
Un situación que empieza a surgir en esta era de voces clonadas es la creación de una «zona gris» respecto a la titularidad de las voces. Algunas compañías, al generar nuevas voces sintéticas, no replican directamente la voz de un talento específico, sino que realizan modificaciones tímbricas, cruzan características de múltiples voces, o alteran elementos clave como el tono o la prosodia. De esta manera, pueden argumentar que la voz resultante «ya no es igual» a ninguna original y, por lo tanto, no pertenece a ningún individuo específico.
Esto genera un problema importante para los artistas. ¿Qué sucede cuando escuchas una voz que se parece mucho a la tuya, pero que técnicamente no lo es? ¿Cómo se determina si ha habido una infracción de derechos o no? He notado en varias producciones voces que recuerdan claramente a talentos conocidos, aunque no sean ellos. Este tipo de prácticas plantea preguntas éticas y legales sobre el uso y la manipulación de las características vocales en entornos comerciales.
Para los talentos de voz, esta es una preocupación legítima, ya que estas variaciones podrían afectar tanto su identidad profesional como las oportunidades laborales. Aunque las voces generadas pueden no ser idénticas, ¿es justo que un modelo sintético inspirado en ciertas características pueda reemplazar al talento original?
La importancia de la información frente al miedo
En este contexto, el propósito de este artículo no es alarmar, sino invitar a reflexionar desde un lugar informado. Con frecuencia, la incertidumbre que genera lo nuevo puede llevarnos a rechazar enseguida ciertas tecnologías, impulsados por el miedo a lo desconocido. Sin embargo, la historia demuestra que el conocimiento y el aprendizaje son herramientas fundamentales para afrontar cambios.
Entender cómo funcionan las voces sintéticas no significa aceptarlas sin cuestionarlas, sino saber exactamente cómo se crean, qué implicaciones tienen, y cómo podemos protegernos y adaptarnos como profesionales. Estar informados nos permite participar en estas conversaciones con argumentos sólidos y tomar decisiones conscientes, en lugar de dejarnos llevar por la resistencia irracional.
Las voces sintéticas seguirán evolucionando, pero nuestra capacidad para aprender y adaptarnos puede asegurarnos un lugar en esta transformación.
Este newsletter siempre será gratuito, pero si consideras que el contenido merece apoyo, te invito a colaborar conmigo a través de estos botones. Los primeros tres son para suscribirte mensualmente en pesos, a través de Mercado Pago. (Recuerda que puedes darte de baja en cualquier momento si así lo deseas). Y si estás en el exterior puedes hacerlo a través de PayPal (También con una suscripción mensual o un único aporte). Tu contribución será una forma de respaldar mi trabajo y ayudar a que este proyecto siga creciendo.
Por favor, si no puedes hacerlo no te vayas, ¡Corre por mi cuenta la invitación para que sigas leyendo!
Y MUCHÍSIMAS GRACIAS A LOS QUE YA ESTÁN COLABORANDO.
Este tema ha causado mucho revuelo y con justa razón.
Amazon subió una serie doblada y subtitulada con IA y en México los talentos se quejaron directamente. La serie no sonaba nada bien.
Como experimento fue interesante, pero puede afectar mucho a la industria. Y más porque los clientes cada día quieren gastar menos. Muchos actores se han visto afectados por apps que usan sus voces para generar pequeñas frases. Y claro que nunca les pagaron ni les preguntaron.
Este sistema se presta para muchas cosas malas, pero creo que en algún punto, gracias al uso de bases de datos (sin nuestro consentimiento) esas IAs mejorarán mucho. El problema será cuando se usen para incriminarnos o para cosas ilegales.
Me parece excelente tu cierre, debemos saber cómo funcionan para entender cómo se usan. Ya es una realidad, ahora toca aprender a diferenciarlas. Me parece que en el norte de Europa, a los niños se les está enseñando a detectar deepfakes. Es un buen comienzo, ellos crecerán con estas tecnologías y al no temerles, sino comprenderlas, estarán un paso más adelante que nosotros.