Así cloné mi voz con inteligencia artificial en un minuto

Basta usar un mensaje de audio de Whatsapp para que la inteligencia artificial aprenda a clonar una voz. Puede ser la de uno mismo, un familiar o la de un famoso. Hay audios por doquier, por lo tanto, no hay problema en conseguir la materia prima para la generación de audios de todo tipo. Y no solo eso: se pueden clonar voces y crear mensajes hablados en cualquier idioma. Es decir, de pronto, mi inglés puede ser tan perfecto como el de un colega nacido en Londres.

El proceso con el que se puede clonar la voz no requiere grandes conocimientos técnicos. Justamente estamos viviendo un auge de dicha tecnología porque emergieron varias plataformas que convirtieron los procesos de generación en tareas muy amigables, guiadas paso a paso y explicadas con entornos gráficos. Por eso mismo quise probar qué tan fácil podía ser crear un “robot” que me imitara leyendo un texto.

Así como ChatGPT es la aplicación estrella para una inteligencia artificial, existe otra que por estos días se está llevando la atención de productores de música, radio, podcast y hasta profesionales del doblaje. Se llama ElevenLabs y pertenece a una pequeña empresa de tecnología formada en 2022, con base en Estados Unidos que define a su misión como “hacer que el contenido sea universalmente accesible en cualquier idioma y voz”. La idea surgió de Piotr Dabkowski, un ex ingeniero de Google, quien junto a su socio consiguieron rápidamente inversión para desarrollar una plataforma y un modelo de negocio que hoy están logrando su objetivo.

El proceso es simple. En la plataforma se pueden elegir distintos tipos de voces para dar vida a un texto. Hay femeninas y masculinas, bastante creíbles y que no parecen un robot. Luego se puede configurar el grado de claridad del audio y su expresividad. Finalmente se ingresa un texto que no debe superar los 5.000 caracteres. En cuestión de segundos, la voz comenzará a leer el texto. Pero también existe una opción llamada “clonación de voz instantánea”, con la que se puede imitar el tono, el timbre, los matices de cualquier persona. Para ello hay que subir un archivo de audio con la voz a clonar y la muestra debe ser limpia, es decir, no debe tener ruido de fondo y sugieren que la duración sea superior a un minuto. Esa es la forma de entrenar al modelo para que luego dicha voz esté entre las opciones para leer el próximo texto. Se pueden subir hasta 25 muestras para perfeccionar la clonación, con archivos en formato mp3.

En la prueba que hicimos solo utilizamos audios de Whatsapp y bastó para generar una voz muy parecida a la original. Eso sí, se pierden todos los acentos típicos del norte o propios de nuestro castellano y allí aparecen matices que pueden sonar a una voz “mecánica”, muy comprimida y aguda. Pero este escollo está supeditado al entrenamiento del modelo, que por ahora ha sido perfeccionado para el inglés y para el resto de los idiomas por ahora está en fase experimental.

Para hacer este proceso y obtener voces clonadas hay que pagar. ElevenLabs tiene un costo de cinco dólares para quienes quieren personalizar una voz y ofrece un descuento del 80% durante el primer mes de uso, es decir, un dólar. Sin embargo, no tiene costo si solo se quiere utilizar las voces predefinidas en la plataforma.

La capacidad, facilidad y bajo costo de esta aplicación ha despertado también la preocupación de muchos. La semana pasada, una periodista de The Wall Street Journal contó que clonó su voz y engañó a su banco y a su familia utilizando ElevenLabs y otra aplicación para la generación de videos con su imagen. Con estos contenidos, pudo saltear las medidas de seguridad que utilizan algunas entidades bancarias con verificaciones de voz y hasta engañó al directivo de una empresa para pedirle una entrevista. En la misma semana, una mujer de Arizona denunció que habían clonado la voz de su hija para montar un falso secuestro y pedirle un millón de dólares para el rescate.

Surgen nuevas herramientas y también nuevos problemas. Con cinco dólares podemos pensar en posibilidades creativas vinculadas al audio, pero con el mismo costo también podemos ser víctimas de un nuevo tipo de estafa. ¿Cómo haremos entonces para certificar que nuestras voces sean auténticas? Una pregunta que por ahora solo clona incertidumbres más que certezas.