Así cloné mi voz con inteligencia artificial en un minuto

Por Pablo Hamada 08 Mayo 2023

Basta usar un mensaje de audio de Whatsapp para que la inteligencia artificial aprenda a clonar una voz. Puede ser la de uno mismo, un familiar o la de un famoso. Hay audios por doquier, por lo tanto, no hay problema en conseguir la materia prima para la generación de audios de todo tipo. Y no solo eso: se pueden clonar voces y crear mensajes hablados en cualquier idioma. Es decir, de pronto, mi inglés puede ser tan perfecto como el de un colega nacido en Londres.

El proceso con el que se puede clonar la voz no requiere grandes conocimientos técnicos. Justamente estamos viviendo un auge de dicha tecnología porque emergieron varias plataformas que convirtieron los procesos de generación en tareas muy amigables, guiadas paso a paso y explicadas con entornos gráficos. Por eso mismo quise probar qué tan fácil podía ser crear un “robot” que me imitara leyendo un texto.

Así como ChatGPT es la aplicación estrella para una inteligencia artificial, existe otra que por estos días se está llevando la atención de productores de música, radio, podcast y hasta profesionales del doblaje. Se llama ElevenLabs y pertenece a una pequeña empresa de tecnología formada en 2022, con base en Estados Unidos que define a su misión como “hacer que el contenido sea universalmente accesible en cualquier idioma y voz”. La idea surgió de Piotr Dabkowski, un ex ingeniero de Google, quien junto a su socio consiguieron rápidamente inversión para desarrollar una plataforma y un modelo de negocio que hoy están logrando su objetivo.

El proceso es simple. En la plataforma se pueden elegir distintos tipos de voces para dar vida a un texto. Hay femeninas y masculinas, bastante creíbles y que no parecen un robot. Luego se puede configurar el grado de claridad del audio y su expresividad. Finalmente se ingresa un texto que no debe superar los 5.000 caracteres. En cuestión de segundos, la voz comenzará a leer el texto. Pero también existe una opción llamada “clonación de voz instantánea”, con la que se puede imitar el tono, el timbre, los matices de cualquier persona. Para ello hay que subir un archivo de audio con la voz a clonar y la muestra debe ser limpia, es decir, no debe tener ruido de fondo y sugieren que la duración sea superior a un minuto. Esa es la forma de entrenar al modelo para que luego dicha voz esté entre las opciones para leer el próximo texto. Se pueden subir hasta 25 muestras para perfeccionar la clonación, con archivos en formato mp3.

En la prueba que hicimos solo utilizamos audios de Whatsapp y bastó para generar una voz muy parecida a la original. Eso sí, se pierden todos los acentos típicos del norte o propios de nuestro castellano y allí aparecen matices que pueden sonar a una voz “mecánica”, muy comprimida y aguda. Pero este escollo está supeditado al entrenamiento del modelo, que por ahora ha sido perfeccionado para el inglés y para el resto de los idiomas por ahora está en fase experimental.

Para hacer este proceso y obtener voces clonadas hay que pagar. ElevenLabs tiene un costo de cinco dólares para quienes quieren personalizar una voz y ofrece un descuento del 80% durante el primer mes de uso, es decir, un dólar. Sin embargo, no tiene costo si solo se quiere utilizar las voces predefinidas en la plataforma.

La capacidad, facilidad y bajo costo de esta aplicación ha despertado también la preocupación de muchos. La semana pasada, una periodista de The Wall Street Journal contó que clonó su voz y engañó a su banco y a su familia utilizando ElevenLabs y otra aplicación para la generación de videos con su imagen. Con estos contenidos, pudo saltear las medidas de seguridad que utilizan algunas entidades bancarias con verificaciones de voz y hasta engañó al directivo de una empresa para pedirle una entrevista. En la misma semana, una mujer de Arizona denunció que habían clonado la voz de su hija para montar un falso secuestro y pedirle un millón de dólares para el rescate.

Surgen nuevas herramientas y también nuevos problemas. Con cinco dólares podemos pensar en posibilidades creativas vinculadas al audio, pero con el mismo costo también podemos ser víctimas de un nuevo tipo de estafa. ¿Cómo haremos entonces para certificar que nuestras voces sean auténticas? Una pregunta que por ahora solo clona incertidumbres más que certezas.

Temas Google Estados Unidos de América Londres WhatsApp

Tamaño texto

Comentarios

NOTICIAS RELACIONADAS

Bard: en qué se diferencia de ChatGPT la nueva inteligencia artificial de Google

Así cloné mi voz con inteligencia artificial en un minuto

Bard: en qué se diferencia de ChatGPT la nueva inteligencia artificial de Google

Incendio en Yerba Buena: una vivienda sufrió pérdidas totales

Minetti sobre el temporal en Tucumán: “El problema es la cantidad de días con precipitaciones”

La Madrid bajo el agua: el dramático momento en que rescatan a un anciano de la corriente

El agua no dio tregua en el sur tucumano: hay evacuados, serios daños y clases suspendidas

Inundaciones en La Madrid: impactantes imágenes desde un drone muestran la magnitud del desastre

Lluvias intensas en Tucumán: unas 300 familias pasaron la noche en la ruta

Alerta en El Cadillal: el agua supera la ruta y recomiendan no circular por la zona del vertedero

"En cuatro meses llovió el 60% del promedio anual de Tucumán", alertó Osvaldo Jaldo

Impactantes detalles del incendio que destruyó por completo una vivienda en Yerba Buena: las llamas alcanzaron hasta 15 metros

La capital tucumana registró la mayor precipitación de marzo en 40 años, según el Servicio Meteorológico Nacional

VIDEO. Agredieron al diputado Federico Pelli en La Madrid mientras entregaba ayuda a damnificados

EN VIVO: Julio Falcioni debuta como DT de Atlético Tucumán ante Aldosivi en el José Fierro

Inundaciones en La Madrid: impactantes imágenes desde un drone muestran la magnitud del desastre

Drama en el sur: rompieron la ruta 157 para evitar que el agua siga subiendo en La Madrid

Cruces por la suspensión de clases en Tucumán a causa de las lluvias: “parece un recital”

El rugby tucumano, en pausa: la URT suspende la segunda fecha debido a las inundaciones

VIDEO. Agredieron al diputado Federico Pelli en La Madrid mientras entregaba ayuda a damnificados

Una participante de Gran Hermano podría ser expulsada por comentarios racistas

Real Madrid goleó a Manchester City y quedó muy cerca de los cuartos de final

Cómo ayudar: Atlético Tucumán recibe donaciones para las familias afectadas por las inundaciones

Pidieron la indagatoria como imputado del diputado Cisneros, de una abogada y de un empleado de la Caja Popular en una derivación del caso “Vélez”

EN VIVO: Julio Falcioni debuta como DT de Atlético Tucumán ante Aldosivi en el José Fierro

¿Cuándo se votará en Tucumán en 2027?

Recuerdos fotográficos: Un paseo en el auto de las flores en los años 20

Disparen contra Morrissey

Recuerdos fotográficos: Congreso y Las Piedras, antes de los Tribunales federales

Steve Carell en “la nueva Ted Lasso”