Cuando ha visto un video en línea, ¿alguna vez ha considerado si la voz en off era en realidad una voz humana? Suena ciencia ficción, pero en estos días, muchas empresas confían en una tecnología emergente llamada texto a voz para dar vida a sus voces en off, guiones y contenido de aprendizaje. En este artículo, analizamos qué es la conversión de texto a voz, cómo se compara con las voces en off humanas reales y cómo puede generar voces naturales sorprendentemente realistas con una plataforma de conversión de texto a voz en línea.

¿Qué es texto a voz?

Texto a voz es una forma de tecnología predictiva que pronuncia palabras escritas en voz alta, convirtiendo el texto en voz. Muchas empresas utilizan texto a voz para contenido de aprendizaje y desarrollo, videos de capacitación y versiones de audio de transcripciones, como podcasts. Por ejemplo, una empresa de atención médica podría usar texto a voz para transmitir sus materiales de capacitación de campo sobre la prevención de un paro cardíaco para capacitar a su fuerza laboral con las mejores prácticas más recientes. 

En el pasado, solo había una opción para grabar una voz en off: una voz humana. Muchas empresas utilizaron empleados internos para grabar su contenido o subcontrataron las voces en off a los estudios de grabación. Sin embargo, la tecnología ha activado otra forma de voz en off: las voces de IA. Antes de comenzar a imaginar robots y cyborgs, presione pausa; es probable que no pueda notar la diferencia entre una voz en off humana o una voz sintética que suena natural.

Entonces, ¿qué es exactamente una voz natural?

Las voces naturales son voces que suenan humanas, ya sea de una persona o de forma sintética. Si bien, históricamente, las empresas dependían de los locutores humanos o de los empleados para las locuciones, ambas rutas pueden ser inesperadamente ineficientes y prohibitivas en términos de costos. 

Con los estudios de grabación, por ejemplo, no solo lleva tiempo encontrar al artista de doblaje adecuado, reservar tiempo en su calendario y luego esperar para grabar, sino que las grabaciones a menudo requieren retomas, reescrituras y otros ajustes menores que ralentizan aún más el proceso. Las empresas a menudo tienen que entrenar a los locutores sobre cómo decir una terminología específica o la jerga de la empresa y es posible que tengan que volver a grabar si no se hace correctamente. En promedio, 60 minutos con un actor de doblaje o una agencia cuestan aproximadamente $1249, mientras que exactamente los mismos 60 minutos cuestan solo $11,76 a través de un actor sintético , plataforma de texto a voz.

Muchas empresas optan por el ahorro de costos mediante el uso de empleados internos, pero esto también presenta sus desafíos. La mayoría de los empleados no son locutores capacitados, por lo que les impone horas de grabación además de sus responsabilidades regulares. Y la mayoría de las oficinas no son los entornos de grabación ideales ni están configuradas para ser estudios de grabación, por lo que cada vez que un empleado necesita grabar algo, debe fabricar una habitación con la acústica, los micrófonos, los auriculares y la tecnología adecuados… cada vez, para cada retomar o actualizar. Entonces, debido a que su empleado promedio no está capacitado para hablar con la hoja de llamadas (es decir, con inflexión, ritmo y tono), la voz en off final a menudo es inconsistente en el mejor de los casos. Esto conduce a materiales de capacitación deficientes que pueden reflejarse negativamente en la empresa, a pesar de todo el tiempo y esfuerzo involucrados. Una vez que todo está dicho y hecho (juego de palabras), el costo promedio para grabar la voz en off internamente asciende a $ 900. No es exactamente una ganga, dado que el texto a voz sintético cuesta aproximadamente $12 o, como máximo, alrededor de $156, incluso si se tiene en cuenta el tiempo de los empleados.

La alternativa a las voces en off humanas son las voces en off sintéticas. Pero mientras que las voces en off de antaño pueden haber sonado algo robóticas, con el poder de la tecnología actual, el texto sintético a voz suena completamente real. De hecho, WellSaid Labs realizó un estudio en el que los participantes calificaron las voces en off humanas y las voces en off sintéticas como similares a la vida real, según lo verificó una empresa externa.

¿Cómo consigue que las voces de texto a voz suenen naturales?

El poder de la conversión de texto a voz con sonido natural está en el algoritmo y la plataforma. Si bien no todas las plataformas de texto a voz suenan completamente naturales, aquellas como Laboratorios WellSaid concéntrese en algunos patrones para hacer que las voces suenen sorprendentemente humanas. Luego, le dan el poder de editar, adaptar y entrenar el algoritmo para producir un mejor producto cada vez.

Por ejemplo, mientras que las voces de texto a voz menos sofisticadas pueden pronunciar las palabras exactamente igual cada vez, los avatares de WellSaid Labs varían la forma en que dicen las palabras. Debido a que los Avatares son algoritmos que aprenden de voces humanas reales, los Avatares agregan inflexiones, varían el ritmo y fluctúan su tono. Incluso pueden entretejer variaciones locales, como diferencias en la forma en que las personas dicen tía (ant vs. ah-nt) o caramelo (car-mel vs. care-a-mel). 

Además, puede controlar qué voces de texto a voz con sonido natural utiliza. Por ejemplo, dependiendo de si está grabando ese entrenamiento sobre un paro cardíaco o un nuevo software moderno, es posible que desee Avatares completamente diferentes. Varios tonos, ritmos y tonos crean un nivel completamente diferente de credibilidad y comprensión para sus oyentes. 

El texto a voz del futuro

Con todos estos beneficios, el texto a voz nunca ha sido una forma más natural, eficiente y económica de dar vida a guiones, videos y materiales de aprendizaje y desarrollo.