Microsoft generó simulador de voz que registra el habla con tres segundos de audio
Tras estrenar el primer modelo a voz (TTS), un grupo de Microsoft ha buscado otras nuevas formas de mejorar los sistemas que generan el habla. Y el último modelo presentado, VALL-E, representa un paso importante.
Hace unos días, el emporio de la tecnología había anunciado su idea de integrar ChatGPT dentro de sus principales soluciones como Bing, que se espera de cara a este primer trimestre de 2023.
Pero, así reportan la mayoría de los portales, todo apunta a que Microsoft también estaría desarrollando la forma para integrar ChatGPT con su paquete de programas para ofimática Office.
Microsoft denomina a esta herramienta como un “modelo de lenguaje de códec neural”, y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022.
A diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el habla manipulando las formas de onda, VALL-E genera códigos de códec de audio a partir de texto e indicaciones acústicas.
Este modelo, analiza cómo suena una persona, descompone esa información gracias a EnCodec, y utiliza datos de entrenamiento para hacer coincidir lo que ha aprendido sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra dada.
Microsoft entrenó las capacidades de síntesis de voz de VALL-E con una biblioteca de audio, creada por Meta, llamada LibriLight.
El programa contiene 60.000 horas de habla inglesa de más de 7.000 hablantes, en su mayoría extraídas de audiolibros de dominio público de LibriVox.
Ten la información al instante en tu celular. Únete al grupo de Diario Primicia en WhatsApp a través del siguiente link: https://chat.whatsapp.com/ITZlFCo0K0dALE2WM1S3z8
También estamos en Telegram como @DiarioPrimicia, únete aquí:https://t.me/diarioprimicia