При этом голос имитируется очень достоверно, с сохранением как тембра, так и эмоциональной окраски оригинала.
Сама Microsoft называет VALL-E «языковой моделью нейронного кодека». Разработка опирается на технологии EnCodec. В отличие от других методов преобразования текста, которые зачастую синтезируют речь, манипулируя формами сигналов, разработка Microsoft в основном анализирует, как именно звучит человек, разбивает эту информацию на отдельные «токены» и использует обучающие данные, чтобы сопоставить свои «знания» о том, как этот голос будет звучать, если ИИ произнесёт другие фразы.
VALL-E обучали на библиотеке LibriLight, содержащей 60 000 часов англоязычной речи более чем от 7000 человек.
Google показала свой ИИ Duplex, который тоже может говорить практически неотличимо от человека, ещё в 2018 году, но суть разработки Microsoft не в самом ИИ, а именно в его способности имитировать разные голоса.
На сайте проекта есть множество примеров работы ИИ, с которыми может ознакомиться любой желающий.