В Meta рассказали про свою новую модель для генерации голоса,…

June 16, 2023

В Meta рассказали про свою новую модель для генерации голоса, называется Voicebox. Они говорят, что пытаются сделать "как ChatGPT, только для аудио", но имеется в виду, что система пытается продолжить предыдущее аудио с использованием текста как контекста. Обучение делалось всего лишь на 50 тысячах часов аудиозаписей на разных языках, в том числе аудиокниг. Интересен подход к тестированию: ребята обучали на синтезированных фразах систему распознавания речи, и она показала очень незначительное ухудшение качества распознавания. На самом деле пробегитесь глазами сами, потенциально это очень большой прорыв в качестве синтеза речи и работы со звуком.

При этом не ждите прорыва прямо сейчас. Мета отказывается показывать исходные тексты или готовые программы — говорит, "есть потенциальные риски очень неправильного использования" таких решений. Пока можете просто их видео и т.п. посмотреть и поверить на слово.

about.fb.com/news/2023/06/introducing-voicebox-ai-for-speech-generation/

Introducing Voicebox: The Most Versatile AI for Speech Generation | Meta
Voicebox is a generative AI model that can help with audio editing, sampling and styling.