June 16, 2023

В Meta рассказали про свою новую модель для генерации голоса, называется Voicebox. Они говорят, что пытаются сделать "как ChatGPT, только для аудио", но имеется в виду, что система пытается продолжить предыдущее аудио с использованием текста как контекста. Обучение делалось всего лишь на 50 тысячах часов аудиозаписей на разных языках, в том числе аудиокниг. Интересен подход к тестированию: ребята обучали на синтезированных фразах систему распознавания речи, и она показала очень незначительное ухудшение качества распознавания. На самом деле пробегитесь глазами сами, потенциально это очень большой прорыв в качестве синтеза речи и работы со звуком.

При этом не ждите прорыва прямо сейчас. Мета отказывается показывать исходные тексты или готовые программы говорит, "есть потенциальные риски очень неправильного использования" таких решений. Пока можете просто их видео и т.п. посмотреть и поверить на слово.

about.fb.com/news/2023/06/introducing-voicebox-ai-for-speech-generation/

Introducing Voicebox: The Most Versatile AI for Speech Generation | Meta

Voicebox is a generative AI model that can help with audio editing, sampling and styling.