В Meta рассказали про свою новую модель для генерации голоса, называется Voicebox. Они говорят, что пытаются сделать "как ChatGPT, только для аудио", но имеется в виду, что система пытается продолжить предыдущее аудио с использованием текста как контекста. Обучение делалось всего лишь на 50 тысячах часов аудиозаписей на разных языках, в том числе аудиокниг. Интересен подход к тестированию: ребята обучали на синтезированных фразах систему распознавания речи, и она показала очень незначительное ухудшение качества распознавания. На самом деле пробегитесь глазами сами, потенциально это очень большой прорыв в качестве синтеза речи и работы со звуком.
При этом не ждите прорыва прямо сейчас. Мета отказывается показывать исходные тексты или готовые программы — говорит, "есть потенциальные риски очень неправильного использования" таких решений. Пока можете просто их видео и т.п. посмотреть и поверить на слово.
about.fb.com/news/2023/06/introd
Introducing Voicebox: The Most Versatile AI for Speech Generation | Meta
Voicebox is a generative AI model that can help with audio editing, sampling and styling.