August 31, 2018

А гугл между тем выкатил обновление для своих голосовых сервисов. В распознавании там все не интересно (добавили выдачу канфинедса пословно, а не для фраз), а вот в синтезе речи наконец-то поехал на всех WaveNet - это пожалуй лучший синтезатор речи сейчас. Он не только очень чисто произносит и акцентирует фразы на 14 языках (русского нет, как обычно), но он еще и умеет сходу синтезировать одним голосом фразы сразу на нескольких языках. Больше не будет акцента или переключения голоса для прочтения фразы “лучше всех сейчас WaveNet” - все гладко.

Однако, я надеюсь, всем понятно, что использовать облачный синтез речи в своих проектах - это перебор. Дорого, медленно и трафик жрет. Учитесь пользоваться готовыми решениями от байду и мозиллы, как для синтеза так и для распознавания.

cloud.google.com/blog/products/ai-machine-learning/announcing-updates-to-cloud-speech-to-text-and-general-availability-of-cloud-text-to-speech

Announcing updates to Cloud Speech-to-Text and the general availability of Cloud Text-to-Speech | Google Cloud Blog

Cloud Text-to-Speech is now generally available, to meet your speech synthesis needs, while Speech-to-Text now supports diarization (speaker notation) and more.