А гугл между тем выкатил обновление для своих голосовых сервисов. В распознавании там все не интересно (добавили выдачу канфинедса пословно, а не для фраз), а вот в синтезе речи наконец-то поехал на всех WaveNet - это пожалуй лучший синтезатор речи сейчас. Он не только очень чисто произносит и акцентирует фразы на 14 языках (русского нет, как обычно), но он еще и умеет сходу синтезировать одним голосом фразы сразу на нескольких языках. Больше не будет акцента или переключения голоса для прочтения фразы “лучше всех сейчас WaveNet” - все гладко.
Однако, я надеюсь, всем понятно, что использовать облачный синтез речи в своих проектах - это перебор. Дорого, медленно и трафик жрет. Учитесь пользоваться готовыми решениями от байду и мозиллы, как для синтеза так и для распознавания.
Announcing updates to Cloud Speech-to-Text and the general availability of Cloud Text-to-Speech | Google Cloud Blog
Cloud Text-to-Speech is now generally available, to meet your speech synthesis needs, while Speech-to-Text now supports diarization (speaker notation) and more.