March 28, 2018

Вчера гугл официально запустил свою text-to-speech систему на базе WaveNet, которой мы восхищались три года назад. Пока он будет существовать параллельно с их обычной системой синитеза на базе юнит селекшн. Но попробовать уже можно, правда только для английского языка и по цене в 4.5 раза дороже штатного синтеза.

Параллельно с этим показали Tacotron - расширение синтеза на WaveNet, позволяющего добавить в синтезируемые фразы акцент, интонации и прочее, “сняв” их с живого спикера. Помните Face2Face, где синтезировалось видео одного спикера, за счет другого? Вот это продолжение той же концепции. По моим прикидкам до общедоступной функции “ваше устройство будет говорить голосом любимого человека” остается 3-4 года.

research.googleblog.com/2018/03/expressive-speech-synthesis-with.html

Expressive Speech Synthesis with Tacotron

Posted by Yuxuan Wang, Research Scientist and RJ Skerry-Ryan, Software Engineer, on behalf of the Machine Perception, Google Brain and TTS R...