Вчера гугл официально запустил свою text-to-speech систему на базе WaveNet, которой мы восхищались три года назад. Пока он будет существовать параллельно с их обычной системой синитеза на базе юнит селекшн. Но попробовать уже можно, правда только для английского языка и по цене в 4.5 раза дороже штатного синтеза.
Параллельно с этим показали Tacotron - расширение синтеза на WaveNet, позволяющего добавить в синтезируемые фразы акцент, интонации и прочее, “сняв” их с живого спикера. Помните Face2Face, где синтезировалось видео одного спикера, за счет другого? Вот это продолжение той же концепции. По моим прикидкам до общедоступной функции “ваше устройство будет говорить голосом любимого человека” остается 3-4 года.
research.googleblog.com/2018/03/
Expressive Speech Synthesis with Tacotron
Posted by Yuxuan Wang, Research Scientist and RJ Skerry-Ryan, Software Engineer, on behalf of the Machine Perception, Google Brain and TTS R...