February 28, 2019

Очень нравится мне проект мозиллы Common Voice - это попытка собрать как можно бОльшую базу размеченных аудиозаписей на разных языках. Наткнулся на текущую статистику - собрано уже 1400 часов речи на 18 языках. Причем на английском только 900 часов, остальное в основном разные мелкие языки (например, внезапно, татарский и чувашский). И, что очень круто, все эти данные доступны под открытой лицензией - теперь на этих данных каждый сможет сделать хорошую систему распознавания речи.

Обратите внимание, русского в базе так и нет 🙁 По многим причинам (они хорошо видны на гитхабе в проекте voice-web). Если вы вдруг хотите помочь мозилле создать такую общедоступную базу данных - сделайте это. Дело важное и действительно нужное всему миру. venturebeat.com/2019/02/28/mozilla-updates-common-voice-dataset-with-1400-hours-of-speech-across-19-languages/

Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages

Mozilla's updated Common Voice dataset contains more than 1,400 hours of speech data from 42,000 contributors across more than 18 languages.