October 25, 2017

Awni Hannun написал великолепный пост, под которым я готов подписаться во всех местах: нет, распознавание голоса это не решенная задача! Да, мы уже научились делать интерфейсы с голосом, которые примерно понимают человека. Графики майкрософта, гугла, байду показывают, что распознавание речи теперь работает лучше, чем у человека. Но как только нужна точность - начинаются проблемы.

Я набираю голосом примерно 4-5 килобайт текста в день, и не вижу особого прогресса в снижении ошибок последние полтора года. Я бы сказал, что есть три основных проблемы, с которыми еще только предстоит разобраться: 1. шумная обстановка, 2. ошибки семантики и работа с языком 3. путаность речи. Про шум (как мне наивно кажется) все примерно понятно - надо брать большую базу записей и строить фильтры, выкидывающие из звука те гармоники, которые не меняют распознанный текст. Скорее всего на тех же самых нейронных сетях. С семантикой все не просто, сейчас все просто используют вероятностные модели, подсказывающие что “как погодка” люди говорят, а “каппадокия” - редко, скорее всего этот наивный подход предстоит изжить. Так же, как предстоит научить машины не просто игнорировать наши “мммм”, “эээээ”, “нууууу”, а извлекать из них смысл, помогающий определить суть содержащей их фразы.

В общем простите за такое пространное сообщение, но мораль тут одна - когда маркетинговые графики показывают, что “проблема решена”, обычно вы достигли где-то 20% решения, остались жалкие 80. Тем не менее, прогресс не остановить.

awni.github.io/speech-recognition/

Speech Recognition Is Not Solved

Ever since Deep Learning hit the scene in speech recognition, word error rates have fallen dramatically. But despite articles you may have read, we still don’t have human-level speech recognition. Speech recognizers have many failure modes. Acknowledging these and taking steps towards solving them is critical to progress. It’s the only way to go from ASR which works for some people, most of the time to ASR which works for all people, all of the time.