March 16, 2017

Гугл довольно существенно обновил свой фреймворк для работы с текстами - SyntaxNet. Самая крутая новость, кмк, система "угадывания" частей речи в словах, которые не существуют. Прямо в самой статье есть разбор классического русского "Глокая куздра штеко будланула бокра и курдячит бокренка" - и новый синтакснет прекрасно справляется с разбором связей в этом предложении, благодаря тому, что больше не воспринимает каждое слово как уникальную единицу. Теперь syntaxnet в процессе обучения учитывает что в словах wildcat и cat много общего, а значит его можно воспринимать как примерно одну часть речи в большинстве примеров. Пример натянутый, но понятный.

Вообще круто, как много сейчас делается в опенсорсе вокруг анализа текстов. Но синтакснет и фасттекст это конечно самое интересное. research.googleblog.com/2017/03/an-upgrade-to-syntaxnet-new-models-and.html

An Upgrade to SyntaxNet, New Models and a Parsing Competition

Posted by David Weiss and Slav Petrov, Research Scientists At Google, we continuously improve the language understanding capabilities used i...