January 26, 2023

Новость вчерашняя, но я вежливый и не стал писать, пока все не стало публичным. В общем, кто-то очень недобрый выложил в открытый доступ полное дерево исходных текстов всех сервисов из репозиториия Яндекса. Там и поиск, и Алиса, и даже Такси есть (по ссылке обзор контента).

Важно понимать: по сути это довольно бесполезно, подходит для изучения кода, но запустить из этого свой яндекс не выйдет. Во-первых, попробуйте хоть что-то оттуда собрать, это очень неочевидно и часто требует внутренней инфраструктуры Яндекса. Во-вторых, для ИИ-проектов нет самого главного — натренированных весов, т.е. модель, которая у вас получится после сборки, просто не обучена. Датасета для обучения тоже нет.

Это безусловно не взлом, а слив кого-то из сотрудников. И код не свежий, это срез репозитория на символическую дату 24 февраля прошлого года.

Тем не менее, 40+ гигабайт сорцов — прецедент серьезный и явно политический. И даже не спросишь «а что случилось».

arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Yandex Services Source Code Leak

Short overview of breach contents