July 02, 2020

Боже, как я это пропустил: MIT отзывает свой оргомный датасет картинок, который они начали создавать еще в 2008 году, а так же приносит свои извинения.

Датасет был собран с помощью скачивания страниц и картинок из поиска по картинкам гугла, часть из изображений содержали откровенно расисстские и мизогинистические высказывания и разметку. Так же в нем нашли “картинки женские гениталий подписанные словом на П”, и так далее, короче скандал, на ровном месте.

Не думайте, что сбор данных через гугл - редкая история, с этого начинались многие научные работы, в данном случае датасет был еще и улучшен с помощью WordNet, я уверен что это не единичный случай. Таких датасетов много, руками их никто не проверял, на предмет рассизма и мата - тем более. Что мы теперь будем делать без Tiny Images? www.theregister.com/2020/07/01/mit_dataset_removed/

MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogynistic slurs

Top uni takes action after El Reg highlights concerns by academics