Внезапная мысль от компании roboflow: они проанализировали популярные источники данных, на которых обучаются любительские (и профессиональные) системы селфдрайвинга. И обнаружилось, что на этих фото и видео материалах просто огромное количество изображений людей, которые не отмечены как люди. Т.е. буквально, если обучаться только на этом датасете, некоторые обьекты похожие на людей не будут распознаны как люди и это чудовищно.
Вообще чистота и точность разметки любых датасетов - важнейшая часть работы комьюнити, я надеюсь что теперь многие сообщества разработчиков внимательно просмотрят размечаемые ими данные blog.roboflow.ai/self-driving-ca
A popular self-driving car dataset
is missing labels for hundreds of pedestrians and dozens of cyclists.