Meta рассказали о своем новом подходе к машинному обучению без учителя, называется data2vec. Если очень сильно упрощать, это единая нейронная сеть, которая обобщает выводы об устройстве изображений, текстов, звуков, в некотором приближении чего угодно. И умеет, как и человеческий мозг, “достраивать” недостающие элементы. Если приглядеться, большая часть работы мозга заключается в достраивании недостающего во внешнем сигнале и моделировании будущего так, чтобы получался нужный нам результат. Скажем, вождение автомобиля это постоянное решение задачи “если я перемещусь из точки А в точку А1, будет ли это безопасно”.
Так вот, data2vec призван использовать общие “подходы” и переносить навыки по дополнению картины мира между разными областями. Впечатляет, что этот подход уже сейчас показал лучшие результаты в классических задачах машинного обучения, обогнав всех и в распознавании речи, и в определении изображения на картинке.
Data2vec: The first high-performance self-supervised algorithm that works for speech, vision, and text
We’ve built data2vec, the first general high-performance self-supervised algorithm for speech, vision, and text. When applied to different modalities, it matches or outperforms the best self-supervised algorithms.