June 29, 2022

Недавно OpenAI выложили пост, в котором описывают, как они научили ИИ играть в Майнкрафт. Решение было нетривиальным. Дело в том, что прошлые игры (например Dota2) они учили играть через чтение сетевого протокола или выполнение случайных действий, а тут было принято решение учиться "как есть". Посадить сотни тысяч человек играть в майнкрафт сложно, поэтому придумали любопытное: сначала посадили совсем немного контракторов, которые наиграли 2 тысячи часов, у них записывались нажатия клавиатуры и мыши и видео с экрана. После этого с помощью нейронки научились понимать, какие кнопки нажимает игрок просто по видео, без записей нажатия. И в этот момент для обучения стали доступны более 70 тысяч часов видео, скачанные просто из сети (в данном случае с ютуба и твича). В статье этот подход называется Video PreTraining.

Из интересного: в процессе файнтюнинга сети ИИ научился совершенно неочевидным вещам, например, разбивать верстак и носить его всегда с собой, рейдить деревни рядом, чтобы не крафтить простые вещи, и т.д. Есть у этого, правда, забавные последствия. Скажем, в статье OpenAI они измеряют, насколько быстро ИИ сможет добыть алмазную кирку, и радуются, что ИИ делает это в несколько раз быстрее, чем человек. Однако если присмотреться к демкам, видно, что ИИ решает эту задачу, опускаясь под землю практически без возможности вернуться на поверхность, т.е. буквально "роет шахту вертикально вниз с высоким шансом не вернуться обратно".

Вся статья в блоге — маленькая рекламка их конкурса по обучению ИИ играть в майнкрафт в рамках NeurIPS 2022. Но тем не менее, работа крутая, и решение с VPT очень остроумное.

openai.com/blog/vpt/

Learning to Play Minecraft with Video PreTraining (VPT)

We trained a neural network to play Minecraft by Video PreTraining (VPT) on a massive unlabeled video dataset of human Minecraft play, while using only a small amount of labeled contractor data. With fine-tuning, our model can learn to craft diamond tools, a task that usually takes proficient humans over