January 27, 2022

OpenAI говорят, что их новая версия GPT-3, которая называется InstructGPT, гораздо лучше понимает инструкции, производит меньше ошибок, реже ругается или дерзит. И еще гораздо реже дезинформирует, особенно в вопросах, связанных с актуальными штуками вроде ковида. Короче, мы получили первый заход на политкорректную и корректную версию GPT-3.

Непонятно, насколько это логично, обучать нейронку тому, что не умеют люди. С другой стороны, у GPT-3 нет задачи мимикрировать под человека, так что выглядит все это соблазнительно. Ну и вообще, описание в блоге хорошее, не пропустите и прочитайте.

openai.com/blog/instruction-following/

Aligning Language Models to Follow Instructions

We’ve trained language models that are much better at following user intentions than GPT-3 while also making them more truthful and less toxic, using techniques developed through our alignment research. These InstructGPT models, which are trained with humans in the loop, are now deployed as the default language models