February 18, 2021

Гуглеры опубликовали новую работу (и исходный код), Switch Transformer, который судя по всему может работать с 1.6 триллионами параметров. Для сравнения, сделанный для аналогичных целей GPT-3, который все сейчас прославляют, работает с 175 миллиардами параметров, т.е. почти на порядок меньше.

Понятно, что сравнить Switch Transformer и GPT-3 пока невозможно - исходные коды частично доступны, а вот предобученную модель Гугл не отдаст. И даже API пока нет, так что качество непонятно, хотя судя по статье похоже на очередной прорыв.

Главная проблема для воссоздания таких систем - мало у кого достаточно вычислительных мощностей для обучения настолько масштабных моделей. Надеюсь в каком-то ближайшем будущем кто-то займется благотворительностью и выложит предобученную модель, по оптимистичной оценке на ее обучение нужно несколько миллионов долларов вычислительных ресурсов. arxiv.org/abs/2101.03961