У Дениса есть ночной обзор скандала, расскажу о нем без сложных для многих технических подробностей. Если техничекие детали вам тоже интересны - загляните к Денису.
Несколько дней назад кто-то объявил о выходе дообученной "хитрыми методами" Llama 3.1 70B с невероятными результатами бенчмарков — она побила и GPT, и Claude, и все опенсорсные нейронки значительно бОльших размеров. После этого многие с восторгом начали разбираться и выяснилось:
1. C выложенными весами было что-то не так: выпустили Lora для Llama 3.0, утверждая, что это дообученная 3.1.
2. Проверка тестовыми запросами совсем не показывала таких крутых результатов.
3. Когда авторам указали на 1 — они сказали, что это ошибка, сейчас мы всё переобучим и заново выложим.
4. После "перевыкладывания" они же написали, что "кажется, что-то обучилось не так, будем разбираться".
5. В то же самое время, кроме весов авторы опубликовали веб-сервис для доступа к этой нейронке.
6. Эта нейронка по результатам была такая же как топовые модели ChatGPT и Claude.
7. Так как доверие к авторам было подорвано, люди на реддите решили хитрыми способами проверить, на какой же базе работает доступная на вебе нейронка.
8. И с вероятностью сильно выше 99% определили, что это Claude Sonnet 3.5.
9. Через 3 часа после открытия реддиторов их тест на Claude перестал работать. За 15 минут уточнений стало понятно, что изначальные авторы подменили Claude на GPT 4o :)
Многие воспринимают это всё с раздражением, т.к. вместо ресерча люди занимаются ерундой. На мой взгляд, это невероятная история о том, что в этой области науки и инженерии люди ничему не верят на слово, всё проверяется, и именно поэтому так быстро и интенсивно двигается вперед вся индустрия. Очень круто, я в восторге. А можно теперь так же в медицине, например?