September 09, 13:42

У Дениса есть ночной обзор скандала, расскажу о нем без сложных для многих технических подробностей. Если техничекие детали вам тоже интересны - загляните к Денису.

Несколько дней назад кто-то объявил о выходе дообученной "хитрыми методами" Llama 3.1 70B с невероятными результатами бенчмарков — она побила и GPT, и Claude, и все опенсорсные нейронки значительно бОльших размеров. После этого многие с восторгом начали разбираться и выяснилось:

1. C выложенными весами было что-то не так: выпустили Lora для Llama 3.0, утверждая, что это дообученная 3.1.

2. Проверка тестовыми запросами совсем не показывала таких крутых результатов.

3. Когда авторам указали на 1 — они сказали, что это ошибка, сейчас мы всё переобучим и заново выложим.

4. После "перевыкладывания" они же написали, что "кажется, что-то обучилось не так, будем разбираться".

5. В то же самое время, кроме весов авторы опубликовали веб-сервис для доступа к этой нейронке.

6. Эта нейронка по результатам была такая же как топовые модели ChatGPT и Claude.

7. Так как доверие к авторам было подорвано, люди на реддите решили хитрыми способами проверить, на какой же базе работает доступная на вебе нейронка.

8. И с вероятностью сильно выше 99% определили, что это Claude Sonnet 3.5.

9. Через 3 часа после открытия реддиторов их тест на Claude перестал работать. За 15 минут уточнений стало понятно, что изначальные авторы подменили Claude на GPT 4o :)

Многие воспринимают это всё с раздражением, т.к. вместо ресерча люди занимаются ерундой. На мой взгляд, это невероятная история о том, что в этой области науки и инженерии люди ничему не верят на слово, всё проверяется, и именно поэтому так быстро и интенсивно двигается вперед вся индустрия. Очень круто, я в восторге. А можно теперь так же в медицине, например?