Какая-то бесконечная неделя обсуждения DeepSeek. Я решил, что иногда буду делать вот такие подборки с пачкой разных новостей в одном посте. Поставьте там звездочку, если считаете, что так нормально будет.
В Wired обзор того, как работать с DeepSeek. Для ленивых — оно работает и даже бесплатно, но галлюцинации постоянные, и по набору важных пользовательских фич (таких как канвас или память), конечно, уступает ChatGPT. Вообще, откуда такая истерика — непонятно, рассказы про то, что deepseek превосходит топовые модели — это же чистый маркетинг. На деле это правда крутая для опенсорса модель, но все реальные тесты пока показывают — она хорошая, но совсем не уровня o1 или Sonet.
Nvidia называет работу DeepSeek "отличным достижением в области ИИ", но при этом подчеркивает, что "для вывода требуется значительное количество графических процессоров NVIDIA и быстрые сети". И это правда. С точки зрения экономики выход такой модели невероятно выгоден в долгосроке для Nvidia.
При этом все данные DeepSeek собираются и хранятся, разумеется, в Китае. Ну, в этом ничего удивительного нет, ведь китайцы не шпионят, правда?
Сэм Альтман говорит, что R1 от DeepSeek — это "впечатляющая модель, прямо топ, особенно за свои деньги". Да, пока главное достижение DeepSeek — очень дешевый инференс модели.
DeepSeek утверждает, что для обучения R1 использовались чипы Nvidia H800, доступные в Китае до октября 2023 года, и в блумберге думают, что "будущим моделям может помешать экспортный контроль США". На деле есть довольно много более быстрых и не обрезанных карт, которые получаются серым импортом из Европы (редко) и стран третьего мира (гораздо чаще).
В WSJ неплохой рассказ про Лян Вэньфена, математика, который основал хедж-фонд High-Flyer в 2015. Хедж-фонд использовал много математики, алгоритмов, но это не всегда помогало, например, в 2021 пришлось даже извиняться за андерперформанс ввиду недооценки некоторых новых бизнесов, в частности, ИИ. В 2024 году High-Flyer выпустил свой побочный продукт — серию моделей DeepSeek.
В NYT статья о том, что DeepSeek внезапно опроверг типичное мнение "больше значит лучше", потому что смог "всего за 6 миллионов построить модель, конкурирующую с мировыми топами". На деле подсчет стоимости обучения в 6 млн — это чья-то неудачная шутка. В этой сумме не учтена ни цена видеокарт, ни цена разработчиков, ни тот факт, что с первого раза получить такую модель невозможно. А если посчитать всё сразу, то получится, что DeepSeek вложил в обучение модели вполне сравнимо с вложениями фейсбук в LLama.
www.nytimes.com/2025/01/27/technology/deepseek-ai-china.html
Hands On With DeepSeek’s R1 Chatbot
DeepSeek’s chatbot with the R1 model is a stunning release from the Chinese startup. While it’s an innovation in training efficiency, hallucinations still run rampant.