Прочитал за вас большой анализ по Trainium2, новой вычислительной платформе от Amazon.
- Главная задача в разработке Trainium2 — повысить конкурентоспособность AWS на рынке предоставления услуг для GenAI.
- AWS делает кластер на 400000 чипов Trainium2 для Anthropic в рамках Проекта Rainier, что указывает на сильное партнерство. Мы часто обсуждали, есть ли связь между амазоном и Антропиком помимо инвестиций.
- Главные цифры — 650 TFLOP/s и 96GB памяти.
- NeuronLinkv3 — шина высокоскоростной внутренней и межсерверной связи, образует очень красивый гиперкуб, в котором 32 узла Trainium2 связаны друг с другом на скорости в 640 гигабит. И пока это чуть ли не самое интересное и свежее во всей конструкции платформы.
- Раздельные движки для работы с разными типами данных (Tensor, Vector, Scalar) тоже выгодно отличают Trainium от классических GPU.
- Trainium2 — это прямой конкурент Nvidia H100 и Google TPU.
- Энергобюджет для кластеров Trainium2 до 48 кВт на сервер Trn2-Ultra. В общем, за потреблением амазону приходится следить.
- AWS внедрила автоматизированные проверки работоспособности и диагностику для обеспечения надежности прямо в платформу. Очень умно и красиво, тут виден прямо подход.
Я вам очень рекомендую прочитать статью самим, прямо глубоко. На фоне недавнего рассказа Эппл о том, что они активно используют Trainium2 и вообще живут на этом куске Амазона, — популярность этого решения будет расти и быстро.
semianalysis.com/2024/12/03/amazons-ai-self-sufficiency-trainium2-architecture-networking/
Amazon’s AI Self Sufficiency | Trainium2 Architecture & Networking
Amazon is currently conducting one of the largest build-out of AI clusters globally, deploying a considerable number of Hopper and Blackwell GPUs. In addition to a massive Capex invested into Nvidi…