Cerebras запустила Kimi K2.6: 981 ток/с і швидше за всі GPU
Cerebras запустила Kimi K2.6 і обігнала всі GPU світу
Каліфорнійська Cerebras Systems вирішила добряче струхнути ринок інференсу і, зокрема, nvidia, серйозно похитнувши їхні позиції на ринку корпоративного інференсу ШІ
Вони запустили Kimi K2.6 на 1 трильйон параметрів і зробили це з рекордною швидкістю
Незалежна Artificial Analysis зафіксувала результат у 981 токен за секунду на виході:
- у 6,7 раза швидше за найкращого хмарного GPU-провайдера
- у 23 рази швидше за середньоринковий показник
Для розуміння, стандартний запит розробника на 10 000 вхідних токенів із генерацією 500 токенів відповіді Cerebras опрацювала за 5,6 секунди, тоді як офіційний хмарний сервіс Kimi впорався за 163,7 секунди, різниця майже у 30 разів
Cerebras використовує Wafer-Scale Engine 3, це їхній унікальний єдиний процесор розміром із кремнієву пластину
- усередині 44ГБ надшвидкої SRAM на кристалі
- пропускна здатність внутрішньокристальної мережі у 200 разів вища, ніж NVLink у Nvidia
- ваги моделі розміщуються на ~20 системах CS-3, але усі експерти MoE-шару вміщуються на одній пластині
Поки що це закрита корпоративна хмара для клієнтів рівня Fortune 500. Ціни — на середньо-високому рівні тарифів GPU-провайдерів. Компанія порівнює себе з потужною вантажівкою й не заходить у дешевий сегмент повільного інференсу (~20 ток/с)
До речі, нещодавно ж були угоди Nvidia щодо купівлі Groq за $20 млрд і контракт Cerebras з OpenAI на суму понад $20 млрд, тож ринок інференсу розганяється тільки так
Цікаво, що буде далі й хто першим вирішить такі технології викидати у відкритий доступ