Запуск моделей штучного інтелекту перетворюється у гру на пам'ять

Дмитро Сизов

Коли ми говоримо про вартість інфраструктури штучного інтелекту, основна увага зазвичай приділяється Nvidia та графічним процесорам, але пам'ять є дедалі важливішою частиною картини. Оскільки гіперскейлери готуються до будівництва нових центрів обробки даних вартістю мільярди доларів, ціна на мікросхеми DRAM зросла приблизно в 7 разів за останній рік .

Водночас, зростає дисципліна в управлінні всією цією пам'яттю, щоб гарантувати, що потрібні дані потрапляють до потрібного агента в потрібний час. Компанії, які опанують це, зможуть робити ті самі запити з меншою кількістю токенів, що може стати вирішальним фактором між згортанням компанії та збереженням бізнесу.

Аналітик напівпровідників Даг О'Лафлін цікаво розглядає важливість мікросхем пам'яті у своєму Substack, де він спілкується з Валем Берковічі, головним директором зі штучного інтелекту у Weka. Вони обидва фахівці з напівпровідників, тому основна увага приділяється саме мікросхемам, а не ширшій архітектурі; наслідки для програмного забезпечення штучного інтелекту також досить значні.

Мене особливо вразив цей уривок, у якому Берковічі розглядає зростаючу складність документації кешування запитань в Anthropic :

Підказка: якщо ми перейдемо на сторінку Anthropic з цінами на оперативне кешування. Вона починалася як дуже проста сторінка шість чи сім місяців тому, особливо коли запускався Claude Code — просто «використовуйте кешування, воно дешевше». Зараз це енциклопедія порад щодо того, скільки саме записів у кеш купувати заздалегідь. Є 5-хвилинні рівні, які дуже поширені в галузі, або години — і нічого більше. Це справді важливий підказка. Потім, звичайно, у вас є всілякі можливості арбітражу щодо ціноутворення на читання кешу залежно від того, скільки записів у кеш ви заздалегідь придбали.

Питання тут полягає в тому, як довго Клод зберігатиме ваш запит у кешованій пам'яті: ви можете заплатити за 5-хвилинне вікно або заплатити більше за годинне вікно. Набагато дешевше використовувати дані, які все ще знаходяться в кеші, тому, якщо ви правильно цим керуєте, ви можете заощадити дуже багато. Однак є один нюанс: кожен новий біт даних, який ви додаєте до запиту, може виштовхнути щось ще з вікна кешу.

Це складна річ, але підсумок досить простий: управління пам'яттю в моделях штучного інтелекту стане величезною частиною розвитку штучного інтелекту в майбутньому. Компанії, які добре з цим справляються, досягнуть вершини.

І в цій новій галузі ще багато чого потрібно зробити. Ще в жовтні я висвітлював стартап під назвою Tensormesh , який працював над одним із рівнів у стеку, відомим як оптимізація кешу.

Можливості існують і в інших частинах стеку. Наприклад, нижче в стеку постає питання про те, як центри обробки даних використовують різні типи пам'яті, які вони мають. (В інтерв'ю чудово обговорюється, коли використовуються мікросхеми DRAM замість HBM, хоча це досить глибоко стосується апаратних аспектів.) Вище в стеку кінцеві користувачі з'ясовують, як структурувати свої модельні рої, щоб скористатися перевагами спільного кешу.

Оскільки компанії вдосконалюватимуть оркестрацію пам'яті, вони використовуватимуть менше токенів, а логічний висновок стане дешевшим. Тим часом моделі стають ефективнішими в обробці кожного токена , що ще більше знижує вартість. Зі зниженням вартості серверів багато програм, які зараз здаються нежиттєздатними, почнуть отримувати прибуток.