Главная / Аналитика / Экономика ИИ
Экономика ИИ

Куда падает цена за миллион токенов

За три года цена вопроса упала примерно в тысячу раз. Разбираемся, откуда берётся дешевизна и почему праздник замедляется.

Редакция asiclub2 минсегодня

Считать ИИ в рублях за подписку давно устарело. Сегодня всё меряют ценой за миллион токенов. Она сводит стоимость железа и пропускную способность в одно число, по которому можно сравнивать модели и провайдеров.

И это число рушится с космической скоростью. В конце 2022-го прогнать модель уровня GPT-4 стоило около 20 долларов за миллион токенов. К началу 2026-го сопоставимое качество отдают примерно за 40 центов. Падение в тысячу раз за три с небольшим года.

Откуда берётся дешевизна

Три источника. Первый — железо: аренда H100 в облаке устаканилась в районе 3 долларов за час, а новые ускорители дают больше токенов на тот же ватт. Второй — софт: квантизация в FP8 на H100 идёт из коробки в vLLM и добавляет от 1,3 до 2 раз пропускной способности при потере качества меньше 2% на инструктивных моделях. Третий — архитектура: Mixture-of-Experts и дистилляция ужимают поведение большой модели в модель поменьше.

Но линейку цен держит не одна оптимизация. Дорогие флагманы никуда не делись: топовая модель по-прежнему стоит в разы, а то и в десятки раз дороже мелкой. Разрыв между входными и выходными токенами тоже никуда не ушёл: на выходе токены традиционно кратно дороже.

Что это значит для продукта

Праздник замедляется. Ежегодные падения в 10 раз, которые мы видели с 2021-го, к 2027-му ужмутся до 3-5 раз, а дальше и вовсе до полутора-двух. Лёгкие оптимизации закончатся. Но полтора-два раза в год всё равно значат, что через полтора года ценник вдвое ниже, и на дистанции набегает изрядно.

Отсюда простое правило для тех, кто строит продукт. Не завязывайтесь на одну модель. Маршрутизируйте запросы: рутину на дешёвую модель, сложное на дорогую. Кэшируйте промпты: один и тот же системный промпт незачем гонять через модель сто раз, заплатите за него однажды. Режьте лишний контекст, потому что за каждый входной токен вы платите на каждом запросе. Экономика инференса стала отдельной инженерной дисциплиной, и игнорировать её теперь дорого.