DeepSeek анонсировала экспериментальную модель V3.2-exp, ключевая особенность которой – заметное снижение стоимости инференса (вывода) при работе с длинными контекстами. Презентация модели прошла на платформе Hugging Face, где также опубликованы открытые веса, а сопровождающая научная статья размещена на GitHub.
Основное нововведение модели получило название DeepSeek Sparse Attention. Эта архитектура построена вокруг двух ключевых компонентов:
- Lightning Indexer – модуль, отвечающий за выбор наиболее значимых фрагментов из длинного контекста;
- Fine-grained Token Selection System – система, которая отбирает отдельные токены внутри этих фрагментов и передает их в ограниченное «окно внимания».
В совокупности эти механизмы позволяют модели работать с объемными текстами, снижая нагрузку на сервер и минимизируя потребление ресурсов.
По предварительным данным, использование новой модели позволяет снизить стоимость API-вызовов в задачах с длинным контекстом до 50%. Хотя эти результаты еще требуют независимой проверки, факт открытой публикации модели делает подобные исследования вопросом ближайшего времени.
Новую ИИ-модель трудно назвать революционной, однако ее практическая значимость может оказаться высокой: снижение затрат на инференс остается одной из наиболее острых задач для индустрии. В условиях растущего спроса на масштабируемые ИИ-сервисы подход DeepSeek способен заинтересовать как исследовательские лаборатории, так и коммерческие компании.
Материал по теме. DeepSeek имеет «теоретическую» рентабельность в 545%.