Китайская ИИ-модель DeepSeek оказалась не такой уж и дешевой в обучении. Об этом свидетельствует отчет SemiAnalysis. По их словам, стартап упомянул лишь часть затрат, вложенных в обучение ИИ-модели.
В день выпуска ИИ-модели DeepSeek, ее разработчики сообщали, что общие затраты на обучение составили $5,6 млн, исходя из стоимости аренды графических процессоров Nvidia. Однако, DeepSeek сделала оговорку, что эта сумма включает только официальное обучение модели и не включает затраты, связанные с «предварительными исследованиями и экспериментами по удалению элементов из архитектуры, алгоритмов или данных.
Между тем, по оценке компании SemiAnalysis, китайский стартап DeepSeek потратила около $500 млн на приобретение оборудования.
DeepSeek потратила значительную часть средств на приобретение графических процессоров (GPU) от Nvidia. GPU являются ключевым компонентом для обучения LLM, и их стоимость может достигать десятков тысяч долларов за штуку.
Впрочем, даже несмотря на то, что DeepSeek оказался гораздо дороже в разработке, специалисты SemiAnalysts все равно считают ИИ-модель выдающейся.
– Для ясности: DeepSeek уникален тем, что китайские инженеры первыми достигли такого уровня затрат и возможностей», – говорится в сообщении SemiAnalysis. – DeepSeek R1 является очень хорошей моделью. Такое быстрое достижение уровня искусственного интеллекта объективно впечатляет.