Появилась первая высокоточная казахская языковая модель (LLM) – SHERKALA. Ее запустили разработчик ИИ-решений Inception (G42) вместе с Университетом Искусственного Интеллекта Мохаммеда бин Зайеда (MBZUAI, Абу-Даби) и при поддержке Cerebras. Инновационный проект направлен на расширение возможностей более 13 миллионов носителей казахского языка, обеспечивая им доступ к передовым технологиям генеративного ИИ.
SHERKALA – это модель с 8 миллиардами параметров, обученная на 45 миллиардах слов, с основным фокусом на казахском языке, а также поддержкой английского, русского и турецкого. Она использует Llama 3.1, адаптированную для казахского языка, с расширением токенизатора на 25%, что повышает эффективность понимания и генерации текста. Обучение модели проходило на Condor Galaxy, одном из самых мощных суперкомпьютеров для ИИ, созданном G42 и Cerebras.
Запуск SHERKALA – это важный шаг в поддержке языковых сообществ, которые раньше были недостаточно представлены в AI. Вместе с MBZUAI мы создали модель, которая поможет носителям казахского языка и изменит рынок LLM, сделав технологии более доступными и эффективными. С моделями JAIS для арабского, NANDA для хинди и теперь SHERKALA для казахского мы продолжаем расширять границы AI и обеспечивать языковое разнообразие в цифровом мире, – отметил Др. Эндрю Джексон, CEO Inception (G42).
SHERKALA теперь доступна как open-source модель на Hugging Face.