Интернет-издание о бизнесе, стартапах и IT-технологиях

Популярные теги:
Главная страница / Читать / Новости / Первая языковая модель на базе ИИ Irbis GPT заработала в Казахстане

Первая языковая модель на базе ИИ Irbis GPT заработала в Казахстане

Первая языковая модель на базе ИИ Irbis GPT заработала в Казахстане


В Казахстане в открытом доступе появилась первая национальная языковая модель с открытым исходным кодом — Irbis GPT. Ее обучили на большом наборе данных на казахском языке. Разработчики опубликовали официальный релиз на популярном ресурсе Habr.com. Теперь каждый казахстанец сможет протестировать языковую модель и помочь в ее обучении.

IrbisGPT разработали MOST Holding и Gen2b.ai. Последний является студией, которая помогает применять искусственный интеллект в бизнесе.

IrbisGPT - это пионерский проект в области развития казахского языка через применение искусственного интеллекта. Цель инициативы - сохранение и распространение казахского языка и его интеграция в современные цифровые технологии для развития общества, экономики и науки в Казахстане. Мы выложили проект в открытый доступ для того, чтобы собрать вокруг него коммьюнити и дать возможность энтузиастам развития казахского языка протестировать его и сделать свой вклад в обучение модели

рассказал фаундер проекта Бахт Ниязов. 

После предрелиза, произошедшего весной, языковая модель была усовершенствована. Теперь она демонстрирует отличный потенциал для обучения. Разработчики рассказали, что подобные опенсорсные модели часто либо пытаются ответить на английском, либо просто “сыпят” случайными словами на казахском, но благодаря длительному обучению национальная языковая модель отвечает достаточно правильно и развернуто на вопросы без контекста. Так, IrbisGPT дает ответы на государственном языке на вопросы “шөп неге жасыл”, знает, кто президент Казахстана и количество дней в году, и даже может пофилософствовать о смысле жизни.

Первая языковая модель на базе ИИ Irbis GPT заработала в Казахстане

За очень короткое время мы получили впечатляющие результаты. Irbis LLM не просто разобралась с построением слов и грамматикой казахского языка, она умеет обрабатывать входящую информацию, натренирована отвечать на простые вопросы, способна работать с контекстом, что дает возможность ее подключения к актуальным базам знаний, к налоговому кодексу, например, что может стать полезным инструментом по получению релевантной информации. Также благодаря более эффективному токенизатору, скорость генерации текста на государственном языке увеличилась от 3 до 5 раз раз по сравнению с моделями GPT. Для обучения модели мы собрали 20 гигабайтов “сырых” данных из новостей и статей на казахском языке, расширив ее словарь почти в три раза. Однако этого недостаточно, мы надеемся на предоставление качественных данных со стороны госорганов для усовершенствования IrbisGPT. У нас есть четкий план, и самое главное - навыки по созданию модели следующего поколения, используя все самые последние достижения в области больших языковых моделей

рассказал Армен Атаян, CEO Gen2b.ai.

Итоговый словарь токенизатора содержит более 60 тысяч токенов. У команды есть план по созданию модели в более совершенной архитектуре, которая будет полезна в различных отраслях.

Поделиться статьей в соц. сетях

Share on telegram
Share on twitter
Share on facebook
Share on whatsapp

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *