Как KAZ-LLM помогает Казахстану в области генеративного искусственного интеллекта?
Страновые языковые модели помогают преодолеть языковой барьер в ИИ.

В последние годы генеративный искусственный интеллект, особенно большие языковые модели (LLM), продемонстрировали впечатляющий прогресс. Модели, такие как GPT-4 и LLaMA, установили новые стандарты, однако большинство из них сосредоточены на языках с высоким уровнем доступности, поэтому менее распространенным языкам угрожает цифровое неравенство.
Проблема языкового разрыва
Разработка национальной языковой модели KAZ-LLM стала ответом на проблему языкового разрыва в Казахстане.
Создание KAZ-LLM
Модель KAZ-LLM была разработана Институтом умных систем и искусственного интеллекта (ISSAI NU) в сотрудничестве с Beeline Казахстан и IT-компанией QazCode при поддержке Министерства цифрового развития. Основой модели стали 150 миллиардов токенов, собранных из открытых источников на казахском, русском, английском и турецком языках. Это обеспечивает высокую точность и универсальность ее использования.
Технические характеристики
Интерфейс и функциональность KAZ-LLM соответствуют передовым мировым стандартам, а ее производительность проверялась с помощью комплексных бенчмарков, включая:
- ARC: Проверка научного мышления через вопросы с множественным выбором.
- GSM8K: Оценка способности решать задачи по математике для начальной школы.
- HellaSwag: Тестирование логики продолжения предложений.
- MMLU: Проверка знаний по 57 предметам.
- Winogrande: Оценка здравого смысла в двусмысленных предложениях.
- DROP: Тестирование навыков понимания прочитанного и логического мышления.
Партнерство Beeline и QazCode
Сотрудничество Beeline и QazCode оказало значительное влияние на ускорение разработки модели. Благодаря серверной инфраструктуре с вычислительными мощностями 8 DGX H100, обучение модели прошло быстрее, чем на обычном компьютере.
«Наша команда активно участвовала в разработке и обучении модели KAZ-LLM, используя современные технологии машинного обучения».
Перспективы KAZ-LLM
Проект KAZ-LLM является важной вехой для Казахстана на мировой арене искусственного интеллекта. Его модели будут доступны для некоммерческого использования и способствуют академическому сотрудничеству через платформу Hugging Face. Кроме того, планируется разработка новых моделей, которые будут поддерживать другие тюркские языки и расширять возможности ИИ.
Таким образом, KAZ-LLM не только преодолевает языковой барьер, но и открывает новые горизонт для стартапов и инновационных проектов в сфере искусственного интеллекта.