Добавить новость
smi24.net
Vlast.kz
Сентябрь
2025

Более 6 млрд словоупотреблений собрано в цифровом словаре казахского языка

0

Тамара Вааль, Астана, Власть

В национальный словарный фонд казахского языка собрано более 6 млрд словоупотреблений, которые доступны на международной платформе HuddingFace, сообщил в пятницу в ходе парламентский слушаний министр науки и высшего образования Саясат Нурбек.

«Развивая искусственный интеллект, необходимо обеспечить его адаптацию к лингвистическим и культурным особенностям Казахстана. Ключевую роль здесь играет национальный словарный фонд казахского языка. На сегодняшний день в рамках проекта собрано более 6 млрд словоупотреблений, охвачено 20 типов словарей, в том числе более 500 отраслевых словарей, а также систематизировано 390 тыс. терминов», - сообщил Нурбек.

По его информации, объем национального корпуса казахского языка достиг 150 млн словоупотреблений.

Министр напомнил, что в рамках проекта «Разработка большой языковой модели (LLM) для поддержки и технологического продвижения казахского языка» консорциум, включающий КазНУ им. аль-Фараби, Институт языкознания, ТОО «SOFTCRAFT», Центр ISSAI Назарбаев Университета и «Тіл-Қазына», разработал KazLLM – LLM, адаптированную к особенностям казахского языка.

«Ученые обучили модель KazLLM, используя корпус естественного языка из 6 млрд словоупотреблений, и в настоящее время она доступна в открытом формате на международной платформе HuggingFace. На ее основе запущены реальные приложения», - отметил Нурбек.

Также, добавил он, «Тіл-Қазына» представил Til-Qazyna LLM, специализированный продукт, ориентированный на обучение казахскому языку. И эта модель также размещена на платформе Hugging Face и выполняет такие функции, как генерация текста, перефразирование, работа с контекстом, исправление орфографических и пунктуационных ошибок.















Музыкальные новости






















СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *