Жақында Үкіметтің кеңейтілген отырысында Мемлекет басшысы Қасым-Жомарт Тоқаев ұлттық жасанды интеллект жобасы KazLLM туралы сұраған еді. Премьер-Министрдің орынбасары – Жасанды интеллект және цифрлық даму министрі Жаслан Мәдиев жүйеге сұраныстың көп екенін, пайдаланушылардың артып келе жатқанын айтты. Алайда әлеуметтік желіде KazLLM жүйесі туралы алғаш рет естіп жатқандарын жазған жазба көбейді. Желі қолданушылары «бұл қандай бағдарлама», «қолданып көргендер бар ма», «біз неге білмейміз» деген сарындағы пікірлер қалдырған. Осы сұрақтардың жауабын оқырман назарына ұсынамыз.
KazLLM – бұл ChatGPT сияқты дайын чат-бағдарлама емес. Ол – үлкен тілдік модель. Яғни көлемді мәтін деректер негізінде оқытылған жасанды интеллект жүйесі. Мұндай модельдер мәтінді түсіну, сұраққа жауап құрастыру, мазмұндау, аудару, талдау жасау сияқты міндеттерді орындай алады. Бірақ ол пайдаланушы тікелей кіріп сөйлесетін жеке сервис ретінде бөлек шығарылмаған.
Айта кетейік, KazLLM Мемлекет басшысының тапсырмасымен отандық тілдік технологияны дамыту және шетелдік жасанды интеллект платформаларына тәуелділікті азайту мақсатында жасалған. Жобаның негізгі мақсаты – қазақ және орыс тілдеріндегі деректерге сүйенетін, мемлекеттік және салалық цифрлық жүйелерге енгізілетін ұлттық тіл моделін қалыптастыру.
Министр мәлімдегендей, бұл модель қазірдің өзінде қолданылып жатыр. Мысалы, eGov порталындағы ЖИ-ассистент пайдаланушы сұрақтарына жауапты осы модельдің негізінде қалыптастырады. Яғни азаматтар кейбір цифрлық мемлекеттік сервистер арқылы KazLLM мүмкіндігін жанама түрде пайдаланып отыр. Министрлік айтқан 40-тан астам ақпараттық жүйе – осы секілді ішкі интеграциялар.
KazLLM шамамен 150 миллиардтан астам токен көлеміндегі дерекпен оқытылған. Токен – модель үйренетін мәтін бірліктері. Бұл жоба үшін жаман көрсеткіш емес, бірақ әлемдік деңгейдегі ірі тілдік модельдермен салыстырғанда көлемі әлдеқайда аз. Сондықтан KazLLM қазақ тілінің күрделі контексін, астарлы мағынасын, стильдік ерекшелігін әрдайым дәл түсіне бермейді. Жауаптарының сапасы тұрақты емес, кей жағдайда үстірт немесе қате нәтиже беруі мүмкін.
Жасанды интеллект бес есе жылдам жазатын болды
Сарапшылардың бағалауынша, тілдік модельдің сапасы дерек көлеміне ғана емес, деректің сапасына, әртүрлілігіне, есептеу қуатына және тұрақты түрде қайта оқытылып отыруына байланысты. Бұл – бір реттік емес, ұзақ мерзімді жетілдіруді қажет ететін технология.
KazLLM жобасының стратегиялық маңызы – технологиялық дербестікке ұмтылыста. Ұлттық тілдік модель ішкі цифрлық платформаларға, мемлекеттік жүйелерге және қазақ тіліндегі сервистерге шетелдік ЖИ құралдарына толық тәуелді болмай жұмыс істеуге мүмкіндік береді. Бұл әсіресе дерек қауіпсіздігі, тілдік бейімдеу және салалық шешімдерді жергілікті контекске икемдеу тұрғысынан аса маңызды.
Әзірлеушілері кім?KazLLM ұлттық тіл моделін Ақылды жүйелер және жасанды интеллект институты (ISSAI) әзірлеген. Бұл орталық Назарбаев университеті базасында құрылған және елдегі жетекші ЖИ-зерттеу алаңының бірі саналады. Жоба деректер қорын жинау, тіл корпусын қалыптастыру, модель архитектурасын бейімдеу және өндірістік деңгейде оқыту секілді бірнеше кезеңді қамтыған.
Жобаны іске асыруға көпсалалы команда тартылған. Құрамында дата-сайентисттер, машиналық оқыту инженерлері, бағдарламашылар, лингвистер және ғылыми ассистенттер бар жетпіске жуық маман жұмыс істеген. Тілдік модель әзірлеуде лингвистикалық сараптама бөлек бағыт ретінде жүргізілген. Бұл қазақ тілінің құрылымы, морфологиясы мен контексті ерекшеліктерін модельге енгізу үшін қажет болған.
Модельді оқыту жоғары өнімді есептеу инфрақұрылымында жүргізілген. Көптүйінді бұлтты конфигурация қолданылып, сегіз NVIDIA DGX H100 есептеу жүйесі пайдаланылған. Бұл – өндірістік деңгейдегі тілдік модельдерді үйретуге арналған қуатты техникалық база.
Жасанды интеллект отандық өнеркәсіпті қалай өзгертеді?
KazLLM бастапқы кезеңде мемлекеттік сектор мен коммерциялық емес зерттеулер үшін қолжетімді етіп шығарылған. Яғни ол ең алдымен мемлекеттік цифрлық сервистерге, зерттеу жобаларына және қолданбалы ЖИ шешімдеріне технологиялық негіз ретінде бағытталған.
Жоба барысында қазақ тіліндегі сапалы әрі белгіленген деректер қорының тапшылығы, тілге бейімделген халықаралық тестілердің болмауы, ірі есептеу түйіндерінің шектеулігі секілді кедергілер де болған. Соған қарамастан әзірлеушілер ашық көздерден дерек алу, OCR арқылы мәтін тану, сұрақ-жауап форматындағы датасеттер құрастыру, синтетикалық дерек генерациялау секілді дерек жинаудың арнайы стратегиясын қолданған екен.
Жасанды интеллект жұмыссыз қалдыра ма?
Салыстырмалы тестілерде KazLLM кей көрсеткіштер бойынша Meta Llama 3.1 секілді ірі модельдермен деңгейлес нәтижеге жақындаған, кей бағытта сәл төмен нәтиже көрсеткен. Бұл – ресурсы шектеулі ортада жасалған модель үшін бәсекеге қабілетті бастапқы деңгей бар екенін білдіреді. Алайда әлі де жетілдіруді қажет етеді.
Сонымен қатар ISSAI KazLLM тіл моделінің негізінде 5 түрлі отандық ЖИ бағдарламаларын жасап шығарған. Біріншісі – «Oylan 2.5». Бұл жүйе кез келген сұрағыңызға жауап бере алады. Тіпті аудио хабарламаларды қабылдап, өңдеу функциясы бар. Бұдан бөлек, «ISSAI» ұсынған «MangiSoz 2.0» жүйесі сөйлеуді тану, дыбыстау, аудару қызметін атқарады. Ал «TilSync» жүйесі ілеспе аударма жасайды. Жүйе әртүрлі видеоконференцияларда түрлі тілдер арасында тікелей аударма жасап, ақпарат алмасуды жеңілдетеді. Тағы бір тың шешім – «Beynele» жасанды интеллекті. Ол тек қазақы нақышта сурет салады. Осы жүйелердің негізі – «Mangitas 02» атты отандық инференс сервері. Бұл – шетелдік бұлттық жүйелерден тәуелсіз, қауіпсіз, жергілікті мәліметтермен жұмыс істейтін ЖИ сервер.