
– Осы күні елімізде Ұлттық корпусты қалыптастыру мәселесіне айрықша көңіл бөлініп отыр. Бірақ көпшілік Ұлттық корпус дегеннің не екенінен әлі де бейхабар. Сондықтан ең әуелі, осы ұғымды қарапайым тілмен түсіндіріп берсеңіз.
– Ұлттық тілдік корпус – белгілі бір ұлттың тілдік материалдарын жүйелі түрде жинақтап, сандық базаға түсіретін электронды платформа. Оны жай ғана мәтін жиынтығы емес, тілді түрлі қырынан зерттеуге арналған әмбебап құрал деп түсінген жөн. Корпуста көркем әдебиеттен бастап, газет-журнал материалдары, ғылыми мәтін, ауызша сөйлеу үлгілеріне дейін қамтылады. Ең бастысы, әрбір мәтіннің қайда, қашан шыққаны, оны кім, қандай стильде жазғаны сынды деректер қоса беріледі. Бұл – тілді нақты өмірде қалай қолданатынымызды жан-жақты зерттеуге таптырмас құрал.
– Бұндай базаны жасаудың негізгі мақсаты мен пайдасы қандай?
– Ең алдымен, бұл – тілді сақтаудың, дамытудың заманауи жолы. Жасанды интеллект, аударма жүйелері, сөздік жазу, терминология – барлығы қазір айналып келгенде осы корпусқа сүйенеді. Бүгінде үлкен тілдік модельдер (мысалы, ChatGPT) тілді осындай электронды базалардан үйренеді. Егер мәтін дұрыс, бай, құрылымы жүйелі болса, жасанды интеллект те қазақша дұрыс сөйлей алады. Ал корпус – сол мәтіндердің ең сенімді көзі. Демек қазақ тілінің цифрлық кеңістікте өмір сүруі корпусқа тікелей байланысты. Сөздердің жиілігі, қолданылу орны, стильдік реңкі, грамматикалық формасы – мұның бәрі корпус арқылы зерттеледі. Мысалы, Ахмет Байтұрсынұлының шығармаларына талдау жасап, «мен» сөзінің қай кезде есімдік, қай кезде шылау ретінде қолданылғанын оп-оңай санап шығуға болады. Бұрын бір сөздің қолданысын ондаған кітапты ақтарып, өте ұзақ іздейтінбіз, ал тіл корпусынан ол мәліметті 2–3 секундта табуға болады. Қысқаша айтқанда, ұлттық тілдік корпус – қазақ тілінің сандық жадысы. Ол тілдің бүгінін түсінуге, болашағын болжауға көмектесетін ең маңызды құрал.
– Ұлттық корпус сонда нақты кімдерге қажет? Тек ғалымдарға ма?
– Жоқ, тек ғалымдарға емес. Мұғалімдер, студенттер, аудармашылар, журналистер, ІТ мамандары, кез келген сала маманының – бәріне керек. Мысалы, корпус нақты бір сөздің түрлі контексте қалай қолданылатынын көрсетеді. Бұл, әсіресе машиналық аудармада, автоматты мәтін өңдеуде өте маңызды. Тіпті автоматтандырылған сөздіктер мен терминологиялық базалар да корпусқа сүйеніп жасалады. Бұдан бөлек, корпустың қызығын оқытушылар мен оқушылар көре алады. Өйткені қазақ тілін үйретуде сөздің шынайы қолданысын көрсету өте маңызды. Корпуста нақты мысалдар жинақталғандықтан, оқулықтар мен тапсырмалар жасағанда нақты дереккөз ретінде пайдалануға болады. Егер сала-сала бойынша мәтіндік корпустар жасақталса, оны әр маман тұтына алар еді.
– Қазақ тілінің мәтіндік корпустарын құру қазіргі уақытта қарқынды жүргізіліп жатыр ма?
– Иә, соңғы жылдары біршама ілгерілеу байқалады. Жалпы, отандық тіл корпустарының әзірлену бағыттары мен мақсаттары әр алуан. Осының өзі заман талабына сай еліміздің цифрландыру жағдайларындағы әлеуетін дамытуға едәуір үлес қосары анық. Енді еліміздегі бізге белгілі мәтіндік корпустарды тізіп айтсақ, А.Байтұрсынұлы атындағы Тіл білімі институтының Қазақ тілінің ұлттық корпусы (https://qazcorpus.kz), Әл-Фараби атындағы Қазақ ұлттық университетінің «Алматы қазақ тілі корпусы (http://webcorpora.net/KazakhCorpus/search/?interface_language=kz), Назарбаев университетінің ISSAI - Қазақ тілі корпусы (https://issai.nu.edu.kz/ ), «Тіл-Қазына» ұлттық ғылыми-практикалық орталығының «Қазақ тілі ұлттық корпусының кіші корпустары» (https://qazcorpora.kz/ ), Л.Н.Гумилев атындағы Еуразия ұлттық университетінің «Қазақ тілінің функцияларын кеңейту және мәдениетін арттыру үшін ғылыми-лингвистикалық негіздер мен IT ресурстарды әзірлеу» жобасы (https://kazlangres.enu.kz/#/), сондай-ақ соңғы жылдарда әзірленген А.Байтұрсынұлының қазақша-орысша параллель корпусы (https://baitursynuly-corp.kz/kz ) жұмыс істеп тұр. Бұдан бөлек, 2021–2023 жылдары «Тіл-Қазына» ұлттық ғылыми-практикалық орталығының «Қазақ тілі ұлттық корпусының кіші корпустарын әзірлеу» жобасына жетекшілік еттік. Ол жоба әлі сол ұйымда жалғасып келеді. Қазіргі уақытта «А.Байтұрсынұлы шығармаларының қазақша-орысша параллель корпусын» жасауға қатысып отырмыз.
– Ал басқа елдерде ұлттық корпус қалай дамыған?
– Әлемдік тәжірибеге келсек, шетелдік тіл корпустарын әзірлеу салыстырмалы түрде әлдеқайда ерте басталған. Мысалы, Батыс елдерінде корпус жасау деген – жай бір жобалық жұмыс емес. Бұл – тұтас институттар, зерттеу орталықтары айналысатын тұрақты, мемлекеттік деңгейдегі шаруа. Мәселен, Ұлыбританияда 1980 жылдары-ақ Британ ұлттық корпусы (BNC) жасалып қойған. Онда 100 миллион сөзден тұратын әрі түрлі жанрдан алынған ауқымды мәтін базасы бар. Қазір бұл корпус арқылы оқушыларға тапсырма құрастыру, жасанды интеллектіге ағылшын тілін үйрету сынды жұмыстар істеліп жатыр. Ал орыс тілінің ұлттық корпусы XI ғасырдағы тарихи жазбалардан бастап бүгінгі интернет хаттарға дейінгі деректі қамтиды. Жалпы көлемі – 2 млрд сөз қолданыс, ал құрамында 16 ішкорпус бар. Бұл жерде тілдің тек әдеби нұсқасы емес, ауызекі сөйлеу, диалект, тіпті блогтегі жазбалар да бар. Әрбір сөзге грамматикалық тег, морфологиялық сипаттама, уақыт межесі қойылған. Мұның бәрі зерттеушіге, тіл үйренушіге нақты дерек береді.
Чехия да шетте қалып отырған жоқ. 1994 жылы негізі қаланған институт корпусының (https://www.korpus.cz/) қазіргі көлемі – 3 млрд сөз қолданыстан асады. Сондай-ақ корпуста 30 тілдің параллель корпусы жасалған, енді тағы 20 тілді қосу жоспарланған. 2012 жылдан бастап CNC Чехияның Білім, жастар және спорт министрлігінің Ірі зерттеу инфрақұрылымдары бағдарламасы аясында қаржыландырылады. Чех корпусын іске асыруға 200-ден астам маман атсалысыпты. Осыдан-ақ тіл корпусын жасаудың маңыздылығымен қатар, жұмыстың ауқымдылығын байқауға болады.
– Сіз терминдерді корпус арқылы зерттеп жүрсіз. Бұл тіл саясатына қалай әсер етеді?
– Терминтанушы емеспін, алайда осындай зерттеулер де жасалды. Терминдер – тілдің иммунитеті. Терминді барынша игеріп қабылдау мәселесі тіл мамандарының зерттеулерінде жиі қарастырылғанымен, өзектілігін әлі де жоймай отыр. Ал тіл саясаты тек қана заңнамалық актілермен шектелмей, қоғамның мәдени және рухани өміріне тереңінен еніп, азаматтардың сана-сезіміне ықпал етеді. Біз 2018 жылы қазақша нұсқадан қайтадан орыс тіліндегі нұсқаға ауыстырылған терминдердің 42-сін зерттедік. Корпустық әдіс арқылы бұл терминдер қолданысының статистикасын, жиілігін, контекстік мәні анықталды. Мәселен, бұл терминдердің 23-і әлі де қазақша баламада жиірек қолданылатыны белгілі болды. Яғни корпус арқылы тіл саясатының қаншалықты ықпалды екенін де бағамдауға мүмкіндік бар. Қорыта айтқанда, тіл тек қарым-қатынас құралы ғана емес, ол – ғылым. Қазақты қазақ етіп тұрған оның тілі десек, сол тілдегі әр сөз – ұлттың байлығы. Ал оны жинақтап корпусқа енгізу – қазақ тілін ғылым тіліне, ІТ платформалар мен техника тіліне айналдырудың, әлемдік сұраныстағы тіл деңгейіне көтерудің басты қадамы.
Әңгімелескен –
Бекзат ҚҰЛШАР,
«Egemen Qazaqstan»