இந்திய மொழிகளில் உள்ள ஏராளமான ஆவணங்கள் மற்றும் அறிவுசார்ந்த விஷயங்களைப் பயன்படுத்துவதற்கு, இந்திய செயற்கை நுண்ணறிவுக்கான (Indic AI) ஒரு தேசிய அறிவுசார் உள்கட்டமைப்பு மிகவும் அவசியமாகும்.
செயற்கை நுண்ணறிவு (Artificial Intelligence (AI)) துறையில் இந்தியாவின் இலக்குகள் வேகமாக வளர்ந்து வருகின்றன. அரசாங்கங்கள் செயற்கை நுண்ணறிவுத் தொழில்நுட்ப உள்கட்டமைப்பில் முதலீடு செய்கின்றன, புதிய தொழில்முனைவோர் மூலதனத்தை ஈர்க்கின்றனர், மற்றும் ஆராய்ச்சி நிறுவனங்கள் அதிகத் திறன் கொண்ட மொழி மாதிரிகளை (Language models) உருவாக்கி வருகின்றன. இருப்பினும், ஒரு முக்கியமான சவால் இன்னும் கவனிக்கப்படாமல் உள்ளது: இந்தியாவின் சொந்த செயற்கை நுண்ணறிவுத் தொழில்நுட்ப இலக்கை அடைய வேண்டுமானால், அதன் சொந்த மொழிகளுக்கான வலுவான அறிவுசார் உள்கட்டமைப்பு இல்லாமல் அதைச் சாதிக்க முடியாது என்கின்றனர்.
இன்றைய சூழலில், அதிக அளவிலான மற்றும் உயர்தரமான டிஜிட்டல் உள்ளடக்கங்களைக் கொண்டு பயிற்சி அளிக்கப்படும்போதுதான் செயற்கை நுண்ணறிவுத் தொழில்நுட்ப அமைப்புகள் மிகச்சிறப்பாகச் செயல்படுகின்றன. ஆங்கில மொழிக்கு, இத்தகைய உள்ளடக்கங்கள் ஏராளமாக உள்ளன. ஆனால், பெரும்பாலான இந்திய மொழிகளுக்கு அப்படி இல்லை. உண்மையான, அனைவரையும் உள்ளடக்கிய மற்றும் பயனுள்ள இந்திய மொழி செயற்கை நுண்ணறிவுத் தொழில்நுட்பத்தை உருவாக்குவதில் இதுவே மிகப்பெரிய தடையாகத் தற்போது உருவெடுத்து வருகிறது.
இந்தி மொழிக்கு ஒப்பீட்டளவில் வளமான டிஜிட்டல் உள்ளடக்கம் இருந்தாலும், தமிழ், தெலுங்கு, பெங்காலி மற்றும் மராத்தி போன்ற மொழிகளுக்கு மிகக் குறைந்த ஆதாரங்களே உள்ளன. இன்னும் பல மொழிகளுக்கோ டிஜிட்டல் தளங்களில் இடமே இல்லாத நிலைதான் உள்ளது. இதன் விளைவாக,செயற்கை நுண்ணறிவுத் தொழில்நுட்ப அமைப்புகள் இந்த மொழிகளில் துல்லியமாக வேலை செய்ய, பகுத்தறிய, சுருக்கி எழுத மற்றும் மொழிபெயர்க்கப் பெரிதும் தடுமாறுகின்றன. இந்தப் பிரச்சனைக்கு கணினித் திறனோ அல்லது செயற்கை நுண்ணறிவு மாதிரியின் வடிவமைப்போ முதன்மைக் காரணம் அல்ல. இந்தியாவின் மொழியியல் மற்றும் கலாச்சார வளத்தைப் பிரதிபலிக்கும் வகையிலான மாறுபட்ட மற்றும் டிஜிட்டல் மயமாக்கப்பட்ட உரைகள் இல்லாததே இதற்குக் காரணமாகக் கூறப்படுகிறது.
தொழில்நுட்பத்தைக் கடந்து
இதன் விளைவுகள் வெறும் தொழில்நுட்பத்தோடு மட்டும் முடிந்துவிடுவதில்லை. நவீன நிர்வாகம், கல்வி, சட்ட அமைப்புகள் மற்றும் கலாச்சாரத்தைப் பாதுகாத்தல் ஆகியவற்றுக்கு மிகப்பெரிய அளவிலான டிஜிட்டல் மயமாக்கல் (Digitisation) இன்றியமையாததாகும். செயற்கை நுண்ணறிவு (AI) மூலம் மக்களுக்குப் பயனுள்ள நன்மைகளை உருவாக்க வேண்டும் என்றால், அரசாங்கப் பதிவுகள், நீதிமன்றத் தீர்ப்புகள், நில ஆவணங்கள், பாடப்புத்தகங்கள், ஆராய்ச்சித் தாள்கள் மற்றும் வரலாற்று ஆவணக் காப்பகங்கள் ஆகியவற்றை கணினியால் படிக்கக்கூடிய வடிவங்களாக (Machine-readable formats) மாற்ற வேண்டும்.
இந்த முயற்சியின் மிக முக்கியமான பகுதி ‘ஒளியியல் எழுத்துணரி’ (Optical Character Recognition (OCR)) தொழில்நுட்பம் ஆகும். இது ஸ்கேன் செய்யப்பட்ட ஆவணங்களை, கணினியில் தேடக்கூடிய மற்றும் பயன்படுத்தக்கூடிய உரையாக மாற்றும் ஒரு தொழில்நுட்பமாகும். இந்த ஒளியியல் எழுத்துணரி (OCR) தொழில்நுட்பம் ஆங்கில மொழிக்கு ஏற்றதாக இருந்தாலும், பல இந்திய மொழிகளுக்கு இது இன்னும் ஒரு பெரிய சவாலாகவே உள்ளது.
அச்சிடப்பட்ட ஆவணங்களைக்கூட இந்தத் தொழில்நுட்பம் மூலம் செயலாக்குவது கடினமாக உள்ளது. பல அரசு ஆவணங்கள் தரம் குறைந்த, ஸ்கேன் செய்யப்பட்ட மின்னணு ஆவண வடிவக் (Portable Document Format (PDF)) கோப்புகளாக மட்டுமே உள்ளன. செய்தித்தாள்களும் புத்தகங்களும் பெரும்பாலும் பொதுவான தரம் இல்லாத எழுத்துருக்களைப் பயன்படுத்துகின்றன. மேலும், பல பத்திகள், அட்டவணைகள் மற்றும் வெவ்வேறு எழுத்து வடிவங்கள் கொண்ட சிக்கலான வடிவமைப்புகள் இதன் துல்லியத்தைக் குறைக்கின்றன. தமிழ், மலையாளம் மற்றும் உருது போன்ற மொழிகளுக்கு ஒளியியல் எழுத்துணரி தொழில்நுட்பத்தின் செயல்பாடு இன்னும் சீரானதாக இல்லை.
கையெழுத்துப் பிரதிகளாக இருக்கும் ஆவணங்களை டிஜிட்டல் முறைக்கு மாற்றுவது இன்னும் பெரிய சவாலாக உள்ளது. கோடிக்கணக்கான அரசுப் பதிவுகள், வரலாற்று ஆவணக் காப்பகங்கள் மற்றும் நிறுவன ஆவணங்கள் இன்றளவும் கையெழுத்திலேயே உள்ளன. ஒவ்வொரு பிராந்தியத்திற்கும் ஏற்ப மாறும் கையெழுத்து முறைகள், கணினிக்குக் கற்றுக்கொடுக்கத் தேவையான போதிய தரவுகள் இல்லாதது மற்றும் பழங்கால எழுத்து வடிவங்கள் போன்ற காரணங்களால், கணினிகள் மூலம் அவற்றை தானாகவே கண்டறிந்து படிப்பது மிகவும் கடினமாக உள்ளது.
இந்தியாவின் பலதரப்பட்ட, ஏராளமான ஓலைச்சுவடிகள் மற்றும் கல்வெட்டுகள் இந்தப் பிரச்சனையை இன்னும் சிக்கலாக்குகின்றன. ஓலைச்சுவடிகள், செப்புப் பட்டயங்கள் மற்றும் பழங்கால நூல்களில் கணிதம், வானியல், மருத்துவம் மற்றும் தத்துவம் போன்ற துறைகள் சார்ந்த பல நூற்றாண்டு கால அறிவு பொதிந்துள்ளது. இந்தத் தகவல்களை மக்கள் எளிதாகப் பயன்படுத்தும் வகையில் மாற்றுவதற்கு, வெறும் ஒளியியல் எழுத்துணரி (OCR) தொழில்நுட்பம் மட்டும் போதாது. சிதைந்த படங்களைச் சீரமைப்பது, எழுத்து வடிவங்களை அடையாளம் காண்பது மற்றும் மொழியியல் நிபுணத்துவம் ஆகியவையும் தேவைப்படுகின்றன. இதனால், இந்த முயற்சி வெறும் தொழில்நுட்பத் திட்டம் மட்டுமல்லாமல், இந்தியாவின் அறிவைப் பாதுகாத்து வெளிக்கொண்டு வருவதற்கான ஒரு பணியாக மாறுகிறது.
இந்திய முயற்சிகள்
நல்வாய்ப்பாக, இதற்கான மிக முக்கியமான அடித்தளங்கள் இந்தியாவிடம் ஏற்கனவே உள்ளன.
சென்னை இந்திய தொழில்நுட்பக் கழகத்தில் (Indian Institute of Technology Madras (IIT Madras)) உள்ள ‘AI4Bharat’ அமைப்பு, இந்திய மொழிகளுக்கான பன்மொழித் தரவுத்தொகுப்புகள், மதிப்பீட்டு அளவுகோல்கள் மற்றும் மொழி மாதிரிகளை வழங்கி, இந்தியாவின் மிக முக்கியமான இலவசமாகப் பயன்படுத்தக்கூடிய (Open-source) தொழில்நுட்பமா சார்ந்த முயற்சிகளில் ஒன்றாக உருவெடுத்துள்ளது. ஹைதராபாத் சர்வதேச தகவல் தொழில்நுட்பக் கழகம் (International Institute of Information Technology Hyderabad), ஒளியியல் எழுத்துணரி (OCR) மற்றும் ஆவணப் பகுப்பாய்வு ஆகியவற்றில் முக்கியமான பணிகளை மேற்கொண்டுள்ளது. அதேநேரத்தில், ‘Sarvam AI’, ‘BharatGPT’, ‘Microsoft’, ‘Google’ மற்றும் ‘Meta’ போன்ற நிறுவனங்களும் இந்தத் தொழில்நுட்பங்களை மக்களிடம் கொண்டு சேர்ப்பதிலும், புதிய கண்டுபிடிப்புகளிலும் முதலீடு செய்து வருகின்றன.
அரசாங்கத்தின் பல்வேறு முயற்சிகளும் இதில் குறிப்பிடத்தக்கப் பங்களிப்பை வழங்கியுள்ளன. உதாரணமாக, பாஷினி (Bhashini) திட்டம், பேச்சு மற்றும் மொழிபெயர்ப்புத் தொழில்நுட்பங்களை அடுத்த கட்டத்திற்கு எடுத்துச் சென்றுள்ளது. தேசிய கையெழுத்துப் பிரதிகள் இயக்கம் (National Manuscripts Mission (NMM)) பல மில்லியன் கணக்கான பழங்காலக் கையெழுத்துப் பிரதிகளை ஆய்வு செய்து கண்டறிந்துள்ளது. தேசிய டிஜிட்டல் நூலகம் (National Digital Library of India (NDLI)) டிஜிட்டல் வடிவிலான மிகப்பெரிய தகவல் சேமிப்பை உருவாக்கியுள்ளது. இதுமட்டுமன்றி, தமிழ்நாடு, கேரளா மற்றும் கர்நாடகா உள்ளிட்ட பல மாநிலங்கள் தங்களுக்குரிய மதிப்புமிக்க டிஜிட்டல் மயமாக்கல் திட்டங்களைத் தொடங்கியுள்ளன.
இருப்பினும், இந்த முயற்சிகள் அனைத்தும் ஒருங்கிணைக்கப்படாமல் ஆங்காங்கே தனித்தனியாகவே நடக்கின்றன. இந்தியாவிற்குள் இன்னும் பொதுவான தரநிலைகளோ, ஒன்றுடன் ஒன்று எளிதாக இணையும் தரவுத்தொகுப்புகளோ, செயற்கை நுண்ணறிவுக்கு ஏற்ற தகவல் வழிமுறைகளோ மற்றும் ஒரு ஒருங்கிணைந்த தேசிய உத்தியோ இன்னும் உருவாக்கப்படவில்லை. இதன் விளைவாக, ஒரே வேலையை பலரும் மீண்டும் மீண்டும் செய்யும் நிலை ஏற்படுவதுடன், நாட்டின் தேவைக்கேற்ற வேகத்தில் முன்னேற முடியாமல் வேகம் குறைகிறது.
இந்தியாவுக்கு இப்போது தேவை என்னவென்றால், இந்திய மொழிகளுக்கான செயற்கை நுண்ணறிவை (Indic AI) மேம்படுத்துவதற்கான ஒரு தேசிய அறிவு உள்கட்டமைப்பு ஆகும்.
முதலாவதாக, இந்திய மொழிகளுக்கான எழுத்துருக்களை அடையாளம் காணும் ஒளியியல் எழுத்துணரி (OCR) அமைப்புகள், கையெழுத்தை அங்கீகரிக்கும் கருவிகள், கையெழுத்துப் பிரதிகளை டிஜிட்டல் மயமாக்கும் தொழில்நுட்பங்கள் மற்றும் இந்திய எழுத்து வடிவங்களுக்காக வடிவமைக்கப்பட்ட மேம்பட்ட பார்வை-மொழி மாதிரிகளை (Vision-language models) உருவாக்குவதை வேகப்படுத்த ஒரு தேசிய உரை அங்கீகார இயக்கம் (National Text Recognition Mission) தொடங்கப்பட வேண்டும்.
இரண்டாவதாக, ஒரு தேசிய தரவுத் தொகுப்பு ஆணையம் (National Corpus Authority) தரவு பற்றிய விபரங்கள் (Metadata), தரவின் தரம், சேமிப்பு மற்றும் பல்வேறு அமைப்புகளுக்கு இடையே தரவுகளைப் பகிர்ந்துகொள்ளும் வசதி ஆகியவற்றுக்கான தரநிலைகளை வகுக்க வேண்டும். அதேநேரத்தில் அரசாங்கங்கள், பல்கலைக்கழகங்கள், நூலகங்கள் மற்றும் கலாச்சார நிறுவனங்களின் பங்களிப்புகளையும் ஒருங்கிணைக்க வேண்டும் என்றும் வலியுறுத்தப்படுகிறது.
மூன்றாவதாக, பொதுமக்களுக்கான அணுகல், அறிவுசார் சொத்துரிமை (Intellectual Property Rights (IPR)) மற்றும் பதிப்பாளர்கள் மற்றும் உள்ளடக்கத்தை உருவாக்குபவர்களுக்கான (Content creators) நியாயமான இழப்பீடு ஆகியவற்றைச் சமநிலைப்படுத்தும் ஒரு நவீன உரிமக் கட்டமைப்பை இந்தியா உருவாக்க வேண்டும்.
இறுதியாக, அரசாங்கம், கல்வி நிறுவனங்கள், தொழில்துறை மற்றும் சமூக அமைப்புகள் ஆகியவற்றிற்கு இடையே வலுவான ஒத்துழைப்பு அவசியமாகிறது. இந்தியாவின் மொழியியல் பன்முகத்தன்மை உலகிலேயே ஒப்பிட முடியாத ஒன்றாகும். எந்தவொரு தனி நிறுவனத்தாலும் இந்த சவாலை தனியாக எதிர்கொண்டு தீர்வுகாண முடியாது.
சமீபத்தில், நந்தன் நிலேகனி கூறியது போல, ஒருங்கிணைந்த பரிவர்த்தனை இடைமுகம் (Unified Payments Interface (UPI)) போன்ற டிஜிட்டல் பொது உள்கட்டமைப்புகள் (Digital Public Infrastructure (DPI)) மூலம், இலவச அணுகல் மற்றும் அனைவரும் எளிதாகப் பயன்படுத்தக்கூடிய பொதுவான தளங்கள் எவ்வாறு தேசிய அளவில் பெரிய மாற்றங்களை உருவாக்க முடியும் என்பதை இந்தியா ஏற்கனவே நிரூபித்துக் காட்டியுள்ளது. செயற்கை நுண்ணறிவு (AI) தொழில்நுட்பமும் இதே போன்ற ஒரு வழிமுறையைப் பின்பற்றலாம் என்கின்றனர்.
செயற்கை நுண்ணறிவு (AI) துறையின் உண்மையான போட்டி என்பது, வெறும் பெரிய தொழில்நுட்ப மாதிரிகளை உருவாக்குவதிலோ அல்லது அதிகப்படியான அதிவேகத் தரவுச் செயலாக்கக் கருவிகளை (Graphics Processing Units (GPUs)) வாங்குவதிலோ மட்டும் இல்லை. அந்த மாடல்கள் கற்றுக்கொள்வதற்கான அறிவுசார் அடித்தளங்களை உருவாக்குவதில்தான் அடங்கியுள்ளது. இந்தியா தனது மொழியியல் வளங்களை டிஜிட்டல் மயமாக்கி, ஒழுங்குபடுத்தி, அனைவரும் எளிதாகப் பயன்படுத்தும் வகையில் மாற்றிக் காட்டினால், ஆங்கிலம் பேசும் மக்களுக்கு மட்டுமல்லாமல், ஒவ்வொரு நாளும் இந்திய மொழிகளில் பேசும் கோடிக்கணக்கான மக்களுக்கும் பயன்படக்கூடிய செயற்கை நுண்ணறிவு (AI) அமைப்புகளை உருவாக்க முடியும்.
இந்திய செயற்கை நுண்ணறிவின் (AI) எதிர்காலமானது, இந்தியாவின் அறிவுப் புதையலை நாம் எவ்வளவு திறம்பட வெளிக்கொண்டு வந்து, அதை நவீன தொழில்நுட்பங்கள் வழியாக மக்களுக்கு எளிதாகக் கிடைக்கச் செய்கிறோம் என்பதைப் பொறுத்தே அமையும் என்கின்றனர்.
சேஷசாயி, முதன்மை ஆலோசகராகவும், ராமச்சந்திரன், ‘Broadband India Forum’ அமைப்பின் தலைவராகவும் உள்ளனர்.
Original article : Indian languages, the foundation of India’s AI. -TV Ramachandran KV Seshasayee