செயற்கை நுண்ணறிவுக்கு கட்டுப்பாடு மட்டும் அல்ல கலாச்சாரக் கொள்கைகளும் தேவை -கிளெமென்ட் காட்பார்ஜ்

 செயற்கை நுண்ணறிவின் முழுத் திறனையும் தரவிற்கான நியாயமான மற்றும் பரந்த அணுகல் மூலம் மட்டுமே உணர முடியும். இது அதன் நன்மைகள் சமமாக விநியோகிக்கப்படுவதையும் உறுதி செய்கிறது.  


செயற்கை நுண்ணறிவின் எதிர்காலம் கட்டுப்பாடுகளால் மட்டும் பாதுகாக்கப்படாது. அனைவருக்கும் பாதுகாப்பான மற்றும் நம்பகமான செயற்கை நுண்ணறிவை உறுதிசெய்ய, உயர்தரத் தரவை பொதுவானதாக ஊக்குவிக்கும் கொள்கைகளுடன் நாம் ஒழுங்குமுறையை சமநிலைப்படுத்த வேண்டும். மேலும், இதன் வெளிப்படைத்தன்மையை வளர்ப்பதற்கும், சமதளத்தையும், பொது நம்பிக்கையையும் வளர்ப்பதற்கும் இந்த அணுகுமுறை முக்கியமானதாகும். செயற்கை நுண்ணறிவின் தரவுகளுக்கு நியாயமான மற்றும் பரந்த அணுகலை வழங்குவதன் மூலம் மட்டுமே, முழு திறனை உணர்ந்து அதன் பலன்களை சமமாக விநியோகிக்க முடியும்.


செயற்கை நுண்ணறிவின் உயிர்நாடி தரவு ஆகும். இது சம்பந்தமாக, நரம்பியல் அளவிடுதல் சட்டங்கள் (laws of neural scaling) எளிமையானவை. மேலும், இதன் செயல்பாடு சிறந்ததாக உள்ளது. மனிதனால் உருவாக்கப்பட்ட உரையின் அதிக அளவு மற்றும் பன்முகத்தன்மை மேற்பார்வை செய்யப்படாத கற்றலுக்குக் கிடைக்கிறது. எடுத்துக்காட்டாக, பெரிய மொழி மாதிரிகளின் (Large Language Models (LLM)) செயல்திறன் சிறப்பாக இருக்கும். கணினி ஆற்றல் (computing power) மற்றும் அல்காரிதமிக் கண்டுபிடிப்புகளுடன் (algorithmic innovation), இந்தத் துறையில் முன்னேற்றத்திற்கு தரவு மிக முக்கியமான இயக்கியாக உள்ளது என்று குறிப்பிடலாம்.


ஆனால், இதில் ஒரு பிரச்சனை இருக்கிறது. தொடர்ந்து வளர்ந்து வரும்    செயற்கை நுண்ணறிவுக்கு போதுமான டிஜிட்டல் உள்ளடக்கத்தை மனிதர்கள் உற்பத்தி செய்வதில்லை. தற்போதைய பயிற்சிக்கான தரவுத்தொகுப்புகள் ஏற்கனவே மிகப்பெரியதாக உள்ளன. உதாரணமாக, Meta's LLama 3 மாதிரிக்கு 15 டிரில்லியன் அளவில் பயிற்சியளிக்கப்படுகிறது. இது இங்கிலாந்து நூலகத்தின் புத்தக சேகரிப்பை விட 10 மடங்கு அதிகமாகும். சமீபத்திய ஆய்வின்படி, 2030-ம் ஆண்டுக்கு முன்னர் 'அதிகபட்ச தரவு' (peak data) போன்ற ஒன்றை நாம் அடையலாம் என்று பழமையான உரைக்கான தேவை உள்ளது. பிற ஆவணங்கள் பெரிய மொழி மாதிரிகளால் (Large Language Models (LLM)) பொதுத் தரவு ஆபத்துக்களுக்கு எதிராக எச்சரிக்கின்றன. இது சார்புகளைப் பெருக்கும் மற்றும் பன்முகத்தன்மையைக் குறைக்கும் பின்னூட்ட சுழற்சிகளை ஏற்படுத்துகிறது.  


 AI winter பற்றிய குழப்பங்கள், தரம் மற்றும் நெறிமுறைகளின் இழப்பில், ஆராய்ச்சியாளர்கள் மற்றும் தொழில்துறை வல்லுநர்கள் ஈடுபட்டுள்ள தரவுகளுக்கான இடைவிடாத போட்டியை பிரதிபலிக்கிறது. முன்னணி பெரிய மொழி மாதிரிகளுக்கு (LLM) உள்ளீடு செய்வதற்காக, பரவலாக நம்பப்படும் உரிமைபெறாத புத்தகங்களின் தொகுப்பான ‘புத்தகங்கள்-3’ (Books3) ஒரு முக்கிய உதாரணமாகும். இத்தகைய நடைமுறை நியாயமான பயன்பாட்டுக் கொள்கையின் கீழ் வருமா என்பது வழக்கறிஞர்களுக்கு ஒரு விவாதமாக உள்ளது. இதைவிட கவலையான விஷயம் என்னவெனில், தெளிவான வழிகாட்டுதல் கொள்கை எதுவுமின்றி இந்தப் புத்தகங்கள் பதுக்கி வைக்கப்பட்டுள்ளன.


முன்னேற்றம் ஏற்பட்டாலும், முக்கியமாக ஒழுங்குமுறை காரணமாக, உரிமம் பெற்ற உள்ளடக்கம், பொதுவில் கிடைக்கும் தரவு மற்றும் சமூக ஊடக தொடர்புகள் ஆகியவற்றின் கலவையில் பெரிய மொழி மாதிரிகள் (LLM) இன்னும் பயிற்சியளிக்கப்படுகின்றன. எவ்வாறாயினும், இந்தத் தரவுகள் நமது இணையவெளியில் (cyberspace) தற்போதைய சிதைவுகளை பிரதிபலிக்கின்றன என்று ஆய்வுகள் காட்டுகின்றன. சில நேரங்களில், அவை இந்த சிதைவுகளை மோசமாக்குகின்றன.  


முதன்மை ஆதாரங்கள் இல்லாதது


பெரிய மொழி மாதிரிகள் (LLM) மனித அறிவின் உலகளாவிய தொகுப்பின் மீது பயிற்சியளிக்கப்படுகின்றன என்ற கருத்து ஒரு கற்பனையான மாயை ஆகும். தற்போதைய பெரிய மொழி மாதிரிகள் (LLM) லீப்னிஸ் (Leibniz) மற்றும் போர்ஜஸ் (Borges) போன்றவர்களால் கற்பனை செய்யப்பட்ட உலகளாவிய நூலகத்திலிருந்து வெகு தொலைவில் உள்ளன. ‘புத்தகங்கள் 3’ போன்ற உரிமம் பெறாத நூல்களின் பதுக்கல்களில் சில அறிவார்ந்த படைப்புகள் இருக்கலாம். இவை பெரும்பாலும் ஆங்கிலத்தில் எழுதப்பட்ட இரண்டாம் நிலை ஆதாரங்கள் ஆகும். மனித கலாச்சாரத்தின் மேற்பரப்பைக் குறைக்கும் விமர்சகர்கள், முதன்மை ஆதாரங்கள் மற்றும் அவற்றின் எண்ணற்ற மொழிகள் தெளிவாக இல்லை. காப்பக ஆவணங்கள் (archival documents), வாய்வழி மரபுகள் (oral traditions), பொது வைப்புத்தொகைகளில் மறக்கப்பட்ட டோம்கள் (forgotten tomes in public depositories), கல்லில் பொறிக்கப்பட்ட கல்வெட்டுகள் (inscriptions etched in stone) போன்றவை நமது கலாச்சார பாரம்பரியத்தின் மூலப்பொருட்கள் ஆகும்.


இந்த ஆவணங்களில் இதுவரை பயன்படுத்தப்படாத பல மொழியியல் தரவுகள் உள்ளன. உதாரணமாக, இத்தாலியை எடுத்துக் கொள்ளுங்கள். இந்த தேசத்தின் மாநில ஆவணக் காப்பகங்கள் மட்டும் 1,500 கிலோமீட்டருக்கும் குறைவான அலமாரியில் வைக்கப்பட்டுள்ள ஆவணங்களை (நேரியல் அளவீட்டின் அடிப்படையில்) வைத்திருக்கின்றன.  இந்த பாரம்பரியத்திலிருந்து பெறக்கூடிய டோக்கன்களின் மொத்த அளவை மதிப்பிடுவது கடினம். எவ்வாறாயினும், நமது ஐந்து கண்டங்களில் பரவியுள்ள நூற்றுக்கணக்கான காப்பகங்களைச் சேர்த்தால், அவை பெரிய மொழி மாதிரிகளைப் (LLM)  பயிற்றுவிப்பதற்கு தற்போது பயன்படுத்தப்படும் தரவின் அளவை மிஞ்சவில்லை என்றால், அவை அடையும் என்று நம்புவது நியாயமானது.


சரியாகப் பயன்படுத்தினால், இந்தத் தரவுகள் மனித கலாச்சாரத்தைப் பற்றிய செயற்கை நுண்ணறிவின் புரிதலை மேம்படுத்தும். அவர்கள் இந்த அறிவை அனைவருக்கும் அணுகும்படி செய்வார்கள். இது வரலாற்றை நாம் புரிந்து கொள்ளும் விதத்தை மாற்றலாம். அதே நேரத்தில், கலாச்சார பாரம்பரியம் புறக்கணிக்கப்படுவதிலிருந்தும், போரினால் சேதமடைவதிலிருந்தும் அல்லது காலநிலை மாற்றத்தால் பாதிக்கப்படுவதிலிருந்தும் பாதுகாக்க உதவும். அவர்கள் குறிப்பிடத்தக்க பொருளாதார நன்மைகளையும் உறுதியளிக்கிறார்கள். அவை நரம்பியல் நெட்வொர்க்குகளை (neural networks) அதிகரிக்க உதவுகின்றன. இந்த ஆதாரங்கள் பொதுமக்களுக்கு வெளியிடப்பட்டால், சிறிய நிறுவனங்கள், புத்தொழில்கள் (startups) மற்றும் திறந்த-வள செயற்கை நுண்ணறிவு சமூகம் (open-source AI community) இலவச மற்றும் வெளிப்படையான தரவுகளின் பெரிய தொகுப்புகளைப் பயன்படுத்தலாம். இது அவர்களின் சொந்த பயன்பாடுகளை உருவாக்க அனுமதிக்கும். இது பெரிய தொழில்நுட்பத்திற்கு எதிராக தளத்தை சமன் செய்யும் மற்றும் உலகளாவிய கண்டுபிடிப்புகளை வளர்க்கும். 

 

இத்தாலி மற்றும் கனடாவின் எடுத்துக்காட்டுகள்


டிஜிட்டல் மனிதநேயத்தின் முன்னேற்றங்கள், குறிப்பாக செயற்கை நுண்ணறிவு காரணமாக, டிஜிட்டல் மயமாக்கல் செலவை வெகுவாகக் குறைத்துள்ளது. அச்சிடப்பட்ட மற்றும் கையெழுத்துப் பிரதி ஆவணங்களிலிருந்து முன்னெப்போதையும் விட துல்லியமாகவும் விரைவாகவும் உரையைப் பிரித்தெடுக்க இந்தத் தொழில்நுட்பம் நம்மை அனுமதிக்கிறது. இத்தாலி இந்த திறனை அங்கீகரித்து, அதன் ‘அடுத்த தலைமுறை ஐரோப்பிய ஒன்றியம்’ (Next Generation EU) தொகுப்பில் €500 மில்லியனை ‘டிஜிட்டல் நூலகம்’ (Digital Library) திட்டத்திற்காக ஒதுக்கியது. துரதிர்ஷ்டவசமாக, இத்தாலியின் வளமான பாரம்பரியத்தை திறந்த தரவுகளாக அணுகுவதை நோக்கமாகக் கொண்ட இந்த லட்சிய முயற்சி, பின்னர் ஒதுக்கப்பட்டு மறுசீரமைக்கப்பட்டது. மேலும், இதன் குறுகிய பார்வை மேலோங்கியது.


கனடாவின் அதிகாரப்பூர்வ மொழிகள் சட்டம், இது சம்பந்தமாக ஒரு முக்கிய பாடத்தை வழங்குகிறது. இது ஒரு முறை வீணானது என்று விமர்சிக்கப்பட்டது. இந்தக் கொள்கை, நிறுவனங்கள் இருமொழியாக இருக்க வேண்டும் எனக் கூறியது. காலப்போக்கில், அது மதிப்புமிக்க தரவுத்தொகுப்பை உருவாக்கியது. மொழிபெயர்ப்பு மென்பொருளைப் பயிற்றுவிக்க இந்தத் தரவுத்தொகுப்பு பயன்படுத்தப்பட்டது.


இருப்பினும், ஸ்பானிஷ் கோர்டெஸ் (Spanish Cortes) மற்றும் ஐரோப்பிய ஒன்றிய நிறுவனங்களில் (European Union institution) பிராந்திய மொழிகளை ஏற்றுக்கொள்வது பற்றிய சமீபத்திய விவாதங்கள் இந்த முக்கிய விஷயத்தை கவனிக்கவில்லை. வழக்கறிஞர்கள் கூட குறைந்த வள மொழிகளின் டிஜிட்டல் மயமாக்கலை ஊக்குவிப்பதன் கலாச்சார, பொருளாதார மற்றும் தொழில்நுட்ப நன்மைகளை அங்கீகரிக்கத் தவறிவிட்டனர்.


செயற்கை நுண்ணறிவுக்கு அதன் வரம்புகள் உள்ளன. மக்கள் அதன் மீது நம்பத்தகாத எதிர்பார்ப்புகளைக் கொண்டுள்ளனர் என்கிறார் ஐஐடி பேராசிரியர்.


டிஜிட்டல் மாற்றத்தை நாம் துரிதப்படுத்தும்போது, ​​நமது உலக கலாச்சார பாரம்பரியத்தின் மகத்தான திறனை நாம் கவனிக்காமல் விடக்கூடாது. அதன் டிஜிட்டல் மயமாக்கல் வரலாற்றைப் பாதுகாப்பதற்கும், அறிவை ஜனநாயகப்படுத்துவதற்கும் மற்றும் உண்மையிலேயே உள்ளடக்கிய செயற்கை நுண்ணறிவு கண்டுபிடிப்புகளைக் கட்டவிழ்த்துவிடுவதற்கும் முக்கியமானதாகும். 


க்ளெமென்ட் காட்பார்ஜ் he University of St. Andrews, U.K வில்  Digital Humanities, School of Modern Languages இல் விரிவுரையாளராக உள்ளார்.



Original article:

Share: