இரண்டு ஆண்டுகளுக்கும் மேலாக, சான் பிரான்சிஸ்கோவை தளமாகக் கொண்ட நிறுவனமான OpenAI, அதன் மேம்பட்ட மொழி மாதிரிகளுடன் செயற்கை நுண்ணறிவில் (AI) முன்னணியில் உள்ளது. அதன் chatbot மூலம் கவிதைகளை எழுதலாம், கதைகளை உருவாக்கலாம், குறியீட்டு பிழைகளைக் கண்டறியலாம் மற்றும் இணையத் தேடல்களுக்கு உதவலாம் (இருப்பினும் அதன் அறிவு ஒரு குறிப்பிட்ட தேதிக்கு மட்டுமே). மென்மையான, தெளிவான வாக்கியங்களை உருவாக்கும் chatbot திறன் உலகெங்கிலும் உள்ள மக்களை வியப்பில் ஆழ்த்தியுள்ளது.
பசிபிக் பெருங்கடலுக்கு அப்பால், பெய்ஜிங்கில், AI-ல் அமெரிக்காவின் ஆதிக்கத்தை எதிர்கொள்ள சீனா தனது முதல் முயற்சியை மேற்கொண்டது. மார்ச் 2023ஆம் ஆண்டில், Baidu அதன் AI chatbot ஆன Ernie bot-ஐத் தொடங்க அரசாங்கத்தின் ஒப்புதலைப் பெற்றது. இந்த bot அறிமுகப்படுத்தப்பட்ட ஒரு நாளுக்குள் 30 மில்லியனுக்கும் அதிகமான பயனர் பதிவுகளைப் பெற்ற பிறகு, ChatGPTக்கு சீனாவின் பதில் Ernie என்று கூறப்பட்டது.
சீன அதிபர் ஜி ஜின்பிங், தியனன்மென் சதுக்க சம்பவம் மற்றும் உய்குர் முஸ்லிம்களுக்கு எதிரான மனித உரிமை மீறல்கள் போன்ற முக்கியமான தலைப்புகள் குறித்த கேள்விகளுக்கு பதிலளிக்க chatbot போராடியதால், Ernie chatbot சுற்றி இருந்த உற்சாகம் மங்கியது. இந்தப் பிரச்சினைகள் குறித்து கேட்டபோது, chatbot ஆனது "வேறு ஏதாவது பற்றிப் பேசலாம்" என்று பதில் அளித்தது.
AI தாமதத்திற்குப் பிறகு
சீன தணிக்கையின் யதார்த்தத்தை Ernie எதிர்கொண்டபோது, சீனாவில் பெரிய மொழி மாதிரிகளை (large language models (LLMs)) உருவாக்குவதில் உள்ள சவால்களை நிபுணர்கள் எடுத்துரைத்தனர். Google நிறுவனத்தின் முன்னாள் தலைமை நிர்வாக அதிகாரியும் தலைவருமான எரிக் ஷ்மிட், அக்டோபர் 2023 ஆம் ஆண்டில் ஹார்வர்ட் கென்னடி அரசாங்கப் பள்ளியில் இதைப் பற்றிப் பேசினார். அவர் கூறினார், "சீனா விருந்துக்கு தாமதமாக வந்தது. அவர்கள் AI இடத்தில் போதுமான அளவு சீக்கிரமாக நுழையவில்லை." சீனாவின் வரையறுக்கப்பட்ட பயிற்சித் தரவு மற்றும் திறந்த மூல யோசனைகளுடன் பரிச்சயம் இல்லாதது போன்றவை உலகளாவிய AI பந்தயத்தில் அது பின்தங்கியிருக்கக்கூடும் என்றும் ஷ்மிட் குறிப்பிட்டார்.
சீன தொழில்நுட்ப ஜாம்பவான்கள் பின்தங்கியிருந்தாலும், அமெரிக்க தொழில்நுட்ப நிறுவனங்கள் பெரிய மொழி மாதிரிகளை (large language models (LLMs)) உருவாக்குவதில் முன்னேறின. மைக்ரோசாப்ட் ஆதரவுடன் OpenAI, 'O' தொடர் எனப்படும் புதிய பகுத்தறிவு chatbots தொடரை உருவாக்கியது, இது ChatGPT-ஐ விஞ்சியது. இந்த AI மாதிரிகள் தான் முதலில் அனுமான-நேர அளவிடுதலைப் (inference-time scaling) பயன்படுத்தின. இதன் பொருள் பதில்களை உருவாக்கும் போது அவை அதிக தரவைக் கையாள முடியும்.
AI வர்த்தகர் AI கட்டமைப்பாளராக மாறினார்
சீன தொழில்நுட்ப நிறுவனங்கள் சிரமப்பட்ட நிலையில், ஜென்ஜியாங்கிலிருந்து வந்த ஹை-ஃப்ளையர் என்ற ஹெட்ஜ் ஃபண்ட், ஏப்ரல் 2024-ல் DeepSeek என்ற பெயரில் ஒரு AI ஆய்வகத்தை அமைத்தது. ஒரு வருடத்திற்குள், DeepSeek-v2 மாதிரியை உருவாக்கியது. இந்த மாதிரி பல்வேறு சோதனைகளில் சிறப்பாக செயல்பட்டது மற்றும் பிற சீன LLMகளுடன் ஒப்பிடும்போது மிகக் குறைந்த செலவில் சேவைகளை வழங்கியது.
DeepSeek-v3 டிசம்பரில் அறிமுகப்படுத்தப்பட்டு AI நிறுவனங்களை ஆச்சரியப்படுத்தியது. இது 14.8 டிரில்லியன் தரவுகளில் பயிற்சி பெற்ற ஒரு ‘நிபுணர் கலவை - Mixture-of-Expert (MoE)’ மாதிரியைப் பயன்படுத்தியது. இந்த மாதிரி 671 பில்லியன் அளவுருக்களைக் கொண்டிருந்தது, ஆனால் ஒவ்வொரு தரவுக்கும் 37 பில்லியன் மட்டுமே பயன்படுத்தப்பட்டது.
ஒரு MoE பணிகளின் வெவ்வேறு அம்சங்களில் நிபுணத்துவம் பெற்ற வெவ்வேறு "நிபுணர்கள்" அல்லது துணை மாதிரிகளைப் பயன்படுத்துகிறது. மேலும், ஒவ்வொரு நிபுணரும் ஒரு குறிப்பிட்ட பணிக்கு பொருத்தமானதாக இருக்கும்போது செயல்படுத்தப்படுகிறார். இது மாதிரியை மிகவும் திறமையானதாக்குகிறது, வளங்களைச் சேமிக்கிறது மற்றும் செயலாக்கத்தை விரைவுபடுத்துகிறது.
டீப்சீக்கின் AI அமெரிக்க தொழில்துறைக்கு ஒரு 'எச்சரிக்கை மணியாக' இருக்க வேண்டும் என்று டொனால்ட் டிரம்ப் கூறுகிறார்.
அமெரிக்கத் தடைகள் இருந்தபோதிலும் பயிற்சி
டிசம்பர் 26 அன்று வெளியிடப்பட்ட தொழில்நுட்ப ஆய்வறிக்கையின்படி, DeepSeek-v3 Nvidia-ன் H800 GPUகளைப் பயன்படுத்தி 2.78 மில்லியன் GPU மணிநேரங்களுக்குப் பயிற்சி பெற்றது. Nvidia இன் H100 சில்லுகளைப் பயன்படுத்திய Meta இன் Llama 3.1 பயிற்சியுடன் ஒப்பிடும்போது, DeepSeek-v3 30.8 மில்லியன் GPU மணிநேரங்களைக் குறைவாக எடுத்தது.
DeepSeek-v3-ல் ஆரம்பகால வெற்றியைக் கண்ட பிறகு, High-flyer அதன் DeepSeek-R1-Zero மற்றும் DeepSeek-R1 என்ற மிகவும் மேம்பட்ட பகுத்தறிவு மாதிரிகளை உருவாக்கியது. அவை சந்தையில் மிகவும் செலவு குறைந்த மாதிரிகளில் ஒன்றாக மாறி AI துறையை மாற்றக்கூடும்.
OpenAI இன் o1 உடன் ஒப்பிடும்போது, DeepSeek-ன் R1 API அழைப்பிற்கு 93% செலவுகளைக் குறைக்கிறது. அதிக பணம் செலவழிக்காமல் AI-ஐப் பயன்படுத்த விரும்பும் வணிகங்கள் மற்றும் டெவலப்பர்களுக்கு இது ஒரு பெரிய நன்மையாகும்.
சேமிப்பு இன்னும் அதிகமாகும். பழைய மாதிரிகளைப் போலல்லாமல், R1 சக்திவாய்ந்த உள்ளூர் கணினிகளில் இயங்க முடியும். இதன் பொருள் விலையுயர்ந்த கிளவுட் சேவைகள் அல்லது பயன்பாட்டு வரம்புகள் தேவையில்லை. பயனர்கள் வெளிப்புறத் தளங்களைச் சார்ந்து இல்லாமல் AI பணிகளை வேகமாகவும் குறைந்த செலவிலும் இயக்க முடியும்.
மேலும், R1 நினைவகத் திறன் கொண்டதாக வடிவமைக்கப்பட்டுள்ளது. ஏனெனில், இது செயல்பட RAM-ன் ஒரு பகுதி மட்டுமே தேவைப்படுகிறது. தனித்தனியாக, பல பணிகளை ஒரே நேரத்தில் செயலாக்குவதன் மூலம், மற்றும் கிளவுட்டைப் பயன்படுத்துவதன் மூலம், இந்த மாதிரி செலவுகளை மேலும் குறைத்து செயல்திறனை விரைவுபடுத்துகிறது. இது பரந்த அளவிலான பயனர்களுக்கு இன்னும் அணுகக்கூடியதாக ஆக்குகிறது.
ஒரு நெருக்கமான போட்டி
DeepSeek-ன் R1, OpenAI-ன் o3 போல மேம்பட்டதாக இல்லாவிட்டாலும், பல அளவீடுகளில் இது கிட்டத்தட்ட o1 உடன் இணையாக உள்ளது. LiveBench-ல் உள்ள இரண்டு மாதிரிகளின் தரவுகளின்படி, ஒட்டுமொத்த செயல்திறனைப் பொறுத்தவரை, o1, சீன மாடலின் 71.38 உடன் ஒப்பிடும்போது 75.67 என்ற உலகளாவிய சராசரி மதிப்பெண்ணுடன் R1-ஐ முந்திச் செல்கிறது. OpenAI-ன் o1, அதன் போட்டியாளரைவிட கிட்டத்தட்ட ஒன்பது புள்ளிகள் முன்னிலையுடன் பகுத்தறிவு பணிகளில் தொடர்ந்து சிறப்பாக செயல்படுகிறது. இது சிக்கலான சிக்கல் தீர்க்கும் தன்மை கொண்டதாக உள்ளது. வேறுபட்ட சிந்தனை மற்றும் மொழி தொடர்பான பணிகளுக்கு ஒரு சிறந்த தேர்வாக அமைகிறது.
குறியீட்டு முறை, கணிதம் மற்றும் தரவு பகுப்பாய்வு ஆகியவற்றைப் பொறுத்தவரை, போட்டி மிகவும் இறுக்கமாக உள்ளது. குறிப்பாக, தரவு பகுப்பாய்வில், பெரிய தரவுத்தொகுப்புகளை பகுப்பாய்வு செய்வதில் R1 சிறந்தது என்பதை நிரூபிக்கிறது.
OpenAI தலைவர் ஆல்ட்மேன், DeepSeek-ன் R1 மாதிரி 'சுவாரஸ்யமாக' இருப்பதாகக் கூறுகிறார்.
Ernie போலல்லாமல், இந்த முறை, சீன தணிக்கையின் யதார்த்தம் இருந்தபோதிலும், DeepSeek-ன் R1 உலகளவில் பிரபலமடைந்துள்ளது. இது ஏற்கனவே ChatGPT, Gemini மற்றும் Claude போன்ற முக்கிய போட்டியாளர்களை விஞ்சி அமெரிக்காவில் முதலிடத்தில் பதிவிறக்கம் செய்யப்பட்ட செயலியாக மாறியுள்ளது. (இந்தியாவில், DeepSeek உற்பத்தித்திறனில் மூன்றாவது இடத்தில் உள்ளது, அதைத் தொடர்ந்து Gmail மற்றும் ChatGPT பயன்பாடுகள் உள்ளன.) இந்த அபரிமிதமான உயர்வு, AI சமூகம் R1-ன் மலிவு மற்றும் செயல்திறன் வாக்குறுதியை எவ்வளவு விரைவாக ஏற்றுக்கொள்கிறது என்பதை எடுத்துக்காட்டுகிறது.
சிறிய மாதிரிகள் உயர்கின்றன
OpenAI-ன் o4 சந்தையில் அதிநவீன AI மாதிரியாகத் தொடர்ந்தாலும், மற்ற மாதிரிகள் சூப்பர் நுண்ணறிவை உருவாக்குவதில் முன்னணியில் இருப்பது காலத்தின் விஷயம் மட்டுமே.
DeepSeek, அதன் வடிகட்டுதல் செயல்முறை மூலம், பெரிய மாதிரிகளின் பகுத்தறிவு முறைகளை சிறிய மாதிரிகளுக்கு திறம்பட மாற்ற முடியும் என்பதைக் காட்டுகிறது. இதன் பொருள், கணக்கீட்டு ரீதியாக விலை உயர்ந்ததாக இருக்கும் வலுவூட்டல் கற்றல் (RL)-ஐப் பயன்படுத்தி புதிதாக சிறிய மாதிரிகளுக்கு பயிற்சி அளிப்பதற்குப் பதிலாக, ஒரு பெரிய மாதிரியால் பெறப்பட்ட அறிவு மற்றும் பகுத்தறிவு திறன்களை சிறிய மாதிரிகளுக்கு மாற்ற முடியும். இதன் விளைவாக சிறந்த செயல்திறன் கிடைக்கும்.
DeepSeek அதன் தொழில்நுட்ப ஆய்வறிக்கையில், தேர்வு செய்தல் (distillation) மாதிரிகளின் செயல்திறனை பெரிய அளவிலான RL-ஐப் பயன்படுத்தி பயிற்சி பெற்ற மாதிரிகளுடன் ஒப்பிடுகிறது. தேர்வு செய்தல் இல்லாமல் பெரிய அளவிலான RL உடன் பயிற்சிபெற்ற சிறிய மாதிரிகளைவிட வடிகட்டுதல் மாதிரிகள் சிறப்பாக செயல்பட்டதாக முடிவுகள் குறிப்பிடுகின்றன. குறிப்பாக, பெரிய அளவிலான RL உடன் பயிற்சிபெற்ற 32 பில்லியன் அளவுரு அடிப்படை மாதிரி QwQ-32B-Preview உடன் இணையான செயல்திறனை அடைந்தது. அதே நேரத்தில் தேர்வு செய்தல் பதிப்பான DeepSeek-R1-Distill-Qwen-32B, அனைத்து வரையறைகளிலும் கணிசமாக சிறப்பாக செயல்பட்டது. (Qwen என்பது Alibaba Cloud-ல் உள்ள LLM குடும்பத்தின் ஒரு பகுதியாகும்.)
இதன் பொருள் AI செயலாக்கம் மூலத்திற்கு அருகில் செல்லக்கூடும். பெரிய மைய தரவு மையங்களுக்கான தேவையைக் குறைத்து AI உள்கட்டமைப்பு நிறுவனங்கள் செயல்படும் விதத்தை மாற்றும்.
AI இனத்தின் எதிர்காலம்
சிறிய மாதிரிகள் சிறப்பாகச் செயல்பட தேர்வு செய்தல் உதவும். ஆனால், அதற்கு வரம்புகள் உள்ளன. ஒரு பெரிய "ஆசிரியர்" மாதிரியை அடிப்படையாகக் கொண்ட ஒரு தேர்வு செய்தல் மாதிரி, அதே வரம்புகளைப் பகிர்ந்து கொள்ளும். மேலும், தேர்வு செய்த மாதிரிகள் பெரிய மாதிரியின் திறன்கள் அல்லது விவரங்களுடன் முழுமையாகப் பொருந்தாமல் போகலாம். இது சிக்கலான பணிகளில் அவற்றைக் குறைவான செயல்திறன் கொண்டதாக மாற்றக்கூடும்.
ஏற்கனவே உள்ள அறிவை மாற்றுவதற்கு தேர்வு செய்தல் ஒரு பயனுள்ள கருவியாக இருந்தாலும், AI-ல் ஒரு பெரிய முன்னுதாரண மாற்றத்திற்கான பாதையாக இது இருக்காது. அதாவது, நிறுவனங்கள் மிகவும் சக்திவாய்ந்த, அறிவார்ந்த மாதிரிகளை உருவாக்கும்போது GPU-களுக்கான தேவை அதிகரிக்கும்.
DeepSeek-ன் R1 மற்றும் OpenAI' o1 ஆகியவை உண்மையில் செயல்படும் முதல் பகுத்தறிவு மாதிரிகள். மேலும், R1 என்பது பகுத்தறிவுக்கு RL-ஐப் பயன்படுத்துவதற்கான முதல் வெற்றிகரமான சோதனை ஆகும். இங்கிருந்து, பயிற்சி, சோதனைகளை இயக்குதல் மற்றும் முகவர்களை உருவாக்குவதற்கான மேம்பட்ட முறைகளை ஆராய்வதற்கு அதிக கணினி சக்தி தேவைப்படும். செயல்திறனை மேம்படுத்த கணினியைப் பயன்படுத்த பல வழிகள் உள்ளன. மேலும், தற்போது, அமெரிக்க நிறுவனங்கள் இதைச் செய்ய சிறந்த நிலையில் உள்ளன. ஏனெனில், அவை பெரிய செயல்பாடுகள் மற்றும் வலுவான சில்லுகளுக்கான (chips) அணுகலைக் கொண்டுள்ளன.