प्रौद्योगिकी साझेदारी

भाषाप्रतिरूपविकासः एनएलपीतः एलएलएमपर्यन्तं यात्रा

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

कृत्रिमबुद्धेः विशाले ब्रह्माण्डे प्राकृतिकभाषासंसाधनं (NLP) सर्वदा आव्हानैः अवसरैः च परिपूर्णः क्षेत्रः एव अस्ति । यथा यथा प्रौद्योगिक्याः विकासः भवति तथा तथा वयं पारम्परिकनियमात्, सांख्यिकीययन्त्रशिक्षणपर्यन्तं, गहनशिक्षणपर्यन्तं, पूर्वप्रशिक्षितप्रतिमानपर्यन्तं च विकासं दृष्टवन्तः। अद्य वयं बृहत्भाषाप्रतिमानानाम् (LLMs) दहलीजस्य उपरि तिष्ठामः, ये यन्त्रैः सह संवादस्य मार्गं पुनः परिभाषयन्ति । अयं लेखः एलएलएम इत्यस्य विकास-इतिहासस्य, तकनीकी-मार्गचित्रस्य, भावि-एआइ-क्षेत्रे प्रभावस्य च विषये गहनतया ज्ञास्यति ।

आमुख

प्राकृतिकभाषासंसाधनस्य (NLP) लक्ष्यं यन्त्राणि मानवभाषां अवगन्तुं, व्याख्यातुं, जनयितुं च समर्थाः भवेयुः । अस्य क्षेत्रस्य विकासः अनेकाः महत्त्वपूर्णाः चरणाः गतः, येषु प्रत्येकं भाषाबोधस्य गभीरतायां कूर्दनं चिह्नितवान् । प्रारम्भिकनियमाधारितप्रणालीभ्यः आरभ्य सांख्यिकीयशिक्षणविधिपर्यन्तं, गहनशिक्षणप्रतिमानपर्यन्तं, अद्यतनबृहत्भाषाप्रतिमानपर्यन्तं (LLM) प्रत्येकं सोपानं पूर्वपदस्य पारगमनम् अस्ति
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

नियमात् सांख्यिकीपर्यन्तं : एनएलपी-मध्ये प्रारम्भिकाः अन्वेषणाः

नियम चरण (१९५६-१९९२) २.

एनएलपी इत्यस्य आरम्भिकाले भाषासंसाधार्थं शोधकर्तृभिः हस्तलिखितनियमानां उपरि अवलम्बितम् आसीत् । अस्मिन् स्तरे प्रौद्योगिकी-स्टैक्-मध्ये परिमित-स्थिति-यन्त्राणि, नियम-आधारित-प्रणाली च सन्ति । यथा, एपर्टियमः नियमाधारितः यन्त्रानुवादप्रणाली अस्ति, या दर्शयति यत् प्रारम्भिकाः शोधकाः शब्दकोशान् हस्तचलितरूपेण व्यवस्थित्य नियमलेखनेन च भाषाणां स्वचालितं अनुवादं कथं प्राप्तुं शक्नुवन्ति
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

सांख्यिकीय यन्त्रशिक्षण चरण (1993-2012)

कालान्तरे शोधकर्तारः सांख्यिकीयशिक्षणविधिषु मुखं कर्तुं आरब्धवन्तः, यत्र समर्थनसदिशयन्त्राणि (SVM), गुप्तमार्कोवप्रतिरूपाः (HMM), अधिकतमएन्ट्रोपीप्रतिरूपाः (MaxEnt), सशर्त यादृच्छिकक्षेत्राणि (CRF) इत्यादीनां साधनानां उपयोगः कृतः अस्य चरणस्य विशेषता अस्ति यत् हस्तलिखितनियमात् स्वयमेव दत्तांशतः ज्ञानं शिक्षमाणानां यन्त्राणां कृते संक्रमणं चिह्नितं भवति
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

गहनशिक्षणस्य सफलताः : नूतनयुगस्य उद्घाटनम्

गहनशिक्षण अवस्था (२०१३-२०१८) २.

गहनशिक्षणस्य उद्भवेन एनएलपी-क्षेत्रे क्रान्तिकारी परिवर्तनं जातम् । Encoder-Decoder, Long Short-Term Memory Network (LSTM), Attention तथा Embedding इत्यनेन प्रतिनिधित्वं कृतानि प्रौद्योगिकयः मॉडलं प्रायः कोऽपि प्रयासं विना बृहत्तराणि आँकडा-समूहान् नियन्त्रयितुं समर्थयन्ति गूगलस्य तंत्रिकायन्त्रानुवादप्रणाली (२०१६) अस्य चरणस्य प्रतिनिधिकार्यम् अस्ति ।
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

पूर्वप्रशिक्षितप्रतिमानानाम् उदयः : ज्ञानस्य स्वयमेव आविष्कारः

प्रशिक्षणपूर्व चरण (२०१८-२०२२) २.

पूर्वप्रशिक्षितानां आदर्शानां उद्भवः एनएलपी-क्षेत्रे अन्यत् कूर्दनं चिह्नयति । कोररूपेण ट्रांसफॉर्मर तथा ध्यानतन्त्रेण सह प्रौद्योगिकी-ढेरः स्व-निरीक्षित-शिक्षणस्य कृते विशाल-अलेबल-दत्तांशं संयोजयति, सामान्यज्ञानं जनयति, ततः सूक्ष्म-समायोजनद्वारा विशिष्ट-कार्यस्य अनुकूलतां करोति अस्य चरणस्य परिवर्तनशीलता अतीव अधिका अस्ति यतोहि एतत् लेबलयुक्तदत्तांशतः अलेबलदत्तांशपर्यन्तं उपलब्धदत्तांशस्य परिधिं विस्तारयति ।
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

एलएलएमस्य नूतनः युगः : बुद्धिः बहुमुख्यतायाः च संलयनम्

एल एल एम चरण (२०२३-?) २.

एलएलएम भाषाप्रतिमानानाम् नवीनतमविकासस्य प्रतिनिधित्वं करोति, ये सामान्यतया ट्रान्सफॉर्मर तथा सुदृढीकरणशिक्षण मानवप्रतिक्रिया (RLHF) इत्यनेन सह संयुक्तं डिकोडर-आधारितं वास्तुकला स्वीकुर्वन्ति अस्य चरणस्य लक्षणं द्विचरणीयप्रक्रिया अस्ति : पूर्वप्रशिक्षणं मनुष्यैः सह संरेखणं च । पूर्व-प्रशिक्षण-चरणं स्व-निरीक्षित-शिक्षणस्य माध्यमेन ज्ञानं जनयितुं विशाल-अलेबल-दत्तांशस्य डोमेन-दत्तांशस्य च उपयोगं करोति;
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
विकासस्य विभिन्नानि चरणानि पश्चात् पश्यन् वयं निम्नलिखितप्रवृत्तयः द्रष्टुं शक्नुमः ।

दत्तांशः - दत्तांशतः ज्ञानपर्यन्तं अधिकाधिकं दत्तांशस्य उपयोगः क्रियते/भविष्य:अधिकं पाठदत्तांशः, अधिकः अन्यरूपदत्तांशः→कोऽपि दत्तांशः
एल्गोरिदम् : अभिव्यक्तिक्षमता अधिकाधिकं प्रबलं भवति तथा च स्वतन्त्रशिक्षणक्षमता व्यावसायिकात् सामान्यपर्यन्तं प्रबलं भवति;भविष्य:ट्रांसफॉर्मर सम्प्रति पर्याप्तम् अस्ति, नूतनं प्रतिरूपं (शिक्षणदक्षतायाः उपरि बलं दातव्यम्)?→AGI?
मानव-यन्त्रसम्बन्धः : पश्चात् गमनम्, प्रशिक्षकात् पर्यवेक्षकपर्यन्तं/भविष्य:मानव-यन्त्रसहकार्यं, मनुष्येभ्यः यन्त्रशिक्षणम्→यन्त्रेभ्यः मानवशिक्षणम्?→यन्त्राणि मानवज्ञानस्य सीमां विस्तारयन्ति

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

एलएलएम प्रौद्योगिकी विकासमार्गः विविधमार्गाः

विगतकेषु वर्षेषु एलएलएम-प्रौद्योगिक्याः विकासेन विविधाः मार्गाः दर्शिताः, येषु BERT मोड्, GPT मोड्, T5 मोड् इत्यादयः सन्ति । प्रत्येकस्य गुणस्य स्वकीयाः लक्षणानि, प्रयोज्यपरिदृश्यानि च सन्ति ।
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

BERT मोड (केवल एन्कोडर) २.

BERT मॉडल द्विदिशाभाषाप्रतिरूपपूर्वप्रशिक्षणस्य कार्यसूक्ष्म-समायोजनस्य (द्वि-दिशात्मकभाषाप्रतिरूपपूर्वप्रशिक्षण + कार्यसूक्ष्म-ट्यूनिङ्ग) इत्यस्य द्विचरणीयप्रक्रियायाः माध्यमेन प्राकृतिकभाषाबोधकार्यस्य कृते उपयुक्तः अस्ति BERT पूर्व-प्रशिक्षणं सामान्यदत्तांशतः सामान्यज्ञानं निष्कासयति, यदा तु सूक्ष्म-समायोजनेन डोमेनदत्तांशतः डोमेनज्ञानं निष्कासयति ।
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
उपयुक्ताः कार्यपरिदृश्याः : प्राकृतिकभाषाबोधाय अधिकं उपयुक्ताः, कस्मिन्चित् परिदृश्ये विशिष्टानि कार्याणि, विशेषाणि हल्कानि च;
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

GPT मोड (Decoder-Only) २.

GPT मोडः एकदिशाभाषाप्रतिरूपपूर्वप्रशिक्षणात् तथा शून्यशॉट्/कतिशॉटशॉटप्रोम्प्ट् अथवा निर्देशात् (एकदिशाभाषाप्रतिरूपपूर्वप्रशिक्षणं + शून्यशॉट्/कतिपयशॉटप्रोम्प्ट्/इन्स्ट्रक्ट्) प्रक्रियातः विकसितः अस्ति, तथा च प्राकृतिकस्य कृते उपयुक्तः अस्ति भाषा जननम् । GPT-मोड् मॉडल् सामान्यतया उपलब्धाः बृहत्तमाः LLMs भवन्ति, ते च कार्याणां विस्तृतपरिधिं सम्भालितुं शक्नुवन्ति ।
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
प्रयोज्य परिदृश्याः: प्राकृतिकभाषाजननकार्यस्य कृते अधिकं उपयुक्ताः वर्तमानकाले, बृहत्तमाः LLMs सर्वे अस्मिन् मोडे सन्ति: GPT श्रृङ्खला, PaLM, LaMDA..., पुनरावृत्तिः, GPT मोडः जननकार्यस्य/सामान्यप्रतिमानस्य कृते अनुशंसितः अस्ति
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

T5 मोड (एन्कोडर-डिकोडर) 1.1.

T5 मोड् BERT तथा GPT इत्येतयोः लक्षणयोः संयोजनं करोति तथा च कार्याणां जनरेशनस्य अवगमनस्य च कृते उपयुक्तः अस्ति । T5 मोड् रिक्तस्थानं पूरयितुं (Span Corruption) एकः प्रभावी पूर्व-प्रशिक्षण-विधिः अस्ति या प्राकृतिकभाषा-अवगमन-कार्येषु उत्तमं प्रदर्शनं करोति । द्वौ चरणौ (एकदिशा भाषाप्रतिरूपपूर्वप्रशिक्षणम् + मुख्यतया सूक्ष्म-समायोजनम्)
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
विशेषताः : GPT इव दृश्यते, Bert इव दृश्यते
प्रयोज्य परिदृश्याः : प्रभावस्य दृष्ट्या प्राकृतिकभाषाबोधकार्यस्य कृते इदं अधिकं उपयुक्तं भवति यदि एतत् एकस्मिन् क्षेत्रे प्राकृतिकभाषाबोधकार्यं भवति , T5 मोड् इत्यस्य उपयोगः अनुशंसितः अस्ति;
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

अतीव बृहत् LLMs GPT मोड् मध्ये किमर्थम् अस्ति ?

सुपर एलएलएम: शून्यशॉट्/कतिपयशॉट्/निर्देशप्रभावानाम् अनुसरणं कुर्वन्
वर्तमान शोधनिष्कर्षाः

(यदा आदर्शस्य आकारः लघुः भवति):

  • प्राकृतिकभाषाबोधवर्गः : T5 मोडः सर्वोत्तमरूपेण कार्यं करोति ।
  • प्राकृतिकभाषाजननवर्गः : GPT मोडः सर्वोत्तमरूपेण कार्यं करोति ।
  • शून्यशॉट् : GPT मोड् सर्वोत्तमरूपेण कार्यं करोति ।
    यदि Pretrain इत्यस्य अनन्तरं बहु-कार्य-सूक्ष्म-समायोजनं प्रवर्तते तर्हि T5-विधिः उत्तमं कार्यं करिष्यति (निष्कर्षः संदिग्धः अस्ति: वर्तमान-प्रयोगात्मके Encoder-Decoder-इत्यस्मिन् केवलं Decoder-मात्राणां संख्यायाः द्विगुणाः सन्ति । किं निष्कर्षः विश्वसनीयः अस्ति?)

वर्तमान शोधनिष्कर्षाः (अतिबृहत्परिमाणेन) : १.
तथ्यम् : 100B तः अधिकानि प्रायः सर्वे LLM मॉडल् GPT मोड् स्वीकुर्वन्ति

सम्भाव्यकारणम् : १.
1. Encoder-Decoder इत्यस्मिन् द्विदिशात्मकं ध्यानं शून्यशॉटक्षमतायाः क्षतिं करोति (Check)
2. Encoder-Decoder संरचना केवलं Token जननसमये उच्चस्तरीय Encoder प्रति ध्यानं दातुं शक्नोति केवलं Decoder-संरचना Token जननसमये स्तर-स्तरं ध्यानं दातुं शक्नोति, तथा च सूचना अधिका सूक्ष्मकणिका भवति
3. एन्कोडर-डिकोडर "रिक्तस्थानानि पूरयन्तु" इति प्रशिक्षयति तथा च अन्तिमशब्दं जनयति Next Token असङ्गतिः अस्ति Decoder-only structure training and generation methods are consistent.

अत्यन्तं विशालानां एलएलएम-संस्थानां चुनौतीः अवसराः च

यथा यथा आदर्शस्य आकारः वर्धते तथा तथा शोधकर्तारः पैरामीटर्-स्थानस्य प्रभावीरूपेण उपयोगः कथं करणीयः इति आव्हानस्य सम्मुखीभवन्ति । चिन्चिल्ला-माडलस्य विषये शोधं दर्शयति यत् यदा दत्तांशः पर्याप्तः भवति तदा वर्तमान-एलएलएम-परिमाणः आदर्श-परिमाणात् बृहत्तरः भवितुम् अर्हति, तथा च पैरामीटर्-स्थानस्य अपव्ययः भवति तथापि, स्केलिंग-नियमः एतदपि दर्शयति यत् आदर्श-परिमाणं यावत् बृहत् भवति तावत् अधिकानि आँकडानि सन्ति , तथा च प्रशिक्षणं यथा अधिकं पर्याप्तं भवति तथा एलएलएम-प्रतिरूपस्य प्रभावः उत्तमः भवति। अधिकः व्यवहार्यः विचारः अस्ति यत्: प्रथमं लघु कुर्वन्तु (GPT 3 एतावत् विशालं न भवेत्), ततः बृहत् कुर्वन्तु (मॉडल-मापदण्डानां पूर्णं उपयोगं कुर्वन्तु, ततः बृहत्तरं कर्तुं निरन्तरं कुर्वन्तु)।
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

अवश्यं, बहुविध-एलएलएम-इत्यस्य समृद्धतर-वास्तविक-विश्व-वातावरण-बोध-क्षमतानां आवश्यकता भवति इति दृष्ट्वा, एलएलएम-मापदण्डानां कृते अपि अधिकानि आवश्यकतानि अग्रे स्थापयति
बहुविध LLM: दृश्यनिवेशः (चित्रं, विडियो), श्रवणनिवेशः (श्रव्यः), स्पर्शनिवेशः (दबावः)
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
समस्यानां सम्मुखीभवन्: बहुविधा LLM बहु उत्तमं दृश्यते, तथा च मैन्युअल् रूपेण संगठितविशालदत्तांशसमूहेषु बहुधा निर्भरं भवति ।

उदाहरणार्थं, ALIGN: 1.8B ग्राफिक्स् तथा पाठः/LAION: 5.8B ग्राफिक्स् तथा पाठदत्तांशः (CLIP द्वारा छानितः, वर्तमानकाले बृहत्तमः ग्राफिक्स् तथा पाठदत्तांशः) वर्तमानकाले उड्डयनेन चित्रैः सह पाठः अस्ति?

चित्रसंसाधनम्: स्व-निरीक्षण-तकनीकी-मार्गस्य प्रयासः क्रियते, परन्तु सः अद्यापि सफलः न अभवत् (तुलनात्मक-शिक्षणम्/MAE)/यदि सफलतया प्राप्तुं शक्यते तर्हि एआइ-क्षेत्रे अन्यत् विशालं प्रौद्योगिकी-सफलता भविष्यति

यदि तस्य समाधानं कर्तुं शक्यते तर्हि केचन वर्तमानप्रतिबिम्बबोधकार्यं (शब्दार्थविभाजनम्/परिचयः इत्यादयः) एलएलएम-मध्ये एकीकृत्य अन्तर्धानं भवितुं अपेक्षितम्

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

LLM इत्यस्य जटिलतर्कक्षमतासु सुधारं कुर्वन्तु

यद्यपि वर्तमान एलएलएम इत्यस्य कतिपयानि सरलतर्कक्षमतानि सन्ति तथापि जटिलतर्कस्य दोषाः सन्ति । यथा, बहु-अङ्कीय-संयोजनम् इत्यादीनि कार्याणि एलएलएम-कृते आव्हानं एव तिष्ठन्ति । शब्दार्थविघटन इत्यादिभिः तकनीकीसाधनैः जटिलतर्कक्षमतां लघुप्रतिरूपेषु कथं आस्वादयितुं शक्यते इति शोधकर्तारः अन्वेषणं कुर्वन्ति ।
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
अवश्यं, क्षमता-आउटसोर्सिंग्-माध्यमेन अपि एतां समस्यां परिहर्तुं शक्यते, यथा साधनैः सह संयोजनम्: कम्प्यूटिंग्-शक्तिः (बाह्य-गणकयंत्रम्), नूतन-सूचना-प्रश्नं (सर्च-इञ्जिन्) इत्यादयः क्षमताः बाह्य-उपकरणानाम् साहाय्येन सम्पन्नाः भवन्ति
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

एलएलएम भौतिकजगत्योः मध्ये अन्तरक्रिया

मूर्तबुद्धेः अवधारणा एलएलएम-इत्यस्य रोबोटिक्स-सहितं संयोजनं करोति तथा च भौतिकजगत् सह अन्तरक्रियाद्वारा मूर्तबुद्धिप्राप्त्यर्थं सुदृढीकरणशिक्षणस्य उपयोगं करोति . यथा, गूगलस्य PaLM-E मॉडल् 540B PaLM तथा 22B ViT इत्येतयोः संयोजनं करोति, बहुविधवातावरणे LLM इत्यस्य क्षमतां प्रदर्शयति ।
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

अन्ये शोधनिर्देशाः

  1. नवीनज्ञानस्य प्राप्तिः : सम्प्रति कतिपयानि कष्टानि सन्ति, परन्तु केचन पद्धतयः अपि सन्ति (LLM+Retrieval)
  2. पुरातनज्ञानस्य सुधारः : सम्प्रति केचन शोधपरिणामाः सन्ति येषां अनुकूलनं अद्यापि आवश्यकम् अस्ति
  3. निजीक्षेत्रज्ञानस्य एकीकरणम् : सूक्ष्म-समायोजनम् ?
  4. आदेशानां उत्तमबोधः: अद्यापि अनुकूलनस्य आवश्यकता अस्ति (गम्भीर बकवासः)
  5. प्रशिक्षणानुमानव्ययस्य न्यूनता : आगामिषु एकवर्षद्वयेषु द्रुतविकासः
  6. चीनी मूल्याङ्कनदत्तांशसमूहस्य निर्माणम् : क्षमतायाः एकः लिटमसपरीक्षा। सम्प्रति आङ्ग्लभाषायां केचन मूल्याङ्कनसमूहाः सन्ति, यथा HELM/BigBench इत्यादयः, परन्तु चीनीभाषायां / बहु-कार्य, उच्च-कठिनता, बहु-कोण-मूल्यांकन-दत्तांशसमूहानां अभावः अस्ति

निगमन

अयं लेखः विकासस्य इतिहासस्य, तकनीकीमार्गचित्रस्य, एलएलएमस्य भावि-एआइ-क्षेत्रे तेषां प्रभावस्य च गहनतया अन्वेषणं करोति । एलएलएम-विकासः न केवलं प्रौद्योगिकी-उन्नतिः, अपितु अस्माकं यन्त्र-अवगमन-क्षमतायाः गहनं प्रतिबिम्बम् अपि अस्ति । नियमात् आरभ्य सांख्यिकीपर्यन्तं गहनशिक्षणं पूर्वप्रशिक्षणं च प्रत्येकं पदं अस्मान् नूतनानि दृष्टिकोणानि साधनानि च प्रदाति। अद्य वयं बृहत्-स्तरीय-भाषा-प्रतिमानानाम् एकस्य नूतन-युगस्य दहलीजस्य उपरि तिष्ठामः, अपूर्व-अवकाशानां, आव्हानानां च सम्मुखीभवन्तः |.