प्रौद्योगिकी साझेदारी

notes for datawhale द्वितीयं ग्रीष्मकालीनशिबिर एनएलपी कार्यम्1

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

//मया एतत् टिप्पणं obsidian इत्यनेन लिखित्वा अत्र प्रतिलिपितम्। अस्मिन् टिप्पण्यां विचित्रं प्रारूपं ओब्सिडियनप्लगिन्स् इत्यस्य अभावात् अस्ति ।


टैग्स् : १.

  • ऐ-अध्ययनम्
  • एम.एल
    स्थितिः कृता

लक्ष्य: आधाररेखायाः माध्यमेन चालयन्तु, एनएलपी-प्रतिरूपस्य समस्यानिराकरणप्रक्रियायाः अनुभवं कुर्वन्तु, मूलतः प्रतियोगिताप्रश्नानां आवश्यकताः अवगच्छन्तु, प्रतियोगितापरिदृश्यं च अवगच्छन्तु
कठिनता:अति न्यूनम्
अनुशंसितपदार्थाः : १.

  1. दस्तावेजानुसारं प्रस्तुत्य प्रथमं अंकं प्राप्नुवन्तु
  2. प्रतियोगिताप्रश्नानां प्रस्तुतीकरणस्य प्रारूपं अवगच्छन्तु
  3. आदर्शप्रशिक्षणसम्बद्धाः आँकडास्वरूपाः
  4. प्रथमं स्कोरं पश्यन्तु, टिप्पणीं लिखितुं प्रयतन्ते च

कार्य1 ज्ञानं दस्तावेजाः क्लिक् कुर्वन्तु - Feishu Cloud Documents (feishu.cn)

संक्षिप्त इतिहास एम.एल

यन्त्रानुवादः (MT) प्राकृतिकभाषासंसाधनक्षेत्रे महत्त्वपूर्णा शाखा अस्ति अस्य लक्ष्यं...एकस्मात् भाषातः पाठं अन्यभाषायां पाठं प्रति स्वयमेव परिवर्तयन्तु

यन्त्रानुवादविधिः नियमाधारितः -> सांख्यिकी-आधारितः -> गहनशिक्षणम्
नियम-प्रेरित->दत्तांश-चालित->बुद्धिमान् चालकः

नियमाधारित यन्त्रानुवाद (१९५०-१९८० दशक) २.: प्रारम्भिकाः यन्त्रानुवादप्रणाल्याः मुख्यतया नियमाधारिताः पद्धतयः अर्थात् उपयोगःअनुवादार्थं भाषाविदैः लिखिताः व्याकरणनियमाः शब्दकोशाः च .अस्याः पद्धत्याः कृते स्रोतभाषायाः लक्ष्यभाषायाः च व्याकरणस्य शब्दावलीयाः च गहनबोधः आवश्यकः भवति, परन्तु सा न्यूनतया लचीलः अनुकूलः च भवति, येन जटिलभाषासंरचनानां बहुशब्दसमस्यानां च निवारणं कठिनं भवति

सांख्यिकी-आधारित यन्त्रानुवाद (१९९०-२००० दशक) २. : सङ्गणकस्य कार्यक्षमतायाः उन्नयनेन, बृहत्-प्रमाणेन समानान्तर-निगमस्य उद्भवेन च सांख्यिकीय-यन्त्र-अनुवादस्य उदयः आरब्धः अस्ति ।एषः विधिःद्विभाषिकपाठस्य बृहत् परिमाणं विश्लेषणं कृत्वा स्रोतभाषायाः लक्ष्यभाषायाः च पत्राचारं स्वयमेव ज्ञातव्यम् , तेन अनुवादस्य साक्षात्कारः । सांख्यिकीययन्त्रानुवादेन बहुवचनस्य भाषाविविधतायाः च नियन्त्रणे उत्तमपरिणामः दर्शितः, परन्तु प्रशिक्षणदत्तांशस्य बृहत्मात्रायां निर्भरतायाः कारणात् संसाधन-दरिद्रभाषाणां कृते अपर्याप्तसमर्थनम् अस्ति

तंत्रिकाजालस्य आधारेण यन्त्रानुवादः (२०१०-अधुना) : यन्त्रानुवादकार्य्येषु तंत्रिकाजालविधिनाम् अनुप्रयोगः १९८० तमे १९९० तमे दशके यावत् ज्ञातुं शक्यते । परन्तु तत्कालीनगणनासंसाधनानाम्, दत्तांशपरिमाणस्य च सीमायाः कारणात् तंत्रिकाजालपद्धतेः कार्यक्षमता असन्तोषजनकं आसीत्, अतः तस्य विकासः बहुवर्षपर्यन्तं स्थगितवान् अन्तिमेषु वर्षेषु गहनशिक्षणप्रौद्योगिक्याः तीव्रविकासेन तंत्रिकायन्त्रानुवादस्य (NMT) उदयः प्रवर्धितः । एनएमटी गहनेषु तंत्रिकाजालप्रतिमानानाम् उपयोगं करोति यथा...दीर्घकालीन-अल्पकालिक-स्मृति-जालम् (LSTM) तथा Transformer इति , स्वयमेव स्रोतभाषायाः लक्ष्यभाषायाश्च मध्ये जटिलं मानचित्रणसम्बन्धं ज्ञातुं शक्नोति, विशेषतां वा नियमं वा मैन्युअल् रूपेण परिकल्पयित्वा । एनएमटी अनुवादस्य गुणवत्तायां, वेगे, अनुकूलतायां च महती प्रगतिम् अकरोत्, वर्तमानकाले यन्त्रानुवादस्य क्षेत्रे मुख्यधारापद्धतिः अभवत् ।

दत्तांशविभाजनम्

यन्त्रशिक्षणं गहनशिक्षणपरियोजनासु च आँकडासमूहः प्रायः त्रयः भागाः विभक्तः भवति : प्रशिक्षणसमूहः (प्रशिक्षणसमूहः), विकाससमूहः (विकाससमूहः, यः प्रायः सत्यापनसमूहः, प्रमाणीकरणसमूहः इति अपि कथ्यते) तथा परीक्षणसमूहः (परीक्षासमूहः)

प्रशिक्षणसमूहः, प्रशिक्षणप्रतिरूपः
विकासः सेट् यत् मॉडल् प्रशिक्षणसेट् मध्ये अतिफिटिङ्ग् न भवति
सेट् परीक्षणं कुर्वन्तु, वास्तविकदत्तांशस्य अनुकरणं कुर्वन्तु, प्रभावस्य जाँचं कुर्वन्तु

प्रतियोगिता प्रश्न विश्लेषण

घटना पृष्ठभूमि

सम्प्रतितंत्रिका यन्त्र अनुवादप्रौद्योगिक्याः महतीः सफलताः प्राप्ताः, परन्तु...कतिपयक्षेत्रेषु उद्योगेषु वा अनुवादप्रभावः आदर्शः नास्ति यतोहि यन्त्रानुवादस्य कृते शब्दावलीनां स्थिरतां सुनिश्चित्य कठिनं भवति । .शब्दावली, जनानां स्थानानां च नाम इत्यादिषु अशुद्धयन्त्रानुवादपरिणामानां कृते भवान् शक्नोतिशब्दावलीकोशस्य माध्यमेन सम्यक्, भ्रमम् अथवा अस्पष्टतां परिहरन् अनुवादस्य गुणवत्तां अधिकतमं कृत्वा।

घटना कार्याणि

शब्दावली शब्दकोश हस्तक्षेप आधारित मशीन अनुवाद चुनौती स्रोतभाषा आङ्ग्लभाषा, लक्ष्यभाषा च चीनीभाषां च कृत्वा यन्त्रानुवादं चिनोतु। आङ्ग्लतः चीनीभाषायाः द्विभाषिकदत्तांशस्य अतिरिक्तं अस्मिन् स्पर्धायां आङ्ग्ल-चीनी-पदार्थकोशः अपि प्राप्यते ।सहभागी दलानाम् आधारेण प्रदत्तानां प्रशिक्षणदत्तांशनमूनानां आरम्भस्य आवश्यकता वर्ततेबहुभाषिकयन्त्रानुवादप्रतिमानानाम् निर्माणं प्रशिक्षणं च, तथा च परीक्षणसमूहानां पदकोशानां च आधारेण अन्तिमअनुवादपरिणामान् प्रदातुं

//RAG🤗

प्रतियोगिता दत्तांश

  • प्रशिक्षणसमूहः : द्विभाषिकदत्तांशः - चीनीभाषायां आङ्ग्लभाषायां च १४०,००० तः अधिकाः द्विभाषिकवाक्ययुग्माः
  • विकाससमूहः १००० आङ्ग्ल-चीनी द्विभाषी वाक्ययुग्मानि
  • परीक्षणसमूहः १००० आङ्ग्ल-चीनी द्विभाषिकवाक्ययुग्मानि
  • शब्दावली शब्दकोशः आङ्ग्लभाषायां चीनीभाषायां च २२२६ पदाः

[!info] 🐵

  • **प्रशिक्षणसमूहः** भवतः शिक्षण-अल्गोरिदम् चालयितुं उपयुज्यते ।
  • विकास समुच्चय पैरामीटर् समायोजयितुं, विशेषतानां चयनं कर्तुं, शिक्षण-अल्गोरिदम् विषये अन्यनिर्णयान् कर्तुं च उपयुज्यते ।कदाचित् उच्यतेhold-out क्रॉस वैलिडेशन सेट्
  • **Test set** इत्यस्य उपयोगः एल्गोरिदमस्य कार्यप्रदर्शनस्य मूल्याङ्कनार्थं भवति, परन्तु तदनुसारं शिक्षणस्य एल्गोरिदम् अथवा पैरामीटर् परिवर्तनं न करोति ।

मूल्याङ्कनसूचकाः

सहभागिदलैः प्रदत्तानां परीक्षणसमूहानां अनुवादपरिणामसञ्चिकानां कृते स्वचालितमूल्यांकनसूचकानाम् उपयोगः भवति नील-४ मूल्याङ्कनं कृत्वा विशिष्टसाधनानाम् उपयोगं कुर्वन्तुsacrebleu मुक्तस्रोतसंस्करणम्

[!info] 📘
किमस्तिनील-४ .

BLEU, पूर्णनामBilingual Evaluation Understudy(द्विभाषिकमूल्यांकनप्रतिस्थापनम्), is a生成语句निर्वहणम्‌评估的指标 . BLEU स्कोर किशोर पपिनेनी इत्याख्यस्य २००२ तमे वर्षे कृतं पत्रम् अस्ति ।《BLEU: यन्त्रानुवादस्य स्वचालितमूल्यांकनार्थं एकः विधिः》प्रस्ताविते in.

यन्त्रानुवादस्य क्षेत्रे BLEU (Bilingual Evaluation Understudy) इति मापनार्थं सामान्यतया प्रयुक्तः स्वचालितमूल्यांकनसूचकः अस्तिसङ्गणकजनितस्य अनुवादस्य सन्दर्भानुवादसमूहस्य च साम्यम् .अयं सूचकः विशेषतया ध्यानं ददातिन-ग्रामः (n क्रमशः शब्दानां) सटीकमेलनं अनुवादसटीकतायाः प्रवाहशीलतायाः च सांख्यिकीय-अनुमानरूपेण चिन्तयितुं शक्यते । BLUE स्कोरस्य गणनायां प्रथमं जनितपाठे n-ग्रामस्य आवृत्तिः गण्यते, ततः एतासां आवृत्तीनां तुलना सन्दर्भपाठे n-ग्रामैः सह क्रियते यदि उत्पन्ने अनुवादे सन्दर्भानुवादे दृश्यमानानि एव n-ग्रामाः सन्ति तर्हि तत् मेलनं मन्यते । अन्तिमः BLUE स्कोरः 0 तः 1 पर्यन्तं मूल्यं भवति, यत्र 1 सन्दर्भानुवादेन सह सम्यक् मेलनं प्रतिनिधियति तथा च 0 सर्वथा मेलनं न प्रतिनिधियति ।

नील-४ विशेषतः गणनायां चतुर्गुणानां (अर्थात् चत्वारि क्रमिकशब्दानां) मेलनं गृहीतुं निर्दिशति ।

नील मूल्याङ्कनसूचकानाम् लक्षणम् : १.

  • लाभाः : द्रुतगणनावेगः, न्यूनगणनाव्ययः, अवगन्तुं सुलभः, विशिष्टभाषायाः स्वतन्त्रः, मानवमूल्यांकनेन सह अत्यन्तं सहसंबद्धः च।
  • दोषाः : भाषाव्यञ्जनस्य (व्याकरणस्य) सटीकतायां सामान्यतया प्रयुक्तैः शब्दैः बाधा भविष्यति; युक्तियुक्तानुवादानाम् .

अनुवादस्य अतिरिक्तं गहनशिक्षणपद्धतिभिः सह संयुक्तं BLEU स्कोरिंग् अन्यभाषाजननसमस्यासु प्रयोक्तुं शक्यते, यथा: भाषाजननम्, चित्रशीर्षकजननम्, पाठसारांशीकरणं, वाक्परिचयः च।

कक्षायाः अनन्तरं विचाराः

अहम् इतः परं केवलं Magic Tower इत्यस्य उपयोगं करिष्यामि, 8GB लैपटॉप् तत् सम्भालितुं न शक्नोति।
अहं संक्षेपेण कोडं दत्तांशं च अवलोकितवान्, परन्तु अहं तत् सम्यक् न अवगच्छामि ।
अनुमानं कुरुत, अनुवादप्रक्रियायाः समये किं प्रत्येकस्य शब्दस्य कृते शब्दकोशात् अनेकाः विकल्पाः पुनः प्राप्ताः भवन्ति, यस्य च सर्वाधिकं संयोजनसंभावना भवति सः अनुवादस्य परिणामः भवति?