2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
//मया एतत् टिप्पणं obsidian इत्यनेन लिखित्वा अत्र प्रतिलिपितम्। अस्मिन् टिप्पण्यां विचित्रं प्रारूपं ओब्सिडियनप्लगिन्स् इत्यस्य अभावात् अस्ति ।
टैग्स् : १.
लक्ष्य: आधाररेखायाः माध्यमेन चालयन्तु, एनएलपी-प्रतिरूपस्य समस्यानिराकरणप्रक्रियायाः अनुभवं कुर्वन्तु, मूलतः प्रतियोगिताप्रश्नानां आवश्यकताः अवगच्छन्तु, प्रतियोगितापरिदृश्यं च अवगच्छन्तु
कठिनता:अति न्यूनम्
अनुशंसितपदार्थाः : १.
कार्य1 ज्ञानं दस्तावेजाः क्लिक् कुर्वन्तु - Feishu Cloud Documents (feishu.cn)
यन्त्रानुवादः (MT) प्राकृतिकभाषासंसाधनक्षेत्रे महत्त्वपूर्णा शाखा अस्ति अस्य लक्ष्यं...एकस्मात् भाषातः पाठं अन्यभाषायां पाठं प्रति स्वयमेव परिवर्तयन्तु
यन्त्रानुवादविधिः नियमाधारितः -> सांख्यिकी-आधारितः -> गहनशिक्षणम्
नियम-प्रेरित->दत्तांश-चालित->बुद्धिमान् चालकः
नियमाधारित यन्त्रानुवाद (१९५०-१९८० दशक) २.: प्रारम्भिकाः यन्त्रानुवादप्रणाल्याः मुख्यतया नियमाधारिताः पद्धतयः अर्थात् उपयोगःअनुवादार्थं भाषाविदैः लिखिताः व्याकरणनियमाः शब्दकोशाः च .अस्याः पद्धत्याः कृते स्रोतभाषायाः लक्ष्यभाषायाः च व्याकरणस्य शब्दावलीयाः च गहनबोधः आवश्यकः भवति, परन्तु सा न्यूनतया लचीलः अनुकूलः च भवति, येन जटिलभाषासंरचनानां बहुशब्दसमस्यानां च निवारणं कठिनं भवति
सांख्यिकी-आधारित यन्त्रानुवाद (१९९०-२००० दशक) २. : सङ्गणकस्य कार्यक्षमतायाः उन्नयनेन, बृहत्-प्रमाणेन समानान्तर-निगमस्य उद्भवेन च सांख्यिकीय-यन्त्र-अनुवादस्य उदयः आरब्धः अस्ति ।एषः विधिःद्विभाषिकपाठस्य बृहत् परिमाणं विश्लेषणं कृत्वा स्रोतभाषायाः लक्ष्यभाषायाः च पत्राचारं स्वयमेव ज्ञातव्यम् , तेन अनुवादस्य साक्षात्कारः । सांख्यिकीययन्त्रानुवादेन बहुवचनस्य भाषाविविधतायाः च नियन्त्रणे उत्तमपरिणामः दर्शितः, परन्तु प्रशिक्षणदत्तांशस्य बृहत्मात्रायां निर्भरतायाः कारणात् संसाधन-दरिद्रभाषाणां कृते अपर्याप्तसमर्थनम् अस्ति
तंत्रिकाजालस्य आधारेण यन्त्रानुवादः (२०१०-अधुना) : यन्त्रानुवादकार्य्येषु तंत्रिकाजालविधिनाम् अनुप्रयोगः १९८० तमे १९९० तमे दशके यावत् ज्ञातुं शक्यते । परन्तु तत्कालीनगणनासंसाधनानाम्, दत्तांशपरिमाणस्य च सीमायाः कारणात् तंत्रिकाजालपद्धतेः कार्यक्षमता असन्तोषजनकं आसीत्, अतः तस्य विकासः बहुवर्षपर्यन्तं स्थगितवान् अन्तिमेषु वर्षेषु गहनशिक्षणप्रौद्योगिक्याः तीव्रविकासेन तंत्रिकायन्त्रानुवादस्य (NMT) उदयः प्रवर्धितः । एनएमटी गहनेषु तंत्रिकाजालप्रतिमानानाम् उपयोगं करोति यथा...दीर्घकालीन-अल्पकालिक-स्मृति-जालम् (LSTM) तथा Transformer इति , स्वयमेव स्रोतभाषायाः लक्ष्यभाषायाश्च मध्ये जटिलं मानचित्रणसम्बन्धं ज्ञातुं शक्नोति, विशेषतां वा नियमं वा मैन्युअल् रूपेण परिकल्पयित्वा । एनएमटी अनुवादस्य गुणवत्तायां, वेगे, अनुकूलतायां च महती प्रगतिम् अकरोत्, वर्तमानकाले यन्त्रानुवादस्य क्षेत्रे मुख्यधारापद्धतिः अभवत् ।
यन्त्रशिक्षणं गहनशिक्षणपरियोजनासु च आँकडासमूहः प्रायः त्रयः भागाः विभक्तः भवति : प्रशिक्षणसमूहः (प्रशिक्षणसमूहः), विकाससमूहः (विकाससमूहः, यः प्रायः सत्यापनसमूहः, प्रमाणीकरणसमूहः इति अपि कथ्यते) तथा परीक्षणसमूहः (परीक्षासमूहः)
प्रशिक्षणसमूहः, प्रशिक्षणप्रतिरूपः
विकासः सेट् यत् मॉडल् प्रशिक्षणसेट् मध्ये अतिफिटिङ्ग् न भवति
सेट् परीक्षणं कुर्वन्तु, वास्तविकदत्तांशस्य अनुकरणं कुर्वन्तु, प्रभावस्य जाँचं कुर्वन्तु
सम्प्रतितंत्रिका यन्त्र अनुवादप्रौद्योगिक्याः महतीः सफलताः प्राप्ताः, परन्तु...कतिपयक्षेत्रेषु उद्योगेषु वा अनुवादप्रभावः आदर्शः नास्ति यतोहि यन्त्रानुवादस्य कृते शब्दावलीनां स्थिरतां सुनिश्चित्य कठिनं भवति । .शब्दावली, जनानां स्थानानां च नाम इत्यादिषु अशुद्धयन्त्रानुवादपरिणामानां कृते भवान् शक्नोतिशब्दावलीकोशस्य माध्यमेन सम्यक्, भ्रमम् अथवा अस्पष्टतां परिहरन् अनुवादस्य गुणवत्तां अधिकतमं कृत्वा।
शब्दावली शब्दकोश हस्तक्षेप आधारित मशीन अनुवाद चुनौती स्रोतभाषा आङ्ग्लभाषा, लक्ष्यभाषा च चीनीभाषां च कृत्वा यन्त्रानुवादं चिनोतु। आङ्ग्लतः चीनीभाषायाः द्विभाषिकदत्तांशस्य अतिरिक्तं अस्मिन् स्पर्धायां आङ्ग्ल-चीनी-पदार्थकोशः अपि प्राप्यते ।सहभागी दलानाम् आधारेण प्रदत्तानां प्रशिक्षणदत्तांशनमूनानां आरम्भस्य आवश्यकता वर्ततेबहुभाषिकयन्त्रानुवादप्रतिमानानाम् निर्माणं प्रशिक्षणं च, तथा च परीक्षणसमूहानां पदकोशानां च आधारेण अन्तिमअनुवादपरिणामान् प्रदातुं
//RAG🤗
[!info] 🐵
- **प्रशिक्षणसमूहः** भवतः शिक्षण-अल्गोरिदम् चालयितुं उपयुज्यते ।
- विकास समुच्चय पैरामीटर् समायोजयितुं, विशेषतानां चयनं कर्तुं, शिक्षण-अल्गोरिदम् विषये अन्यनिर्णयान् कर्तुं च उपयुज्यते ।कदाचित् उच्यतेhold-out क्रॉस वैलिडेशन सेट्。
- **Test set** इत्यस्य उपयोगः एल्गोरिदमस्य कार्यप्रदर्शनस्य मूल्याङ्कनार्थं भवति, परन्तु तदनुसारं शिक्षणस्य एल्गोरिदम् अथवा पैरामीटर् परिवर्तनं न करोति ।
सहभागिदलैः प्रदत्तानां परीक्षणसमूहानां अनुवादपरिणामसञ्चिकानां कृते स्वचालितमूल्यांकनसूचकानाम् उपयोगः भवति नील-४ मूल्याङ्कनं कृत्वा विशिष्टसाधनानाम् उपयोगं कुर्वन्तुsacrebleu मुक्तस्रोतसंस्करणम्。
[!info] 📘
किमस्तिनील-४ .
BLEU
, पूर्णनामBilingual Evaluation Understudy
(द्विभाषिकमूल्यांकनप्रतिस्थापनम्), is a生成语句
निर्वहणम्评估的指标
. BLEU स्कोर किशोर पपिनेनी इत्याख्यस्य २००२ तमे वर्षे कृतं पत्रम् अस्ति ।《BLEU: यन्त्रानुवादस्य स्वचालितमूल्यांकनार्थं एकः विधिः》प्रस्ताविते in.
यन्त्रानुवादस्य क्षेत्रे BLEU (Bilingual Evaluation Understudy) इति मापनार्थं सामान्यतया प्रयुक्तः स्वचालितमूल्यांकनसूचकः अस्तिसङ्गणकजनितस्य अनुवादस्य सन्दर्भानुवादसमूहस्य च साम्यम् .अयं सूचकः विशेषतया ध्यानं ददातिन-ग्रामः (n क्रमशः शब्दानां) सटीकमेलनं अनुवादसटीकतायाः प्रवाहशीलतायाः च सांख्यिकीय-अनुमानरूपेण चिन्तयितुं शक्यते । BLUE स्कोरस्य गणनायां प्रथमं जनितपाठे n-ग्रामस्य आवृत्तिः गण्यते, ततः एतासां आवृत्तीनां तुलना सन्दर्भपाठे n-ग्रामैः सह क्रियते यदि उत्पन्ने अनुवादे सन्दर्भानुवादे दृश्यमानानि एव n-ग्रामाः सन्ति तर्हि तत् मेलनं मन्यते । अन्तिमः BLUE स्कोरः 0 तः 1 पर्यन्तं मूल्यं भवति, यत्र 1 सन्दर्भानुवादेन सह सम्यक् मेलनं प्रतिनिधियति तथा च 0 सर्वथा मेलनं न प्रतिनिधियति ।
नील-४ विशेषतः गणनायां चतुर्गुणानां (अर्थात् चत्वारि क्रमिकशब्दानां) मेलनं गृहीतुं निर्दिशति ।
नील मूल्याङ्कनसूचकानाम् लक्षणम् : १.
अनुवादस्य अतिरिक्तं गहनशिक्षणपद्धतिभिः सह संयुक्तं BLEU स्कोरिंग् अन्यभाषाजननसमस्यासु प्रयोक्तुं शक्यते, यथा: भाषाजननम्, चित्रशीर्षकजननम्, पाठसारांशीकरणं, वाक्परिचयः च।
अहम् इतः परं केवलं Magic Tower इत्यस्य उपयोगं करिष्यामि, 8GB लैपटॉप् तत् सम्भालितुं न शक्नोति।
अहं संक्षेपेण कोडं दत्तांशं च अवलोकितवान्, परन्तु अहं तत् सम्यक् न अवगच्छामि ।
अनुमानं कुरुत, अनुवादप्रक्रियायाः समये किं प्रत्येकस्य शब्दस्य कृते शब्दकोशात् अनेकाः विकल्पाः पुनः प्राप्ताः भवन्ति, यस्य च सर्वाधिकं संयोजनसंभावना भवति सः अनुवादस्य परिणामः भवति?