Technology sharing

notas pro datawhale 2th aestivis NLP task1 .

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

// hanc notulam scripsi in obsiano et hic exscripsi. Forma aliena in hac nota ob obsianas plugins penurias obvenit.


tags:

  • AI-studio
  • ML
    status: factum

Target: per baseline percurre, problema solvendum processus exemplaris NLP experieris, basically requisita interrogationum competitionis intellige, ac missionis certaminis intellege.
difficultas: Valde humilis
Commendatur gradibus:

  1. Submit secundum documenta atque primum score
  2. Intelligere forma ad deditionem competition quaestiones
  3. Data forma ad exemplar disciplina
  4. Reprehendo primo nomine scribere conantur notis

Task1 Cognitio Click Documenta - Feishu Cloud Documenta (feishu.cn)

brevis historia ML

Machina Translation (MT) magni momenti ramus est processus linguae in agro naturaliAutomatice textum ex una lingua ad textum in aliam linguam convertendum

Machina translation methodus: regula-substructio -> statistica-substructio -> alta doctrina
Dominare agitatae> data-driven-> intelligentes exactoris

Translatio machinae regulae fundatae (1950s-1980s): Praecipuae machinae systemata translationis potissimum modi regulae fundatae adhibitae, id est, utensPraecepta grammatica et dictionaria a linguistis scripta in translatione .Haec methodus requirit altissimam intelligentiam grammaticae et vocabularium fontis linguae et linguae scopo, sed minus flexibile et aptum, difficilis ad tractandum de complexis structurae et polysemiae quaestionibus.

Statistics-fundatur machina translationis (1990s-2000s) : Emendatione persecutionis computatrae et cessum magnarum parallelarum corporum, translatio machina statistica surgere incepit.hoc modoAutomatarie correspondentiam discat inter principium et scopum linguarum magnas pondera textus bilinguis dividendo eoque translatione. Interpretatio machinae statisticae meliores eventus ostendit in polysemia et variatione linguae tractandae, sed propter fiduciam in magna copia notitiae institutionis, satis sustentationem habet pro linguas pauperum resource.

Apparatus translatio secundum retiacula neural (2010s-present) : Applicatio methodorum retis neuralis in machina translationis functiones reduceri potest ad 1980s et 1990s. Attamen, ob limitationes in computandis opibus et temporis magnitudine data, methodi reticularis neuralis exsecutio inconveniens fuit, itaque eius progressio per multos annos stagnata est. His annis celeritas altae technologiae studiorum incrementum Neural Machina Translatione promovit (NMT). NMT altum neural network utitur exempla utLongum brevis-term memoria network (LSTM) et Transformer sponte discere potest complexam tabularum relationem inter fontem linguae et scopo linguam sine notis vel regulis manualibus designantibus. NMT progressus significantes in translatione qualitatis, velocitatis et aptabilitatis fecit, et factus est modus amet modus in hodierna translatione machinae campus.

Data partitione

In machina discendi et profundis discendi inceptis, data copia plerumque in tres partes dividi solet: institutio paro (Training Set), progressio profectus (Set progressio, saepe etiam sanatio pone, Validation Set) et certa probatio (Test Set)

institutio paro, disciplina exemplar
Progressio praecavenda ne exemplum praebeatur ad formationem
Test paro, notitia reali simulate, effectum reprehendo

Competition quaestio analysis

Eventus background

nuncneural apparatus translationTechnologia magnas breakthroughs fecit, sedIn quibusdam campis vel industriis, translatio effectus non est idealis, quia difficile est translationem machinae ad constantiam terminologiae curare. .Ad translationem machinae parum accuratae eventus ut termini, nomina hominum et locorum, etcRecta via terminology dictionaryevitans confusionem vel ambiguitatem et maxima translationem qualitatis.

Res munerum

Machina Translation Provocare Ex Terminology Dictionary Interventio Machinae translationem selectam cum lingua Latina tamquam fonte et lingua Sinica ut scopum linguae. Praeter notitias bilinguas ab Anglico ad Sinenses, haec certatio etiam glossarium terminologiae Sinensi Anglico praebet.Participantes teams oportet incipere ab institutione data exemplaria provisum secundumConstructio et educatio exemplorum translationis multilingualis machinae, ac proventus finales translationis nitentes dictionariorum testium et terminorum

//RAG🤗

Competition data

  • Disciplina set: notitia bilinguis - sententia bilinguis plus quam 140,000 paria in Sinica et Anglica
  • Progressio pone: 1000 Anglico-Chinese bilinguis sententiae binae
  • Test paro: 1000 English-Chinese bilinguis sententia paria
  • Terminology dictionary: 2226 terms in English and Chinese

[!info] 🐵

  • Disciplina institutio ad algorithmum discendi curritur.
  • progressus set Parametris aptare solebant, lineamenta selecta facere, et alia de algorithmo eruditione decisiones facere.nunc diciturtenet sicco crucis sanatio set
  • Test institutum ad algorithmum faciendum aestimare adhibetur, doctrinam autem algorithm vel ambitum non mutat.

Indicatores iudicium

Ad probationes certae translationis proventus lima ex iunctionibus participatione submissis, indicibus autocineticis aestimationis adhibitis RED-4 Iudicium deducere et instrumenta specifica utisacrebleu aperta fons version

[!info] 📘
quid estRED-4

BLEUPlenus nomenBilingual Evaluation Understudy(Repositum censum bilinguis), est a *生成语句moribus评估的指标 . Octoginta BLEU charta 2002 a Kishore Papineni et al.《BLEU: Methodus Automatic Evaluation of Machina Translationpropositam in.

In translatione machinae in agro, BLEU (Aestimatio bilinguis Understudy) est communis aestimatio latae sententiae indicator ad mensurandumSimilitudo inter translationem computatrum-generatam et translationes certae relationis .Hoc indicator maxime pronas aures praeberen-gram Forma accurata verborum (n verbis consecutivis) cogitari potest ut statistica aestimatio translationis subtilitatis et facundiae. Cum calculis caeruleis computatis, frequentia n-gramorum in textu genito primum numeratur, deinde frequentiae hae cum P. N-P. relatio in textu comparantur. Si translatio generata easdem n-iiiis continet, quae in translatione relationis apparent, par censetur. Octoginta postrema caerulea valor est inter 0 et 1, ubi 1 par perfectum repraesentat cum translatione relationis et 0 nullum omnino parem repraesentat.

RED-4 Peculiariter, inspecta adaptatione quadruplicatum (id est, quatuor vocibus consecutiva) cum computandis refertur.

CAERULEUM Characteres Aestimationis indices:

  • Commoda: celeritas calculi celeris, sumptus calculi humilis, facilis ad intellegendum, lingua specifica independentia, et cum aestimatione humana valde connectuntur.
  • Incommoda: Accuratio locutionis linguae (grammaticae) non consideratur; aestimatio accuratio in verbis communibus adhibitis impedit; aestimatio accurationis brevium sententiarum translata interdum altior est; rationabilis translationes .

Praeter translationem, BLEU scoring cum profundis methodis eruditionis coniunctae aliis quaestionibus generationis linguae applicari possunt, ut: lingua generationis, titulus imaginis generationis, text summaris et cognitio sermonis.

Cogitationes post classis

Modo utar Turri Magia posthac, 8GB laptop eam tractare non poteris.
Breviter codicem et notitia inspexi, sed non satis intellego.
Coniectare, durante processu translationis, plures optiones ex dictionario singulis vocabulis recuperari possunt, et una cum summa compositione probabilitas translationis resultat?