2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
//Kirjoitin tämän muistiinpanon obsidianilla ja kopioin sen tänne. Tämän muistiinpanon outo muoto johtuu obsidiaaniliitännäisten puutteesta.
tunnisteet:
Kohde: Käy läpi perusviiva, koe NLP-mallin ongelmanratkaisuprosessi, ymmärrä pohjimmiltaan kilpailukysymysten vaatimukset ja ymmärrä kilpailun skenaario
vaikeus:erittäin matala
Suositellut vaiheet:
Task 1 Knowledge Click Documents - Feishu Cloud Documents (feishu.cn)
Konekäännös (MT) on tärkeä ala luonnollisen kielen käsittelyn alallaMuunna teksti automaattisesti yhdestä kielestä toisella kielellä
Konekäännösmenetelmä: sääntöpohjainen -> tilastopohjainen -> syväoppiminen
Sääntöpohjainen->Data-ohjattu-> Älykäs ohjain
Sääntöihin perustuva konekäännös (1950-1980-luvut): Varhaiset konekäännösjärjestelmät omaksuivat pääasiassa sääntöihin perustuvia menetelmiä eli käyttämälläKielioppisäännöt ja sanakirjat, jotka kielitieteilijät ovat kirjoittaneet kääntämistä varten .Tämä menetelmä edellyttää syvällistä lähdekielen ja kohdekielen kieliopin ja sanaston ymmärtämistä, mutta se on vähemmän joustava ja mukautuva, mikä vaikeuttaa monimutkaisten kielirakenteiden ja polysemiaongelmien käsittelyä.
Tilastopohjainen konekäännös (1990-2000-luvut) : Tietokoneiden suorituskyvyn parantuessa ja laajamittaisten rinnakkaiskorpujen ilmaantumisen myötä tilastollinen konekäännös on alkanut nousta.tätä menetelmääOpi automaattisesti vastaavuus lähde- ja kohdekielten välillä analysoimalla suuria määriä kaksikielistä tekstiä , mikä toteuttaa käännöksen. Tilastollinen konekäännös on osoittanut parempia tuloksia polysemian ja kielten vaihtelun käsittelyssä, mutta koska se on riippuvainen suurista koulutusdatamääristä, se ei tue riittävästi resursseja vaativia kieliä.
Konekäännös perustuu hermoverkkoihin (2010-luku) : Neuroverkkomenetelmien soveltaminen konekäännöstehtävissä voidaan jäljittää 1980- ja 1990-luvuilla. Kuitenkin laskentaresurssien ja dataskaalan rajoitusten vuoksi hermoverkkomenetelmän suorituskyky oli epätyydyttävä, joten sen kehitys pysähtyi useiksi vuosiksi. Viime vuosina syväoppimisteknologian nopea kehitys on edistänyt Neural Machine Translationin (NMT) nousua. NMT käyttää syvän neuroverkkomalleja, kutenPitkä lyhytaikainen muistiverkko (LSTM) ja muuntaja , voi automaattisesti oppia monimutkaisen kartoitussuhteen lähdekielen ja kohdekielen välillä suunnittelematta manuaalisesti ominaisuuksia tai sääntöjä. NMT on edistynyt merkittävästi käännösten laadussa, nopeudessa ja sopeutumiskyvyssä, ja siitä on tullut nykyisen konekääntämisen yleisin menetelmä.
Koneoppimis- ja syväoppimisprojekteissa tietojoukko jaetaan yleensä kolmeen osaan: koulutussarja (Training Set), kehitysjoukko (Development Set, jota usein kutsutaan myös validointijoukoksi, Validaatiosarja) ja testijoukko (Test Set)
harjoitussarja, koulutusmalli
Kehityssarja, jolla estetään mallin liiallinen sovittaminen harjoitussarjaan
Testisarja, simuloi todellista dataa, tarkista vaikutus
nykyisessähermoston konekäännösTekniikka on tehnyt suuria läpimurtoja, muttaTietyillä aloilla tai toimialoilla käännösvaikutus ei ole ihanteellinen, koska konekäännöksen on vaikea varmistaa terminologian johdonmukaisuutta. .Epätarkkoja konekäännöstuloksia, kuten terminologiaa, ihmisten ja paikkojen nimiä jne., voit tehdäKorjaus terminologian sanakirjan avulla, välttää sekaannukset tai epäselvyydet ja maksimoida käännösten laatu.
Konekäännöshaaste, joka perustuu terminologian sanakirjan interventioon Valitse konekäännös, jonka lähdekieleksi on englanti ja kohdekieleksi kiina. Kaksikielisten englannista kiinan tietojen lisäksi kilpailu tarjoaa myös englanti-kiina terminologian sanakirjan.Osallistuvien ryhmien on aloitettava koulutustietonäytteistä, jotka on toimitettuMonikielisten konekäännösmallien rakentaminen ja koulutus sekä lopullisten käännöstulosten tuottaminen testisarjoihin ja termisanastoihin perustuen
//RAG🤗
[!info] 🐵
- **harjoitussarjaa** käytetään oppimisalgoritmin suorittamiseen.
- kehityssarja Käytetään parametrien säätämiseen, ominaisuuksien valitsemiseen ja muiden oppimisalgoritmia koskevien päätösten tekemiseen.joskus kutsutaanhold-out ristiin validointisarja。
- **Testisarjaa** käytetään algoritmin suorituskyvyn arvioimiseen, mutta se ei muuta oppimisalgoritmia tai parametreja vastaavasti.
Osallistuvien tiimien lähettämien testisarjan käännöstulostiedostojen osalta käytetään automaattisia arviointiindikaattoreita SININEN-4 Suorita arviointi ja käytä erityisiä työkalujasacrebleu avoimen lähdekoodin versio。
[!info] 📘
mikä onSININEN-4?
BLEU
, koko nimiBilingual Evaluation Understudy
(kaksikielisen arvioinnin korvaaminen), on a生成语句
käyttäytyminen评估的指标
. BLEU-pisteet on Kishore Papinenin et al. vuoden 2002 artikkeli.《BLEU: menetelmä konekäännösten automaattiseen arviointiin》ehdotettu sisään.
Konekäännösten alalla BLEU (Bilingual Evaluation Understudy) on yleisesti käytetty automaattinen arviointiindikaattori mittaamiseen.Samankaltaisuus tietokoneella luodun käännöksen ja viitekäännösjoukon välillä .Tämä indikaattori kiinnittää erityistä huomiotan-grammaa Tarkka vastaavuus (n peräkkäistä sanaa) voidaan ajatella tilastollisena arviona käännösten tarkkuudesta ja sujuvuudesta. SINISTÄ pistemäärää laskettaessa lasketaan ensin n-grammien taajuus generoidussa tekstissä ja sitten näitä frekvenssiä verrataan viitetekstin n-grammiin. Jos luotu käännös sisältää samat n-grammit, jotka esiintyvät viitekäännöksessä, sitä pidetään osumana. Lopullinen SININEN pistemäärä on arvo välillä 0 ja 1, jossa 1 edustaa täydellistä vastaavuutta viitekäännöksen kanssa ja 0 tarkoittaa, ettei vastaavuutta ollenkaan.
SININEN-4 Erityisesti se viittaa nelinkertaisten (eli neljän peräkkäisen sanan) vastaavuuden huomioon ottamiseen laskennassa.
SININEN Arviointiindikaattoreiden ominaisuudet:
Kääntämisen lisäksi BLEU-pisteytys yhdistettynä syväoppimismenetelmiin voidaan soveltaa muihin kielten luontiongelmiin, kuten kielen luomiseen, kuvan otsikon luomiseen, tekstin yhteenvetoon ja puheentunnistukseen.
Käytän tästä lähtien vain Magic Toweria, 8 Gt: n kannettava tietokone ei kestä sitä.
Katsoin lyhyesti koodia ja tietoja, mutta en oikein ymmärrä sitä.
Arvaa, haetko käännösprosessin aikana sanakirjasta useita vaihtoehtoja jokaiselle sanalle, ja se, jolla on suurin yhdistelmätodennäköisyys, on käännöstulos?