2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
//Ich habe diese Notiz in Obsidian geschrieben und hierher kopiert. Das seltsame Format dieser Notiz ist auf fehlende Obsidian-Plugins zurückzuführen.
Stichworte:
Ziel: Gehen Sie die Grundlinie durch, erleben Sie den Problemlösungsprozess des NLP-Modells, verstehen Sie grundsätzlich die Anforderungen der Wettbewerbsfragen und verstehen Sie das Wettbewerbsszenario
Schwierigkeit:sehr niedrig
Empfohlene Schritte:
Aufgabe 1 Knowledge Click Documents – Feishu Cloud Documents (feishu.cn)
Maschinelle Übersetzung (MT) ist ein wichtiger Zweig auf dem Gebiet der Verarbeitung natürlicher Sprache. Ihr Ziel ist esKonvertieren Sie Text automatisch von einer Sprache in Text in einer anderen Sprache
Maschinelle Übersetzungsmethode: regelbasiert -> statistikbasiert -> Deep Learning
Regelgesteuert -> Datengesteuert -> Intelligenter Treiber
Regelbasierte maschinelle Übersetzung (1950er-1980er): Frühe maschinelle Übersetzungssysteme verwendeten hauptsächlich regelbasierte Methoden, d. h. die VerwendungGrammatikregeln und Wörterbücher, die von Linguisten zur Übersetzung verfasst wurden .Diese Methode erfordert ein tiefgreifendes Verständnis der Grammatik und des Vokabulars der Ausgangssprache und der Zielsprache, ist jedoch weniger flexibel und anpassungsfähig, was den Umgang mit komplexen Sprachstrukturen und Polysemieproblemen erschwert.
Statistikbasierte maschinelle Übersetzung (1990er-2000er) : Mit der Verbesserung der Computerleistung und dem Aufkommen großer paralleler Korpora hat die statistische maschinelle Übersetzung zugenommen.diese MethodeErlernen Sie automatisch die Korrespondenz zwischen Quell- und Zielsprache, indem Sie große Mengen zweisprachigen Textes analysieren , wodurch die Übersetzung realisiert wird. Die statistische maschinelle Übersetzung hat bessere Ergebnisse beim Umgang mit Polysemie und Sprachvariationen gezeigt, aber aufgrund ihrer Abhängigkeit von großen Mengen an Trainingsdaten bietet sie keine ausreichende Unterstützung für ressourcenarme Sprachen.
Maschinelle Übersetzung basierend auf neuronalen Netzen (seit 2010) : Die Anwendung neuronaler Netzwerkmethoden bei maschinellen Übersetzungsaufgaben lässt sich bis in die 1980er und 1990er Jahre zurückverfolgen. Allerdings war die Leistung der neuronalen Netzwerkmethode aufgrund der damaligen Einschränkungen der Rechenressourcen und des Datenumfangs unbefriedigend, sodass ihre Entwicklung viele Jahre lang stagnierte. In den letzten Jahren hat die rasante Entwicklung der Deep-Learning-Technologie den Aufstieg der neuronalen maschinellen Übersetzung (NMT) vorangetrieben. NMT verwendet tiefe neuronale Netzwerkmodelle wieLanges Kurzzeitgedächtnisnetzwerk (LSTM) und Transformer , kann die komplexe Zuordnungsbeziehung zwischen der Quellsprache und der Zielsprache automatisch lernen, ohne manuell Funktionen oder Regeln entwerfen zu müssen. NMT hat erhebliche Fortschritte in Bezug auf Übersetzungsqualität, Geschwindigkeit und Anpassungsfähigkeit gemacht und ist zur gängigen Methode im aktuellen Bereich der maschinellen Übersetzung geworden.
In maschinellen Lern- und Deep-Learning-Projekten ist der Datensatz normalerweise in drei Teile unterteilt: Trainingssatz (Training Set), Entwicklungssatz (Development Set, oft auch Validierungssatz, Validation Set genannt) und Testsatz (Test Set).
Trainingsset, Trainingsmodell
Entwicklungssatz, um eine Überanpassung des Modells an den Trainingssatz zu verhindern
Testsatz, reale Daten simulieren, Wirkung prüfen
derzeitneuronale maschinelle ÜbersetzungDie Technologie hat große Durchbrüche erzielt, aberIn bestimmten Bereichen oder Branchen ist der Übersetzungseffekt nicht ideal, da es bei maschineller Übersetzung schwierig ist, die Konsistenz der Terminologie sicherzustellen. .Bei ungenauen maschinellen Übersetzungsergebnissen wie Terminologie, Namen von Personen und Orten usw. können Sie dies tunKorrigieren Sie über das Terminologiewörterbuch, um Verwirrung oder Mehrdeutigkeiten zu vermeiden und die Übersetzungsqualität zu maximieren.
Maschinelle Übersetzungsherausforderung basierend auf Terminologie-Wörterbuch-Intervention Wählen Sie maschinelle Übersetzung mit Englisch als Ausgangssprache und Chinesisch als Zielsprache. Neben zweisprachigen Daten von Englisch nach Chinesisch stellt dieser Wettbewerb auch ein Englisch-Chinesisch-Terminologiewörterbuch zur Verfügung.Die teilnehmenden Teams müssen mit den bereitgestellten Trainingsdatenbeispielen beginnenAufbau und Training mehrsprachiger maschineller Übersetzungsmodelle sowie Bereitstellung endgültiger Übersetzungsergebnisse auf der Grundlage von Testsätzen und Begriffswörterbüchern
//RAG🤗
[!info] 🐵
- Der **Trainingssatz** wird zum Ausführen Ihres Lernalgorithmus verwendet.
- Entwicklungsset Wird verwendet, um Parameter anzupassen, Funktionen auszuwählen und andere Entscheidungen über den Lernalgorithmus zu treffen.manchmal genanntHold-out-Kreuzvalidierungssatz。
- **Testsatz** wird verwendet, um die Leistung des Algorithmus zu bewerten, ändert jedoch nicht den Lernalgorithmus oder die Parameter entsprechend.
Für die von den teilnehmenden Teams übermittelten Testset-Übersetzungsergebnisdateien werden automatische Bewertungsindikatoren verwendet BLAU-4 Führen Sie eine Bewertung durch und verwenden Sie spezifische ToolsSacrebleu Open-Source-Version。
[!info] 📘
was istBLAU-4?
BLEU
, vollständiger NameBilingual Evaluation Understudy
(zweisprachiger Beurteilungsersatz), ist ein生成语句
Benehmen评估的指标
. Der BLEU-Score ist eine Arbeit von Kishore Papineni et al. aus dem Jahr 2002.《BLEU: eine Methode zur automatischen Auswertung maschineller Übersetzungen》vorgeschlagen in.
Im Bereich der maschinellen Übersetzung ist BLEU (Bilingual Evaluation Understudy) ein häufig verwendeter automatischer Bewertungsindikator zur MessungÄhnlichkeit zwischen einer computergenerierten Übersetzung und einer Reihe von Referenzübersetzungen .Auf diesen Indikator wird besonderes Augenmerk gelegtN-Gramme Eine genaue Übereinstimmung von (n aufeinanderfolgenden Wörtern) kann als statistische Schätzung der Übersetzungsgenauigkeit und -flüssigkeit angesehen werden. Bei der Berechnung des BLUE-Scores wird zunächst die Häufigkeit von N-Grammen im generierten Text gezählt und diese Häufigkeiten dann mit den N-Grammen im Referenztext verglichen. Wenn die generierte Übersetzung dieselben N-Gramme enthält wie die Referenzübersetzung, wird dies als Übereinstimmung betrachtet. Der endgültige BLAU-Score ist ein Wert zwischen 0 und 1, wobei 1 eine perfekte Übereinstimmung mit der Referenzübersetzung darstellt und 0 überhaupt keine Übereinstimmung bedeutet.
BLAU-4 Insbesondere bezieht es sich auf die Berücksichtigung der Übereinstimmung von Quadrupeln (d. h. vier aufeinanderfolgenden Wörtern) bei der Berechnung.
BLAU Merkmale der Bewertungsindikatoren:
Zusätzlich zur Übersetzung kann die BLEU-Bewertung in Kombination mit Deep-Learning-Methoden auch auf andere Sprachgenerierungsprobleme angewendet werden, wie zum Beispiel: Sprachgenerierung, Bildtitelgenerierung, Textzusammenfassung und Spracherkennung.
Ich werde ab sofort nur noch den Magic Tower verwenden, ein 8GB-Laptop wird damit nicht zurechtkommen.
Ich habe mir kurz den Code und die Daten angesehen, aber ich verstehe es nicht ganz.
Schätzen Sie, dass Sie während des Übersetzungsprozesses für jedes Wort mehrere Optionen aus dem Wörterbuch abrufen und diejenige mit der höchsten Kombinationswahrscheinlichkeit das Übersetzungsergebnis ist?