データホエール第2回サマーキャンプNLPタスク1

データホエール第2回サマーキャンプNLPタスク1のノート

2024-07-12

// このメモは Obsidian で書いてここにコピーしました。このメモの形式がおかしいのは、Obsidian プラグインが不足しているからです。

タグ:

AI研究
ML
ステータス: 完了

目標: ベースラインを実行し、NLP モデルの問題解決プロセスを経験し、競争問題の要件を基本的に理解し、競争シナリオを理解します。
困難：とても低い
推奨される手順:

ドキュメントに従って提出し、最初のスコアを取得します
コンテストの質問の提出形式を理解する
モデルトレーニングに関連するデータ形式
最初のスコアをチェックインしてメモを書き留めてみましょう

タスク 1 ナレッジドキュメントをクリック - Feishu クラウドドキュメント (feishu.cn)

MLの簡単な歴史

機械翻訳 (MT) は、自然言語処理分野の重要な分野です。その目標は次のとおりです。ある言語のテキストを別の言語のテキストに自動的に変換します

機械翻訳手法: ルールベース -> 統計ベース -> ディープラーニング
ルール駆動型 -> データ駆動型 -> インテリジェントドライバー

ルールベースの機械翻訳 (1950 年代～1980 年代): 初期の機械翻訳システムは主にルールベースの方法を採用していました。翻訳用に言語学者によって書かれた文法規則と辞書 。この方法では、ソース言語とターゲット言語の文法と語彙を深く理解する必要がありますが、柔軟性や適応性に劣るため、複雑な言語構造や多義性の問題に対処することが困難になります。

統計に基づく機械翻訳 (1990 年代～2000 年代) : コンピュータのパフォーマンスの向上と大規模な並列コーパスの出現により、統計的機械翻訳が台頭し始めています。この方法大量のバイリンガルテキストを分析することで、ソース言語とターゲット言語の対応関係を自動的に学習します 、それによって翻訳を実現します。統計的機械翻訳は、多義性や言語のバリエーションの処理において優れた結果を示していますが、大量のトレーニングデータに依存しているため、リソースの少ない言語に対するサポートは不十分です。

ニューラルネットワークによる機械翻訳（2010年代～現在） : 機械翻訳タスクにおけるニューラルネットワーク手法の応用は、1980 年代と 1990 年代にまで遡ることができます。しかし、当時の計算資源やデータ規模の限界により、ニューラルネットワーク方式の性能は満足できるものではなく、長年にわたって開発が停滞していました。近年、ディープラーニング技術の急速な発展により、ニューラル機械翻訳（NMT）の台頭が進んでいます。 NMT は、次のようなディープニューラルネットワークモデルを使用します。長短期記憶ネットワーク (LSTM) と Transformerは、機能やルールを手動で設計することなく、ソース言語とターゲット言語の間の複雑なマッピング関係を自動的に学習できます。 NMT は翻訳の品質、速度、適応性において大幅な進歩を遂げ、現在の機械翻訳分野で主流の手法となっています。

データパーティション

機械学習および深層学習プロジェクトでは、データセットは通常、トレーニングセット (トレーニングセット)、開発セット (開発セット、検証セット、検証セットとも呼ばれます)、およびテストセット (テストセット) の 3 つの部分に分割されます。

トレーニングセット、トレーニングモデル
モデルがトレーニングセットに過剰適合するのを防ぐための開発セット
テストセット、実際のデータをシミュレート、効果を確認

競争問題の分析

イベントの背景

現在のところニューラル機械翻訳テクノロジーは大きな進歩を遂げてきましたが、特定の分野や業界では、機械翻訳では用語の一貫性を確保することが難しいため、翻訳効果が理想的ではありません。 。用語、人名、場所などの不正確な機械翻訳結果については、用語辞典で修正混乱や曖昧さを回避し、翻訳の品質を最大化します。

イベントタスク

用語辞書介入に基づく機械翻訳の課題ソース言語として英語、ターゲット言語として中国語の機械翻訳を選択します。このコンテストでは、英語から中国語の対訳データに加えて、英語から中国語の用語辞典も提供されます。参加チームは、以下に基づいて提供されるトレーニングデータサンプルから開始する必要があります。多言語機械翻訳モデルの構築とトレーニング、およびテストセットと用語辞書に基づく最終翻訳結果の提供

//RAG🤗

競技データ

トレーニングセット: バイリンガルデータ - 中国語と英語の 140,000 以上のバイリンガル文ペア
開発セット: 1000 の英語と中国語のバイリンガル文ペア
テストセット: 1000 の英語と中国語のバイリンガル文ペア
用語辞典: 英語と中国語の用語 2226 語

[!info] 🐵

**トレーニングセット**は、学習アルゴリズムを実行するために使用されます。
開発セットパラメータの調整、機能の選択、学習アルゴリズムに関するその他の決定を行うために使用されます。時々呼ばれますホールドアウト相互検証セット。
**テストセット**はアルゴリズムのパフォーマンスを評価するために使用されますが、それに応じて学習アルゴリズムやパラメーターは変更されません。

評価指標

参加チームが提出したテストセットの翻訳結果ファイルには、自動評価指標が使用されます 青-4 評価を実施し、特定のツールを使用するsacrebleu オープンソース版。

[!info] 📘
とはBLUE-4 ？

BLEU、フルネームBilingual Evaluation Understudy（バイリンガル評価代替）は、生成语句行為评估的指标 。 BLEU スコアは、Kishore Papineni らによる 2002 年の論文です。《BLEU: 機械翻訳の自動評価手法》で提案されました。

機械翻訳の分野では、BLEU (Bilingual Evaluation Understudy) が一般的に使用される自動評価指標です。コンピュータ生成翻訳と一連の参考翻訳の間の類似性 。このインジケーターは次の点に特に注意を払っていますnグラム (n 個の連続する単語) の完全一致は、翻訳の精度と流暢さの統計的推定値と考えることができます。ブルースコアを計算する場合、生成されたテキスト内の N グラムの頻度が最初にカウントされ、次にこれらの頻度が参照テキスト内の N グラムと比較されます。生成された翻訳に、参照翻訳に表示されるものと同じ N グラムが含まれている場合、それは一致するとみなされます。最終的なBLUEスコアは0から1の間の値で、1は参照翻訳と完全に一致することを表し、0はまったく一致しないことを表します。

青-4 特に、計算時に 4 つの単語 (つまり、連続する 4 つの単語) の一致を考慮することを指します。

青評価指標の特徴：

利点: 計算速度が速く、計算コストが低く、理解しやすく、特定の言語に依存せず、人間の評価との相関性が高い。
短所: 言語表現 (文法) の精度が考慮されない、一般的に使用される単語によって評価精度が妨げられる、同義語や類似の表現が考慮されないため、評価精度が高くなる場合がある。合理的な翻訳の。

翻訳に加えて、深層学習手法と組み合わせた BLEU スコアリングは、言語生成、画像タイトル生成、テキスト要約、音声認識などの他の言語生成問題にも適用できます。

授業後の感想

今後は Magic Tower を使用することにします。8GB のラップトップでは処理できません。
コードとデータをざっと見たのですが、よくわかりません。
翻訳プロセス中に、単語ごとに複数の選択肢が辞書から取得され、最も高い組み合わせ確率を持つ選択肢が翻訳結果になると思いますか?

技術共有