私の連絡先情報
郵便メール:
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
食品検査用の大規模言語モデル
論文アドレス: https://arxiv.org/abs/2103.00728
ナレッジ グラフ テクノロジの開発と商用アプリケーションの普及に伴い、さまざまな非構造化ドメイン テキストからナレッジ グラフ エンティティとリレーショナル データを抽出する必要性が高まっています。これにより、ドメイン テキストからの自動知識抽出が非常に意味のあるものになります。この論文は、BERT に基づく知識抽出手法を提案します。この手法は、知識グラフを構築するプロセスの労力を節約するために、非構造化ドメイン固有テキスト (保険業界の保険約款など) から知識ポイントを自動的に抽出するために使用されます。ルール、テンプレート、またはエンティティ抽出モデルに基づいて一般的に使用されているナレッジ ポイントの抽出方法とは異なり、この記事では、回答位置の前後のテキストをコンテキストとして使用して、ドメイン テキストのナレッジ ポイントを質問と回答のペアに変換し、 BERT は SQuAD データに基づいて読み取りを実行し、タスクを微調整します。微調整されたモデルを使用して、より多くの保険約款からナレッジ ポイントが自動的に抽出され、良好な結果が得られました。
近年、さまざまな業界におけるデジタルトランスフォーメーションの深化に伴い、関連する電子テキストが急増しています。同時に、ますます多くの企業がデータ分析、マイニング、データ リソースの開発と利用に注目し始めており、ナレッジ マップやインテリジェントな対話などのコンピューター アプリケーション システムは、さまざまな企業や機関が社内に提供する基盤となっています。そして外部サービス。このようなアプリケーションでは、多くの場合、デジタル知識ベースを構築するために、さまざまな非構造化ドメイン テキストに含まれる構造化情報を抽出する必要があります。データはコンピュータ製品とサービスの基盤です。コンピュータにデータを提供することは、新しい時代の企業や機関の発展にとって新たな課題となっています。企業や団体のオリジナルのさまざまなビジネス文書には豊富な知識と情報が含まれていますが、それらはすべて人間が読むために書かれており、コンピュータープログラムのニーズと比較すると、冗長な情報が多くあります。現状、この種のデータを活用する場合、基本的には文書を読み込んで必要な情報を手動で抽出し、コンピュータが読める形に表現する(「理解する」)という多大なマンパワーを投入する必要があります。その結果、多くの追加学習コストと人的リソースの消費が発生します。自動化された手段を使用して非構造化テキスト データから知識を発見し、それをさまざまなインテリジェント アプリケーションが依存するデータ リソースとして使用する方法は、知識抽出の分野における研究のホットスポットです。本論文は、特定分野の非構造化テキストを研究対象とし、深層学習に基づく言語理解モデルによる知識抽出手法を提案する。この手法では、抽出すべき知識点を質問と回答のペアの形式で提示し、手動でアノテーションを付けたデータを学習データとして使用し、事前学習済みモデルに基づいて転移学習を実行し、同じ分野のテキストから自動的に抽出します。ナレッジポイントのモデルを微調整します。
構造仕様が統一された文書の場合、ルールを構築することで知識の抽出が可能です。ルールの構築は、多くの場合、手作業による帰納と要約、つまり、同じ分野の多数のテキストを読み、その中から選択し、最終的な抽出ルールを要約することによって完了します。 Jyothi らは、ルールベースのアプローチを使用して、多数の個人履歴書から有効な情報を抽出し、データベースを構築しました。 JunJun らは、学術文献から学術的な概念的知識を抽出するために同様の方法を使用しました。この方法の利点は、モデルのトレーニングが必要なく、シンプルで効率的であることですが、欠点も明らかです。構築するルールは、同じ構造を持つテキストにのみ適用され、テキスト構造の後に厳密な形式を指定する必要があります。わずかに変更すると、新しい知識抽出ルールの構築が必要になるため、この方法は移植可能ではありません。
ナレッジ抽出の 1 つのタスクはエンティティ抽出と呼ばれ、時間、場所などの事前定義されたタグの内容をテキストから抽出します。特定のタグはアプリケーションによって異なります。最も一般的に使用されるナレッジ抽出は、名前付きエンティティ認識 (名前付きエンティティ) と呼ばれます。認識)。エンティティ認識(NER)。エンティティ抽出自体は、シーケンス ラベリング タスクとして直接解決でき、隠れマルコフ モデル (HMM) や条件付きランダム フィールド (CRF) などの従来の統計学習手法を使用して処理できます。近年、この種の問題にはいくつかの深層学習モデルも適用されており、たとえば BiLSTM と CRF を組み合わせたシーケンス アノテーション手法が良好な成果を上げています。 Lample らは、スタック構造を表現するためにスタックされた LSTM を使用し、複数の単語の表現を直接構築する新しいネットワーク構造を提案し、それを LSTM-CRF モデルと比較しました。 Ma らは、BiLSTM-CNN-CRF に基づいたエンドツーエンドのシーケンス アノテーション モデルを提案しました。さらに、微調整された BERT モデルは、配列ラベル付けタスクでも良好な結果を達成できます。
テキストからエンティティを抽出することに加えて、エンティティ間の関係も知識抽出の焦点であり、エンティティ間の関係は通常、トリプルで形成されます。<E1, R, E2> の場合、タスクの目標は、考えられるすべてのエンティティ関係トリプルをテキストから抽出することであり、それらの関係は事前設定されたスキーマに限定されます。 Zeng らは、関係性を分類するように CNN を設計しましたが、トリプルは分類しませんでした。 Maekoto らは、BiLSTM と Bi-TreeLSTM に基づいてスタック ネットワークを構築し、エンティティの抽出と関係の検出を同時に実行することにより、エンティティの関係のエンドツーエンドの予測を達成しました。 Li らは、エンコーダ/デコーダ アーキテクチャを備えた 2 層 LSTM を使用して、トリプルに限定されず、固定形式で構造化された知識を予測できる知識抽出モデルを構築しました。 Zheng らは、ラベル付け戦略を通じてエンティティと関係の抽出タスクをシーケンスのラベル付けタスクに変換し、それを処理するために以前のものと同様の Bi-LSTM モデルを構築しました。 Luan らは、科学文書内のエンティティと関係を特定して科学知識グラフを構築するためのマルチタスク学習フレームワークを設計しました。このモデルは、その分野の事前知識がなくても既存のモデルを上回りました。
除了以上提到的知识抽取模式,一个不同的角度是将知识点本身看作一个问题,将知识点的内容作为该问题的答案,将知识点所在的文本段作为这个问答对的上下文,这样知识抽取模型便可以用问答模型来构造。近年来,GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务,仅需简单改造原有网络结构,并进行微调,即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后,将其应用在一个更困难的问答数据集 NQ上,𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题,而不需要根据知识的形式单独设计新的网络结构。
さまざまな業界の構造化テキストは、業界の特性により異なる特性を持っています。一部の業界固有の文書 (医療指示書など) は、厳密な構造を持っているだけでなく、ルールベースの知識抽出により適した用語や文言についても非常に厳格な要件を持っています。また、業界によっては、テキストが一般的なテキストとあまり変わらないもの(ニュースレポートやインタビューなど)もあり、一般的な抽出技術をそのまま適用することができます。いくつかの分野には、その中間であり、ある程度の専門性を備えていますが、それほど厳格ではないものも存在します。異なる企業の同様のテキストの構造や表現は、同じ企業内での用語の使用や表示が異なります。比較的統一されています。保険業界における保険条項文書は、この 3 番目のカテゴリのテキストに分類されます。保険約款とは、保険契約の当事者である保険会社(保険会社)と保険契約者の双方が共同で合意する権利と義務に関する条項です。保険約款は通常、次の 3 つの部分で構成されます。
保険約款にはある程度の専門用語が含まれていますが、専門用語の使用は業界ではほとんど標準化されておらず(たとえば、「ためらい期間」は「クーリングオフ期間」とも呼ばれるなど)、約款文書は抽出する必要がある知識ポイントのほとんどが自然言語表現に混在しているため、静的なルールに基づくテキスト抽出には適していません。必要な抽出知識点そのものはエンティティ抽出によって得られるが、自然言語表現には知識点に対応する値が混在していることが多く、知識点の記述とともに抽出することができない。例: 特定の条項の時効は 2 年です。この「2 年」は、次のような説明に表示されることがあります。保険金受取人は知っているか、保険事故の日から計算が開始されることを知っておく必要があります。「したがって、保険条件から基本情報、購入条件、保険責任、その他の知識ポイントを抽出する必要がある場合は、このルールを直接除外します。ベースおよびエンティティベースの抽出メソッド。スキーマ スタイルの抽出を使用してナレッジ ポイントをトリプルに変換する場合、必要なトレーニング データ セットとラベル付けの量が比較的多くなります。この目的では、必然的に利益が損失を上回ります。したがって、最終的には質問応答ベースの知識抽出方法を選択しました。
近年、事前学習済みモデルに基づく微調整による学習方法は、自然言語処理 (NLP) の分野で大きな成功を収めており、BERT モデルはその重要な代表例です。 BERT は、トランスフォーマーに基づく双方向符号化表現モデルであり、そのトポロジは多層双方向トランスフォーマー ネットワークです。 BERT モデルは、微調整学習に基づいた典型的なアプリケーションです。つまり、その構築には事前トレーニングと微調整の 2 つのステップが含まれます。まず、事前トレーニング段階では、さまざまなトレーニング タスクの多数のラベルなしコーパス データがトレーニングされ、コーパス内の知識が事前トレーニング モデルのテキスト埋め込み (Embedding) に転送されます。このように、微調整フェーズでは、追加の出力層をニューラル ネットワークに追加するだけで、事前トレーニングされたモデルを調整できます。具体的には、微調整とは、事前トレーニングされたパラメーターを使用して BERT モデルを初期化し、その後、下流タスクからのラベル付きデータを使用してモデルを微調整することです。保険文書からナレッジポイントを抽出するというニーズに応えるには、保険約款データを使用して BERT の質疑応答タスクを微調整するだけで、保険約款のナレッジ抽出のニーズを満たすことができます。
保険約款ナレッジ抽出プロセスでは、まず手動でラベル付けされた保険約款ナレッジ ポイントが生成されます。<question, answer>次に、テキスト解析プログラムを使用して、保険条件文書を解析して文書ツリーを作成します。このツリーでは、メイン タイトルがルート ノード、後続の各タイトルが前のレベルの子ノード、およびテキストの各段落になります。を読み取ってリーフノードとして扱います。質問と回答のペアの回答を、それが配置されているリーフ ノードと照合し、リーフ ノード全体に対応するテキストを質問と回答のペアのコンテキストとして使用し、最後に<question, answer, context>最後に、このデータセットを使用して、SQuAD データに基づく読解タスクの微調整方法に従って BERT 事前トレーニング モデルをトレーニングし、最終的な知識抽出モデルが得られます。上の図に示すように、質問と回答のタスクでは、BERT によって出力されたエンコード ベクトルの後に全結合層を追加するだけで、コンテキスト内の回答の位置を予測できます。新しい保険条項のテスト中は、さまざまな知識ポイントのコンテキストを同じ方法で分析する必要があります。<question, context>モデルへの入力として、各知識ポイントに対する答えが得られます。上記の方法は、同じ会社の同じ種類の保険約款をより適切に処理できます。これは、同じ会社の保険約款の構造が一貫しており、同じプログラムを使用してコンテキストを分析できるためです。企業や種類の異なる約款は、用語や構造が異なるため、独自の解析プログラムでは対応できず、約款ごとに本文解析プログラムを書き直すことも現実的ではないため、モデルの改良が必要です。
知識抽出プロセスをより汎用性の高いものにするために、まず予測プロセスを変更します。新しい条項の元のテキストを単語数に応じてセグメントに分割します。各セグメントは約 300 単語です (文が途切れないようにしてください)。次に、各テキスト セグメントを次のように分割します。知識ポイントの考えられるコンテキストとして、モデルの入力として機能します。出力された回答が空の場合は、この段落に対応する知識ポイントがないことを意味します。そうでない場合は、すべてのテキスト段落の各知識ポイントの出力が総合的に考慮され、最も確率の高い回答がその回答として選択されます。知識ポイント。この新しい予測方法はあらゆる文節に汎用的であり、追加のテキスト解析の必要がなくなります。この方法を使用して数社の用語をテストした結果、古いモデルではうまく機能せず、精度が大幅に低下することがわかりました。その理由は、改善前は、トレーニング中に各ナレッジ ポイントのコンテキストがドキュメント構造に基づいて正確に配置されていたため、ネガティブ サンプルがあまりなかったため、モデルは正確に配置されたコンテキストに基づいて予測することしかできなかったためです。テキストの構成構造とタイトルの形式が変更されると、元のテキスト解析プログラムは問題のコンテキストを正確に特定できなくなり、大量の干渉データが生成され、モデルの効果に影響します。したがって、モデルのトレーニング プロセスを変更する必要があります。つまり、セグメントにナレッジ ポイントでマークされた回答が含まれている場合は、セグメント化されたテキスト データを追加します。新しいサンプル、それ以外の場合はネガティブサンプルとして使用されます(答えは空です)。実際のテストでは、これらすべての新しいサンプルがトレーニング セットに追加されると、生成されるトレーニング データが多すぎて、ネガティブ サンプルの数がポジティブ サンプルの数をはるかに超えることになります。このプロセスのバランスをとるために、さらに以下の改善を行いました。 知識ポイントの質問ごとに、約款自体に知識ポイントが含まれていない場合 (知識ポイントはすべての保険約款に対して均一に定義されているため、特定の約款については、すべての知識ポイントが含まれる可能性があります)、各フラグメントは 10% の確率で問題のネガティブ サンプルとして使用されます。節自体に知識ポイントが含まれている場合は、次の 2 つの状況が考えられます。ターゲット知識ポイントの場合、ポジティブ サンプルとして選択され、それ以外の場合は 50% の確率でネガティブ サンプルとして選択され、新しいモデルを取得するために新しいトレーニング セットが構築されます。このアイデアは、文節に知識ポイントが含まれている場合に、その知識ポイントに関連する否定的なサンプルの数を増やすことで、モデルが同様のフラグメントの干渉をより適切に処理し、回答の精度を向上できるようにすることです。文節自体に知識ポイントが含まれていない場合、テキストの断片と知識ポイントの間の適合性は低く、少数の負のサンプルを選択するだけで十分です。テストの結果、新しいモデルは古いモデルと比較して大幅に改善され、新しい予測方法により適しており、より一般的な保険約款知識抽出モデルとして使用できます。
我们的数据集由某保险公司的保险条款组成,每个条款具有人工标注的知识点,如犹豫期,诉讼期,保险金额等。在实验过程中,训练集,测试集分别由 251 个条款和 98 个条款组成。经过统计,这些条款中所有可能的知识点问题数量为309 条,平均每个条款有 45 条知识点需要提取。测试过程中,我们将条款文本分段,尝试从所有段中提取知识点𝑘𝑖,并根据模型输出的概率,选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串,则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分,大多数知识点的输出应当是空的,因此我们在评估时忽略这部分空知识点,关注两个指标:模型输出的知识点正确率𝑃,即精准率(precision),以及应提取知识点中确实被正确提取的比率𝑅,即召回率(recall)。假设知识点𝑘𝑖标注为𝑦𝑖,模型的输出为𝑦̃𝑖,则𝑃和𝑅可定义为:
Google のオープンソース BERT 中国語事前トレーニング モデル BERT_chinese_L-12_H-768_A-12 を使用し、これに基づいて後続のテストを実施します。パラメーター設定に関しては、初期学習率は 3E-5、バッチ サイズは 4、トレーニング エポック数は 4、その他のパラメーターはモデルのデフォルト構成を採用します。この記事の実験は 2 つのテスト部分で構成されています。最初の部分はベンチマーク モデルのテストです。まず、テキスト解析プログラムを使用して保険条項の構造を解析し、対応する知識が含まれるコンテキストを抽出します。ポイントが特定され、それが BERT のトレーニング セットに結合され、モデルが微調整されます。 2 番目の部分は、新しいモデルのテストです。トレーニング プロセスは、ベンチマーク モデルのトレーニング セットに基づいて新しいサンプルを追加することです。対応する保険約款は文字数に応じて段落に分かれており、各段落の本文は約 300 語です。知識ポイントの問題ごとに、新しいモデルをトレーニングするためのトレーニング セットが構築されます。次の表に示すように、テスト結果は、テスト セット内の 98 の保険条項の統計の平均です。
可以看出,以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型,其中𝑃提高了约 40%,𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中,仅通过文本解析程序精确定位知识点的上下文信息,导致模型只具备从正确的上下文中抽取对应的知识点的能力,而不具备辨别无效上下文的能力,因此基准模型存在很大比例的无效输出。而按比例添加负样本后,新模型的无效输出大幅度减少,输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息(文本段)组成的正样本,使得模型能够更好地从无规则截取的文本段中抽取出目标知识点,因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。
実験結果は、トレーニング セットを最適化した後にトレーニングされた新しいモデルが、テキスト セグメンテーション予測方法において元のベースライン モデルよりも優れており、より一般的な保険条項知識抽出タスクにもさらに使用できることを示しています。同時に、現行モデルにはまだ改善の余地がたくさんあります。