Unstrukturierte Domänentext-Wissensextraktion basierend auf BERT

2024-07-12

Artikelverzeichnis

Thema

Große Sprachmodelle für Lebensmitteltests

Papieradresse: https://arxiv.org/abs/2103.00728

Zusammenfassung

Mit der Entwicklung der Knowledge-Graph-Technologie und der Popularisierung kommerzieller Anwendungen besteht ein zunehmender Bedarf, Knowledge-Graph-Entitäten und relationale Daten aus verschiedenen unstrukturierten Domänentexten zu extrahieren. Dies macht die automatisierte Wissensextraktion aus Domänentext sehr sinnvoll. In diesem Artikel wird eine auf BERT basierende Wissensextraktionsmethode vorgeschlagen, mit der automatisch Wissenspunkte aus unstrukturierten domänenspezifischen Texten (z. B. Versicherungsklauseln in der Versicherungsbranche) extrahiert werden, um beim Aufbau eines Wissensgraphen Arbeitskräfte einzusparen. Im Gegensatz zu den häufig verwendeten Methoden zur Extraktion von Wissenspunkten, die auf Regeln, Vorlagen oder Entitätsextraktionsmodellen basieren, werden in diesem Artikel die Wissenspunkte des Domänentexts in Frage- und Antwortpaare umgewandelt, wobei der Text vor und nach der Antwortposition als Kontext verwendet wird BERT führt Leseverständnis basierend auf SQuAD-Daten durch und optimiert die Aufgabe. Das optimierte Modell wurde verwendet, um automatisch Wissenspunkte aus mehreren Versicherungsklauseln zu extrahieren, und erzielte gute Ergebnisse.

Methode

In den letzten Jahren ist mit der Vertiefung der digitalen Transformation in verschiedenen Branchen die Zahl verwandter elektronischer Texte stark gestiegen. Gleichzeitig beginnen immer mehr Unternehmen, der Datenanalyse, dem Mining und der Entwicklung und Nutzung von Datenressourcen Aufmerksamkeit zu schenken. Computeranwendungssysteme wie Wissenskarten und intelligenter Dialog sind zur Grundlage für die interne Bereitstellung verschiedener Unternehmen und Institutionen geworden und externe Dienstleistungen. Solche Anwendungen müssen häufig die strukturierten Informationen extrahieren, die in verschiedenen unstrukturierten Domänentexten enthalten sind, um digitale Wissensdatenbanken aufzubauen. Daten sind die Grundlage von Computerprodukten und -dienstleistungen. Die Bereitstellung von Daten für Computer ist zu einer neuen Aufgabe für die Entwicklung von Unternehmen und Institutionen im neuen Zeitalter geworden. Die ursprünglichen verschiedenen Geschäfts- und Geschäftsdokumente in Unternehmen und Institutionen enthalten eine Fülle von Wissen und Informationen, sind jedoch alle für die menschliche Lektüre geschrieben. Im Vergleich zu den Anforderungen von Computerprogrammen gibt es viele redundante Informationen. Bei der Anwendung dieser Art von Daten ist derzeit im Wesentlichen die Investition großer Arbeitskräfte erforderlich, um die erforderlichen Informationen manuell durch Lesen von Dokumenten zu extrahieren und in eine Form zu bringen, die ein Computer lesen („verstehen“) kann. Dies führt zu hohen zusätzlichen Lernkosten und einem hohen Personalverbrauch. Wie man mithilfe automatisierter Mittel Wissen aus unstrukturierten Textdaten entdecken und es als Datenressource nutzen kann, von der verschiedene intelligente Anwendungen abhängen, ist ein Forschungsschwerpunkt auf dem Gebiet der Wissensextraktion. Dieser Artikel nimmt unstrukturierten Text in einem bestimmten Bereich als Forschungsobjekt und schlägt eine Methode zur Wissensextraktion durch ein auf Deep Learning basierendes Sprachverständnismodell vor. Diese Methode stellt die zu extrahierenden Wissenspunkte in Form von Frage-Antwort-Paaren dar, verwendet manuell annotierte Daten als Trainingsdaten, führt Transferlernen auf der Grundlage des vorab trainierten Modells durch und erhält eine automatische Extraktion aus Texten im gleichen Bereich durch Feinabstimmung. Modell der Wissenspunkte.

Für Dokumente mit einheitlichen Strukturvorgaben kann die Wissensextraktion durch Bauregeln erfolgen. Die Erstellung von Regeln wird häufig durch manuelle Induktion und Zusammenfassung abgeschlossen, d. h. durch das Lesen einer großen Anzahl von Texten im gleichen Bereich, die Auswahl daraus und die Zusammenfassung der endgültigen Extraktionsregeln. Jyothi et al. verwendeten einen regelbasierten Ansatz, um effektive Informationen aus einer großen Anzahl persönlicher Lebensläufe zu extrahieren und eine Datenbank aufzubauen. JunJun et al. verwendeten eine ähnliche Methode, um akademisches konzeptionelles Wissen aus der akademischen Literatur zu extrahieren. Der Vorteil dieser Methode besteht darin, dass sie keine Trainingsmodelle erfordert und auch der Nachteil liegt auf der Hand. Die von uns erstellten Regeln gelten nur für Texte mit derselben Struktur und müssen strenge Formatspezifikationen haben Da sich die Methode geringfügig ändert, sind neue Regeln zur Wissensextraktion erforderlich, sodass sie nicht portierbar ist.

Eine Aufgabe der Wissensextraktion wird Entitätsextraktion genannt, bei der vordefinierte Tag-Inhalte wie Zeit, Ort usw. aus Text extrahiert werden. Die spezifischen Tags hängen von der Anwendung ab. Die am häufigsten verwendete Wissensextraktion wird als benannte Entitätserkennung (benannte Entität) bezeichnet Entitätserkennung (NER). Die Entitätsextraktion selbst kann direkt als Sequenzkennzeichnungsaufgabe gelöst werden, die mit herkömmlichen statistischen Lernmethoden wie Hidden-Markov-Modellen (HMM) oder bedingten Zufallsfeldern (CRF) verarbeitet werden kann. In den letzten Jahren wurden auch einige Deep-Learning-Modelle auf diese Art von Problem angewendet. Beispielsweise hat die Sequenzannotationsmethode, die BiLSTM und CRF kombiniert, gute Ergebnisse erzielt. Lample et al. schlugen eine neue Netzwerkstruktur vor, bei der gestapeltes LSTM zur Darstellung einer Stapelstruktur verwendet wurde, um die Darstellung mehrerer Wörter direkt zu konstruieren, und verglichen sie mit dem LSTM-CRF-Modell. Ma et al. schlugen ein End-to-End-Sequenzannotationsmodell basierend auf BiLSTM-CNN-CRF vor. Darüber hinaus kann das fein abgestimmte BERT-Modell auch bei Sequenzmarkierungsaufgaben gute Ergebnisse erzielen.

Neben der Extraktion von Entitäten aus Text steht auch die Beziehung zwischen Entitäten im Mittelpunkt der Wissensextraktion. Ihre Beziehungen werden in der Regel zu Tripeln geformt.<E1, R, E2> Dann besteht das Ziel der Aufgabe darin, alle möglichen Entitätsbeziehungstripel aus dem Text zu extrahieren und ihre Beziehungen auf das voreingestellte Schema zu beschränken. Zeng et al. haben CNN entwickelt, um Beziehungen zu klassifizieren, nicht jedoch Tripel. Makoto et al. erreichten eine durchgängige Vorhersage von Entitätsbeziehungen, indem sie ein Stapelnetzwerk basierend auf BiLSTM und Bi-TreeLSTM aufbauten, um gleichzeitig Entitätsextraktion und Beziehungserkennung durchzuführen. Li et al. verwendeten ein doppelschichtiges LSTM mit einer Encoder-Decoder-Architektur, um ein Wissensextraktionsmodell zu erstellen, das nicht auf Tripel beschränkt ist und strukturiertes Wissen in einem festen Format vorhersagen kann. Zheng et al. wandelten die Entitäts- und Beziehungsextraktionsaufgabe mithilfe einer Kennzeichnungsstrategie in eine Sequenzkennzeichnungsaufgabe um und erstellten dann ein dem vorherigen ähnliches Bi-LSTM-Modell, um damit umzugehen. Luan et al. haben einen Multitasking-Lernrahmen zur Identifizierung von Entitäten und Beziehungen in wissenschaftlichen Dokumenten entwickelt, um wissenschaftliche Wissensgraphen zu erstellen. Dieses Modell übertrifft bestehende Modelle ohne Vorkenntnisse in der Domäne.

除了以上提到的知识抽取模式，一个不同的角度是将知识点本身看作一个问题，将知识点的内容作为该问题的答案，将知识点所在的文本段作为这个问答对的上下文，这样知识抽取模型便可以用问答模型来构造。近年来，GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务，仅需简单改造原有网络结构，并进行微调，即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后，将其应用在一个更困难的问答数据集 NQ上，𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题，而不需要根据知识的形式单独设计新的网络结构。

Strukturierte Texte in verschiedenen Branchen weisen aufgrund ihrer Branchenmerkmale unterschiedliche Merkmale auf. Einige branchenspezifische Dokumente (z. B. medizinische Anweisungen) weisen nicht nur eine strenge Struktur auf, sondern stellen auch sehr strenge Anforderungen an Terminologie und Formulierungen, die sich besser für die regelbasierte Wissensextraktion eignen. Es gibt auch einige Branchen, deren Texte sich nicht wesentlich von allgemeinen Texten unterscheiden (z. B. Nachrichtenberichte, Interviews usw.), für die allgemeine Extraktionstechnologie direkt angewendet werden kann. In einigen Bereichen gibt es auch Texte, die einen gewissen Grad an Professionalität aufweisen, aber nicht sehr streng sind. Der Aufbau und die Formulierung ähnlicher Texte aus verschiedenen Unternehmen sind ähnlich, aber die Verwendung und Darstellung der Terminologie innerhalb desselben Unternehmens . Relativ einheitlich. Versicherungsklauseldokumente in der Versicherungsbranche fallen in diese dritte Textkategorie. Versicherungsklauseln sind Bestimmungen über die Rechte und Pflichten beider Parteien, die von beiden Parteien eines Versicherungsvertrags – dem Versicherer (Versicherungsunternehmen) und dem Versicherungsnehmer – gemeinsam vereinbart werden. Eine Versicherungsklausel besteht im Allgemeinen aus drei Teilen:

Grundlegende Informationen, d. h. Informationen über die Klausel selbst, einschließlich: Versicherer, Klauselname, Klauselabkürzung, Klauseltyp, Laufzeittyp, Wartezeit, Verjährungsfrist, Anmeldenummer und Anmeldezeitpunkt, ob sie als Hauptversicherung verkauft werden kann , usw.;
Kaufbedingungen, d. h. die objektiven Bedingungen, die der Versicherte gemäß dieser Klausel erfüllen muss, einschließlich: Alter, Geschlecht, Berufs-/Art der Arbeitsanforderungen des Versicherten, Anforderungen an eine körperliche Untersuchung, Anforderungen an die soziale Sicherheit, persönliche Umstände, die wahrheitsgemäß angegeben werden müssen, usw.;
Versicherungshaftung, d. h. der Umfang der Haftung und der Entschädigungsinhalt dieser Klausel;

Obwohl Versicherungsklauseln über ein gewisses Maß an Fachvokabular verfügen, ist die Verwendung des Fachvokabulars in der Branche meist nicht standardisiert (z. B. „Zögernzeit“ kann auch „Bedenkzeit“ genannt werden usw.), und das Klauseldokument ist es auch Ein Dokument, das dem Versicherungsnehmer zum Lesen übergeben wird. Die meisten zu extrahierenden Wissenspunkte sind in einem natürlichsprachlichen Ausdruck gemischt, der für die Textextraktion basierend auf statischen Regeln nicht geeignet ist. Obwohl die erforderlichen extrahierten Wissenspunkte selbst durch Entitätsextraktion erhalten werden können, werden die den Wissenspunkten entsprechenden Werte häufig in einem Ausdruck in natürlicher Sprache gemischt und können nicht zusammen mit der Beschreibung der Wissenspunkte extrahiert werden. Beispiel: Die Verjährungsfrist für eine bestimmte Klausel beträgt 2 Jahre. Diese „2 Jahre“ können in der folgenden Beschreibung erscheinen: „Die Verjährungsfrist für einen Anspruch auf Versicherungsleistungen oder Versicherungsprämienbefreiung bei uns beträgt 2 Jahre Der Begünstigte weiß oder es sollte bekannt sein, dass die Berechnung ab dem Datum des Versicherungsunfalls beginnt. „Wenn wir also grundlegende Informationen, Kaufbedingungen, Versicherungshaftung und andere Wissenspunkte aus den Versicherungsbedingungen extrahieren müssen, schließen wir die Regel direkt aus.“ basierte und entitätsbasierte Extraktionsmethoden. Wenn die Extraktion im Schema-Stil verwendet wird, um Wissenspunkte in Tripel umzuwandeln, sind der erforderliche Trainingsdatensatz und die Menge an Beschriftungen relativ groß. Für unseren Zweck wird der Gewinn zwangsläufig den Verlust überwiegen. Aus diesem Grund haben wir uns schließlich für eine auf Fragen und Antworten basierende Methode zur Wissensextraktion entschieden.

In den letzten Jahren hat die Methode des Lernens durch Feinabstimmung auf der Grundlage vorab trainierter Modelle große Erfolge im Bereich der Verarbeitung natürlicher Sprache (NLP) erzielt, wofür das BERT-Modell ein wichtiger Vertreter ist. BERT ist ein bidirektionales Codierungsdarstellungsmodell, das auf Transformatoren basiert. Seine Topologie ist ein mehrschichtiges bidirektionales Transformatornetzwerk. Das BERT-Modell ist eine typische Anwendung, die auf dem Feinabstimmungslernen basiert. Das bedeutet, dass seine Konstruktion zwei Schritte umfasst: Vortraining und Feinabstimmung. Zunächst wird in der Vortrainingsphase eine große Anzahl unbeschrifteter Korpusdaten verschiedener Trainingsaufgaben trainiert und das Wissen im Korpus in die Texteinbettung (Einbettung) des Vortrainingsmodells übertragen. Auf diese Weise müssen Sie während der Feinabstimmungsphase lediglich eine zusätzliche Ausgabeschicht zum neuronalen Netzwerk hinzufügen, um das vorab trainierte Modell anzupassen. Konkret besteht die Feinabstimmung darin, das BERT-Modell mit vorab trainierten Parametern zu initialisieren und das Modell dann mithilfe gekennzeichneter Daten aus nachgelagerten Aufgaben zu optimieren. Als Reaktion auf unseren Bedarf, Wissenspunkte aus Versicherungsdokumenten zu extrahieren, müssen wir lediglich Versicherungsklauseldaten verwenden, um die Frage- und Antwortaufgabe von BERT so zu optimieren, dass sie den Anforderungen der Wissensextraktion zu Versicherungsklauseln gerecht wird.

Der Extraktionsprozess des Versicherungsklausel-Wissens erzeugt zunächst manuell beschriftete Versicherungsklausel-Wissenspunkte<question, answer> im Formular und verwenden Sie dann ein Textanalyseprogramm, um ein Dokument mit Versicherungsbedingungen in einen Dokumentbaum zu analysieren, in dem der Haupttitel der Stammknoten und jeder nachfolgende Titel ein untergeordneter Knoten der vorherigen Ebene sowie jeder Textabsatz ist wird gelesen Nehmen Sie es als Blattknoten.Ordnen Sie die Antwort im Frage-Antwort-Paar dem Blattknoten zu, in dem sie sich befindet, verwenden Sie den dem gesamten Blattknoten entsprechenden Text als Kontext des Frage-Antwort-Paares und konstruieren Sie schließlich a<question, answer, context> Schließlich wird dieser Datensatz verwendet, um das BERT-Vortrainingsmodell gemäß der Feinabstimmungsmethode für Leseverständnisaufgaben basierend auf SQuAD-Daten zu trainieren und das endgültige Wissensextraktionsmodell zu erhalten. Wie in der Abbildung oben gezeigt, müssen Sie für Frage- und Antwortaufgaben nach dem von BERT ausgegebenen Codierungsvektor nur eine zusätzliche vollständig verbundene Ebene hinzufügen, um die Position der Antwort im Kontext vorherzusagen.Beim Testen neuer Versicherungsklauseln muss der Kontext verschiedener Wissenspunkte auf die gleiche Weise analysiert und dann die<question, context> Als Eingabe für das Modell werden Antworten zu jedem Wissenspunkt erhalten. Mit der oben genannten Methode können Versicherungsklauseln desselben Unternehmens und desselben Typs besser verarbeitet werden. Dies liegt daran, dass die Struktur der Versicherungsklauseln desselben Unternehmens konsistent ist und das gleiche Programm zur Analyse des Kontexts verwendet werden kann Klauseln verschiedener Unternehmen und Typen. Da Terminologie und Struktur unterschiedlich sind, kann das ursprüngliche Analyseprogramm damit nicht umgehen und es ist nicht möglich, für jede Klausel ein Textanalyseprogramm neu zu schreiben, sodass das Modell verbessert werden muss.

Um den Wissensextraktionsprozess vielseitiger zu gestalten, ändern wir zunächst den Vorhersageprozess: Teilen Sie den Originaltext des neuen Satzes entsprechend der Anzahl der Wörter in Segmente auf. Jedes Segment umfasst etwa 300 Wörter (versuchen Sie, die Sätze nicht zu unterbrechen). und unterteilen Sie dann jedes Textsegment in Als möglichen Kontext eines beliebigen Wissenspunkts dient er als Eingabe des Modells. Wenn die Ausgabeantwort leer ist, bedeutet dies, dass in diesem Absatz kein entsprechender Wissenspunkt vorhanden ist. Andernfalls wird die Ausgabe jedes Wissenspunkts in allen Textabsätzen umfassend berücksichtigt und die Antwort mit der höchsten Wahrscheinlichkeit als Antwort auf die Frage ausgewählt Wissenspunkt. Diese neue Vorhersagemethode ist für jede Klausel universell einsetzbar und macht eine zusätzliche Textanalyse überflüssig. Wir haben Begriffe verschiedener Unternehmen mit dieser Methode getestet und die Ergebnisse zeigten, dass sie mit dem alten Modell nicht gut funktionierte und die Genauigkeit erheblich abnahm. Der Grund dafür ist: Vor der Verbesserung wurde der Kontext jedes Wissenspunkts während des Trainings genau auf der Grundlage der Dokumentstruktur positioniert. Es gab nicht viele negative Stichproben, sodass das Modell nur auf der Grundlage des genau positionierten Kontexts Vorhersagen treffen konnte. Sobald sich die Struktur der Textorganisation und das Titelformat ändern, kann das ursprüngliche Textanalyseprogramm den Problemkontext nicht genau lokalisieren, wodurch viele störende Daten generiert werden und die Wirkung des Modells beeinträchtigt wird. Daher muss der Trainingsprozess des Modells geändert werden, d. h. jede Klausel im Trainingssatz wird auf die gleiche Weise segmentiert. Wenn das Segment die durch den Wissenspunkt markierte Antwort enthält, wird es als verwendet eine neue Probe, andernfalls wird sie als negative Probe verwendet (Antwort ist leer). Wenn beim tatsächlichen Testen alle diese neuen Proben zum Trainingssatz hinzugefügt werden, werden zu viele Trainingsdaten generiert und die Anzahl der negativen Proben wird die Anzahl der positiven Proben bei weitem übersteigen. Um diesen Prozess auszugleichen, haben wir folgende Verbesserungen vorgenommen: Für jede Wissenspunktfrage: Wenn die Klausel selbst den Wissenspunkt nicht enthält (da der Wissenspunkt für alle Versicherungsklauseln einheitlich definiert ist, also für eine bestimmte Klausel, nicht). alle Wissenspunkte können darin enthalten sein), dann wird jedes Fragment mit einer Wahrscheinlichkeit von 10 % als negative Stichprobe des Problems verwendet; wenn die Klausel selbst den Wissenspunkt enthält, gibt es zwei Situationen. Wenn das aktuelle Textfragment das enthält Zielwissenspunkt, dann Als positive Stichprobe, andernfalls wird sie mit einer Wahrscheinlichkeit von 50 % als negative Stichprobe ausgewählt. Auf diese Weise wird ein neuer Trainingssatz erstellt, um ein neues Modell zu erhalten. Die Idee besteht darin, die Anzahl der negativen Stichproben im Zusammenhang mit dem Wissenspunkt zu erhöhen, wenn die Klausel diesen enthält, damit das Modell die Interferenz ähnlicher Fragmente besser verarbeiten und die Genauigkeit der Antwort verbessern kann. Wenn die Klausel selbst keinen Wissenspunkt enthält, sollte die Übereinstimmung zwischen dem Textfragment und dem Wissenspunkt schlecht sein, und es reicht aus, eine kleine Anzahl negativer Stichproben auszuwählen. Nach dem Test wurde das neue Modell im Vergleich zum alten Modell erheblich verbessert, eignet sich besser für die neue Vorhersagemethode und kann als allgemeineres Wissensextraktionsmodell für Versicherungsklauseln verwendet werden.

Experiment

我们的数据集由某保险公司的保险条款组成，每个条款具有人工标注的知识点，如犹豫期，诉讼期，保险金额等。在实验过程中，训练集，测试集分别由 251 个条款和 98 个条款组成。经过统计，这些条款中所有可能的知识点问题数量为309 条，平均每个条款有 45 条知识点需要提取。测试过程中，我们将条款文本分段，尝试从所有段中提取知识点𝑘𝑖，并根据模型输出的概率，选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串，则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分，大多数知识点的输出应当是空的，因此我们在评估时忽略这部分空知识点，关注两个指标：模型输出的知识点正确率𝑃，即精准率（precision），以及应提取知识点中确实被正确提取的比率𝑅，即召回率（recall）。假设知识点𝑘𝑖标注为𝑦𝑖，模型的输出为𝑦̃𝑖，则𝑃和𝑅可定义为：

Wir verwenden das Open-Source-BERT-Chinese-Pre-Training-Modell BERT_chinese_L-12_H-768_A-12 von Google und führen nachfolgende Tests auf dieser Basis durch. In Bezug auf die Parametereinstellungen beträgt die anfängliche Lernrate 3E-5, die Stapelgröße 4, die Anzahl der Trainingsepochen 4 und die anderen Parameter übernehmen die Standardkonfiguration des Modells. Das Experiment in diesem Artikel besteht aus zwei Testteilen. Der erste Teil ist der Test des Benchmark-Modells. Der Trainingsprozess besteht darin, zunächst die Struktur der Versicherungsklauseln zu analysieren und den Kontext zu extrahieren Punkte werden lokalisiert und dann zu einem Trainingssatz für BERT kombiniert. Das Modell wird verfeinert. Der zweite Teil ist das Testen des neuen Modells. Der Trainingsprozess besteht aus dem Hinzufügen neuer Proben basierend auf dem Trainingssatz des Benchmark-Modells. Die entsprechenden Versicherungsklauseln sind entsprechend der Wortanzahl in Absätze unterteilt. Jeder Textabsatz umfasst etwa 300 Wörter. Für jedes Wissenspunktproblem wird ein Trainingssatz erstellt, um ein neues Modell zu trainieren. Das Testergebnis ist der Durchschnitt der Statistiken von 98 Versicherungsklauseln im Testsatz, wie in der folgenden Tabelle dargestellt:

可以看出，以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型，其中𝑃提高了约 40%，𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中，仅通过文本解析程序精确定位知识点的上下文信息，导致模型只具备从正确的上下文中抽取对应的知识点的能力，而不具备辨别无效上下文的能力，因此基准模型存在很大比例的无效输出。而按比例添加负样本后，新模型的无效输出大幅度减少，输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息（文本段）组成的正样本，使得模型能够更好地从无规则截取的文本段中抽取出目标知识点，因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。

Experimentelle Ergebnisse zeigen, dass das neue Modell, das nach der Optimierung des Trainingssatzes trainiert wurde, in der Textsegmentierungsvorhersagemethode besser ist als das ursprüngliche Basismodell und für allgemeinere Aufgaben zur Wissensextraktion von Versicherungsklauseln weiter verwendet werden kann. Gleichzeitig bietet das aktuelle Modell noch viel Raum für Verbesserungen.

Aufgrund von Einschränkungen realistischer Bedingungen (Datenanmerkungsvolumen) umfasste unsere Schulung nur 251 Begriffe und alle Schulungsdaten stammten von derselben Versicherungsgesellschaft. Nach der Erweiterung des Datensatzes um weitere Begriffsdatensätze der Versicherer soll die Wirkung des Modells weiter optimiert werden.
Derzeit enthält unsere Datenanmerkung nur den Inhalt von Klauselwissenspunkten, und der entsprechende Kontext in den Trainingsdaten wird durch ein selbst geschriebenes Textanalyseprogramm ermittelt. Der auf diese Weise erhaltene Kontext enthält eine geringe Anzahl von Fehlern. Die manuelle Annotationsstrategie kann optimiert werden und Wissenspunkte und ihre Kontexte können gleichzeitig mit Anmerkungen versehen werden, sodass die erhaltenen Daten genauer sein können.

Technologieaustausch