Извлечение неструктурированных текстовых знаний предметной области на основе BERT

2024-07-12

Каталог статей

тема

Большие языковые модели для тестирования пищевых продуктов

Адрес статьи: https://arxiv.org/abs/2103.00728.

Краткое содержание

С развитием технологии графов знаний и популяризацией коммерческих приложений растет потребность в извлечении объектов графа знаний и реляционных данных из различных неструктурированных текстов предметной области. Это делает автоматическое извлечение знаний из предметной области весьма значимым. В этой статье предлагается метод извлечения знаний на основе BERT, который используется для автоматического извлечения точек знаний из неструктурированных предметно-ориентированных текстов (например, статей о страховании в страховой отрасли) для экономии рабочей силы в процессе построения графа знаний. В отличие от широко используемых методов извлечения точек знаний, основанных на правилах, шаблонах или моделях извлечения сущностей, эта статья преобразует точки знаний из текста предметной области в пары вопросов и ответов, используя текст до и после позиции ответа в качестве контекста, а также использует BERT для понимания прочитанного на основе данных SQuAD. Точная настройка задачи. Отлаженная модель использовалась для автоматического извлечения знаний из большего количества статей страхования и дала хорошие результаты.

метод

В последние годы с углублением цифровой трансформации в различных отраслях резко возросло количество сопутствующих электронных текстов. В то же время все больше и больше предприятий начинают уделять внимание анализу данных, их добыче, а также разработке и использованию ресурсов данных. Компьютерные прикладные системы, такие как карты знаний и интеллектуальный диалог, стали основой для внутреннего обеспечения различных предприятий и учреждений. и внешние услуги. Таким приложениям часто необходимо извлекать структурированную информацию, содержащуюся в различных неструктурированных предметных текстах, для создания цифровых баз знаний. Данные являются основой компьютерных продуктов и услуг. Предоставление данных для компьютеров стало новой задачей развития предприятий и учреждений в новую эпоху. Исходные различные деловые и деловые документы на предприятиях и в учреждениях содержат массу знаний и информации, но все они написаны для чтения человеком. По сравнению с потребностями компьютерных программ в них много избыточной информации. В настоящее время при применении такого рода данных в основном требуется вложение большого количества рабочей силы для ручного извлечения необходимой информации путем чтения документов и выражения ее в форме, которую компьютер может прочитать («понять»). Это приводит к большим дополнительным затратам на обучение и потреблению человеческих ресурсов. Как использовать автоматизированные средства для обнаружения знаний из неструктурированных текстовых данных и использовать их в качестве ресурса данных, от которого зависят различные интеллектуальные приложения, является горячей точкой исследований в области извлечения знаний. В данной статье в качестве объекта исследования рассматривается неструктурированный текст в конкретной области и предлагается метод извлечения знаний с помощью модели понимания языка, основанной на глубоком обучении. Этот метод представляет точки знаний, которые необходимо извлечь, в виде пар вопрос-ответ, использует аннотированные вручную данные в качестве обучающих данных, выполняет перенос обучения на основе предварительно обученной модели и обеспечивает автоматическое извлечение из текстов в той же области посредством тонкая настройка модели точек знаний.

Для документов с унифицированными структурными характеристиками извлечение знаний может осуществляться с помощью правил построения. Построение правил часто завершается путем ручной индукции и обобщения, то есть чтения большого количества текстов в одной и той же области, выбора из них и обобщения окончательных правил извлечения. Джьоти и др. использовали подход, основанный на правилах, для извлечения эффективной информации из большого количества личных резюме и создания базы данных. JunJun и др. использовали аналогичный метод для извлечения академических концептуальных знаний из академической литературы. Преимущество этого метода в том, что он не требует обучающих моделей, он прост и эффективен; недостаток также очевиден. Создаваемые нами правила применимы только к текстам с одинаковой структурой и должны иметь строгие спецификации формата. меняется незначительно, требуется ручной труд, создаются новые правила извлечения знаний, поэтому метод не является переносимым.

Одна из задач извлечения знаний называется извлечение сущностей, которая заключается в извлечении содержимого предопределенных тегов из текста, например времени, местоположения и т. д. Конкретные теги зависят от приложения. Наиболее часто используемое извлечение знаний называется распознаванием именованного объекта (именованный объект). признание). признание сущности (NER). Само извлечение сущностей может быть решено непосредственно как задача маркировки последовательностей, которую можно обрабатывать с использованием традиционных статистических методов обучения, таких как скрытые марковские модели (HMM) или условные случайные поля (CRF). В последние годы для решения задач такого типа также применялись некоторые модели глубокого обучения. Например, метод аннотации последовательностей, сочетающий BiLSTM и CRF, дал хорошие результаты. Лэмпл и др. предложили новую сетевую структуру, используя составной LSTM для представления структуры стека, непосредственно создавая представление нескольких слов, и сравнили ее с моделью LSTM-CRF. Ма и др. предложили модель сквозной аннотации последовательностей, основанную на BiLSTM-CNN-CRF. Кроме того, точно настроенная модель BERT также может достичь хороших результатов в задачах маркировки последовательностей.

Помимо извлечения сущностей из текста, в центре внимания извлечения знаний также находятся отношения между сущностями, и их отношения обычно формируются в тройки.<E1, R, E2> , то цель задачи — извлечь из текста все возможные тройки отношений сущностей, а их отношения ограничиваются заданной схемой. Цзэн и др. разработали CNN для классификации отношений, но не троек. Макото и др. достигли сквозного прогнозирования отношений сущностей, построив стековую сеть на основе BiLSTM и Bi-TreeLSTM для одновременного извлечения сущностей и обнаружения связей. Ли и др. использовали двухуровневую LSTM с архитектурой кодировщика-декодера для построения модели извлечения знаний, которая не ограничивается тройками и может прогнозировать структурированные знания в фиксированном формате. Чжэн и др. преобразовали задачу извлечения сущностей и отношений в задачу маркировки последовательностей с помощью стратегии маркировки, а затем построили модель Bi-LSTM, аналогичную предыдущей, для ее решения. Луан и др. разработали многозадачную среду обучения для выявления сущностей и связей в научных документах для построения графиков научных знаний. Эта модель превзошла существующие модели без каких-либо предварительных знаний в предметной области.

除了以上提到的知识抽取模式，一个不同的角度是将知识点本身看作一个问题，将知识点的内容作为该问题的答案，将知识点所在的文本段作为这个问答对的上下文，这样知识抽取模型便可以用问答模型来构造。近年来，GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务，仅需简单改造原有网络结构，并进行微调，即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后，将其应用在一个更困难的问答数据集 NQ上，𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题，而不需要根据知识的形式单独设计新的网络结构。

Структурированные тексты в разных отраслях имеют разные характеристики в силу своих отраслевых особенностей. Некоторые отраслевые документы (например, медицинские инструкции) не только имеют строгую структуру, но и предъявляют очень строгие требования к терминологии и формулировкам, которые больше подходят для извлечения знаний на основе правил. Существуют также отрасли, тексты которых мало чем отличаются от обычных текстов (например, новостные репортажи, интервью и т. д.), для которых можно напрямую применить общую технологию извлечения. Есть также тексты в некоторых областях, которые находятся между ними и имеют определенную степень профессионализма, но не очень строги. Структура и формулировка аналогичных текстов разных компаний схожи, но различны. Использование и отображение терминологии внутри одной компании. .Относительно единый. Документы о страховых оговорках в страховой отрасли попадают в эту третью категорию текстов. Условия страхования – это положения, касающиеся прав и обязанностей обеих сторон, совместно согласованные обеими сторонами договора страхования – страховщиком (страховой компанией) и страхователем. Договор страхования обычно состоит из трех частей:

Основная информация, то есть информация о самой страховке, включая: страховщика, название статьи, аббревиатуру статьи, тип статьи, тип термина, период колебаний, срок исковой давности, номер и время подачи заявки, может ли она быть продана в качестве основного страхования. , и т. д.;
Условия покупки, то есть объективные условия, которым должен соответствовать застрахованный в соответствии с настоящим пунктом, в том числе: возраст застрахованного, пол, требования к профессии/виду работы, требования к медицинскому осмотру, требования социального обеспечения, личные обстоятельства, о которых необходимо правдиво сообщить, и т. д.;
Страховая ответственность, то есть объем ответственности и содержание возмещения настоящего пункта;

Хотя положения о страховании имеют определенную степень профессиональной лексики, использование профессиональной лексики в большинстве случаев не стандартизировано в отрасли (например, «период колебаний» также можно назвать «периодом обдумывания» и т. д.), и документ о статье является документ, предоставляемый страхователю для чтения. Большинство точек знаний, которые необходимо извлечь, смешаны в выражениях на естественном языке, которые не подходят для извлечения текста на основе статических правил. Хотя сами необходимые извлеченные очки знаний можно получить посредством извлечения сущностей, значения, соответствующие очкам знаний, часто смешиваются в выражении на естественном языке и не могут быть извлечены вместе с описанием точки знаний. Например: срок исковой давности для определенного пункта составляет 2 года. Это «2 года» может появиться в следующем описании: «Срок исковой давности для бенефициара, который может запросить у нас страховые выплаты или освобождение от страховых взносов, составляет 2 года, поскольку выгодоприобретатель знает или должно быть известно, что расчет начинается с даты страхового случая. «Поэтому, когда нам нужно извлечь из условий страхования основную информацию, условия покупки, страховую ответственность и другие моменты знаний, мы прямо исключаем правило- методы извлечения на основе и на основе сущностей. Если для преобразования очков знаний в тройки используется извлечение в стиле схемы, требуемый набор обучающих данных и объем маркировки будут относительно большими. Для нашей цели выигрыш неизбежно перевесит потери. Поэтому мы, наконец, выбрали метод извлечения знаний на основе вопросов и ответов.

В последние годы метод обучения посредством тонкой настройки на основе предварительно обученных моделей добился больших успехов в области обработки естественного языка (НЛП), важным представителем которой является модель BERT. BERT — это модель представления двунаправленного кодирования, основанная на преобразователях. Ее топология представляет собой многоуровневую двунаправленную трансформаторную сеть. Модель BERT представляет собой типичное приложение, основанное на тонком обучении, а это означает, что ее построение включает два этапа: предварительное обучение и тонкая настройка. Во-первых, на этапе предварительного обучения обучается большое количество неразмеченных корпусных данных различных обучающих задач, а знания в корпусе передаются в встраивание текста (Embedding) предварительного обучения. Таким образом, на этапе тонкой настройки вам нужно всего лишь добавить в нейронную сеть дополнительный выходной слой, чтобы настроить предварительно обученную модель. В частности, точная настройка заключается в инициализации модели BERT с предварительно обученными параметрами, а затем в точной настройке модели с использованием помеченных данных из последующих задач. В ответ на нашу потребность извлечь точки знаний из страховых документов, нам нужно использовать только данные о страховых пунктах для точной настройки задачи вопросов и ответов BERT для удовлетворения потребностей в извлечении знаний о страховых пунктах.

Процесс извлечения знаний о страховых положениях сначала создает вручную помеченные точки знаний о страховых положениях в виде<question, answer> в форме, а затем с помощью программы синтаксического анализа текста разобрать документ с условиями страхования в дерево документов, в котором основной заголовок является корневым узлом, а каждый последующий заголовок является дочерним узлом предыдущего уровня, а каждый абзац текста читается. Возьмите его как листовой узел.Сопоставьте ответ в паре вопрос-ответ с конечным узлом, где он расположен, и используйте текст, соответствующий всему листовому узлу, в качестве контекста пары вопрос-ответ и, наконец, постройте<question, answer, context> Наконец, этот набор данных используется для обучения модели предварительного обучения BERT в соответствии с методом тонкой настройки для задач понимания прочитанного на основе данных SQuAD, и получается окончательная модель извлечения знаний. Как показано на рисунке выше, для задач вопросов и ответов вам нужно только добавить дополнительный полносвязный слой после вывода вектора кодирования с помощью BERT, чтобы предсказать положение ответа в контексте.Во время тестирования новых статей страхования контекст различных точек знаний должен быть проанализирован таким же образом, а затем<question, context> В качестве входных данных для модели получаются ответы на каждую точку знаний. Вышеупомянутый метод позволяет лучше обрабатывать статьи страхования одной и той же компании и одного типа. Это связано с тем, что структура статей страхования одной и той же компании единообразна, и для анализа контекста можно использовать одну и ту же программу. статьи разных компаний и типов. Поскольку терминология и структура различны, исходная программа анализа не может с этим справиться, а переписать программу анализа текста для каждого предложения невозможно, поэтому модель необходимо усовершенствовать.

Чтобы сделать процесс извлечения знаний более универсальным, сначала модифицируем процесс прогнозирования: разделяем исходный текст нового предложения на сегменты по количеству слов, каждый сегмент составляет около 300 слов (старайтесь не разрывать предложения), а затем разделите каждый сегмент текста на возможные контексты любой точки знаний, которые служат входными данными для модели. Если выходной ответ пуст, это означает, что в данном параграфе нет соответствующего пункта знаний. В противном случае вывод каждого балла знаний во всех параграфах текста рассматривается комплексно, и в качестве ответа на вопрос выбирается ответ с наибольшей вероятностью. точка знаний. Этот новый метод прогнозирования является универсальным для любого предложения и устраняет необходимость дополнительного анализа текста. Мы протестировали термины нескольких разных компаний, используя этот метод, и результаты показали, что он не работает со старой моделью, и точность значительно упала. Причина в том, что до улучшения во время обучения контекст каждой точки знаний точно позиционировался на основе структуры документа. Отрицательных выборок было не так много, поэтому модель могла делать прогнозы только на основе точно позиционированного контекста. Как только структура организации текста и формат заголовка изменяются, исходная программа анализа текста не может точно определить контекст проблемы, генерируя много мешающих данных и влияя на эффект модели. Следовательно, процесс обучения модели необходимо изменить. Мы добавляем сегментированные текстовые данные, то есть сегментируем каждое предложение в обучающем наборе одинаково. Если сегмент содержит ответ, отмеченный точкой знаний, он используется как. новый образец, в противном случае он используется как отрицательный образец (ответ пуст). В реальном тестировании, если все эти новые образцы будут добавлены в обучающий набор, будет сгенерировано слишком много обучающих данных, а количество отрицательных образцов будет намного превышать количество положительных образцов. Чтобы сбалансировать этот процесс, мы дополнительно внесли следующие улучшения: Для каждого вопроса о очках знаний, если пункт сам по себе не содержит балл знаний (поскольку балл знаний единообразно определен для всех пунктов страхования, поэтому для конкретного пункта не в него могут быть включены все точки знаний), то каждый фрагмент используется как отрицательная выборка задачи с вероятностью 10%, если в самом предложении содержится точка знаний, возможны две ситуации. целевая точка знаний, затем как положительная выборка, в противном случае она выбирается как отрицательная выборка с вероятностью 50%. Таким образом создается новый обучающий набор для получения новой модели. Идея состоит в том, чтобы увеличить количество отрицательных выборок, связанных с точкой знаний, если предложение содержит ее, чтобы модель могла лучше справляться с интерференцией похожих фрагментов и повысить точность ответа. Если само предложение не содержит точки знаний, соответствие между фрагментом текста и точкой знаний должно быть плохим, и достаточно выбрать небольшое количество отрицательных образцов. После тестирования новая модель была значительно улучшена по сравнению со старой моделью, больше подходит для нового метода прогнозирования и может использоваться в качестве более общей модели извлечения знаний о страховом условии.

эксперимент

我们的数据集由某保险公司的保险条款组成，每个条款具有人工标注的知识点，如犹豫期，诉讼期，保险金额等。在实验过程中，训练集，测试集分别由 251 个条款和 98 个条款组成。经过统计，这些条款中所有可能的知识点问题数量为309 条，平均每个条款有 45 条知识点需要提取。测试过程中，我们将条款文本分段，尝试从所有段中提取知识点𝑘𝑖，并根据模型输出的概率，选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串，则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分，大多数知识点的输出应当是空的，因此我们在评估时忽略这部分空知识点，关注两个指标：模型输出的知识点正确率𝑃，即精准率（precision），以及应提取知识点中确实被正确提取的比率𝑅，即召回率（recall）。假设知识点𝑘𝑖标注为𝑦𝑖，模型的输出为𝑦̃𝑖，则𝑃和𝑅可定义为：

Мы используем китайскую модель предварительного обучения BERT с открытым исходным кодом BERT_chinese_L-12_H-768_A-12 от Google и проводим последующие тесты на этой основе. Что касается настроек параметров, начальная скорость обучения составляет 3E-5, размер пакета — 4, количество эпох обучения — 4, а другие параметры принимают конфигурацию модели по умолчанию. Эксперимент в этой статье состоит из двух частей тестирования. Первая часть — это проверка эталонной модели. Процесс обучения заключается в следующем: сначала используйте программу синтаксического анализа текста, чтобы проанализировать структуру пунктов страхования, извлечь контекст, в котором содержатся соответствующие знания. точки расположены, а затем объединить их в обучающий набор для BERT. Модель точно настроена. Вторая часть — тестирование новой модели. Процесс обучения заключается в добавлении новых образцов на основе обучающего набора эталонной модели. Соответствующие статьи страхования разделены на абзацы по количеству слов. Каждый абзац текста составляет около 300 слов. Для каждой проблемы с оценкой знаний создается обучающий набор для обучения новой модели. Результатом теста является среднее значение статистики 98 статей страхования в тестовом наборе, как показано в следующей таблице:

可以看出，以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型，其中𝑃提高了约 40%，𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中，仅通过文本解析程序精确定位知识点的上下文信息，导致模型只具备从正确的上下文中抽取对应的知识点的能力，而不具备辨别无效上下文的能力，因此基准模型存在很大比例的无效输出。而按比例添加负样本后，新模型的无效输出大幅度减少，输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息（文本段）组成的正样本，使得模型能够更好地从无规则截取的文本段中抽取出目标知识点，因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。

Результаты экспериментов показывают, что новая модель, обученная после оптимизации обучающего набора, лучше исходной базовой модели в методе прогнозирования сегментации текста и может в дальнейшем использоваться в более общих задачах извлечения знаний о страховых пунктах. В то же время текущая модель еще имеет много возможностей для совершенствования.

Из-за ограничений реалистичных условий (объема аннотаций данных) наше обучение включало только 251 термин, и все данные обучения были получены от одной и той же страховой компании. После расширения размера набора данных за счет включения большего количества данных о терминах, установленных страховщиками, эффект модели следует дополнительно оптимизировать.
В настоящее время наша аннотация данных содержит только содержимое точек знаний предложения, а соответствующий контекст в обучающих данных получается с помощью самописной программы анализа текста. Полученный таким образом контекст содержит небольшое количество ошибок. Стратегию ручного аннотирования можно оптимизировать, а точки знаний и их контексты можно аннотировать одновременно, чтобы полученные данные были более точными.

Обмен технологиями