Extração de conhecimento de texto de domínio não estruturado com base em BERT

2024-07-12

Diretório de artigos

tema

Grandes modelos de linguagem para testes de alimentos

Endereço do artigo: https://arxiv.org/abs/2103.00728

Resumo

Com o desenvolvimento da tecnologia de gráficos de conhecimento e a popularização de aplicações comerciais, há uma necessidade crescente de extrair entidades de gráficos de conhecimento e dados relacionais de vários textos de domínio não estruturados. Isso torna a extração automatizada de conhecimento do texto do domínio bastante significativa. Este artigo propõe um método de extração de conhecimento baseado em BERT, que é usado para extrair automaticamente pontos de conhecimento de textos não estruturados de domínios específicos (como cláusulas de seguros no setor de seguros) para economizar mão de obra no processo de construção de gráficos de conhecimento. Diferente dos métodos comumente usados de extração de pontos de conhecimento baseados em regras, modelos ou modelos de extração de entidades, este artigo converte os pontos de conhecimento do texto do domínio em pares de perguntas e respostas, usando o texto antes e depois da posição de resposta como contexto, e usa BERT para realizar a compreensão de leitura com base nos dados do SQuAD. O modelo ajustado foi usado para extrair automaticamente pontos de conhecimento de mais cláusulas de seguro e obteve bons resultados.

método

Nos últimos anos, com o aprofundamento da transformação digital em diversas indústrias, o número de textos electrónicos relacionados aumentou acentuadamente. Ao mesmo tempo, cada vez mais empresas estão começando a prestar atenção à análise de dados, à mineração e ao desenvolvimento e utilização de recursos de dados, como mapas de conhecimento e diálogo inteligente, que se tornaram a base para o fornecimento interno de várias empresas e instituições. e serviços externos. Tais aplicações muitas vezes precisam extrair as informações estruturadas contidas em diversos textos de domínio não estruturados para a construção de bases de conhecimento digitais. Os dados são a base dos produtos e serviços informáticos. Fornecer dados para computadores tornou-se uma nova tarefa para o desenvolvimento de empresas e instituições na nova era. Os vários documentos comerciais e comerciais originais em empresas e instituições contêm uma riqueza de conhecimento e informações, mas são todos escritos para leitura humana. Em comparação com as necessidades dos programas de computador, há muitas informações redundantes. Atualmente, ao aplicar este tipo de dados, é basicamente necessário investir muita mão de obra para extrair manualmente as informações necessárias, lendo documentos e expressando-as em um formato que um computador possa ler ("compreender"). Isso resulta em muitos custos adicionais de aprendizagem e consumo de recursos humanos. Como usar meios automatizados para descobrir conhecimento a partir de dados de texto não estruturados e usá-lo como um recurso de dados do qual dependem várias aplicações inteligentes é um ponto importante de pesquisa no campo da extração de conhecimento. Este artigo toma como objeto de pesquisa um texto não estruturado de uma área específica e propõe um método de extração de conhecimento por meio de um modelo de compreensão de linguagem baseado em aprendizagem profunda. Este método apresenta os pontos de conhecimento a serem extraídos na forma de pares pergunta-resposta, utiliza dados anotados manualmente como dados de treinamento, realiza aprendizagem por transferência com base no modelo pré-treinado e obtém extração automática de textos da mesma área por meio de ajuste fino. Modelo de pontos de conhecimento.

Para documentos com especificações estruturais unificadas, a extração de conhecimento pode ser realizada por meio de regras de construção. A construção de regras muitas vezes é concluída por meio de indução manual e resumo - ou seja, lendo um grande número de textos no mesmo campo, selecionando-os e resumindo as regras finais de extração. Jyothi et al. usaram uma abordagem baseada em regras para extrair informações eficazes de um grande número de currículos pessoais e construir um banco de dados. JunJun et al. usaram um método semelhante para extrair conhecimento conceitual acadêmico da literatura acadêmica. A vantagem deste método é que não requer modelos de treinamento e é simples e eficiente, a desvantagem também é óbvia. As regras que construímos só são aplicáveis a textos com a mesma estrutura, e devem ter especificações de formato rígidas. muda ligeiramente, é necessário trabalho manual. Novas regras de extração de conhecimento são construídas, portanto o método não é portátil.

Uma tarefa de extração de conhecimento é chamada de extração de entidade, que consiste em extrair conteúdo de tags predefinidas do texto, como hora, local, etc. As tags específicas dependem da aplicação. A extração de conhecimento mais comumente usada é chamada de reconhecimento de entidade nomeada (entidade nomeada). reconhecimento de entidade (NER). A extração de entidades em si pode ser resolvida diretamente como uma tarefa de rotulagem de sequência, que pode ser processada usando métodos tradicionais de aprendizagem estatística, como Modelos Ocultos de Markov (HMM) ou Campos Aleatórios Condicionais (CRF). Nos últimos anos, alguns modelos de aprendizagem profunda também foram aplicados a este tipo de problema. Por exemplo, o método de anotação de sequência que combina BiLSTM e CRF obteve bons resultados. Lample et al. propuseram uma nova estrutura de rede, usando LSTM empilhado para representar uma estrutura de pilha, construindo diretamente a representação de múltiplas palavras, e comparou-a com o modelo LSTM-CRF. Ma et al. propuseram um modelo de anotação de sequência ponta a ponta baseado em BiLSTM-CNN-CRF. Além disso, o modelo BERT ajustado também pode alcançar bons resultados em tarefas de rotulagem de sequências.

Além de extrair entidades do texto, o relacionamento entre entidades também é o foco da extração de conhecimento. As entidades e seus relacionamentos geralmente são formados em triplos.<E1, R, E2> , então o objetivo da tarefa é extrair todos os possíveis triplos de relacionamento de entidade do texto, e seus relacionamentos são limitados ao esquema predefinido. Zeng et al. projetaram a CNN para classificar relacionamentos, mas não triplos. Makoto et al. alcançaram previsão ponta a ponta de relacionamentos de entidades construindo uma rede de pilha baseada em BiLSTM e Bi-TreeLSTM para realizar simultaneamente extração de entidades e detecção de relacionamento. Li et al. usaram um LSTM de camada dupla com uma arquitetura codificador-decodificador para construir um modelo de extração de conhecimento que não se limita a triplos e pode prever conhecimento estruturado em um formato fixo. Zheng et al. converteram a tarefa de extração de entidade e relacionamento em uma tarefa de rotulagem de sequência por meio de uma estratégia de rotulagem e, em seguida, construíram um modelo Bi-LSTM semelhante ao anterior para lidar com isso. Luan et al. projetaram uma estrutura de aprendizagem multitarefa para identificar entidades e relacionamentos em documentos científicos para construir gráficos de conhecimento científico. Este modelo superou os modelos existentes sem qualquer conhecimento prévio do domínio.

除了以上提到的知识抽取模式，一个不同的角度是将知识点本身看作一个问题，将知识点的内容作为该问题的答案，将知识点所在的文本段作为这个问答对的上下文，这样知识抽取模型便可以用问答模型来构造。近年来，GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务，仅需简单改造原有网络结构，并进行微调，即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后，将其应用在一个更困难的问答数据集 NQ上，𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题，而不需要根据知识的形式单独设计新的网络结构。

Textos estruturados em diferentes setores têm características diferentes devido às características do setor. Certos documentos específicos da indústria (como instruções médicas) não só têm uma estrutura rigorosa, mas também têm requisitos muito rigorosos em termos de terminologia e redação, tornando-os mais adequados para a extração de conhecimento baseada em regras. Existem também algumas indústrias cujos textos não são muito diferentes dos textos gerais (tais como reportagens, entrevistas, etc.), para os quais a tecnologia de extracção geral pode ser aplicada directamente. Existem também textos em algumas áreas que estão no meio e têm um certo grau de profissionalismo, mas não são muito rígidos. A estrutura e a redação de textos semelhantes de diferentes empresas são semelhantes, mas diferentes. Relativamente unificado. Os documentos de cláusulas de seguros no setor de seguros se enquadram nesta terceira categoria de textos. As cláusulas de seguro são disposições relativas aos direitos e obrigações de ambas as partes que são acordadas conjuntamente por ambas as partes de um contrato de seguro - a seguradora (companhia de seguros) e o tomador do seguro. Uma cláusula de seguro geralmente consiste em três partes:

Informações básicas, ou seja, as informações sobre a cláusula em si, incluindo: seguradora, nome da cláusula, abreviatura da cláusula, tipo de cláusula, tipo de prazo, prazo de hesitação, prazo de prescrição, número e prazo de depósito, se pode ser vendido como seguro principal , etc.;
Condições de compra, ou seja, as condições objetivas que o segurado sob esta cláusula precisa atender, incluindo: idade do segurado, sexo, ocupação/tipo de trabalho, requisitos de exame físico, requisitos de segurança social, circunstâncias pessoais que devem ser relatadas com veracidade, etc.;
Responsabilidade do seguro, ou seja, o âmbito da responsabilidade e o conteúdo da compensação desta cláusula;

Embora as cláusulas de seguro tenham um certo grau de vocabulário profissional, o uso do vocabulário profissional geralmente não é padronizado na indústria (por exemplo: "período de hesitação" também pode ser chamado de "período de reflexão", etc.), e o documento da cláusula é um documento entregue ao segurado para leitura A maior parte dos pontos de conhecimento que precisam ser extraídos estão misturados em uma expressão de linguagem natural, o que não é adequado para extração de texto baseada em regras estáticas. Embora os próprios pontos de conhecimento extraídos necessários possam ser obtidos por meio da extração de entidade, os valores correspondentes aos pontos de conhecimento são frequentemente misturados em uma expressão de linguagem natural e não podem ser extraídos juntamente com a descrição do ponto de conhecimento. Por exemplo: o prazo de prescrição para uma determinada cláusula é de 2 anos. Esses “2 anos” podem aparecer na seguinte descrição: “O prazo de prescrição para um beneficiário solicitar benefícios de seguro ou isenção de prêmio de seguro é de 2 anos, uma vez que. o beneficiário sabe ou Deve-se saber que o cálculo começa a partir da data do sinistro “Portanto, quando precisamos extrair informações básicas, condições de compra, responsabilidade do seguro e outros pontos de conhecimento das cláusulas do seguro, excluímos diretamente a regra-. métodos de extração baseados em entidades e baseados em entidades. Se a extração no estilo Schema for usada para converter pontos de conhecimento em triplos, o conjunto de dados de treinamento necessário e a quantidade de anotações serão relativamente grandes. Para nossos propósitos, o ganho inevitavelmente superará a perda. Portanto, finalmente escolhemos um método de extração de conhecimento baseado em perguntas e respostas.

Nos últimos anos, o método de aprendizagem por meio de ajuste fino baseado em modelos pré-treinados tem alcançado grande sucesso na área de Processamento de Linguagem Natural (PNL), do qual o modelo BERT é um importante representante. BERT é um modelo de representação de codificação bidirecional baseado em transformadores. Sua topologia é uma rede de transformadores bidirecionais multicamadas. O modelo BERT é uma aplicação típica baseada no aprendizado de ajuste fino, o que significa que sua construção inclui duas etapas: pré-treinamento e ajuste fino. Primeiro, na fase de pré-treinamento, um grande número de dados de corpus não rotulados de diferentes tarefas de treinamento são treinados, e o conhecimento do corpus é transferido para a incorporação de texto (Incorporação) do modelo de pré-treinamento. Dessa forma, durante a fase de ajuste fino, basta adicionar uma camada de saída adicional à rede neural para ajustar o modelo pré-treinado. Especificamente, o ajuste fino consiste em inicializar o modelo BERT com parâmetros pré-treinados e, em seguida, ajustar o modelo usando dados rotulados de tarefas posteriores. Em resposta à nossa necessidade de extrair pontos de conhecimento dos documentos de seguro, precisamos apenas usar os dados das cláusulas de seguro para ajustar a tarefa de perguntas e respostas do BERT para atender às necessidades de extração de conhecimento das cláusulas de seguro.

O processo de extração de conhecimento da cláusula de seguro primeiro produz pontos de conhecimento da cláusula de seguro rotulados manualmente em<question, answer> no formulário e, em seguida, use um programa de análise de texto para analisar um documento de cláusula de seguro em uma árvore de documentos, na qual o título principal é o nó raiz e cada título subsequente é um nó filho do nível anterior e cada parágrafo de texto é lido Considere-o como um nó folha.Combine a resposta no par pergunta-resposta com o nó folha onde ele está localizado e use o texto correspondente a todo o nó folha como o contexto do par pergunta-resposta e, finalmente, construa um<question, answer, context> Por fim, esse conjunto de dados é utilizado para treinar o modelo de pré-treinamento do BERT de acordo com o método de ajuste fino para tarefas de compreensão de leitura baseado em dados do SQuAD, e o modelo final de extração de conhecimento é obtido. Conforme mostrado na figura acima, para tarefas de perguntas e respostas, você só precisa adicionar uma camada adicional totalmente conectada após a saída do vetor de codificação pelo BERT para prever a posição da resposta no contexto.Durante os testes, para novas cláusulas de seguro, o contexto dos diferentes pontos de conhecimento precisa ser analisado da mesma maneira e, em seguida, o<question, context> Como entrada para o modelo, são obtidas respostas para cada ponto de conhecimento. O método acima pode lidar melhor com cláusulas de seguros da mesma empresa e do mesmo tipo. Isso ocorre porque a estrutura dos artigos das cláusulas de seguros da mesma empresa é consistente, e o mesmo programa pode ser usado para analisar o contexto. cláusulas de diferentes empresas e tipos. Como a terminologia e a estrutura são diferentes, o programa de análise original não consegue lidar com isso e não é viável reescrever um programa de análise de texto para cada cláusula, portanto o modelo precisa ser melhorado.

Para tornar o processo de extração de conhecimento mais versátil, primeiro modificamos o processo de previsão: dividimos o texto original da nova cláusula em segmentos de acordo com o número de palavras, cada segmento tem cerca de 300 palavras (tente não quebrar as frases), e então divida cada segmento de texto em Como o contexto possível de qualquer ponto de conhecimento, ele serve como entrada do modelo. Se a resposta de saída estiver vazia, significa que não há ponto de conhecimento correspondente neste parágrafo. Caso contrário, a saída de cada ponto de conhecimento em todos os parágrafos do texto será considerada de forma abrangente e a resposta com maior probabilidade será selecionada como a resposta para a pergunta. ponto de conhecimento. Este novo método de previsão é de uso geral para qualquer cláusula e elimina a necessidade de análise adicional de texto. Testamos vários termos de diferentes empresas usando esse método e os resultados mostraram que ele não funcionou bem no modelo antigo e a precisão caiu significativamente. O motivo é: antes da melhoria, durante o treinamento, o contexto de cada ponto de conhecimento era posicionado com precisão com base na estrutura do documento e não havia muitas amostras negativas. Como resultado, o modelo só podia fazer previsões com base no contexto posicionado com precisão. . Uma vez que a estrutura de organização do texto e o formato do título mudam, o programa de análise de texto original não consegue localizar com precisão o contexto do problema, gerando muitos dados interferentes e afetando o efeito do modelo. Portanto, o processo de treinamento do modelo precisa ser modificado. Adicionamos dados de texto segmentados, ou seja, segmentamos cada cláusula do conjunto de treinamento da mesma forma. Se o segmento contiver a resposta marcada pelo ponto de conhecimento, ele será utilizado como. uma nova amostra, caso contrário será usada como amostra negativa (a resposta está vazia). Nos testes reais, se todas essas novas amostras forem adicionadas ao conjunto de treinamento, muitos dados de treinamento serão gerados e o número de amostras negativas excederá em muito o número de amostras positivas. Para equilibrar esse processo, fizemos ainda as seguintes melhorias: Para cada questão de ponto de conhecimento, se a própria cláusula não contiver o ponto de conhecimento (porque o ponto de conhecimento é definido uniformemente para todas as cláusulas de seguro, portanto, para uma cláusula específica, Não todos os pontos de conhecimento podem ser incluídos nele), então cada fragmento é usado como uma amostra negativa do problema com uma probabilidade de 10% se a própria cláusula contém o ponto de conhecimento, há duas situações. ponto de conhecimento alvo, então como uma amostra positiva, caso contrário é selecionada como uma amostra negativa com probabilidade de 50%. Desta forma, um novo conjunto de treinamento é construído para obter um novo modelo. A ideia é aumentar o número de amostras negativas relacionadas ao ponto de conhecimento caso a cláusula o contenha, para que o modelo possa lidar melhor com a interferência de fragmentos semelhantes e melhorar a precisão da resposta. Se a cláusula em si não contiver o ponto de conhecimento, o ajuste entre o fragmento de texto e o ponto de conhecimento deverá ser ruim, e selecionar um pequeno número de amostras negativas é suficiente. Após o teste, o novo modelo foi bastante melhorado em comparação com o modelo antigo, é mais adequado para o novo método de previsão e pode ser usado como um modelo mais geral de extração de conhecimento de cláusulas de seguro.

experimentar

我们的数据集由某保险公司的保险条款组成，每个条款具有人工标注的知识点，如犹豫期，诉讼期，保险金额等。在实验过程中，训练集，测试集分别由 251 个条款和 98 个条款组成。经过统计，这些条款中所有可能的知识点问题数量为309 条，平均每个条款有 45 条知识点需要提取。测试过程中，我们将条款文本分段，尝试从所有段中提取知识点𝑘𝑖，并根据模型输出的概率，选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串，则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分，大多数知识点的输出应当是空的，因此我们在评估时忽略这部分空知识点，关注两个指标：模型输出的知识点正确率𝑃，即精准率（precision），以及应提取知识点中确实被正确提取的比率𝑅，即召回率（recall）。假设知识点𝑘𝑖标注为𝑦𝑖，模型的输出为𝑦̃𝑖，则𝑃和𝑅可定义为：

Usamos o modelo de pré-treinamento chinês BERT de código aberto do Google, BERT_chinese_L-12_H-768_A-12, e conduzimos testes subsequentes com base nisso. Em termos de configuração de parâmetros, a taxa de aprendizagem inicial é 3E-5, o tamanho do lote é 4, o número de épocas de treinamento é 4 e os demais parâmetros adotam a configuração padrão do modelo. O experimento neste artigo consiste em duas partes de teste. A primeira parte é o teste do modelo de benchmark. O processo de treinamento é: primeiro use um programa de análise de texto para analisar a estrutura das cláusulas de seguro, extraia o contexto onde o conhecimento correspondente. os pontos são localizados e, em seguida, combinados em um conjunto de treinamento para BERT. O modelo é ajustado. A segunda parte é o teste do novo modelo. O processo de treinamento é: adicionar novas amostras com base no conjunto de treinamento do modelo de benchmark. As cláusulas de seguro correspondentes são divididas em parágrafos de acordo com o número de palavras. Cada parágrafo do texto tem cerca de 300 palavras. Para cada problema de ponto de conhecimento, um conjunto de treinamento é construído para treinar um novo modelo. O resultado do teste é a média das estatísticas de 98 cláusulas de seguro no conjunto de teste, conforme mostrado na tabela a seguir:

可以看出，以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型，其中𝑃提高了约 40%，𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中，仅通过文本解析程序精确定位知识点的上下文信息，导致模型只具备从正确的上下文中抽取对应的知识点的能力，而不具备辨别无效上下文的能力，因此基准模型存在很大比例的无效输出。而按比例添加负样本后，新模型的无效输出大幅度减少，输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息（文本段）组成的正样本，使得模型能够更好地从无规则截取的文本段中抽取出目标知识点，因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。

Os resultados experimentais mostram que o novo modelo treinado após otimizarmos o conjunto de treinamento é melhor do que o modelo de linha de base original no método de predição de segmento de texto e pode ser usado posteriormente em tarefas mais gerais de extração de conhecimento de cláusulas de seguro. Ao mesmo tempo, o modelo atual ainda tem muito espaço para melhorias.

Devido a limitações de condições realistas (volume de anotação de dados), nosso treinamento incluiu apenas 251 cláusulas, e todos os dados de treinamento vieram da mesma seguradora. Depois de expandir o tamanho do conjunto de dados para incluir mais dados de termos definidos pelas seguradoras, o efeito do modelo deverá ser ainda mais otimizado.
Atualmente, nossa anotação de dados contém apenas o conteúdo dos pontos de conhecimento da cláusula, e o contexto correspondente nos dados de treinamento é obtido por meio de um programa de análise de texto escrito pelo próprio. O contexto obtido desta forma contém um pequeno número de erros. A estratégia de anotação manual pode ser otimizada e os pontos de conhecimento e seus contextos podem ser anotados ao mesmo tempo, para que os dados obtidos sejam mais precisos.

Compartilhamento de tecnologia