Extracción de conocimiento de texto de dominio no estructurado basada en BERT

2024-07-12

Directorio de artículos

tema

Grandes modelos de lenguaje para pruebas de alimentos.

Dirección del artículo: https://arxiv.org/abs/2103.00728

Resumen

Con el desarrollo de la tecnología de gráficos de conocimiento y la popularización de las aplicaciones comerciales, existe una necesidad cada vez mayor de extraer entidades de gráficos de conocimiento y datos relacionales de diversos textos de dominio no estructurados. Esto hace que la extracción automatizada de conocimientos a partir del texto del dominio sea bastante significativa. Este artículo propone un método de extracción de conocimiento basado en BERT, que se utiliza para extraer automáticamente puntos de conocimiento de textos no estructurados de dominios específicos (como cláusulas de seguros en la industria de seguros) para ahorrar mano de obra en el proceso de construcción de un gráfico de conocimiento. A diferencia de los métodos de extracción de puntos de conocimiento comúnmente utilizados basados en reglas, plantillas o modelos de extracción de entidades, este artículo convierte los puntos de conocimiento del texto del dominio en pares de preguntas y respuestas, utilizando el texto antes y después de la posición de la respuesta como contexto, y utiliza BERT para realizar comprensión lectora basada en datos de SQuAD. Ajuste de la tarea. El modelo ajustado se utilizó para extraer automáticamente puntos de conocimiento de más cláusulas de seguro y logró buenos resultados.

método

En los últimos años, con la profundización de la transformación digital en diversas industrias, el número de textos electrónicos relacionados ha aumentado considerablemente. Al mismo tiempo, cada vez más empresas están comenzando a prestar atención al análisis de datos, la minería y el desarrollo y utilización de sistemas de aplicaciones informáticas, como mapas de conocimiento y diálogo inteligente, que se han convertido en la base para que varias empresas e instituciones proporcionen servicios internos. y servicios externos. Estas aplicaciones a menudo necesitan extraer la información estructurada contenida en varios textos de dominio no estructurados para la construcción de bases de conocimiento digitales. Los datos son la base de los productos y servicios informáticos. Proporcionar datos para las computadoras se ha convertido en una nueva tarea para el desarrollo de empresas e instituciones en la nueva era. Los diversos documentos comerciales y comerciales originales de empresas e instituciones contienen una gran cantidad de conocimientos e información, pero todos están escritos para lectura humana, en comparación con las necesidades de los programas de computadora, hay mucha información redundante. En la actualidad, al aplicar este tipo de datos, básicamente se requiere invertir mucha mano de obra para extraer manualmente la información requerida leyendo documentos y expresándola en una forma que una computadora pueda leer ("comprender"). Esto genera muchos costos de aprendizaje adicionales y consumo de recursos humanos. Cómo utilizar medios automatizados para descubrir conocimiento a partir de datos de texto no estructurados y utilizarlos como un recurso de datos del que dependen varias aplicaciones inteligentes es un tema de investigación en el campo de la extracción de conocimiento. Este artículo toma como objeto de investigación el texto no estructurado en un campo específico y propone un método para la extracción de conocimiento a través de un modelo de comprensión del lenguaje basado en el aprendizaje profundo. Este método presenta los puntos de conocimiento que se extraerán en forma de pares de preguntas y respuestas, utiliza datos anotados manualmente como datos de entrenamiento, realiza transferencia de aprendizaje sobre la base del modelo previamente entrenado y obtiene extracción automática de textos en el mismo campo a través de Ajuste del modelo de puntos de conocimiento.

Para documentos con especificaciones estructurales unificadas, la extracción de conocimientos se puede realizar mediante reglas de construcción. La construcción de reglas a menudo se completa mediante inducción y resumen manuales, es decir, leer una gran cantidad de textos en el mismo campo, seleccionarlos y resumir las reglas de extracción finales. Jyothi et al. utilizaron un enfoque basado en reglas para extraer información eficaz de una gran cantidad de currículums personales y crear una base de datos. JunJun et al. utilizaron un método similar para extraer conocimiento conceptual académico de la literatura académica. La ventaja de este método es que no requiere modelos de entrenamiento y es simple y eficiente; la desventaja también es obvia. Las reglas que construimos solo son aplicables a textos con la misma estructura y deben tener especificaciones de formato estrictas una vez. cambia ligeramente, se requiere trabajo manual. Se construyen nuevas reglas de extracción de conocimiento, por lo que el método no es portátil.

Una tarea de extracción de conocimiento se llama extracción de entidades, que consiste en extraer contenido de etiquetas predefinidas del texto, como la hora, la ubicación, etc. Las etiquetas específicas dependen de la aplicación. La extracción de conocimientos más utilizada se llama reconocimiento de entidades nombradas (entidad nombrada). reconocimiento) reconocimiento de entidad (NER). La extracción de entidades en sí se puede resolver directamente como una tarea de etiquetado de secuencia, que se puede procesar utilizando métodos tradicionales de aprendizaje estadístico, como los modelos ocultos de Markov (HMM) o los campos aleatorios condicionales (CRF). En los últimos años, también se han aplicado algunos modelos de aprendizaje profundo a este tipo de problemas. Por ejemplo, el método de anotación de secuencia que combina BiLSTM y CRF ha logrado buenos resultados. Lample et al. propusieron una nueva estructura de red, utilizando LSTM apilado para representar una estructura de pila, construyendo directamente la representación de múltiples palabras y la compararon con el modelo LSTM-CRF. Ma et al. propusieron un modelo de anotación de secuencia de un extremo a otro basado en BiLSTM-CNN-CRF. Además, el modelo BERT ajustado también puede lograr buenos resultados en tareas de etiquetado de secuencias.

Además de extraer entidades del texto, la relación entre entidades también es el foco de la extracción de conocimiento. Las entidades y sus relaciones generalmente se forman en triples.<E1, R, E2> , entonces el objetivo de la tarea es extraer todas las relaciones triples de entidades posibles del texto, y sus relaciones se limitan al esquema preestablecido. Zeng et al. diseñaron CNN para clasificar relaciones, pero no triples. Makoto et al. lograron una predicción de extremo a extremo de las relaciones entre entidades mediante la construcción de una red de pila basada en BiLSTM y Bi-TreeLSTM para realizar simultáneamente la extracción de entidades y la detección de relaciones. Li et al. utilizaron un LSTM de doble capa con una arquitectura codificador-decodificador para construir un modelo de extracción de conocimiento que no se limita a triples y puede predecir conocimiento estructurado en un formato fijo. Zheng et al. convirtieron la tarea de extracción de entidades y relaciones en una tarea de etiquetado de secuencia a través de una estrategia de etiquetado, y luego construyeron un modelo Bi-LSTM similar al anterior para manejarlo. Luan et al. diseñaron un marco de aprendizaje multitarea para identificar entidades y relaciones en documentos científicos para construir gráficos de conocimiento científico. Este modelo superó a los modelos existentes sin ningún conocimiento previo del dominio.

除了以上提到的知识抽取模式，一个不同的角度是将知识点本身看作一个问题，将知识点的内容作为该问题的答案，将知识点所在的文本段作为这个问答对的上下文，这样知识抽取模型便可以用问答模型来构造。近年来，GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务，仅需简单改造原有网络结构，并进行微调，即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后，将其应用在一个更困难的问答数据集 NQ上，𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题，而不需要根据知识的形式单独设计新的网络结构。

Los textos estructurados en diferentes industrias tienen características diferentes debido a sus características industriales. Algunos documentos específicos de la industria (como las instrucciones médicas) no solo tienen una estructura estricta sino que también tienen requisitos muy estrictos en cuanto a terminología y redacción, que son más adecuados para la extracción de conocimientos basada en reglas. También hay algunas industrias cuyos textos no son muy diferentes de los textos generales (como informes de noticias, entrevistas, etc.), a las que se puede aplicar directamente la tecnología de extracción general. También hay textos en algunos campos, que están en el medio y tienen un cierto grado de profesionalismo pero no son muy estrictos. La estructura y redacción de textos similares de diferentes empresas son similares pero diferentes. El uso y la visualización de la terminología dentro de la misma empresa. . relativamente unificado. Los documentos sobre cláusulas de seguro en la industria de seguros entran en esta tercera categoría de textos. Las cláusulas de seguro son disposiciones relativas a los derechos y obligaciones de ambas partes acordadas conjuntamente por ambas partes de un contrato de seguro: el asegurador (compañía de seguros) y el tomador de la póliza. Una cláusula de seguro consta generalmente de tres partes:

Información básica, es decir, la información sobre la cláusula en sí, que incluye: asegurador, nombre de la cláusula, abreviatura de la cláusula, tipo de cláusula, tipo de término, período de vacilación, plazo de prescripción, número de presentación y tiempo de presentación, si se puede vender como seguro principal. , etc.;
Condiciones de compra, es decir, las condiciones objetivas que el asegurado bajo esta cláusula debe cumplir, incluyendo: edad, sexo, ocupación/tipo de trabajo del asegurado, requisitos de examen físico, requisitos de seguridad social, circunstancias personales que deben ser reportadas verazmente, etc.;
Responsabilidad del seguro, es decir, el alcance del contenido de responsabilidad y compensación de esta cláusula;

Aunque las cláusulas de seguros tienen un cierto grado de vocabulario profesional, el uso de vocabulario profesional en su mayoría no está estandarizado en la industria (por ejemplo: el "período de vacilación" también puede denominarse "período de reflexión", etc.), y el documento de la cláusula es un documento entregado al asegurado para su lectura. La mayoría de los puntos de conocimiento que deben extraerse se mezclan en una expresión de lenguaje natural, que no es adecuada para la extracción de texto basada en reglas estáticas. Aunque los puntos de conocimiento extraídos requeridos se pueden obtener mediante la extracción de entidades, los valores correspondientes a los puntos de conocimiento a menudo se mezclan en una expresión de lenguaje natural y no se pueden extraer junto con la descripción del punto de conocimiento. Por ejemplo: el plazo de prescripción de una determinada cláusula es de 2 años. Estos “2 años” pueden aparecer en la siguiente descripción: “El plazo de prescripción para que un beneficiario nos solicite beneficios de seguro o exención de prima de seguro es de 2 años, ya que. el beneficiario sabe o debe saber que el cálculo comienza a partir de la fecha del accidente del seguro "Entonces, cuando necesitamos extraer información básica, condiciones de compra, responsabilidad del seguro y otros puntos de conocimiento de los términos del seguro, excluimos directamente la regla. Métodos de extracción basados en entidades y basados en entidades. Si se utiliza la extracción de estilo esquema para convertir puntos de conocimiento en triples, el conjunto de datos de entrenamiento requerido y la cantidad de etiquetado serán relativamente grandes. Para nuestro propósito, la ganancia inevitablemente superará la pérdida. Por lo tanto, finalmente elegimos un método de extracción de conocimiento basado en preguntas y respuestas.

En los últimos años, el método de aprendizaje mediante ajuste basado en modelos previamente entrenados ha logrado un gran éxito en el campo del procesamiento del lenguaje natural (PNL), del cual el modelo BERT es un importante representante. BERT es un modelo de representación de codificación bidireccional basado en transformadores. Su topología es una red de transformadores bidireccionales multicapa. El modelo BERT es una aplicación típica basada en el aprendizaje de ajuste fino, lo que significa que su construcción incluye dos pasos: entrenamiento previo y ajuste fino. Primero, en la etapa de preentrenamiento, se entrena una gran cantidad de datos de corpus sin etiquetar de diferentes tareas de entrenamiento y el conocimiento del corpus se transfiere a la incrustación de texto (Incrustación) del modelo de preentrenamiento. De esta manera, durante la fase de ajuste, solo necesita agregar una capa de salida adicional a la red neuronal para ajustar el modelo previamente entrenado. Específicamente, el ajuste fino consiste en inicializar el modelo BERT con parámetros previamente entrenados y luego ajustar el modelo utilizando datos etiquetados de tareas posteriores. En respuesta a nuestra necesidad de extraer puntos de conocimiento de los documentos de seguro, solo necesitamos utilizar los datos de la cláusula de seguro para ajustar la tarea de preguntas y respuestas de BERT para satisfacer las necesidades de extracción de conocimiento de la cláusula de seguro.

El proceso de extracción de conocimiento de la cláusula de seguro primero produce puntos de conocimiento de la cláusula de seguro etiquetados manualmente en<question, answer> en el formulario y luego use un programa de análisis de texto para analizar un documento de términos de seguro en un árbol de documentos, en el que el título principal es el nodo raíz, y cada título posterior es un nodo secundario del nivel anterior, y cada párrafo de texto se lee Tómelo como un nodo hoja.Haga coincidir la respuesta en el par pregunta-respuesta con el nodo hoja donde se encuentra, y use el texto correspondiente a todo el nodo hoja como contexto del par pregunta-respuesta, y finalmente construya un<question, answer, context> Finalmente, este conjunto de datos se utiliza para entrenar el modelo de preentrenamiento BERT de acuerdo con el método de ajuste fino para tareas de comprensión lectora basado en datos SQuAD, y se obtiene el modelo de extracción de conocimiento final. Como se muestra en la figura anterior, para las tareas de preguntas y respuestas, solo necesita agregar una capa adicional completamente conectada después de la salida del vector de codificación de BERT para predecir la posición de la respuesta en el contexto.Durante las pruebas, para nuevas cláusulas de seguro, es necesario analizar el contexto de diferentes puntos de conocimiento de la misma manera, y luego<question, context> Como entrada al modelo, se obtienen respuestas a cada punto de conocimiento. El método anterior puede manejar mejor las cláusulas de seguro de la misma empresa y del mismo tipo. Esto se debe a que la estructura de los artículos de las cláusulas de seguro de la misma empresa es coherente y se puede utilizar el mismo programa para analizar el contexto. cláusulas de diferentes empresas y tipos. Dado que la terminología y la estructura son diferentes, el programa de análisis original no puede manejarlo y no es factible reescribir un programa de análisis de texto para cada cláusula, por lo que es necesario mejorar el modelo.

Para que el proceso de extracción de conocimiento sea más versátil, primero modificamos el proceso de predicción: dividimos el texto original de la nueva cláusula en segmentos según la cantidad de palabras, cada segmento tiene aproximadamente 300 palabras (trate de no dividir las oraciones), y luego divida cada segmento de texto en Como posible contexto de cualquier punto de conocimiento, sirve como entrada del modelo. Si la respuesta de salida está vacía, significa que no hay ningún punto de conocimiento correspondiente en este párrafo. De lo contrario, la salida de cada punto de conocimiento en todos los párrafos del texto se considera de manera integral y la respuesta con la mayor probabilidad se selecciona como la respuesta a la pregunta. punto de conocimiento. Este nuevo método de predicción es de uso general para cualquier cláusula y elimina la necesidad de análisis de texto adicional. Probamos varios términos de diferentes empresas utilizando este método y los resultados mostraron que no funcionó bien en el modelo anterior y la precisión disminuyó significativamente. La razón es: antes de la mejora, durante el entrenamiento, el contexto de cada punto de conocimiento se ubicó con precisión de acuerdo con la estructura del documento. No hubo muchas muestras negativas, por lo que el modelo solo pudo hacer predicciones basadas en el contexto posicionado con precisión. Una vez que la estructura de organización del texto y el formato del título cambian, el programa de análisis de texto original no puede localizar con precisión el contexto del problema, lo que genera una gran cantidad de datos que interfieren y afectan el efecto del modelo. Por lo tanto, es necesario modificar el proceso de entrenamiento del modelo. Agregamos datos de texto segmentados, es decir, segmentamos cada cláusula en el conjunto de entrenamiento de la misma manera. Si el segmento contiene la respuesta marcada por el punto de conocimiento, se usa como. una nueva muestra; de lo contrario, se utiliza como muestra negativa (la respuesta está vacía). En las pruebas reales, si todas estas nuevas muestras se agregan al conjunto de entrenamiento, se generarán demasiados datos de entrenamiento y la cantidad de muestras negativas excederá con creces la cantidad de muestras positivas. Para equilibrar este proceso, realizamos las siguientes mejoras: Para cada pregunta sobre el punto de conocimiento, si la cláusula en sí no contiene el punto de conocimiento (debido a que el punto de conocimiento está definido uniformemente para todas las cláusulas de seguro, por lo tanto, para una cláusula específica, no todos los puntos de conocimiento pueden estar incluidos en él), luego cada fragmento se usa como una muestra negativa del problema con una probabilidad del 10% si la cláusula en sí contiene el punto de conocimiento, hay dos situaciones: si el fragmento de texto actual contiene el. punto de conocimiento objetivo, luego como muestra positiva; de lo contrario, se selecciona como muestra negativa con una probabilidad del 50%. De esta manera, se construye un nuevo conjunto de entrenamiento para obtener un nuevo modelo. La idea es aumentar la cantidad de muestras negativas relacionadas con el punto de conocimiento si la cláusula lo contiene, de modo que el modelo pueda manejar mejor la interferencia de fragmentos similares y mejorar la precisión de la respuesta. Si la cláusula en sí no contiene el punto de conocimiento, el ajuste entre el fragmento de texto y el punto de conocimiento debería ser pobre, y seleccionar una pequeña cantidad de muestras negativas es suficiente. Después de las pruebas, el nuevo modelo ha mejorado mucho en comparación con el modelo anterior, es más adecuado para el nuevo método de predicción y puede usarse como un modelo de extracción de conocimiento de cláusulas de seguro más general.

experimento

我们的数据集由某保险公司的保险条款组成，每个条款具有人工标注的知识点，如犹豫期，诉讼期，保险金额等。在实验过程中，训练集，测试集分别由 251 个条款和 98 个条款组成。经过统计，这些条款中所有可能的知识点问题数量为309 条，平均每个条款有 45 条知识点需要提取。测试过程中，我们将条款文本分段，尝试从所有段中提取知识点𝑘𝑖，并根据模型输出的概率，选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串，则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分，大多数知识点的输出应当是空的，因此我们在评估时忽略这部分空知识点，关注两个指标：模型输出的知识点正确率𝑃，即精准率（precision），以及应提取知识点中确实被正确提取的比率𝑅，即召回率（recall）。假设知识点𝑘𝑖标注为𝑦𝑖，模型的输出为𝑦̃𝑖，则𝑃和𝑅可定义为：

Utilizamos el modelo de preentrenamiento chino BERT de código abierto de Google BERT_chinese_L-12_H-768_A-12 y realizamos pruebas posteriores sobre esta base. En términos de configuración de parámetros, la tasa de aprendizaje inicial es 3E-5, el tamaño del lote es 4, el número de épocas de entrenamiento es 4 y otros parámetros adoptan la configuración predeterminada del modelo. El experimento en este artículo consta de dos partes de prueba. La primera parte es la prueba del modelo de referencia. El proceso de capacitación es: primero use un programa de análisis de texto para analizar la estructura de las cláusulas de seguro y extraiga el contexto donde se encuentra el conocimiento correspondiente. Se ubican los puntos y luego se combinan en un conjunto de entrenamiento para BERT. El modelo está ajustado. La segunda parte es la prueba del nuevo modelo. El proceso de capacitación consiste en agregar nuevas muestras basadas en el conjunto de capacitación del modelo de referencia. Las cláusulas de seguro correspondientes se dividen en párrafos según el número de palabras. Cada párrafo de texto tiene unas 300 palabras. Para cada problema de puntos de conocimiento, se construye un conjunto de entrenamiento para entrenar un nuevo modelo. El resultado de la prueba es el promedio de las estadísticas de 98 cláusulas de seguro en el conjunto de prueba, como se muestra en la siguiente tabla:

可以看出，以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型，其中𝑃提高了约 40%，𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中，仅通过文本解析程序精确定位知识点的上下文信息，导致模型只具备从正确的上下文中抽取对应的知识点的能力，而不具备辨别无效上下文的能力，因此基准模型存在很大比例的无效输出。而按比例添加负样本后，新模型的无效输出大幅度减少，输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息（文本段）组成的正样本，使得模型能够更好地从无规则截取的文本段中抽取出目标知识点，因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。

Los resultados experimentales muestran que el nuevo modelo entrenado después de optimizar el conjunto de entrenamiento es mejor que el modelo de referencia original en el método de predicción de segmentación de texto y puede usarse en tareas de extracción de conocimiento de cláusulas de seguro más generales. Al mismo tiempo, el modelo actual todavía tiene mucho margen de mejora.

Debido a las limitaciones de las condiciones realistas (volumen de anotación de datos), nuestra capacitación solo incluyó 251 términos y todos los datos de la capacitación provienen de la misma compañía de seguros. Después de ampliar el tamaño del conjunto de datos para incluir más datos de términos establecidos por las aseguradoras, el efecto del modelo debería optimizarse aún más.
Actualmente, nuestra anotación de datos solo contiene el contenido de los puntos de conocimiento de la cláusula, y el contexto correspondiente en los datos de entrenamiento se obtiene a través de un programa de análisis de texto escrito por uno mismo. El contexto obtenido de esta manera contiene una pequeña cantidad de errores. La estrategia de anotación manual se puede optimizar y los puntos de conocimiento y sus contextos se pueden anotar al mismo tiempo, para que los datos obtenidos puedan ser más precisos.

Compartir tecnología