le mie informazioni di contatto
Posta[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Modelli linguistici di grandi dimensioni per i test sugli alimenti
Indirizzo del documento: https://arxiv.org/abs/2103.00728
Con lo sviluppo della tecnologia dei grafici della conoscenza e la divulgazione delle applicazioni commerciali, esiste una crescente necessità di estrarre entità dei grafici della conoscenza e dati relazionali da vari testi di dominio non strutturati. Ciò rende l’estrazione automatizzata della conoscenza dal testo del dominio piuttosto significativa. Questo articolo propone un metodo di estrazione della conoscenza basato su BERT, che viene utilizzato per estrarre automaticamente punti di conoscenza da testi non strutturati specifici del dominio (come le clausole assicurative nel settore assicurativo) per risparmiare manodopera nel processo di costruzione di un grafo della conoscenza. Diversamente dai metodi di estrazione dei punti di conoscenza comunemente usati basati su regole, modelli o modelli di estrazione di entità, questo articolo converte i punti di conoscenza del testo del dominio in coppie di domande e risposte, utilizzando il testo prima e dopo la posizione della risposta come contesto, e utilizza BERT per eseguire la comprensione della lettura sulla base dei dati SQuAD Perfezionamento del compito. Il modello perfezionato è stato utilizzato per estrarre automaticamente punti conoscenza da più clausole assicurative e ha ottenuto buoni risultati.
Negli ultimi anni, con l’approfondimento della trasformazione digitale in vari settori, il numero di testi elettronici correlati è aumentato notevolmente. Allo stesso tempo, sempre più aziende iniziano a prestare attenzione all'analisi dei dati, all'estrazione e allo sviluppo e all'utilizzo di risorse di dati. I sistemi applicativi informatici come le mappe della conoscenza e il dialogo intelligente sono diventati la base per la fornitura interna di varie imprese e istituzioni e servizi esterni. Tali applicazioni spesso necessitano di estrarre le informazioni strutturate contenute in vari testi di dominio non strutturati per la costruzione di basi di conoscenza digitale. I dati sono il fondamento dei prodotti e dei servizi informatici. Fornire dati per i computer è diventato un nuovo compito per lo sviluppo delle imprese e delle istituzioni nella nuova era. I vari documenti aziendali e aziendali originali nelle imprese e nelle istituzioni contengono una ricchezza di conoscenze e informazioni, ma sono tutti scritti per la lettura umana Rispetto alle esigenze dei programmi informatici, ci sono molte informazioni ridondanti. Al momento, quando si applicano questo tipo di dati, è necessario investire molta manodopera per estrarre manualmente le informazioni richieste leggendo i documenti ed esprimendole in una forma che un computer può leggere ("comprendere"). Ciò si traduce in molti costi aggiuntivi di apprendimento e consumo di risorse umane. Come utilizzare mezzi automatizzati per scoprire conoscenza da dati di testo non strutturati e utilizzarli come risorsa dati da cui dipendono varie applicazioni intelligenti è un punto caldo della ricerca nel campo dell'estrazione della conoscenza. Questo articolo prende come oggetto di ricerca il testo non strutturato in un campo specifico e propone un metodo per l'estrazione della conoscenza attraverso un modello di comprensione del linguaggio basato sul deep learning. Questo metodo presenta i punti di conoscenza da estrarre sotto forma di coppie domanda-risposta, utilizza dati annotati manualmente come dati di training, esegue l'apprendimento di trasferimento sulla base del modello pre-addestrato e ottiene l'estrazione automatica da testi nello stesso campo attraverso messa a punto del modello dei punti di conoscenza.
Per i documenti con specifiche strutturali unificate, l'estrazione della conoscenza può essere effettuata mediante regole di costruzione. La costruzione delle regole viene spesso completata attraverso l'induzione manuale e il riassunto, ovvero la lettura di un gran numero di testi nello stesso campo, la selezione da essi e il riassunto delle regole di estrazione finale. Jyothi et al. hanno utilizzato un approccio basato su regole per estrarre informazioni efficaci da un gran numero di curriculum personali e creare un database. JunJun et al. hanno utilizzato un metodo simile per estrarre la conoscenza concettuale accademica dalla letteratura accademica. Il vantaggio di questo metodo è che non richiede modelli di training ed è semplice ed efficiente; anche lo svantaggio è evidente. Le regole che costruiamo sono applicabili solo a testi con la stessa struttura, e devono avere specifiche di formato rigorose una volta definita la struttura del testo cambia leggermente, è necessario il lavoro manuale, vengono costruite nuove regole di estrazione della conoscenza, quindi il metodo non è portabile.
Un'attività di estrazione della conoscenza è chiamata estrazione di entità, che consiste nell'estrarre il contenuto dei tag predefiniti dal testo, come l'ora, la posizione, ecc. I tag specifici dipendono dall'applicazione. L'estrazione della conoscenza più comunemente utilizzata è chiamata riconoscimento dell'entità denominata (named entità riconoscimento dell’entità (NER). L'estrazione delle entità stessa può essere risolta direttamente come un'attività di etichettatura di sequenze, che può essere elaborata utilizzando metodi di apprendimento statistico tradizionali, come i modelli Hidden Markov (HMM) o i campi casuali condizionali (CRF). Negli ultimi anni sono stati applicati anche alcuni modelli di deep learning a questo tipo di problemi. Ad esempio, il metodo di annotazione sequenziale che combina BiLSTM e CRF ha ottenuto buoni risultati. Lample et al. hanno proposto una nuova struttura di rete, utilizzando LSTM in stack per rappresentare una struttura a stack, costruendo direttamente la rappresentazione di più parole e confrontandola con il modello LSTM-CRF. Ma et al. hanno proposto un modello di annotazione di sequenza end-to-end basato su BiLSTM-CNN-CRF. Inoltre, il modello BERT perfezionato può anche ottenere buoni risultati nelle attività di etichettatura delle sequenze.
Oltre ad estrarre entità dal testo, anche la relazione tra entità è al centro dell'estrazione della conoscenza. Le entità e le loro relazioni sono solitamente formate in triple.<E1, R, E2> , quindi l'obiettivo dell'attività è estrarre tutte le possibili triple di relazioni di entità dal testo e le loro relazioni sono limitate allo schema preimpostato. Zeng et al. hanno progettato la CNN per classificare le relazioni, ma non le triple. Makoto et al. hanno ottenuto la previsione end-to-end delle relazioni tra entità costruendo una rete di stack basata su BiLSTM e Bi-TreeLSTM per eseguire simultaneamente l'estrazione delle entità e il rilevamento delle relazioni. Li et al. hanno utilizzato un LSTM a doppio strato con un'architettura codificatore-decodificatore per costruire un modello di estrazione della conoscenza che non si limita a tripli e può prevedere la conoscenza strutturata in un formato fisso. Zheng et al. hanno convertito l'attività di estrazione di entità e relazioni in un'attività di etichettatura di sequenze attraverso una strategia di etichettatura, e quindi hanno costruito un modello Bi-LSTM simile al precedente per gestirla. Luan et al. hanno progettato un quadro di apprendimento multi-task per identificare entità e relazioni nei documenti scientifici per costruire grafici di conoscenza scientifica. Questo modello ha sovraperformato i modelli esistenti senza alcuna conoscenza preliminare del dominio.
除了以上提到的知识抽取模式,一个不同的角度是将知识点本身看作一个问题,将知识点的内容作为该问题的答案,将知识点所在的文本段作为这个问答对的上下文,这样知识抽取模型便可以用问答模型来构造。近年来,GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务,仅需简单改造原有网络结构,并进行微调,即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后,将其应用在一个更困难的问答数据集 NQ上,𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题,而不需要根据知识的形式单独设计新的网络结构。
I testi strutturati in diversi settori hanno caratteristiche diverse a causa delle loro caratteristiche di settore. Alcuni documenti specifici del settore (come le istruzioni mediche) non solo hanno una struttura rigorosa ma hanno anche requisiti molto severi in termini di terminologia e formulazione, che sono più adatti per l’estrazione di conoscenza basata su regole. Ci sono anche alcuni settori i cui testi non sono molto diversi dai testi generali (come notizie, interviste, ecc.), per i quali la tecnologia di estrazione generale può essere applicata direttamente. Ci sono anche testi in alcuni campi che sono intermedi e hanno un certo grado di professionalità ma non sono molto rigidi. La struttura e la formulazione di testi simili di diverse aziende sono simili ma diversi. L'uso e la visualizzazione della terminologia all'interno della stessa azienda Relativamente unificato. I documenti relativi alle clausole assicurative nel settore assicurativo rientrano in questa terza categoria di testi. Le clausole assicurative sono disposizioni relative ai diritti e agli obblighi di entrambe le parti concordate congiuntamente da entrambe le parti di un contratto assicurativo: l'assicuratore (compagnia assicurativa) e il contraente. Una clausola assicurativa è generalmente composta da tre parti:
Sebbene le clausole assicurative abbiano un certo grado di vocabolario professionale, l'uso del vocabolario professionale per lo più non è standardizzato nel settore (ad esempio: il "periodo di esitazione" può anche essere chiamato "periodo di riflessione", ecc.), e il documento della clausola è un documento consegnato al contraente per la lettura. La maggior parte dei punti di conoscenza da estrarre sono mescolati in un linguaggio naturale, che non è adatto all'estrazione testuale basata su regole statiche. Sebbene i punti di conoscenza estratti richiesti possano essere ottenuti mediante estrazione di entità, i valori corrispondenti ai punti di conoscenza sono spesso mescolati in un'espressione in linguaggio naturale e non possono essere estratti insieme alla descrizione dei punti di conoscenza. Ad esempio: il termine di prescrizione per una determinata clausola è di 2 anni. Questo "2 anni" può apparire nella seguente descrizione: "Il termine di prescrizione per un beneficiario per richiederci prestazioni assicurative o esenzione dal premio assicurativo è di 2 anni, dal momento che. il beneficiario sa o dovrebbe essere noto che il calcolo inizia dalla data dell'incidente assicurativo. "Quindi, quando dobbiamo estrarre informazioni di base, condizioni di acquisto, responsabilità assicurativa e altri punti di conoscenza dalle condizioni assicurative, escludiamo direttamente la regola- metodi di estrazione basati su entità e basati su entità. Se l'estrazione in stile schema viene utilizzata per convertire i punti conoscenza in triple, il set di dati di addestramento richiesto e la quantità di etichettature saranno relativamente grandi. Per il nostro scopo, il guadagno supererà inevitabilmente la perdita. Pertanto, alla fine abbiamo scelto un metodo di estrazione della conoscenza basato su domande e risposte.
Negli ultimi anni, il metodo di apprendimento attraverso il fine-tuning basato su modelli pre-addestrati ha ottenuto un grande successo nel campo dell’elaborazione del linguaggio naturale (NLP), di cui il modello BERT è un importante rappresentante. BERT è un modello di rappresentazione della codifica bidirezionale basato su trasformatori. La sua topologia è una rete di trasformatori bidirezionali multistrato. Il modello BERT è una tipica applicazione basata sul fine-tuning learning, il che significa che la sua costruzione prevede due fasi: pre-training e fine-tuning. Innanzitutto, nella fase di pre-addestramento, viene addestrato un gran numero di dati di corpus senza etichetta di diversi compiti di formazione e la conoscenza nel corpus viene trasferita nell'incorporamento del testo (Embedding) del modello di pre-addestramento. In questo modo, durante la fase di messa a punto, è sufficiente aggiungere un ulteriore livello di output alla rete neurale per adattare il modello pre-addestrato. Nello specifico, l'ottimizzazione consiste nell'inizializzare il modello BERT con parametri pre-addestrati e quindi ottimizzare il modello utilizzando i dati etichettati delle attività downstream. In risposta alla nostra esigenza di estrarre punti conoscenza dai documenti assicurativi, dobbiamo solo utilizzare i dati delle clausole assicurative per ottimizzare il compito di domande e risposte di BERT per soddisfare le esigenze di estrazione della conoscenza delle clausole assicurative.
Il processo di estrazione della conoscenza della clausola assicurativa produce innanzitutto punti di conoscenza della clausola assicurativa etichettati manualmente<question, answer> nel modulo, quindi utilizzare un programma di analisi del testo per analizzare un documento delle condizioni assicurative in un albero di documenti, in cui il titolo principale è il nodo radice e ogni titolo successivo è un nodo figlio del livello precedente e ogni paragrafo di testo viene letto Prendilo come un nodo foglia.Abbina la risposta nella coppia domanda-risposta al nodo foglia in cui si trova e utilizza il testo corrispondente all'intero nodo foglia come contesto della coppia domanda-risposta e infine costruisci un<question, answer, context> Infine, questo set di dati viene utilizzato per addestrare il modello di pre-formazione BERT secondo il metodo di perfezionamento per i compiti di comprensione della lettura basato sui dati SQuAD e si ottiene il modello finale di estrazione della conoscenza. Come mostrato nella figura sopra, per le attività di domanda e risposta, è sufficiente aggiungere un ulteriore livello completamente connesso dopo il vettore di codifica prodotto da BERT per prevedere la posizione della risposta nel contesto.Durante il testing, per le nuove clausole assicurative, è necessario analizzare allo stesso modo il contesto dei diversi punti di conoscenza, e poi il<question, context> Come input per il modello, si ottengono le risposte a ciascun punto di conoscenza. Il metodo di cui sopra può gestire meglio le clausole assicurative della stessa compagnia e dello stesso tipo. Questo perché la struttura degli articoli delle clausole assicurative della stessa compagnia è coerente e lo stesso programma può essere utilizzato per analizzare il contesto, tuttavia, per l'assicurazione clausole di diverse aziende e tipi, poiché la terminologia e la struttura sono diverse, il programma di analisi originale non può gestirle e non è fattibile riscrivere un programma di analisi del testo per ciascuna clausola, quindi il modello deve essere migliorato.
Per rendere il processo di estrazione della conoscenza più versatile, modifichiamo prima il processo di previsione: dividiamo il testo originale della nuova frase in segmenti in base al numero di parole, ogni segmento è di circa 300 parole (cerca di non rompere le frasi), e quindi dividere ciascun segmento di testo in Come possibile contesto di qualsiasi punto di conoscenza, funge da input del modello. Se la risposta in uscita è vuota, significa che non esiste alcun punto di conoscenza corrispondente in questo paragrafo. Altrimenti, il risultato di ciascun punto di conoscenza in tutti i paragrafi del testo viene considerato in modo completo e la risposta con la probabilità più alta viene selezionata come risposta alla domanda. punto di conoscenza. Questo nuovo metodo di previsione è generico per qualsiasi clausola ed elimina la necessità di ulteriore analisi del testo. Abbiamo testato termini di diverse aziende utilizzando questo metodo e i risultati hanno mostrato che non funzionava bene sul vecchio modello e che la precisione era diminuita in modo significativo. Il motivo è che prima del miglioramento, durante la formazione, il contesto di ciascun punto di conoscenza era posizionato accuratamente in base alla struttura del documento. Non c'erano molti campioni negativi, quindi il modello poteva solo fare previsioni basate sul contesto posizionato con precisione. Una volta che la struttura dell'organizzazione del testo e il formato del titolo cambiano, il programma di analisi del testo originale non è in grado di individuare con precisione il contesto del problema, generando molti dati interferenti e influenzando l'effetto del modello. Pertanto, il processo di training del modello deve essere modificato. Aggiungiamo dati di testo segmentati, ovvero segmentiamo ciascuna clausola nel set di training nello stesso modo. Se il segmento contiene la risposta contrassegnata dal punto di conoscenza, viene utilizzato come un nuovo campione, altrimenti viene utilizzato come campione negativo (la risposta è vuota). Nei test effettivi, se tutti questi nuovi campioni vengono aggiunti al set di addestramento, verranno generati troppi dati di addestramento e il numero di campioni negativi supererà di gran lunga il numero di campioni positivi. Per bilanciare questo processo, abbiamo apportato ulteriori miglioramenti: Per ciascuna domanda sul punto di conoscenza, se la clausola stessa non contiene il punto di conoscenza (perché il punto di conoscenza è definito in modo uniforme per tutte le clausole assicurative, quindi per una clausola specifica, Non tutti i punti di conoscenza possono essere inclusi in esso), allora ogni frammento viene utilizzato come campione negativo del problema con una probabilità del 10%; se la clausola stessa contiene il punto di conoscenza, ci sono due situazioni Se il frammento di testo corrente contiene il punto di conoscenza target, quindi come campione positivo, altrimenti viene selezionato come campione negativo con una probabilità del 50%. In questo modo viene costruito un nuovo training set per ottenere un nuovo modello. L'idea è di aumentare il numero di campioni negativi relativi al punto di conoscenza se la clausola lo contiene, in modo che il modello possa gestire meglio l'interferenza di frammenti simili e migliorare l'accuratezza della risposta. Se la clausola stessa non contiene il punto di conoscenza, l'adattamento tra il frammento di testo e il punto di conoscenza dovrebbe essere scarso ed è sufficiente selezionare un numero limitato di campioni negativi. Dopo i test, il nuovo modello è stato notevolmente migliorato rispetto al vecchio modello, è più adatto al nuovo metodo di previsione e può essere utilizzato come modello di estrazione della conoscenza della clausola assicurativa più generale.
我们的数据集由某保险公司的保险条款组成,每个条款具有人工标注的知识点,如犹豫期,诉讼期,保险金额等。在实验过程中,训练集,测试集分别由 251 个条款和 98 个条款组成。经过统计,这些条款中所有可能的知识点问题数量为309 条,平均每个条款有 45 条知识点需要提取。测试过程中,我们将条款文本分段,尝试从所有段中提取知识点𝑘𝑖,并根据模型输出的概率,选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串,则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分,大多数知识点的输出应当是空的,因此我们在评估时忽略这部分空知识点,关注两个指标:模型输出的知识点正确率𝑃,即精准率(precision),以及应提取知识点中确实被正确提取的比率𝑅,即召回率(recall)。假设知识点𝑘𝑖标注为𝑦𝑖,模型的输出为𝑦̃𝑖,则𝑃和𝑅可定义为:
Utilizziamo il modello di pre-formazione cinese BERT open source di Google BERT_chinese_L-12_H-768_A-12 e conduciamo i test successivi su questa base. In termini di impostazione dei parametri, il tasso di apprendimento iniziale è 3E-5, la dimensione del batch è 4, il numero di epoche di addestramento è 4 e gli altri parametri adottano la configurazione predefinita del modello. L'esperimento in questo articolo consiste in due parti di test. La prima parte è il test del modello di riferimento. Il processo di formazione prevede: innanzitutto utilizzare un programma di analisi del testo per analizzare la struttura delle clausole assicurative, estrarre il contesto in cui si trova la conoscenza corrispondente. vengono individuati i punti e quindi combinarli in un set di addestramento per BERT. Il modello viene messo a punto. La seconda parte è il test del nuovo modello. Il processo di addestramento consiste nell'aggiungere nuovi campioni in base al set di addestramento del modello di riferimento. Le clausole assicurative corrispondenti sono suddivise in paragrafi in base al numero di parole. Ogni paragrafo di testo è di circa 300 parole. Per ogni problema relativo al punto di conoscenza, viene costruito un set di addestramento per addestrare un nuovo modello. Il risultato del test è la media delle statistiche di 98 clausole assicurative nel set di test, come mostrato nella tabella seguente:
可以看出,以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型,其中𝑃提高了约 40%,𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中,仅通过文本解析程序精确定位知识点的上下文信息,导致模型只具备从正确的上下文中抽取对应的知识点的能力,而不具备辨别无效上下文的能力,因此基准模型存在很大比例的无效输出。而按比例添加负样本后,新模型的无效输出大幅度减少,输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息(文本段)组成的正样本,使得模型能够更好地从无规则截取的文本段中抽取出目标知识点,因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。
I risultati sperimentali mostrano che il nuovo modello addestrato dopo aver ottimizzato il set di addestramento è migliore del modello di base originale nel metodo di previsione della segmentazione del testo e può essere ulteriormente utilizzato in attività più generali di estrazione della conoscenza delle clausole assicurative. Allo stesso tempo, il modello attuale ha ancora molto margine di miglioramento.