2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Suuret kielimallit elintarviketestaukseen
Paperiosoite: https://arxiv.org/abs/2103.00728
Tietograafin tekniikan kehittymisen ja kaupallisten sovellusten yleistymisen myötä on lisääntyvä tarve poimia tietograafien kokonaisuuksia ja relaatiodataa erilaisista strukturoimattomista verkkoteksteistä. Tämä tekee automaattisesta tiedon poimimisesta verkkotunnuksen tekstistä varsin mielekästä. Tässä artikkelissa ehdotetaan BERT-pohjaista tiedonpoimintamenetelmää, jota käytetään automaattisesti poimimaan tietopisteitä jäsentämättömistä toimialuekohtaisista teksteistä (kuten vakuutusalan vakuutuslausekkeista) työvoiman säästämiseksi tietokaavioiden rakentamisprosessissa. Poiketen yleisesti käytetyistä sääntöihin, malleihin tai entiteettien poimintamalleihin perustuvista tietopisteiden poimintamenetelmistä, tämä artikkeli muuntaa verkkoalueen tekstin tietopisteet kysymys- ja vastauspareiksi käyttämällä vastauspaikkaa ennen ja jälkeen olevaa tekstiä kontekstina ja käyttää BERT suorittaa luetun ymmärtämisen SQuAD-tietojen perusteella. Tehtävän hienosäätö. Hienosäädetyllä mallilla poimittiin automaattisesti tietopisteitä useammista vakuutuslausekkeista ja saavutettiin hyviä tuloksia.
Viime vuosina digitaalisen muutoksen syventyessä eri toimialoilla siihen liittyvien sähköisten tekstien määrä on lisääntynyt voimakkaasti. Samaan aikaan yhä useammat yritykset ovat alkaneet kiinnittää huomiota tiedon analysointiin, louhintaan ja tietoresurssien kehittämiseen ja hyödyntämiseen Tietokonesovellusjärjestelmät, kuten tietokartat ja älykäs dialogi, ovat tulleet perustaksi eri yrityksille ja instituutioille ja ulkopuoliset palvelut. Tällaisten sovellusten on usein poimia erilaisten strukturoimattomien verkkotekstien sisältämä strukturoitu tieto digitaalisten tietokantojen rakentamiseksi. Data on tietokonetuotteiden ja -palveluiden perusta. Tietojen toimittamisesta tietokoneisiin on tullut uusi tehtävä yritysten ja laitosten kehitykselle uudella aikakaudella. Yritysten ja laitosten alkuperäiset liike- ja yritysasiakirjat sisältävät runsaasti tietoa ja tietoa, mutta ne ovat kaikki kirjoitettuja ihmisten luettavaksi Tietokoneohjelmien tarpeisiin verrattuna. Tällä hetkellä tällaista dataa sovellettaessa vaaditaan periaatteessa paljon työvoimaa, jotta tarvittavat tiedot saadaan manuaalisesti poimimaan asiakirjoja lukemalla ja ilmaisemaan ne sellaiseen muotoon, jota tietokone voi lukea ("ymmärtää"). Tämä aiheuttaa paljon ylimääräisiä oppimiskustannuksia ja henkilöresurssien kulutusta. Tiedonhankinnan tutkimuskohde on, kuinka automatisoitujen keinojen avulla löytää tietoa jäsentämättömästä tekstidatasta ja käyttää sitä tietoresurssina, josta useat älykkäät sovellukset ovat riippuvaisia. Tässä artikkelissa otetaan tutkimuskohteena tietyn alan jäsentämätön teksti ja ehdotetaan menetelmää tiedon poimimiseen syväoppimiseen perustuvan kielen ymmärtämismallin avulla. Tämä menetelmä esittelee poimittavat tietopisteet kysymys-vastaus-pareina, käyttää manuaalisesti annotoitua dataa harjoitustietona, suorittaa siirtooppimista esikoulutetun mallin perusteella ja saa automaattisen poiminnan saman alan teksteistä tietopisteiden hienosäätö.
Asiakirjoille, joilla on yhtenäiset rakennespesifikaatiot, tiedon poiminta voidaan suorittaa rakennussäännöillä. Sääntöjen rakentaminen suoritetaan usein manuaalisen induktion ja yhteenvedon avulla - eli lukemalla suuri määrä tekstejä samassa kentässä, valitsemalla niistä ja tekemällä yhteenveto lopullisista poimintasäännöistä. Jyothi ym. käyttivät sääntöihin perustuvaa lähestymistapaa tehokkaan tiedon poimimiseen suuresta määrästä henkilökohtaisia ansioluetteloita ja tietokannan rakentamista. JunJun ym. käyttivät samanlaista menetelmää akateemisen käsitteellisen tiedon poimimiseen akateemisesta kirjallisuudesta. Tämän menetelmän etuna on, että se ei vaadi koulutusmalleja, ja se on myös ilmeinen muuttuu hieman, tarvitaan käsityötä. Uusia tiedonpoimintasääntöjä rakennetaan, joten menetelmä ei ole kannettava.
Eräs tiedon poiminnan tehtävä on nimeltään entiteettipoimiminen, joka on poimia tekstistä ennalta määritettyä tunnistesisältöä, kuten aika, sijainti jne. Tietyt tunnisteet riippuvat sovelluksesta Yleisimmin käytettyä tiedon poiminta kutsutaan nimellä nimetty entiteetti tunnustaminen (NER). Itse entiteetin erottaminen voidaan ratkaista suoraan sekvenssimerkintätehtävänä, jota voidaan käsitellä perinteisillä tilastollisilla oppimismenetelmillä, kuten Hidden Markov Models (HMM) tai Conditional Random Fields (CRF). Viime vuosina tämäntyyppisiin ongelmiin on sovellettu myös syväoppimismalleja. Esimerkiksi BiLSTM:n ja CRF:n yhdistävä sekvenssimerkintämenetelmä on saavuttanut hyviä tuloksia. Lample ym. ehdottivat uutta verkkorakennetta, jossa käytetään pinottua LSTM:ää edustamaan pinorakennetta, muodostaen suoraan useiden sanojen esityksen, ja vertasivat sitä LSTM-CRF-malliin. Ma et ai. ehdottivat BiLSTM-CNN-CRF:ään perustuvaa end-to-end -sekvenssimerkintämallia. Lisäksi hienosäädetyllä BERT-mallilla voidaan saavuttaa hyviä tuloksia myös sekvenssimerkintätehtävissä.
Tekstistä kokonaisuuksien poimimisen lisäksi entiteettien välinen suhde on myös tiedon poimimisen painopiste Entiteetit ja niiden suhteet muodostuvat yleensä kolminkertaisiksi.<E1, R, E2> , silloin tehtävän tavoitteena on poimia tekstistä kaikki mahdolliset entiteettisuhteen kolmiot, ja niiden suhteet rajoittuvat esiasetettuun skeemaan. Zeng et al. suunnitteli CNN:n luokittelemaan suhteita, mutta ei kolminkertaisia. Makoto ym. saavuttivat kokonaisuuden ennusteen rakentamalla BiLSTM:ään ja Bi-TreeLSTM:ään perustuvan pinoverkon, joka suorittaa entiteetin poimimisen ja suhteen havaitsemisen samanaikaisesti. Li ym. käyttivät kaksikerroksista LSTM:ää kooderi-dekooderiarkkitehtuurilla rakentaakseen tiedonpoimintamallin, joka ei rajoitu kolminkertaisiin tietoihin ja joka voi ennustaa strukturoitua tietoa kiinteässä muodossa. Zheng ym. muuttivat kokonaisuuden ja suhteen erotustehtävän sekvenssimerkintätehtäväksi leimausstrategian avulla ja rakensivat sitten Bi-LSTM-mallin, joka on samanlainen kuin edellinen. Luan ym. suunnittelivat monitehtävän oppimiskehyksen kokonaisuuksien ja suhteiden tunnistamiseksi tieteellisten tietokaavioiden muodostamiseksi. Tämä malli ylitti olemassa olevat mallit ilman aiempaa tietoa.
除了以上提到的知识抽取模式,一个不同的角度是将知识点本身看作一个问题,将知识点的内容作为该问题的答案,将知识点所在的文本段作为这个问答对的上下文,这样知识抽取模型便可以用问答模型来构造。近年来,GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务,仅需简单改造原有网络结构,并进行微调,即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后,将其应用在一个更困难的问答数据集 NQ上,𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题,而不需要根据知识的形式单独设计新的网络结构。
Strukturoiduilla teksteillä eri toimialoilla on erilaisia ominaisuuksia niiden toimialan ominaisuuksien vuoksi. Tietyillä toimialakohtaisilla asiakirjoilla (kuten lääketieteellisillä ohjeilla) ei ole vain tiukka rakenne, vaan niissä on myös erittäin tiukat vaatimukset terminologialle ja sanamuodolle, mikä tekee niistä sopivampia sääntöpohjaiseen tiedon poimimiseen. On myös toimialoja, joiden tekstit eivät juurikaan eroa yleisistä teksteistä (kuten uutisraportit, haastattelut jne.), joilla yleistä poimintatekniikkaa voidaan soveltaa suoraan. Joillakin aloilla on myös tekstejä, jotka ovat jonkin verran ammattimaisia, mutta eivät ole kovin tiukkoja. Eri yritysten samankaltaisten tekstien rakenne ja sanamuoto ovat samanlaisia, mutta saman yrityksen terminologian käyttö ja esittely Suhteellisen yhtenäinen. Vakuutusalan vakuutuslausekkeet kuuluvat tähän kolmanteen tekstiluokkaan. Vakuutuslausekkeet ovat molempien osapuolten oikeuksia ja velvollisuuksia koskevia määräyksiä, joista vakuutussopimuksen molemmat osapuolet – vakuutuksenantaja (vakuutusyhtiö) ja vakuutuksenottaja – sopivat. Vakuutuslauseke koostuu yleensä kolmesta osasta:
Vaikka vakuutuslausekkeissa on jonkin verran ammatillista sanastoa, ammattisanaston käyttö ei ole enimmäkseen standardisoitua alalla (esim. "epäröintijaksoa" voidaan kutsua myös "jäähdytysjaksoksi" jne.), ja lausekeasiakirja on Vakuutuksenottajalle luettavaksi toimitettu asiakirja Suurin osa poimia vaativista tietopisteistä on sekoitettu luonnollisella kielellä, joka ei sovellu staattisiin sääntöihin perustuvaan tekstin poimimiseen. Vaikka itse tarvittavat poimitut tietopisteet voidaan saada entiteettipoiminnalla, tietopisteitä vastaavat arvot sekoitetaan usein luonnollisella kielellä, eikä niitä voida poimia yhdessä tietopisteen kuvauksen kanssa. Esimerkiksi: tietyn lausekkeen vanhentumisaika on 2 vuotta. Tämä "2 vuotta" voi esiintyä seuraavassa kuvauksessa: "Edunsaajan vanhentumisaika pyytää meiltä vakuutusetuja tai vakuutusmaksuvapautusta on 2 vuotta, alkaen. Edunsaaja tietää tai On tiedettävä, että laskenta alkaa vakuutustapaturman sattumispäivästä "Joten kun meidän on poimia perustiedot, ostoehdot, vakuutusvastuu ja muut tietokohdat vakuutuslausekkeista, suljemme pois sääntö- ja kokonaisuuteen perustuvia poimintamenetelmiä. Jos käytetään Schema-tyyppistä poimintaa tietopisteiden muuntamiseen kolminkertaisiksi, vaadittu koulutustietojoukko ja merkintöjen määrä on meidän tarkoituksiemme kannalta väistämättä suurempi kuin menetys. Siksi valitsimme lopulta kysymys-vastaus-pohjaisen tiedonpoimintamenetelmän.
Viime vuosina esikoulutettuihin malleihin perustuva hienosäätömenetelmä on saavuttanut suurta menestystä Natural Language Processing (NLP) -alalla, jonka tärkeä edustaja BERT-malli on. BERT on muuntajiin perustuva kaksisuuntainen koodauksen esitysmalli. Sen topologia on monikerroksinen kaksisuuntainen muuntajaverkko. BERT-malli on tyypillinen hienosäätöoppimiseen perustuva sovellus, mikä tarkoittaa, että sen rakentamisessa on kaksi vaihetta: esikoulutus ja hienosäätö. Ensin esikoulutusvaiheessa opetetaan suuri määrä eri koulutustehtävien leimaamatonta korpustietoa ja korpuksessa oleva tieto siirretään esikoulutusmallin tekstin upottamiseen (Embedding). Tällä tavalla sinun tarvitsee hienosäätövaiheessa vain lisätä ylimääräinen lähtökerros hermoverkkoon esiopetetun mallin säätämiseksi. Tarkemmin sanottuna hienosäätö on alustaa BERT-malli esiopetetuilla parametreilla ja hienosäätää sitten mallia käyttämällä merkittyjä tietoja myöhemmän vaiheen tehtävistä. Vastauksena tarpeemme poimia tietopisteitä vakuutusasiakirjoista, meidän tarvitsee vain käyttää vakuutuslauseketietoja BERT:n kysymys- ja vastaustehtävän hienosäätämiseen vastaamaan vakuutuslausekkeen tiedon keräämisen tarpeita.
Vakuutuslausekkeen tiedon poimintaprosessi tuottaa ensin manuaalisesti merkittyjä vakuutuslausekkeen tietopisteitä<question, answer> muodossa, ja käytä sitten tekstin jäsennysohjelmaa jäsentämään vakuutuslausekeasiakirja dokumenttipuuhun, jossa pääotsikko on juurisolmu ja jokainen seuraava otsikko on edellisen tason alisolmu ja jokainen tekstin kappale luetaan Ota se lehtisolmuna.Yhdistä kysymys-vastaus-parin vastaus lehtisolmuun, jossa se sijaitsee, ja käytä koko lehtisolmua vastaavaa tekstiä kysymys-vastaus-parin kontekstina ja muodosta lopuksi<question, answer, context> Lopuksi tätä tietojoukkoa käytetään BERT-esikoulutusmallin kouluttamiseen SQuAD-dataan perustuvien luetun ymmärtämisen tehtävien hienosäätömenetelmän mukaisesti ja saadaan lopullinen tiedon poimintamalli. Kuten yllä olevasta kuvasta näkyy, kysymys-vastaustehtävissä sinun tarvitsee vain lisätä ylimääräinen täysin yhdistetty kerros BERT:n koodausvektoritulosteen jälkeen, jotta voit ennustaa vastauksen sijainnin kontekstissa.Testauksen aikana uusien vakuutuslausekkeiden osalta eri tietopisteiden konteksti on analysoitava samalla tavalla, ja sitten<question, context> Mallin syötteenä saadaan vastaukset jokaiseen tietopisteeseen. Yllä oleva menetelmä pystyy käsittelemään paremmin saman yrityksen ja samantyyppisiä vakuutuslausekkeita, koska saman yrityksen vakuutuslausekkeiden rakenne on johdonmukainen ja samaa ohjelmaa voidaan käyttää vakuutusten analysointiin eri yritysten ja tyyppien lausekkeet, Koska terminologia ja rakenne ovat erilaiset, alkuperäinen analyysiohjelma ei pysty käsittelemään sitä, eikä jokaiselle lauseelle ole mahdollista kirjoittaa uudelleen tekstianalyysiohjelmaa, joten mallia on parannettava.
Tiedonottoprosessin monipuolistamiseksi muokkaamme ensin ennustusprosessia: jaetaan uuden lauseen alkuperäinen teksti osiin sanojen määrän mukaan, jokainen segmentti on noin 300 sanaa (yritä olla rikkomatta lauseita), ja jaa sitten jokainen tekstisegmentti osiin. Minkä tahansa tietopisteen mahdollisena kontekstina se toimii mallin syötteenä. Jos tulosvastaus on tyhjä, se tarkoittaa, että tässä kappaleessa ei ole vastaavaa tietopistettä. Muussa tapauksessa kaikkien tekstikappaleiden jokaisen tietopisteen tulos otetaan kattavasti ja vastaukseksi valitaan suurin todennäköisyys. tietopiste. Tämä uusi ennustemenetelmä on yleiskäyttöinen kaikille lausekkeille ja eliminoi ylimääräisen tekstin jäsennyksen tarpeen. Testasimme tällä menetelmällä useita eri yritysten termejä, ja tulokset osoittivat, että se ei toiminut hyvin vanhalla mallilla ja tarkkuus laski merkittävästi. Syynä on, että ennen parannusta, koulutuksen aikana, kunkin tietopisteen konteksti sijoitettiin tarkasti dokumentin rakenteen perusteella, eikä negatiivisia näytteitä ollut paljon. Tästä johtuen malli pystyi tekemään ennusteita vain tarkasti sijoitetun kontekstin perusteella . Kun tekstin organisaatiorakenne ja otsikon muoto muuttuvat, alkuperäinen tekstin jäsennysohjelma ei pysty paikantamaan tarkasti ongelmakontekstia, mikä tuottaa paljon häiritsevää dataa ja vaikuttaa mallin vaikutukseen. Siksi mallin koulutusprosessia on muokattava. Lisäämme segmentoituja tekstitietoja, eli segmentoimme harjoitusjoukon jokainen lauseke samalla tavalla uusi näyte, muuten sitä käytetään negatiivisena näytteenä (vastaus on tyhjä). Varsinaisessa testauksessa, jos kaikki nämä uudet näytteet lisätään opetusjoukkoon, syntyy liian paljon opetusdataa ja negatiivisten näytteiden määrä ylittää huomattavasti positiivisten näytteiden määrän. Tämän prosessin tasapainottamiseksi teimme edelleen seuraavat parannukset: Jokaisessa tietopistekysymyksessä, jos lauseke ei sisällä tietopistettä (koska tietopiste on määritelty yhtenäisesti kaikille vakuutuslausekkeille, joten tietylle lausekkeelle ei kaikki tietopisteet voidaan sisällyttää siihen), niin kutakin fragmenttia käytetään ongelman negatiivisena otoksena 10 %:n todennäköisyydellä, jos lause itse sisältää tietopisteen, on olemassa kaksi tilannetta tavoitetietopiste, sitten Positiivisena otoksena, muuten se valitaan negatiiviseksi otokseksi 50 %:n todennäköisyydellä. Tällä tavalla muodostetaan uusi koulutussarja uuden mallin saamiseksi. Ideana on lisätä tietopisteeseen liittyvien negatiivisten näytteiden määrää, jos lauseessa se on, jotta malli pystyy paremmin käsittelemään samankaltaisten fragmenttien häiriötä ja parantamaan vastauksen tarkkuutta. Jos lause itsessään ei sisällä tietopistettä, tulee tekstifragmentin ja tietopisteen välinen sovitus olla huono, ja pienen määrän negatiivisten näytteiden valitseminen riittää. Testauksen jälkeen uutta mallia on paranneltu huomattavasti vanhaan malliin verrattuna, se sopii paremmin uuteen ennustemenetelmään ja sitä voidaan käyttää yleisempänä vakuutuslausekkeen tiedonpoimintamallina.
我们的数据集由某保险公司的保险条款组成,每个条款具有人工标注的知识点,如犹豫期,诉讼期,保险金额等。在实验过程中,训练集,测试集分别由 251 个条款和 98 个条款组成。经过统计,这些条款中所有可能的知识点问题数量为309 条,平均每个条款有 45 条知识点需要提取。测试过程中,我们将条款文本分段,尝试从所有段中提取知识点𝑘𝑖,并根据模型输出的概率,选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串,则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分,大多数知识点的输出应当是空的,因此我们在评估时忽略这部分空知识点,关注两个指标:模型输出的知识点正确率𝑃,即精准率(precision),以及应提取知识点中确实被正确提取的比率𝑅,即召回率(recall)。假设知识点𝑘𝑖标注为𝑦𝑖,模型的输出为𝑦̃𝑖,则𝑃和𝑅可定义为:
Käytämme Googlen avoimen lähdekoodin BERT-kiinalaista esikoulutusmallia BERT_chinese_L-12_H-768_A-12 ja teemme myöhemmin testejä tämän perusteella. Parametriasetusten osalta alkuperäinen oppimisnopeus on 3E-5, eräkoko on 4, harjoitusjaksojen lukumäärä on 4 ja loput parametrit ottavat mallin oletuskonfiguraation. Tämän artikkelin kokeilu koostuu kahdesta testauksen osasta. Ensimmäinen osa on benchmark-mallin testi. Koulutusprosessi on: käytä ensin tekstin jäsennysohjelmaa vakuutuslausekkeiden rakenteen jäsentämiseen. pisteet sijaitsevat ja yhdistä ne sitten BERT:n harjoitussarjaksi. Malli on hienosäädetty. Toinen osa on uuden mallin testaus. Koulutusprosessi on: uusien näytteiden lisääminen benchmark-mallin koulutussarjaan. Vastaavat vakuutuslausekkeet on jaettu kappaleisiin sanamäärän mukaan. Jokainen tekstikappale on noin 300 sanaa. Jokaiselle tietopisteongelmalle rakennetaan koulutussarja uuden mallin kouluttamiseksi. Testitulos on testisarjan 98 vakuutuslausekkeen tilastojen keskiarvo seuraavan taulukon mukaisesti:
可以看出,以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型,其中𝑃提高了约 40%,𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中,仅通过文本解析程序精确定位知识点的上下文信息,导致模型只具备从正确的上下文中抽取对应的知识点的能力,而不具备辨别无效上下文的能力,因此基准模型存在很大比例的无效输出。而按比例添加负样本后,新模型的无效输出大幅度减少,输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息(文本段)组成的正样本,使得模型能够更好地从无规则截取的文本段中抽取出目标知识点,因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。
Kokeilutulokset osoittavat, että uusi malli, joka on opetettu sen jälkeen, kun olemme optimoineet koulutusjoukon, on parempi kuin alkuperäinen perusmalli tekstisegmentin ennustusmenetelmässä, ja sitä voidaan käyttää edelleen yleisemmissä vakuutuslausekkeen tiedon keruutehtävissä. Samaan aikaan nykyisessä mallissa on vielä paljon parantamisen varaa.