Technology sharing

Unstructured domain text knowledge Extraction based on BERT

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Articuli directorium

topic

Magna lingua exempla in cibum temptationis

Nomen imago

Charta inscriptio: https://arxiv.org/abs/2103.00728

Summarium

Cum progressionem cognitionis graphiae technicae et popularis applicationum commercialium, magnae necessitatis est ad cognitionem graphorum entium et relationum notitias ex variis instructuris dominii textibus extrahere. Hoc facit automated scientiam extractionem ex textu regio regio satis significantem. Haec charta cognitionem extractionis methodi fundatam in BERT, quae automatice ad cognitionem eliciendam ex textibus (ut clausulis assecurationis in assecurationis industriae industriae speciebus instructis) adhibita est, adhibita est. Differunt a communi usu cognitionis punctum extractionis methodi fundatae in exemplaribus regulis, exemplaribus vel entitatis extractionis, hic articulus vertit cognitionem punctorum dominii textus in quaestionis et respondere paria, adhibitis textu ante et post responsionem positis pro contextu et usu. BERT ad faciendum lectionem comprehensionis SQuAD datae. Exemplar subtilissimum adhibitum est ad cognitionem automatice extrahendam puncta e clausulis assecurationibus et effectus bonos consequendos.

methodo

Annis, cum in variis industriis transformationis digitalis enuclearetur, numerus textuum electronicorum affinium acriter increvit. Eodem tempore magis magisque incipiunt attendere ad analysin, fodiendam et evolutionem et utendo instrumentorum communicationis socialis et officia externa. Huiusmodi applicationes saepe indigent informationes structurarum excerpere, quae in variis dominii textibus informatae sunt ad constructionem basum cognitionis digitalis. Data est fundamentum productorum et officiorum computatrorum. Dum pro computers notitias nova opera facta sunt ad incepta et instituta in nova aetate evolutionis. Documenta originalia varia negotia et negotia in inceptis et institutis copia cognitionis ac informationis continent, sed omnia scripta sunt ad humanam lectionem. Cum in programmatis computatoriis necessitatibus comparatur, multa superuacua est notitia. Nunc, cum huiusmodi notitiarum applicandarum, basically requirit multum virilem collocare ad requisita informationes manually extrahere legendis documentis et exprimendo in formam quam computatrale legere potest ("intellegere"). Hoc consequitur multum addiscendis sumptibus et subsidiis humanis additis consummatio. Quomodo automated instrumentis utendi ad cognitionem ex textu informato datam inveniendam et ea utendam ut subsidii notitiae qua variae applicationes intelligentes pendent est investigatio hotspot in scientia extrahendi. Haec charta informis textum in certo campo accipit tamquam obiectum investigationis et methodum cognitionis extrahendi proponit per exemplar intellectus linguae altae doctrinae fundatae. Haec methodus praebet puncta cognitionis extrahendae in forma quaestionis-responsionis paria, notitia manually annotata ad formationem datam adhibet, doctrinam transfert ex exemplo praeordinato, et obtinet extractionem latis e textibus in eodem campo per tine-hitur.

Ad documenta, cum specificationibus structuralibus unitis, cognitio extractionis per regulas aedificandas perfici potest. Constructio regularum saepe perficitur per inductionem manualem et summarium, id est, plurimos textuum in eodem campo legendos, ex eis selectos et ultimas extractionis regulas summando. Jyothi et al. IunJun et al. Utilitas huius methodi est quod exempla formandi non requirit et simplex et efficax est; incommodum etiam patet leviter mutat, labor manualis requiritur.

Negotium cognitionis extractionis unum appellatur extractio entitatis, quod est extrahere contentum praefinitum tag ex textu, ut tempus, locus, etc. Speciales tags ab applicatione pendent agnitio). Ens ipsa extractio directe solvi potest ut sequentia negotium pittacii, quod discendi modos statisticas tradito discursum esse potest, ut exemplum absconditum Markov (HMM), vel agri Conditionalis Random (CRF). Superioribus annis, exempla quaedam alta discendi huic quaestioni generi etiam applicata sunt. Lample et al. Ma et al. Praeterea exemplar pulcherrimum BERT etiam bonos eventus consequi potest in serie operarum labellorum.

Praeter entia e textu extrahendis, relatio inter entia est etiam focus cognitionis extrahendi.<E1, R, E2> tunc munus est propositum extrahere omnes possibilis relationes triplicis e textu, earumque relationes ad schema presens limitantur. Rhoncus et at. Makoto et al. Li et al. Zheng et al. Luan et al.

    除了以上提到的知识抽取模式,一个不同的角度是将知识点本身看作一个问题,将知识点的内容作为该问题的答案,将知识点所在的文本段作为这个问答对的上下文,这样知识抽取模型便可以用问答模型来构造。近年来,GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务,仅需简单改造原有网络结构,并进行微调,即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后,将其应用在一个更困难的问答数据集 NQ上,𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题,而不需要根据知识的形式单独设计新的网络结构。

Textus structi in diversis industriis varias notas habent ob earum industriam notas. Quaedam documenta industriae specialia (qualia sunt instructiones medicae) non solum strictam structuram habent, sed etiam strictissimam requiruntur in terminis et verbis, quae magis apta sunt ad extrahendam cognitionem regulae fundatam. Sunt etiam nonnullae industriae quarum textus non multum absunt a textibus generalibus (ut fama, colloquia, etc.), quibus technologiae extractio generalis directe applicari potest. Sunt etiam textus in nonnullis campis, qui sunt inter se et aliquem gradum professionalismi habent, sed non valde stricti. Structura et verba similium textuum e diversis societatibus similes sunt, sed diversae . Clausula assecurationis documenta in industria assecurationis in tertium hunc textuum praedicationem cadunt. Clausulae assecurationis sunt praescripta de iuribus et obligationibus utriusque partis ab utraque parte coniunctim pacti cautionis - insurrectionis societas et consilium possessor. Clausula assecurationis plerumque constat ex tribus partibus;

  1. Basic informationes, id est informationes de ipsa clausula, inter quas: insurer, clausula nomen, clausula abbreviatio, clausula genus, terminus genus, dubitatio periodus, statutum limitationis, interponere numerum et interponere tempus, num vendi potest assecurationis principalis. , etc.;
  2. Condiciones emptionis, id est, condiciones obiectivae, quae sub hac clausula praestatae sunt, occurrere necesse est, inter quas: salubritatem aetatis, sexum, occupationem/typum laboris requisitorum, inquisitionem corporis, requisita securitatis, requisita securitatis socialis, circumstantias personales quae veraciter nuntiandae sunt; etc.;
  3. Assecurationis reatum, id est, reatum et excambium contentum huius clausulae;

Etsi clausulae assecurationis certum gradum vocabulorum professionalium habent, usus vocabulorum professionalium plerumque in industria non normatum est (exempli gratia: "haestatio tempus" etiam dici potest "tempus tepescens", etc.), et clausula documentum est. documentum a policyholder traditum pro lectione. Etsi puncta cognitionis extrahendae inquisita per entitatem extractionem acquiri possunt, valores correspondentes cognitioni punctis saepe mixti sunt in expressione naturali linguae et extrahi non possunt simul cum scientia punctorum descriptione. Exempli gratia: statutum limitationis ad certam clausulam 2 annorum est. Hoc "2 annos" constare potest in sequenti descriptione: "Statutum limitationis pro beneficiario petendi beneficia assecurationis vel premium assecurationis exemptionis a nobis est 2 annorum, ex quo. beneficiarius scit vel Sciendum est calculum a die accidentis assecurationis incipere. fundatur et ens-fundatur extraction modi. Si extractio schematismi adhibeatur ad cognitionem puncta in tripla convertendam, notitia certa et moles pter quod requiritur ad nostrum propositum, lucrum inevitabiliter damnum praeponderat. Unde tandem elegit quaestionem-extrahendi modum cognitionis secundum.

Nuper, methodus discendi per bene-tuning fundata in praecognitis exemplaribus magnum successum consecutus est in agro Processing Naturalis Linguae (NLP), cuius exemplar BERTUS est magni momenti repraesentativum. BERT est exemplar repraesentationis bidirectionis bidirectionis secundum transformatores. Exemplar BERTI est typica applicatio doctrinae subtilitatis fundata, quae significat eius constructionem duos gradus comprehendere: prae-parationem et bene-venationem. Primum, in praeeminentia praeeminentiae, magna vis corporis distenta diversorum operum munerum notitia exercetur, et cognitio in corpore in textum embedding (Embedding) praeeminentiae exemplaris transfertur. Hoc modo, in summa tuning periodo, tantum opus est addere tabulam additam ad network neural ad exemplar praestructum accommodandum. Speciatim pulchrum est exemplar initialize BERT cum parametris praeordinatis, et deinde bene modulans exemplar utens intitulatum ab amni operibus. In responsione ad nostram cognitionem ex documentis assecurationibus eliciendis, tantum opus est ut assecurationis clausulae notitia ad interrogationem et cantum BERT peractum respondeatur, ut necessitatibus clausulae cognitionis extractionis assecurationis occurrat.

Nomen imago

Clausula cognitionis extractionis assecurationis processum primum manually intitulatum clausulae assecurationis efficit cognitionem punctorum in<question, answer> in forma, et deinde programmate textui parsing utere ad assecurationis tenorem documentum in documentum arboris, in quo titulus principalis est nodi radicis, et quilibet titulus sequens parvulus est nodi gradus praecedentis, et unaquaeque paragraphus textus. legitur Accipe pro folio node.Par responsionis responsionis ad quaestionem par nodi foliorum ubi sita est, et textu utere toti nodi folium respondente sicut contextus par quaestionis quaestionis, et tandem construe.<question, answer, context> Demum, haec notitia copia adhibita ad exemplar prae-tractationis instituendi BERT secundum subtilissimam methodum ad operas comprehensionis legendi in notitia SQuAD fundata, et exemplar finalis cognitionis extractionis obtinetur. Ut in schemate supra demonstratum est, opera quaestionis et responsionis, tantum opus est addere additionem plene coniunctam post modum translitterandi vectoris output a BERT ad praedicere positionem responsionis in contextu.In probatione, ad novas clausulas assecurationes, contextus variarum cognitionum eodem modo enucleari debet ac deinde.<question, context> Sicut input ad exemplar, singulis responsa cognitionis punctum obtinetur. Superior methodus melius potest tractare clausulas assecurationis eiusdem societatis et eiusdem generis. Hoc est, quia structura clausulae assecurationis articulorum eiusdem societatis constat, eademque programma ad contextum analysim adhiberi potest clausulae diversarum societatum et generum, Cum diversae sint terminologia et structura, programmata analysis originalis eam tractare non possunt, neque fieri potest ut pro unaquaque clausula analysin textum rescribere possit, ideo exemplar emendari debet.

Ut ad cognitionem extractionis processus mobilius efficiendam, processum praedictum primum modificamus: textum primigenium novae clausulae in segmenta secundum numerum verborum divide, utraque segmentum circiter 300 verborum est (sententias ne frangere conaris); deinde quodlibet segmentum dividat in Prout contextus cuiusvis cognitionis possibilis, inservit pro initus exemplaris. Si responsio output vacuum est, significat non esse in hac paragrapho notionem respondentem. Alioquin, cuiuslibet cognitionis punctum in omnibus textibus paragraphis comprehensum consideratur, et responsio summa probabilitate eligitur ut responsio ad responsionem. cognitionem attingit. Haec nova praedictio methodus generalis est propositi pro quavis clausula ac necessitatem additicii textus parsing aufert. Verba ex pluribus diversis societatibus hoc methodo utentes temptavimus, et eventus demonstraverunt non bene operari in exemplo antiquo, et accurationem significanter omissam esse. Ratio est: ante emendationem, in disciplina, contextus uniuscuiusque cognitionis punctum accurate positum est in structura documenti. Non multa fuerunt exempla negativa, ut exemplar solum praedicere posset in contextu praecise positum. Cum textus organizationis structura et titulus format mutationis, textus primigenii parsing programmatis non potest accurate collocare contextum problematis, multum interveniens notitias generans et effectum exemplaris afficiens. Igitur processus disciplinae exemplaris mutari debet. Addimus textum segmentatum notatum, id est, segmentum singulae clausulae in formando eodem modo positum novum specimen, secus pro exemplo negativo (responsio vacua). In ipsa probatione, si haec omnia nova exemplaria ad institutionem positae accedunt, nimis generatur notitia disciplinarum, et numerus exemplorum negativorum longe superabit numerum exemplorum positivorum. Ad hoc processum aequivalendum, ulteriora fecimus emendationes sequentes: Pro unaquaque scientia punctum quaestionis, si ipsa clausula punctum cognitionis non continet (quia punctum cognitionis uniformiter pro omnibus clausulis assecurationis definitur, sic pro certo clausula, Non. omnia puncta cognitionis in eo comprehendi possunt), tum unumquodque fragmentum pro negativo specimen problematis cum probabilitate 10% adhibetur; scopum cognitionis punctum, deinde Pro exemplo positivo, alias ut specimen negativum cum probabilitate 50% seligitur. Idea est numerus exemplorum negativorum augere ad punctum cognitionis, si clausula continet, ut exemplum melius tractare possit impedimentum similium fragmentorum ac subtiliter respondere meliorem. Si ipsa clausula punctum cognitionis non continet, idoneitas inter fragmentum textus et punctum cognitionis pauper esse debet, et paucitas exempla negativorum selecta satis est. Post experimentum, novum exemplar multo melius comparatum ad exemplar antiquum, aptius est ad novam praedictionis methodum, et ut communius assecurationis clausulae cognitionis extractionis exemplar adhiberi potest.

experimentum

    我们的数据集由某保险公司的保险条款组成,每个条款具有人工标注的知识点,如犹豫期,诉讼期,保险金额等。在实验过程中,训练集,测试集分别由 251 个条款和 98 个条款组成。经过统计,这些条款中所有可能的知识点问题数量为309 条,平均每个条款有 45 条知识点需要提取。测试过程中,我们将条款文本分段,尝试从所有段中提取知识点𝑘𝑖,并根据模型输出的概率,选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串,则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分,大多数知识点的输出应当是空的,因此我们在评估时忽略这部分空知识点,关注两个指标:模型输出的知识点正确率𝑃,即精准率(precision),以及应提取知识点中确实被正确提取的比率𝑅,即召回率(recall)。假设知识点𝑘𝑖标注为𝑦𝑖,模型的输出为𝑦̃𝑖,则𝑃和𝑅可定义为:

Fontem apertum Google BERT_chinese_L-12_H-768_A-12 praestruendi exemplar BERT_Chinese utimur, ac deinde probationes sequentes in hoc fundamento adhibemus. In terminis parametri occasus, litteraturae initialis numerus est 3E-5, massae magnitudo est 4, numerus epochae disciplinae est 4, et ceteri parametri figuram defaltam conformationem adhibent. Experimentum in hoc articulo duabus partibus probationis consistit. Prima pars est probatio probati exemplaris. Processus disciplinae est: primum utatur programmatis parsing ad structuram clausurarum assecurationis parse, extrahe contextum ubi respondet scientia. puncta sita sunt, et deinde eam in disciplina positam BERT. Secunda pars est probatio novi exemplaris. Clausulae assecurationis respondentes in paragraphos secundum numerum verborum dividuntur. Pro unaquaque scientia problematum punctum, institutio institutio constructa est ad novum exemplar instituendi. Proventus probatus est mediocris statisticae 98 clausulae assecurationis in testo statuto, ut in sequenti tabula ostensum est:

Nomen imago

    可以看出,以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型,其中𝑃提高了约 40%,𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中,仅通过文本解析程序精确定位知识点的上下文信息,导致模型只具备从正确的上下文中抽取对应的知识点的能力,而不具备辨别无效上下文的能力,因此基准模型存在很大比例的无效输出。而按比例添加负样本后,新模型的无效输出大幅度减少,输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息(文本段)组成的正样本,使得模型能够更好地从无规则截取的文本段中抽取出目标知识点,因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。

Experimentales eventus ostendunt novum exemplar institutum postquam nos optimized disciplinae institutio melius est quam exemplar baseline originalis in textu segmentationis praedictae methodi, et ulterius adhiberi potest in communioribus clausulae assecurationis cognitionis extrahendi operibus. Eodem tempore, praesens exemplar adhuc multum emendationis locus habet.

  • Ob limitationes condiciones realisticae (notitiae voluminis annotationis) disciplina nostra tantum 251 termini comprehendit, et omnis disciplina notitia ex eadem societate assecurationis accessit. Post dilatatam magnitudinem notitiarum statutorum ad plura verba data ab insurers statutis includenda, effectus exemplaris ulterius optimized esse debet.
  • In statu nostro annotationis notitia tantum continet puncta cognitionis clausulae, et congruens contextus in notitia disciplinae per programmata analysis textus propriae scriptae habetur. Annotationum manualium consiliorum optimized et scientiarum puncta et eorum contextus possunt simul annotatum esse, ut notitia consecuta accuratior esse possit.