प्रौद्योगिकी साझेदारी

BERT इत्यस्य आधारेण असंरचितं डोमेनपाठज्ञाननिष्कासनम्

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

विषय

खाद्यपरीक्षणार्थं बृहत्भाषाप्रतिमानाः

चित्र नाम

पेपर पता: https://arxiv.org/abs/2103.00728

संक्षेपः

ज्ञानलेखप्रौद्योगिक्याः विकासेन व्यावसायिकअनुप्रयोगानाम् लोकप्रियतायाः च सह विभिन्नेभ्यः असंरचितक्षेत्रग्रन्थेभ्यः ज्ञानलेखसत्ताः, सम्बन्धात्मकदत्तांशः च निष्कासयितुं वर्धमानः आवश्यकता वर्तते एतेन डोमेनपाठात् स्वचालितज्ञाननिष्कासनं अत्यन्तं सार्थकं भवति । अस्मिन् पत्रे BERT इत्यस्य आधारेण ज्ञाननिष्कासनपद्धतिः प्रस्ताविता, यस्याः उपयोगः ज्ञानलेखस्य निर्माणप्रक्रियायां जनशक्तिं रक्षितुं असंरचितडोमेन्-विशिष्टग्रन्थेभ्यः (यथा बीमा-उद्योगे बीमाखण्डेभ्यः) स्वयमेव ज्ञानबिन्दून् निष्कासयितुं भवति नियमानाम्, टेम्पलेट् अथवा सत्तानिष्कासनप्रतिमानानाम् आधारेण सामान्यतया प्रयुक्तानां ज्ञानबिन्दुनिष्कासनविधिभ्यः भिन्नः अयं लेखः डोमेनपाठस्य ज्ञानबिन्दून् प्रश्नोत्तरयुग्मेषु परिवर्तयति, उत्तरस्थानात् पूर्वं पश्चात् च पाठस्य सन्दर्भरूपेण उपयोगं करोति, उपयोगं च करोति SQuAD आँकडानां आधारेण पठनसमझं कर्तुं BERT। अधिकबीमाखण्डेभ्यः स्वयमेव ज्ञानबिन्दून् निष्कासनार्थं सूक्ष्मरूपेण व्यवस्थितस्य प्रतिरूपस्य उपयोगः कृतः, उत्तमं परिणामं च प्राप्तम् ।

प्रक्रिया

अन्तिमेषु वर्षेषु विभिन्नेषु उद्योगेषु अङ्कीयरूपान्तरणस्य गभीरतायाः कारणात् तत्सम्बद्धानां इलेक्ट्रॉनिकग्रन्थानां संख्यायां तीव्ररूपेण वृद्धिः अभवत् । तस्मिन् एव काले अधिकाधिकाः उद्यमाः आँकडाविश्लेषणं, खननं च प्रति ध्यानं दातुं आरब्धाः सन्ति तथा च दत्तांशसंसाधनानाम् विकासः उपयोगश्च कम्प्यूटर-अनुप्रयोग-प्रणाल्याः यथा ज्ञान-नक्शा, बुद्धिमान् संवादः च विभिन्नानां उद्यमानाम् संस्थानां च आन्तरिक-प्रदानस्य आधारः अभवत् बाह्यसेवाः च । एतादृशानां अनुप्रयोगानाम् अङ्कीयज्ञानमूलानां निर्माणार्थं प्रायः विभिन्नेषु असंरचितक्षेत्रग्रन्थेषु निहितं संरचितसूचनाः निष्कासयितुं आवश्यकता भवति । सङ्गणकस्य उत्पादानाम् सेवानां च आधारः आँकडा अस्ति सङ्गणकानां कृते दत्तांशप्रदानं नूतनयुगे उद्यमानाम् संस्थानां च विकासाय नूतनं कार्यं जातम् । उद्यमेषु संस्थासु च मूलविविधव्यापारव्यापारदस्तावेजेषु ज्ञानस्य सूचनानां च धनं भवति, परन्तु ते सर्वे मानवपठनाय लिखिताः सन्ति, सङ्गणकप्रोग्रामानाम् आवश्यकताभिः सह तुलने अत्र बहु ​​अनावश्यकसूचनाः सन्ति वर्तमान समये एतादृशं दत्तांशं प्रयोक्तुं मूलतः दस्तावेजान् पठित्वा आवश्यकसूचनाः हस्तचलितरूपेण निष्कासयितुं बहु जनशक्तिं निवेशयितुं आवश्यकं भवति तथा च सङ्गणकेन पठितुं शक्यते ("अवगन्तु") इति रूपेण व्यक्तं भवति एतेन बहु अतिरिक्तं शिक्षणव्ययः मानवसंसाधनस्य उपभोगः च भवति । असंरचितपाठदत्तांशतः ज्ञानस्य आविष्कारार्थं स्वचालितसाधनानाम् उपयोगः कथं करणीयः तथा च तस्य उपयोगः दत्तांशसंसाधनरूपेण यस्मिन् विविधाः बुद्धिमन्तः अनुप्रयोगाः निर्भराः सन्ति इति ज्ञाननिष्कासनक्षेत्रे शोधस्य हॉटस्पॉट् अस्ति अयं पत्रः विशिष्टक्षेत्रे असंरचितं पाठं शोधवस्तुरूपेण गृहीत्वा गहनशिक्षणस्य आधारेण भाषाबोधप्रतिरूपस्य माध्यमेन ज्ञाननिष्कासनस्य पद्धतिं प्रस्तावयति। एषा पद्धतिः प्रश्नोत्तरयुग्मरूपेण निष्कासितव्यानि ज्ञानबिन्दून् प्रस्तुतं करोति, प्रशिक्षणदत्तांशरूपेण हस्तचलितरूपेण टिप्पणीकृतदत्तांशस्य उपयोगं करोति, पूर्वप्रशिक्षितप्रतिरूपस्य आधारेण स्थानान्तरणशिक्षणं करोति, तथा च माध्यमेन समानक्षेत्रे पाठात् स्वचालितनिष्कासनं प्राप्नोति fine-tuning.ज्ञानबिन्दुनाम् प्रतिरूपम्।

एकीकृतसंरचनात्मकविनिर्देशयुक्तानां दस्तावेजानां कृते भवननियमैः ज्ञाननिष्कासनं कर्तुं शक्यते । नियमानाम् निर्माणं प्रायः हस्तप्रवर्तनस्य सारांशस्य च माध्यमेन सम्पन्नं भवति - अर्थात् एकस्मिन् क्षेत्रे बहूनां ग्रन्थानां पठनं, तेभ्यः चयनं, अन्तिमनिष्कासननियमानां सारांशः च ज्योति इत्यादयः बहूनां व्यक्तिगत-पुनरावृत्ति-पत्रेभ्यः प्रभावी-सूचनाः निष्कास्य आँकडाधार-निर्माणार्थं नियम-आधारित-पद्धतेः उपयोगं कृतवन्तः । JunJun et al. अस्याः पद्धतेः लाभः अस्ति यत् अस्याः प्रशिक्षणप्रतिमानानाम् आवश्यकता नास्ति तथा च अस्य हानिः स्पष्टः अस्ति यत् वयं ये नियमाः निर्मामः ते केवलं समानसंरचनायुक्तेषु ग्रन्थेषु एव प्रयोज्यम् अस्ति, तथा च एकवारं पाठसंरचनायाः कठोरस्वरूपविनिर्देशाः भवितुमर्हन्ति किञ्चित् परिवर्तनं भवति, हस्तश्रमस्य आवश्यकता भवति नूतनाः ज्ञाननिष्कासननियमाः निर्मिताः भवन्ति, अतः विधिः पोर्टेबलः नास्ति ।

ज्ञाननिष्कासनस्य एकं कार्यं सत्तानिष्कासनम् इति कथ्यते, यत् पाठात् पूर्वनिर्धारितं टैग् सामग्रीं निष्कासयितुं भवति, यथा समयः, स्थानं इत्यादीनि विशिष्टानि टैग्स् अनुप्रयोगस्य उपरि निर्भरं भवति सर्वाधिकं प्रयुक्तं ज्ञाननिष्कासनं नामकृतं सत्तापरिचयः (नामकृतं सत्ता) इति कथ्यते मान्यता)। सत्तानिष्कासनं स्वयं प्रत्यक्षतया अनुक्रमलेबलिंगकार्यरूपेण समाधानं कर्तुं शक्यते, यत् पारम्परिकसांख्यिकीयशिक्षणपद्धतीनां उपयोगेन संसाधितुं शक्यते, यथा गुप्तमार्कोवप्रतिरूपाः (HMM), अथवा सशर्त यादृच्छिकक्षेत्राणि (CRF) अन्तिमेषु वर्षेषु एतादृशे समस्यायां केचन गहनशिक्षणप्रतिमानाः अपि प्रयुक्ताः उदाहरणार्थं BiLSTM तथा CRF इत्येतयोः संयोजनेन अनुक्रमटिप्पणीविधिना उत्तमं परिणामः प्राप्तः । Lample et al. Ma et al. तदतिरिक्तं सूक्ष्म-समायोजितं BERT-प्रतिरूपं अनुक्रम-लेबलिंग-कार्ययोः अपि उत्तमं परिणामं प्राप्तुं शक्नोति ।

पाठात् सत्तानां निष्कासनस्य अतिरिक्तं सत्तानां मध्ये सम्बन्धः ज्ञाननिष्कासनस्य केन्द्रबिन्दुः अपि भवति तथा च तेषां सम्बन्धाः प्रायः त्रिगुणरूपेण निर्मिताः भवन्ति ।<E1, R, E2> , तर्हि कार्यलक्ष्यं पाठात् सर्वाणि सम्भाव्यसत्तासम्बन्धत्रिगुणानि निष्कासयितुं भवति, तेषां सम्बन्धाः च पूर्वनिर्धारितयोजनायां सीमिताः भवन्ति । ज़ेङ्ग इत्यादयः सम्बन्धानां वर्गीकरणार्थं CNN इत्यस्य परिकल्पनां कृतवन्तः, परन्तु त्रिगुणाः न । मकोटो इत्यादयः एकत्रैव सत्तानिष्कासनं सम्बन्धपरिचयं च कर्तुं BiLSTM तथा Bi-TreeLSTM इत्येतयोः आधारेण स्टैकजालस्य निर्माणं कृत्वा इकाईसम्बन्धानां अन्ततः अन्तः भविष्यवाणीं प्राप्तवन्तः। ली एट अल. Zheng et al. लुआन् इत्यादिभिः वैज्ञानिकज्ञानलेखानां निर्माणार्थं वैज्ञानिकदस्तावेजेषु सत्तानां सम्बन्धानां च पहिचानाय बहुकार्यशिक्षणरूपरेखायाः परिकल्पना कृता यत् एतत् प्रतिरूपं डोमेनस्य पूर्वज्ञानं विना विद्यमानप्रतिमानानाम् अपेक्षया अधिकं प्रदर्शनं कृतवान्

    除了以上提到的知识抽取模式,一个不同的角度是将知识点本身看作一个问题,将知识点的内容作为该问题的答案,将知识点所在的文本段作为这个问答对的上下文,这样知识抽取模型便可以用问答模型来构造。近年来,GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务,仅需简单改造原有网络结构,并进行微调,即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后,将其应用在一个更困难的问答数据集 NQ上,𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题,而不需要根据知识的形式单独设计新的网络结构。

विभिन्नेषु उद्योगेषु संरचितग्रन्थानां उद्योगलक्षणस्य कारणेन भिन्नाः लक्षणाः सन्ति । केषाञ्चन उद्योगविशिष्टदस्तावेजानां (यथा चिकित्सानिर्देशाः) न केवलं कठोरसंरचना भवति अपितु शब्दावलीनां शब्दावलीनां च विषये अतीव कठोरआवश्यकता अपि भवति, ये नियमाधारितज्ञाननिष्कासनार्थं अधिकं उपयुक्ताः सन्ति केचन उद्योगाः अपि सन्ति येषां ग्रन्थाः सामान्यग्रन्थेभ्यः (यथा वार्तापत्राणि, साक्षात्काराः इत्यादयः) बहु भिन्नाः न सन्ति, येषां कृते सामान्यनिष्कासनप्रौद्योगिकी प्रत्यक्षतया प्रयोक्तुं शक्यते केषुचित् क्षेत्रेषु ग्रन्थाः अपि सन्ति, ये मध्ये सन्ति तथा च व्यावसायिकतायाः किञ्चित् प्रमाणं भवति परन्तु ते भिन्न-भिन्न-कम्पनीभ्यः समान-ग्रन्थानां संरचना, शब्दावली च समानाः सन्ति किन्तु भिन्नाः सन्ति तुल्यकालिकरूपेण एकीकृतः । बीमाउद्योगे बीमाखण्डदस्तावेजाः अस्मिन् तृतीये ग्रन्थवर्गे भवन्ति । बीमाखण्डाः बीमाअनुबन्धे द्वयोः पक्षयोः संयुक्तरूपेण सहमतयोः पक्षयोः अधिकारान् दायित्वयोः च विषये प्रावधानाः सन्ति - बीमाकर्त्ता (बीमाकम्पनी) नीतिधारकश्च बीमाखण्डस्य सामान्यतया त्रयः भागाः भवन्ति- १.

  1. मूलभूतसूचना अर्थात् खण्डस्य विषये एव सूचना, यत्र सन्ति: बीमाकर्त्ता, खण्डस्य नाम, खण्डस्य संक्षिप्तीकरणं, खण्डप्रकारः, अवधिप्रकारः, संकोचकालः, सीमाविधानं, दाखिलसङ्ख्या, दाखिलसमयः च, किं मुख्यबीमारूपेण विक्रेतुं शक्यते वा इति , इत्यादि।;
  2. क्रयशर्ताः, अर्थात् अस्य खण्डस्य अन्तर्गतं बीमितस्य वस्तुनिष्ठशर्ताः येषां पूर्तये आवश्यकता वर्तते, यत्र सन्ति: बीमितस्य आयुः, लिंगं, व्यवसायः/कार्यस्य प्रकारः, शारीरिकपरीक्षायाः आवश्यकताः, सामाजिकसुरक्षायाः आवश्यकताः, व्यक्तिगतपरिस्थितयः येषां सत्यं सूचनां दातव्या, इत्यादि।;
  3. बीमादायित्वम् अर्थात् अस्य खण्डस्य दायित्वस्य क्षतिपूर्तिसामग्रीयाश्च व्याप्तिः;

यद्यपि बीमाखण्डेषु व्यावसायिकशब्दकोशस्य निश्चिता प्रमाणं भवति तथापि व्यावसायिकशब्दकोशस्य उपयोगः अधिकतया उद्योगे मानकीकृतः नास्ति (उदाहरणार्थं: "संकोचकालः" "शीतलनकालः" इत्यादयः अपि वक्तुं शक्यते), तथा च खण्डदस्तावेजः अस्ति पठनार्थं नीतिधारकं प्रति वितरितं दस्तावेजं यत् अधिकांशं ज्ञानबिन्दवं निष्कासयितुं आवश्यकं भवति तत् प्राकृतिकभाषाव्यञ्जने मिश्रितं भवति, यत् स्थिरनियमानाम् आधारेण पाठनिष्कासनार्थं उपयुक्तं नास्ति यद्यपि आवश्यकानि निष्कासितानि ज्ञानबिन्दवः स्वयं सत्तानिष्कासनद्वारा प्राप्तुं शक्यन्ते तथापि ज्ञानबिन्दुसम्बद्धानि मूल्यानि प्रायः प्राकृतिकभाषाव्यञ्जने मिश्रितानि भवन्ति, ज्ञानबिन्दुविवरणेन सह एकत्र निष्कासयितुं न शक्यन्ते उदाहरणार्थं: कस्यचित् खण्डस्य सीमाविधानं २ वर्षाणि भवति एतत् "२ वर्षाणि" निम्नलिखितवर्णने दृश्यते: "लाभार्थिनः अस्मात् बीमालाभान् वा बीमाप्रीमियममुक्तिं वा अनुरोधयितुं सीमाविधानं २ वर्षाणि भवति, यतः the beneficiary knows or ज्ञातव्यं यत् गणना बीमादुर्घटनायाः तिथ्याः आरभ्य आरभ्यते "अतः यदा अस्माकं बीमानियमात् मूलभूतसूचनाः, क्रयशर्ताः, बीमादायित्वं अन्यज्ञानबिन्दवः च निष्कासयितुं आवश्यकाः भवन्ति तदा वयं प्रत्यक्षतया नियमं बहिष्कृतवन्तः। आधारितं सत्ता-आधारितं च निष्कर्षणविधयः। यदि ज्ञानबिन्दून् त्रिगुणेषु परिवर्तयितुं योजना-शैल्याः निष्कर्षणस्य उपयोगः भवति तर्हि आवश्यकः प्रशिक्षणदत्तांशसमूहः लेबलिंग्-मात्रा च तुल्यकालिकरूपेण बृहत् भविष्यति अस्माकं प्रयोजनाय लाभः हानितः अधिकं भविष्यति अतः अन्ततः वयं प्रश्नोत्तराधारितं ज्ञाननिष्कासनपद्धतिं चिनोमः ।

अन्तिमेषु वर्षेषु पूर्वप्रशिक्षितप्रतिमानानाम् आधारेण सूक्ष्म-समायोजनद्वारा शिक्षणस्य पद्धत्या प्राकृतिकभाषा-प्रक्रियाकरणस्य (NLP) क्षेत्रे महती सफलता प्राप्ता, यस्य BERT-प्रतिरूपः महत्त्वपूर्णः प्रतिनिधिः अस्ति BERT ट्रांसफार्मर-आधारितं द्विदिशा-सङ्केत-प्रतिपादन-प्रतिरूपम् अस्ति अस्य टोपोलॉजी बहुस्तरीयं द्वि-दिशात्मकं ट्रांसफार्मर-जालम् अस्ति । BERT मॉडलः सूक्ष्म-समायोजन-शिक्षणस्य आधारेण एकः विशिष्टः अनुप्रयोगः अस्ति, यस्य अर्थः अस्ति यत् तस्य निर्माणे द्वौ चरणौ समाविष्टौ स्तः: पूर्व-प्रशिक्षणं सूक्ष्म-समायोजनं च प्रथमं, पूर्वप्रशिक्षणपदे विभिन्नप्रशिक्षणकार्यस्य अलेबलकृतानां कोर्पसदत्तांशस्य बहूनां संख्यां प्रशिक्षितं भवति, तथा च कोर्पसमध्ये ज्ञानं पूर्वप्रशिक्षणप्रतिरूपस्य पाठनिक्षेपणे (Embedding) स्थानान्तरितं भवति एवं प्रकारेण सूक्ष्म-समायोजन-चरणस्य समये पूर्व-प्रशिक्षितं प्रतिरूपं समायोजयितुं केवलं तंत्रिकाजालस्य अतिरिक्तं उत्पादनस्तरं योजयितुं आवश्यकम् । विशेषतः, सूक्ष्म-समायोजनं पूर्व-प्रशिक्षित-मापदण्डैः सह BERT-प्रतिरूपस्य आरम्भः, ततः अधःप्रवाह-कार्यात् लेबल-कृत-दत्तांशस्य उपयोगेन प्रतिरूपस्य सूक्ष्म-समायोजनं भवति बीमादस्तावेजेभ्यः ज्ञानबिन्दुनिष्कासनस्य अस्माकं आवश्यकतायाः प्रतिक्रियारूपेण, अस्माकं केवलं बीमाखण्डस्य ज्ञाननिष्कासनस्य आवश्यकतानां पूर्तये BERT इत्यस्य प्रश्नोत्तरकार्यं सूक्ष्मरूपेण स्थापयितुं बीमाखण्डस्य आँकडानां उपयोगः आवश्यकः।

चित्र नाम

बीमाखण्डज्ञाननिष्कासनप्रक्रिया प्रथमं मैन्युअल् रूपेण लेबलकृतानि बीमाखण्डज्ञानबिन्दवः मध्ये उत्पादयति<question, answer> रूपेण, ततः च बीमापददस्तावेजं दस्तावेजवृक्षे विश्लेषयितुं पाठविश्लेषणकार्यक्रमस्य उपयोगं कुर्वन्तु, यस्मिन् मुख्यशीर्षकं मूलनोड् भवति, तदनन्तरं प्रत्येकं शीर्षकं पूर्वस्तरस्य बालनोड् भवति, पाठस्य च प्रत्येकं अनुच्छेदः भवति is read पत्रग्रन्थिरूपेण गृह्यताम्।प्रश्नोत्तरयुग्मस्य उत्तरं यत्र स्थितं तत्र पत्रग्रन्थिना सह मेलनं कुर्वन्तु, तथा च सम्पूर्णपत्रग्रन्थिसम्बद्धं पाठं प्रश्नोत्तरयुग्मस्य सन्दर्भरूपेण उपयुज्यताम्, अन्ते च a<question, answer, context> अन्ते, अस्य आँकडासमूहस्य उपयोगः SQuAD आँकडानां आधारेण अवगमनकार्यं पठितुं सूक्ष्म-समायोजन-पद्धत्यानुसारं BERT पूर्व-प्रशिक्षण-प्रतिरूपस्य प्रशिक्षणार्थं भवति, अन्तिम-ज्ञाननिष्कासन-प्रतिरूपं च प्राप्तं भवति यथा उपरि चित्रे दर्शितं, प्रश्नोत्तरकार्यस्य कृते, सन्दर्भे उत्तरस्य स्थितिं पूर्वानुमानं कर्तुं केवलं BERT द्वारा एन्कोडिंग् वेक्टर् आउटपुट् इत्यस्य अनन्तरं अतिरिक्तं पूर्णतया सम्बद्धं स्तरं योजयितुं आवश्यकम्परीक्षणकाले नूतनबीमाखण्डानां कृते भिन्नज्ञानबिन्दुसन्दर्भस्य समानरूपेण विश्लेषणं करणीयम्, ततः...<question, context> आदर्शे निवेशरूपेण प्रत्येकस्य ज्ञानबिन्दुस्य उत्तराणि प्राप्यन्ते । उपर्युक्ता पद्धतिः एकस्यामेव कम्पनीयाः तथा समानप्रकारस्य बीमाखण्डान् उत्तमरीत्या सम्पादयितुं शक्नोति यतोहि एकस्यामेव कम्पनीयाः बीमाखण्डस्य लेखानां संरचना सुसंगता अस्ति, तथा च सन्दर्भस्य विश्लेषणार्थं समानकार्यक्रमस्य उपयोगः कर्तुं शक्यते clauses of different companies and types, यतः शब्दावली संरचना च भिन्ना अस्ति, मूलविश्लेषणकार्यक्रमः तत् सम्भालितुं न शक्नोति, तथा च प्रत्येकस्य खण्डस्य कृते पाठविश्लेषणकार्यक्रमस्य पुनर्लेखनं सम्भवं नास्ति, अतः प्रतिरूपे सुधारस्य आवश्यकता वर्तते

ज्ञाननिष्कासनप्रक्रियाम् अधिकं बहुमुखी कर्तुं वयं प्रथमं भविष्यवाणीप्रक्रियायां परिवर्तनं कुर्मः : नूतनवाक्यस्य मूलपाठं शब्दसङ्ख्यानुसारं खण्डेषु विभज्यते, प्रत्येकं खण्डं प्रायः ३०० शब्दाः भवति (वाक्यानि न भङ्गयितुं प्रयतध्वम्), ततः प्रत्येकं पाठखण्डं विभज्य कस्यापि ज्ञानबिन्दुस्य सम्भाव्यसन्दर्भत्वेन, सः आदर्शस्य निवेशरूपेण कार्यं करोति । यदि निर्गमोत्तरं रिक्तं भवति तर्हि अस्मिन् अनुच्छेदे तदनुरूपं ज्ञानबिन्दुः नास्ति इति अर्थः अन्यथा सर्वेषु पाठपरिच्छेदेषु प्रत्येकस्य ज्ञानबिन्दुस्य उत्पादनं व्यापकरूपेण विचार्यते, उच्चतमसंभावनायुक्तं उत्तरं च उत्तररूपेण चयनं भवति ज्ञान बिन्दु। इयं नूतना भविष्यवाणीविधिः कस्यापि खण्डस्य सामान्यप्रयोजनीयः अस्ति तथा च अतिरिक्तपाठविश्लेषणस्य आवश्यकतां निवारयति । अस्माभिः एतस्य पद्धतेः उपयोगेन विभिन्नकम्पनीनां अनेकपदानां परीक्षणं कृतम्, परिणामेषु ज्ञातं यत् पुरातनप्रतिरूपे एतत् सम्यक् कार्यं न करोति, सटीकता च महती न्यूनीभूता कारणं यत्: सुधारात् पूर्वं प्रशिक्षणकाले प्रत्येकस्य ज्ञानबिन्दुस्य सन्दर्भः दस्तावेजसंरचनायाः आधारेण समीचीनतया स्थापितः आसीत्, तत्र बहवः नकारात्मकनमूनानि न आसन्, अतः प्रतिरूपं केवलं सटीकरूपेण स्थितस्य सन्दर्भस्य आधारेण भविष्यवाणीं कर्तुं शक्नोति स्म एकदा पाठसङ्गठनसंरचना शीर्षकस्वरूपं च परिवर्तते तदा मूलपाठविश्लेषणकार्यक्रमः समस्यासन्दर्भस्य सटीकं स्थानं ज्ञातुं न शक्नोति, येन बहुधा हस्तक्षेपकारीदत्तांशः उत्पद्यते तथा च मॉडलस्य प्रभावः प्रभावितः भवति अतः मॉडलस्य प्रशिक्षणप्रक्रियायां परिवर्तनं करणीयम् अस्ति वयं खण्डितपाठदत्तांशं योजयामः अर्थात् प्रशिक्षणसमूहे प्रत्येकं खण्डं समानरूपेण खण्डयामः यदि खण्डे ज्ञानबिन्दुना चिह्नितं उत्तरं भवति तर्हि तस्य उपयोगः यथा भवति नूतनं नमूना, अन्यथा नकारात्मकनमूनारूपेण उपयुज्यते (उत्तरं रिक्तम् अस्ति)। वास्तविकपरीक्षणे यदि एते सर्वे नूतनाः नमूनाः प्रशिक्षणसमूहे योजिताः भवन्ति तर्हि अत्यधिकं प्रशिक्षणदत्तांशः उत्पद्यते, नकारात्मकनमूनानां संख्या च सकारात्मकनमूनानां संख्यां दूरं अधिका भविष्यति एतस्याः प्रक्रियायाः सन्तुलनार्थं वयं निम्नलिखितसुधारं अधिकं कृतवन्तः : प्रत्येकस्य ज्ञानबिन्दुप्रश्नस्य कृते यदि खण्डे एव ज्ञानबिन्दुः नास्ति (यतोहि ज्ञानबिन्दुः सर्वेषां बीमाखण्डानां कृते एकरूपेण परिभाषितः अस्ति, अतः विशिष्टखण्डस्य कृते, न सर्वे ज्ञानबिन्दवः तस्मिन् समाविष्टाः भवेयुः), तर्हि प्रत्येकं खण्डं 10% संभाव्यतायाः सह समस्यायाः नकारात्मकनमूनारूपेण उपयुज्यते यदि खण्डे एव ज्ञानबिन्दुः भवति तर्हि द्वौ परिस्थितौ स्तः यदि वर्तमानपाठखण्डे target knowledge point, then सकारात्मकनमूनारूपेण अन्यथा 50% संभाव्यतायुक्तं नकारात्मकनमूनारूपेण चयनं भवति एवं नूतनं प्रतिरूपं प्राप्तुं नूतनं प्रशिक्षणसमूहं निर्मितं भवति। विचारः अस्ति यत् यदि खण्डे ज्ञानबिन्दुना सह सम्बद्धानां नकारात्मकनमूनानां संख्यां वर्धयितुं शक्यते, येन आदर्शः समानखण्डानां हस्तक्षेपं अधिकतया सम्भालितुं शक्नोति तथा च उत्तरस्य सटीकतायां सुधारं कर्तुं शक्नोति यदि वाक्ये एव ज्ञानबिन्दुः नास्ति तर्हि पाठखण्डस्य ज्ञानबिन्दुस्य च मध्ये समायोजनं दुर्बलं भवेत्, अल्पसंख्याकानां नकारात्मकनमूनानां चयनं च पर्याप्तम् परीक्षणानन्तरं नूतनं प्रतिरूपं पुरातनप्रतिरूपस्य तुलने बहु उन्नतं भवति, नूतनपूर्वसूचनापद्धतेः कृते अधिकं उपयुक्तं भवति, अधिकसामान्यबीमाखण्डज्ञाननिष्कासनप्रतिरूपरूपेण च उपयोक्तुं शक्यते

प्रयोगं

    我们的数据集由某保险公司的保险条款组成,每个条款具有人工标注的知识点,如犹豫期,诉讼期,保险金额等。在实验过程中,训练集,测试集分别由 251 个条款和 98 个条款组成。经过统计,这些条款中所有可能的知识点问题数量为309 条,平均每个条款有 45 条知识点需要提取。测试过程中,我们将条款文本分段,尝试从所有段中提取知识点𝑘𝑖,并根据模型输出的概率,选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串,则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分,大多数知识点的输出应当是空的,因此我们在评估时忽略这部分空知识点,关注两个指标:模型输出的知识点正确率𝑃,即精准率(precision),以及应提取知识点中确实被正确提取的比率𝑅,即召回率(recall)。假设知识点𝑘𝑖标注为𝑦𝑖,模型的输出为𝑦̃𝑖,则𝑃和𝑅可定义为:

वयं Google इत्यस्य मुक्तस्रोतस्य BERT चीनीपूर्वप्रशिक्षणप्रतिरूपस्य BERT_chinese_L-12_H-768_A-12 इत्यस्य उपयोगं कुर्मः, अस्य आधारेण च अनन्तरं परीक्षणं कुर्मः। पैरामीटर् सेटिंग्स् इत्यस्य दृष्ट्या प्रारम्भिकं शिक्षणदरः 3E-5, बैच् आकारः 4, प्रशिक्षणयुगानां संख्या 4, अन्ये पैरामीटर्स् च मॉडलस्य पूर्वनिर्धारितविन्यासं स्वीकुर्वन्ति अस्मिन् लेखे प्रयोगः परीक्षणस्य द्वौ भागौ स्तः प्रथमः भागः बेन्चमार्क मॉडलस्य परीक्षणम् अस्ति प्रशिक्षणप्रक्रिया अस्ति यत् प्रथमं बीमाखण्डानां संरचनायाः विश्लेषणार्थं पाठविश्लेषणकार्यक्रमस्य उपयोगं कुर्वन्तु, यत्र तत्सम्बद्धं ज्ञानं भवति तत्र सन्दर्भं निष्कासयन्तु बिन्दवः स्थिताः भवन्ति, ततः तत् BERT कृते प्रशिक्षणसमूहे संयोजयन्ति मॉडलः सूक्ष्मरूपेण व्यवस्थितः अस्ति । द्वितीयः भागः नूतनप्रतिरूपस्य परीक्षणम् अस्ति : बेन्चमार्कप्रतिरूपस्य प्रशिक्षणसमूहस्य आधारेण नवीननमूनानां योजनम्। तदनुरूपाः बीमाखण्डाः शब्दसङ्ख्यानुसारं अनुच्छेदेषु विभक्ताः सन्ति । प्रत्येकं ज्ञानबिन्दुसमस्यायाः कृते नूतनं प्रतिरूपं प्रशिक्षितुं प्रशिक्षणसमूहः निर्मितः भवति । परीक्षणस्य परिणामः परीक्षणसमूहे ९८ बीमाखण्डानां आँकडानां औसतं भवति, यथा निम्नलिखितसारणीयां दर्शितम् अस्ति ।

चित्र नाम

    可以看出,以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型,其中𝑃提高了约 40%,𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中,仅通过文本解析程序精确定位知识点的上下文信息,导致模型只具备从正确的上下文中抽取对应的知识点的能力,而不具备辨别无效上下文的能力,因此基准模型存在很大比例的无效输出。而按比例添加负样本后,新模型的无效输出大幅度减少,输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息(文本段)组成的正样本,使得模型能够更好地从无规则截取的文本段中抽取出目标知识点,因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。

प्रयोगात्मकपरिणामाः दर्शयन्ति यत् अस्माभिः प्रशिक्षणसमूहस्य अनुकूलनस्य अनन्तरं प्रशिक्षितं नूतनं प्रतिरूपं पाठविभाजनपूर्वसूचनापद्धत्या मूल आधाररेखाप्रतिरूपस्य अपेक्षया उत्तमम् अस्ति, तथा च अधिकसामान्यबीमाखण्डज्ञाननिष्कासनकार्येषु अधिकं उपयोक्तुं शक्यते। तत्सह वर्तमानप्रतिरूपे अद्यापि बहु सुधारस्य स्थानं वर्तते ।

  • यथार्थस्थितीनां (आँकडाटिप्पणीमात्रायाः) सीमायाः कारणात् अस्माकं प्रशिक्षणे केवलं २५१ पदाः समाविष्टाः आसन्, सर्वे प्रशिक्षणदत्तांशः च एकस्मात् एव बीमाकम्पनीतः आगताः आसन् । बीमाकर्तृभिः अधिकपदानां दत्तांशसमूहस्य समावेशार्थं दत्तांशसमूहस्य आकारस्य विस्तारस्य अनन्तरं प्रतिरूपस्य प्रभावः अधिकं अनुकूलितः भवेत् ।
  • सम्प्रति अस्माकं दत्तांशटिप्पण्यां केवलं खण्डज्ञानबिन्दुनाम् सामग्रीः भवति, तथा च प्रशिक्षणदत्तांशस्य तत्सम्बद्धः सन्दर्भः स्वलिखितपाठविश्लेषणकार्यक्रमस्य माध्यमेन प्राप्तः भवति एवं प्रकारेण प्राप्तः सन्दर्भे अल्पसंख्याकाः त्रुटयः सन्ति मैनुअल् एनोटेशन रणनीतिं अनुकूलितं कर्तुं शक्यते तथा च ज्ञानबिन्दवः तेषां सन्दर्भाः च एकस्मिन् समये एनोटेशनं कर्तुं शक्यन्ते, येन प्राप्ताः दत्तांशाः अधिकसटीकाः भवितुम् अर्हन्ति