informasi kontak saya
Surat[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Model bahasa besar untuk pengujian makanan
Alamat makalah: https://arxiv.org/abs/2103.00728
Dengan berkembangnya teknologi grafik pengetahuan dan mempopulerkan aplikasi komersial, terdapat peningkatan kebutuhan untuk mengekstrak entitas grafik pengetahuan dan data relasional dari berbagai teks domain tidak terstruktur. Hal ini membuat ekstraksi pengetahuan otomatis dari teks domain cukup bermakna. Makalah ini mengusulkan metode ekstraksi pengetahuan berdasarkan BERT, yang digunakan untuk secara otomatis mengekstraksi poin pengetahuan dari teks spesifik domain yang tidak terstruktur (seperti klausul asuransi di industri asuransi) untuk menghemat tenaga dalam proses membangun grafik pengetahuan. Berbeda dengan metode ekstraksi titik pengetahuan yang umum digunakan berdasarkan aturan, templat, atau model ekstraksi entitas, makalah ini mengubah titik pengetahuan teks domain menjadi pasangan tanya jawab, menggunakan teks sebelum dan sesudah posisi jawaban sebagai konteks, dan menggunakan BERT untuk melakukan pemahaman bacaan berdasarkan data SQuAD. Model yang disempurnakan digunakan untuk secara otomatis mengekstraksi poin pengetahuan dari lebih banyak klausul asuransi, dan mencapai hasil yang baik.
Dalam beberapa tahun terakhir, seiring dengan semakin mendalamnya transformasi digital di berbagai industri, jumlah teks elektronik terkait meningkat tajam. Pada saat yang sama, semakin banyak perusahaan mulai memperhatikan analisis data, penambangan dan pengembangan serta pemanfaatan sumber daya data seperti sistem aplikasi komputer seperti peta pengetahuan dan dialog cerdas telah menjadi dasar bagi berbagai perusahaan dan institusi untuk menyediakan internal dan layanan eksternal. Aplikasi semacam itu sering kali perlu mengekstraksi informasi terstruktur yang terkandung dalam berbagai teks domain tidak terstruktur untuk membangun basis pengetahuan digital. Data merupakan landasan produk dan layanan komputer. Penyediaan data untuk komputer telah menjadi tugas baru bagi perkembangan perusahaan dan institusi di era baru. Berbagai dokumen bisnis dan bisnis asli di perusahaan dan institusi mengandung banyak pengetahuan dan informasi, tetapi semuanya ditulis untuk dibaca manusia Dibandingkan dengan kebutuhan program komputer, terdapat banyak informasi yang berlebihan. Saat ini, ketika menerapkan data semacam ini, pada dasarnya diperlukan investasi banyak tenaga kerja untuk mengekstrak informasi yang diperlukan secara manual dengan membaca dokumen dan mengekspresikannya ke dalam bentuk yang dapat dibaca oleh komputer (“dipahami”). Hal ini mengakibatkan banyak tambahan biaya pembelajaran dan konsumsi sumber daya manusia. Cara menggunakan cara otomatis untuk menemukan pengetahuan dari data teks tidak terstruktur dan menggunakannya sebagai sumber data yang menjadi sandaran berbagai aplikasi cerdas adalah titik penelitian di bidang ekstraksi pengetahuan. Makalah ini mengambil teks tidak terstruktur dalam bidang tertentu sebagai objek penelitian dan mengusulkan metode ekstraksi pengetahuan melalui model pemahaman bahasa berdasarkan pembelajaran mendalam. Metode ini menyajikan poin-poin pengetahuan yang akan diekstraksi dalam bentuk pasangan tanya-jawab, menggunakan data yang dianotasi secara manual sebagai data pelatihan, melakukan pembelajaran transfer berdasarkan model yang telah dilatih sebelumnya, dan memperoleh ekstraksi otomatis dari teks-teks di bidang yang sama melalui penyempurnaan. Model poin pengetahuan.
Untuk dokumen dengan spesifikasi struktural terpadu, ekstraksi pengetahuan dapat dilakukan dengan aturan bangunan. Konstruksi aturan sering kali diselesaikan melalui induksi dan ringkasan manual - yaitu, membaca sejumlah besar teks di bidang yang sama, memilihnya, dan merangkum aturan ekstraksi akhir. Jyothi dkk. menggunakan pendekatan berbasis aturan untuk mengekstrak informasi efektif dari sejumlah besar resume pribadi dan membangun database. JunJun et al. menggunakan metode serupa untuk mengekstraksi pengetahuan konseptual akademis dari literatur akademis. Keuntungan dari metode ini adalah tidak memerlukan model pelatihan dan sederhana serta efisien; kelemahannya juga jelas. Aturan yang kami buat hanya berlaku untuk teks dengan struktur yang sama, dan harus memiliki spesifikasi format yang ketat sedikit berubah, diperlukan tenaga kerja manual. Aturan ekstraksi pengetahuan baru dibuat, sehingga metode ini tidak portabel.
Salah satu tugas ekstraksi pengetahuan disebut ekstraksi entitas, yaitu mengekstraksi konten tag yang telah ditentukan sebelumnya dari teks, seperti waktu, lokasi, dll. Tag spesifik bergantung pada aplikasi. Ekstraksi pengetahuan yang paling umum digunakan disebut pengenalan entitas bernama (bernama entitas pengakuan). Ekstraksi entitas sendiri dapat diselesaikan secara langsung sebagai tugas pelabelan urutan, yang dapat diproses menggunakan metode pembelajaran statistik tradisional, seperti Hidden Markov Models (HMM), atau Conditional Random Fields (CRF). Dalam beberapa tahun terakhir, beberapa model pembelajaran mendalam juga telah diterapkan pada jenis masalah ini. Misalnya, metode anotasi urutan yang menggabungkan BiLSTM dan CRF telah mencapai hasil yang baik. Lample et al. mengusulkan struktur jaringan baru, menggunakan LSTM bertumpuk untuk mewakili struktur tumpukan, secara langsung membangun representasi beberapa kata, dan membandingkannya dengan model LSTM-CRF. Ma et al. mengusulkan model anotasi urutan ujung ke ujung berdasarkan BiLSTM-CNN-CRF. Selain itu, model BERT yang disempurnakan juga dapat mencapai hasil yang baik pada tugas pelabelan urutan.
Selain mengekstraksi entitas dari teks, hubungan antar entitas juga menjadi fokus ekstraksi pengetahuan. Entitas dan hubungannya biasanya dibentuk menjadi tiga kali lipat.<E1, R, E2> , maka tujuan tugasnya adalah mengekstrak semua kemungkinan hubungan entitas rangkap tiga dari teks, dan hubungannya dibatasi pada skema yang telah ditetapkan. Zeng et al. merancang CNN untuk mengklasifikasikan hubungan, tetapi tidak rangkap tiga. Makoto et al. mencapai prediksi hubungan entitas ujung ke ujung dengan membangun jaringan tumpukan berdasarkan BiLSTM dan Bi-TreeLSTM untuk secara bersamaan melakukan ekstraksi entitas dan deteksi hubungan. Li et al. menggunakan LSTM lapisan ganda dengan arsitektur encoder-decoder untuk membangun model ekstraksi pengetahuan yang tidak terbatas pada tiga kali lipat dan dapat memprediksi pengetahuan terstruktur dalam format tetap. Zheng et al. mengubah tugas ekstraksi entitas dan hubungan menjadi tugas pelabelan urutan melalui strategi pelabelan, dan kemudian membangun model Bi-LSTM yang mirip dengan yang sebelumnya untuk menanganinya. Luan et al. merancang kerangka pembelajaran multi-tugas untuk mengidentifikasi entitas dan hubungan dalam dokumen ilmiah untuk membangun grafik pengetahuan ilmiah.
除了以上提到的知识抽取模式,一个不同的角度是将知识点本身看作一个问题,将知识点的内容作为该问题的答案,将知识点所在的文本段作为这个问答对的上下文,这样知识抽取模型便可以用问答模型来构造。近年来,GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务,仅需简单改造原有网络结构,并进行微调,即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后,将其应用在一个更困难的问答数据集 NQ上,𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题,而不需要根据知识的形式单独设计新的网络结构。
Teks terstruktur di industri yang berbeda memiliki karakteristik yang berbeda karena karakteristik industrinya. Dokumen spesifik industri tertentu (seperti instruksi medis) tidak hanya memiliki struktur yang ketat tetapi juga memiliki persyaratan terminologi dan kata-kata yang sangat ketat, sehingga lebih cocok untuk ekstraksi pengetahuan berbasis aturan. Ada juga beberapa industri yang teksnya tidak jauh berbeda dengan teks umum (seperti laporan berita, wawancara, dll), yang mana teknologi ekstraksi umum dapat langsung diterapkan. Ada juga teks di beberapa bidang, yang berada di antara dan memiliki tingkat profesionalisme tertentu tetapi tidak terlalu ketat. Struktur dan susunan kata dari teks serupa dari perusahaan yang berbeda serupa tetapi berbeda Relatif bersatu. Dokumen klausul asuransi di industri asuransi termasuk dalam kategori teks ketiga ini. Klausul asuransi adalah ketentuan mengenai hak dan kewajiban kedua belah pihak yang disepakati bersama oleh kedua belah pihak dalam kontrak asuransi – penanggung (perusahaan asuransi) dan pemegang polis. Klausul asuransi umumnya terdiri dari tiga bagian:
Meskipun klausul asuransi memiliki tingkat kosakata profesional tertentu, penggunaan kosakata profesional sebagian besar tidak terstandarisasi di industri (misalnya: "masa ragu-ragu" juga dapat disebut "masa tenang", dll.), dan dokumen klausulnya adalah sebuah dokumen yang dikirimkan kepada pemegang polis untuk dibaca. Sebagian besar poin pengetahuan yang perlu diekstraksi dicampur dalam ekspresi bahasa alami, yang tidak cocok untuk ekstraksi teks berdasarkan aturan statis. Meskipun titik pengetahuan yang diperlukan untuk diekstraksi sendiri dapat diperoleh melalui ekstraksi entitas, nilai yang terkait dengan titik pengetahuan sering kali tercampur dalam ekspresi bahasa alami dan tidak dapat diekstraksi bersama dengan deskripsi titik pengetahuan. Misalnya: batas waktu untuk klausul tertentu adalah 2 tahun. "2 tahun" ini dapat muncul dalam uraian berikut: "Jadwal batas waktu penerima manfaat untuk meminta manfaat asuransi atau pembebasan premi asuransi dari kami adalah 2 tahun, sejak itu." penerima manfaat mengetahui atau Perlu diketahui bahwa perhitungannya dimulai dari tanggal terjadinya kecelakaan asuransi. "Jadi ketika kami perlu mengekstrak informasi dasar, ketentuan pembelian, tanggung jawab asuransi, dan poin pengetahuan lainnya dari klausul asuransi, kami langsung mengecualikan aturan- metode ekstraksi berbasis dan berbasis entitas. Jika ekstraksi gaya Skema digunakan untuk mengubah poin pengetahuan menjadi tiga kali lipat, kumpulan data pelatihan yang diperlukan dan jumlah anotasi akan relatif besar, Untuk tujuan kami, keuntungannya pasti akan lebih besar daripada kerugiannya. Oleh karena itu, kami akhirnya memilih metode ekstraksi pengetahuan berbasis tanya jawab.
Dalam beberapa tahun terakhir, metode pembelajaran melalui fine-tuning berdasarkan model yang telah dilatih sebelumnya telah mencapai kesuksesan besar di bidang Natural Language Processing (NLP), di mana model BERT merupakan salah satu contohnya. BERT adalah model representasi pengkodean dua arah berdasarkan trafo. Topologinya adalah jaringan trafo dua arah multi-layer. Model BERT adalah aplikasi khas yang didasarkan pada pembelajaran fine-tuning, yang berarti konstruksinya mencakup dua langkah: pra-pelatihan dan fine-tuning. Pertama, pada tahap pra-pelatihan, sejumlah besar data korpus tak berlabel dari berbagai tugas pelatihan dilatih, dan pengetahuan dalam korpus ditransfer ke dalam penyematan teks (Embedding) model pra-pelatihan. Dengan cara ini, selama fase penyesuaian, Anda hanya perlu menambahkan lapisan keluaran tambahan ke jaringan saraf untuk menyesuaikan model yang telah dilatih sebelumnya. Secara khusus, penyesuaian adalah menginisialisasi model BERT dengan parameter yang telah dilatih sebelumnya, lalu menyempurnakan model menggunakan data berlabel dari tugas hilir. Menanggapi kebutuhan kita untuk mengekstrak poin pengetahuan dari dokumen asuransi, kita hanya perlu menggunakan data klausul asuransi untuk menyempurnakan tugas tanya jawab BERT untuk memenuhi kebutuhan ekstraksi pengetahuan klausul asuransi.
Proses ekstraksi pengetahuan klausul asuransi pertama-tama menghasilkan poin pengetahuan klausul asuransi yang diberi label secara manual<question, answer> dalam formulir, lalu gunakan program penguraian teks untuk mengurai dokumen klausul asuransi ke dalam pohon dokumen, di mana judul utama adalah simpul akar, dan setiap judul berikutnya adalah simpul anak dari tingkat sebelumnya, dan setiap paragraf teks dibaca Anggap saja sebagai simpul daun.Cocokkan jawaban pada pasangan tanya-jawab dengan simpul daun di mana ia berada, dan gunakan teks yang sesuai dengan seluruh simpul daun sebagai konteks dari pasangan tanya-jawab, dan terakhir buatlah sebuah<question, answer, context> Terakhir, kumpulan data ini digunakan untuk melatih model pra-pelatihan BERT menurut metode fine-tuning untuk tugas pemahaman membaca berdasarkan data SQuAD, dan diperoleh model ekstraksi pengetahuan akhir. Seperti terlihat pada gambar di atas, untuk tugas tanya jawab, Anda hanya perlu menambahkan lapisan tambahan yang terhubung penuh setelah keluaran vektor pengkodean oleh BERT untuk memprediksi posisi jawaban dalam konteks.Selama pengujian, untuk klausul asuransi baru, konteks poin pengetahuan yang berbeda perlu dianalisis dengan cara yang sama, dan kemudian<question, context> Sebagai masukan terhadap model, jawaban atas setiap poin pengetahuan diperoleh. Cara di atas dapat menangani klausul asuransi dari perusahaan yang sama dan jenis yang sama dengan lebih baik. Hal ini karena struktur pasal klausul asuransi dari perusahaan yang sama konsisten, dan program yang sama dapat digunakan untuk menganalisis konteksnya klausa dari perusahaan dan jenis yang berbeda, Karena terminologi dan strukturnya berbeda, program analisis asli tidak dapat menanganinya, dan tidak mungkin untuk menulis ulang program analisis teks untuk setiap klausa, sehingga model perlu diperbaiki.
Untuk membuat proses ekstraksi pengetahuan lebih fleksibel, pertama-tama kita memodifikasi proses prediksi: membagi teks asli klausa baru menjadi segmen-segmen sesuai dengan jumlah kata, setiap segmen sekitar 300 kata (usahakan jangan sampai kalimatnya putus), dan kemudian membagi setiap segmen teks menjadi Sebagai konteks yang mungkin dari setiap titik pengetahuan, ini berfungsi sebagai masukan model. Jika jawaban keluarannya kosong, berarti tidak ada poin pengetahuan yang sesuai dalam paragraf ini. Jika tidak, keluaran setiap poin pengetahuan di semua paragraf teks dipertimbangkan secara komprehensif, dan jawaban dengan probabilitas tertinggi dipilih sebagai jawaban atas pertanyaan tersebut. titik pengetahuan. Metode prediksi baru ini bertujuan umum untuk klausa mana pun dan menghilangkan kebutuhan penguraian teks tambahan. Kami menguji beberapa istilah dari perusahaan berbeda menggunakan metode ini, dan hasilnya menunjukkan bahwa metode ini tidak berfungsi dengan baik pada model lama, dan keakuratannya menurun secara signifikan. Alasannya adalah: sebelum perbaikan, selama pelatihan, konteks setiap titik pengetahuan diposisikan secara akurat berdasarkan struktur dokumen, dan tidak banyak sampel negatif sehingga model hanya dapat membuat prediksi berdasarkan konteks yang diposisikan secara tepat . Setelah struktur organisasi teks dan format judul berubah, program penguraian teks asli tidak dapat menemukan konteks masalah secara akurat, sehingga menghasilkan banyak data yang mengganggu dan memengaruhi efek model. Oleh karena itu, proses pelatihan model perlu dimodifikasi. Kami menambahkan data teks tersegmentasi, yaitu mengelompokkan setiap klausa dalam set pelatihan dengan cara yang sama. Jika segmen berisi jawaban yang ditandai dengan poin pengetahuan, maka digunakan sebagai sampel baru, jika tidak maka digunakan sebagai sampel negatif (jawaban kosong). Dalam pengujian sebenarnya, jika semua sampel baru ini ditambahkan ke set pelatihan, terlalu banyak data pelatihan yang akan dihasilkan, dan jumlah sampel negatif akan jauh melebihi jumlah sampel positif. Untuk menyeimbangkan proses ini, kami selanjutnya melakukan perbaikan berikut: Untuk setiap pertanyaan poin pengetahuan, jika klausul itu sendiri tidak memuat poin pengetahuan (karena poin pengetahuan didefinisikan secara seragam untuk semua klausul asuransi, maka untuk klausul tertentu, Tidak semua poin pengetahuan dapat dimasukkan di dalamnya), maka setiap fragmen digunakan sebagai sampel negatif dari masalah dengan probabilitas 10%; jika klausa itu sendiri berisi poin pengetahuan, ada dua situasi titik pengetahuan target, maka Sebagai sampel positif, jika tidak maka dipilih sebagai sampel negatif dengan probabilitas 50%. Dengan cara ini, set pelatihan baru dibangun untuk mendapatkan model baru. Idenya adalah untuk meningkatkan jumlah sampel negatif yang terkait dengan poin pengetahuan jika klausa memuatnya, sehingga model dapat menangani interferensi fragmen serupa dengan lebih baik dan meningkatkan akurasi jawabannya. Jika klausa itu sendiri tidak memuat poin pengetahuan, kecocokan antara fragmen teks dan poin pengetahuan seharusnya buruk, dan memilih sejumlah kecil sampel negatif sudah cukup. Setelah pengujian, model baru telah mengalami peningkatan yang signifikan dibandingkan model lama, lebih cocok untuk metode prediksi baru, dan dapat digunakan sebagai model ekstraksi pengetahuan klausul asuransi yang lebih umum.
我们的数据集由某保险公司的保险条款组成,每个条款具有人工标注的知识点,如犹豫期,诉讼期,保险金额等。在实验过程中,训练集,测试集分别由 251 个条款和 98 个条款组成。经过统计,这些条款中所有可能的知识点问题数量为309 条,平均每个条款有 45 条知识点需要提取。测试过程中,我们将条款文本分段,尝试从所有段中提取知识点𝑘𝑖,并根据模型输出的概率,选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串,则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分,大多数知识点的输出应当是空的,因此我们在评估时忽略这部分空知识点,关注两个指标:模型输出的知识点正确率𝑃,即精准率(precision),以及应提取知识点中确实被正确提取的比率𝑅,即召回率(recall)。假设知识点𝑘𝑖标注为𝑦𝑖,模型的输出为𝑦̃𝑖,则𝑃和𝑅可定义为:
Kami menggunakan model pra-pelatihan BERT China open source BERT_chinese_L-12_H-768_A-12 dari Google, dan melakukan pengujian selanjutnya atas dasar ini. Dalam hal pengaturan parameter, kecepatan pembelajaran awal adalah 3E-5, ukuran batch adalah 4, jumlah periode pelatihan adalah 4, dan parameter lainnya mengadopsi konfigurasi default model. Eksperimen dalam artikel ini terdiri dari dua bagian pengujian. Bagian pertama adalah pengujian model benchmark. Proses pelatihannya adalah: pertama menggunakan program penguraian teks untuk mengurai struktur klausul asuransi, mengekstrak konteks di mana pengetahuan yang sesuai. titik-titik tersebut ditemukan, dan kemudian menggabungkannya ke dalam set pelatihan untuk BERT. Modelnya disempurnakan. Bagian kedua adalah pengujian model baru. Proses pelatihannya adalah: menambahkan sampel baru berdasarkan set pelatihan model benchmark. Klausul asuransi terkait dibagi menjadi beberapa paragraf sesuai dengan jumlah kata. Setiap paragraf teks terdiri dari sekitar 300 kata. Untuk setiap masalah titik pengetahuan, set pelatihan dibuat untuk melatih model baru. Hasil pengujian merupakan rata-rata statistik dari 98 klausul asuransi pada set pengujian, seperti terlihat pada tabel berikut:
可以看出,以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型,其中𝑃提高了约 40%,𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中,仅通过文本解析程序精确定位知识点的上下文信息,导致模型只具备从正确的上下文中抽取对应的知识点的能力,而不具备辨别无效上下文的能力,因此基准模型存在很大比例的无效输出。而按比例添加负样本后,新模型的无效输出大幅度减少,输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息(文本段)组成的正样本,使得模型能够更好地从无规则截取的文本段中抽取出目标知识点,因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。
Hasil eksperimen menunjukkan bahwa model baru yang dilatih setelah kami mengoptimalkan set pelatihan lebih baik daripada model dasar asli dalam metode prediksi segmen teks, dan selanjutnya dapat digunakan dalam tugas ekstraksi pengetahuan klausa asuransi yang lebih umum. Pada saat yang sama, model yang ada saat ini masih memiliki banyak ruang untuk perbaikan.