τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Μεγάλα μοντέλα γλώσσας για δοκιμές τροφίμων
Διεύθυνση χαρτιού: https://arxiv.org/abs/2103.00728
Με την ανάπτυξη της τεχνολογίας γραφημάτων γνώσης και τη διάδοση των εμπορικών εφαρμογών, υπάρχει μια αυξανόμενη ανάγκη εξαγωγής οντοτήτων γραφημάτων γνώσης και σχεσιακών δεδομένων από διάφορα μη δομημένα κείμενα τομέα. Αυτό καθιστά την αυτοματοποιημένη εξαγωγή γνώσης από κείμενο τομέα αρκετά ουσιαστική. Αυτό το έγγραφο προτείνει μια μέθοδο εξαγωγής γνώσης βασισμένη στο BERT, η οποία χρησιμοποιείται για την αυτόματη εξαγωγή σημείων γνώσης από μη δομημένα κείμενα ειδικά για τον τομέα (όπως ασφαλιστικές ρήτρες στον ασφαλιστικό κλάδο) για εξοικονόμηση ανθρώπινου δυναμικού στη διαδικασία δημιουργίας ενός γραφήματος γνώσης. Διαφορετικά από τις συνήθως χρησιμοποιούμενες μεθόδους εξαγωγής σημείων γνώσης που βασίζονται σε κανόνες, πρότυπα ή μοντέλα εξαγωγής οντοτήτων, αυτό το άρθρο μετατρέπει τα σημεία γνώσης του κειμένου τομέα σε ζεύγη ερωτήσεων και απαντήσεων, χρησιμοποιώντας το κείμενο πριν και μετά τη θέση απάντησης ως πλαίσιο και χρησιμοποιεί BERT για να εκτελέσει την κατανόηση ανάγνωσης με βάση τα δεδομένα SQuAD. Το λεπτομερές μοντέλο χρησιμοποιήθηκε για την αυτόματη εξαγωγή σημείων γνώσης από περισσότερες ρήτρες ασφάλισης και πέτυχε καλά αποτελέσματα.
Τα τελευταία χρόνια, με την εμβάθυνση του ψηφιακού μετασχηματισμού σε διάφορους κλάδους, ο αριθμός των σχετικών ηλεκτρονικών κειμένων έχει αυξηθεί κατακόρυφα. Ταυτόχρονα, όλο και περισσότερες επιχειρήσεις αρχίζουν να δίνουν προσοχή στην ανάλυση δεδομένων, την εξόρυξη και την ανάπτυξη και χρήση πόρων δεδομένων, όπως οι χάρτες γνώσης και ο έξυπνος διάλογος, έχουν γίνει η βάση για διάφορες επιχειρήσεις και ιδρύματα για να παρέχουν εσωτερικές υπηρεσίες. και εξωτερικές υπηρεσίες. Τέτοιες εφαρμογές συχνά χρειάζεται να εξάγουν τις δομημένες πληροφορίες που περιέχονται σε διάφορα μη δομημένα κείμενα τομέα για την κατασκευή ψηφιακών βάσεων γνώσης. Τα δεδομένα είναι το θεμέλιο των προϊόντων και υπηρεσιών ηλεκτρονικών υπολογιστών Η παροχή δεδομένων για υπολογιστές έχει γίνει ένα νέο καθήκον για την ανάπτυξη επιχειρήσεων και ιδρυμάτων στη νέα εποχή. Τα πρωτότυπα διάφορα επιχειρηματικά και επιχειρηματικά έγγραφα σε επιχειρήσεις και ιδρύματα περιέχουν πλήθος γνώσεων και πληροφοριών, αλλά είναι όλα γραμμένα για ανθρώπινη ανάγνωση Σε σύγκριση με τις ανάγκες των προγραμμάτων ηλεκτρονικών υπολογιστών, υπάρχουν πολλές περιττές πληροφορίες. Προς το παρόν, κατά την εφαρμογή αυτού του είδους δεδομένων, βασικά απαιτεί επένδυση πολλού ανθρώπινου δυναμικού για να εξαγάγετε με μη αυτόματο τρόπο τις απαιτούμενες πληροφορίες διαβάζοντας έγγραφα και εκφράζοντάς τα σε μια μορφή που ένας υπολογιστής μπορεί να διαβάσει ("κατανοήσει"). Αυτό έχει ως αποτέλεσμα πολύ πρόσθετο κόστος μάθησης και κατανάλωση ανθρώπινου δυναμικού. Ο τρόπος χρήσης αυτοματοποιημένων μέσων για την ανακάλυψη γνώσης από μη δομημένα δεδομένα κειμένου και τη χρήση της ως πηγή δεδομένων από την οποία εξαρτώνται διάφορες έξυπνες εφαρμογές είναι ένα ερευνητικό hotspot στον τομέα της εξαγωγής γνώσης. Η παρούσα εργασία λαμβάνει ως ερευνητικό αντικείμενο μη δομημένο κείμενο σε ένα συγκεκριμένο πεδίο και προτείνει μια μέθοδο εξαγωγής γνώσης μέσω ενός μοντέλου κατανόησης γλώσσας που βασίζεται στη βαθιά μάθηση. Αυτή η μέθοδος παρουσιάζει τα σημεία γνώσης που πρέπει να εξαχθούν με τη μορφή ζευγαριών ερωτήσεων-απάντησης, χρησιμοποιεί χειροκίνητα σχολιασμένα δεδομένα ως δεδομένα εκπαίδευσης, εκτελεί εκμάθηση μεταφοράς με βάση το προεκπαιδευμένο μοντέλο και αποκτά αυτόματη εξαγωγή από κείμενα στο ίδιο πεδίο μέσω Μοντέλο σημείων γνώσης.
Για έγγραφα με ενοποιημένες δομικές προδιαγραφές, η εξαγωγή γνώσεων μπορεί να πραγματοποιηθεί με κανόνες δόμησης. Η κατασκευή κανόνων ολοκληρώνεται συχνά μέσω χειροκίνητης επαγωγής και σύνοψης - δηλαδή, διαβάζοντας μεγάλο αριθμό κειμένων στο ίδιο πεδίο, επιλέγοντας από αυτά και συνοψίζοντας τους τελικούς κανόνες εξαγωγής. Οι Jyothi et al χρησιμοποίησαν μια προσέγγιση βασισμένη σε κανόνες για να εξάγουν αποτελεσματικές πληροφορίες από μεγάλο αριθμό προσωπικών βιογραφικών και να δημιουργήσουν μια βάση δεδομένων. Οι JunJun et al χρησιμοποίησαν μια παρόμοια μέθοδο για την εξαγωγή της ακαδημαϊκής εννοιολογικής γνώσης από την ακαδημαϊκή βιβλιογραφία. Το πλεονέκτημα αυτής της μεθόδου είναι ότι δεν απαιτεί μοντέλα εκπαίδευσης και είναι επίσης προφανές αλλάζει ελαφρώς, απαιτείται χειρωνακτική εργασία Κατασκευάζονται νέοι κανόνες εξαγωγής γνώσεων, επομένως η μέθοδος δεν είναι φορητή.
Μια εργασία εξαγωγής γνώσης ονομάζεται εξαγωγή οντοτήτων, η οποία είναι η εξαγωγή προκαθορισμένου περιεχομένου ετικετών από κείμενο, όπως ώρα, τοποθεσία, κ.λπ. Οι συγκεκριμένες ετικέτες εξαρτώνται από την εφαρμογή αναγνώριση οντοτήτων (NER). Η ίδια η εξαγωγή οντοτήτων μπορεί να επιλυθεί απευθείας ως εργασία επισήμανσης ακολουθίας, η οποία μπορεί να υποβληθεί σε επεξεργασία χρησιμοποιώντας παραδοσιακές μεθόδους στατιστικής εκμάθησης, όπως τα κρυφά μοντέλα Markov (HMM) ή τα τυχαία πεδία υπό όρους (CRF). Τα τελευταία χρόνια, ορισμένα μοντέλα βαθιάς μάθησης έχουν επίσης εφαρμοστεί σε αυτό το είδος προβλήματος. Για παράδειγμα, η μέθοδος σχολιασμού ακολουθίας που συνδυάζει BiLSTM και CRF έχει επιτύχει καλά αποτελέσματα. Ο Lample et al πρότεινε μια νέα δομή δικτύου, χρησιμοποιώντας στοιβαγμένο LSTM για να αναπαραστήσει μια δομή στοίβας, κατασκευάζοντας απευθείας την αναπαράσταση πολλαπλών λέξεων και τη συνέκρινε με το μοντέλο LSTM-CRF. Οι Ma et al πρότειναν ένα μοντέλο σχολιασμού αλληλουχίας από άκρο σε άκρο που βασίζεται στο BiLSTM-CNN-CRF. Επιπλέον, το βελτιωμένο μοντέλο BERT μπορεί επίσης να επιτύχει καλά αποτελέσματα στις εργασίες επισήμανσης ακολουθιών.
Εκτός από την εξαγωγή οντοτήτων από το κείμενο, η σχέση μεταξύ οντοτήτων είναι επίσης το επίκεντρο της εξαγωγής γνώσης.<E1, R, E2> , τότε ο στόχος της εργασίας είναι η εξαγωγή όλων των πιθανών τριπλών σχέσεων οντοτήτων από το κείμενο και οι σχέσεις τους περιορίζονται στο προκαθορισμένο σχήμα. Οι Zeng et al σχεδίασαν το CNN για να ταξινομήσει τις σχέσεις, αλλά όχι τριπλά. Οι Makoto et al πέτυχαν πρόβλεψη από άκρο σε άκρο των σχέσεων οντοτήτων κατασκευάζοντας ένα δίκτυο στοίβας που βασίζεται στο BiLSTM και το Bi-TreeLSTM για την ταυτόχρονη εκτέλεση εξαγωγής οντοτήτων και ανίχνευσης σχέσεων. Οι Li et al χρησιμοποίησαν ένα LSTM διπλού επιπέδου με αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή για να δημιουργήσουν ένα μοντέλο εξαγωγής γνώσης που δεν περιορίζεται σε τριπλάσια και μπορεί να προβλέψει δομημένη γνώση σε σταθερή μορφή. Οι Zheng et al. Ο Luan et al σχεδίασε ένα πλαίσιο εκμάθησης πολλαπλών εργασιών για τον εντοπισμό οντοτήτων και σχέσεων σε επιστημονικά έγγραφα για τη δημιουργία γραφημάτων επιστημονικής γνώσης.
除了以上提到的知识抽取模式,一个不同的角度是将知识点本身看作一个问题,将知识点的内容作为该问题的答案,将知识点所在的文本段作为这个问答对的上下文,这样知识抽取模型便可以用问答模型来构造。近年来,GPT和 BERT等预训练模型的出现使得这类问答阅读理解任务可以很好地作为其下游任务,仅需简单改造原有网络结构,并进行微调,即可得到很好的效果。Wang等人在原始BERT 的基础上使用多段落预测的方式改进了其在 SQuAD数据集上的效果。Alberti等人在BERT 与 SQuAD 的基础上改进后,将其应用在一个更困难的问答数据集 NQ上,𝐹1分数相对之前的基准线提升了 30%。这种问答形式的知识抽取可以更灵活地处理不同结构的知识——只需将其定义为不同的问题,而不需要根据知识的形式单独设计新的网络结构。
Τα δομημένα κείμενα σε διαφορετικούς κλάδους έχουν διαφορετικά χαρακτηριστικά λόγω των βιομηχανικών χαρακτηριστικών τους. Ορισμένα έγγραφα ειδικά για τον κλάδο (όπως ιατρικές οδηγίες) όχι μόνο έχουν αυστηρή δομή, αλλά έχουν επίσης πολύ αυστηρές απαιτήσεις σχετικά με την ορολογία και τη διατύπωση, οι οποίες είναι πιο κατάλληλες για εξαγωγή γνώσης βάσει κανόνων. Υπάρχουν επίσης ορισμένες βιομηχανίες των οποίων τα κείμενα δεν διαφέρουν πολύ από τα γενικά κείμενα (όπως ρεπορτάζ, συνεντεύξεις κ.λπ.), για τις οποίες μπορεί να εφαρμοστεί άμεσα η γενική τεχνολογία εξόρυξης. Υπάρχουν επίσης κείμενα σε ορισμένους τομείς, τα οποία είναι ενδιάμεσα και έχουν κάποιο βαθμό επαγγελματισμού, αλλά δεν είναι πολύ αυστηρά σχετικά ενιαία. Τα έγγραφα ασφαλιστικής ρήτρας στον ασφαλιστικό κλάδο εμπίπτουν σε αυτήν την τρίτη κατηγορία κειμένων. Οι ασφαλιστικές ρήτρες είναι διατάξεις που αφορούν τα δικαιώματα και τις υποχρεώσεις και των δύο μερών που συμφωνούνται από κοινού από τα δύο μέρη σε μια ασφαλιστική σύμβαση - τον ασφαλιστή (ασφαλιστική εταιρεία) και τον αντισυμβαλλόμενο. Μια ρήτρα ασφάλισης αποτελείται γενικά από τρία μέρη:
Παρόλο που οι ασφαλιστικές ρήτρες έχουν έναν ορισμένο βαθμό επαγγελματικού λεξιλογίου, η χρήση του επαγγελματικού λεξιλογίου ως επί το πλείστον δεν είναι τυποποιημένη στον κλάδο (για παράδειγμα: η "περίοδος δισταγμού" μπορεί επίσης να ονομαστεί "περίοδος χαλάρωσης" κ.λπ.), και το έγγραφο της ρήτρας είναι ένα έγγραφο που παραδίδεται στον αντισυμβαλλόμενο για ανάγνωση Τα περισσότερα από τα γνωστικά σημεία που πρέπει να εξαχθούν αναμιγνύονται σε μια έκφραση φυσικής γλώσσας, η οποία δεν είναι κατάλληλη για εξαγωγή κειμένου με βάση στατικούς κανόνες. Αν και τα απαιτούμενα εξαγόμενα σημεία γνώσης μπορούν να ληφθούν από μόνα τους μέσω εξαγωγής οντοτήτων, οι τιμές που αντιστοιχούν στα σημεία γνώσης συχνά αναμιγνύονται σε μια έκφραση φυσικής γλώσσας και δεν μπορούν να εξαχθούν μαζί με την περιγραφή του σημείου γνώσης. Για παράδειγμα: η παραγραφή για μια συγκεκριμένη ρήτρα είναι 2 έτη Αυτό το "2 έτη" μπορεί να εμφανίζεται στην ακόλουθη περιγραφή: "Η παραγραφή για να ζητήσει ο δικαιούχος ασφαλιστικές παροχές ή απαλλαγή ασφάλιστρων από εμάς είναι 2 έτη, αφού. ο δικαιούχος γνωρίζει ή Θα πρέπει να είναι γνωστό ότι ο υπολογισμός ξεκινά από την ημερομηνία του ασφαλιστικού ατυχήματος «Επομένως, όταν χρειάζεται να εξαγάγουμε βασικές πληροφορίες, όρους αγοράς, ασφαλιστική ευθύνη και άλλα γνωστικά σημεία από τους όρους ασφάλισης, αποκλείουμε άμεσα τον κανόνα-. βασισμένες και βασισμένες σε οντότητες μεθόδους εξαγωγής. Εάν η εξαγωγή τύπου Schema χρησιμοποιείται για τη μετατροπή των σημείων γνώσης σε τριπλάσια, το απαιτούμενο σύνολο δεδομένων εκπαίδευσης και η ποσότητα της επισήμανσης θα είναι σχετικά μεγάλα για το σκοπό μας, το κέρδος θα υπερβεί αναπόφευκτα την απώλεια. Ως εκ τούτου, τελικά επιλέξαμε μια μέθοδο εξαγωγής γνώσης βασισμένη σε ερωτήσεις-απάντηση.
Τα τελευταία χρόνια, η μέθοδος μάθησης μέσω τελειοποίησης που βασίζεται σε προεκπαιδευμένα μοντέλα έχει σημειώσει μεγάλη επιτυχία στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (NLP), σημαντικός εκπρόσωπος του οποίου είναι το μοντέλο BERT. Το BERT είναι ένα μοντέλο αναπαράστασης διπλής κατεύθυνσης κωδικοποίησης που βασίζεται σε μετασχηματιστές. Το μοντέλο BERT είναι μια τυπική εφαρμογή που βασίζεται στη μάθηση με ακρίβεια, πράγμα που σημαίνει ότι η κατασκευή του περιλαμβάνει δύο βήματα: προ-εκπαίδευση και τελειοποίηση. Πρώτον, στο στάδιο της προεκπαίδευσης, εκπαιδεύεται ένας μεγάλος αριθμός μη επισημασμένων δεδομένων σώματος διαφορετικών εκπαιδευτικών εργασιών και η γνώση στο σώμα μεταφέρεται στην ενσωμάτωση κειμένου (Ενσωμάτωση) του προεκπαιδευτικού μοντέλου. Με αυτόν τον τρόπο, κατά τη φάση λεπτομέρειας, χρειάζεται μόνο να προσθέσετε ένα επιπλέον επίπεδο εξόδου στο νευρωνικό δίκτυο για να προσαρμόσετε το προεκπαιδευμένο μοντέλο. Συγκεκριμένα, η λεπτομέρεια είναι η προετοιμασία του μοντέλου BERT με προεκπαιδευμένες παραμέτρους και, στη συνέχεια, ο μικροσυντονισμός του μοντέλου χρησιμοποιώντας δεδομένα με ετικέτα από εργασίες κατάντη. Ως απάντηση στην ανάγκη μας να εξάγουμε πόντους γνώσης από ασφαλιστικά έγγραφα, χρειάζεται μόνο να χρησιμοποιήσουμε δεδομένα ασφαλιστικής ρήτρας για να τελειοποιήσουμε την εργασία ερωτήσεων και απαντήσεων του BERT ώστε να ανταποκριθούμε στις ανάγκες εξαγωγής γνώσεων ασφαλιστικής ρήτρας.
Η διαδικασία εξαγωγής γνώσεων ασφαλιστικής ρήτρας δημιουργεί αρχικά σημεία γνώσης για τη ρήτρα ασφάλισης με μη αυτόματο τρόπο<question, answer> στη μορφή και, στη συνέχεια, χρησιμοποιήστε ένα πρόγραμμα ανάλυσης κειμένου για να αναλύσετε ένα έγγραφο όρων ασφάλισης σε ένα δέντρο εγγράφων, στο οποίο ο κύριος τίτλος είναι ο ριζικός κόμβος και κάθε επόμενος τίτλος είναι ένας θυγατρικός κόμβος του προηγούμενου επιπέδου και κάθε παράγραφος κειμένου διαβάζεται Πάρτε το ως κόμβο φύλλου.Αντιστοιχίστε την απάντηση στο ζεύγος ερώτησης-απάντησης με τον κόμβο φύλλου όπου βρίσκεται και χρησιμοποιήστε το κείμενο που αντιστοιχεί σε ολόκληρο τον κόμβο του φύλλου ως πλαίσιο του ζεύγους ερώτησης-απάντησης και τελικά κατασκευάστε ένα<question, answer, context> Τέλος, αυτό το σύνολο δεδομένων χρησιμοποιείται για την εκπαίδευση του προπονητικού μοντέλου BERT σύμφωνα με τη μέθοδο μικρορύθμισης για εργασίες κατανόησης ανάγνωσης με βάση τα δεδομένα SQuAD και λαμβάνεται το τελικό μοντέλο εξαγωγής γνώσης. Όπως φαίνεται στο παραπάνω σχήμα, για εργασίες ερωτήσεων και απαντήσεων, χρειάζεται μόνο να προσθέσετε ένα επιπλέον πλήρως συνδεδεμένο επίπεδο μετά την έξοδο του διανύσματος κωδικοποίησης από το BERT για να προβλέψετε τη θέση της απάντησης στο πλαίσιο.Κατά τη διάρκεια των δοκιμών, για τις νέες ασφαλιστικές ρήτρες, το πλαίσιο των διαφορετικών σημείων γνώσης πρέπει να αναλυθεί με τον ίδιο τρόπο και στη συνέχεια<question, context> Ως είσοδος στο μοντέλο, λαμβάνονται απαντήσεις σε κάθε σημείο γνώσης. Η παραπάνω μέθοδος μπορεί να χειριστεί καλύτερα τις ρήτρες ασφάλισης της ίδιας εταιρείας και του ίδιου τύπου ρήτρες διαφορετικών εταιρειών και τύπων, Επειδή η ορολογία και η δομή είναι διαφορετικές, το αρχικό πρόγραμμα ανάλυσης δεν μπορεί να το χειριστεί και δεν είναι εφικτό να ξαναγραφεί ένα πρόγραμμα ανάλυσης κειμένου για κάθε ρήτρα, επομένως το μοντέλο πρέπει να βελτιωθεί.
Για να κάνουμε τη διαδικασία εξαγωγής γνώσης πιο ευέλικτη, τροποποιούμε πρώτα τη διαδικασία πρόβλεψης: χωρίζουμε το αρχικό κείμενο της νέας πρότασης σε τμήματα ανάλογα με τον αριθμό των λέξεων, κάθε τμήμα είναι περίπου 300 λέξεις (προσπαθήστε να μην σπάσετε τις προτάσεις), και στη συνέχεια διαιρέστε κάθε τμήμα κειμένου σε. Ως πιθανό πλαίσιο οποιουδήποτε σημείου γνώσης, χρησιμεύει ως είσοδος του μοντέλου. Εάν η απάντηση εξόδου είναι κενή, σημαίνει ότι δεν υπάρχει αντίστοιχο σημείο γνώσης σε αυτήν την παράγραφο, Διαφορετικά, η έξοδος κάθε σημείου γνώσης σε όλες τις παραγράφους του κειμένου λαμβάνεται πλήρως υπόψη και η απάντηση με τη μεγαλύτερη πιθανότητα επιλέγεται ως απάντηση στην απάντηση. σημείο γνώσης. Αυτή η νέα μέθοδος πρόβλεψης είναι γενικής χρήσης για οποιαδήποτε ρήτρα και εξαλείφει την ανάγκη για πρόσθετη ανάλυση κειμένου. Δοκιμάσαμε αρκετούς όρους από διαφορετικές εταιρείες χρησιμοποιώντας αυτήν τη μέθοδο και τα αποτελέσματα έδειξαν ότι δεν λειτουργούσε καλά στο παλιό μοντέλο και η ακρίβεια μειώθηκε σημαντικά. Ο λόγος είναι: πριν από τη βελτίωση, κατά τη διάρκεια της εκπαίδευσης, το πλαίσιο κάθε σημείου γνώσης τοποθετήθηκε με ακρίβεια με βάση τη δομή του εγγράφου Δεν υπήρχαν πολλά αρνητικά δείγματα, επομένως το μοντέλο μπορούσε να κάνει προβλέψεις μόνο με βάση το ακριβές πλαίσιο. Μόλις αλλάξει η δομή οργάνωσης του κειμένου και η μορφή τίτλου, το αρχικό πρόγραμμα ανάλυσης κειμένου δεν μπορεί να εντοπίσει με ακρίβεια το πλαίσιο του προβλήματος, δημιουργώντας πολλά δεδομένα παρεμβολής και επηρεάζοντας την επίδραση του μοντέλου. Επομένως, η διαδικασία εκπαίδευσης του μοντέλου πρέπει να τροποποιηθεί ένα νέο δείγμα, διαφορετικά χρησιμοποιείται ως αρνητικό δείγμα (η απάντηση είναι κενή). Στην πραγματική δοκιμή, εάν όλα αυτά τα νέα δείγματα προστεθούν στο σετ εκπαίδευσης, θα δημιουργηθούν πάρα πολλά δεδομένα εκπαίδευσης και ο αριθμός των αρνητικών δειγμάτων θα υπερβαίνει κατά πολύ τον αριθμό των θετικών δειγμάτων. Προκειμένου να εξισορροπηθεί αυτή η διαδικασία, κάναμε περαιτέρω τις ακόλουθες βελτιώσεις: Για κάθε ερώτηση σημείου γνώσης, εάν η ίδια η ρήτρα δεν περιέχει το σημείο γνώσης (επειδή το σημείο γνώσης ορίζεται ομοιόμορφα για όλες τις ρήτρες ασφάλισης, άρα για μια συγκεκριμένη ρήτρα, Όχι όλα τα σημεία γνώσης μπορούν να συμπεριληφθούν σε αυτό), τότε κάθε τμήμα χρησιμοποιείται ως αρνητικό δείγμα του προβλήματος με πιθανότητα 10% εάν η ίδια η ρήτρα περιέχει το σημείο γνώσης, υπάρχουν δύο καταστάσεις στοχευόμενο σημείο γνώσης, στη συνέχεια Ως θετικό δείγμα, διαφορετικά επιλέγεται ως αρνητικό δείγμα με πιθανότητα 50%. Η ιδέα είναι να αυξηθεί ο αριθμός των αρνητικών δειγμάτων που σχετίζονται με το σημείο γνώσης εάν η ρήτρα το περιέχει, έτσι ώστε το μοντέλο να μπορεί να χειριστεί καλύτερα την παρεμβολή παρόμοιων θραυσμάτων και να βελτιώσει την ακρίβεια της απάντησης. Εάν η ίδια η ρήτρα δεν περιέχει το σημείο γνώσης, η προσαρμογή μεταξύ του τμήματος κειμένου και του σημείου γνώσης θα πρέπει να είναι κακή και αρκεί η επιλογή ενός μικρού αριθμού αρνητικών δειγμάτων. Μετά τη δοκιμή, το νέο μοντέλο είναι πολύ βελτιωμένο σε σύγκριση με το παλιό μοντέλο, είναι πιο κατάλληλο για τη νέα μέθοδο πρόβλεψης και μπορεί να χρησιμοποιηθεί ως ένα πιο γενικό μοντέλο εξαγωγής γνώσεων ασφαλιστικής ρήτρας.
我们的数据集由某保险公司的保险条款组成,每个条款具有人工标注的知识点,如犹豫期,诉讼期,保险金额等。在实验过程中,训练集,测试集分别由 251 个条款和 98 个条款组成。经过统计,这些条款中所有可能的知识点问题数量为309 条,平均每个条款有 45 条知识点需要提取。测试过程中,我们将条款文本分段,尝试从所有段中提取知识点𝑘𝑖,并根据模型输出的概率,选择概率最高的文本作为该知识点的答案。如果最终得到的输出为空字符串,则代表条款不存在该知识点。由于每个条款提取的知识点只占 309条中的小部分,大多数知识点的输出应当是空的,因此我们在评估时忽略这部分空知识点,关注两个指标:模型输出的知识点正确率𝑃,即精准率(precision),以及应提取知识点中确实被正确提取的比率𝑅,即召回率(recall)。假设知识点𝑘𝑖标注为𝑦𝑖,模型的输出为𝑦̃𝑖,则𝑃和𝑅可定义为:
Χρησιμοποιούμε το προεκπαιδευτικό μοντέλο BERT της Google ανοιχτού κώδικα BERT_chinese_L-12_H-768_A-12 και πραγματοποιούμε επακόλουθες δοκιμές σε αυτή τη βάση. Όσον αφορά τις ρυθμίσεις παραμέτρων, ο αρχικός ρυθμός εκμάθησης είναι 3E-5, το μέγεθος παρτίδας είναι 4, ο αριθμός των εποχών εκπαίδευσης είναι 4 και οι άλλες παράμετροι υιοθετούν την προεπιλεγμένη διαμόρφωση του μοντέλου. Το πείραμα σε αυτό το άρθρο αποτελείται από δύο μέρη δοκιμών Το πρώτο μέρος είναι η δοκιμή του μοντέλου αναφοράς. εντοπίζονται σημεία και στη συνέχεια το συνδυάζουν σε ένα σετ εκπαίδευσης για το BERT. Το δεύτερο μέρος είναι η δοκιμή του νέου μοντέλου Η διαδικασία εκπαίδευσης είναι: προσθήκη νέων δειγμάτων με βάση το σετ εκπαίδευσης του μοντέλου αναφοράς. Οι αντίστοιχες ρήτρες ασφάλισης χωρίζονται σε παραγράφους ανάλογα με τον αριθμό των λέξεων Κάθε παράγραφος του κειμένου είναι περίπου 300 λέξεις. Για κάθε πρόβλημα σημείου γνώσης, κατασκευάζεται ένα σετ εκπαίδευσης για την εκπαίδευση ενός νέου μοντέλου. Το αποτέλεσμα της δοκιμής είναι ο μέσος όρος των στατιστικών στοιχείων των 98 ρητρών ασφάλισης στο σύνολο δοκιμών, όπως φαίνεται στον παρακάτω πίνακα:
可以看出,以前文所述的方法添加有限的负样本后训练的模型明显优于基准模型,其中𝑃提高了约 40%,𝑅提高了约 20%。𝑃的提升相当显著。基准模型的训练集中,仅通过文本解析程序精确定位知识点的上下文信息,导致模型只具备从正确的上下文中抽取对应的知识点的能力,而不具备辨别无效上下文的能力,因此基准模型存在很大比例的无效输出。而按比例添加负样本后,新模型的无效输出大幅度减少,输出的知识点中 60%以上是有效且正确的输出。而由于添加了相对于基准模型粒度更粗的上下文信息(文本段)组成的正样本,使得模型能够更好地从无规则截取的文本段中抽取出目标知识点,因此召回率𝑅也有大幅提升。最终𝐹1值提升了约30%。
Τα πειραματικά αποτελέσματα δείχνουν ότι το νέο μοντέλο που εκπαιδεύτηκε αφού βελτιστοποιήσαμε το σύνολο εκπαίδευσης είναι καλύτερο από το αρχικό βασικό μοντέλο στη μέθοδο πρόβλεψης τμηματοποίησης κειμένου και μπορεί να χρησιμοποιηθεί περαιτέρω σε εργασίες εξαγωγής γνώσεων γενικής ρήτρας ασφάλισης. Ταυτόχρονα, το τρέχον μοντέλο έχει ακόμη πολλά περιθώρια βελτίωσης.