τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
//Έγραψα αυτό το σημείωμα σε οψιανό και το αντέγραψα εδώ. Η περίεργη μορφή σε αυτό το σημείωμα οφείλεται στην έλλειψη προσθηκών οψιανού.
ετικέτες:
Στόχος: Εκτελέστε τη βασική γραμμή, δοκιμάστε τη διαδικασία επίλυσης προβλημάτων του μοντέλου NLP, βασικά κατανοήστε τις απαιτήσεις των ερωτήσεων του διαγωνισμού και κατανοήστε το σενάριο ανταγωνισμού
δυσκολία:πολύ χαμηλά
Προτεινόμενα βήματα:
Εργασία 1 Έγγραφα κλικ γνώσεων - Έγγραφα Feishu Cloud (feishu.cn)
Η Μηχανική Μετάφραση (ΜΤ) είναι ένας σημαντικός κλάδος στον τομέα της επεξεργασίας φυσικής γλώσσαςΑυτόματη μετατροπή κειμένου από μια γλώσσα σε κείμενο άλλης γλώσσας
Μέθοδος μηχανικής μετάφρασης: βασισμένη σε κανόνες -> βάσει στατιστικών -> βαθιά μάθηση
Rule-driven->Data-driven->Intelligent driver
Μηχανική μετάφραση βασισμένη σε κανόνες (δεκαετίες 1950-1980): Τα πρώιμα συστήματα αυτόματης μετάφρασης υιοθέτησαν κυρίως μεθόδους βασισμένες σε κανόνες, δηλαδή χρησιμοποιώνταςΓραμματικοί κανόνες και λεξικά γραμμένα από γλωσσολόγους για μετάφραση .Αυτή η μέθοδος απαιτεί εις βάθος κατανόηση της γραμματικής και του λεξιλογίου της γλώσσας πηγής και της γλώσσας-στόχου, αλλά είναι λιγότερο ευέλικτη και προσαρμόσιμη, καθιστώντας δύσκολη την αντιμετώπιση πολύπλοκων γλωσσικών δομών και προβλημάτων πολυσημίας.
Μηχανική μετάφραση βασισμένη σε στατιστικές (δεκαετίες 1990-2000) : Με τη βελτίωση της απόδοσης του υπολογιστή και την εμφάνιση παράλληλων σωμάτων μεγάλης κλίμακας, η στατιστική αυτόματη μετάφραση έχει αρχίσει να αυξάνεται.αυτή τη μέθοδοΜάθετε αυτόματα την αντιστοιχία μεταξύ των γλωσσών πηγής και προορισμού αναλύοντας μεγάλες ποσότητες δίγλωσσου κειμένου , πραγματοποιώντας έτσι τη μετάφραση. Η στατιστική αυτόματη μετάφραση έχει δείξει καλύτερα αποτελέσματα στον χειρισμό της πολυσημίας και της γλωσσικής παραλλαγής, αλλά λόγω της εξάρτησής της από μεγάλους όγκους δεδομένων εκπαίδευσης, δεν υποστηρίζεται επαρκώς για γλώσσες με φτωχούς πόρους.
Μηχανική μετάφραση βασισμένη σε νευρωνικά δίκτυα (2010-σήμερα) : Η εφαρμογή μεθόδων νευρωνικών δικτύων σε εργασίες μηχανικής μετάφρασης μπορεί να εντοπιστεί στις δεκαετίες του 1980 και του 1990. Ωστόσο, λόγω περιορισμών στους υπολογιστικούς πόρους και την κλίμακα δεδομένων εκείνη την εποχή, η απόδοση της μεθόδου νευρωνικών δικτύων δεν ήταν ικανοποιητική, επομένως η ανάπτυξή της παρέμεινε στάσιμη για πολλά χρόνια. Τα τελευταία χρόνια, η ταχεία ανάπτυξη της τεχνολογίας βαθιάς μάθησης έχει προωθήσει την άνοδο της Νευρωνικής Μηχανικής Μετάφρασης (NMT). Το NMT χρησιμοποιεί μοντέλα βαθιάς νευρωνικών δικτύων όπως π.χΔίκτυο βραχυπρόθεσμης μνήμης (LSTM) και Transformer , μπορεί να μάθει αυτόματα τη σύνθετη σχέση αντιστοίχισης μεταξύ της γλώσσας πηγής και της γλώσσας στόχου χωρίς να σχεδιάζει με μη αυτόματο τρόπο χαρακτηριστικά ή κανόνες. Η NMT έχει σημειώσει σημαντική πρόοδο στην ποιότητα, την ταχύτητα και την προσαρμοστικότητα μετάφρασης και έχει γίνει η κύρια μέθοδος στον τρέχοντα τομέα της αυτόματης μετάφρασης.
Στα έργα μηχανικής μάθησης και βαθιάς μάθησης, το σύνολο δεδομένων συνήθως χωρίζεται σε τρία μέρη: σετ εκπαίδευσης (Σετ εκπαίδευσης), σετ ανάπτυξης (Σετ ανάπτυξης, που συχνά ονομάζεται επίσης σύνολο επικύρωσης, Σετ επικύρωσης) και σύνολο δοκιμών (Σετ δοκιμών)
σετ προπόνησης, μοντέλο προπόνησης
Σετ ανάπτυξης για να αποτρέψει την υπερβολική προσαρμογή του μοντέλου στο σετ εκπαίδευσης
Δοκιμαστικό σύνολο, προσομοίωση πραγματικών δεδομένων, έλεγχος του εφέ
στο παρόννευρωνική μηχανική μετάφρασηΗ τεχνολογία έχει κάνει μεγάλες ανακαλύψεις, αλλάΣε ορισμένους τομείς ή κλάδους, το μεταφραστικό αποτέλεσμα δεν είναι ιδανικό γιατί είναι δύσκολο για την αυτόματη μετάφραση να διασφαλίσει τη συνοχή της ορολογίας. .Για ανακριβή αποτελέσματα αυτόματης μετάφρασης, όπως ορολογία, ονόματα ανθρώπων και τοποθεσιών, κ.λπ., μπορείτεΔιορθώστε μέσω λεξικού ορολογίας, αποφεύγοντας τη σύγχυση ή την ασάφεια και μεγιστοποιώντας την ποιότητα της μετάφρασης.
Πρόκληση μηχανικής μετάφρασης με βάση την παρέμβαση λεξικού ορολογίας Επιλέξτε αυτόματη μετάφραση με τα Αγγλικά ως γλώσσα πηγής και τα Κινεζικά ως γλώσσα-στόχο. Εκτός από τα δίγλωσσα δεδομένα από τα αγγλικά στα κινέζικα, αυτός ο διαγωνισμός παρέχει επίσης ένα Αγγλο-Κινεζικό λεξικό ορολογίας.Οι συμμετέχουσες ομάδες πρέπει να ξεκινήσουν από τα δείγματα δεδομένων εκπαίδευσης που παρέχονται με βάσηΚατασκευή και εκπαίδευση πολύγλωσσων μοντέλων μηχανικής μετάφρασης και παροχή τελικών μεταφραστικών αποτελεσμάτων με βάση σετ δοκιμών και λεξικά όρων
//RAG🤗
[!info] 🐵
- Το **σετ εκπαίδευσης** χρησιμοποιείται για την εκτέλεση του αλγόριθμου εκμάθησής σας.
- σετ ανάπτυξης Χρησιμοποιείται για την προσαρμογή παραμέτρων, την επιλογή χαρακτηριστικών και τη λήψη άλλων αποφάσεων σχετικά με τον αλγόριθμο εκμάθησης.μερικές φορές ονομάζεταισετ διασταυρούμενης επικύρωσης。
- Το **Σύνολο δοκιμών** χρησιμοποιείται για την αξιολόγηση της απόδοσης του αλγορίθμου, αλλά δεν αλλάζει ανάλογα τον αλγόριθμο ή τις παραμέτρους εκμάθησης.
Για τα αρχεία αποτελεσμάτων μετάφρασης σετ δοκιμής που υποβάλλονται από τις συμμετέχουσες ομάδες, χρησιμοποιούνται δείκτες αυτόματης αξιολόγησης ΜΠΛΕ-4 Πραγματοποιήστε αξιολόγηση και χρησιμοποιήστε συγκεκριμένα εργαλείαΈκδοση ανοιχτού κώδικα sacrebleu。
[!info] 📘
τι είναιΜΠΛΕ-4;
BLEU
, πλήρες όνομαBilingual Evaluation Understudy
(αντικατάσταση δίγλωσσης αξιολόγησης), είναι α生成语句
συμπεριφορά评估的指标
. Η βαθμολογία BLEU είναι μια εργασία του 2002 από τους Kishore Papineni et al.《BLEU: μια μέθοδος για την αυτόματη αξιολόγηση της μηχανικής μετάφρασης》προτείνεται σε.
Στον τομέα της αυτόματης μετάφρασης, το BLEU (Bilingual Evaluation Understudy) είναι ένας ευρέως χρησιμοποιούμενος δείκτης αυτόματης αξιολόγησης για τη μέτρησηΟμοιότητα μεταξύ μιας μετάφρασης που δημιουργείται από υπολογιστή και ενός συνόλου μεταφράσεων αναφοράς .Αυτός ο δείκτης δίνει ιδιαίτερη προσοχήn-γραμμάρια Μια ακριβής αντιστοίχιση (n διαδοχικών λέξεων) μπορεί να θεωρηθεί ως μια στατιστική εκτίμηση της ακρίβειας και της ευχέρειας της μετάφρασης. Κατά τον υπολογισμό του ΜΠΛΕ βαθμολογίας, πρώτα μετράται η συχνότητα των n-γραμμαρίων στο κείμενο που δημιουργείται και, στη συνέχεια, αυτές οι συχνότητες συγκρίνονται με τα n-γραμμάρια στο κείμενο αναφοράς. Εάν η μετάφραση που δημιουργείται περιέχει τα ίδια n-γραμμάρια που εμφανίζονται στη μετάφραση αναφοράς, θεωρείται αντιστοίχιση. Η τελική ΜΠΛΕ βαθμολογία είναι μια τιμή μεταξύ 0 και 1, όπου το 1 αντιπροσωπεύει τέλεια αντιστοίχιση με τη μετάφραση αναφοράς και το 0 δεν αντιπροσωπεύει καθόλου αντιστοίχιση.
ΜΠΛΕ-4 Συγκεκριμένα, αναφέρεται στο να λαμβάνεται υπόψη η αντιστοίχιση τετραπλών (δηλαδή τεσσάρων διαδοχικών λέξεων) κατά τον υπολογισμό.
ΜΠΛΕ Χαρακτηριστικά δεικτών αξιολόγησης:
Εκτός από τη μετάφραση, η βαθμολογία BLEU σε συνδυασμό με μεθόδους βαθιάς μάθησης μπορεί να εφαρμοστεί σε άλλα προβλήματα δημιουργίας γλώσσας, όπως: δημιουργία γλώσσας, δημιουργία τίτλου εικόνας, σύνοψη κειμένου και αναγνώριση ομιλίας.
Θα χρησιμοποιώ απλώς το Magic Tower από εδώ και στο εξής, ένας φορητός υπολογιστής 8 GB δεν θα μπορεί να το χειριστεί.
Κοίταξα εν συντομία τον κώδικα και τα δεδομένα, αλλά δεν το καταλαβαίνω ακριβώς.
Μαντέψτε, κατά τη διαδικασία μετάφρασης, ανακτώνται πολλές επιλογές από το λεξικό για κάθε λέξη και αυτή με την υψηλότερη πιθανότητα συνδυασμού είναι το αποτέλεσμα της μετάφρασης;