τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Στο απέραντο σύμπαν της τεχνητής νοημοσύνης, η επεξεργασία φυσικής γλώσσας (NLP) ήταν πάντα ένας τομέας γεμάτος προκλήσεις και ευκαιρίες. Καθώς η τεχνολογία εξελίσσεται, έχουμε γίνει μάρτυρες μιας εξέλιξης από τους παραδοσιακούς κανόνες, στη στατιστική μηχανική μάθηση, στη βαθιά μάθηση και σε προεκπαιδευμένα μοντέλα. Σήμερα, βρισκόμαστε στο κατώφλι των μεγάλων γλωσσικών μοντέλων (LLM), τα οποία επαναπροσδιορίζουν τον τρόπο επικοινωνίας με τις μηχανές. Αυτό το άρθρο θα εμβαθύνει στο ιστορικό ανάπτυξης, τον τεχνικό οδικό χάρτη και τον αντίκτυπο του LLM στο μελλοντικό πεδίο της τεχνητής νοημοσύνης.
Ο στόχος της επεξεργασίας φυσικής γλώσσας (NLP) είναι να επιτρέψει στις μηχανές να κατανοούν, να ερμηνεύουν και να δημιουργούν ανθρώπινη γλώσσα. Η ανάπτυξη αυτού του τομέα έχει περάσει από πολλά σημαντικά στάδια, καθένα από τα οποία σηματοδότησε ένα άλμα στο βάθος της γλωσσικής κατανόησης. Από τα πρώιμα συστήματα που βασίζονται σε κανόνες, στις στατιστικές μεθόδους μάθησης, στα μοντέλα βαθιάς μάθησης, στα σημερινά μεγάλα γλωσσικά μοντέλα (LLM), κάθε βήμα είναι μια υπέρβαση του προηγούμενου σταδίου.
Στις πρώτες μέρες του NLP, οι ερευνητές βασίστηκαν σε χειρόγραφους κανόνες για την επεξεργασία της γλώσσας. Η στοίβα τεχνολογίας σε αυτό το στάδιο περιλαμβάνει μηχανές πεπερασμένης κατάστασης και συστήματα που βασίζονται σε κανόνες. Για παράδειγμα, το Apertium είναι ένα σύστημα μηχανικής μετάφρασης που βασίζεται σε κανόνες, το οποίο δείχνει πώς οι πρώτοι ερευνητές μπορούν να επιτύχουν αυτόματη μετάφραση γλωσσών οργανώνοντας χειροκίνητα λεξικά και γράφοντας κανόνες.
Με τον καιρό, οι ερευνητές άρχισαν να στρέφονται σε μεθόδους στατιστικής μάθησης, χρησιμοποιώντας εργαλεία όπως μηχανές διανυσμάτων υποστήριξης (SVM), κρυφά μοντέλα Markov (HMM), μοντέλα μέγιστης εντροπίας (MaxEnt) και τυχαία πεδία υπό όρους (CRF). Αυτό το στάδιο χαρακτηρίζεται από το συνδυασμό μιας μικρής ποσότητας δεδομένων τομέα με μη αυτόματο χαρακτηρισμό και μηχανικής χειροκίνητης δυνατότητας, που σηματοδοτεί τη μετάβαση από τους χειρόγραφους κανόνες σε μηχανές που μαθαίνουν αυτόματα γνώση από δεδομένα.
Η εμφάνιση της βαθιάς μάθησης έχει φέρει επαναστατικές αλλαγές στο NLP. Οι τεχνολογίες που αντιπροσωπεύονται από Encoder-Decoder, Long-Short-Term Memory Network (LSTM), Attention και Embedding επιτρέπουν στο μοντέλο να χειρίζεται μεγαλύτερα σύνολα δεδομένων χωρίς σχεδόν καμία προσπάθεια. Το σύστημα νευρωνικής μηχανικής μετάφρασης της Google (2016) είναι ένα αντιπροσωπευτικό έργο αυτού του σταδίου.
Η εμφάνιση προεκπαιδευμένων μοντέλων σηματοδοτεί ένα ακόμη άλμα στον τομέα του NLP. Η στοίβα τεχνολογίας με τον μετασχηματιστή και τον μηχανισμό προσοχής ως πυρήνα συνδυάζει τεράστια δεδομένα χωρίς ετικέτα για αυτοεποπτευόμενη μάθηση, δημιουργεί γενικές γνώσεις και, στη συνέχεια, προσαρμόζεται σε συγκεκριμένες εργασίες μέσω της τελειοποίησης. Η μεταβλητότητα αυτού του σταδίου είναι πολύ υψηλή επειδή επεκτείνει το εύρος των διαθέσιμων δεδομένων από δεδομένα με ετικέτα σε δεδομένα χωρίς ετικέτα.
Το LLM αντιπροσωπεύει την πιο πρόσφατη ανάπτυξη μοντέλων γλώσσας, τα οποία συνήθως υιοθετούν μια αρχιτεκτονική που βασίζεται σε αποκωδικοποιητή σε συνδυασμό με το Transformer and Reinforcement Learning Human Feedback (RLHF). Αυτή η φάση χαρακτηρίζεται από μια διαδικασία δύο σταδίων: προ-εκπαίδευση και ευθυγράμμιση με τον άνθρωπο. Η φάση προεκπαίδευσης χρησιμοποιεί τεράστια δεδομένα χωρίς ετικέτα και δεδομένα τομέα για τη δημιουργία γνώσης μέσω της αυτοεποπτευόμενης μάθησης, η φάση της ανθρώπινης ευθυγράμμισης επιτρέπει στο μοντέλο να προσαρμοστεί σε διάφορες εργασίες ευθυγραμμίζοντας τις συνήθειες και τις αξίες χρήσης.
Κοιτάζοντας πίσω στα διάφορα στάδια ανάπτυξης, μπορούμε να δούμε τις ακόλουθες τάσεις:
Δεδομένα: Από τα δεδομένα στη γνώση, χρησιμοποιούνται όλο και περισσότερα δεδομένα/μελλοντικός:Περισσότερα δεδομένα κειμένου, περισσότερα δεδομένα άλλης μορφής→ οποιαδήποτε δεδομένα
Αλγόριθμος: Η ικανότητα έκφρασης γίνεται ολοένα και πιο δυνατή.μελλοντικός:Ο μετασχηματιστής είναι αρκετός αυτή τη στιγμή, νέο μοντέλο (θα πρέπει να τονιστεί η αποτελεσματικότητα μάθησης);→AGI?
Σχέση ανθρώπου-μηχανής: επιστροφή, από εκπαιδευτή σε προϊστάμενο/μελλοντικός:Συνεργασία ανθρώπου-μηχανής, μηχανική μάθηση από ανθρώπους→Ανθρώπινη μάθηση από μηχανές;→Οι μηχανές διευρύνουν τα όρια της ανθρώπινης γνώσης
Τα τελευταία χρόνια, η ανάπτυξη τεχνολογίας LLM έχει δείξει διαφοροποιημένες διαδρομές, συμπεριλαμβανομένης της λειτουργίας BERT, της λειτουργίας GPT και της λειτουργίας T5, κ.λπ. Κάθε λειτουργία έχει τα δικά της χαρακτηριστικά και τα ισχύοντα σενάρια.
Το μοντέλο BERT είναι κατάλληλο για εργασίες κατανόησης φυσικής γλώσσας μέσω μιας διαδικασίας δύο σταδίων αμφίδρομης προεκπαίδευσης γλωσσικού μοντέλου και λεπτομέρειας εργασιών (προεκπαίδευση μοντέλου γλώσσας διπλής κατεύθυνσης + λεπτομέρεια εργασίας). Η προεκπαίδευση BERT εξάγει γενικές γνώσεις από γενικά δεδομένα, ενώ η τελειοποίηση εξάγει τη γνώση τομέα από δεδομένα τομέα.
Κατάλληλα σενάρια εργασιών: πιο κατάλληλα για κατανόηση φυσικής γλώσσας, συγκεκριμένες εργασίες σε ένα συγκεκριμένο σενάριο, εξειδικευμένες και ελαφριές.
Η λειτουργία GPT αναπτύχθηκε από τη διαδικασία προεκπαίδευσης μονόδρομου μοντέλου γλώσσας και προτροπής ή εντολής μηδενικής βολής/λίγων βολών (προεκπαίδευση μοντέλου γλώσσας μονής κατεύθυνσης + προτροπή μηδενικής βολής/προτροπή λίγων βολών/Εισαγωγή) και είναι κατάλληλη για φυσική δημιουργία γλώσσας. Τα μοντέλα λειτουργίας GPT είναι συνήθως τα μεγαλύτερα διαθέσιμα LLM και μπορούν να χειριστούν ένα ευρύτερο φάσμα εργασιών.
Ισχύοντα σενάρια: πιο κατάλληλα για εργασίες δημιουργίας φυσικής γλώσσας Επί του παρόντος, τα μεγαλύτερα LLM είναι όλα σε αυτόν τον τρόπο λειτουργίας: Σειρές GPT, PaLM, LaMDA..., η λειτουργία βαριάς και κοινής χρήσης συνιστάται για εργασίες παραγωγής/γενικά μοντέλα.
Η λειτουργία T5 συνδυάζει τα χαρακτηριστικά των BERT και GPT και είναι κατάλληλη για δημιουργία και κατανόηση εργασιών. Η εργασία συμπλήρωσης του κενού στη λειτουργία T5 (Span Corruption) είναι μια αποτελεσματική μέθοδος προεκπαίδευσης που αποδίδει καλά σε εργασίες κατανόησης φυσικής γλώσσας. Δύο στάδια (μονόδρομη προεκπαίδευση γλωσσικού μοντέλου + βελτιστοποίηση κυρίως)
Χαρακτηριστικά: Μοιάζει με GPT, μοιάζει με τον Bert
Εφαρμόσιμα σενάρια: Τόσο η δημιουργία όσο και η κατανόηση είναι αποδεκτές από την άποψη του αποτελέσματος, είναι πιο κατάλληλο για εργασίες κατανόησης φυσικής γλώσσας συνιστάται η χρήση της λειτουργίας T5.
Super LLM: Επιδίωξη εφέ μηδενικής λήψης/λίγων βολών/εντολών
Τρέχοντα ερευνητικά συμπεράσματα
(Όταν το μέγεθος του μοντέλου είναι μικρό):
Συμπεράσματα τρέχουσας έρευνας (πολύ μεγάλης κλίμακας):
Γεγονός: Σχεδόν όλα τα μοντέλα LLM που υπερβαίνουν τα 100 B υιοθετούν τη λειτουργία GPT
πιθανός λόγος:
1. Η αμφίδρομη προσοχή στον Κωδικοποιητή-Αποκωδικοποιητή βλάπτει την ικανότητα μηδενικής λήψης (Έλεγχος)
2. Η δομή Encoder-Decoder μπορεί να δώσει προσοχή μόνο στον Κωδικοποιητή υψηλού επιπέδου κατά τη δημιουργία Token Η δομή μόνο από τον αποκωδικοποιητή μπορεί να παρέχει προσοχή επίπεδο προς στρώμα κατά τη δημιουργία του Token και οι πληροφορίες είναι πιο λεπτομερείς.
3. Ο Κωδικοποιητής-Αποκωδικοποιητής εκπαιδεύει τα κενά και δημιουργεί την τελευταία λέξη Next Token Υπάρχει ασυνέπεια.
Καθώς το μέγεθος του μοντέλου μεγαλώνει, οι ερευνητές έρχονται αντιμέτωποι με την πρόκληση του τρόπου αποτελεσματικής χρήσης του χώρου παραμέτρων. Η έρευνα για το μοντέλο Chinchilla δείχνει ότι όταν τα δεδομένα είναι επαρκή, η τρέχουσα κλίμακα LLM μπορεί να είναι μεγαλύτερη από την ιδανική κλίμακα και υπάρχει σπατάλη χώρου παραμέτρων, ωστόσο, ο νόμος κλίμακας επισημαίνει επίσης ότι όσο μεγαλύτερη είναι η κλίμακα του μοντέλου, τόσο περισσότερα δεδομένα , και όσο πιο ολοκληρωμένη είναι η εκπαίδευση Το αποτέλεσμα του μοντέλου LLM είναι καλύτερο. Μια πιο εφικτή ιδέα είναι: κάντε το πρώτα μικρό (το GPT 3 δεν πρέπει να είναι τόσο μεγάλο) και μετά κάντε το μεγάλο (αφού κάνετε πλήρη χρήση των παραμέτρων του μοντέλου, συνεχίστε να το μεγαλώνετε).
Φυσικά, δεδομένου ότι το πολυτροπικό LLM απαιτεί πλουσιότερες δυνατότητες αντίληψης του πραγματικού περιβάλλοντος, θέτει επίσης υψηλότερες απαιτήσεις για παραμέτρους LLM.
Πολυτροπικό LLM: οπτική είσοδος (εικόνες, βίντεο), ακουστική είσοδος (ήχος), απτική είσοδος (πίεση)
αντιμετωπίζει προβλήματα: Το Multimodal LLM φαίνεται αρκετά καλό και βασίζεται σε μεγάλο βαθμό σε μη αυτόματα οργανωμένα μεγάλα σύνολα δεδομένων.
Για παράδειγμα, το ALIGN: 1.8B γραφικά και κείμενο/LAION: 5.8B γραφικά και δεδομένα κειμένου (φιλτραρισμένα κατά CLIP, επί του παρόντος τα μεγαλύτερα δεδομένα γραφικών και κειμένου) είναι αυτήν τη στιγμή κείμενο με εικόνες που πετούν;
ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ: Η αυτοεποπτευόμενη τεχνολογική διαδρομή δοκιμάζεται, αλλά δεν έχει ακόμη εφαρμοστεί με επιτυχία (συγκριτική μάθηση/MAE)/αν μπορεί να επιτευχθεί με επιτυχία, θα είναι άλλη μια τεράστια τεχνολογική ανακάλυψη στον τομέα της τεχνητής νοημοσύνης.
Εάν μπορεί να λυθεί, ορισμένες τρέχουσες εργασίες κατανόησης εικόνας (σημασιολογική τμηματοποίηση/αναγνώριση, κ.λπ.) αναμένεται να ενσωματωθούν στο LLM και να εξαφανιστούν.
Αν και το τρέχον LLM έχει ορισμένες απλές δυνατότητες συλλογιστικής, εξακολουθεί να έχει ελλείψεις στη σύνθετη συλλογιστική. Για παράδειγμα, εργασίες όπως η πολυψήφια προσθήκη παραμένουν μια πρόκληση για το LLM. Οι ερευνητές διερευνούν πώς να αποστάξουν σύνθετες συλλογιστικές ικανότητες σε μικρότερα μοντέλα μέσω τεχνικών μέσων όπως η σημασιολογική αποσύνθεση.
Φυσικά, αυτό το πρόβλημα μπορεί επίσης να παρακαμφθεί μέσω εξωτερικής ανάθεσης χωρητικότητας, όπως ο συνδυασμός του με εργαλεία: υπολογιστική ισχύς (εξωτερική αριθμομηχανή), νέα αναζήτηση πληροφοριών (μηχανή αναζήτησης) και άλλες δυνατότητες ολοκληρώνονται με τη βοήθεια εξωτερικών εργαλείων.
Η έννοια της ενσωματωμένης νοημοσύνης συνδυάζει το LLM με τη ρομποτική και χρησιμοποιεί την ενισχυτική μάθηση για να αποκτήσει ενσωματωμένη νοημοσύνη μέσω της αλληλεπίδρασης με τον φυσικό κόσμο. . Για παράδειγμα, το μοντέλο PaLM-E της Google συνδυάζει 540B PaLM και 22B ViT, καταδεικνύοντας τις δυνατότητες του LLM σε ένα πολυτροπικό περιβάλλον.
Αυτό το άρθρο διερευνά σε βάθος το ιστορικό ανάπτυξης, τον τεχνικό οδικό χάρτη και τον αντίκτυπό τους στο μελλοντικό πεδίο AI του LLM. Η ανάπτυξη του LLM δεν είναι μόνο μια τεχνολογική πρόοδος, αλλά και ένας βαθύς προβληματισμός σχετικά με τις ικανότητές μας στην κατανόηση μηχανημάτων. Από κανόνες έως στατιστικές έως βαθιά μάθηση και προ-κατάρτιση, κάθε βήμα μας παρέχει νέες προοπτικές και εργαλεία. Σήμερα, βρισκόμαστε στο κατώφλι μιας νέας εποχής γλωσσικών μοντέλων μεγάλης κλίμακας, αντιμετωπίζοντας άνευ προηγουμένου ευκαιρίες και προκλήσεις.