Κοινή χρήση τεχνολογίας

Εξέλιξη γλωσσικού μοντέλου: ένα ταξίδι από το NLP στο LLM

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Στο απέραντο σύμπαν της τεχνητής νοημοσύνης, η επεξεργασία φυσικής γλώσσας (NLP) ήταν πάντα ένας τομέας γεμάτος προκλήσεις και ευκαιρίες. Καθώς η τεχνολογία εξελίσσεται, έχουμε γίνει μάρτυρες μιας εξέλιξης από τους παραδοσιακούς κανόνες, στη στατιστική μηχανική μάθηση, στη βαθιά μάθηση και σε προεκπαιδευμένα μοντέλα. Σήμερα, βρισκόμαστε στο κατώφλι των μεγάλων γλωσσικών μοντέλων (LLM), τα οποία επαναπροσδιορίζουν τον τρόπο επικοινωνίας με τις μηχανές. Αυτό το άρθρο θα εμβαθύνει στο ιστορικό ανάπτυξης, τον τεχνικό οδικό χάρτη και τον αντίκτυπο του LLM στο μελλοντικό πεδίο της τεχνητής νοημοσύνης.

εισαγωγή

Ο στόχος της επεξεργασίας φυσικής γλώσσας (NLP) είναι να επιτρέψει στις μηχανές να κατανοούν, να ερμηνεύουν και να δημιουργούν ανθρώπινη γλώσσα. Η ανάπτυξη αυτού του τομέα έχει περάσει από πολλά σημαντικά στάδια, καθένα από τα οποία σηματοδότησε ένα άλμα στο βάθος της γλωσσικής κατανόησης. Από τα πρώιμα συστήματα που βασίζονται σε κανόνες, στις στατιστικές μεθόδους μάθησης, στα μοντέλα βαθιάς μάθησης, στα σημερινά μεγάλα γλωσσικά μοντέλα (LLM), κάθε βήμα είναι μια υπέρβαση του προηγούμενου σταδίου.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Από τους κανόνες στις στατιστικές: πρώιμες εξερευνήσεις στο NLP

Στάδιο κανόνων (1956-1992)

Στις πρώτες μέρες του NLP, οι ερευνητές βασίστηκαν σε χειρόγραφους κανόνες για την επεξεργασία της γλώσσας. Η στοίβα τεχνολογίας σε αυτό το στάδιο περιλαμβάνει μηχανές πεπερασμένης κατάστασης και συστήματα που βασίζονται σε κανόνες. Για παράδειγμα, το Apertium είναι ένα σύστημα μηχανικής μετάφρασης που βασίζεται σε κανόνες, το οποίο δείχνει πώς οι πρώτοι ερευνητές μπορούν να επιτύχουν αυτόματη μετάφραση γλωσσών οργανώνοντας χειροκίνητα λεξικά και γράφοντας κανόνες.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Στατιστικό στάδιο μηχανικής μάθησης (1993-2012)

Με τον καιρό, οι ερευνητές άρχισαν να στρέφονται σε μεθόδους στατιστικής μάθησης, χρησιμοποιώντας εργαλεία όπως μηχανές διανυσμάτων υποστήριξης (SVM), κρυφά μοντέλα Markov (HMM), μοντέλα μέγιστης εντροπίας (MaxEnt) και τυχαία πεδία υπό όρους (CRF). Αυτό το στάδιο χαρακτηρίζεται από το συνδυασμό μιας μικρής ποσότητας δεδομένων τομέα με μη αυτόματο χαρακτηρισμό και μηχανικής χειροκίνητης δυνατότητας, που σηματοδοτεί τη μετάβαση από τους χειρόγραφους κανόνες σε μηχανές που μαθαίνουν αυτόματα γνώση από δεδομένα.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Σημαντικές ανακαλύψεις στη βαθιά μάθηση: Άνοιγμα μιας νέας εποχής

Στάδιο βαθιάς μάθησης (2013-2018)

Η εμφάνιση της βαθιάς μάθησης έχει φέρει επαναστατικές αλλαγές στο NLP. Οι τεχνολογίες που αντιπροσωπεύονται από Encoder-Decoder, Long-Short-Term Memory Network (LSTM), Attention και Embedding επιτρέπουν στο μοντέλο να χειρίζεται μεγαλύτερα σύνολα δεδομένων χωρίς σχεδόν καμία προσπάθεια. Το σύστημα νευρωνικής μηχανικής μετάφρασης της Google (2016) είναι ένα αντιπροσωπευτικό έργο αυτού του σταδίου.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Η άνοδος των προεκπαιδευμένων μοντέλων: αυτο-ανακάλυψη της γνώσης

Προπονητική φάση (2018-2022)

Η εμφάνιση προεκπαιδευμένων μοντέλων σηματοδοτεί ένα ακόμη άλμα στον τομέα του NLP. Η στοίβα τεχνολογίας με τον μετασχηματιστή και τον μηχανισμό προσοχής ως πυρήνα συνδυάζει τεράστια δεδομένα χωρίς ετικέτα για αυτοεποπτευόμενη μάθηση, δημιουργεί γενικές γνώσεις και, στη συνέχεια, προσαρμόζεται σε συγκεκριμένες εργασίες μέσω της τελειοποίησης. Η μεταβλητότητα αυτού του σταδίου είναι πολύ υψηλή επειδή επεκτείνει το εύρος των διαθέσιμων δεδομένων από δεδομένα με ετικέτα σε δεδομένα χωρίς ετικέτα.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Μια νέα εποχή του LLM: η συγχώνευση ευφυΐας και ευελιξίας

Στάδιο LLM (2023-?)

Το LLM αντιπροσωπεύει την πιο πρόσφατη ανάπτυξη μοντέλων γλώσσας, τα οποία συνήθως υιοθετούν μια αρχιτεκτονική που βασίζεται σε αποκωδικοποιητή σε συνδυασμό με το Transformer and Reinforcement Learning Human Feedback (RLHF). Αυτή η φάση χαρακτηρίζεται από μια διαδικασία δύο σταδίων: προ-εκπαίδευση και ευθυγράμμιση με τον άνθρωπο. Η φάση προεκπαίδευσης χρησιμοποιεί τεράστια δεδομένα χωρίς ετικέτα και δεδομένα τομέα για τη δημιουργία γνώσης μέσω της αυτοεποπτευόμενης μάθησης, η φάση της ανθρώπινης ευθυγράμμισης επιτρέπει στο μοντέλο να προσαρμοστεί σε διάφορες εργασίες ευθυγραμμίζοντας τις συνήθειες και τις αξίες χρήσης.
Εισαγάγετε την περιγραφή της εικόνας εδώ
Κοιτάζοντας πίσω στα διάφορα στάδια ανάπτυξης, μπορούμε να δούμε τις ακόλουθες τάσεις:

Δεδομένα: Από τα δεδομένα στη γνώση, χρησιμοποιούνται όλο και περισσότερα δεδομένα/μελλοντικός:Περισσότερα δεδομένα κειμένου, περισσότερα δεδομένα άλλης μορφής→ οποιαδήποτε δεδομένα
Αλγόριθμος: Η ικανότητα έκφρασης γίνεται ολοένα και πιο δυνατή.μελλοντικός:Ο μετασχηματιστής είναι αρκετός αυτή τη στιγμή, νέο μοντέλο (θα πρέπει να τονιστεί η αποτελεσματικότητα μάθησης);→AGI?
Σχέση ανθρώπου-μηχανής: επιστροφή, από εκπαιδευτή σε προϊστάμενο/μελλοντικός:Συνεργασία ανθρώπου-μηχανής, μηχανική μάθηση από ανθρώπους→Ανθρώπινη μάθηση από μηχανές;→Οι μηχανές διευρύνουν τα όρια της ανθρώπινης γνώσης

Εισαγάγετε την περιγραφή της εικόνας εδώ

Διαδρομή ανάπτυξης τεχνολογίας LLM: διαφορετικά μονοπάτια

Τα τελευταία χρόνια, η ανάπτυξη τεχνολογίας LLM έχει δείξει διαφοροποιημένες διαδρομές, συμπεριλαμβανομένης της λειτουργίας BERT, της λειτουργίας GPT και της λειτουργίας T5, κ.λπ. Κάθε λειτουργία έχει τα δικά της χαρακτηριστικά και τα ισχύοντα σενάρια.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Λειτουργία BERT (Μόνο κωδικοποιητής)

Το μοντέλο BERT είναι κατάλληλο για εργασίες κατανόησης φυσικής γλώσσας μέσω μιας διαδικασίας δύο σταδίων αμφίδρομης προεκπαίδευσης γλωσσικού μοντέλου και λεπτομέρειας εργασιών (προεκπαίδευση μοντέλου γλώσσας διπλής κατεύθυνσης + λεπτομέρεια εργασίας). Η προεκπαίδευση BERT εξάγει γενικές γνώσεις από γενικά δεδομένα, ενώ η τελειοποίηση εξάγει τη γνώση τομέα από δεδομένα τομέα.
Εισαγάγετε την περιγραφή της εικόνας εδώ
Κατάλληλα σενάρια εργασιών: πιο κατάλληλα για κατανόηση φυσικής γλώσσας, συγκεκριμένες εργασίες σε ένα συγκεκριμένο σενάριο, εξειδικευμένες και ελαφριές.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Λειτουργία GPT (Μόνο αποκωδικοποιητής)

Η λειτουργία GPT αναπτύχθηκε από τη διαδικασία προεκπαίδευσης μονόδρομου μοντέλου γλώσσας και προτροπής ή εντολής μηδενικής βολής/λίγων βολών (προεκπαίδευση μοντέλου γλώσσας μονής κατεύθυνσης + προτροπή μηδενικής βολής/προτροπή λίγων βολών/Εισαγωγή) και είναι κατάλληλη για φυσική δημιουργία γλώσσας. Τα μοντέλα λειτουργίας GPT είναι συνήθως τα μεγαλύτερα διαθέσιμα LLM και μπορούν να χειριστούν ένα ευρύτερο φάσμα εργασιών.
Εισαγάγετε την περιγραφή της εικόνας εδώ
Ισχύοντα σενάρια: πιο κατάλληλα για εργασίες δημιουργίας φυσικής γλώσσας Επί του παρόντος, τα μεγαλύτερα LLM είναι όλα σε αυτόν τον τρόπο λειτουργίας: Σειρές GPT, PaLM, LaMDA..., η λειτουργία βαριάς και κοινής χρήσης συνιστάται για εργασίες παραγωγής/γενικά μοντέλα.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Λειτουργία T5 (Κωδικοποιητής-Αποκωδικοποιητής)

Η λειτουργία T5 συνδυάζει τα χαρακτηριστικά των BERT και GPT και είναι κατάλληλη για δημιουργία και κατανόηση εργασιών. Η εργασία συμπλήρωσης του κενού στη λειτουργία T5 (Span Corruption) είναι μια αποτελεσματική μέθοδος προεκπαίδευσης που αποδίδει καλά σε εργασίες κατανόησης φυσικής γλώσσας. Δύο στάδια (μονόδρομη προεκπαίδευση γλωσσικού μοντέλου + βελτιστοποίηση κυρίως)
Εισαγάγετε την περιγραφή της εικόνας εδώ
Χαρακτηριστικά: Μοιάζει με GPT, μοιάζει με τον Bert
Εφαρμόσιμα σενάρια: Τόσο η δημιουργία όσο και η κατανόηση είναι αποδεκτές από την άποψη του αποτελέσματος, είναι πιο κατάλληλο για εργασίες κατανόησης φυσικής γλώσσας συνιστάται η χρήση της λειτουργίας T5.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Γιατί τα πολύ μεγάλα LLM βρίσκονται σε λειτουργία GPT;

Super LLM: Επιδίωξη εφέ μηδενικής λήψης/λίγων βολών/εντολών
Τρέχοντα ερευνητικά συμπεράσματα

(Όταν το μέγεθος του μοντέλου είναι μικρό):

  • Κατηγορία κατανόησης φυσικής γλώσσας: Η λειτουργία T5 λειτουργεί καλύτερα.
  • Κατηγορία δημιουργίας φυσικής γλώσσας: Η λειτουργία GPT λειτουργεί καλύτερα.
  • Μηδενική λήψη: Η λειτουργία GPT λειτουργεί καλύτερα.
    Εάν εισαχθεί η λεπτομέρεια πολλαπλών εργασιών μετά την Προεκπαίδευση, η λειτουργία T5 θα λειτουργήσει καλύτερα (το συμπέρασμα είναι αμφίβολο: ο τρέχων πειραματικός Encoder-Decoder έχει διπλάσιο αριθμό παραμέτρων μόνο για αποκωδικοποιητή. Είναι το συμπέρασμα αξιόπιστο;)

Συμπεράσματα τρέχουσας έρευνας (πολύ μεγάλης κλίμακας):
Γεγονός: Σχεδόν όλα τα μοντέλα LLM που υπερβαίνουν τα 100 B υιοθετούν τη λειτουργία GPT

πιθανός λόγος:
1. Η αμφίδρομη προσοχή στον Κωδικοποιητή-Αποκωδικοποιητή βλάπτει την ικανότητα μηδενικής λήψης (Έλεγχος)
2. Η δομή Encoder-Decoder μπορεί να δώσει προσοχή μόνο στον Κωδικοποιητή υψηλού επιπέδου κατά τη δημιουργία Token Η δομή μόνο από τον αποκωδικοποιητή μπορεί να παρέχει προσοχή επίπεδο προς στρώμα κατά τη δημιουργία του Token και οι πληροφορίες είναι πιο λεπτομερείς.
3. Ο Κωδικοποιητής-Αποκωδικοποιητής εκπαιδεύει τα κενά και δημιουργεί την τελευταία λέξη Next Token Υπάρχει ασυνέπεια.

Προκλήσεις και ευκαιρίες πολύ μεγάλων LLM

Καθώς το μέγεθος του μοντέλου μεγαλώνει, οι ερευνητές έρχονται αντιμέτωποι με την πρόκληση του τρόπου αποτελεσματικής χρήσης του χώρου παραμέτρων. Η έρευνα για το μοντέλο Chinchilla δείχνει ότι όταν τα δεδομένα είναι επαρκή, η τρέχουσα κλίμακα LLM μπορεί να είναι μεγαλύτερη από την ιδανική κλίμακα και υπάρχει σπατάλη χώρου παραμέτρων, ωστόσο, ο νόμος κλίμακας επισημαίνει επίσης ότι όσο μεγαλύτερη είναι η κλίμακα του μοντέλου, τόσο περισσότερα δεδομένα , και όσο πιο ολοκληρωμένη είναι η εκπαίδευση Το αποτέλεσμα του μοντέλου LLM είναι καλύτερο. Μια πιο εφικτή ιδέα είναι: κάντε το πρώτα μικρό (το GPT 3 δεν πρέπει να είναι τόσο μεγάλο) και μετά κάντε το μεγάλο (αφού κάνετε πλήρη χρήση των παραμέτρων του μοντέλου, συνεχίστε να το μεγαλώνετε).
Εισαγάγετε την περιγραφή της εικόνας εδώ

Φυσικά, δεδομένου ότι το πολυτροπικό LLM απαιτεί πλουσιότερες δυνατότητες αντίληψης του πραγματικού περιβάλλοντος, θέτει επίσης υψηλότερες απαιτήσεις για παραμέτρους LLM.
Πολυτροπικό LLM: οπτική είσοδος (εικόνες, βίντεο), ακουστική είσοδος (ήχος), απτική είσοδος (πίεση)
Εισαγάγετε την περιγραφή της εικόνας εδώ
αντιμετωπίζει προβλήματα: Το Multimodal LLM φαίνεται αρκετά καλό και βασίζεται σε μεγάλο βαθμό σε μη αυτόματα οργανωμένα μεγάλα σύνολα δεδομένων.

Για παράδειγμα, το ALIGN: 1.8B γραφικά και κείμενο/LAION: 5.8B γραφικά και δεδομένα κειμένου (φιλτραρισμένα κατά CLIP, επί του παρόντος τα μεγαλύτερα δεδομένα γραφικών και κειμένου) είναι αυτήν τη στιγμή κείμενο με εικόνες που πετούν;

ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ: Η αυτοεποπτευόμενη τεχνολογική διαδρομή δοκιμάζεται, αλλά δεν έχει ακόμη εφαρμοστεί με επιτυχία (συγκριτική μάθηση/MAE)/αν μπορεί να επιτευχθεί με επιτυχία, θα είναι άλλη μια τεράστια τεχνολογική ανακάλυψη στον τομέα της τεχνητής νοημοσύνης.

Εάν μπορεί να λυθεί, ορισμένες τρέχουσες εργασίες κατανόησης εικόνας (σημασιολογική τμηματοποίηση/αναγνώριση, κ.λπ.) αναμένεται να ενσωματωθούν στο LLM και να εξαφανιστούν.

Εισαγάγετε την περιγραφή της εικόνας εδώ

Βελτιώστε τις σύνθετες συλλογιστικές ικανότητες του LLM

Αν και το τρέχον LLM έχει ορισμένες απλές δυνατότητες συλλογιστικής, εξακολουθεί να έχει ελλείψεις στη σύνθετη συλλογιστική. Για παράδειγμα, εργασίες όπως η πολυψήφια προσθήκη παραμένουν μια πρόκληση για το LLM. Οι ερευνητές διερευνούν πώς να αποστάξουν σύνθετες συλλογιστικές ικανότητες σε μικρότερα μοντέλα μέσω τεχνικών μέσων όπως η σημασιολογική αποσύνθεση.
Εισαγάγετε την περιγραφή της εικόνας εδώ
Φυσικά, αυτό το πρόβλημα μπορεί επίσης να παρακαμφθεί μέσω εξωτερικής ανάθεσης χωρητικότητας, όπως ο συνδυασμός του με εργαλεία: υπολογιστική ισχύς (εξωτερική αριθμομηχανή), νέα αναζήτηση πληροφοριών (μηχανή αναζήτησης) και άλλες δυνατότητες ολοκληρώνονται με τη βοήθεια εξωτερικών εργαλείων.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Αλληλεπίδραση μεταξύ LLM και φυσικού κόσμου

Η έννοια της ενσωματωμένης νοημοσύνης συνδυάζει το LLM με τη ρομποτική και χρησιμοποιεί την ενισχυτική μάθηση για να αποκτήσει ενσωματωμένη νοημοσύνη μέσω της αλληλεπίδρασης με τον φυσικό κόσμο. . Για παράδειγμα, το μοντέλο PaLM-E της Google συνδυάζει 540B PaLM και 22B ViT, καταδεικνύοντας τις δυνατότητες του LLM σε ένα πολυτροπικό περιβάλλον.
Εισαγάγετε την περιγραφή της εικόνας εδώ
Εισαγάγετε την περιγραφή της εικόνας εδώ

Άλλες ερευνητικές κατευθύνσεις

  1. Απόκτηση νέας γνώσης: Υπάρχουν ορισμένες δυσκολίες προς το παρόν, αλλά υπάρχουν και κάποιες μέθοδοι (LLM+Retrieval)
  2. Διόρθωση παλαιών γνώσεων: Υπάρχουν επί του παρόντος κάποια ερευνητικά αποτελέσματα που πρέπει ακόμη να βελτιστοποιηθούν
  3. Ενσωμάτωση γνώσεων ιδιωτικού τομέα: Βελτιστοποίηση;
  4. Καλύτερη κατανόηση των εντολών: χρειάζεται ακόμα βελτιστοποίηση (σοβαρές ανοησίες)
  5. Μείωση του κόστους συμπερασμάτων εκπαίδευσης: ταχεία ανάπτυξη τα επόμενα ένα έως δύο χρόνια
  6. Κατασκευή κινεζικού συνόλου δεδομένων αξιολόγησης: Μια λυδία λίθος της ικανότητας. Αυτήν τη στιγμή υπάρχουν ορισμένα σύνολα αξιολόγησης στα αγγλικά, όπως HELM/BigBench, κ.λπ., αλλά υπάρχει έλλειψη συνόλων δεδομένων αξιολόγησης / πολλαπλών εργασιών, υψηλής δυσκολίας και πολλαπλών γωνιών στα κινέζικα.

συμπέρασμα

Αυτό το άρθρο διερευνά σε βάθος το ιστορικό ανάπτυξης, τον τεχνικό οδικό χάρτη και τον αντίκτυπό τους στο μελλοντικό πεδίο AI του LLM. Η ανάπτυξη του LLM δεν είναι μόνο μια τεχνολογική πρόοδος, αλλά και ένας βαθύς προβληματισμός σχετικά με τις ικανότητές μας στην κατανόηση μηχανημάτων. Από κανόνες έως στατιστικές έως βαθιά μάθηση και προ-κατάρτιση, κάθε βήμα μας παρέχει νέες προοπτικές και εργαλεία. Σήμερα, βρισκόμαστε στο κατώφλι μιας νέας εποχής γλωσσικών μοντέλων μεγάλης κλίμακας, αντιμετωπίζοντας άνευ προηγουμένου ευκαιρίες και προκλήσεις.