Κοινή χρήση τεχνολογίας

Οπτικό γλωσσικό μοντέλο: το μέλλον της ενοποίησης του οράματος και της γλώσσας

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

1 Επισκόπηση

Τα μοντέλα Vision-Language Models (VLM) είναι μοντέλα τεχνητής νοημοσύνης που μπορούν ταυτόχρονα να επεξεργάζονται και να κατανοούν οπτικές (εικόνα) και γλωσσικές (κείμενο) πληροφορίες. Τέτοια μοντέλα συνδυάζουν τεχνικές από την όραση υπολογιστή και την επεξεργασία φυσικής γλώσσας, επιτρέποντάς τους να αποδίδουν καλά σε σύνθετες εργασίες, όπως η οπτική απάντηση σε ερωτήσεις, η δημιουργία περιγραφής εικόνας και η αναζήτηση κειμένου σε εικόνα. Είναι μια επιτυχημένη περίπτωση εφαρμογής της αρχιτεκτονικής μετασχηματιστή στο πεδίο της όρασης υπολογιστών. Συγκεκριμένα, αντικαθιστά την εξαγωγή χαρακτηριστικών καθολικής εικόνας στο παραδοσιακό CNN με τον μηχανισμό προσοχής. Τα μοντέλα οπτικής γλώσσας έχουν δείξει μεγάλες δυνατότητες σε πολλούς τομείς, όπως η ανάκτηση εικόνων, η γενετική τεχνητή νοημοσύνη, η κατάτμηση εικόνων, η ιατρική διάγνωση και η ρομποτική. Η εμφάνιση αυτών των μοντέλων όχι μόνο βελτιώνει την απόδοση των συστημάτων AI, αλλά παρέχει επίσης νέες δυνατότητες για την ανάπτυξη εξυπνότερων και πιο αποτελεσματικών εφαρμογών.

2. Visual Transformer

Ο Visual Transformer (ViT) αποκτά μια καθολική αναπαράσταση εικόνας τμηματοποιώντας την εικόνα σε patches και στη συνέχεια ενσωματώνοντας αυτές τις ενημερώσεις κώδικα στον κωδικοποιητή Transformer. Κάθε patch εικόνας αντιμετωπίζεται ως ανεξάρτητη «λέξη» και επεξεργάζεται μέσω ενός μηχανισμού αυτοπροσοχής. Σε σύγκριση με τα παραδοσιακά συνελικτικά νευρωνικά δίκτυα (CNN), το Vision Transformer έχει καλή απόδοση κατά την επεξεργασία μεγάλων συνόλων δεδομένων και εικόνων υψηλής ανάλυσης. Ξεπερνούν πολλές αρχιτεκτονικές CNN τελευταίας τεχνολογίας σε εργασίες ταξινόμησης εικόνων.
Παρακάτω είναι η δομή ενός απλού οπτικού μετασχηματιστή.
Εισαγάγετε την περιγραφή της εικόνας εδώ

4. Αρχιτεκτονική οπτικού γλωσσικού μοντέλου
4.1 Αντιθετική μάθηση

Η αντιθετική μάθηση είναι μια τεχνική για την εκμάθηση σημείων δεδομένων με την κατανόηση των διαφορών τους. Αυτή η μέθοδος υπολογίζει τις βαθμολογίες ομοιότητας μεταξύ των παρουσιών δεδομένων και στοχεύει στην ελαχιστοποίηση των απωλειών αντίθεσης. Είναι πιο χρήσιμο στην ημι-εποπτευόμενη μάθηση, όπου μόνο λίγα δείγματα με ετικέτα καθοδηγούν τη διαδικασία βελτιστοποίησης για την επισήμανση μη ορατών σημείων δεδομένων.
Εισαγάγετε την περιγραφή της εικόνας εδώ Για παράδειγμα, ένας τρόπος για να καταλάβετε πώς μοιάζει μια γάτα είναι να τη συγκρίνετε με παρόμοιες εικόνες γάτας και εικόνες σκύλου. Τα μοντέλα αντίθεσης μάθησης μαθαίνουν να διαφοροποιούν τις γάτες και τους σκύλους εντοπίζοντας χαρακτηριστικά όπως η δομή του προσώπου, το μέγεθος του σώματος και η γούνα. Αυτά τα μοντέλα μπορούν να καθορίσουν ποια εικόνα είναι πιο κοντά στην αρχική εικόνα (που ονομάζεται "άγκυρα") και να προβλέψουν την κατηγορία της. Μεταξύ αυτών, το μοντέλο CLIP είναι ένα τυπικό μοντέλο που εκπαιδεύεται σύμφωνα με την αντίθεση μάθησης. Το μοντέλο CLIP επιτυγχάνει πρόβλεψη μηδενικής λήψης υπολογίζοντας την ομοιότητα μεταξύ των ενσωματώσεων κειμένου και εικόνας. Αρχικά εκπαιδεύει κωδικοποιητές κειμένου και εικόνων, στη συνέχεια μετατρέπει τις κατηγορίες του συνόλου δεδομένων εκπαίδευσης σε λεζάντες και εκτιμά την καλύτερη λεζάντα για τη δεδομένη εικόνα εισόδου. Ακολουθεί η αρχιτεκτονική του μοντέλου CLIP:
Αρχιτεκτονική CLIP

4.2 Μοντέλο γλώσσας προθέματος (PrefixLM)

Τα μοντέλα γλώσσας προθέματος εκπαιδεύονται εκ των προτέρων λαμβάνοντας ένα τμήμα κειμένου (το πρόθεμα) και προβλέποντας την επόμενη λέξη στη σειρά. Στα μοντέλα οπτικής γλώσσας, το PrefixLM επιτρέπει στο μοντέλο να προβλέψει την επόμενη ακολουθία λέξεων με βάση μια εικόνα και το αντίστοιχο κείμενο με πρόθεμα. Χρησιμοποιεί έναν οπτικό μετασχηματιστή (ViT) για να διαιρέσει την εικόνα σε μια ακολουθία μονοδιάστατων μπαλωμάτων, κάθε ακολουθία που αντιπροσωπεύει μια τοπική περιοχή εικόνας. Στη συνέχεια, το μοντέλο εφαρμόζει συνέλιξη ή γραμμική προβολή στα επεξεργασμένα patches για να δημιουργήσει οπτικές ενσωματώσεις με βάση τα συμφραζόμενα. Για τη λειτουργία κειμένου, το μοντέλο μετατρέπει τα προθέματα κειμένου σε σχέση με τις ενημερώσεις κώδικα σε ενσωματώσεις διακριτικών. Το μπλοκ κωδικοποιητή-αποκωδικοποιητή του μετατροπέα λαμβάνει οπτικές ενσωματώσεις και ενσωματώσεις διακριτικών. Το SimVLM είναι μια δημοφιλής αρχιτεκτονική που χρησιμοποιεί τη μέθοδο εκμάθησης PrefixLM. Εδώ είναι η αρχιτεκτονική του:
Εισαγάγετε την περιγραφή της εικόνας εδώ

4.3 Μοντέλο γλώσσας παγωμένου προθέματος (Frozen PrefixLM)

Το μοντέλο γλώσσας παγωμένου προθέματος επιτρέπει τη χρήση ενός προεκπαιδευμένου δικτύου και την ενημέρωση μόνο των παραμέτρων του κωδικοποιητή εικόνας. Τυπικά παραδείγματα περιλαμβάνουν την αρχιτεκτονική Frozen και την αρχιτεκτονική Flamingo. Η αρχιτεκτονική Frozen χρησιμοποιεί προ-εκπαιδευμένα μοντέλα γλώσσας και οπτικούς κωδικοποιητές. Με τον μικροσυντονισμό του κωδικοποιητή εικόνας, η αναπαράσταση της εικόνας του ευθυγραμμίζεται με την ενσωμάτωση κειμένου. Η αρχιτεκτονική Flamingo συνδυάζει έναν οπτικό κωδικοποιητή τύπου CLIP με ένα μοντέλο μεγάλης γλώσσας (LLM). Κάντε γρήγορα συμπεράσματα εισάγοντας εικόνες μεταξύ κειμένου. Ακολουθεί μια τυπική αρχιτεκτονική δικτύου του Frozen PrefixLM.

Εισαγάγετε την περιγραφή της εικόνας εδώ

4.4 Σύντηξη Cross-Attention

Η Διασταυρούμενη Προσοχή είναι μια μέθοδος που συγχωνεύει πληροφορίες από διαφορετικούς τρόπους (όπως κείμενο, εικόνες, ήχος κ.λπ.) μέσω ενός μηχανισμού διατροπικής προσοχής. Οι μέθοδοι σύντηξης διασταυρούμενης προσοχής μαθαίνουν οπτικές αναπαραστάσεις προσθέτοντας επίπεδα διασταυρούμενης προσοχής. Συγκεκριμένα, επιτρέπει στα χαρακτηριστικά ενός τύπου δεδομένων (όπως κείμενο) να εστιάζουν στα χαρακτηριστικά ενός άλλου τύπου δεδομένων (όπως εικόνες), ώστε να μπορεί να έχει καλύτερη απόδοση κατά την κατανόηση και την επεξεργασία πολλών τύπων πληροφοριών. Αυτός ο μηχανισμός μπορεί να βελτιώσει σημαντικά την απόδοση σε πολλές εργασίες που απαιτούν την ταυτόχρονη επεξεργασία πολλών τύπων δεδομένων. Ακολουθεί το σχηματικό διάγραμμα της αρχιτεκτονικής Cross-Attention:
Εισαγάγετε την περιγραφή της εικόνας εδώ

5. Σύνολο δεδομένων για μοντέλο οπτικής γλώσσας
5.1 ΛΑΙΩΝ-5Β

Το σύνολο δεδομένων LAION-5B περιέχει πάνω από 5 δισεκατομμύρια ζεύγη εικόνας-κειμένου που δημιουργούνται από το CLIP και χρησιμοποιείται για την κατασκευή μεγάλων προεκπαιδευμένων μοντέλων.
https://laion.ai/blog/laion-5b/

5,2 PMD

Το σύνολο δεδομένων PMD αποτελείται από πολλαπλά μεγάλα σύνολα δεδομένων και περιέχει 7 δισεκατομμύρια ζεύγη εικόνας-κειμένου.
https://huggingface.co/datasets/facebook/pmd

5.3 VQA

Το σύνολο δεδομένων VQA χρησιμοποιείται για οπτικές απαντήσεις σε ερωτήσεις και εργασίες οπτικής συλλογιστικής και περιέχει περισσότερες από 200.000 εικόνες, η καθεμία με πέντε ερωτήσεις και τις αντίστοιχες απαντήσεις.
https://visualqa.org/

5.4 ImageNet

Το σύνολο δεδομένων ImageNet περιέχει περισσότερες από 14 εκατομμύρια σχολιασμένες εικόνες και είναι κατάλληλο για εργασίες ταξινόμησης εικόνων και αναγνώρισης αντικειμένων.
https://www.image-net.org/

6. Εφαρμογή οπτικού γλωσσικού μοντέλου
6.1 Ανάκτηση εικόνας

Με ένα οπτικό μοντέλο γλώσσας, οι χρήστες μπορούν να βρουν σχετικές εικόνες χρησιμοποιώντας γλωσσικά ερωτήματα.
Εισαγάγετε την περιγραφή της εικόνας εδώ

6.2 Γεννητική τεχνητή νοημοσύνη

Το Generative AI επιτρέπει στους χρήστες να δημιουργούν εικόνες από περιγραφές κειμένου και χρησιμοποιείται σε τομείς όπως ο σχεδιασμός και η δημιουργία περιεχομένου. Όπως SD και άλλα προϊόντα.
Εισαγάγετε την περιγραφή της εικόνας εδώ

6.3 Τμηματοποίηση εικόνας

Τα VLM μπορούν να χρησιμοποιηθούν για παράδειγμα, εργασίες πανοραμικής και σημασιολογικής τμηματοποίησης και σχολιασμού εικόνας, κατανοώντας τις προτροπές των χρηστών.
Εισαγάγετε την περιγραφή της εικόνας εδώ