Visuaalinen kielimalli: vision ja language_developdocin integroinnin tulevaisuus

Visuaalinen kielimalli: vision ja kielen yhdistämisen tulevaisuus

2024-07-11

1 Yleiskatsaus

Vision-Language Models (VLM) ovat tekoälymalleja, jotka voivat samanaikaisesti käsitellä ja ymmärtää visuaalista (kuvaa) ja kielen (teksti) modaalista tietoa. Tällaisissa malleissa yhdistyvät tietokonenäön ja luonnollisen kielen prosessoinnin tekniikat, mikä mahdollistaa niiden suorittamisen hyvin monimutkaisissa tehtävissä, kuten visuaalisissa kysymyksiin vastaamisessa, kuvakuvauksen luomisessa ja tekstistä kuvahakuun. Se on onnistunut tapaus soveltaa muuntajaarkkitehtuuria tietokonenäkökenttään. Tarkemmin sanottuna se korvaa perinteisen CNN:n globaalin kuvaominaisuuksien poimimisen huomiomekanismilla. Visuaaliset kielimallit ovat osoittaneet suurta potentiaalia useilla aloilla, mukaan lukien kuvanhaku, generatiivinen tekoäly, kuvien segmentointi, lääketieteellinen diagnoosi ja robotiikka. Näiden mallien ilmaantuminen ei ainoastaan paranna tekoälyjärjestelmien suorituskykyä, vaan tarjoaa myös uusia mahdollisuuksia kehittää älykkäämpiä ja tehokkaampia sovelluksia.

2. Visual Transformer

Visual Transformer (ViT) saa globaalin kuvaesityksen segmentoimalla kuvan korjaustiedostoiksi ja upottamalla nämä korjaustiedostot Transformer-enkooderiin. Jokaista kuvakorjausta käsitellään itsenäisenä "sanana" ja käsitellään itsetarkkailumekanismin avulla. Perinteisiin konvoluutiohermoverkkoihin (CNN) verrattuna Vision Transformer toimii hyvin suurten tietojoukkojen ja korkearesoluutioisten kuvien käsittelyssä. Ne ylittävät monet huippuluokan CNN-arkkitehtuurit kuvien luokittelutehtävissä.
Alla on yksinkertaisen visuaalisen muuntajan rakenne.
Lisää kuvan kuvaus tähän

4. Visuaalisen kielen mallin arkkitehtuuri

4.1 Kontrastiivinen oppiminen

Kontrastiivinen oppiminen on tekniikka datapisteiden oppimiseen ymmärtämällä niiden erot. Tämä menetelmä laskee samankaltaisuuspisteet datainstanssien välillä ja pyrkii minimoimaan kontrastiiviset häviöt. Se on hyödyllisin puoliohjatussa oppimisessa, jossa vain muutama merkitty näyte ohjaa optimointiprosessia näkymättömien tietopisteiden merkitsemiseksi.
Lisää kuvan kuvaus tähän Esimerkiksi yksi tapa ymmärtää, miltä kissa näyttää, on verrata sitä samankaltaisiin kissa- ja koirakuviin. Kontrastiiviset oppimismallit oppivat erottamaan kissoja ja koiria tunnistamalla piirteitä, kuten kasvojen rakennetta, kehon kokoa ja turkkia. Nämä mallit voivat määrittää, mikä kuva on lähempänä alkuperäistä kuvaa (kutsutaan "ankkuriksi") ja ennustaa sen luokkaa. Niistä CLIP-malli on tyypillinen kontrastiivisen oppimisen mukaan koulutettu malli. CLIP-malli saavuttaa nollakuvan ennusteen laskemalla tekstin ja kuvan upotusten samankaltaisuuden. Se ensin kouluttaa teksti- ja kuvakooderit, muuntaa sitten harjoitustietojoukon luokat kuvateksteiksi ja arvioi parhaan kuvatekstin annetulle syöttökuvalle. Seuraava on CLIP-mallin arkkitehtuuri:
CLIP-arkkitehtuuri

4.2 Etuliitekielimalli (PrefixLM)

Etuliitekielimallit on esiopetettu ottamalla osa tekstistä (etuliite) ja ennustamalla sekvenssin seuraava sana. Visuaalisissa kielimalleissa PrefixLM mahdollistaa mallin ennustaa seuraavan sanasarjan kuvan ja sitä vastaavan etuliitetekstin perusteella. Se käyttää visuaalista muuntajaa (ViT) kuvan jakamiseen yksiulotteisten tilkkujen sekvenssiin, joista jokainen edustaa paikallista kuva-aluetta. Malli soveltaa sitten konvoluutiota tai lineaarista projektiota käsiteltyihin korjauksiin asiayhteyteen kohdistettujen visuaalisten upotusten luomiseksi. Tekstimodaalisuutta varten malli muuntaa tekstin etuliitteet suhteessa korjaustiedostoihin merkki upotuksiksi. Muuntimen kooderi-dekooderilohko vastaanottaa visuaalisia upotuksia ja token-upotuksia. SimVLM on suosittu arkkitehtuuri, joka hyödyntää PrefixLM-oppimismenetelmää. Tässä sen arkkitehtuuri:
Lisää kuvan kuvaus tähän

4.3 Frozen Prefix Language Model (Frozen PrefixLM)

Jäädytetty etuliitteen kielimalli mahdollistaa valmiiksi koulutetun verkon käytön ja vain kuvakooderin parametrien päivittämisen. Tyypillisiä esimerkkejä ovat Frozen-arkkitehtuuri ja Flamingo-arkkitehtuuri. Frozen-arkkitehtuuri käyttää valmiiksi koulutettuja kielimalleja ja visuaalisia koodereita. Hienosäätämällä kuvakooderia, sen kuvan esitystapa kohdistetaan tekstin upotuksen kanssa. Flamingo-arkkitehtuuri yhdistää CLIP-tyyppisen visuaalisen kooderin suureen kielimalliin (LLM). Tee nopeita johtopäätöksiä lisäämällä kuvia tekstin väliin. Seuraava on tyypillinen Frozen PrefixLM:n verkkoarkkitehtuuri.

Lisää kuvan kuvaus tähän

4.4 Cross-Attention fuusio

Cross-Attention on menetelmä, joka yhdistää tiedot eri muodoista (kuten tekstiä, kuvia, ääntä jne.) cross-modaalisen huomiomekanismin kautta. Cross-attention fuusiomenetelmät oppivat visuaalisia esityksiä lisäämällä ristiin huomioivia kerroksia. Erityisesti se mahdollistaa yhden tietotyypin ominaisuuksien (kuten tekstin) keskittymisen toisen tietotyypin ominaisuuksiin (kuten kuviin), jotta se voi toimia paremmin erityyppisten tietojen ymmärtämisessä ja käsittelyssä. Tämä mekanismi voi parantaa merkittävästi suorituskykyä monissa tehtävissä, jotka vaativat useiden tietotyyppien käsittelyä samanaikaisesti. Seuraava on Cross-Attention-arkkitehtuurin kaavio:
Lisää kuvan kuvaus tähän

5. Tietojoukko visuaalisen kielen mallille

5.1 LAION-5B

LAION-5B-tietojoukko sisältää yli 5 miljardia CLIP:n luomaa kuva-teksti-paria, ja sitä käytetään suurten esikoulutettujen mallien rakentamiseen.
https://laion.ai/blog/laion-5b/

5.2 PMD

PMD-tietojoukko koostuu useista suurista tietojoukoista ja sisältää 7 miljardia kuva-teksti-paria.
https://huggingface.co/datasets/facebook/pmd

5.3 VQA

VQA-tietojoukkoa käytetään visuaalisiin kysymyksiin vastaamiseen ja visuaaliseen päättelyyn, ja se sisältää yli 200 000 kuvaa, joista jokaisessa on viisi kysymystä ja vastaavat vastaukset.
https://visualqa.org/

5.4 ImageNet

ImageNet-tietojoukko sisältää yli 14 miljoonaa huomautettua kuvaa ja soveltuu kuvien luokitteluun ja objektien tunnistustehtäviin.
https://www.image-net.org/

6. Visuaalisen kielimallin soveltaminen

6.1 Kuvien haku

Visuaalisen kielimallin avulla käyttäjät voivat löytää asiaankuuluvia kuvia lingvististen kyselyiden avulla.
Lisää kuvan kuvaus tähän

6.2 Generatiivinen tekoäly

Generatiivisen tekoälyn avulla käyttäjät voivat luoda kuvia tekstikuvauksista, ja sitä käytetään esimerkiksi suunnittelussa ja sisällön luomisessa. Kuten SD ja muut tuotteet.
Lisää kuvan kuvaus tähän

6.3 Kuvan segmentointi

VLM:itä voidaan käyttää esimerkiksi panoraama- ja semanttisiin segmentointitehtäviin sekä kuvamerkintöihin ymmärtämällä käyttäjän kehotteita.
Lisää kuvan kuvaus tähän

Teknologian jakaminen