Teknologian jakaminen

Regularisointitekniikka syväoppimisessa – melun kestävyys

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Esipuhe

Syväoppimisen voimakkaan kehityksen myötä mallien suorituskyky ja yleistyskyky ovat nousseet tutkijoiden huomion kohteeksi. Käytännön sovelluksissa dataan liittyy kuitenkin usein erilaisia ​​ääniä. Nämä melut eivät johdu vain laitteiston rajoituksista tiedonkeruuprosessissa, vaan niitä voivat aiheuttaa myös ympäristöhäiriöt ja lähetysvirheet. Kohinan olemassaolo vaikuttaa vakavasti syväoppimismallien harjoitteluvaikutukseen ja ennustetarkkuuteen erityisesti puheentunnistuksen ja kuvanluokituksen kaltaisissa tehtävissä. Siksi syväoppimismallien kohinan kestävyyden parantamisesta eli mallin vakaan suorituskyvyn ja tunnistuskyvyn parantamisesta meluisissa ympäristöissä on tullut nykyisen tutkimuksen tärkeä suunta. Suunnittelemalla tehokkaampia tietojen esikäsittelyalgoritmeja, optimoimalla mallirakenteita ja ottamalla käyttöön melutehosteista koulutusta ja muita teknisiä keinoja syväoppimismallien melunkestävyyttä voidaan parantaa merkittävästi, mikä edistää niiden käyttöä monimutkaisemmissa skenaarioissa.

Melun kestävyys

  • olla olemassaRegularisointitekniikka syvän oppimisen tietojoukon parantamisessa ovat inspiroineet kohinan soveltamista syötteisiin tietojoukon lisäysstrategiana. Joissakin malleissa kohinan lisääminen minimivarianssilla mallin syötteeseen vastaa normirangaistuksen lisäämistä painoihin (Bishop, 1995a,b). Yleensä kohinan injektio on paljon tehokkaampi kuin pelkkä parametrien pienentäminen, varsinkin kun kohinaa lisätään piilotettuihin yksiköihin.Melun lisääminen piilotettuihin yksiköihin on tärkeä aihe, joka ansaitsee oman keskustelunsa
  • toinenNormalisoidussa mallissa kohinaa käytetään lisäämällä se painoihin . Tätä tekniikkaa käytetään pääasiassa toistuvissa hermoverkoissa (Jim et al., 1996; Graves, 2011). Tämä voidaan tulkita painojen Bayesin päättelyn stokastisena toteutuksena. Bayesilaisen lähestymistavan käyttö oppimisprosessissa käsittelee painoja epävarmoina, ja tämä epävarmuus voidaan esittää todennäköisyysjakaumalla. Kohinan lisääminen painoihin on käytännöllinen stokastinen tapa heijastaa tätä epävarmuutta.
  • Tietyillä olettamuksilla painoihin kohdistettu kohina voidaan tulkita vastaavaksi perinteisempiä regularisointimuotoja, mikä edistää opittavan funktion vakautta.
  • Tutkimme regression tapausta, eli joukon piirteitä harjoittelemista x lihavoitu symboli{x}xskalaariin kartoitettu funktio y ^ ( x ) hattu{y}(lihavoitu symboli{x})y^(x), ja käytä pienimmän neliösumman kustannusfunktiota mallin ennustearvon mittaamiseen y ^ hattu{y}y^todellisella arvolla vvyvirhe
    J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] — Kaava 1 J=mathbb{E}_{p(x,y)}[(hattu{y}(lihavoitu merkki{x}) )-y)^2]quadtextbf{alaviitteen koko{---Formula 1}}J=Es(x,y)[(y^(x)y)2]kaava1
  • Treenisarja sisältää mmmEsimerkkejä huomautuksista { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(lihavoitu symboli{x}^{(i)},y^{(i)}),pisteet ,(lihavoitu symboli{x}^{(m)},y^{(m)})}{(x(i),y(i)),,(x(m),y(m))}
  • Nyt oletetaan, että jokaiseen tuloesitykseen lisätään verkon painojen satunnainen häiriö ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(lihavoitu symboli{epsilon};0,etaboldsymbol{I})ϵwN(ϵ;0,ηminä)Kuvittele, että meillä on standardi lllkerros MLP-teksti{MLP}MLP .Merkitsemme häiriömallia nimellä y ^ ϵ W ( x ) hattu{y}_{epsilon_{boldsymbol{W}}}(lihavoitu symboli{x})y^ϵW(x)
  • Olemme kiinnostuneita vähentämään verkon lähtövirheen neliötä kohinainjektiosta huolimatta. Siksi tavoitefunktio on: { J ^ W = E p ( x , y , ϵ W ) [ ( y ^ ϵ W ( x ) − y ) 2 ] — Kaava 2 = E p ( x , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 vv ^ ϵ W ( x ) + y 2 ] — kaava 3 {J^W=Es(x,y,ϵW)[(y^ϵW(x)y)2]kaava2=Es(x,y,ϵW)[y^ϵW2(x)2yy^ϵW(x)+y2]kaava3
  • pienille η etaη, minimoi painotetun kohinan (varianssi on η I etaboldsymbol{I}ηminä)/ JJJVastaa ylimääräisen tasoitusajan minimoimista J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}vasen[Vertnabla_{boldsymbol{W}}hat{y} (lihavoitu symboli{x})Vert^2right]J:ηEs(x,y)[Wy^(x)2]
  • Tämä regularisoinnin muoto rohkaisee parametreja syöttämään parametriavaruuden alueita, joissa painojen pienillä häiriöillä on suhteellisen vähän vaikutusta ulostuloon. Toisin sanoen se työntää mallin alueelle, joka on suhteellisen epäherkkä pienille painojen muutoksille, ja löydetyt pisteet eivät ole vain minimipisteitä, vaan tasaisten alueiden ympäröimiä minimipisteitä (Hochreiter ja Schmidhuber, 1995).
  • Yksinkertaistetussa lineaarisessa regressiossa (esim. y ^ ( x ) = w ⊤ x + b hat{y}(lihavoitu{x})=lihavoitu symboli{w}^ylälihavoitu{x}+by^(x)=wx+b, tavallinen termi rappeutuu seuraavasti: η E p ( x ) [ ∥ x ∥ 2 ] etamathbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]ηEs(x)[x2], jolla ei ole mitään tekemistä funktion parametrien kanssa, joten se ei tee J ^ w hat{J}_wJ^wOsallistuu mallin parametrien gradienteihin.

Ruiskuta kohinaa lähtökohteeseen

  • Useimmat tietojoukot vvy Tarroissa on joitain virheitä.kun vvyon väärin maksimoida log ⁡ p ( y ∣ x ) log p(ymidbold-symboli{x})logs(yx)olisi haitallista.
  • Yksi tapa estää tämä on mallintaa selkeästi tarrojen kohina.
    • Voimme esimerkiksi olettaa, että jollekin pienelle vakiolle ϵ epsilonϵ, harjoitussarjan etiketti vvyTodennäköisyys olla oikeassa on 1 − ϵ 1-epsilon1ϵ, mikä tahansa muu mahdollinen tarra saattaa olla oikea.
    • Tämä oletus voidaan helposti yhdistää analyyttisesti kustannusfunktioon ilman, että otettaisiin nimenomaisesti meluisia näytteitä.
    • Esimerkiksi,etiketin tasoitus(etiketin tasoitus) perustuu kkkulostulo softmax text{softmax}softmaxfunktio, joka viittaa selkeään luokitukseen 0 0 0ja 1 1 1Korvata ϵ k − 1 displaystylefrac{epsilon}{k-1}k1ϵja 1 − ϵ 1-epsilon1ϵ, mallin tasaamiseksi.
  • Näiden epätarkkojen kohteiden tulostuksessa voidaan käyttää tavallista ristientropiahäviötä.käyttää softmax text{softmax}softmaxMaksimitodennäköisyys funktioiden ja eksplisiittisten tavoitteiden oppiminen ei ehkä koskaan lähentyisi - softmax text{softmax}softmaxToimintoja ei voi koskaan todella ennustaa 0 0 0todennäköisyys tai 1 1 1 todennäköisyydellä, joten se oppii jatkuvasti suurempia painoja, mikä tekee ennusteista äärimmäisempiä. Muiden laillistamisstrategioiden, kuten painon pudotuksen, käyttö voi estää tämän. Etiketin tasoittamisen etuna on se, että se estää mallia tavoittelemasta yksiselitteisiä todennäköisyyksiä estämättä oikeaa luokittelua. Tätä strategiaa on käytetty 1980-luvulta lähtien ja se on edelleen näkyvästi esillä nykyaikaisissa neuroverkoissa (Szegedy et al., 2015).

Tee yhteenveto

  • Melun kestävyyden parantaminen syväoppimisessa on avainasemassa sen varmistamiseksi, että malli toimii vakaasti reaalimaailman ympäristöissä. Useilla innovatiivisilla teknisillä keinoilla, kuten tietojen parantaminen, kohinan injektiokoulutus, mallin rakenteen optimointi jne., voimme tehokkaasti parantaa mallin melunsietokykyä ja tunnistustarkkuutta. Nämä ponnistelut eivät ainoastaan ​​edistä syvän oppimisteknologian jatkokehitystä, vaan tuovat myös luotettavampia ja tehokkaampia ratkaisuja käytännön sovelluksiin puheentunnistuksessa, kuvantunnistuksessa, luonnollisen kielen käsittelyssä ja muilla aloilla.
  • Tulevaisuudessa tutkimuksen syvenemisen ja teknologian jatkuvan kehittymisen myötä meillä on syytä uskoa, että syväoppimismallien melun kestävyys paranee entisestään, mikä tuo vallankumouksellisia muutoksia yhä useammalle osa-alueelle.

Menneen sisällön paluu

Regularisointitekniikka syvän oppimisen tietojoukon parantamisessa