Koneoppiminen – päätöspuu (Notes)

Päätöspuu on aEi-parametriset ohjatut oppimismenetelmät, joka voi valita sarjasta Päätössäännöt on tiivistetty tiedoista ominaisuuksilla ja tunnisteilla, ja nämä säännöt esitetään puukaaviorakenteessa luokittelu- ja regressioongelmien ratkaisemiseksi.Päätöspuualgoritmit ovat helposti ymmärrettäviä, sovellettavissa erilaisiin tietoihin ja toimivat hyvin erilaisten ongelmien ratkaisemisessa. Erityisesti erilaisia integroituja algoritmeja, joiden ytimenä on puumalli, käytetään laajasti eri toimialoilla ja aloilla.

2. Päätöspuun luontiprosessi

Yllä oleva tietojoukko on Tiedot luettelosta tunnetuista lajeista ja niiden luokista .Nykyinen tavoitteemme on jakaa eläimetNisäkkäät ja ei-nisäkkäät . Päätöspuualgoritmi voi laskea kerättyjen tietojen perusteella seuraavan päätöspuun:

Jos nyt löydämme uuden lajin A, joka on kylmäverinen eläin, jonka kehossa on suomuja ja joka ei ole elossa, voimme arvioida sen lajin tämän päätöspuun avulla. kategoria。

Keskeiset käsitteet: solmut

① Juurisolmu : Ei ole sisääntulevaa reunaa, vaan lähtevä reuna. Sisältää alustavia, ominaisuuksiin keskittyviä kysymyksiä.

② Välisolmu : Saapuvia ja lähteviä reunoja on vain yksi, mutta lähteviä reunoja voi olla useita. Ne kaikki ovat kysymyksiä ominaisuuksista.

③ Lehtisolmu: On saapuvia reunoja, mutta ei lähteviä reunoja. Jokainen lehtisolmu on luokkatunniste.

④ Lapsisolmut ja yläsolmut: Kahden yhdistetyn solmun joukossa juurisolmua lähempänä oleva on pääsolmu ja toinen lapsisolmu.

2. Päätöspuu sklearnissä

Mukana olevat moduulit: sklearn.tree

1. puu.DecisionTreeClassifier (luokituspuu)

(1) Mallin perusparametrit

(2) Mallin attribuutit

(3) Käyttöliittymä

2. puu.DecisionTreeRegressor (regressiopuu)

Tärkeät parametrit：kriteeri

Regressiopuu mittaa oksien laatua, tuettuja standardeja on kolme:

① Kirjoita "mse" käyttääksesi keskimääräistä neliövirhettä (MSE), keskimääräisen neliövirheen eroa emosolmun ja lehtisolmun välillä käytetään ominaisuuden valinnan kriteerinä. Tämä menetelmä minimoi L2-häviön käyttämällä lehtisolmun keskiarvoa.

② Kirjoita "friedman_mse" käyttääksesi Feldmanin neliövirhettä, metriikka, joka käyttää Friedmanin muokattua keskineliövirhettä piilevien haarojen ongelmiin.

③ Kirjoita "mae" käyttääksesi keskimääräistä absoluuttista virhettä MAE (keskimääräinen absoluuttinen virhe), tämä metriikka käyttää lehtisolmujen mediaaniarvoa minimoimaan L1-häviön.

3. tree.export_graphviz (vie luotu päätöspuu DOT-muotoon, joka on tarkoitettu piirtämiseen)

4. Muut (täydentävä)

① Tietoentropian laskenta on hitaampaa kuin bikinikerroin. , koska Gini-kertoimen laskeminen ei sisällä logaritmeja.Lisäksi koska tiedon entropia on herkempi epäpuhtauksille, niinKun informaatioentropiaa käytetään indikaattorina, päätöspuun kasvu on "hienompaa", joten suuriulotteisille tai paljon kohinaa sisältäville tiedoille tiedon entropia on helppo sovittaa yli, ja Gini-kerroin toimii usein paremmin tässä tapauksessa.

② satunnaistilaa käytetään haaran satunnaiskuvion parametrien asettamiseen Oletusarvo on None.Satunnaisuus on ilmeisempi korkeissa ulottuvuuksissa Pieniulotteisissa tiedoissa (kuten iiristietojoukossa) satunnaisuutta tuskin esiintyy. . Syötä mikä tahansa kokonaisluku, niin sama puu kasvaa aina, jolloin malli voi vakiintua.

③ Jakajaa käytetään myös satunnaisten valintojen ohjaamiseen päätöspuussa. Syötä "paras" vaikka päätöspuu on satunnainen, se antaa etusijalle haaroittamisen kannalta tärkeät ominaisuudet voidaan tarkastella attribuutilla feature_importances_),Syötä "random" ja päätöspuu on satunnaisempi haarautuessaan, puu on syvempi ja suurempi, koska se sisältää enemmän turhaa tietoa, ja sovitus harjoitussarjaan vähenee näiden tarpeettomien tietojen takia.

④ Ilman rajoituksia päätöspuu kasvaa, kunnes epäpuhtautta mittaava indeksi on optimaalinen tai kunnes ominaisuuksia ei ole enää saatavilla.Jotta päätöspuusta saataisiin parempi yleistys, päätöspuun on oltava sellainenkarsiminen . Leikkausstrategioilla on valtava vaikutus päätöspuihin.Oikea karsintastrategia on päätöspuualgoritmin optimoinnin ydin。

3. Päätöspuiden edut ja haitat

1. Edut

① Helppo ymmärtää ja selittää, koska puita voi piirtää ja nähdä.

② Vaatii vähän tietojen valmistelua. Monet muut algoritmit vaativat usein tietojen normalisointia, valemuuttujien luomista ja nolla-arvojen poistamista jne.muttaSklearnin päätöspuumoduuli ei tue puuttuvien arvojen käsittelyä。

③ Käytä puun hinta(esimerkiksi ennustettaessa dataa) on puun harjoittamiseen käytettyjen datapisteiden lukumäärän logaritmi, mikä on erittäin alhainen hinta verrattuna muihin algoritmeihin.

④ Pystyy käsittelemään numeerista ja kategorista dataa samanaikaisesti,Sekä regressio että luokittelu voidaan tehdä . Muut tekniikat ovat usein erikoistuneet vain yhden muuttujan tyypin tietojoukkojen analysointiin.

⑤ Pystyy käsittelemään monitulostusongelmia, eli ongelmia useiden tarrojen kanssa (huomaa, että ne eroavat ongelmista, joissa on useita tarraluokituksia yhdessä tarrassa)

⑥ on a valkoinen laatikko malli , tulokset ovat helposti tulkittavissa. Jos tietty tilanne voidaan havaita mallissa, olosuhteet voidaan helposti selittää Boolen logiikan avulla. Sitä vastoin black-box-malleissa (esim. keinotekoisissa neuroverkoissa) tuloksia voi olla vaikeampi tulkita.

⑦ Malli voidaan varmentaa tilastollisilla testeillä, jolloin voimme pohtia mallin luotettavuutta. Se voi toimia hyvin, vaikka sen oletukset rikkoisivat jossain määrin dataa luonutta todellista mallia.

2. Haitat

① Päätöspuun oppijat voivat luoda liian monimutkaisia puita, jotka eivät yleistä tietoja hyvin. Tätä kutsutaan ylisovitukseksi. karsia,Mekanismeja, kuten lehtisolmulle vaadittavien näytteiden vähimmäismäärän asettaminen tai puun enimmäissyvyyden asettaminenon tarpeen tämän ongelman välttämiseksi.

② Päätöspuut voivat olla epävakaita ja pienet muutokset tiedoissa voivat johtaa täysin erilaisten puiden syntymiseen. Tämä ongelma on ratkaistava integroidun algoritmin avulla.

③ Päätöspuun oppiminen perustuuahne algoritmi, se luottaa Optimoi paikallinen optimi (jokaisen solmun optimi) yrittää saavuttaa kokonaisoptimaalisen, mutta tämä lähestymistapa ei takaa globaalin optimaalisen päätöspuun palauttamista. Tämä ongelma voidaan ratkaista myös ensemble-algoritmeilla Satunnaisissa metsissä piirteet ja näytteet otetaan satunnaisesti haarautumisprosessin aikana.

④ Joitakin käsitteitä on vaikea oppia, koska päätöspuut eivät ilmaise niitä helposti, kuten XOR-, pariteetti- tai multiplekseriongelmat.

⑤ Jos tietyt tunnisteiden luokat ovat hallitsevia, päätöspuun oppija luo puita, jotka ovat vinoutuneet hallitseviin luokkiin.Siksi on suositeltavaa ennen päätöspuun sovittamistaTasapainoinen tietojoukko。

Teknologian jakaminen

Koneoppiminen – päätöspuu (huomautukset)

1. Päätöspuiden ymmärtäminen

1. Esittely