Teknologian jakaminen

Klusterianalyysimenetelmä (3)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


5. Klusteroinnin laadun arviointi

Klusterianalyysin tarkoituksena on hajottaa tietojoukko osajoukkoihin, kutakin osajoukkoa kutsutaan klusteriksi ja kaikkien osajoukkojen joukkoa kutsutaan objektijoukon klusteriksi. Hyvän klusterointialgoritmin tulisi tuottaa korkealaatuisia klustereita ja korkealaatuisia klustereita, toisin sanoen klusterien sisäinen yleinen samankaltaisuus on suurin, kun taas klusterien välinen yleinen samankaltaisuus on pienin.Ottaen huomioon, että monet klusterointialgoritmit sisältävät kkk-Keskiarvoistusalgoritmi, DBSCAN-algoritmi jne. edellyttävät, että käyttäjä määrittää klustereiden lukumäärän etukäteen klusterissa kkk, siksi k:n yksinkertaista estimointimenetelmää käsitellään jäljempänä.

(1) Arvio klusterien lukumäärästä

Monet klusterointialgoritmit, kuten kkk- Keskiarvoalgoritmien, jopa DIANA-algoritmien jne., on määritettävä klusterien määrä etukäteen kkk,ja kkkTahdon arvo vaikuttaa suuresti klusteroinnin laatuun. Klusterien määrä on kuitenkin määritettävä etukäteen. kkk Ei helppo tehtävä. Voimme ensin tarkastella kahta ääritapausta.
(1) Aseta koko tietojoukko SSSpidetään klusterina, eli k = 1 k = 1k=1, tämä vaikuttaa yksinkertaiselta ja kätevältä, mutta tämän klusterianalyysin tuloksilla ei ole arvoa.
(2) Aseta tietojoukko SSSJokaista kohteen kohdetta käsitellään klusterina, eli anna k = ∣ S ∣ = nk=|S|=nk=S=n , mikä tuottaa hienojakoisimman klusteroinnin. Siksi kussakin klusterissa ei ole klusterin sisäistä eroa, ja klusterin sisäinen samankaltaisuus saavuttaa korkeimman tason.Mutta tällaista klusterointia ei voida käyttää SSSantaa mitään tietoa aiheesta SSSyleinen kuvaus.
Voidaan nähdä, että klustereiden määrä kkkpitäisi ainakin tyydyttää 2 ≤ k ≤ n − 1 2 ≤ k ≤ n-12kn1, mutta klustereiden määrä kkkSe, mikä arvo on täsmälleen sopivin, jää epäselväksi.
Yleisesti katsottuna, kkkArvo voidaan arvioida tietojoukkojakauman muodon ja mittakaavan sekä käyttäjän vaatiman klusterointiresoluution perusteella, ja tutkijoilla on monia erilaisia ​​estimointimenetelmiä, kuten kyynärpäämenetelmä, ristiinvalidointimenetelmä ja informaatioteoria- perustuvia menetelmiä jne.
Yksinkertainen ja yleisesti käytetty kkkArvon empiirinen estimointimenetelmä uskoo, että niille, joilla nnnObjektien tietojoukko, niiden klustereiden määrä, joihin se on ryhmitelty kkkValita n 2n2 2n Se on tarkoituksenmukaista.Tällä hetkellä keskimääräisen odotuksen alapuolella kullakin klusterilla on noin 2 n sqrt{2n}2n esineitä.Tämän perusteella jotkut ovat ehdottaneet lisärajoituksia, eli klusterien määrää k &lt;nkk<n
Oletetaan esimerkiksi n = 8 n = 8n=8, sitten klusterien lukumäärä k = 2 k = 2k=2 on sopiva, ja keskimäärin 4 pistettä klusteria kohden ja lisäempiirisen kaavan mukaan k &lt; 2,83 k&lt;2,83k<2.83 .Näiden kahden tiedon käyttäminen klusterien lukumäärästä kkkEmpiirinen kaava näyttää selitettävän toiselta puolelta, esimerkissä 10-5 k = 2 k = 2k=2 on sopivin klustereiden lukumäärä.

(2) Ulkoinen laadunarviointi

Jos meillä on hyvä arvio klustereiden määrästä kkk, voit käyttää yhtä tai useampaa klusterointimenetelmää, esimerkiksi kkk - Keskimääräinen algoritmi, agglomeratiivinen hierarkkinen algoritmi tai DBSCAN-algoritmi suorittaa klusterianalyysin tunnetuille tietojoukoille ja saa useita erilaisia ​​klusterointituloksia. Kysymys on nyt siitä, millä menetelmällä on parempia klusterointituloksia, eli miten vertailla eri menetelmien tuottamia klusterointituloksia. Tämä on klusteroinnin laatuarviointi.
Tällä hetkellä valittavissa on monia menetelmiä klusteroinnin laadun arviointiin, mutta ne voidaan yleensä jakaa kahteen kategoriaan, nimittäin ulkoiseen (ulkoiseen) laadunarviointiin ja sisäiseen (sisäiseen) laadunarviointiin.
Ulkoinen laadunarviointi olettaa, että aineistossa on jo olemassa (yleensä asiantuntijoiden rakentama) klusteri, ja vertaa sitä yleisesti käytettynä benchmark-menetelmänä tietyn algoritmin klusterointituloksiin ovat kaksi yleistä menetelmää luokan tarkkuuteen.

1. Klusterin entropiamenetelmä

Hypoteettinen tietojoukko S = { X 1 , X 2 , … , X n } S={X_1, X_2,…, X_n}S={X1,X2,,Xn},ja T = { T 1 , T 2 , … , T m } T={T_1,T_2,…,T_m}T={T1,T2,,Tm} on ihanteellinen standardiklusteri, jonka asiantuntijat ja C = { C 1 , C 2 , … , C k } C={C_1, C_2,…, C_k}C={C1,C2,,Ck} määritetään algoritmilla noin SSSKlusteri ja sitten klusteri C i C_iCiSuhteessa perusklusterointiin TTTKohteen klusterointientropia määritellään seuraavasti
E ( C i ∣ T ) = − ∑ j = 1 m ∣ C i ∩ T j ∣ ∣ C i ∣ log ⁡ 2 ∣ C i ∩ T j ∣ ∣ C i ∣ (10-20) E =-sum_{j=1}^mfrac{|C_icap T_j|}{|C_i|}log_2frac{|C_icap T_j|}{|C_i|}tunniste{10-20}E(CiT)=j=1mCiCiTjlog2CiCiTj(10-20) ja CCCTietoja vertailuarvoista TTTKohteen yleinen klusterointientropia määritellään kaikiksi klustereiksi C i C_iCiTietoja vertailuarvoista TTTKlusterientropian painotettu keskiarvo eli
E ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × E ( C i ∣ T ) (10-21) E(C) = murto{1}{mathop{sum }rajat_{i=1}^k|C_i|}summa_{i=1}^k|C_i|kertaa E(C_i|T)-tunniste{10-21}E(C)=i=1kCi1i=1kCi×E(CiT)(10-21) Klusterointientropiamenetelmä uskoo, että E ( C ) E(C)E(C) Mitä pienempi arvo, sitä CCCSuhteessa perustilaan TTTMitä korkeampi klusteroinnin laatu.
On syytä huomata, että kaavan (10-21) oikealla puolella olevan ensimmäisen termin nimittäjä ∑ i = 1 k ∣ C i ∣ki=1|Ci| i=1kCi on kunkin klusterin elementtien lukumäärän summa, eikä sitä voida käyttää nnn Korvata.Koska vain silloin CCCKun on osiointiklusteri, nimittäjä on nnn, ja yleisten klusterointimenetelmien, kuten DBSCAN-klusteroinnin, nimittäjä voi olla pienempi kuin nnn

2. Klusterin tarkkuus

Klusterin tarkkuuden (tarkkuuden) arvioinnin perusideana on käyttää klusterin suurinta määrää kategorioita klusterin eli klusterin luokkatunnisteena. C i C_iCi, jos sellainen on olemassa T j T_jTjtehdä ∣ C i ∩ T j ∣ = max ⁡ { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } |C_icap T m ∣ } |C_icapx{_j|=max{_| C_icap T_2|,cdots,|C_icap T_m|}CiTj=max{CiT1,CiT2,,CiTm}, niin katsotaan C i C_iCiLuokka on T j T_jTj .Siksi klusteri C i C_iCiTietoja vertailuarvoista TTTTarkkuus määritellään seuraavasti
J ( C i ∣ T ) = max ⁡ { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } ∣ C i ∣ } ∣ C i ∣ 1(Ci_2) | T)=frac{max{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}}{|C_i|}tunniste{10-22}J(CiT)=Cimax{CiT1,CiT2,,CiTm}(10-22) ja CCCTietoja vertailuarvoista TTTYleinen tarkkuus on määritelty kaikille klusteille C i C_iCiTietoja vertailuarvoista TTTKlusterointitarkkuuden painotettu keskiarvo eli
J ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × J ( C i ∣ T ) (10-23) J(C) = murto{1}{mathop{sum }rajat_{i=1}^k|C_i|}summa_{i=1}^k|C_i|kertaa J(C_i|T)-tunniste{10-23}J(C)=i=1kCi1i=1kCi×J(CiT)(10-23) Klusterin tarkkuusmenetelmä uskoo, että J (C) J(C)J(C) Mitä suurempi arvo, sitä klusterit CCCSuhteessa perustilaan TTTMitä korkeampi klusteroinnin laatu.
Lisäksi yleisesti 1 - J ( C ) 1 - J (C)1J(C) nimeltään CCCTietoja vertailuarvoista TTT yleinen virheprosentti.Siksi klusteroinnin tarkkuus J (C) J(C)J(C) Suuri tai yleinen virheprosentti 1 - J ( C ) 1 - J (C)1J(C) Pieni, se osoittaa, että klusterointialgoritmi pystyy paremmin klusteroimaan eri luokkien objektit eri klustereiksi, eli klusterointitarkkuus on korkea.

(3) Sisäinen laadunarviointi

Sisäiseen laadunarviointiin ei tunneta ulkoisia vertailuarvoja, käytetään vain tietokokonaisuuksia SSSja klusterointi CCCArvioi klusterin luontaiset ominaisuudet ja suuruudet CCC laatua. Toisin sanoen klusterointivaikutus arvioidaan yleensä laskemalla keskimääräinen samankaltaisuus klustereiden sisällä, keskimääräinen samankaltaisuus klustereiden välillä tai yleinen samankaltaisuus.
Sisäinen laadunarviointi liittyy klusterointialgoritmiin. Klusterin tehokkuusindeksiä käytetään pääasiassa klusterointivaikutuksen laadun arvioimiseen. Ihanteellinen klusterointivaikutus on pienin klusterin välinen etäisyys Suurin klusteri Siksi klusteroinnin tehokkuutta mitataan yleensä jollain tavalla klusterin sisäisen etäisyyden ja klusterin välisen etäisyyden suhteella. Yleisesti käytettyjä tämän tyyppisiä indikaattoreita ovat CH-indikaattori, Dunn-indikaattori, I-indikaattori, Xie-eni-indikaattori jne.

1. CH-ilmaisin

CH-indeksi on lyhenne Calinski-Harabasz-indeksistä. Se laskee ensin kunkin klusterin pisteen ja sen klusterin keskipisteen välisen etäisyyden neliösumman, minkä jälkeen se laskee etäisyyden neliön summan kunkin klusterin keskipisteen ja mitattavan tietojoukon keskipisteen välillä Tietojoukon erottelu ja erotuksen suhde läheisyyteen on CH-indeksi.
perustaa X ‾ i yliviivaus{X}_iXiedustaa klusteria CCCkeskipiste (keskiarvo), X ‾ yliviivaus{X}Xedustaa tietojoukkoa SSSkeskipiste d ( X ‾ i , X ‾ ) d(yliviiva{X}_i,yliviiva{X})d(Xi,X) varten X ‾ i yliviivaus{X}_iXisaapua X ‾ yliviivaus{X}XTietty etäisyysfunktio , sitten klusterointi CCCKeskiklusterin tiiviys määritellään seuraavasti
Jäljitys ( A ) = ∑ i = 1 k ∑ X j ∈ C id ( X j , X ‾ i ) 2 (10-24) teksti{Trace}(A)=summa_{i=1}^ksum_{X_jin C_i} d(X_j,overline{X}_i)^2tag{10-24}Jäljittää(A)=i=1kXjCid(Xj,Xi)2(10-24) Siksi Trace(A) on klusteri CCC Klusterin keskusten välisten neliöetäisyyksien summa.Ja klusterointi CCCErotusaste määritellään seuraavasti
Jäljitys ( B ) = ∑ i = 1 k ∣ C i ∣ d ( X ‾ i , X ‾ ) 2 (10-25) teksti{Trace}(B)=summa_{i=1}^k|C_i|d( overline{X}_i,overline{X})^2tag{10-25}Jäljittää(B)=i=1kCid(Xi,X)2(10-25) Eli Trace(B) klusteroi CCCJokainen klusterin keskipiste SSSPainotettu summa neliöetäisyydet keskipisteestä .
Tästä, jos N = ∑ i = 1 k ∣ C i ∣N=ki=1|Ci| N=i=1kCi Sitten CH-ilmaisin voidaan määritellä seuraavasti
V CH ( k ) = Trace ( B ) / ( k − 1 ) Trace ( A ) / ( N − k ) (10-26) V_{teksti{CH}}(k)=frac{text{Trace}(B) )/(k-1)}{text{Trace}(A)/(Nk)}tunniste{10-26}VCH(k)=Jäljittää(A)/(Nk)Jäljittää(B)/(k1)(10-26) Kaavaa (10-26) käytetään yleensä kahdessa seuraavassa tilanteessa:
(1) Arvioi kumpi kahdella algoritmilla saatu klusterointi on parempi.
Oletetaan, että datajoukon analysointiin käytetään kahta algoritmia SSSKlusterianalyysi suoritettiin ja kaksi erilaista klusteria (molemmat sisälsivät kkkklusterit), suurempaa CH-arvoa vastaava klusterointi on parempi, koska mitä suurempi CH-arvo tarkoittaa, että klusterin jokainen klusteri on lähempänä itseään ja klusterit ovat hajaantuneempia.
(2) Arvioi kumpi kahdesta samalla algoritmilla saadusta klusterista, joissa on eri määrä klustereita, on parempi.
Oletetaan, että algoritmilla on tietojoukko SSSKlusterianalyysi suoritettiin ja klusterien lukumäärä saatiin muodossa k 1 k_1k1ja b 2 b_2b2 Näistä kahdesta klusterista klusterointitulos suuremmalla CH-arvolla on parempi, mikä tarkoittaa myös sitä, että tätä klusteria vastaava määrä on sopivampi.Siksi kaavaa (10-26) toistuvasti soveltamalla voimme saada myös tietojoukon SSSOptimaalinen klusterien määrä klusterointia varten.

2. Dunn-osoitin

Dunn-indikaattori käyttää klustereita C i C_iCiklusterin kanssa C j C_jCjvähimmäisetäisyys välillä ds ( C i , C j ) d_s(C_i, C_j)ds(Ci,Cj) klusterien välisen eron laskemiseen käyttämällä kaikkien klustereiden suurinta klusterin halkaisijaa max ⁡ { Φ ( C 1 ), Φ ( C 2 ) , . . . , Φ ( C k ) } max{varPhi(C_1), varPhi(C_2),..., varPhi(C_k)}max{Φ(C1),Φ(C2),...,Φ(Ck)} Klusterin sisäisen tiukkuuden kuvaamiseksi Dunn-indeksi on edellisen ja jälkimmäisen välisen suhteen vähimmäisarvo, joka on
VD(k) = min⁡i≠jds(Ci,Cj)max⁡{Φ(C1), Φ(C2),. . . , Φ ( C k ) } (10-27) V_D(k)=min_{i≠j}frac{d_s(C_i,C_j)}{max{varPhi(C_1), varPhi(C_2),...,varPhi (C_k)}}tunniste{10-27}VD(k)=i=jminmax{Φ(C1),Φ(C2),...,Φ(Ck)}ds(Ci,Cj)(10-27) Mitä suurempi Dunn-arvo on, sitä pidempi klusterien välinen etäisyys on ja sitä parempi vastaava klusterointi.Samoin kuin CH-arviointiindeksiä, Dunn-indeksiä voidaan käyttää eri algoritmeilla saatujen klustereiden laadun arvioimiseen, ja sen avulla voidaan myös arvioida, mitkä samalla algoritmilla saadut klusterit eri klusterimäärillä ovat parempia, ts. voidaan käyttää etsimään SSSoptimaalinen määrä klustereita.

6. Outlier louhinta

Outliers ovat tietojoukon erityistietoja, jotka poikkeavat merkittävästi suurimmasta osasta tiedoista. Aiemmin esiteltyjen tietojen louhintaalgoritmien, kuten luokittelun ja klusteroinnin, painopiste on löytää säännöllisiä malleja, jotka koskevat useimpia tietoja. Siksi monet tiedonlouhintaalgoritmit yrittävät vähentää tai eliminoida poikkeamien vaikutusta ja vähentää poikkeavia pisteitä tai jätetään huomiotta meluna, mutta monissa käytännön sovelluksissa epäillään, että poikkeamapisteiden poikkeama ei johdu satunnaisista tekijöistä, vaan se voi johtua muista täysin erilaisista mekanismeista, jotka on kaivettava esiin erityistä analyysiä ja hyödyntämistä varten. Esimerkiksi sovellusalueilla, kuten turvallisuuden hallinnassa ja riskienhallinnassa, poikkeavien arvojen tunnistamismalli on arvokkaampi kuin normaalin datan malli.

(1) Yleiskatsaus asiaan liittyviin kysymyksiin

Sana Outlier käännetään yleensä poikkeavuudeksi, mutta myös poikkeavuudeksi. Eri sovellustilanteissa on kuitenkin monia aliaksia, kuten yksittäiset pisteet, epänormaalit pisteet, uudet pisteet, poikkeamapisteet, poikkeuspisteet, kohina, epänormaalit tiedot jne. Outlier louhinnalla on kiinalaisessa kirjallisuudessa samanlaisia ​​termejä, kuten poikkeamien tiedon louhinta, poikkeamien tietojen havaitseminen, poikkeavien tietojen louhinta, poikkeustietojen louhinta ja harvinaisten tapahtumien louhinta.

1. Poikkeamien syntyminen

(1) Tiedot ovat peräisin petoksista, tunkeutumisesta, taudinpurkauksista, epätavallisista koetuloksista jne. Esimerkiksi jonkun keskimääräinen puhelinlasku on noin 200 yuania, mutta nousee yhtäkkiä useisiin tuhansiin juaneihin tietyssä kuukaudessa jonkun luottokortti kuluttaa yleensä noin 5 000 yuania kuukaudessa, mutta tietyssä kuukaudessa kulutus ylittää 30 000 yuania jne. Tällaiset poikkeamat ovat yleensä suhteellisen mielenkiintoisia tiedon louhinnassa ja yksi tärkeimmistä käyttökohteista.
(2) Johtuu tietomuuttujien luontaisista muutoksista, jotka heijastavat tiedon jakautumisen luonnollisia ominaisuuksia, kuten ilmastonmuutos, asiakkaiden uudet ostotottumukset, geneettiset mutaatiot jne. Myös yksi mielenkiintoisista painopistealueista.
(3) Mittaus- ja tiedonkeruuvirheet johtuvat pääasiassa inhimillisistä virheistä, mittauslaitteiden viasta tai melusta. Esimerkiksi opiskelijan arvosana -100 tietyllä kurssilla voi johtua ohjelman asettamasta oletusarvosta, että yrityksen ylimmän johdon palkka on huomattavasti tavallisten työntekijöiden palkkaa korkeampi, saattaa tuntua poikkeavalta, mutta se on; Kohtuullinen data.

2. Outlier kaivosongelma

Yleensä outlier-kaivosongelma voidaan jakaa kolmeen kuvattavaksi aliongelmaksi.
(1) Määrittele poikkeamat
Koska poikkeamat liittyvät läheisesti käytännön ongelmiin, on outlier-louhinnan lähtökohta ja ensisijainen tehtävä selkeästi määritellä, millaiset tiedot ovat poikkeavia tietoja Anna asianmukainen kuvaus tai määritelmä.
(2) Kaivostoiminnan poikkeamat
Kun outlier-pisteet on määritelty selkeästi, mitä algoritmia käytetään määritellyjen poikkeavien pisteiden tunnistamiseen tai louhimiseen, on poikkeavien louhinnan avaintehtävä. Poikkeavien louhintaalgoritmi antaa käyttäjille tavallisesti epäilyttäviä poikkeavia tietoja dataan heijastuvien kuvioiden näkökulmasta kiinnittääkseen käyttäjän huomion.
(3) Ymmärrä poikkeamat
Kaivostulosten järkevä selittäminen, ymmärtäminen ja käytännön soveltamisen opastaminen ovat outlier-kaivostoiminnan tavoitteita. Koska mekanismi, jolla poikkeamat syntyvät, on epävarma, poikkeavien louhintaalgoritmin havaitsemien "poikkeavien tekijöiden" vastaavuus todellakin todellista epänormaalia käyttäytymistä ei voida selittää ja selittää poikkeavien louhintaalgoritmilla, vaan ne voidaan selittää vain poikkeavien louhintaalgoritmilla. alan tai toimialueen asiantuntijoita ymmärtämään ja selittämään ohjeita.

3. Poikkeamien suhteellisuus

Poikkeamat ovat tietojoukon erikoistietoja, jotka ilmeisesti poikkeavat suurimmasta osasta tiedoista, mutta "ilmeisesti" ja "enimmäkseen" ovat suhteellisia, eli vaikka poikkeamat ovat erilaisia, ne ovat suhteellisia. Siksi poikkeamien määrittelyssä ja louhinnassa on otettava huomioon useita asioita.
(1) Globaalit tai paikalliset poikkeamat
Tietoobjekti voi olla poikkeava suhteessa paikallisiin naapureihinsa, mutta ei suhteessa koko tietojoukkoon. Esimerkiksi oppilas, joka on 1,9 metriä pitkä, on poikkeava koulumme matematiikan pääaineen luokassa 1, mutta ei eri puolilla maata olevien ihmisten keskuudessa, mukaan lukien ammattilaispelaajat, kuten Yao Ming.
(2) Poikkeamien lukumäärä
Vaikka poikkeavien pisteiden lukumäärää ei tunneta, normaalipisteiden lukumäärän pitäisi olla paljon suurempi kuin poikkeavien pisteiden lukumäärä poikkeavista pisteistä Sen tulee olla alle 5 % tai jopa alle 1 %.
(3) Pisteen poikkeava kerroin
Et voi käyttää "kyllä" tai "ei" ilmoittaaksesi, onko objekti poikkeava. Käytä sen sijaan kohteen poikkeaman astetta eli outlier-tekijää (Outlier Factor) tai outlier-pistettä (Outlier Score). luonnehtia datan poikkeamaa ryhmäasteesta ja sitten suodattaa pois tietyn kynnyksen ylittävät poikkeamat tekijät, antaa ne päätöksentekijöille tai alan asiantuntijoille ymmärrystä ja selitystä varten sekä soveltaa niitä käytännön työssä.

(2) Etäisyyteen perustuva menetelmä

1. Peruskäsitteet

Määritelmä 10-11 On positiivinen kokonaisluku kkk, objekti XXX/ kkk-Lähin naapurietäisyys on positiivinen kokonaisluku, joka täyttää seuraavat ehdot dk ( X ) d_k (X)dk(X)
(1) paitsi XXXLisäksi niitä on ainakin kkkesineitä YYYtyydyttää d ( X , Y ) ≤ dk ( X ) d(X,Y)≤d_k(X)d(X,Y)dk(X)
(2) paitsi XXXLisäksi niitä on korkeintaan k − 1 k-1k1 esineitä YYYtyydyttää d ( X , Y ) &lt; dk ( X ) d(X, Y)d(X,Y)<dk(X)
sisään d ( X , Y ) d(X, Y)d(X,Y) on esine XXXja YYYjokin etäisyysfunktio niiden välillä.

esineestä kkk-Mitä suurempi lähimmän naapurin etäisyys, sitä todennäköisemmin kohde on kaukana suurimmasta osasta dataa, joten kohde voidaan XXX/ kkk- lähimmän naapurin etäisyys dk ( X ) d_k (X)dk(X) sen ulkopuolisena tekijänä.

Määritelmä 10-12 tehdä D ( X , k ) = { Y ∣ d ( X , Y ) ≤ dk ( X ) ∧ Y ≠ X } D(X,k)={Y|d(X,Y)≤d_k(X)kiila Y≠ X}D(X,k)={Yd(X,Y)dk(X)Y=X}, niin sitä kutsutaan D ( X , k ) D(X, k)D(X,k) Joo XXX/ kkk-Lähin naapuri (Domain).

Se voidaan nähdä määritelmästä 10-12 D ( X , k ) D(X, k)D(X,k) Joo XXXkeskustana, etäisyydenä XXXEi ylitä dk ( X ) d_k (X)dk(X) Esine YYY Kokoelma koostuu. Kannattaa kiinnittää erityistä huomiota, XXXei kuulu siihen kkk- lähin naapuri ts. X ∉ D ( X , k ) Xnotin D(X, k)X/D(X,k) . Erityisesti, XXX/ kkk-Lähin naapuri D ( X , k ) D(X, k)D(X,k) Sisältyvien esineiden määrä voi olla paljon suurempi kkk,Juuri nyt ∣ D ( X , k ) ∣ ≥ k |D(X,k)|≥kD(X,k)k

Määritelmä 10-13 On positiivinen kokonaisluku kkk, objekti XXX/ kkk-Lähin naapuri outlier tekijä määritellään
OF 1 ( X , k ) = ∑ Y ∈ D ( X , k ) d ( X , Y ) ∣ D ( X , k ) ∣ (10-28) teksti{OF}_1(X,k)=frac{mathop {summa}rajat_{Yin D(X,k)}d(X,Y)}{|D(X,k)|}tunniste{10-28}OF1(X,k)=D(X,k)YD(X,k)d(X,Y)(10-28)

2. Algoritmin kuvaus

Tietylle tietojoukolle ja lähimpien naapurietäisyyksien lukumäärälle kkk, voimme käyttää yllä olevaa kaavaa laskeaksesi kkk-Lähimmän naapurin poikkeavien tekijöiden joukossa useat kohteet ovat todennäköisimmin päättäjien tai alan asiantuntijoiden arvioita , Mitkä pisteet ovat todella poikkeavia.

Algoritmi 10-8 Etäisyyteen perustuva poikkeamien havaitsemisalgoritmi
Syöte: tietojoukko SSS, lähimpien naapurietäisyyksien lukumäärä kkk
Tulos: Epäiltyjen poikkeavien pisteiden ja vastaavien poikkeavien tekijöiden laskeva luettelo
(1) TOISTA
(2) Ota SSSkäsittelemätön objekti sisään XXX
(3) OK XXX/ kkk-Lähin naapuri D ( X , k ) D(X, k)D(X,k)
(4) Laskenta XXX/ kkk-lähin naapuri outlier tekijä OF 1 ( X , k ) teksti{OF}_1(X,k)OF1(X,k)
(5) KUIN SSSJokainen piste on käsitelty
(6) Kyllä OF 1 ( X , k ) teksti{OF}_1(X,k)OF1(X,k)Lajittele laskevaan järjestykseen ja tulosta ( X , OF 1 ( X , k ) ) (X,teksti{OF}_1(X,k))(X,OF1(X,k))

3. Laskentaesimerkkejä

Esimerkki 10-12 Kaksiulotteinen tietojoukko, jossa on 11 pistettä SSSSe on annettu taulukosta 10-10, let k = 2 k = 2k=2, käytä Euklidisen etäisyyden neliölaskentaa X 7 , X 10 , X 11 X_7, X_{10}, X_{11}X7,X10,X11 Kaikkien muiden kohtien poikkeava tekijä.

Lisää kuvan kuvaus tähän
irrottaa: Ymmärtääksemme intuitiivisesti algoritmin periaatteen, teemme SSSDataobjektit näytetään alla olevassa Kuvan (10-27) tasossa.

Lisää kuvan kuvaus tähän
Seuraavassa lasketaan määritetyn pisteen ja muiden pisteiden ulkoiset tekijät.

(1) Laskentaobjekti X 7 X_7X7poikkeava tekijä
Kuten kuvasta näkyy, etäisyys X 7 = ( 6 , 8 ) X_7 = (6,8)X7=(6,8) Lähin piste on X 10 = ( 5 , 7 ) X_{10}=(5,7)X10=(5,7),ja d ( X 7 , X 10 ) = 1,41 d(X_7, X_{10}) = 1,41d(X7,X10)=1.41, muut lähimmät pisteet voivat olla X 11 = ( 5 , 2 ) X_{11}=(5,2)X11=(5,2) X 9 = ( 3 , 2 ) X_9 = (3, 2)X9=(3,2) X 8 = ( 2 , 4 ) X_8 = (2, 4)X8=(2,4)
Laskettu d ( X 7 , X 11 ) = 6,08 d(X_7, X_{11}) = 6,08d(X7,X11)=6.08 d ( X 7 , X 9 ) = 6,71 d (X_7, X_9) = 6,71d(X7,X9)=6.71 d (X 7 , X 8 ) = 5,66 d(X_7, X_8) = 5,66d(X7,X8)=5.66
koska k = 2 k = 2k=2,niin d 2 ( X 7 ) = 5,66 d_2 (X_7) = 5,66d2(X7)=5.66, joten määritelmän 10-11 mukaan meillä on D ( X 7 , 2 ) = { X 10 , X 8 } D(X_7,2)={X_{10}, X_8}D(X7,2)={X10,X8}
Kaavan (10-28) mukaan X 7 X_7X7poikkeava tekijä
OF 1 ( X 7 , 2 ) = ∑ Y ∈ N ( X 7 , 2 ) d ( X 7 , Y ) ∣ N ( X 7 , k ) ∣ = d ( X 7 , X 10 ) + d ( X 7 , X 8 ) 2 = 1,41 + 5,66 2 = 3,54OF1(X7,2)=YN(X7,2)d(X7,Y)|N(X7,k)|=d(X7,X10)+d(X7,X8)2=1.41+5.662=3.54 OF1(X7,2)=N(X7,k)YN(X7,2)d(X7,Y)=2d(X7,X10)+d(X7,X8)=21.41+5.66=3.54(2) Laskentaobjekti X 10 X_{10}X10poikkeava tekijä OF 1 ( X 10 , 2 ) = 2,83 teksti{OF}_1(X_{10},2)=2,83OF1(X10,2)=2.83

(3) Laskentaobjekti X 11 X_{11}X11poikkeava tekijä OF 1 ( X 11 , 2 ) = 2,5 teksti{OF}_1(X_{11},2)=2,5OF1(X11,2)=2.5

(4) Laskentaobjekti X 5 X_{5}X5poikkeava tekijä OF 1 ( X 5 , 2 ) = 1 teksti{OF}_1(X_{5},2)=1OF1(X5,2)=1

Vastaavasti voidaan laskea muiden kohteiden ulkoiset tekijät, katso seuraava taulukko (10-11).

Lisää kuvan kuvaus tähän
4. Outlier-tekijän kynnys

mukaan kkk -Lähimmän naapurin teoria, mitä suurempi poikkeava tekijä, sitä todennäköisemmin se on poikkeava. Siksi on määriteltävä kynnys, joka erottaa poikkeamat normaaleista pisteistä. Yksinkertaisin tapa on määrittää poikkeavien pisteiden lukumäärä, mutta tämä menetelmä on liian yksinkertainen ja joskus jättää huomiotta todellisia poikkeavia pisteitä tai liittää liian monta normaalia pisteitä mahdollisille poikkeavapisteille, mikä vaikeuttaa alan asiantuntijoiden tai päättäjien vaikeuksia ilmaantua. poikkeamien ymmärtämisessä ja tulkinnassa.
(1) Poikkeavien tekijöiden segmentoinnin kynnysmenetelmä järjestää ensin poikkeavien tekijät laskevaan järjestykseen ja samalla numeroi dataobjektit uudelleen nousevaan järjestykseen poikkeavien tekijöiden mukaan.
(2) Perustuu outlier-tekijään OF 1 ( X , k ) teksti{OF}_1(X,k)OF1(X,k) on ordinaatta, ja poikkeava tekijän sarjanumero on abskissa, eli (sarjanumero, OF 1 tekstiä{OF}_1OF1arvo) on merkitty tasoon ja yhdistetty muodostamaan ei-nouseva polyline, ja pisteen, jossa polyline leikkaa jyrkästi ja loivasti, havaitaan vastaavan poikkeavaa tekijää kynnysarvona kuin tai yhtä suuri kuin tämä kynnys ovat normaaleja objekteja , muut ovat mahdollisia poikkeavia arvoja.

Esimerkki 10-13 Datajoukko esimerkkiä 10-12 varten SSS , sen poikkeavien tekijöiden yhteenveto laskevassa järjestyksessä ja sarjanumero on taulukossa 10-11. Yritä löytää poikkeavien pisteiden kynnys poikkeavien tekijöiden segmentointikynnysmenetelmän perusteella.

irrottaa: Käytä ensin (sarjanumero, OF 1 tekstiä{OF}_1OF1 arvo) tasossa olevina pisteinä, jotka on merkitty tasoon ja yhdistetty polylineillä. Kuten alla olevassa kuvassa 10-28.

Lisää kuvan kuvaus tähän
Sitten katsomalla kuvaa 10-28 voimme havaita, että neljännen pisteen (4, 1.27) vasemmalla puolella oleva polyline putoaa erittäin jyrkästi, kun taas oikeanpuoleinen polyline putoaa erittäin kevyesti kynnys.koska X 7 、 X 10 X_7 、 X_{10}X7X10 ja X 11 X_{11}X11 Poikkeustekijät ovat 3,54, 2,83 ja 2,5, jotka ovat kaikki suurempia kuin 1,27. Siksi nämä kolme pistettä ovat todennäköisimmin poikkeavia pisteitä, kun taas loput pisteet ovat tavallisia pisteitä.
Katsomalla kuvaa 10-27 uudelleen, voimme löytää sen X 7 、 X 10 X_7 、 X_{10}X7X10 ja X 11 X_{11}X11 todellakin kaukana suurimmasta osasta vasemmalla olevia kohteita, joten käsittele niitä tietojoukona SSSPoikkeamat ovat kohtuullisia.

5. Algoritmin arviointi

Etäisyyspohjaisen poikkeamien havaitsemismenetelmän suurin etu on, että se on periaatteessa yksinkertainen ja helppokäyttöinen.
(1) Parametrit kkkValinnasta puuttuu yksinkertainen ja tehokas menetelmä testitulosten vaikutuksen määrittämiseen parametreihin kkkHerkkyysasteesta ei ole olemassa yleisesti hyväksyttyä analyyttistä tulosta.
(2) Aika monimutkaisuus on O ( ∣ S ∣ 2 ) O(|S|^2)O(S2), siitä puuttuu skaalautuvuus suuria tietojoukkoja varten.
(3) Globaalin poikkeamien kertoimen kynnysarvon käytön vuoksi on vaikea louhia poikkeavuuksia tietojoukoista, joissa on eri tiheysalueita.

(3) Suhteelliseen tiheyteen perustuva menetelmä

Etäisyysmenetelmä on globaali poikkeamien tarkistusmenetelmä, mutta se ei pysty käsittelemään tietojoukkoja eri tiheysalueilla, eli se ei pysty havaitsemaan poikkeavia paikallistiheysalueilla Käytännön sovelluksissa kaikkia tietoja ei jaeta yhdellä tiheydellä. Kun tietojoukko sisältää useita tiheysjakaumia tai on sekoitus erilaisia ​​tiheysosajoukkoja, globaalien poikkeamien havaitsemismenetelmät, kuten etäisyys, eivät yleensä toimi hyvin, koska se, onko objekti poikkeava, ei riipu pelkästään sen suhteesta ympäröivään dataan liittyy naapuruston tiheyteen.

1. Suhteellisen tiheyden käsite

Tiheyden näkökulmasta poikkeavat ovat kohteet harvaan asutuilla alueilla. Siksi on tarpeen ottaa käyttöön käsitteet paikallinen asuintiheys ja kohteiden suhteellinen tiheys.

Määritelmä 10-14 (1) esine XXX/ kkk-Lähimmän naapurin paikallinen tiheys (tiheys) määritellään seuraavasti
dsty ( X , k ) = ∣ D ( X , k ) ∣ ∑ Y ∈ D ( X , k ) d ( X , Y ) (10-29) teksti{dsty}(X,k)=frac{|D( X,k)|}{mathop{sum}limits_{Yin D(X,k)}d(X,Y)}tunniste{10-29}dsty(X,k)=YD(X,k)d(X,Y)D(X,k)(10-29) (2) esine XXX/ kkk-Lähimmän naapurin paikallinen suhteellinen tiheys (suhteellinen tiheys)
rdsty ( X , k ) = ∑ Y ∈ D ( X , k ) dsty ( X , k ) / ∣ D ( X , k ) ∣ dsty ( X , k ) (10-30) teksti{rdsty}(X,k) )=frac{mathop{sum}limits_{Yin D(X,k)}text{dsty}(X,k)/|D(X,k)|}{text{dsty}(X,k)}tunniste{ 10-30}rdsty(X,k)=dsty(X,k)YD(X,k)dsty(X,k)/∣D(X,k)(10-30) sisään D ( X , k ) D(X, k)D(X,k) Se on esine XXX/ kkk- lähin naapuri (määritelmässä 10-12), ∣ D ( X , k ) ∣ |D(X,k)|D(X,k) on kokoelman esineiden lukumäärä.

2. Algoritmin kuvaus

kirjoittaja rdsty ( X , k ) text{rdsty}(X,k)rdsty(X,k) poikkeavana tekijänä OF 2 ( X , k ) teksti{OF}_2(X,k)OF2(X,k), sen laskenta on jaettu kahteen vaiheeseen
(1) Naapureiden lukumäärän mukaan kkk, laske jokainen kohde XXX/ kkk-Lähin naapuri paikallinen tiheys dsty ( X , k ) text{dsty}(X,k)dsty(X,k)
(2) Laskenta XXXlähimpien naapureiden keskimääräinen tiheys ja kkk-Lähimmän naapurin paikallinen suhteellinen tiheys rdsty ( X , k ) text{rdsty}(X,k)rdsty(X,k)
Tietojoukko koostuu useista luonnollisista klustereista. Klusterin ydinpisteen lähellä olevien kohteiden suhteellinen tiheys on lähellä yhtä, kun taas klusterin reunalla tai klusterin ulkopuolella olevien kohteiden suhteellinen tiheys on suhteellisen suuri. Siksi mitä suurempi suhteellinen tiheysarvo on, sitä todennäköisemmin se on poikkeava arvo.

Algoritmi 10-9 Outlier-ilmaisualgoritmi, joka perustuu suhteelliseen tiheyteen
Syöte: tietojoukko SSS, lähimpien naapurien lukumäärä kkk
Tulos: Epäiltyjen poikkeavien pisteiden ja vastaavien poikkeavien tekijöiden laskeva luettelo
(1) TOISTA
(2) Ota SSSkäsittelemätön objekti sisään XXX
(3) OK XXX/ kkk-Lähin naapuri D ( X , k ) D(X, k)D(X,k)
(4) Käyttö D ( X , k ) D(X, k)D(X,k)laskea XXXTiheys dsty ( X , k ) text{dsty}(X,k)dsty(X,k)
(5) KUIN SSSJokainen piste on käsitelty
(6) TOISTA
(7) Ota SSSensimmäinen esine sisään XXX
(8) OK XXXsuhteellinen tiheys rdsty ( X , k ) text{rdsty}(X,k)rdsty(X,k), ja määritä se OF 2 ( X , k ) teksti{OF}_2(X,k)OF2(X,k)
(9) AINA SSSKaikki kohteet on käsitelty
(10) Oikein OF 2 ( X , k ) teksti{OF}_2(X,k)OF2(X,k)Lajittele laskevaan järjestykseen ja tulosta ( X , OF 2 ( X , k ) ) (X,teksti{OF}_2(X,k))(X,OF2(X,k))

Esimerkki 10-14 Esimerkeissä 10-12 esitetylle kaksiulotteiselle tietojoukolle SSS (Katso lisätietoja taulukosta 10-10), joten k = 2 k = 2k=2, yritä laskea Euklidinen etäisyys X 7 , X 10 , X 11 X_7, X_{10}, X_{11}X7,X10,X11 Outlier-tekijä, joka perustuu samansuuruisten kohteiden suhteelliseen tiheyteen.

Lisää kuvan kuvaus tähän
irrottaa:koska k = 2 k = 2k=2, joten tarvitsemme kaikkien objektien 2-lähimmän naapurin paikallisen tiheyden.

(1) Etsi kunkin tietoobjektin 2-lähin naapuri taulukosta 10-11 D ( Xi , 2 ) D(X_i,2)D(Xi,2)
Saman esimerkin 10-12 laskentamenetelmän mukaan voimme saada
D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } , D ( X 2 , 2 ) = { X 1 , X 6 } , D ( X 3 , 2 ) = { X 1 , X 4 } , D ( X 4 , 2 ) = { X 3 , X 5 } , D ( X 5 , 2 ) = { X 1 , X 4 , X 6 , X 9 } , D ( X 6 , 2 ) = { X 2 . , X 5 , X 8 } , D ( X 7 , 2 ) = { X 10 , X 8 } , D ( X 8 , 2 ) = { X 2 , X 6 } , D ( X 9 , 2 ) = { X 5 , X 4 , X 6 } , D ( X 10 , 2 ) = { X 7 , X 8 } , D ( X 11 , 2 ) = { X 9 , X 5 }D(X1,2)={X2,X3,X5}D(X2,2)={X1,X6}              D(X3,2)={X1,X4}D(X4,2)={X3,X5}       D(X5,2)={X1,X4,X6,X9}D(X6,2)={X2,X5,X8}D(X7,2)={X10,X8}     D(X8,2)={X2,X6}               D(X9,2)={X5,X4,X6}D(X10,2)={X7,X8}     D(X11,2)={X9,X5} D(X1,2)={X2,X3,X5}D(X2,2)={X1,X6}              D(X3,2)={X1,X4}D(X4,2)={X3,X5}       D(X5,2)={X1,X4,X6,X9}D(X6,2)={X2,X5,X8}D(X7,2)={X10,X8}     D(X8,2)={X2,X6}               D(X9,2)={X5,X4,X6}D(X10,2)={X7,X8}     D(X11,2)={X9,X5}

(2) Laske kunkin tietoobjektin paikallinen tiheys dsty ( X i , 2 ) teksti{dsty}(X_i,2)dsty(Xi,2)

① Laske X 1 X_1X1Tiheys
koska D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } D(X_1,2)={X_2, X_3, X_5}D(X1,2)={X2,X3,X5}, joten laskennan jälkeen meillä on d ( X 1 , X 2 ) = 1 d(X_1, X_2) = 1d(X1,X2)=1 d ( X 1 , X 3 ) = 1 d(X_1, X_3) = 1d(X1,X3)=1 d ( X 1 , X 5 ) = 1 d(X_1, X_5) = 1d(X1,X5)=1
Kaavan (10-29) mukaan saamme:
dsty ( X 1 , 2 ) = ∣ D ( X 1 , 2 ) ∣ ∑ Y ∈ N ( X 1 , 2 ) d ( X 1 , Y ) = ∣ N ( X 1 , 2 ) ∣ d ( X 1 , X ) 2) + d ( X 1 , X 3 ) + d ( X 1 , X 5 ) = 3 1 + 1 + 1 = 1dsty(X1,2)=|D(X1,2)|YN(X1,2)d(X1,Y)=|N(X1,2)|d(X1,X2)+d(X1,X3)+d(X1,X5)=31+1+1=1 dsty(X1,2)=YN(X1,2)d(X1,Y)D(X1,2)=d(X1,X2)+d(X1,X3)+d(X1,X5)N(X1,2)=1+1+13=1

② Laskenta X 2 X_2X2Tiheys
koska D ( X 2 , 2 ) = { X 1 , X 6 } D(X_2,2)={X_1, X_6}D(X2,2)={X1,X6}, joten laskettu d ( X 2 , X 1 ) = 1 d(X_2, X_1) = 1d(X2,X1)=1 d ( X 2 , X 6 ) = 1 d(X_2, X_6) = 1d(X2,X6)=1
Kaavan (10-29) mukaan saamme:
dsty ( X 2 , 2 ) = ∣ D ( X 2 , 2 ) ∣ ∑ Y ∈ N ( X 2 , 2 ) d ( X 2 , Y ) = 2 1 + 1 = 1dsty(X2,2)=|D(X2,2)|YN(X2,2)d(X2,Y)=21+1=1 dsty(X2,2)=YN(X2,2)d(X2,Y)D(X2,2)=1+12=1

Muiden tietoobjektien paikallinen tiheys voidaan laskea samalla tavalla, katso Taulukko 10-12 alla.

Lisää kuvan kuvaus tähän
(3) Laske jokainen kohde X ja X_iXisuhteellinen tiheys rdsty ( X i , 2 ) text{rdsty}(X_i, 2)rdsty(Xi,2)ja pitää sitä poikkeavana tekijänä OF 2 teksti{OF}_2OF2
① Laske X 1 X_1X1suhteellinen tiheys
Käyttämällä kunkin kohteen tiheysarvoa taulukossa 10-12 suhteellisen tiheyden kaavan (10-30) mukaisesti:
rdsty ( X 1 , 2 ) = ∑ Y ∈ N ( X 1 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 1 , 2 ) ∣ dsty ( X 1 , 2 ) = ( 1 + 1 + 1 ) / 3 1 = 1 = 2 ( X 1 , 2 )rdsty(X1,2)=YN(X1,2)dsty(Y,2)/|N(X1,2)|dsty(X1,2)=(1+1+1)/31=1=OF2(X1,2) rdsty(X1,2)=dsty(X1,2)YN(X1,2)dsty(Y,2)/∣N(X1,2)=1(1+1+1)/3=1=OF2(X1,2)

② Samanlainen laskelma voidaan saada X 2 、 X 3 、 … 、 X 11 X_2 、 X_3 、… 、 X_{11}X2X3X11 suhteellinen tiheysarvo.
esimerkiksi X 5 X_5X5Suhteellinen tiheys:
rdsty ( X 5 , 2 ) = ∑ Y ∈ N ( X 5 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 5 , 2 ) ∣ dsty ( X 5 , 2 ) = ( 1 + 1 + 1 + 0,79 ) ) / 4 1 = 0,95 = OF 2 ( X 5 , 2 )rdsty(X5,2)=YN(X5,2)dsty(Y,2)/|N(X5,2)|dsty(X5,2)=(1+1+1+0.79)/41=0.95=OF2(X5,2) rdsty(X5,2)=dsty(X5,2)YN(X5,2)dsty(Y,2)/∣N(X5,2)=1(1+1+1+0.79)/4=0.95=OF2(X5,2) Tulokset on koottu alla oleviin taulukoihin 10-13.

Lisää kuvan kuvaus tähän
Esimerkki 10-15 Kun otetaan huomioon taulukossa 10-14 näkyvä tietojoukko, käytä eukleideen etäisyyttä k = 2, 3, 5 k = 2,3,5k=2,3,5, laske kunkin pisteen arvo kkk- lähin naapuri paikallinen tiheys, kkk-Lähimmän naapurin paikallinen suhteellinen tiheys (outlier-tekijä OF 2 teksti{OF}_2OF2) ja sen perusteella kkk- Lähimmän naapurin etäisyyden ulkoinen kerroin OF 1 tekstiä{OF}_1OF1

Lisää kuvan kuvaus tähän
irrottaa: (1) Ymmärtämisen helpottamiseksi se voi olla SSSPisteiden suhteellinen sijainti on merkitty kaksiulotteiseen tasoon (Kuva 10-30).

Lisää kuvan kuvaus tähän
(2) Käytä etäisyyteen ja suhteelliseen tiheyteen perustuvia algoritmeja 10-8 ja 10-9.Laske jokainen kohde erikseen kkk-Lähin naapuri paikallinen tiheys dsty text{dsty}dsty kkk-Lähimmän naapurin paikallinen suhteellinen tiheys (outlier-tekijä OF 2 teksti{OF}_2OF2) ja sen perusteella kkk- Lähimmän naapurin etäisyyden ulkoinen kerroin OF 1 tekstiä{OF}_1OF1, tulokset on koottu taulukkoon 10-15.

Lisää kuvan kuvaus tähän
(3) Yksinkertainen analyysi
① Kuten kuvasta 10-30 näkyy, X 15 X_{15}X15ja X 16 X_{16}X16Joo SSSOn olemassa kaksi ilmeistä poikkeavaa, ja etäisyyteen ja suhteelliseen tiheyteen perustuvat menetelmät voivat kaivaa ne paremmin esiin;
② Tästä esimerkistä kahdella algoritmilla on kkkei ole niin herkkä kuin odotettiin, ehkä se on poikkeava. X 15 X_{15}X15ja X 16 X_{16}X16Ero muista esineistä on hyvin ilmeinen.
③Kuten taulukosta 10-15 voidaan nähdä, ei väliä kkkOta 2, 3 tai 5, X 1 X_1X1alueelta dsty text{dsty}dsty arvot ovat huomattavasti alhaisemmat kuin X 7 X_7X7alueelta dsty text{dsty}dsty arvo, joka on yhdenmukainen kuvassa 10-30 esitetyn alueen tiheyden kanssa.Mutta näiden kahden alueen suhteellinen tiheysarvo OF 2 teksti{OF}_2OF2 Mutta ilmeistä eroa ei juuri ole. Tämä määräytyy suhteellisen tiheyden luonteen mukaan, eli tasaisesti jakautuneilla datapisteillä ydinpisteiden suhteellinen tiheys on 1, riippumatta pisteiden välisestä etäisyydestä.

7. Muut klusterointimenetelmät

1. Parannettu klusterointialgoritmi

  (1) kkk-mod ( kkk-modes) -algoritmi on tarkoitettu kkk - Keskimääräinen algoritmi soveltuu vain numeeristen attribuuttien rajoittamiseen, ja sen ehdotetaan saavuttavan diskreetin datan nopea klusterointi.koska kkk-Modulaarinen algoritmi käyttää yksinkertaista 0-1-sovitusmenetelmää kahden attribuutin arvon välisen etäisyyden laskemiseen saman diskreetin attribuutin alla, mikä heikentää ordinaalisten attribuuttiarvojen välistä eroa, eli se ei voi täysin heijastaa kahden attribuutin arvon eroa Saman järjestysmääritteen alla on vielä parantamisen ja parantamisen varaa.
  (2) kkk-prototyyppi ( kkk-Prototyyppi) -algoritmi yhdistettynä kkk- Keskiarvoistusalgoritmi kkk -Modulaarisen algoritmin etuna on, että se voi klusteroida tietojoukkoja, joissa on sekä diskreettejä että numeerisia attribuutteja (kutsutaan yhdistetyiksi attribuuteiksi).Se vaatii erilliset attribuutit kkk-Modulaarinen algoritmilaskentaobjekti XXXja YYYvälinen etäisyys d 1 ( X , Y ) d_1 (X, Y)d1(X,Y), käytä numeerisia määritteitä varten kkk-Keskiarvotusalgoritmin menetelmät laskevat kohteiden välisen etäisyyden d 2 ( X , Y ) d_2(X, Y)d2(X,Y), ja käytä lopuksi painotusmenetelmää, eli α d 1 ( X , Y ) + ( 1 − α ) d 2 ( X , Y ) alfa d_1(X,Y)+(1-alfa)d_2(X,Y)αd1(X,Y)+(1α)d2(X,Y) tietojoukkoobjektina XXXja YYYvälinen etäisyys d ( X , Y ) d(X, Y)d(X,Y),sisään α ∈ [ 0 , 1 ] alfaiini[0,1]α[0,1] on painokerroin, yleensä se voi olla a = 0,5 alfa = 0,5α=0.5
(3) BIRCH-algoritmi (Balanced Iterative Reducing and Clustering Using Hierarchies) on kattava hierarkkinen klusterointimenetelmä.Se käyttää klusterointiominaisuuksia (CF) ja klusterointiominaisuuspuuta (CF Tree, samanlainen kuin B-puu) tiivistämään klusteriklusterit. C i C_iCi,sisään CF i = ( ni , LS i , SS i ) teksti{CF}_i=(ni, teksti{LS}_i,teksti{SS}_i)CFi=(ni,LSi,SSi) on kolmos, ni n_inion klusterin objektien lukumäärä, LS i tekstiviesti{LS}_iLSiJoo ni n_iniobjektikomponenttien lineaarinen summa, SS i tekstiviesti{SS}_iSSiJoo ni n_iniObjektin komponenttien neliöiden summa.
(4) CURE (Clustering Using Representatives) -algoritmi on tarkoitettu kkk -Toinen parannus keskiarvoistusalgoritmiin. Monet klusterointialgoritmit ovat hyviä vain klusteroimaan pallomaisia ​​klustereita, kun taas jotkin klusterointialgoritmit ovat herkempiä eristetyille pisteille. CURE-algoritmia on muutettu edellä olevien kahden ongelman ratkaisemiseksi kkk-Keskiarvoistusalgoritmi käyttää klusterin keskisummaa kkk-Keskipistealgoritmi käyttää yhtä tiettyä objektia edustamaan klusteria, perinteinen menetelmä, mutta käyttää useita edustavia objekteja klusterissa edustamaan klusteria, jotta se voi mukautua ei-pallomaisten klustereiden ryhmittymiseen ja vähentää klusterin vaikutusta. melua klusteroinnissa.
(5) ROCK (RObust Clustering using linK) -algoritmi on klusterointialgoritmi, jota ehdotetaan binäärisille tai kategorisille attribuuttitietosarjoille.
(6) OPTICS (Ordering Points To Identify the Clustering Structure) -algoritmia käytetään vähentämään DBSCAN-algoritmin tiheyttä. ( ε , MinPts ) (varepsilon,teksti{MinPts})(ε,MinPts) parametrien herkkyys. Se ei luo nimenomaisesti tulosklustereita, vaan luo lisätyn klusterisijoituksen klusterianalyysiä varten (esimerkiksi koordinaattikaavion, jossa on saavutettava etäisyys pystyakselina ja näytepisteiden tulostusjärjestys vaaka-akselina). Tämä järjestys edustaa kunkin näytepisteen tiheyteen perustuvaa klusterointirakennetta.Voimme saada tästä lajittelusta minkä tahansa tiheysparametrin perusteella ( ε , MinPts ) (varepsilon,teksti{MinPts})(ε,MinPts) DBSCAN-algoritmin klusterointitulokset.

2. Muut uudet klusterointimenetelmät

Käytä uusia teorioita tai tekniikoita uusien klusterointimenetelmien suunnittelussa.

(1) Grid-pohjainen klusterointimenetelmä
Grid-pohjainen menetelmä kvantifioi objektitilan rajoitettuun määrään soluja ruudukkorakenteen muodostamiseksi, ja kunkin ulottuvuuden jakopisteiden sijaintitiedot tallennetaan taulukkoon. Jakoviivat kulkevat koko tilan läpi ja kaikki klusterit toiminnot suoritetaan Suoritetaan tässä ruudukkorakenteessa (eli kvantisointitilassa). Tämän menetelmän tärkein etu on, että sen käsittelynopeus on riippumaton tietoobjektien määrästä ja se liittyy vain kvantifiointiavaruuden kunkin ulottuvuuden solujen määrään klusteroinnin kustannuksella tarkkuuden kustannuksella. Koska ruudukkoklusterointialgoritmissa on kvantifiointiasteikon ongelma, aloitamme yleensä ensin etsimään klustereita pienistä yksiköistä, lisäämme sitten vähitellen yksiköiden kokoa ja toistamme tätä prosessia, kunnes tyydyttävät klusterit löytyvät.

(2) Mallipohjainen klusterointimenetelmä
Mallipohjaiset menetelmät olettavat jokaiselle klusterille mallin ja löytävät tiedoista parhaan yhteensopivuuden annettuun malliin. Mallipohjaiset menetelmät pyrkivät optimoimaan mukautuvuutta tietyn datan ja tiettyjen tietomallien välillä luomalla tiheysfunktioita, jotka heijastavat näytteiden spatiaalista jakautumista klustereiden paikantamiseksi.

(3) Sumeaan joukkoon perustuva klusterointimenetelmä
Käytännössä ei ole tiukkaa attribuutioarvoa, mihin klusteriin useimmat kohteet kuuluvat. Niiden attribuutioarvossa ja -muodossa on väli- tai epävarmuus, mikä sopii pehmeään osiointiin. Koska sumean klusterointianalyysin etuna on se, että se kuvaa otosattribuution välisyyttä ja se voi heijastaa objektiivisesti todellista maailmaa, siitä on tullut yksi tämän päivän klusterianalyysitutkimuksen kuumista kohdista.
Sumea klusterointialgoritmi on valvomaton oppimismenetelmä, joka perustuu sumeaan matemaattiseen teoriaan ja epävarmaan klusterointimenetelmään. Kun sumeaa klusterointia ehdotettiin, se sai suuren huomion akateemisesta yhteisöstä.

(4) Karkeaan joukkoon perustuva klusterointimenetelmä
Karkea klusterointi on karkeaan joukkoteoriaan perustuva epävarma klusterointimenetelmä. Karkeiden joukkojen ja klusterointialgoritmien välisen kytkennän näkökulmasta karkeat klusterointimenetelmät voidaan jakaa kahteen kategoriaan: vahva kytkentä karkea klusterointi ja heikko kytkentä karkea klusterointi.
Klusterianalyysin uudet tutkimussuunnat ovat tietysti paljon enemmän kuin nämä. Esimerkiksi tietovirran louhinta- ja klusterointialgoritmit, epävarmat tiedot ja sen klusterointialgoritmit, kvanttilaskenta ja kvanttigeeniklusterointialgoritmit ovat kaikki viime vuosina syntyneitä klusterointiteknologioita. huippuluokan tutkimusaiheita.

3. Muut outlier-louhintamenetelmät

Aiemmin esitellyt outlier-louhintamenetelmät ovat vain kaksi kypsiä louhintamenetelmiä. Ne voidaan määrittää kaivosmenetelmässä käytetyn teknologian perusteella kulmat: aste.

(1) Käytetty tekniikka
Pääasiassa on tilastollisia menetelmiä, etäisyyspohjaisia ​​menetelmiä, tiheyteen perustuvia menetelmiä, klusterointiin perustuvia menetelmiä, poikkeamiin perustuvia menetelmiä, syvyyspohjaisia ​​menetelmiä, aallokemuunnospohjaisia ​​menetelmiä, graafipohjaisia ​​menetelmiä, kuviopohjaisia ​​menetelmiä ja hermoverkkoja. menetelmät jne.

(2) Aiemman tiedon hyödyntäminen
Normaalin tai poikkeavan luokan tietojen saatavuudesta riippuen on kolme yleistä lähestymistapaa:
① Valvomaton outlier-tunnistusmenetelmä, eli tietojoukossa ei ole aiempaa tietoa, kuten luokkamerkintöjä;
② Valvottu poikkeamien havaitsemismenetelmä, eli poikkeavien ominaisuuksien poimiminen poikkeavia arvoja ja normaalipisteitä sisältävän harjoitusjoukon avulla;
③ Puolivalvottu poikkeavien tunnistusmenetelmä, opetusdata sisältää merkittyä normaalia dataa, mutta poikkeavien tietoobjektien tietoja ei ole.