Klusterianalyysimenetelmä (3)

2024-07-12

Sisällysluettelo

5. Klusteroinnin laadun arviointi

Klusterianalyysin tarkoituksena on hajottaa tietojoukko osajoukkoihin, kutakin osajoukkoa kutsutaan klusteriksi ja kaikkien osajoukkojen joukkoa kutsutaan objektijoukon klusteriksi. Hyvän klusterointialgoritmin tulisi tuottaa korkealaatuisia klustereita ja korkealaatuisia klustereita, toisin sanoen klusterien sisäinen yleinen samankaltaisuus on suurin, kun taas klusterien välinen yleinen samankaltaisuus on pienin.Ottaen huomioon, että monet klusterointialgoritmit sisältävät $k$ -Keskiarvoistusalgoritmi, DBSCAN-algoritmi jne. edellyttävät, että käyttäjä määrittää klustereiden lukumäärän etukäteen klusterissa $k$ , siksi k:n yksinkertaista estimointimenetelmää käsitellään jäljempänä.

(1) Arvio klusterien lukumäärästä

Monet klusterointialgoritmit, kuten $k$ - Keskiarvoalgoritmien, jopa DIANA-algoritmien jne., on määritettävä klusterien määrä etukäteen $k$ ,ja $k$ Tahdon arvo vaikuttaa suuresti klusteroinnin laatuun. Klusterien määrä on kuitenkin määritettävä etukäteen. $k$ Ei helppo tehtävä. Voimme ensin tarkastella kahta ääritapausta.
(1) Aseta koko tietojoukko $S$ pidetään klusterina, eli $k = 1$ , tämä vaikuttaa yksinkertaiselta ja kätevältä, mutta tämän klusterianalyysin tuloksilla ei ole arvoa.
(2) Aseta tietojoukko $S$ Jokaista kohteen kohdetta käsitellään klusterina, eli anna $k = ∣ S ∣ = n$ , mikä tuottaa hienojakoisimman klusteroinnin. Siksi kussakin klusterissa ei ole klusterin sisäistä eroa, ja klusterin sisäinen samankaltaisuus saavuttaa korkeimman tason.Mutta tällaista klusterointia ei voida käyttää $S$ antaa mitään tietoa aiheesta $S$ yleinen kuvaus.
Voidaan nähdä, että klustereiden määrä $k$ pitäisi ainakin tyydyttää $2 \leq k \leq n - 1$ , mutta klustereiden määrä $k$ Se, mikä arvo on täsmälleen sopivin, jää epäselväksi.
Yleisesti katsottuna, $k$ Arvo voidaan arvioida tietojoukkojakauman muodon ja mittakaavan sekä käyttäjän vaatiman klusterointiresoluution perusteella, ja tutkijoilla on monia erilaisia estimointimenetelmiä, kuten kyynärpäämenetelmä, ristiinvalidointimenetelmä ja informaatioteoria- perustuvia menetelmiä jne.
Yksinkertainen ja yleisesti käytetty $k$ Arvon empiirinen estimointimenetelmä uskoo, että niille, joilla $n$ Objektien tietojoukko, niiden klustereiden määrä, joihin se on ryhmitelty $k$ Valita $begin{aligned}sqrtfrac{n}{2}end{aligned}$ Se on tarkoituksenmukaista.Tällä hetkellä keskimääräisen odotuksen alapuolella kullakin klusterilla on noin $2 n$ esineitä.Tämän perusteella jotkut ovat ehdottaneet lisärajoituksia, eli klusterien määrää $k < n$ 。
Oletetaan esimerkiksi $n = 8$ , sitten klusterien lukumäärä $k = 2$ on sopiva, ja keskimäärin 4 pistettä klusteria kohden ja lisäempiirisen kaavan mukaan $k < 2.83$ .Näiden kahden tiedon käyttäminen klusterien lukumäärästä $k$ Empiirinen kaava näyttää selitettävän toiselta puolelta, esimerkissä 10-5 $k = 2$ on sopivin klustereiden lukumäärä.

(2) Ulkoinen laadunarviointi

Jos meillä on hyvä arvio klustereiden määrästä $k$ , voit käyttää yhtä tai useampaa klusterointimenetelmää, esimerkiksi $k$ - Keskimääräinen algoritmi, agglomeratiivinen hierarkkinen algoritmi tai DBSCAN-algoritmi suorittaa klusterianalyysin tunnetuille tietojoukoille ja saa useita erilaisia klusterointituloksia. Kysymys on nyt siitä, millä menetelmällä on parempia klusterointituloksia, eli miten vertailla eri menetelmien tuottamia klusterointituloksia. Tämä on klusteroinnin laatuarviointi.
Tällä hetkellä valittavissa on monia menetelmiä klusteroinnin laadun arviointiin, mutta ne voidaan yleensä jakaa kahteen kategoriaan, nimittäin ulkoiseen (ulkoiseen) laadunarviointiin ja sisäiseen (sisäiseen) laadunarviointiin.
Ulkoinen laadunarviointi olettaa, että aineistossa on jo olemassa (yleensä asiantuntijoiden rakentama) klusteri, ja vertaa sitä yleisesti käytettynä benchmark-menetelmänä tietyn algoritmin klusterointituloksiin ovat kaksi yleistä menetelmää luokan tarkkuuteen.

1. Klusterin entropiamenetelmä

Hypoteettinen tietojoukko $S={X_1, X_2,…, X_n}$ ,ja $T={T_1,T_2,…,T_m}$ on ihanteellinen standardiklusteri, jonka asiantuntijat ja $C={C_1, C_2,…, C_k}$ määritetään algoritmilla noin $S$ Klusteri ja sitten klusteri $C_i$ Suhteessa perusklusterointiin $T$ Kohteen klusterointientropia määritellään seuraavasti
$=-sum_{j=1}^mfrac{|C_icap T_j|}{|C_i|}log_2frac{|C_icap T_j|}{|C_i|}tunniste{10-20}$ ja $C$ Tietoja vertailuarvoista $T$ Kohteen yleinen klusterointientropia määritellään kaikiksi klustereiksi $C_i$ Tietoja vertailuarvoista $T$ Klusterientropian painotettu keskiarvo eli
$}rajat_{i=1}^k|C_i|}summa_{i=1}^k|C_i|kertaa E(C_i|T)-tunniste{10-21}$ Klusterointientropiamenetelmä uskoo, että $E (C)$ Mitä pienempi arvo, sitä $C$ Suhteessa perustilaan $T$ Mitä korkeampi klusteroinnin laatu.
On syytä huomata, että kaavan (10-21) oikealla puolella olevan ensimmäisen termin nimittäjä $begin{aligned}sum_{i=1}^k|C_i|end{aligned}$ on kunkin klusterin elementtien lukumäärän summa, eikä sitä voida käyttää $n$ Korvata.Koska vain silloin $C$ Kun on osiointiklusteri, nimittäjä on $n$ , ja yleisten klusterointimenetelmien, kuten DBSCAN-klusteroinnin, nimittäjä voi olla pienempi kuin $n$ 。

2. Klusterin tarkkuus

Klusterin tarkkuuden (tarkkuuden) arvioinnin perusideana on käyttää klusterin suurinta määrää kategorioita klusterin eli klusterin luokkatunnisteena. $C_i$ , jos sellainen on olemassa $T_j$ tehdä $|C_icap T m ∣ } |C_icapx{_j|=max{_| C_icap T_2|,cdots,|C_icap T_m|}$ , niin katsotaan $C_i$ Luokka on $T_j$ .Siksi klusteri $C_i$ Tietoja vertailuarvoista $T$ Tarkkuus määritellään seuraavasti
$1(Ci_2) | T)=frac{max{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}}{|C_i|}tunniste{10-22}$ ja $C$ Tietoja vertailuarvoista $T$ Yleinen tarkkuus on määritelty kaikille klusteille $C_i$ Tietoja vertailuarvoista $T$ Klusterointitarkkuuden painotettu keskiarvo eli
$}rajat_{i=1}^k|C_i|}summa_{i=1}^k|C_i|kertaa J(C_i|T)-tunniste{10-23}$ Klusterin tarkkuusmenetelmä uskoo, että $J (C)$ Mitä suurempi arvo, sitä klusterit $C$ Suhteessa perustilaan $T$ Mitä korkeampi klusteroinnin laatu.
Lisäksi yleisesti $1 - J (C)$ nimeltään $C$ Tietoja vertailuarvoista $T$ yleinen virheprosentti.Siksi klusteroinnin tarkkuus $J (C)$ Suuri tai yleinen virheprosentti $1 - J (C)$ Pieni, se osoittaa, että klusterointialgoritmi pystyy paremmin klusteroimaan eri luokkien objektit eri klustereiksi, eli klusterointitarkkuus on korkea.

(3) Sisäinen laadunarviointi

Sisäiseen laadunarviointiin ei tunneta ulkoisia vertailuarvoja, käytetään vain tietokokonaisuuksia $S$ ja klusterointi $C$ Arvioi klusterin luontaiset ominaisuudet ja suuruudet $C$ laatua. Toisin sanoen klusterointivaikutus arvioidaan yleensä laskemalla keskimääräinen samankaltaisuus klustereiden sisällä, keskimääräinen samankaltaisuus klustereiden välillä tai yleinen samankaltaisuus.
Sisäinen laadunarviointi liittyy klusterointialgoritmiin. Klusterin tehokkuusindeksiä käytetään pääasiassa klusterointivaikutuksen laadun arvioimiseen. Ihanteellinen klusterointivaikutus on pienin klusterin välinen etäisyys Suurin klusteri Siksi klusteroinnin tehokkuutta mitataan yleensä jollain tavalla klusterin sisäisen etäisyyden ja klusterin välisen etäisyyden suhteella. Yleisesti käytettyjä tämän tyyppisiä indikaattoreita ovat CH-indikaattori, Dunn-indikaattori, I-indikaattori, Xie-eni-indikaattori jne.

1. CH-ilmaisin

CH-indeksi on lyhenne Calinski-Harabasz-indeksistä. Se laskee ensin kunkin klusterin pisteen ja sen klusterin keskipisteen välisen etäisyyden neliösumman, minkä jälkeen se laskee etäisyyden neliön summan kunkin klusterin keskipisteen ja mitattavan tietojoukon keskipisteen välillä Tietojoukon erottelu ja erotuksen suhde läheisyyteen on CH-indeksi.
perustaa $yliviivaus{X}_i$ edustaa klusteria $C$ keskipiste (keskiarvo), $\overline{X}$ edustaa tietojoukkoa $S$ keskipiste $d(yliviiva{X}_i,yliviiva{X})$ varten $yliviivaus{X}_i$ saapua $\overline{X}$ Tietty etäisyysfunktio , sitten klusterointi $C$ Keskiklusterin tiiviys määritellään seuraavasti
$teksti{Trace}(A)=summa_{i=1}^ksum_{X_jin C_i} d(X_j,overline{X}_i)^2tag{10-24}$ Siksi Trace(A) on klusteri $C$ Klusterin keskusten välisten neliöetäisyyksien summa.Ja klusterointi $C$ Erotusaste määritellään seuraavasti
$teksti{Trace}(B)=summa_{i=1}^k|C_i|d( overline{X}_i,overline{X})^2tag{10-25}$ Eli Trace(B) klusteroi $C$ Jokainen klusterin keskipiste $S$ Painotettu summa neliöetäisyydet keskipisteestä .
Tästä, jos $begin{aligned}N=sum_{i=1}^k|C_i|end{aligned}$ Sitten CH-ilmaisin voidaan määritellä seuraavasti
$V_{teksti{CH}}(k)=frac{text{Trace}(B) )/(k-1)}{text{Trace}(A)/(Nk)}tunniste{10-26}$ Kaavaa (10-26) käytetään yleensä kahdessa seuraavassa tilanteessa:
(1) Arvioi kumpi kahdella algoritmilla saatu klusterointi on parempi.
Oletetaan, että datajoukon analysointiin käytetään kahta algoritmia $S$ Klusterianalyysi suoritettiin ja kaksi erilaista klusteria (molemmat sisälsivät $k$ klusterit), suurempaa CH-arvoa vastaava klusterointi on parempi, koska mitä suurempi CH-arvo tarkoittaa, että klusterin jokainen klusteri on lähempänä itseään ja klusterit ovat hajaantuneempia.
(2) Arvioi kumpi kahdesta samalla algoritmilla saadusta klusterista, joissa on eri määrä klustereita, on parempi.
Oletetaan, että algoritmilla on tietojoukko $S$ Klusterianalyysi suoritettiin ja klusterien lukumäärä saatiin muodossa $k_1$ ja $b_2$ Näistä kahdesta klusterista klusterointitulos suuremmalla CH-arvolla on parempi, mikä tarkoittaa myös sitä, että tätä klusteria vastaava määrä on sopivampi.Siksi kaavaa (10-26) toistuvasti soveltamalla voimme saada myös tietojoukon $S$ Optimaalinen klusterien määrä klusterointia varten.

2. Dunn-osoitin

Dunn-indikaattori käyttää klustereita $C_i$ klusterin kanssa $C_j$ vähimmäisetäisyys välillä $d_s(C_i, C_j)$ klusterien välisen eron laskemiseen käyttämällä kaikkien klustereiden suurinta klusterin halkaisijaa $max{varPhi(C_1), varPhi(C_2),..., varPhi(C_k)}$ Klusterin sisäisen tiukkuuden kuvaamiseksi Dunn-indeksi on edellisen ja jälkimmäisen välisen suhteen vähimmäisarvo, joka on
$V_D(k)=min_{i≠j}frac{d_s(C_i,C_j)}{max{varPhi(C_1), varPhi(C_2),...,varPhi (C_k)}}tunniste{10-27}$ Mitä suurempi Dunn-arvo on, sitä pidempi klusterien välinen etäisyys on ja sitä parempi vastaava klusterointi.Samoin kuin CH-arviointiindeksiä, Dunn-indeksiä voidaan käyttää eri algoritmeilla saatujen klustereiden laadun arvioimiseen, ja sen avulla voidaan myös arvioida, mitkä samalla algoritmilla saadut klusterit eri klusterimäärillä ovat parempia, ts. voidaan käyttää etsimään $S$ optimaalinen määrä klustereita.

6. Outlier louhinta

Outliers ovat tietojoukon erityistietoja, jotka poikkeavat merkittävästi suurimmasta osasta tiedoista. Aiemmin esiteltyjen tietojen louhintaalgoritmien, kuten luokittelun ja klusteroinnin, painopiste on löytää säännöllisiä malleja, jotka koskevat useimpia tietoja. Siksi monet tiedonlouhintaalgoritmit yrittävät vähentää tai eliminoida poikkeamien vaikutusta ja vähentää poikkeavia pisteitä tai jätetään huomiotta meluna, mutta monissa käytännön sovelluksissa epäillään, että poikkeamapisteiden poikkeama ei johdu satunnaisista tekijöistä, vaan se voi johtua muista täysin erilaisista mekanismeista, jotka on kaivettava esiin erityistä analyysiä ja hyödyntämistä varten. Esimerkiksi sovellusalueilla, kuten turvallisuuden hallinnassa ja riskienhallinnassa, poikkeavien arvojen tunnistamismalli on arvokkaampi kuin normaalin datan malli.

(1) Yleiskatsaus asiaan liittyviin kysymyksiin

Sana Outlier käännetään yleensä poikkeavuudeksi, mutta myös poikkeavuudeksi. Eri sovellustilanteissa on kuitenkin monia aliaksia, kuten yksittäiset pisteet, epänormaalit pisteet, uudet pisteet, poikkeamapisteet, poikkeuspisteet, kohina, epänormaalit tiedot jne. Outlier louhinnalla on kiinalaisessa kirjallisuudessa samanlaisia termejä, kuten poikkeamien tiedon louhinta, poikkeamien tietojen havaitseminen, poikkeavien tietojen louhinta, poikkeustietojen louhinta ja harvinaisten tapahtumien louhinta.

1. Poikkeamien syntyminen

(1) Tiedot ovat peräisin petoksista, tunkeutumisesta, taudinpurkauksista, epätavallisista koetuloksista jne. Esimerkiksi jonkun keskimääräinen puhelinlasku on noin 200 yuania, mutta nousee yhtäkkiä useisiin tuhansiin juaneihin tietyssä kuukaudessa jonkun luottokortti kuluttaa yleensä noin 5 000 yuania kuukaudessa, mutta tietyssä kuukaudessa kulutus ylittää 30 000 yuania jne. Tällaiset poikkeamat ovat yleensä suhteellisen mielenkiintoisia tiedon louhinnassa ja yksi tärkeimmistä käyttökohteista.
(2) Johtuu tietomuuttujien luontaisista muutoksista, jotka heijastavat tiedon jakautumisen luonnollisia ominaisuuksia, kuten ilmastonmuutos, asiakkaiden uudet ostotottumukset, geneettiset mutaatiot jne. Myös yksi mielenkiintoisista painopistealueista.
(3) Mittaus- ja tiedonkeruuvirheet johtuvat pääasiassa inhimillisistä virheistä, mittauslaitteiden viasta tai melusta. Esimerkiksi opiskelijan arvosana -100 tietyllä kurssilla voi johtua ohjelman asettamasta oletusarvosta, että yrityksen ylimmän johdon palkka on huomattavasti tavallisten työntekijöiden palkkaa korkeampi, saattaa tuntua poikkeavalta, mutta se on; Kohtuullinen data.

2. Outlier kaivosongelma

Yleensä outlier-kaivosongelma voidaan jakaa kolmeen kuvattavaksi aliongelmaksi.
(1) Määrittele poikkeamat
Koska poikkeamat liittyvät läheisesti käytännön ongelmiin, on outlier-louhinnan lähtökohta ja ensisijainen tehtävä selkeästi määritellä, millaiset tiedot ovat poikkeavia tietoja Anna asianmukainen kuvaus tai määritelmä.
(2) Kaivostoiminnan poikkeamat
Kun outlier-pisteet on määritelty selkeästi, mitä algoritmia käytetään määritellyjen poikkeavien pisteiden tunnistamiseen tai louhimiseen, on poikkeavien louhinnan avaintehtävä. Poikkeavien louhintaalgoritmi antaa käyttäjille tavallisesti epäilyttäviä poikkeavia tietoja dataan heijastuvien kuvioiden näkökulmasta kiinnittääkseen käyttäjän huomion.
(3) Ymmärrä poikkeamat
Kaivostulosten järkevä selittäminen, ymmärtäminen ja käytännön soveltamisen opastaminen ovat outlier-kaivostoiminnan tavoitteita. Koska mekanismi, jolla poikkeamat syntyvät, on epävarma, poikkeavien louhintaalgoritmin havaitsemien "poikkeavien tekijöiden" vastaavuus todellakin todellista epänormaalia käyttäytymistä ei voida selittää ja selittää poikkeavien louhintaalgoritmilla, vaan ne voidaan selittää vain poikkeavien louhintaalgoritmilla. alan tai toimialueen asiantuntijoita ymmärtämään ja selittämään ohjeita.

3. Poikkeamien suhteellisuus

Poikkeamat ovat tietojoukon erikoistietoja, jotka ilmeisesti poikkeavat suurimmasta osasta tiedoista, mutta "ilmeisesti" ja "enimmäkseen" ovat suhteellisia, eli vaikka poikkeamat ovat erilaisia, ne ovat suhteellisia. Siksi poikkeamien määrittelyssä ja louhinnassa on otettava huomioon useita asioita.
(1) Globaalit tai paikalliset poikkeamat
Tietoobjekti voi olla poikkeava suhteessa paikallisiin naapureihinsa, mutta ei suhteessa koko tietojoukkoon. Esimerkiksi oppilas, joka on 1,9 metriä pitkä, on poikkeava koulumme matematiikan pääaineen luokassa 1, mutta ei eri puolilla maata olevien ihmisten keskuudessa, mukaan lukien ammattilaispelaajat, kuten Yao Ming.
(2) Poikkeamien lukumäärä
Vaikka poikkeavien pisteiden lukumäärää ei tunneta, normaalipisteiden lukumäärän pitäisi olla paljon suurempi kuin poikkeavien pisteiden lukumäärä poikkeavista pisteistä Sen tulee olla alle 5 % tai jopa alle 1 %.
(3) Pisteen poikkeava kerroin
Et voi käyttää "kyllä" tai "ei" ilmoittaaksesi, onko objekti poikkeava. Käytä sen sijaan kohteen poikkeaman astetta eli outlier-tekijää (Outlier Factor) tai outlier-pistettä (Outlier Score). luonnehtia datan poikkeamaa ryhmäasteesta ja sitten suodattaa pois tietyn kynnyksen ylittävät poikkeamat tekijät, antaa ne päätöksentekijöille tai alan asiantuntijoille ymmärrystä ja selitystä varten sekä soveltaa niitä käytännön työssä.

(2) Etäisyyteen perustuva menetelmä

1. Peruskäsitteet

Määritelmä 10-11 On positiivinen kokonaisluku $k$ , objekti $X$ / $k$ -Lähin naapurietäisyys on positiivinen kokonaisluku, joka täyttää seuraavat ehdot $d_k (X)$ ：
(1) paitsi $X$ Lisäksi niitä on ainakin $k$ esineitä $Y$ tyydyttää $d(X,Y)≤d_k(X)$ 。
(2) paitsi $X$ Lisäksi niitä on korkeintaan $k - 1$ esineitä $Y$ tyydyttää $d (X, Y) < d_{k} (X)$ 。
sisään $d (X, Y)$ on esine $X$ ja $Y$ jokin etäisyysfunktio niiden välillä.

esineestä $k$ -Mitä suurempi lähimmän naapurin etäisyys, sitä todennäköisemmin kohde on kaukana suurimmasta osasta dataa, joten kohde voidaan $X$ / $k$ - lähimmän naapurin etäisyys $d_k (X)$ sen ulkopuolisena tekijänä.

Määritelmä 10-12 tehdä $D(X,k)={Y|d(X,Y)≤d_k(X)kiila Y≠ X}$ , niin sitä kutsutaan $D (X, k)$ Joo $X$ / $k$ -Lähin naapuri (Domain).

Se voidaan nähdä määritelmästä 10-12 $D (X, k)$ Joo $X$ keskustana, etäisyydenä $X$ Ei ylitä $d_k (X)$ Esine $Y$ Kokoelma koostuu. Kannattaa kiinnittää erityistä huomiota, $X$ ei kuulu siihen $k$ - lähin naapuri ts. $X \in / D (X, k)$ . Erityisesti, $X$ / $k$ -Lähin naapuri $D (X, k)$ Sisältyvien esineiden määrä voi olla paljon suurempi $k$ ,Juuri nyt $∣ D (X, k) ∣ \geq k$ 。

Määritelmä 10-13 On positiivinen kokonaisluku $k$ , objekti $X$ / $k$ -Lähin naapuri outlier tekijä määritellään
$teksti{OF}_1(X,k)=frac{mathop {summa}rajat_{Yin D(X,k)}d(X,Y)}{|D(X,k)|}tunniste{10-28}$

2. Algoritmin kuvaus

Tietylle tietojoukolle ja lähimpien naapurietäisyyksien lukumäärälle $k$ , voimme käyttää yllä olevaa kaavaa laskeaksesi $k$ -Lähimmän naapurin poikkeavien tekijöiden joukossa useat kohteet ovat todennäköisimmin päättäjien tai alan asiantuntijoiden arvioita , Mitkä pisteet ovat todella poikkeavia.

Algoritmi 10-8 Etäisyyteen perustuva poikkeamien havaitsemisalgoritmi
Syöte: tietojoukko $S$ , lähimpien naapurietäisyyksien lukumäärä $k$
Tulos: Epäiltyjen poikkeavien pisteiden ja vastaavien poikkeavien tekijöiden laskeva luettelo
(1) TOISTA
(2) Ota $S$ käsittelemätön objekti sisään $X$
(3) OK $X$ / $k$ -Lähin naapuri $D (X, k)$
(4) Laskenta $X$ / $k$ -lähin naapuri outlier tekijä $teksti{OF}_1(X,k)$
(5) KUIN $S$ Jokainen piste on käsitelty
(6) Kyllä $teksti{OF}_1(X,k)$ Lajittele laskevaan järjestykseen ja tulosta $(X,teksti{OF}_1(X,k))$

3. Laskentaesimerkkejä

Esimerkki 10-12 Kaksiulotteinen tietojoukko, jossa on 11 pistettä $S$ Se on annettu taulukosta 10-10, let $k = 2$ , käytä Euklidisen etäisyyden neliölaskentaa $X_7, X_{10}, X_{11}$ Kaikkien muiden kohtien poikkeava tekijä.

Lisää kuvan kuvaus tähän
irrottaa: Ymmärtääksemme intuitiivisesti algoritmin periaatteen, teemme $S$ Dataobjektit näytetään alla olevassa Kuvan (10-27) tasossa.

Lisää kuvan kuvaus tähän
Seuraavassa lasketaan määritetyn pisteen ja muiden pisteiden ulkoiset tekijät.

(1) Laskentaobjekti $X_7$ poikkeava tekijä
Kuten kuvasta näkyy, etäisyys $X_7 = (6,8)$ Lähin piste on $X_{10}=(5,7)$ ,ja $d(X_7, X_{10}) = 1,41$ , muut lähimmät pisteet voivat olla $X_{11}=(5,2)$ ， $X_9 = (3, 2)$ ， $X_8 = (2, 4)$ ；
Laskettu $d(X_7, X_{11}) = 6,08$ ， $d (X_7, X_9) = 6,71$ ， $d(X_7, X_8) = 5,66$
koska $k = 2$ ,niin $d_2 (X_7) = 5,66$ , joten määritelmän 10-11 mukaan meillä on $D(X_7,2)={X_{10}, X_8}$
Kaavan (10-28) mukaan $X_7$ poikkeava tekijä
$begin{aligned} text{OF}_1(X_7,2)&=frac{mathop{sum}limits_{Yin N(X_7,2)}d(X_7,Y)}{|N(X_7,k)|}=frac{d(X_7,X_{10})+d(X_7,X_8)}{2}\[3ex] &=frac{1.41+5.66}{2}=3.54 end{aligned}$ (2) Laskentaobjekti $X_{10}$ poikkeava tekijä $teksti{OF}_1(X_{10},2)=2,83$

(3) Laskentaobjekti $X_{11}$ poikkeava tekijä $teksti{OF}_1(X_{11},2)=2,5$

(4) Laskentaobjekti $X_{5}$ poikkeava tekijä $teksti{OF}_1(X_{5},2)=1$

Vastaavasti voidaan laskea muiden kohteiden ulkoiset tekijät, katso seuraava taulukko (10-11).

Lisää kuvan kuvaus tähän
4. Outlier-tekijän kynnys

mukaan $k$ -Lähimmän naapurin teoria, mitä suurempi poikkeava tekijä, sitä todennäköisemmin se on poikkeava. Siksi on määriteltävä kynnys, joka erottaa poikkeamat normaaleista pisteistä. Yksinkertaisin tapa on määrittää poikkeavien pisteiden lukumäärä, mutta tämä menetelmä on liian yksinkertainen ja joskus jättää huomiotta todellisia poikkeavia pisteitä tai liittää liian monta normaalia pisteitä mahdollisille poikkeavapisteille, mikä vaikeuttaa alan asiantuntijoiden tai päättäjien vaikeuksia ilmaantua. poikkeamien ymmärtämisessä ja tulkinnassa.
(1) Poikkeavien tekijöiden segmentoinnin kynnysmenetelmä järjestää ensin poikkeavien tekijät laskevaan järjestykseen ja samalla numeroi dataobjektit uudelleen nousevaan järjestykseen poikkeavien tekijöiden mukaan.
(2) Perustuu outlier-tekijään $teksti{OF}_1(X,k)$ on ordinaatta, ja poikkeava tekijän sarjanumero on abskissa, eli (sarjanumero, $tekstiä{OF}_1$ arvo) on merkitty tasoon ja yhdistetty muodostamaan ei-nouseva polyline, ja pisteen, jossa polyline leikkaa jyrkästi ja loivasti, havaitaan vastaavan poikkeavaa tekijää kynnysarvona kuin tai yhtä suuri kuin tämä kynnys ovat normaaleja objekteja , muut ovat mahdollisia poikkeavia arvoja.

Esimerkki 10-13 Datajoukko esimerkkiä 10-12 varten $S$ , sen poikkeavien tekijöiden yhteenveto laskevassa järjestyksessä ja sarjanumero on taulukossa 10-11. Yritä löytää poikkeavien pisteiden kynnys poikkeavien tekijöiden segmentointikynnysmenetelmän perusteella.

irrottaa: Käytä ensin (sarjanumero, $tekstiä{OF}_1$ arvo) tasossa olevina pisteinä, jotka on merkitty tasoon ja yhdistetty polylineillä. Kuten alla olevassa kuvassa 10-28.

Lisää kuvan kuvaus tähän
Sitten katsomalla kuvaa 10-28 voimme havaita, että neljännen pisteen (4, 1.27) vasemmalla puolella oleva polyline putoaa erittäin jyrkästi, kun taas oikeanpuoleinen polyline putoaa erittäin kevyesti kynnys.koska $X_7 、 X_{10}$ ja $X_{11}$ Poikkeustekijät ovat 3,54, 2,83 ja 2,5, jotka ovat kaikki suurempia kuin 1,27. Siksi nämä kolme pistettä ovat todennäköisimmin poikkeavia pisteitä, kun taas loput pisteet ovat tavallisia pisteitä.
Katsomalla kuvaa 10-27 uudelleen, voimme löytää sen $X_7 、 X_{10}$ ja $X_{11}$ todellakin kaukana suurimmasta osasta vasemmalla olevia kohteita, joten käsittele niitä tietojoukona $S$ Poikkeamat ovat kohtuullisia.

5. Algoritmin arviointi

Etäisyyspohjaisen poikkeamien havaitsemismenetelmän suurin etu on, että se on periaatteessa yksinkertainen ja helppokäyttöinen.
(1) Parametrit $k$ Valinnasta puuttuu yksinkertainen ja tehokas menetelmä testitulosten vaikutuksen määrittämiseen parametreihin $k$ Herkkyysasteesta ei ole olemassa yleisesti hyväksyttyä analyyttistä tulosta.
(2) Aika monimutkaisuus on $O(|S|^2)$ , siitä puuttuu skaalautuvuus suuria tietojoukkoja varten.
(3) Globaalin poikkeamien kertoimen kynnysarvon käytön vuoksi on vaikea louhia poikkeavuuksia tietojoukoista, joissa on eri tiheysalueita.

(3) Suhteelliseen tiheyteen perustuva menetelmä

Etäisyysmenetelmä on globaali poikkeamien tarkistusmenetelmä, mutta se ei pysty käsittelemään tietojoukkoja eri tiheysalueilla, eli se ei pysty havaitsemaan poikkeavia paikallistiheysalueilla Käytännön sovelluksissa kaikkia tietoja ei jaeta yhdellä tiheydellä. Kun tietojoukko sisältää useita tiheysjakaumia tai on sekoitus erilaisia tiheysosajoukkoja, globaalien poikkeamien havaitsemismenetelmät, kuten etäisyys, eivät yleensä toimi hyvin, koska se, onko objekti poikkeava, ei riipu pelkästään sen suhteesta ympäröivään dataan liittyy naapuruston tiheyteen.

1. Suhteellisen tiheyden käsite

Tiheyden näkökulmasta poikkeavat ovat kohteet harvaan asutuilla alueilla. Siksi on tarpeen ottaa käyttöön käsitteet paikallinen asuintiheys ja kohteiden suhteellinen tiheys.

Määritelmä 10-14 (1) esine $X$ / $k$ -Lähimmän naapurin paikallinen tiheys (tiheys) määritellään seuraavasti
$X,k)|}{mathop{sum}limits_{Yin D(X,k)}d(X,Y)}tunniste{10-29}$ (2) esine $X$ / $k$ -Lähimmän naapurin paikallinen suhteellinen tiheys (suhteellinen tiheys)
$)=frac{mathop{sum}limits_{Yin D(X,k)}text{dsty}(X,k)/|D(X,k)|}{text{dsty}(X,k)}tunniste{ 10-30}$ sisään $D (X, k)$ Se on esine $X$ / $k$ - lähin naapuri (määritelmässä 10-12), $∣ D (X, k) ∣$ on kokoelman esineiden lukumäärä.

2. Algoritmin kuvaus

kirjoittaja $rdsty (X, k)$ poikkeavana tekijänä $teksti{OF}_2(X,k)$ , sen laskenta on jaettu kahteen vaiheeseen
(1) Naapureiden lukumäärän mukaan $k$ , laske jokainen kohde $X$ / $k$ -Lähin naapuri paikallinen tiheys $dsty (X, k)$
(2) Laskenta $X$ lähimpien naapureiden keskimääräinen tiheys ja $k$ -Lähimmän naapurin paikallinen suhteellinen tiheys $rdsty (X, k)$
Tietojoukko koostuu useista luonnollisista klustereista. Klusterin ydinpisteen lähellä olevien kohteiden suhteellinen tiheys on lähellä yhtä, kun taas klusterin reunalla tai klusterin ulkopuolella olevien kohteiden suhteellinen tiheys on suhteellisen suuri. Siksi mitä suurempi suhteellinen tiheysarvo on, sitä todennäköisemmin se on poikkeava arvo.

Algoritmi 10-9 Outlier-ilmaisualgoritmi, joka perustuu suhteelliseen tiheyteen
Syöte: tietojoukko $S$ , lähimpien naapurien lukumäärä $k$
Tulos: Epäiltyjen poikkeavien pisteiden ja vastaavien poikkeavien tekijöiden laskeva luettelo
(1) TOISTA
(2) Ota $S$ käsittelemätön objekti sisään $X$
(3) OK $X$ / $k$ -Lähin naapuri $D (X, k)$
(4) Käyttö $D (X, k)$ laskea $X$ Tiheys $dsty (X, k)$
(5) KUIN $S$ Jokainen piste on käsitelty
(6) TOISTA
(7) Ota $S$ ensimmäinen esine sisään $X$
(8) OK $X$ suhteellinen tiheys $rdsty (X, k)$ , ja määritä se $teksti{OF}_2(X,k)$
(9) AINA $S$ Kaikki kohteet on käsitelty
(10) Oikein $teksti{OF}_2(X,k)$ Lajittele laskevaan järjestykseen ja tulosta $(X,teksti{OF}_2(X,k))$

Esimerkki 10-14 Esimerkeissä 10-12 esitetylle kaksiulotteiselle tietojoukolle $S$ (Katso lisätietoja taulukosta 10-10), joten $k = 2$ , yritä laskea Euklidinen etäisyys $X_7, X_{10}, X_{11}$ Outlier-tekijä, joka perustuu samansuuruisten kohteiden suhteelliseen tiheyteen.

Lisää kuvan kuvaus tähän
irrottaa:koska $k = 2$ , joten tarvitsemme kaikkien objektien 2-lähimmän naapurin paikallisen tiheyden.

(1) Etsi kunkin tietoobjektin 2-lähin naapuri taulukosta 10-11 $D(X_i,2)$ 。
Saman esimerkin 10-12 laskentamenetelmän mukaan voimme saada
$begin{aligned} &D(X_1,2)={X_2,X_3,X_5}，D(X_2,2)={X_1,X_6}， D(X_3,2)={X_1,X_4}，\ &D(X_4,2)={X_3,X_5}， D(X_5,2)={X_1,X_4,X_6,X_9}，D(X_6,2)={X_2,X_5,X_8}，\ &D(X_7,2)={X_{10},X_8}， D(X_8,2)={X_2,X_6}， D(X_9,2)={X_5,X_4,X_6}，\ &D(X_{10},2)={X_7,X_8}， D(X_{11},2)={X_9,X_5} end{aligned}$

(2) Laske kunkin tietoobjektin paikallinen tiheys $teksti{dsty}(X_i,2)$ ：

① Laske $X_1$ Tiheys
koska $D(X_1,2)={X_2, X_3, X_5}$ , joten laskennan jälkeen meillä on $d(X_1, X_2) = 1$ ， $d(X_1, X_3) = 1$ ， $d(X_1, X_5) = 1$ ；
Kaavan (10-29) mukaan saamme:
$begin{aligned} text{dsty}(X_1,2)&=frac{|D(X_1,2)|}{mathop{sum}limits_{Yin N(X_1,2)}d(X_1,Y)}\[3ex] &=frac{|N(X_1,2)|}{d(X_1,X_2)+d(X_1,X_3)+d(X_1,X_5)}\[3ex] &=frac{3}{1+1+1}=1 end{aligned}$

② Laskenta $X_2$ Tiheys
koska $D(X_2,2)={X_1, X_6}$ , joten laskettu $d(X_2, X_1) = 1$ ， $d(X_2, X_6) = 1$ ；
Kaavan (10-29) mukaan saamme:
$begin{aligned} text{dsty}(X_2,2)&=frac{|D(X_2,2)|}{mathop{sum}limits_{Yin N(X_2,2)}d(X_2,Y)}=frac{2}{1+1}=1 end{aligned}$

Muiden tietoobjektien paikallinen tiheys voidaan laskea samalla tavalla, katso Taulukko 10-12 alla.

Lisää kuvan kuvaus tähän
(3) Laske jokainen kohde $X_i$ suhteellinen tiheys $text{rdsty}(X_i, 2)$ ja pitää sitä poikkeavana tekijänä $teksti{OF}_2$ 。
① Laske $X_1$ suhteellinen tiheys
Käyttämällä kunkin kohteen tiheysarvoa taulukossa 10-12 suhteellisen tiheyden kaavan (10-30) mukaisesti:
$begin{aligned} text{rdsty}(X_1,2)&=frac{mathop{sum}limits_{Yin N(X_1,2)}text{dsty}(Y,2)/|N(X_1,2)|}{text{dsty}(X_1,2)}\[3ex] &=frac{(1+1+1)/3}{1}=1=text{OF}_2(X_1,2) end{aligned}$

② Samanlainen laskelma voidaan saada $X_2 、 X_3 、… 、 X_{11}$ suhteellinen tiheysarvo.
esimerkiksi $X_5$ Suhteellinen tiheys:
$begin{aligned} text{rdsty}(X_5,2)&=frac{mathop{sum}limits_{Yin N(X_5,2)}text{dsty}(Y,2)/|N(X_5,2)|}{text{dsty}(X_5,2)}\[3ex] &=frac{(1+1+1+0.79)/4}{1}=0.95=text{OF}_2(X_5,2) end{aligned}$ Tulokset on koottu alla oleviin taulukoihin 10-13.

Lisää kuvan kuvaus tähän
Esimerkki 10-15 Kun otetaan huomioon taulukossa 10-14 näkyvä tietojoukko, käytä eukleideen etäisyyttä $k = 2, 3, 5$ , laske kunkin pisteen arvo $k$ - lähin naapuri paikallinen tiheys, $k$ -Lähimmän naapurin paikallinen suhteellinen tiheys (outlier-tekijä $teksti{OF}_2$ ) ja sen perusteella $k$ - Lähimmän naapurin etäisyyden ulkoinen kerroin $tekstiä{OF}_1$ 。

Lisää kuvan kuvaus tähän
irrottaa: (1) Ymmärtämisen helpottamiseksi se voi olla $S$ Pisteiden suhteellinen sijainti on merkitty kaksiulotteiseen tasoon (Kuva 10-30).

Lisää kuvan kuvaus tähän
(2) Käytä etäisyyteen ja suhteelliseen tiheyteen perustuvia algoritmeja 10-8 ja 10-9.Laske jokainen kohde erikseen $k$ -Lähin naapuri paikallinen tiheys $dsty$ 、 $k$ -Lähimmän naapurin paikallinen suhteellinen tiheys (outlier-tekijä $teksti{OF}_2$ ) ja sen perusteella $k$ - Lähimmän naapurin etäisyyden ulkoinen kerroin $tekstiä{OF}_1$ , tulokset on koottu taulukkoon 10-15.

Lisää kuvan kuvaus tähän
(3) Yksinkertainen analyysi
① Kuten kuvasta 10-30 näkyy, $X_{15}$ ja $X_{16}$ Joo $S$ On olemassa kaksi ilmeistä poikkeavaa, ja etäisyyteen ja suhteelliseen tiheyteen perustuvat menetelmät voivat kaivaa ne paremmin esiin;
② Tästä esimerkistä kahdella algoritmilla on $k$ ei ole niin herkkä kuin odotettiin, ehkä se on poikkeava. $X_{15}$ ja $X_{16}$ Ero muista esineistä on hyvin ilmeinen.
③Kuten taulukosta 10-15 voidaan nähdä, ei väliä $k$ Ota 2, 3 tai 5, $X_1$ alueelta $dsty$ arvot ovat huomattavasti alhaisemmat kuin $X_7$ alueelta $dsty$ arvo, joka on yhdenmukainen kuvassa 10-30 esitetyn alueen tiheyden kanssa.Mutta näiden kahden alueen suhteellinen tiheysarvo $teksti{OF}_2$ Mutta ilmeistä eroa ei juuri ole. Tämä määräytyy suhteellisen tiheyden luonteen mukaan, eli tasaisesti jakautuneilla datapisteillä ydinpisteiden suhteellinen tiheys on 1, riippumatta pisteiden välisestä etäisyydestä.

7. Muut klusterointimenetelmät

1. Parannettu klusterointialgoritmi

（1） $k$ -mod ( $k$ -modes) -algoritmi on tarkoitettu $k$ - Keskimääräinen algoritmi soveltuu vain numeeristen attribuuttien rajoittamiseen, ja sen ehdotetaan saavuttavan diskreetin datan nopea klusterointi.koska $k$ -Modulaarinen algoritmi käyttää yksinkertaista 0-1-sovitusmenetelmää kahden attribuutin arvon välisen etäisyyden laskemiseen saman diskreetin attribuutin alla, mikä heikentää ordinaalisten attribuuttiarvojen välistä eroa, eli se ei voi täysin heijastaa kahden attribuutin arvon eroa Saman järjestysmääritteen alla on vielä parantamisen ja parantamisen varaa.
（2） $k$ -prototyyppi ( $k$ -Prototyyppi) -algoritmi yhdistettynä $k$ - Keskiarvoistusalgoritmi $k$ -Modulaarisen algoritmin etuna on, että se voi klusteroida tietojoukkoja, joissa on sekä diskreettejä että numeerisia attribuutteja (kutsutaan yhdistetyiksi attribuuteiksi).Se vaatii erilliset attribuutit $k$ -Modulaarinen algoritmilaskentaobjekti $X$ ja $Y$ välinen etäisyys $d_1 (X, Y)$ , käytä numeerisia määritteitä varten $k$ -Keskiarvotusalgoritmin menetelmät laskevat kohteiden välisen etäisyyden $d_2(X, Y)$ , ja käytä lopuksi painotusmenetelmää, eli $d_1(X,Y)+(1-alfa)d_2(X,Y)$ tietojoukkoobjektina $X$ ja $Y$ välinen etäisyys $d (X, Y)$ ,sisään $α \in [0, 1]$ on painokerroin, yleensä se voi olla $α = 0.5$ 。
(3) BIRCH-algoritmi (Balanced Iterative Reducing and Clustering Using Hierarchies) on kattava hierarkkinen klusterointimenetelmä.Se käyttää klusterointiominaisuuksia (CF) ja klusterointiominaisuuspuuta (CF Tree, samanlainen kuin B-puu) tiivistämään klusteriklusterit. $C_i$ ,sisään $teksti{CF}_i=(ni, teksti{LS}_i,teksti{SS}_i)$ on kolmos, $n_i$ on klusterin objektien lukumäärä, $tekstiviesti{LS}_i$ Joo $n_i$ objektikomponenttien lineaarinen summa, $tekstiviesti{SS}_i$ Joo $n_i$ Objektin komponenttien neliöiden summa.
(4) CURE (Clustering Using Representatives) -algoritmi on tarkoitettu $k$ -Toinen parannus keskiarvoistusalgoritmiin. Monet klusterointialgoritmit ovat hyviä vain klusteroimaan pallomaisia klustereita, kun taas jotkin klusterointialgoritmit ovat herkempiä eristetyille pisteille. CURE-algoritmia on muutettu edellä olevien kahden ongelman ratkaisemiseksi $k$ -Keskiarvoistusalgoritmi käyttää klusterin keskisummaa $k$ -Keskipistealgoritmi käyttää yhtä tiettyä objektia edustamaan klusteria, perinteinen menetelmä, mutta käyttää useita edustavia objekteja klusterissa edustamaan klusteria, jotta se voi mukautua ei-pallomaisten klustereiden ryhmittymiseen ja vähentää klusterin vaikutusta. melua klusteroinnissa.
(5) ROCK (RObust Clustering using linK) -algoritmi on klusterointialgoritmi, jota ehdotetaan binäärisille tai kategorisille attribuuttitietosarjoille.
(6) OPTICS (Ordering Points To Identify the Clustering Structure) -algoritmia käytetään vähentämään DBSCAN-algoritmin tiheyttä. $(ε, MinPts)$ parametrien herkkyys. Se ei luo nimenomaisesti tulosklustereita, vaan luo lisätyn klusterisijoituksen klusterianalyysiä varten (esimerkiksi koordinaattikaavion, jossa on saavutettava etäisyys pystyakselina ja näytepisteiden tulostusjärjestys vaaka-akselina). Tämä järjestys edustaa kunkin näytepisteen tiheyteen perustuvaa klusterointirakennetta.Voimme saada tästä lajittelusta minkä tahansa tiheysparametrin perusteella $(ε, MinPts)$ DBSCAN-algoritmin klusterointitulokset.

2. Muut uudet klusterointimenetelmät

Käytä uusia teorioita tai tekniikoita uusien klusterointimenetelmien suunnittelussa.

(1) Grid-pohjainen klusterointimenetelmä
Grid-pohjainen menetelmä kvantifioi objektitilan rajoitettuun määrään soluja ruudukkorakenteen muodostamiseksi, ja kunkin ulottuvuuden jakopisteiden sijaintitiedot tallennetaan taulukkoon. Jakoviivat kulkevat koko tilan läpi ja kaikki klusterit toiminnot suoritetaan Suoritetaan tässä ruudukkorakenteessa (eli kvantisointitilassa). Tämän menetelmän tärkein etu on, että sen käsittelynopeus on riippumaton tietoobjektien määrästä ja se liittyy vain kvantifiointiavaruuden kunkin ulottuvuuden solujen määrään klusteroinnin kustannuksella tarkkuuden kustannuksella. Koska ruudukkoklusterointialgoritmissa on kvantifiointiasteikon ongelma, aloitamme yleensä ensin etsimään klustereita pienistä yksiköistä, lisäämme sitten vähitellen yksiköiden kokoa ja toistamme tätä prosessia, kunnes tyydyttävät klusterit löytyvät.

(2) Mallipohjainen klusterointimenetelmä
Mallipohjaiset menetelmät olettavat jokaiselle klusterille mallin ja löytävät tiedoista parhaan yhteensopivuuden annettuun malliin. Mallipohjaiset menetelmät pyrkivät optimoimaan mukautuvuutta tietyn datan ja tiettyjen tietomallien välillä luomalla tiheysfunktioita, jotka heijastavat näytteiden spatiaalista jakautumista klustereiden paikantamiseksi.

(3) Sumeaan joukkoon perustuva klusterointimenetelmä
Käytännössä ei ole tiukkaa attribuutioarvoa, mihin klusteriin useimmat kohteet kuuluvat. Niiden attribuutioarvossa ja -muodossa on väli- tai epävarmuus, mikä sopii pehmeään osiointiin. Koska sumean klusterointianalyysin etuna on se, että se kuvaa otosattribuution välisyyttä ja se voi heijastaa objektiivisesti todellista maailmaa, siitä on tullut yksi tämän päivän klusterianalyysitutkimuksen kuumista kohdista.
Sumea klusterointialgoritmi on valvomaton oppimismenetelmä, joka perustuu sumeaan matemaattiseen teoriaan ja epävarmaan klusterointimenetelmään. Kun sumeaa klusterointia ehdotettiin, se sai suuren huomion akateemisesta yhteisöstä.

(4) Karkeaan joukkoon perustuva klusterointimenetelmä
Karkea klusterointi on karkeaan joukkoteoriaan perustuva epävarma klusterointimenetelmä. Karkeiden joukkojen ja klusterointialgoritmien välisen kytkennän näkökulmasta karkeat klusterointimenetelmät voidaan jakaa kahteen kategoriaan: vahva kytkentä karkea klusterointi ja heikko kytkentä karkea klusterointi.
Klusterianalyysin uudet tutkimussuunnat ovat tietysti paljon enemmän kuin nämä. Esimerkiksi tietovirran louhinta- ja klusterointialgoritmit, epävarmat tiedot ja sen klusterointialgoritmit, kvanttilaskenta ja kvanttigeeniklusterointialgoritmit ovat kaikki viime vuosina syntyneitä klusterointiteknologioita. huippuluokan tutkimusaiheita.

3. Muut outlier-louhintamenetelmät

Aiemmin esitellyt outlier-louhintamenetelmät ovat vain kaksi kypsiä louhintamenetelmiä. Ne voidaan määrittää kaivosmenetelmässä käytetyn teknologian perusteella kulmat: aste.

(1) Käytetty tekniikka
Pääasiassa on tilastollisia menetelmiä, etäisyyspohjaisia menetelmiä, tiheyteen perustuvia menetelmiä, klusterointiin perustuvia menetelmiä, poikkeamiin perustuvia menetelmiä, syvyyspohjaisia menetelmiä, aallokemuunnospohjaisia menetelmiä, graafipohjaisia menetelmiä, kuviopohjaisia menetelmiä ja hermoverkkoja. menetelmät jne.

(2) Aiemman tiedon hyödyntäminen
Normaalin tai poikkeavan luokan tietojen saatavuudesta riippuen on kolme yleistä lähestymistapaa:
① Valvomaton outlier-tunnistusmenetelmä, eli tietojoukossa ei ole aiempaa tietoa, kuten luokkamerkintöjä;
② Valvottu poikkeamien havaitsemismenetelmä, eli poikkeavien ominaisuuksien poimiminen poikkeavia arvoja ja normaalipisteitä sisältävän harjoitusjoukon avulla;
③ Puolivalvottu poikkeavien tunnistusmenetelmä, opetusdata sisältää merkittyä normaalia dataa, mutta poikkeavien tietoobjektien tietoja ei ole.

Teknologian jakaminen