Condivisione della tecnologia

Metodo di analisi dei cluster (3)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


5. Valutazione della qualità del clustering

L'analisi dei cluster consiste nel scomporre un set di dati in sottoinsiemi, ciascun sottoinsieme è chiamato cluster e l'insieme di tutti i sottoinsiemi è chiamato cluster dell'insieme di oggetti. Un buon algoritmo di clustering dovrebbe produrre cluster di alta qualità e cluster di alta qualità, ovvero la somiglianza complessiva all'interno dei cluster è la più alta, mentre la somiglianza complessiva tra i cluster è la più bassa.Dato che molti algoritmi di clustering includono ciaoK-L'algoritmo di media, l'algoritmo DBSCAN, ecc. richiedono tutti che l'utente specifichi in anticipo il numero di cluster nel cluster ciaoK, pertanto, il metodo di stima semplice di k verrà discusso di seguito.

(1) Stima del numero di cluster

Molti algoritmi di clustering come ciaoK-Gli algoritmi di media, anche gli algoritmi DIANA, ecc., devono specificare in anticipo il numero di cluster ciaoK,E ciaoKIl valore di influenzerà notevolmente la qualità del clustering. Tuttavia, il numero di cluster deve essere determinato in anticipo. ciaoK Non è un compito facile. Possiamo innanzitutto considerare due casi estremi.
(1) Inserisci l'intero set di dati SSSconsiderato come un cluster, cioè k = 1 k = 1K=1, questo sembra semplice e conveniente, ma i risultati di questa analisi dei cluster non hanno alcun valore.
(2) Inserisci il set di dati SSSOgni oggetto di viene trattato come un cluster, cioè let k = ∣ S ∣ = nk=|S|=nK=S=N , producendo così il clustering a grana più fine. Pertanto, non vi è alcuna differenza all'interno del cluster in ciascun cluster e la somiglianza all'interno del cluster raggiunge il livello più elevato.Ma questo tipo di clustering non può essere utilizzato SSSfornire qualsiasi informazione in merito SSSuna descrizione generale.
Si può vedere che il numero di cluster ciaoKdovrebbe almeno soddisfare 2 ≤ k ≤ n − 1 2≤ k≤ n-12KN1, ma il numero di cluster ciaoKQuale sia esattamente il valore più appropriato rimane ambiguo.
Generalmente considerato, ciaoKIl valore di può essere stimato dalla forma e dalla scala della distribuzione del set di dati, nonché dalla risoluzione del clustering richiesta dall'utente, e gli studiosi hanno molti metodi di stima diversi, come il metodo del gomito, il metodo di convalida incrociata e la teoria dell'informazione. metodi basati ecc.
Un semplice e comunemente usato ciaoKIl metodo di stima empirica del valore ritiene che per quelli con non-negligenzaNUn set di dati di oggetti, il numero di cluster in cui è raggruppato ciaoKScegliere il 2N2 2N È appropriato.In questo momento, sotto l'aspettativa media, ogni cluster ha circa 2 n radice quadrata{2n}2N oggetti.Su questa base c'è chi ha proposto un'ulteriore restrizione aggiuntiva, ovvero il numero dei cluster k &lt; nkK<N
Ad esempio, supponiamo n = 8 n = 8N=8, quindi il numero di cluster k = 2 k = 2K=2 è appropriato, e in media ci sono 4 punti per cluster, e secondo la formula empirica aggiuntiva k &lt; 2,83 k &lt; 2,83K<2.83 .Utilizzando queste due informazioni sul numero di cluster ciaoKLa formula empirica sembra essere spiegata da un lato, nell'Esempio 10-5 k = 2 k = 2K=2 è il numero di cluster più appropriato.

(2) Valutazione esterna della qualità

Se abbiamo una buona stima del numero di cluster ciaoK, puoi utilizzare uno o più metodi di clustering, ad esempio ciaoK -L'algoritmo medio, l'algoritmo gerarchico agglomerativo o l'algoritmo DBSCAN esegue l'analisi dei cluster su set di dati noti e ottiene una varietà di risultati di clustering diversi. La domanda ora è quale metodo offre risultati di clustering migliori o, in altre parole, come confrontare i risultati di clustering prodotti da metodi diversi. Questa è la valutazione della qualità del clustering.
Al momento, ci sono molti metodi tra cui scegliere per la valutazione della qualità del clustering, ma generalmente possono essere suddivisi in due categorie, vale a dire la valutazione della qualità esterna (estrinseca) e la valutazione della qualità interna (intrinseca).
La valutazione della qualità esterna presuppone che esista già un cluster ideale nel set di dati (solitamente costruito da esperti) e lo confronta come metodo di riferimento comunemente utilizzato con i risultati di clustering di un determinato algoritmo. La sua valutazione comparativa include principalmente l'entropia del clustering e il clustering sono due metodi comuni per la precisione della classe.

1. Metodo dell'entropia del clustering

insieme di dati ipotetici S = { X 1 , X 2 , … , X n } S={X_1,X_2,…,X_n}S={X1,X2,,XN},E T = {T1, T2, …, Tm} T={T_1,T_2,…,T_m}T={T1,T2,,TM} è il clustering standard ideale fornito dagli esperti e C = {C1, C2, …, Ck} C={C_1,C_2,…,C_k}C={C1,C2,,CK} è determinato da un algoritmo circa SSSUn cluster di , quindi per il cluster C e C_iCiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooRispetto al clustering di base TTTL'entropia di clustering di è definita come
E ( C i ∣ T ) = − ∑ j = 1 m ∣ C i ∩ T j ∣ ∣ C i ∣ log ⁡ 2 ∣ C i ∩ T j ∣ ∣ C i ∣ (10-20) E(C_i|T)=-somma_{j=1}^mfrac{|C_icap T_j|}{|C_i|}log_2frac{|C_icap T_j|}{|C_i|}tag{10-20}E(CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooT)=J=1MCiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooCiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooTJIoG2CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooCiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooTJ(10-20) E CCCA proposito di benchmark TTTL'entropia complessiva del clustering è definita come tutti i cluster C e C_iCiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooA proposito di benchmark TTTLa media ponderata dell'entropia del clustering, cioè
E ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × E ( C i ∣ T ) (10-21) E(C)=frac{1}{mathop{somma}limiti_{i=1}^k|C_i|}somma_{i=1}^k|C_i|volte E(C_i|T)tag{10-21}E(C)=ioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=1KCioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo1ioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=1KCioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo×E(CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooT)(10-21) Il metodo dell’entropia del clustering ritiene che, E ( C ) E ( C )E(C) Minore è il valore, il CCCRispetto al basale TTTMaggiore è la qualità del clustering.
Vale la pena notare che il denominatore del primo termine sul lato destro della formula (10-21) ∑ io = 1 k ∣ C io ∣Kioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=1|Cioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo| ioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=1KCioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo è la somma del numero di elementi in ciascun cluster e non può essere utilizzato non-negligenzaN Rimpiazzare.Perché, solo quando CCCQuando è un cluster di partizionamento, il denominatore è non-negligenzaNe il denominatore dei metodi di clustering generali, come il clustering DBSCAN, potrebbe essere inferiore a non-negligenzaN

2. Precisione del clustering

L'idea di base della valutazione dell'accuratezza (precisione) del clustering è quella di utilizzare il maggior numero di categorie nel cluster come etichetta di categoria del cluster, ovvero per il cluster C e C_iCioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo,se esiste Io sono T_ioTJFare ∣ C i ∩ T j ∣ = max ⁡ { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } |C_icap T_j|=max{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooTJ=massimo{CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooT1,CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooT2,,CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooTM}, si ritiene che C e C_iCiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooLa categoria è Io sono T_ioTJ .Pertanto, il cluster C e C_iCiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooA proposito di benchmark TTTLa precisione è definita come
J ( C i ∣ T ) = max ⁡ { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } ∣ C i ∣ (10-22) J(C_i|T)=frac{max{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}}{|C_i|}tag{10-22}J(CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooT)=Cioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooomassimo{CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooT1,CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooT2,,CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooTM}(10-22) E CCCA proposito di benchmark TTTLa precisione complessiva di è definita per tutti i cluster C e C_iCiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooA proposito di benchmark TTTCioè, la media ponderata dell'accuratezza del clustering
J ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × J ( C i ∣ T ) (10-23) J(C)=frac{1}{mathop{somma}limiti_{i=1}^k|C_i|}somma_{i=1}^k|C_i|volte J(C_i|T)tag{10-23}J(C)=ioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=1KCioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo1ioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=1KCioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo×J(CiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooT)(10-23) Il metodo dell'accuratezza del clustering ritiene che, Io (C) Io (C)J(C) Maggiore è il valore, maggiore è il clustering CCCRispetto al basale TTTMaggiore è la qualità del clustering.
Inoltre, in generale 1 − J ( C ) 1-J(C)1J(C) chiamato CCCA proposito di benchmark TTT tasso di errore complessivo.Pertanto, la precisione del clustering Io (C) Io (C)J(C) Tasso di errore ampio o complessivo 1 − J ( C ) 1-J(C)1J(C) Piccolo, mostra che l'algoritmo di clustering può raggruppare meglio oggetti di diverse categorie in cluster diversi, ovvero la precisione del clustering è elevata.

(3) Valutazione interna della qualità

Non sono noti parametri di riferimento esterni per la valutazione interna della qualità, vengono utilizzati solo set di dati SSSe raggruppamento CCCValutare le caratteristiche intrinseche e le dimensioni di un cluster CCC La qualità di. Cioè, l'effetto di clustering viene generalmente valutato calcolando la somiglianza media all'interno dei cluster, la somiglianza media tra i cluster o la somiglianza complessiva.
La valutazione della qualità interna è correlata all'algoritmo di clustering. L'indice di efficacia del clustering viene utilizzato principalmente per valutare la qualità dell'effetto di clustering o per giudicare il numero ottimale di cluster. L'effetto di clustering ideale è avere la distanza intra-cluster più piccola e il cluster più grande. Pertanto, l'efficacia del clustering è generalmente misurata da una qualche forma di rapporto tra la distanza intra-cluster e la distanza tra cluster. Gli indicatori comunemente usati di questo tipo includono l'indicatore CH, l'indicatore Dunn, l'indicatore I, l'indicatore Xie-eni, ecc.

1. Indicatore CH

L'indice CH è l'abbreviazione dell'indice Calinski-Harabasz Calcola prima la somma dei quadrati della distanza tra ciascun punto del cluster e il suo centro del cluster per misurare la vicinanza all'interno della classe, quindi calcola la somma dei quadrati della distanza tra ciascun punto centrale del cluster e il punto centrale del set di dati da misurare La separazione del set di dati e il rapporto tra separazione e vicinanza è l'indice CH.
impostare X ‾ i sopralinea{X}_iXioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooorappresenta un cluster CCCpunto centrale (media), X ‾ sopralinea{X}Xrappresenta un set di dati SSSil punto centrale di d ( X ‾ i , X ‾ ) d(sopralinea{X}_i,sopralinea{X})D(Xioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo,X) per X ‾ i sopralinea{X}_iXiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooarrivare X ‾ sopralinea{X}XUna certa funzione di distanza di , quindi raggruppamento CCCLa compattezza di un cluster medio è definita come
Traccia (A) = ∑ i = 1 k ∑ X j ∈ C id (X j, X ‾ i) 2 (10-24) testo{Traccia}(A)=somma_{i=1}^ksomma_{X_jin C_i}d(X_j,overline{X}_i)^2tag{10-24}Traccia(UN)=ioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=1KXJCiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooD(XJ,Xioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo)2(10-24) Pertanto, Traccia(A) è il cluster CCC La somma delle distanze quadrate tra i centri dei cluster.E raggruppamento CCCIl grado di separazione è definito come
Traccia (B) = ∑ i = 1 k ∣ C i ∣ d (X ‾ i, X ‾ ) 2 (10-25) testo{Traccia}(B)=somma_{i=1}^k|C_i|d(overline{X}_i,overline{X})^2tag{10-25}Traccia(B)=ioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=1KCiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooD(Xioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo,X)2(10-25) Cioè, Trace(B) sta raggruppando CCCOgni punto centrale del cluster di SSSLa somma ponderata delle distanze quadrate dal punto centrale di .
Da questo, se N = ∑ io = 1 k ∣ C io ∣N=Kioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=1|Cioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo| N=ioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=1KCioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo Quindi l'indicatore CH può essere definito come
V CH ( k ) = Traccia ( B ) / ( k − 1 ) Traccia ( A ) / ( N − k ) (10-26) V_{testo{CH}}(k)=frac{testo{Traccia}(B)/(k-1)}{testo{Traccia}(A)/(Nk)}tag{10-26}ECH(K)=Traccia(UN)/(NK)Traccia(B)/(K1)(10-26) La formula (10-26) viene generalmente utilizzata nelle due situazioni seguenti:
(1) Valutare quale clustering ottenuto dai due algoritmi è migliore.
Supponiamo che vengano utilizzati due algoritmi per analizzare il set di dati SSSÈ stata eseguita l'analisi dei cluster e sono stati rilevati due cluster diversi (entrambi contenenti ciaoKcluster), il clustering corrispondente al valore CH più grande è migliore, perché maggiore è il valore CH significa che ogni cluster nel cluster è più vicino a se stesso e i cluster sono più dispersi.
(2) Valutare quale dei due cluster con numero diverso di cluster ottenuti dallo stesso algoritmo è migliore.
Supponiamo che un algoritmo abbia un set di dati SSSÈ stata eseguita l'analisi dei cluster e il numero di cluster è stato ottenuto come la 1 la_1K1E b 2 b_2B2 Dei due cluster, il risultato del clustering con un valore CH maggiore è migliore, il che significa anche che il numero di cluster corrispondente a questo cluster è più appropriato.Pertanto, applicando ripetutamente la formula (10-26), possiamo ottenere anche un set di dati SSSIl numero ottimale di cluster per il clustering.

2. Indicatore Dunn

L'indicatore Dunn utilizza i cluster C e C_iCioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooocon grappolo C_j C_jCJdistanza minima tra ds (C i , C j ) d_s(C_i,C_j)DS(Cioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo,CJ) per calcolare la separazione tra cluster utilizzando il diametro del cluster maggiore tra tutti i cluster max ⁡ {Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } max{varPhi(C_1), varPhi(C_2),...,varPhi(C_k)}massimo{Φ(C1),Φ(C2),...,Φ(CK)} Per caratterizzare la tenuta all'interno di un cluster, l'indice di Dunn è il valore minimo del rapporto tra il primo e il secondo, ovvero
VD ( k ) = min ⁡ i ≠ jds ( C i , C j ) max ⁡ { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } (10-27) V_D(k)=min_{i≠j}frac{d_s(C_i,C_j)}{max{varPhi(C_1), varPhi(C_2),...,varPhi (C_k)}}etichetta{10-27}ED(K)=ioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=Jminimomassimo{Φ(C1),Φ(C2),...,Φ(CK)}DS(Cioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo,CJ)(10-27) Maggiore è il valore Dunn, maggiore è la distanza tra i cluster e migliore è il clustering corrispondente.Similmente all'indice di valutazione CH, l'indice di Dunn può essere utilizzato per valutare la qualità dei cluster ottenuti da algoritmi diversi, e può anche essere utilizzato per valutare quali cluster ottenuti dallo stesso algoritmo con un numero diverso di cluster sono migliori, ovvero può essere usato per cercare SSSil numero ottimale di cluster.

6. Estrazione anomala

I valori anomali sono dati speciali nel set di dati che si discostano in modo significativo dalla maggior parte dei dati. L'obiettivo degli algoritmi di data mining come la classificazione e il clustering introdotti in precedenza è quello di scoprire modelli regolari che si applicano alla maggior parte dei dati. Pertanto, molti algoritmi di data mining tentano di ridurre o eliminare l'impatto dei valori anomali e di trattare i valori anomali durante l'implementazione dei punti di data mining o ignorati come rumore, ma in molte applicazioni pratiche, le persone sospettano che la deviazione dei punti anomali non sia causata da fattori casuali, ma possa essere causata da altri meccanismi completamente diversi, che devono essere estratti per analisi e utilizzi speciali. Ad esempio, in campi applicativi come la gestione della sicurezza e il controllo dei rischi, il modello di identificazione dei valori anomali è più prezioso del modello dei dati normali.

(1) Panoramica delle questioni correlate

La parola Outlier viene solitamente tradotta come valore anomalo, ma anche come anomalia. Tuttavia, esistono molti alias in diverse situazioni applicative, come punti isolati, punti anomali, punti nuovi, punti di deviazione, punti di eccezione, rumore, dati anomali, ecc. L'estrazione di dati anomali ha termini simili come estrazione di dati di anomalie, rilevamento di dati di anomalie, estrazione di dati anomali, estrazione di dati di eccezioni ed estrazione di eventi rari nella letteratura cinese.

1. La generazione di valori anomali

(1) I dati provengono da anomalie causate da frodi, intrusioni, epidemie, risultati sperimentali insoliti, ecc. Ad esempio, la bolletta telefonica media di qualcuno è di circa 200 yuan, ma in un certo mese aumenta improvvisamente fino a diverse migliaia di yuan; la carta di credito di qualcuno di solito consuma circa 5.000 yuan al mese, ma in un certo mese il consumo supera i 30.000 yuan, ecc. Tali valori anomali sono generalmente relativamente interessanti nel data mining e rappresentano uno dei punti chiave di applicazione.
(2) Causato da cambiamenti intrinseci nelle variabili dei dati, che riflettono le caratteristiche naturali della distribuzione dei dati, come il cambiamento climatico, nuovi modelli di acquisto dei clienti, mutazioni genetiche, ecc. Anche una delle aree di interesse interessanti.
(3) Gli errori di misurazione e raccolta dei dati sono dovuti principalmente a errori umani, guasti alle apparecchiature di misurazione o presenza di rumore. Ad esempio, il voto -100 di uno studente in un determinato corso potrebbe essere dovuto al valore predefinito impostato dal programma; lo stipendio dei top manager di un'azienda è significativamente più alto dello stipendio dei dipendenti ordinari può sembrare un'anomalia, ma lo è Dati ragionevoli.

2. Problema di mining anomalo

Di solito, il problema del mining anomalo può essere scomposto in tre sottoproblemi da descrivere.
(1) Definire i valori anomali
Poiché gli outlier sono strettamente correlati a problemi pratici, definire chiaramente che tipo di dati sono outlier o dati anomali è la premessa e il compito principale dell'outlier mining. In generale, è necessario combinare l'esperienza e la conoscenza degli esperti del settore per fornire indicazioni in merito valori anomali. Fornire una descrizione o definizione appropriata.
(2) Valori anomali del mining
Dopo che i punti anomali sono stati chiaramente definiti, quale algoritmo utilizzare per identificare o estrarre in modo efficace i punti anomali definiti è il compito chiave dell'estrazione degli outlier. L'algoritmo di mining anomalo di solito fornisce agli utenti dati anomali sospetti dal punto di vista dei modelli che possono riflettersi nei dati, in modo da attirare l'attenzione dell'utente.
(3) Comprendere i valori anomali
Spiegazione ragionevole, comprensione e guida per l'applicazione pratica dei risultati del mining sono gli obiettivi del mining anomalo. Poiché il meccanismo mediante il quale vengono generati i valori anomali è incerto, se i "valori anomali" rilevati dall'algoritmo di mining dei valori anomali corrispondono effettivamente al comportamento anomalo effettivo non può essere spiegato e spiegato dall'algoritmo di mining dei valori anomali, ma può essere spiegato solo dall'algoritmo di mining dei valori anomali. Esperti del settore o del settore per comprendere e spiegare le istruzioni.

3. Relatività degli outlier

I valori anomali sono dati speciali nel set di dati che ovviamente si discostano dalla maggior parte dei dati, ma "ovviamente" e "principalmente" sono relativi, ovvero, sebbene i valori anomali siano diversi, sono relativi. Pertanto, ci sono diversi problemi da considerare quando si definiscono e si estraggono valori anomali.
(1) Valori anomali globali o locali
Un oggetto dati può essere un valore anomalo rispetto ai suoi vicini locali ma non rispetto all'intero set di dati. Ad esempio, uno studente alto 1,9 metri è un valore anomalo nella Classe 1 della specializzazione in matematica della nostra scuola, ma non è un valore anomalo tra le persone in tutto il paese, compresi i giocatori professionisti come Yao Ming.
(2) Numero di valori anomali
Sebbene il numero di punti anomali sia sconosciuto, il numero di punti normali dovrebbe superare di gran lunga il numero di punti anomali, ovvero il numero di punti anomali dovrebbe rappresentare una proporzione inferiore nell'insieme di dati di grandi dimensioni di punti anomali Dovrebbe essere inferiore al 5% o addirittura inferiore all'1%.
(3) Fattore anomalo del punto
Non è possibile utilizzare "sì" o "no" per segnalare se un oggetto è un valore anomalo, è invece necessario utilizzare il grado di deviazione dell'oggetto, ovvero il fattore anomalo (Outlier Factor) o il punteggio anomalo (Outlier Score). caratterizzare la deviazione di un dato dal grado del gruppo, quindi filtrare gli oggetti con fattori anomali superiori a una certa soglia, fornirli ai decisori o agli esperti del settore per la comprensione e la spiegazione e applicarli nel lavoro pratico.

(2) Metodo basato sulla distanza

1. Concetti di base

Definizione 10-11 C'è un numero intero positivo ciaoK, oggetto XXXDi ciaoK-La distanza del vicino più vicino è un numero intero positivo che soddisfa le seguenti condizioni dk (X) d_k(X)DK(X)
(1) tranne XXXInoltre, ce ne sono almeno ciaoKoggetti AAEsoddisfare d(X,Y)≤d_k(X)D(X,E)DK(X)
(2) tranne XXXInoltre, ce ne sono al massimo k − 1 k-1K1 oggetti AAEsoddisfare d(X,Y) &lt; dk(X) d(X,Y)D(X,E)<DK(X)
In d(X,Y)D(X,E) è un oggetto XXXE AAEuna certa funzione di distanza tra loro.

di un oggetto ciaoK-Maggiore è la distanza del vicino più vicino, più è probabile che l'oggetto sia lontano dalla maggior parte dei dati, quindi l'oggetto può essere XXXDi ciaoK-distanza del vicino più vicino dk (X) d_k(X)DK(X) come fattore anomalo.

Definizione 10-12 Fare D ( X , k ) = { Y ∣ d ( X , Y ) ≤ dk ( X ) ∧ Y ≠ X } D(X,k)={Y|d(X,Y)≤d_k(X)cuneo Y≠X}D(X,K)={ED(X,E)DK(X)E=X}, quindi viene chiamato D(X,k)D(X,K) XXXDi ciaoK-Vicino più vicino (dominio).

Dalla definizione 10-12 si può vedere che D(X,k)D(X,K) XXXcome centro, distanza XXXNon eccede dk (X) d_k(X)DK(X) Oggetto AAE La collezione composta da. Vale la pena prestare particolare attenzione, XXXnon gli appartiene ciaoK-vicino più vicino, ad es. X ∉ D ( X , k ) Xno in D(X,k)X/D(X,K) . In particolare, XXXDi ciaoK-Il vicino più prossimo D(X,k)D(X,K) Il numero di oggetti contenuti può superare di gran lunga ciaoK,Proprio adesso ∣ D ( X , k ) ∣ ≥ k |D(X, k)|≥kD(X,K)K

Definizione 10-13 C'è un numero intero positivo ciaoK, oggetto XXXDi ciaoK-Il fattore anomalo del vicino più vicino è definito come
DI 1 ( X , k ) = ∑ Y ∈ D ( X , k ) d ( X , Y ) ∣ D ( X , k ) ∣ (10-28) testo{DI}_1(X,k)=frac{mathop{somma}limiti_{Yin D(X,k)}d(X,Y)}{|D(X,k)|}tag{10-28}DI1(X,K)=D(X,K)ED(X,K)D(X,E)(10-28)

2. Descrizione dell'algoritmo

Per un dato set di dati e il numero di distanze del vicino più vicino ciaoK, possiamo usare la formula sopra per calcolare il ciaoK-Fattori anomali dei vicini più vicini e visualizzarli in ordine dal grande al piccolo. Tra questi, è più probabile che diversi oggetti con fattori anomali più grandi siano anomali. In genere, devono essere analizzati e giudicati da decisori o esperti del settore , Quali punti sono davvero anomali.

Algoritmo 10-8 Algoritmo di rilevamento dei valori anomali basato sulla distanza
Ingresso: set di dati SSS, il numero delle distanze del vicino più vicino ciaoK
Risultato: elenco decrescente di punti anomali sospetti e corrispondenti fattori anomali
(1)RIPETI
(2) Prendi SSSun oggetto non elaborato in XXX
(3)Va bene XXXDi ciaoK-Il vicino più prossimo D(X,k)D(X,K)
(4) Calcolo XXXDi ciaoK-fattore anomalo del vicino più vicino DI 1 ( X , k ) testo{DI}_1(X,k)DI1(X,K)
(5)FINO A SSSOgni punto è stato elaborato
(6) Sì DI 1 ( X , k ) testo{DI}_1(X,k)DI1(X,K)Ordina in ordine decrescente e output ( X , DI 1 ( X , k ) ) (X, testo{DI}_1(X, k))(X,DI1(X,K))

3. Esempi di calcolo

Esempio 10-12 Un set di dati bidimensionale con 11 punti SSSÈ dato dalla Tabella 10-10, lett k = 2 k = 2K=2, utilizzare il calcolo della distanza euclidea al quadrato 7, 10, 1 ...X7,X10,X11 Fattore anomalo rispetto a tutti gli altri punti.

Inserisci qui la descrizione dell'immagine
sciogliere: Per comprendere intuitivamente il principio dell'algoritmo, lo faremo SSSGli oggetti dati sono visualizzati sul piano nella Figura (10-27) di seguito.

Inserisci qui la descrizione dell'immagine
I fattori anomali del punto specificato e degli altri punti vengono calcolati separatamente di seguito.

(1) Oggetto di calcolo X 7 X_7X7fattore anomalo
Come si può vedere dalla figura, la distanza X 7 = ( 6 , 8 ) X_7=(6,8)X7=(6,8) Il punto più vicino è X10 = (5,7) X_{10}=(5,7)X10=(5,7),E d(X7,X10) = 1,41 d(X_7,X_{10}) =1,41D(X7,X10)=1.41, potrebbero esserci altri punti più vicini X11 = (5,2) X_{11}=(5,2)X11=(5,2) X9 = ( 3 , 2 ) X_9=(3,2)X9=(3,2) X 8 = ( 2 , 4 ) X_8=(2,4)X8=(2,4)
Calcolato d(X7,X11) = 6,08 d(X_7,X_{11})=6,08D(X7,X11)=6.08 d(X7,X9) = 6,71d(X_7,X_9)=6,71D(X7,X9)=6.71 d(X7, X8) = 5,66 d(X_7,X_8)=5,66D(X7,X8)=5.66
Perché k = 2 k = 2K=2,COSÌ d 2 ( X 7 ) = 5,66 d_2(X_7)=5,66D2(X7)=5.66, quindi secondo la definizione 10-11 abbiamo D(X7,2)={X10,X8}D(X7,2)={X10,X8}
Secondo la formula (10-28), X 7 X_7X7fattore anomalo
DI 1 ( X 7 , 2 ) = ∑ Y ∈ N ( X 7 , 2 ) d ( X 7 , Y ) ∣ N ( X 7 , k ) ∣ = d ( X 7 , X 10 ) + d ( X 7 , X 8 ) 2 = 1,41 + 5,66 2 = 3,54DI1(X7,2)=EN(X7,2)D(X7,E)|N(X7,K)|=D(X7,X10)+D(X7,X8)2=1.41+5.662=3.54 DI1(X7,2)=N(X7,K)EN(X7,2)D(X7,E)=2D(X7,X10)+D(X7,X8)=21.41+5.66=3.54(2) Oggetto di calcolo X10 X_{10}X10fattore anomalo DI 1 ( X 10 , 2 ) = 2,83 testo{DI}_1(X_{10},2)=2,83DI1(X10,2)=2.83

(3) Oggetto di calcolo X11 X_{11}X11fattore anomalo DI 1 ( X 11 , 2 ) = 2.5 testo{DI}_1(X_{11},2)=2.5DI1(X11,2)=2.5

(4) Oggetto di calcolo X5 X_{5}X5fattore anomalo DI 1 ( X 5 , 2 ) = 1 testo{DI}_1(X_{5},2)=1DI1(X5,2)=1

Allo stesso modo, è possibile calcolare i fattori anomali degli oggetti rimanenti, vedere la tabella seguente (10-11).

Inserisci qui la descrizione dell'immagine
4. Soglia del fattore anomalo

secondo ciaoK -Secondo la teoria del vicino più vicino, maggiore è il fattore anomalo, maggiore è la probabilità che si tratti di un valore anomalo. Pertanto, è necessario specificare una soglia per distinguere gli outlier dai punti normali. Il metodo più semplice consiste nel specificare il numero di punti anomali, ma questo metodo è troppo semplice e a volte trascura alcuni punti anomali reali o attribuisce troppi punti normali a possibili punti anomali, il che rende difficile per gli esperti del settore o i decisori sorgere difficoltà nella comprensione e interpretazione dei valori anomali.
(1) Il metodo della soglia di segmentazione dei fattori anomali dispone innanzitutto i fattori anomali in ordine decrescente e allo stesso tempo rinumera gli oggetti dati in ordine crescente in base ai fattori anomali.
(2) Basato sul fattore anomalo DI 1 ( X , k ) testo{DI}_1(X,k)DI1(X,K) è l'ordinata e il numero di serie del fattore anomalo è l'ascissa, ovvero (numero di serie, DI 1 testo{DI}_1DI1valore) sono contrassegnati sul piano e collegati per formare una polilinea non crescente, e il punto in cui la polilinea si interseca con un forte calo e un leggero calo corrisponde al fattore anomalo come soglia Oggetti con un fattore anomalo inferiore superiori o uguali a questa soglia sono oggetti normali, gli altri sono possibili valori anomali.

Esempio 10-13 Set di dati per l'esempio 10-12 SSS , i suoi fattori anomali sono riepilogati in ordine decrescente e numero di serie nella Tabella 10-11. Prova a trovare la soglia dei punti anomali in base al metodo della soglia di segmentazione del fattore anomalo.

sciogliere: Innanzitutto, utilizzare il (numero di serie, DI 1 testo{DI}_1DI1 valore) come punti sul piano, contrassegnati sul piano e collegati da polilinee. Come mostrato nella Figura 10-28 di seguito.

Inserisci qui la descrizione dell'immagine
Poi guardando la Figura 10-28, possiamo scoprire che la polilinea a sinistra del quarto punto (4, 1.27) scende molto ripidamente, mentre la polilinea a destra scende molto dolcemente. Pertanto, il fattore anomalo 1.27 viene selezionato come soglia.Perché X 7, X 10 X_7, X_{10}X7X10 E X11 X_{11}X11 I fattori anomali sono rispettivamente 3,54, 2,83 e 2,5, che sono tutti maggiori di 1,27. Pertanto, è molto probabile che questi tre punti siano punti anomali, mentre i punti rimanenti sono punti ordinari.
Osservando nuovamente la Figura 10-27, possiamo trovarlo X 7, X 10 X_7, X_{10}X7X10 E X11 X_{11}X11 anzi molto lontano dalla densa maggioranza degli oggetti a sinistra, quindi trattali come un set di dati SSSI valori anomali sono ragionevoli.

5. Valutazione dell'algoritmo

Il più grande vantaggio del metodo di rilevamento dei valori anomali basato sulla distanza è che è semplice in linea di principio e facile da usare. I suoi difetti si riflettono principalmente nei seguenti aspetti.
(1) Parametri ciaoKLa selezione manca di un metodo semplice ed efficace per determinare l'impatto dei risultati dei test sui parametri ciaoKNon esiste un risultato analitico universalmente accettato sul grado di sensibilità.
(2) La complessità temporale è O( ∣ S ∣ 2 ) O(|S|^2)Lo(S2), manca di scalabilità per set di dati su larga scala.
(3) A causa dell'uso di una soglia di fattore anomalo globale, è difficile estrarre valori anomali in set di dati con regioni di densità diverse.

(3) Metodo basato sulla densità relativa

Il metodo della distanza è un metodo di controllo dei valori anomali globali, ma non può gestire set di dati in aree di densità diverse, ovvero non può rilevare valori anomali in aree di densità locale. Nelle applicazioni pratiche, i dati non sono tutti distribuiti con un'unica densità. Quando il set di dati contiene più distribuzioni di densità o è una miscela di diversi sottoinsiemi di densità, i metodi di rilevamento dei valori anomali globali come la distanza di solito non funzionano bene, perché se un oggetto è un valore anomalo dipende non solo dalla sua relazione con i dati circostanti è legato alla densità del quartiere.

1. Il concetto di densità relativa

Dal punto di vista del quartiere di densità, i valori anomali sono oggetti in aree a bassa densità, pertanto, è necessario introdurre i concetti di densità di quartiere locale e densità relativa degli oggetti.

Definizione 10-14 (1) un oggetto XXXDi ciaoK-La densità locale del vicino più vicino (densità) è definita come
dsty ( X , k ) = ∣ D ( X , k ) ∣ ∑ Y ∈ D ( X , k ) d ( X , Y ) (10-29) testo{dsty}(X,k)=frac{|D(X,k)|}{mathop{somma}limiti_{Yin D(X,k)}d(X,Y)}tag{10-29}DISTANZA(X,K)=ED(X,K)D(X,E)D(X,K)(10-29) (2) un oggetto XXXDi ciaoK-Densità relativa locale del vicino più vicino (densità relativa)
rdsty ( X , k ) = ∑ Y ∈ D ( X , k ) dsty ( X , k ) / ∣ D ( X , k ) ∣ dsty ( X , k ) (10-30) testo{rdsty}(X,k)=frac{mathop{somma}limiti_{Yin D(X,k)}testo{dsty}(X,k)/|D(X,k)|}{testo{dsty}(X,k)}tag{10-30}in ritardo(X,K)=DISTANZA(X,K)ED(X,K)DISTANZA(X,K)/∣D(X,K)(10-30) In D(X,k)D(X,K) E' l'oggetto XXXDi ciaoK- il vicino più prossimo (dato nella Definizione 10-12), ∣ D ( X , k ) ∣ |D(X, k)|D(X,K) è il numero di oggetti nella raccolta.

2. Descrizione dell'algoritmo

di rdsty ( X , k ) testo{rdsty}(X, k)in ritardo(X,K) come valore anomalo DI 2 ( X , k ) testo {DI}_2(X, k)DI2(X,K), il suo calcolo è diviso in due fasi
(1) In base al numero di vicini ciaoK, calcola ciascun oggetto XXXDi ciaoK-Densità locale del vicino più vicino dsty ( X , k ) testo{dsty}(X, k)DISTANZA(X,K)
(2) Calcolo XXXla densità media dei vicini più vicini e ciaoK-Densità relativa locale del vicino più vicino rdsty ( X , k ) testo{rdsty}(X, k)in ritardo(X,K)
Un set di dati è costituito da più cluster naturali. La densità relativa degli oggetti vicini al punto centrale all'interno del cluster è vicina a 1, mentre la densità relativa degli oggetti al bordo del cluster o all'esterno del cluster è relativamente grande. Pertanto, maggiore è il valore della densità relativa, maggiore è la probabilità che si tratti di un valore anomalo.

Algoritmo 10-9 Algoritmo di rilevamento dei valori anomali basato sulla densità relativa
Ingresso: set di dati SSS, il numero dei vicini più prossimi ciaoK
Risultato: elenco decrescente di punti anomali sospetti e corrispondenti fattori anomali
(1)RIPETI
(2) Prendi SSSun oggetto non elaborato in XXX
(3)Va bene XXXDi ciaoK-Il vicino più prossimo D(X,k)D(X,K)
(4) Utilizzo D(X,k)D(X,K)calcolare XXXDensità dsty ( X , k ) testo{dsty}(X, k)DISTANZA(X,K)
(5)FINO A SSSOgni punto è stato elaborato
(6) RIPETI
(7) Prendi SSSprimo oggetto in XXX
(8)Va bene XXXdensità relativa di rdsty ( X , k ) testo{rdsty}(X, k)in ritardo(X,K)e assegnarlo a DI 2 ( X , k ) testo {DI}_2(X, k)DI2(X,K)
(9)FINO A SSSTutti gli oggetti sono stati elaborati
(10) Giusto DI 2 ( X , k ) testo {DI}_2(X, k)DI2(X,K)Ordina in ordine decrescente e output ( X , DI 2 ( X , k ) ) (X, testo{DI}_2(X, k))(X,DI2(X,K))

Esempio 10-14 Per il set di dati bidimensionale fornito nell'Esempio 10-12 SSS (Vedi Tabella 10-10 per i dettagli), quindi k = 2 k = 2K=2, prova il calcolo della distanza euclidea 7, 10, 1 ...X7,X10,X11 Fattore anomalo basato sulla densità relativa di oggetti uguali.

Inserisci qui la descrizione dell'immagine
sciogliere:Perché k = 2 k = 2K=2, quindi abbiamo bisogno della densità locale dei due vicini più vicini di tutti gli oggetti.

(1) Trovare i due vicini più vicini di ciascun oggetto dati nella Tabella 10-11 D(Xi, 2) D(Xi, 2)D(Xioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo,2)
Secondo lo stesso metodo di calcolo dell'Esempio 10-12, possiamo ottenere
Italiano: D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } , D ( X 2 , 2 ) = { X 1 , X 6 } , D ( X 3 , 2 ) = { X 1 , X 4 } , D ( X 4 , 2 ) = { X 3 , X 5 } , D ( X 5 , 2 ) = { X 1 , X 4 , X 6 , X 9 } , D ( X 6 , 2 ) = { X 2 , X 5 , X 8 } , D ( X 7 , 2 ) = { X 10 , X 8 } , D ( X 8 , 2 ) = { X 2 , X 6 } , D ( X 9 , 2 ) = { X 5 , X 4 , X 6 } , D ( X 10 , 2 ) = { X 7 , X 8 } , D ( X 11 , 2 ) = { X 9 , X 5 }D(X1,2)={X2,X3,X5}D(X2,2)={X1,X6}              D(X3,2)={X1,X4}D(X4,2)={X3,X5}       D(X5,2)={X1,X4,X6,X9}D(X6,2)={X2,X5,X8}D(X7,2)={X10,X8}     D(X8,2)={X2,X6}               D(X9,2)={X5,X4,X6}D(X10,2)={X7,X8}     D(X11,2)={X9,X5} D(X1,2)={X2,X3,X5}D(X2,2)={X1,X6}              D(X3,2)={X1,X4}D(X4,2)={X3,X5}       D(X5,2)={X1,X4,X6,X9}D(X6,2)={X2,X5,X8}D(X7,2)={X10,X8}     D(X8,2)={X2,X6}               D(X9,2)={X5,X4,X6}D(X10,2)={X7,X8}     D(X11,2)={X9,X5}

(2) Calcolare la densità locale di ciascun oggetto dati dsty (Xi, 2) testo{dsty}(X_i,2)DISTANZA(Xioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo,2)

① Calcola X1 X_1X1Densità
Perché D(X1,2)={X2,X3,X5}D(X1,2)={X2,X3,X5}, quindi dopo il calcolo, abbiamo d(X1, X2) = 1 d(X_1,X_2)=1D(X1,X2)=1 d(X1,X3) = 1 d(X_1,X_3)=1D(X1,X3)=1 d(X1,X5)=1d(X_1,X_5)=1D(X1,X5)=1
Secondo la formula (10-29), otteniamo:
dsty(X1,2) = ∣ D(X1,2)∣∑Y∈N(X1,2)d(X1,Y) = ∣N(X1,2)∣d(X1,X2)+d(X1,X3)+d(X1,X5)=31+1+1=1DISTANZA(X1,2)=|D(X1,2)|EN(X1,2)D(X1,E)=|N(X1,2)|D(X1,X2)+D(X1,X3)+D(X1,X5)=31+1+1=1 DISTANZA(X1,2)=EN(X1,2)D(X1,E)D(X1,2)=D(X1,X2)+D(X1,X3)+D(X1,X5)N(X1,2)=1+1+13=1

② Calcolo X2 X_2X2Densità
Perché D(X2,2)={X1,X6}D(X2,2)={X1,X6}, quindi il calcolato d(X2,X1) = 1 d(X_2,X_1) = 1D(X2,X1)=1 d(X2,X6) = 1d(X_2,X_6) =1D(X2,X6)=1
Secondo la formula (10-29), otteniamo:
dsty(X2,2) = ∣ D(X2,2)∣∑Y∈N(X2,2)d(X2,Y) = 2 1 + 1 = 1DISTANZA(X2,2)=|D(X2,2)|EN(X2,2)D(X2,E)=21+1=1 DISTANZA(X2,2)=EN(X2,2)D(X2,E)D(X2,2)=1+12=1

La densità locale di altri oggetti dati può essere calcolata in modo simile, vedere la Tabella 10-12 di seguito.

Inserisci qui la descrizione dell'immagine
(3) Calcola ciascun oggetto X io X_ioXioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooodensità relativa di rdsty ( X i , 2 ) testo{rdsty}(X_i, 2)in ritardo(Xioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo,2)e considerarlo un fattore anomalo DI 2 testo{DI}_2DI2
① Calcola X1 X_1X1densità relativa di
Utilizzando il valore di densità di ciascun oggetto nella Tabella 10-12, secondo la formula di densità relativa (10-30):
rdsty ( X 1 , 2 ) = ∑ Y ∈ N ( X 1 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 1 , 2 ) ∣ dsty ( X 1 , 2 ) = ( 1 + 1 + 1 ) / 3 1 = 1 = DI 2 ( X 1 , 2 )in ritardo(X1,2)=EN(X1,2)DISTANZA(E,2)/|N(X1,2)|DISTANZA(X1,2)=(1+1+1)/31=1=DI2(X1,2) in ritardo(X1,2)=DISTANZA(X1,2)EN(X1,2)DISTANZA(E,2)/∣N(X1,2)=1(1+1+1)/3=1=DI2(X1,2)

② È possibile ottenere un calcolo simile X 2, X 3, …, X 11 X_2, X_3,…, X_{11}X2X3X11 valore di densità relativa.
Per esempio X5 X_5X5La densità relativa di:
rdsty ( X 5 , 2 ) = ∑ Y ∈ N ( X 5 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 5 , 2 ) ∣ dsty ( X 5 , 2 ) = ( 1 + 1 + 1 + 0.79 ) / 4 1 = 0.95 = DI 2 ( X 5 , 2 )in ritardo(X5,2)=EN(X5,2)DISTANZA(E,2)/|N(X5,2)|DISTANZA(X5,2)=(1+1+1+0.79)/41=0.95=DI2(X5,2) in ritardo(X5,2)=DISTANZA(X5,2)EN(X5,2)DISTANZA(E,2)/∣N(X5,2)=1(1+1+1+0.79)/4=0.95=DI2(X5,2) I risultati sono riassunti nelle Tabelle 10-13 di seguito.

Inserisci qui la descrizione dell'immagine
Esempio 10-15 Considerato il set di dati mostrato nella Tabella 10-14, utilizzare la distanza euclidea da k = 2 , 3 , 5 k = 2,3,5K=2,3,5, calcolare il valore di ciascun punto ciaoK-densità locale del vicino più vicino, ciaoK-Densità relativa locale del vicino più vicino (fattore anomalo DI 2 testo{DI}_2DI2) e basato su ciaoK-Fattore anomalo per la distanza del vicino più vicino DI 1 testo{DI}_1DI1

Inserisci qui la descrizione dell'immagine
sciogliere: (1) Per facilitare la comprensione, può essere SSSLe posizioni relative dei punti sono segnate sul piano bidimensionale (Figura 10-30).

Inserisci qui la descrizione dell'immagine
(2) Utilizzare rispettivamente gli algoritmi 10-8 e 10-9 basati sulla distanza e sulla densità relativa.Calcola ciascun oggetto separatamente ciaoK-Densità locale del vicino più vicino testo dsty{dsty}DISTANZA ciaoK-Densità relativa locale del vicino più vicino (fattore anomalo DI 2 testo{DI}_2DI2) e basato su ciaoK-Fattore anomalo per la distanza del vicino più vicino DI 1 testo{DI}_1DI1, i risultati sono riepilogati nella Tabella 10-15.

Inserisci qui la descrizione dell'immagine
(3) Analisi semplice
① Come si può vedere dalla Figura 10-30, X15 X_{15}X15E X16 X_{16}X16 SSSEsistono due evidenti valori anomali e i metodi basati sulla distanza e sulla densità relativa possono individuarli meglio;
② Da questo esempio, i due algoritmi hanno ciaoKnon è così sensibile come previsto, forse è un valore anomalo. X15 X_{15}X15E X16 X_{16}X16La separazione dagli altri oggetti è molto evidente.
③Come si può vedere dalla Tabella 10-15, non importa ciaoKPrendine 2, 3 o 5, X1 X_1X1della regione testo dsty{dsty}DISTANZA i valori sono significativamente inferiori a X 7 X_7X7della regione testo dsty{dsty}DISTANZA valore, che è coerente con la densità dell'area mostrata nella Figura 10-30.Ma il valore di densità relativa delle due regioni DI 2 testo{DI}_2DI2 Ma non c’è quasi alcuna differenza evidente. Ciò è determinato dalla natura della densità relativa, ovvero, per punti dati distribuiti uniformemente, la densità relativa dei punti centrali è 1, indipendentemente dalla distanza tra i punti.

7. Altri metodi di clustering

1. Algoritmo di clustering migliorato

  (1) ciaoK-mod ( ciaoK-modes) è l'algoritmo per ciaoK -L'algoritmo medio è adatto solo per la limitazione degli attributi numerici e si propone di ottenere un rapido clustering di dati discreti.Perché ciaoK-L'algoritmo modulare utilizza un semplice metodo di corrispondenza 0-1 per calcolare la distanza tra due valori di attributo sotto lo stesso attributo discreto, che indebolisce la differenza tra i valori di attributo ordinali, ovvero non può riflettere completamente la differenza tra due valori di attributo ​​sotto lo stesso attributo ordinale C'è ancora spazio per miglioramenti e miglioramenti.
  (2) ciaoK-prototipo ( ciaoK-Prototipo) algoritmo combinato con ciaoK-Algoritmo di media con ciaoK -Il vantaggio dell'algoritmo modulare è che può raggruppare set di dati con attributi sia discreti che numerici (chiamati attributi misti).Richiede attributi discreti ciaoK-Oggetto di calcolo dell'algoritmo modulare XXXE AAEla distanza tra d 1 ( X , Y ) d_1(X,Y)D1(X,E), per gli attributi numerici, utilizzare ciaoK-I metodi nell'algoritmo di media calcolano la distanza tra gli oggetti d 2 ( X , Y ) d_2(X,Y)D2(X,E), e infine utilizzare il metodo della ponderazione, cioè α d 1 ( X , Y ) + ( 1 − α ) d 2 ( X , Y ) alfa d_1(X,Y)+(1-alfa)d_2(X,Y)αD1(X,E)+(1α)D2(X,E) come oggetto del set di dati XXXE AAEla distanza tra d(X,Y)D(X,E),In α ∈ [ 0 , 1 ] alfaina[0,1]α[0,1] è il coefficiente di peso, di solito può essere α = 0,5 alfa=0,5α=0.5
(3) L'algoritmo BIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) è un metodo di clustering gerarchico completo.Utilizza Clustering Features (CF) e Clustering Feature Tree (CF Tree, simile al B-tree) per riepilogare i cluster di cluster. C e C_iCioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo,In CF i = ( ni , LS i , SS i ) testo{CF}_i=(ni, testo{LS}_i,testo{SS}_i)CFioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo=(non,LSioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo,SSioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo) è una tripletta, non sono ioNiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooè il numero di oggetti nel cluster, LS i testo{LS}_iLSioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo non sono ioNioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooosomma lineare dei componenti dell'oggetto, SS i testo{SS}_iSSioooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo non sono ioNiooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooLa somma dei quadrati dei componenti di un oggetto.
(4) L'algoritmo CURE (Clustering Using Representatives) è per ciaoK -Un altro miglioramento all'algoritmo di media. Molti algoritmi di clustering sono efficaci solo nel raggruppamento di cluster sferici, mentre alcuni algoritmi di clustering sono più sensibili ai punti isolati. Per risolvere i due problemi precedenti, l'algoritmo CURE è cambiato ciaoK-L'algoritmo di media utilizza la somma del centro del cluster ciaoK-L'algoritmo del punto centrale utilizza un singolo oggetto specifico per rappresentare un cluster, un metodo tradizionale, ma utilizza più oggetti rappresentativi nel cluster per rappresentare un cluster, in modo che possa adattarsi al raggruppamento di cluster non sferici e ridurre l'impatto di rumore sul clustering.
(5) L'algoritmo ROCK (RObust Clustering using linK) è un algoritmo di clustering proposto per set di dati di attributi binari o categoriali.
(6) L'algoritmo OPTICS (Ordering Points To Identification the Clustering Structure) viene utilizzato per ridurre la densità dell'algoritmo DBSCAN. ( ε , MinPts ) (varepsilon,testo{MinPts})(ε,Punti minimi) sensibilità dei parametri. Non genera esplicitamente cluster di risultati, ma genera una classificazione dei cluster aumentata per l'analisi dei cluster (ad esempio, un grafico di coordinate con la distanza raggiungibile come asse verticale e l'ordine di output dei punti campione come asse orizzontale). Questa classifica rappresenta la struttura di clustering basata sulla densità di ciascun punto campione.Possiamo ottenere da questo ordinamento in base a qualsiasi parametro di densità ( ε , MinPts ) (varepsilon,testo{MinPts})(ε,Punti minimi) Risultati del clustering dell'algoritmo DBSCAN.

2. Altri nuovi metodi di clustering

Utilizzare alcune nuove teorie o tecniche per progettare nuovi metodi di clustering.

(1) Metodo di clustering basato sulla griglia
Il metodo basato sulla griglia quantifica lo spazio dell'oggetto in un numero limitato di celle per formare una struttura a griglia e le informazioni sulla posizione dei punti di divisione in ciascuna dimensione vengono archiviate nell'array. Le linee di divisione attraversano l'intero spazio e tutto il clustering le operazioni vengono eseguite in Eseguite su questa struttura a griglia (cioè spazio di quantizzazione). Il vantaggio principale di questo metodo è che la sua velocità di elaborazione è molto elevata. La sua velocità di elaborazione è indipendente dal numero di oggetti dati ed è correlata solo al numero di celle in ciascuna dimensione dello spazio di quantificazione a scapito del raggruppamento dei risultati. A scapito della precisione. Poiché l'algoritmo di clustering della griglia presenta il problema della scala di quantificazione, di solito iniziamo a cercare prima i cluster da piccole unità, quindi aumentiamo gradualmente la dimensione delle unità e ripetiamo questo processo finché non vengono trovati cluster soddisfacenti.

(2) Metodo di clustering basato su modello
I metodi basati su modello presuppongono un modello per ciascun cluster e trovano la migliore corrispondenza dei dati con il modello fornito. I metodi basati su modelli tentano di ottimizzare l'adattabilità tra dati dati e determinati modelli di dati stabilendo funzioni di densità che riflettono la distribuzione spaziale dei campioni per individuare i cluster.

(3) Metodo di clustering basato sull'insieme fuzzy
In pratica, non esiste un valore di attribuzione rigoroso a cui appartiene la maggior parte degli oggetti. Esiste un intermediario o incertezza nel valore e nella forma di attribuzione, il che è adatto per il partizionamento morbido. Poiché l'analisi di clustering fuzzy ha il vantaggio di descrivere l'interezza dell'attribuzione del campione e può riflettere oggettivamente il mondo reale, è diventata uno dei punti caldi della ricerca odierna sull'analisi dei cluster.
L'algoritmo di clustering fuzzy è un metodo di apprendimento non supervisionato basato sulla teoria matematica fuzzy e su un metodo di clustering incerto. Una volta proposto, il clustering fuzzy ha ricevuto grande attenzione da parte della comunità accademica. Il clustering fuzzy è una grande "famiglia" di clustering e anche la ricerca sul clustering fuzzy è molto attiva.

(4) Metodo di clustering basato sull'insieme approssimativo
Il clustering approssimativo è un metodo di clustering incerto basato sulla teoria degli insiemi approssimativi. Dal punto di vista dell'accoppiamento tra insiemi approssimativi e algoritmi di clustering, i metodi di clustering approssimativo possono essere suddivisi in due categorie: clustering approssimativo con accoppiamento forte e clustering approssimativo con accoppiamento debole.
Naturalmente, le nuove direzioni di ricerca dell’analisi dei cluster sono molto più di queste. Ad esempio, gli algoritmi di data stream mining e clustering, i dati incerti e i relativi algoritmi di clustering, l’informatica quantistica e gli algoritmi di clustering genetico quantistico sono tutte tecnologie di clustering emerse negli ultimi anni. temi di ricerca all'avanguardia.

3. Altri metodi di mining anomali

I metodi di mining anomali introdotti in precedenza sono solo due rappresentanti del mining anomalo. Esistono molti metodi di mining anomali più maturi nelle applicazioni pratiche. Possono essere determinati dal tipo di tecnologia utilizzata nel metodo di mining o dall'uso delle conoscenze precedenti angoli: gradi.

(1) Tipo di tecnologia utilizzata
Esistono principalmente metodi statistici, metodi basati sulla distanza, metodi basati sulla densità, metodi basati sul clustering, metodi basati sulla deviazione, metodi basati sulla profondità, metodi basati sulla trasformazione wavelet, metodi basati su grafici, metodi basati su modelli e rete neurale. metodi, ecc.

(2) Utilizzo delle conoscenze pregresse
A seconda della disponibilità delle informazioni sulle classi normali o anomale, esistono tre approcci comuni:
① Metodo di rilevamento dei valori anomali non supervisionato, ovvero senza conoscenze preliminari come le etichette di categoria nel set di dati;
② Metodo di rilevamento dei valori anomali supervisionato, ovvero estrazione delle caratteristiche dei valori anomali attraverso l'esistenza di un set di addestramento contenente valori anomali e punti normali;
③ Metodo di rilevamento dei valori anomali semi-supervisionato I dati di addestramento contengono dati normali etichettati, ma non sono presenti informazioni sugli oggetti dati anomali.