Osservare i confini dei dati: tecnologia di rilevamento dei valori anomali in sklearn

Osservare i confini dei dati: tecnologia di rilevamento dei valori anomali in Sklearn

2024-07-12

Osservare i confini dei dati: tecnologia di rilevamento dei valori anomali in Sklearn

Il rilevamento dei valori anomali è un compito fondamentale nei progetti di analisi dei dati e di machine learning. I valori anomali, noti anche come valori anomali o valori anomali, si riferiscono a quelle osservazioni che sono significativamente diverse da altri dati. Questi punti possono essere causati da errori di misurazione, errori di immissione dei dati o variabilità reale. Identificare e gestire correttamente i valori anomali è fondamentale per garantire la qualità e l'accuratezza del modello. scikit-learn (sklearn in breve), come libreria di apprendimento automatico ricca di funzionalità in Python, fornisce una varietà di metodi di rilevamento dei valori anomali. Questo articolo introdurrà in dettaglio la tecnologia di rilevamento dei valori anomali in sklearn e fornirà esempi pratici di codice.

1. L'importanza del rilevamento dei valori anomali

Il rilevamento dei valori anomali è fondamentale in aree quali:

Pulizia dei dati: identificare e gestire i valori anomali durante la fase di preelaborazione dei dati.
Intercettazione di una frode: Identificare potenziali frodi nelle transazioni finanziarie.
Monitoraggio del processo: Monitorare lo stato delle apparecchiature e prevenire guasti nella produzione industriale.

2. Metodo di rilevamento dei valori anomali in sklearn

sklearn fornisce diversi metodi per il rilevamento dei valori anomali. Ecco alcune tecniche comunemente utilizzate:

2.1 Z-Score (punteggio standardizzato)

Il metodo Z-Score normalizza i dati in una distribuzione normale basata sulla media e sulla deviazione standard dei dati e calcola lo Z-Score per ciascun punto.

from scipy.stats import zscore

data = [[1, 2], [3, 4], [5, 6], [100, 100]]
data = np.array(data)
z_scores = zscore(data)
threshold = 3  # 通常阈值设为3
outliers = np.where((z_scores > threshold) | (z_scores < -threshold))
1
2
3
4
5
6
7

2.2 IQR (intervallo interquartile)

Il metodo IQR utilizza il primo quartile (Q1) e il terzo quartile (Q3) dei dati per determinare l'intervallo di valori anomali.

Q1 = np.percentile(data, 25, axis=0)
Q3 = np.percentile(data, 75, axis=0)
IQR = Q3 - Q1
threshold = 1.5
outliers = np.where((data < (Q1 - threshold * IQR)) | (data > (Q3 + threshold * IQR)))
1
2
3
4
5

2.3 Metodi basati sulla densità

I metodi basati sulla densità, come DBSCAN, identificano i valori anomali in base alla densità dei punti dati anziché a una soglia fissa.

from sklearn.cluster import DBSCAN

dbscan = DBSCAN(min_samples=5, eps=0.5)
dbscan.fit(data)
core_samples_mask = np.zeros_like(dbscan.labels_, dtype=bool)
core_samples_mask[dbscan.core_sample_indices_] = True
outliers = dbscan.labels_ == -1
1
2
3
4
5
6
7

2.4 Foresta di Isolamento

Isolation Forest è un metodo di rilevamento dei valori anomali basato sulla foresta casuale, che "isola" i valori anomali selezionando in modo casuale caratteristiche e punti di segmentazione.

from sklearn.ensemble import IsolationForest

iso_forest = IsolationForest(n_estimators=100, contamination=0.01)
iso_forest.fit(data)
outliers = iso_forest.predict(data) == -1
1
2
3
4
5

3. Valutare il rilevamento dei valori anomali

Valutare le prestazioni del rilevamento dei valori anomali è spesso difficile perché non esistono standard assoluti. Tuttavia, può essere valutato nei seguenti modi:

Visualizzazione: visualizza i punti dati e i valori anomali rilevati utilizzando metodi come i grafici a dispersione.
Valori anomali noti: Se sono presenti valori anomali noti, è possibile calcolare indicatori quali l'accuratezza del rilevamento e il tasso di richiamo.

4. Combinato con applicazioni pratiche

Nelle applicazioni pratiche, il rilevamento dei valori anomali può aiutarci a identificare comportamenti anomali nel set di dati per condurre ulteriori analisi o adottare misure preventive.

5. conclusione

Il rilevamento dei valori anomali è un collegamento importante nell'analisi dei dati e nell'apprendimento automatico. Sklearn fornisce una varietà di metodi di rilevamento dei valori anomali, ciascun metodo presenta scenari applicativi e vantaggi specifici. Attraverso questo articolo, abbiamo appreso diverse tecniche di rilevamento dei valori anomali in sklearn e fornito esempi pratici di codice.

Lo scopo di questo articolo è aiutare i lettori a comprendere meglio il rilevamento dei valori anomali e a padroneggiare i metodi di implementazione di queste tecniche in Sklearn. Ci auguriamo che i lettori possano migliorare la loro comprensione del rilevamento dei valori anomali attraverso questo articolo e applicare efficacemente queste tecniche in progetti reali. Poiché i volumi di dati continuano a crescere, il rilevamento degli outlier continuerà a svolgere un ruolo importante nella scienza dei dati.

Condivisione della tecnologia