Metode analisis klaster (3)

2024-07-12

Daftar isi

5. Evaluasi kualitas clustering

Analisis klaster adalah menguraikan suatu kumpulan data menjadi himpunan bagian-bagian, setiap himpunan bagian disebut klaster, dan himpunan semua himpunan bagian disebut klaster dari himpunan objek. Algoritma clustering yang baik harus menghasilkan cluster yang berkualitas tinggi dan cluster yang berkualitas tinggi, yaitu kesamaan keseluruhan dalam cluster adalah yang tertinggi, sedangkan kesamaan keseluruhan antar cluster adalah yang terendah.Mengingat banyak algoritma clustering yang menyertakan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Algoritma rata-rata, algoritma DBSCAN, dll. semuanya mengharuskan pengguna untuk menentukan jumlah cluster dalam cluster terlebih dahulu $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ , oleh karena itu, metode estimasi sederhana k akan dibahas di bawah ini.

(1) Estimasi jumlah cluster

Banyak algoritma clustering seperti $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Algoritma rata-rata, bahkan algoritma DIANA, dll., perlu menentukan jumlah cluster terlebih dahulu $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ ,Dan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Nilai dari akan sangat mempengaruhi kualitas clustering. Namun, jumlah cluster harus ditentukan terlebih dahulu. $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Bukan tugas yang mudah. Pertama-tama kita dapat mempertimbangkan dua kasus ekstrem.
(1) Masukkan seluruh kumpulan data $S$ dianggap sebagai sebuah cluster, yaitu, $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 1$ , ini tampak sederhana dan mudah, namun hasil analisis klaster ini tidak ada nilainya.
(2) Masukkan kumpulan data $S$ Setiap objek diperlakukan sebagai sebuah cluster, yaitu, biarkan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = ∣ S ∣ = N$ , sehingga menghasilkan pengelompokan yang paling halus. Oleh karena itu, tidak ada perbedaan intra-cluster di setiap cluster, dan kesamaan intra-cluster mencapai level tertinggi.Namun pengelompokan semacam ini tidak dapat digunakan $S$ memberikan informasi apa pun tentang $S$ gambaran umum.
Terlihat jumlah clusternya $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ setidaknya harus memuaskan $2 \leq aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu \leq N - 1$ , tetapi jumlah cluster $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Nilai apa yang paling tepat masih bersifat ambigu.
Secara umum dipertimbangkan, $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Nilai dapat diperkirakan berdasarkan bentuk dan skala distribusi kumpulan data, serta resolusi pengelompokan yang diperlukan oleh pengguna, dan para ahli memiliki banyak metode estimasi yang berbeda, seperti metode siku, metode validasi silang, dan teori informasi- metode berbasis dll.
Sederhana dan umum digunakan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Metode estimasi nilai empiris meyakini bahwa bagi mereka yang memiliki $N$ Kumpulan data objek, jumlah cluster yang mengelompokkannya $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Memilih $begin{aligned}sqrtfrac{n}{2}end{aligned}$ Itu tepat.Saat ini, di bawah ekspektasi rata-rata, setiap cluster memiliki sekitar $2 N$ objek.Atas dasar itu, sejumlah pihak mengusulkan pembatasan tambahan lebih lanjut yakni jumlah klaster $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu < N$ 。
Misalnya saja $N = 8$ , lalu jumlah cluster $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 2$ sudah sesuai, dan rata-rata terdapat 4 titik per cluster, dan sesuai rumus empiris tambahan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu < 2.83$ .Menggunakan dua informasi tentang jumlah cluster $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Rumus empirisnya sepertinya dijelaskan dari satu sisi, pada Contoh 10-5 $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 2$ adalah jumlah cluster yang paling tepat.

(2) Evaluasi kualitas eksternal

Jika kita mempunyai perkiraan yang baik mengenai jumlah cluster $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ , Anda dapat menggunakan satu atau beberapa metode pengelompokan, misalnya, $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Algoritma rata-rata, algoritma hierarki aglomeratif atau algoritma DBSCAN melakukan analisis cluster pada kumpulan data yang diketahui dan memperoleh berbagai hasil clustering yang berbeda. Pertanyaannya sekarang adalah metode mana yang memiliki hasil clustering yang lebih baik, atau dengan kata lain bagaimana membandingkan hasil clustering yang dihasilkan oleh metode yang berbeda. Inilah evaluasi kualitas clustering.
Saat ini terdapat banyak metode yang dapat dipilih untuk evaluasi kualitas clustering, namun secara umum dapat dibagi menjadi dua kategori, yaitu evaluasi kualitas eksternal (ekstrinsik) dan evaluasi kualitas internal (intrinsik).
Evaluasi kualitas eksternal mengasumsikan bahwa cluster ideal sudah ada dalam kumpulan data (biasanya dibangun oleh para ahli), dan membandingkannya sebagai metode benchmark yang umum digunakan dengan hasil clustering dari algoritma tertentu.Evaluasi komparatifnya terutama mencakup clustering entropy dan clustering There adalah dua metode umum untuk presisi kelas.

1. Metode pengelompokan entropi

Kumpulan data hipotetis $S = {X_{1}, X_{2}, \dots, X_{N}}$ ,Dan $T = {T_{1}, T_{2}, \dots, T_{M}}$ merupakan standar pengelompokan ideal yang diberikan oleh para ahli, dan $C = { C_1, C_2, …, C_k }$ ditentukan oleh algoritma tentang $S$ Sekelompok , lalu untuk cluster $C_i$ Relatif terhadap pengelompokan dasar $T$ Entropi pengelompokan didefinisikan sebagai
$E(C_i|T)=-jumlah_{j=1}^mfrac{|C_icap T_j|}{|C_i|}log_2frac{|C_icap T_j|}{|C_i|}tag{10-20}$ Dan $C$ Tentang tolok ukur $T$ Entropi pengelompokan keseluruhan didefinisikan sebagai semua cluster $C_i$ Tentang tolok ukur $T$ Rata-rata tertimbang dari entropi pengelompokan, yaitu
$E(C)=frac{1}{mathop{jumlah}limit_{i=1}^k|C_i|}jumlah_{i=1}^k|C_i|kali E(C_i|T)tag{10-21}$ Metode entropi pengelompokan percaya bahwa, $Bahasa Inggris (C)$ Semakin kecil nilainya maka $C$ Relatif terhadap garis dasar $T$ Semakin tinggi kualitas clusteringnya.
Perlu dicatat bahwa penyebut suku pertama di sisi kanan rumus (10-21) $begin{aligned}sum_{i=1}^k|C_i|end{aligned}$ adalah jumlah dari jumlah elemen di setiap cluster, dan tidak dapat digunakan $N$ untuk menggantikan.Sebab, hanya kapan saja $C$ Kapan cluster partisi, penyebutnya adalah $N$ , dan penyebut metode pengelompokan umum, seperti pengelompokan DBSCAN, mungkin kurang dari $N$ 。

2. Akurasi pengelompokan

Ide dasar evaluasi akurasi (presisi) pengelompokan adalah dengan menggunakan jumlah kategori terbesar dalam klaster sebagai label kategori klaster, yaitu untuk klaster tersebut. $C_i$ , jika itu ada $T_j$ membuat $|C_icap T_j|=maks{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}$ , dianggap demikian $C_i$ Kategorinya adalah $T_j$ .Oleh karena itu, cluster $C_i$ Tentang tolok ukur $T$ Akurasi didefinisikan sebagai
$J(C_i|T)=frac{maks{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}}{|C_i|}tag{10-22}$ Dan $C$ Tentang tolok ukur $T$ Akurasi keseluruhan ditentukan untuk semua cluster $C_i$ Tentang tolok ukur $T$ Rata-rata tertimbang dari akurasi pengelompokan, yaitu
$J(C)=frac{1}{mathop{jumlah}limit_{i=1}^k|C_i|}jumlah_{i=1}^k|C_i|kali J(C_i|T)tag{10-23}$ Metode akurasi pengelompokan percaya bahwa, $J (C)$ Semakin besar nilainya, maka terjadi clustering $C$ Relatif terhadap garis dasar $T$ Semakin tinggi kualitas clusteringnya.
Selain itu, secara umum $1 - J (C)$ ditelepon $C$ Tentang tolok ukur $T$ tingkat kesalahan keseluruhan.Oleh karena itu, akurasi pengelompokan $J (C)$ Tingkat kesalahan besar atau keseluruhan $1 - J (C)$ Kecil, hal ini menunjukkan bahwa algoritma clustering dapat mengelompokkan objek dari kategori yang berbeda ke dalam cluster yang berbeda dengan lebih baik, yaitu akurasi clustering yang tinggi.

(3) Evaluasi kualitas internal

Tidak ada tolak ukur eksternal yang diketahui untuk evaluasi kualitas internal, hanya kumpulan data yang digunakan $S$ dan pengelompokan $C$ Untuk mengevaluasi karakteristik dan besaran intrinsik suatu klaster $C$ kualitas dari. Artinya, efek pengelompokan umumnya dievaluasi dengan menghitung rata-rata kesamaan dalam cluster, rata-rata kesamaan antar cluster, atau kesamaan keseluruhan.
Evaluasi kualitas internal terkait dengan algoritma clustering. Indeks efektivitas clustering terutama digunakan untuk mengevaluasi kualitas efek clustering atau untuk menilai jumlah cluster yang optimal. Efek clustering yang ideal adalah memiliki jarak intra-cluster terkecil dan cluster terbesar. Oleh karena itu, efektivitas clustering umumnya diukur dengan suatu bentuk rasio jarak intra-cluster dan jarak antar-cluster. Indikator jenis ini yang umum digunakan antara lain indikator CH, indikator Dunn, indikator I, indikator Xie-eni, dll.

1. Indikator CH

Indeks CH adalah singkatan dari indeks Calinski-Harabasz. Indeks CH pertama-tama menghitung jumlah kuadrat jarak antara setiap titik cluster dan pusat cluster untuk mengukur kedekatan dalam kelas; antara setiap titik pusat cluster dan titik pusat kumpulan data untuk mengukur Pemisahan kumpulan data, dan rasio pemisahan terhadap kedekatan adalah indeks CH.
mempersiapkan $bawahi{X}_i$ mewakili sebuah cluster $C$ titik pusat (rata-rata), $\overline{X}$ mewakili kumpulan data $S$ titik pusat dari $atas{X}_i,garis atas{X})$ untuk $bawahi{X}_i$ tiba $\overline{X}$ Fungsi jarak tertentu, lalu pengelompokan $C$ Kekompakan cluster menengah didefinisikan sebagai
$text{Jejak}(A)=jumlah_{i=1}^ksum_{X_jin C_i}d(X_j,overline{X}_i)^2tag{10-24}$ Oleh karena itu, Trace(A) adalah clusternya $C$ Jumlah kuadrat jarak antara pusat cluster.Dan pengelompokan $C$ Tingkat pemisahan didefinisikan sebagai
$teks{Jejak}(B)=jumlah_{i=1}^k|C_i|d(garis_atas{X}_i,garis_atas{X})^2tag{10-25}$ Artinya, Trace(B) sedang mengelompok $C$ Setiap titik pusat cluster $S$ Jumlah tertimbang jarak kuadrat dari titik pusat .
Dari sini, jika $begin{aligned}N=sum_{i=1}^k|C_i|end{aligned}$ Maka indikator CH dapat didefinisikan sebagai
$V_{teks{CH}}(k)=frac{teks{Jejak}(B)/(k-1)}{teks{Jejak}(A)/(Nk)}tag{10-26}$ Rumus (10-26) umumnya digunakan dalam dua situasi berikut:
(1) Evaluasi pengelompokan mana yang diperoleh kedua algoritma yang lebih baik.
Misalkan dua algoritma digunakan untuk menganalisis kumpulan data $S$ Analisis cluster dilakukan dan dua cluster yang berbeda (keduanya berisi $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ cluster), maka clustering yang sesuai dengan nilai CH yang lebih besar akan lebih baik, karena semakin besar nilai CH berarti semakin dekat setiap cluster dalam cluster tersebut, dan cluster tersebut semakin tersebar.
(2) Evaluasi mana di antara dua cluster dengan jumlah cluster berbeda yang diperoleh dengan algoritma yang sama yang lebih baik.
Asumsikan bahwa suatu algoritma memiliki kumpulan data $S$ Analisis cluster dilakukan dan jumlah cluster diperoleh sebagai $k_1$ Dan $b_2 dalam bahasa Indonesia$ Dari kedua cluster tersebut, hasil clustering dengan nilai CH yang lebih besar lebih baik, yang berarti jumlah cluster yang sesuai dengan cluster tersebut lebih tepat.Oleh karena itu, dengan menerapkan rumus (10-26) berulang kali, kita juga dapat memperoleh kumpulan data $S$ Jumlah cluster yang optimal untuk clustering.

2. Indikator Dunn

Indikator Dunn menggunakan cluster $C_i$ dengan cluster $C_j (Bahasa Indonesia)$ jarak minimum antar $ds(C_i, C_j)$ untuk menghitung pemisahan antar cluster dengan menggunakan diameter cluster terbesar di antara semua cluster $maks{varPhi(C_1), varPhi(C_2),...,varPhi(C_k)}$ Untuk mengkarakterisasi keketatan dalam suatu klaster, indeks Dunn adalah nilai minimum dari rasio antara klaster pertama dan klaster, yaitu
$V_D(k)=min_{i≠j}frac{d_s(C_i,C_j)}{maks{variabelPhi(C_1), variabelPhi(C_2),...,variabelPhi (C_k)}}tanda{10-27}$ Semakin besar nilai Dunn maka semakin jauh jarak antar cluster dan semakin baik pula clustering yang bersangkutan.Mirip dengan indeks evaluasi CH, indeks Dunn dapat digunakan untuk mengevaluasi kualitas cluster yang diperoleh dengan algoritma yang berbeda, dan juga dapat digunakan untuk mengevaluasi cluster mana yang diperoleh dengan algoritma yang sama dengan jumlah cluster yang berbeda yang lebih baik, yaitu dapat digunakan untuk mencari $S$ jumlah cluster yang optimal.

6. Penambangan outlier

Outlier adalah data khusus dalam kumpulan data yang menyimpang secara signifikan dari sebagian besar data. Fokus dari algoritma data mining seperti klasifikasi dan clustering yang diperkenalkan sebelumnya adalah untuk menemukan pola reguler yang berlaku untuk sebagian besar data. Oleh karena itu, banyak algoritma data mining mencoba untuk mengurangi atau menghilangkan dampak outlier dan mengurangi outlier ketika mengimplementasikan Points atau diabaikan sebagai kebisingan, namun dalam banyak penerapan praktis, orang menduga bahwa penyimpangan titik outlier tidak disebabkan oleh faktor acak, tetapi mungkin disebabkan oleh mekanisme lain yang sama sekali berbeda, yang perlu digali untuk analisis dan pemanfaatan khusus. Misalnya, dalam bidang aplikasi seperti manajemen keamanan dan pengendalian risiko, pola identifikasi outlier lebih berharga dibandingkan pola data normal.

(1) Ikhtisar permasalahan terkait

Kata Outlier biasanya diterjemahkan sebagai outlier, tetapi juga sebagai anomali. Namun, ada banyak alias dalam situasi aplikasi yang berbeda, seperti titik terisolasi, titik abnormal, titik baru, titik deviasi, titik pengecualian, kebisingan, data abnormal, dll. Penambangan outlier memiliki istilah serupa seperti penambangan data anomali, deteksi data anomali, penambangan data outlier, penambangan data pengecualian, dan penambangan peristiwa langka dalam literatur Tiongkok.

1. Generasi outlier

(1) Data berasal dari anomali yang disebabkan oleh penipuan, intrusi, wabah penyakit, hasil eksperimen yang tidak biasa, dll. Misalnya, tagihan telepon rata-rata seseorang adalah sekitar 200 yuan, tetapi tiba-tiba meningkat menjadi beberapa ribu yuan pada bulan tertentu; kartu kredit seseorang biasanya menghabiskan sekitar 5.000 yuan sebulan, tetapi pada bulan tertentu konsumsinya melebihi 30.000 yuan, dll. Pencilan seperti itu biasanya relatif menarik dalam penambangan data dan merupakan salah satu poin penting penerapannya.
(2) Disebabkan oleh perubahan inheren pada variabel data, yang mencerminkan karakteristik alami distribusi data, seperti perubahan iklim, pola pembelian pelanggan baru, mutasi genetik, dll. Juga salah satu area fokus yang menarik.
(3) Kesalahan pengukuran dan pengumpulan data terutama disebabkan oleh kesalahan manusia, kegagalan peralatan pengukuran, atau adanya kebisingan. Misalnya, nilai siswa sebesar -100 dalam mata kuliah tertentu mungkin disebabkan oleh nilai default yang ditetapkan oleh program; gaji manajer puncak sebuah perusahaan jauh lebih tinggi daripada gaji karyawan biasa mungkin tampak seperti hal yang aneh, tetapi memang demikian Data yang masuk akal.

2. Masalah penambangan outlier

Biasanya, masalah penambangan outlier dapat dipecah menjadi tiga sub-masalah untuk dijelaskan.
(1) Definisikan outlier
Karena outlier berkaitan erat dengan masalah praktis, mendefinisikan dengan jelas jenis data apa yang merupakan outlier atau data abnormal adalah premis dan tugas utama penambangan outlier. Secara umum, pengalaman dan pengetahuan pakar domain perlu digabungkan untuk memberikan analisis outlier yang akurat .Berikan deskripsi atau definisi yang sesuai.
(2) Penambangan outlier
Setelah titik outlier ditentukan dengan jelas, algoritma apa yang digunakan untuk mengidentifikasi atau menambang titik outlier yang ditentukan secara efektif adalah tugas utama penambangan outlier. Algoritme penambangan outlier biasanya memberikan data outlier yang mencurigakan kepada pengguna dari sudut pandang pola yang dapat tercermin dalam data tersebut, sehingga dapat menarik perhatian pengguna.
(3) Memahami outlier
Penjelasan yang masuk akal, pemahaman dan panduan penerapan praktis hasil penambangan adalah tujuan dari penambangan outlier. Karena mekanisme yang digunakan untuk menghasilkan outlier tidak pasti, apakah "outlier" yang terdeteksi oleh algoritma penambangan outlier benar-benar sesuai dengan perilaku abnormal yang sebenarnya tidak dapat dijelaskan dan dijelaskan oleh algoritma penambangan outlier, tetapi hanya dapat dijelaskan oleh algoritma penambangan outlier. . Pakar industri atau domain untuk memahami dan menjelaskan instruksi.

3. Relativitas outlier

Outlier adalah data khusus dalam kumpulan data yang jelas-jelas menyimpang dari sebagian besar data, tetapi "jelas" dan "sebagian besar" bersifat relatif, yaitu meskipun outlier berbeda, namun tetap relatif. Oleh karena itu, ada beberapa masalah yang perlu dipertimbangkan ketika mendefinisikan dan menambang outlier.
(1) Pencilan global atau lokal
Suatu objek data mungkin merupakan outlier dibandingkan dengan tetangga lokalnya, namun tidak relatif terhadap keseluruhan kumpulan data. Misalnya, seorang siswa yang tingginya 1,9 meter adalah orang asing di Kelas 1 jurusan matematika sekolah kami, tetapi tidak di antara orang-orang di seluruh negeri, termasuk pemain profesional seperti Yao Ming.
(2) Jumlah outlier
Meskipun jumlah titik outlier tidak diketahui, jumlah titik normal seharusnya jauh melebihi jumlah titik outlier. Artinya, jumlah titik outlier harus memiliki proporsi yang lebih rendah dalam kumpulan data yang besar poin outlier Seharusnya kurang dari 5% atau bahkan kurang dari 1%.
(3) Faktor titik outlier
Anda tidak dapat menggunakan "ya" atau "tidak" untuk melaporkan apakah suatu objek merupakan outlier. Sebaliknya, Anda harus menggunakan tingkat deviasi objek tersebut, yaitu faktor outlier (Faktor Outlier) atau skor outlier (Skor Outlier) untuk mengkarakterisasi deviasi suatu data dari derajat kelompok, dan kemudian menyaring objek dengan faktor outlier yang lebih tinggi dari ambang batas tertentu, memberikannya kepada pengambil keputusan atau pakar domain untuk dipahami dan dijelaskan, dan menerapkannya dalam kerja praktek.

(2) Metode berbasis jarak

1. Konsep dasar

Definisi 10-11 Ada bilangan bulat positif $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ , objek $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Jarak tetangga terdekat adalah bilangan bulat positif yang memenuhi kondisi berikut $D_{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu} (X)$ ：
(1) kecuali $X$ Selain itu, setidaknya ada $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ objek $kamu$ memuaskan $D (X, kamu) \leq D_{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu} (X)$ 。
(2) kecuali $X$ Selain itu, ada paling banyak $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu - 1$ objek $kamu$ memuaskan $D (X, kamu) < D_{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu} (X)$ 。
di dalam $D (X, kamu)$ adalah sebuah objek $X$ Dan $kamu$ beberapa fungsi jarak di antara mereka.

dari suatu objek $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Semakin besar jarak tetangga terdekat maka semakin besar kemungkinan objek tersebut jauh dari sebagian besar data, sehingga objek tersebut dapat $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -jarak tetangga terdekat $D_{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu} (X)$ sebagai faktor outliernya.

Definisi 10-12 membuat $D(X,k)={Y|d(X,Y)≤d_k(X)baji Y≠X}$ , lalu disebut $D (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$ Ya $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Tetangga Terdekat (Domain).

Dapat dilihat dari definisi 10-12 bahwa $D (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$ Ya $X$ sebagai pusat, jarak $X$ Tidak melebihi $D_{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu} (X)$ Obyek $kamu$ Koleksinya terdiri dari. Perlu memberikan perhatian khusus pada, $X$ bukan miliknya $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -tetangga terdekat yaitu $X \in / D (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$ . Secara khusus, $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -tetangga terdekat $D (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$ Jumlah benda yang dikandungnya mungkin jauh melebihi $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ ,Sekarang $∣ D (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu) ∣ \geq aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ 。

Definisi 10-13 Ada bilangan bulat positif $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ , objek $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Faktor outlier tetangga terdekat didefinisikan sebagai
$teks{OF}_1(X,k)=frac{jumlah{mathop}limit_{Yin D(X,k)}d(X,Y)}{|D(X,k)|}tag{10-28}$

2. Deskripsi algoritma

Untuk kumpulan data tertentu dan jumlah jarak tetangga terdekat $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ , kita bisa menggunakan rumus di atas untuk menghitungnya $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Faktor outlier tetangga terdekat, dan mengurutkannya dari besar ke kecil. Diantaranya, beberapa objek dengan faktor outlier yang lebih besar kemungkinan besar merupakan outlier. Umumnya, objek tersebut perlu dianalisis dan dinilai oleh pengambil keputusan atau pakar industri , Poin mana yang benar-benar outlier.

Algoritma 10-8 Algoritma deteksi outlier berbasis jarak
Masukan: kumpulan data $S$ , jumlah jarak tetangga terdekat $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$
Keluaran: Daftar titik-titik outlier yang dicurigai dan faktor-faktor outlier yang terkait dalam urutan menurun
(1) ULANGI
(2) Ambil $S$ objek yang belum diproses di $X$
(3) Oke $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -tetangga terdekat $D (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$
(4) Perhitungan $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -faktor outlier tetangga terdekat $teks{OF}_1(X,k)$
（5）SAMPAI $S$ Setiap poin masuk telah diproses
(6) Ya $teks{OF}_1(X,k)$ Urutkan dalam urutan menurun dan keluaran $(X,teks{DARI}_1(X,k))$

3. Contoh perhitungan

Contoh 10-12 Kumpulan data dua dimensi dengan 11 titik $S$ Hal ini diberikan oleh Tabel 10-10, misalkan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 2$ , gunakan penghitungan kuadrat jarak Euclidean $X_7, X_{10},X_{11}$ Faktor outlier terhadap semua poin lainnya.

Masukkan deskripsi gambar di sini
membuka: Untuk memahami prinsip algoritma secara intuitif, kami akan melakukannya $S$ Objek data ditampilkan pada bidang pada Gambar (10-27) di bawah.

Masukkan deskripsi gambar di sini
Berikut ini menghitung masing-masing faktor outlier dari titik tertentu dan titik lainnya.

(1) Objek perhitungan $X_7_7_Kelas$ faktor outlier
Seperti yang terlihat dari gambar, jaraknya $X_7=(6,8)$ Titik terdekat adalah $X_{10}=(5,7)$ ,Dan $D (X_{7}, X_{10}) = 1.41$ , titik terdekat lainnya mungkin $X_{11}=(5,2)$ ， $X_{9} = (3, 2)$ ， $X_{8} = (2, 4)$ ；
Dihitung $d(X_7, X_{11}) = 6,08$ ， $D (X_{7}, X_{9}) = 6.71$ ， $d(X_7, X_8) = 5,66$
Karena $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 2$ ,Jadi $D_{2} (X_{7}) = 5.66$ , jadi menurut definisi 10-11 kita punya $X_7, 2 = { X_10, X_8 }$
Menurut rumus (10-28), $X_7_7_Kelas$ faktor outlier
$begin{aligned} text{OF}_1(X_7,2)&=frac{mathop{sum}limits_{Yin N(X_7,2)}d(X_7,Y)}{|N(X_7,k)|}=frac{d(X_7,X_{10})+d(X_7,X_8)}{2}\[3ex] &=frac{1.41+5.66}{2}=3.54 end{aligned}$ (2) Objek perhitungan $X_{10} dan seterusnya$ faktor outlier $teks{OF}_1(X_{10},2)=2,83$

(3) Objek perhitungan $X_{11}$ faktor outlier $teks{OF}_1(X_{11},2)=2,5$

(4) Objek perhitungan $X_{5}$ faktor outlier $teks{OF}_1(X_{5},2)=1$

Demikian pula faktor outlier dari objek yang tersisa dapat dihitung, lihat tabel berikut (10-11).

Masukkan deskripsi gambar di sini
4. Ambang batas faktor outlier

berdasarkan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Teori tetangga terdekat, semakin besar faktor outlier, semakin besar kemungkinannya merupakan outlier. Oleh karena itu, ambang batas harus ditentukan untuk membedakan outlier dari titik normal. Metode yang paling sederhana adalah dengan menentukan jumlah titik outlier, namun metode ini terlalu sederhana dan kadang-kadang melewatkan beberapa titik outlier yang sebenarnya atau mengatribusikan terlalu banyak titik normal ke kemungkinan titik outlier, sehingga menyulitkan pakar domain atau pengambil keputusan untuk mengalami kesulitan. dalam memahami dan menafsirkan outlier.
(1) Metode ambang batas segmentasi faktor outlier terlebih dahulu menyusun faktor-faktor outlier dalam urutan menurun, dan pada saat yang sama menomori ulang objek data dalam urutan menaik sesuai dengan faktor-faktor outlier.
(2) Berdasarkan faktor outlier $teks{OF}_1(X,k)$ adalah ordinatnya, dan nomor urut faktor outliernya adalah absis, yaitu (nomor urut, $teks{OF}_1$ nilai) ditandai pada bidang dan dihubungkan untuk membentuk polyline yang tidak meningkat, dan titik di mana polyline berpotongan dengan penurunan yang tajam dan penurunan yang lembut ditemukan sesuai dengan faktor outlier sebagai ambang batas daripada atau sama dengan ambang batas ini adalah objek normal, maka objek lainnya kemungkinan merupakan outlier.

Contoh 10-13 Kumpulan data untuk Contoh 10-12 $S$ , faktor-faktor outliernya dirangkum dalam urutan menurun dan nomor seri pada Tabel 10-11. Cobalah untuk mencari ambang batas titik outlier berdasarkan metode ambang batas segmentasi faktor outlier.

membuka: Pertama, gunakan (nomor seri, $teks{OF}_1$ nilai) sebagai titik pada bidang, ditandai pada bidang dan dihubungkan dengan garis poli. Seperti terlihat pada Gambar 10-28 di bawah ini.

Masukkan deskripsi gambar di sini
Kemudian dengan melihat Gambar 10-28, kita dapat menemukan bahwa polyline di sebelah kiri titik keempat (4, 1.27) turun sangat tajam, sedangkan polyline di sebelah kanan turun dengan sangat perlahan. Oleh karena itu, faktor outlier 1.27 dipilih sebagai ambang.Karena $X_7 dan X_{10}$ Dan $X_{11}$ Faktor outlier masing-masing adalah 3,54, 2,83, dan 2,5, yang semuanya lebih besar dari 1,27. Oleh karena itu, ketiga poin tersebut kemungkinan besar merupakan poin outlier, sedangkan poin sisanya merupakan poin biasa.
Melihat kembali Gambar 10-27, kita dapat menemukannya $X_7 dan X_{10}$ Dan $X_{11}$ memang jauh dari sebagian besar objek di sebelah kiri, jadi perlakukan objek tersebut sebagai kumpulan data $S$ Pencilan tersebut masuk akal.

5. Evaluasi algoritma

Keuntungan terbesar dari metode deteksi outlier berbasis jarak adalah prinsipnya sederhana dan mudah digunakan. Kekurangannya terutama tercermin pada aspek-aspek berikut.
(1) Parameter $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Pemilihan tersebut tidak memiliki metode yang sederhana dan efektif untuk menentukan dampak hasil pengujian terhadap parameter $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Tidak ada hasil analisis yang diterima secara universal mengenai tingkat sensitivitas.
(2) Kompleksitas waktunya adalah $O(|S|^2)$ , tidak memiliki skalabilitas untuk kumpulan data berskala besar.
(3) Karena penggunaan ambang batas faktor outlier global, sulit untuk menambang outlier dalam kumpulan data dengan wilayah dengan kepadatan berbeda.

(3) Metode berdasarkan kepadatan relatif

Metode jarak merupakan metode pengecekan outlier secara global, namun tidak dapat menangani kumpulan data pada area dengan kepadatan berbeda, yaitu tidak dapat mendeteksi outlier pada area dengan kepadatan lokal. Ketika kumpulan data berisi beberapa distribusi kepadatan atau merupakan campuran dari himpunan bagian kepadatan yang berbeda, metode deteksi outlier global seperti jarak biasanya tidak berfungsi dengan baik, karena apakah suatu objek merupakan outlier tidak hanya bergantung pada hubungannya dengan data di sekitarnya berkaitan dengan kepadatan di lingkungan tersebut.

1. Konsep kepadatan relatif

Dari sudut pandang kepadatan lingkungan, outlier adalah objek yang berada di daerah dengan kepadatan rendah. Oleh karena itu, perlu diperkenalkan konsep kepadatan lingkungan lokal dan kepadatan relatif objek.

Definisi 10-14 (1) suatu objek $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Kepadatan lokal tetangga terdekat (densitas) didefinisikan sebagai
$teks{dsty}(X,k)=frac{|D(X,k)|}{mathop{jumlah}limit_{Yin D(X,k)}d(X,Y)}tag{10-29}$ (2) suatu benda $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Kepadatan relatif lokal tetangga terdekat (kepadatan relatif)
$k)=frac{jumlah{mathop}limit_{Yin D(X, k)}teks{gaya(X, k)/|D(X, k)|}{teks{gaya(X, k)}tag{10-30}$ di dalam $D (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$ Itu objeknya $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ - tetangga terdekat (diberikan dalam Definisi 10-12), $∣ D (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu) ∣$ adalah jumlah objek dalam koleksi.

2. Deskripsi algoritma

oleh $gaya hidup (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$ sebagai orang asing $teks{OF}_2(X,k)$ , perhitungannya dibagi menjadi dua langkah
(1) Menurut jumlah tetangga $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ , hitung setiap objek $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Kepadatan lokal tetangga terdekat $dsty (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$
(2) Perhitungan $X$ kepadatan rata-rata tetangga terdekat dan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Kepadatan relatif lokal tetangga terdekat $gaya hidup (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$
Kumpulan data terdiri dari beberapa cluster alami. Kepadatan relatif objek yang dekat dengan titik inti di dalam cluster mendekati 1, sedangkan kepadatan relatif objek di tepi cluster atau di luar cluster relatif besar. Oleh karena itu, semakin besar nilai kepadatan relatifnya, semakin besar kemungkinannya merupakan outlier.

Algoritma 10-9 Algoritma deteksi outlier berdasarkan kepadatan relatif
Masukan: kumpulan data $S$ , jumlah tetangga terdekat $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$
Keluaran: Daftar titik-titik outlier yang dicurigai dan faktor-faktor outlier yang terkait dalam urutan menurun
(1) ULANGI
(2) Ambil $S$ objek yang belum diproses di $X$
(3) Oke $X$ dari $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -tetangga terdekat $D (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$
(4) Pemanfaatan $D (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$ menghitung $X$ Kepadatan $dsty (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$
（5）SAMPAI $S$ Setiap poin masuk telah diproses
(6) ULANGI
(7) Ambil $S$ objek pertama masuk $X$
(8) Oke $X$ kepadatan relatif $gaya hidup (X, aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu)$ , dan tetapkan ke $teks{OF}_2(X,k)$
（9）SAMPAI $S$ Semua objek di telah diproses
(10) Benar $teks{OF}_2(X,k)$ Urutkan dalam urutan menurun dan keluaran $(X,teks{DARI}_2(X,k))$

Contoh 10-14 Untuk kumpulan data dua dimensi yang diberikan pada Contoh 10-12 $S$ (Lihat Tabel 10-10 untuk rinciannya), jadi $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 2$ , coba hitung jarak Euclidean $X_7, X_{10},X_{11}$ Faktor outlier berdasarkan kepadatan relatif benda-benda yang sama.

Masukkan deskripsi gambar di sini
membuka:Karena $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 2$ , jadi kita memerlukan kepadatan lokal 2 tetangga terdekat dari semua objek.

(1) Temukan 2 tetangga terdekat dari setiap objek data pada Tabel 10-11 $X_i,2$ 。
Berdasarkan metode perhitungan yang sama pada Contoh 10-12, kita dapat memperolehnya
$begin{aligned} &D(X_1,2)={X_2,X_3,X_5}，D(X_2,2)={X_1,X_6}， D(X_3,2)={X_1,X_4}，\ &D(X_4,2)={X_3,X_5}， D(X_5,2)={X_1,X_4,X_6,X_9}，D(X_6,2)={X_2,X_5,X_8}，\ &D(X_7,2)={X_{10},X_8}， D(X_8,2)={X_2,X_6}， D(X_9,2)={X_5,X_4,X_6}，\ &D(X_{10},2)={X_7,X_8}， D(X_{11},2)={X_9,X_5} end{aligned}$

(2) Hitung kepadatan lokal setiap objek data $teks{gaya}(X_i,2)$ ：

① Hitung $X_1 ...$ Kepadatan
Karena $D (X_{1}, 2) = {X_{2}, X_{3}, X_{5}}$ , jadi setelah dihitung, kita punya $D (X_{1}, X_{2}) = 1$ ， $(x_1,x_3) = 1$ ， $D (X_{1}, X_{5}) = 1$ ；
Menurut rumus (10-29), kita memperoleh:
$begin{aligned} text{dsty}(X_1,2)&=frac{|D(X_1,2)|}{mathop{sum}limits_{Yin N(X_1,2)}d(X_1,Y)}\[3ex] &=frac{|N(X_1,2)|}{d(X_1,X_2)+d(X_1,X_3)+d(X_1,X_5)}\[3ex] &=frac{3}{1+1+1}=1 end{aligned}$

② Perhitungan $X_2 = 2$ Kepadatan
Karena $D (X_{2}, 2) = {X_{1}, X_{6}}$ , jadi dihitung $D (X_{2}, X_{1}) = 1$ ， $D (X_{2}, X_{6}) = 1$ ；
Menurut rumus (10-29), kita memperoleh:
$begin{aligned} text{dsty}(X_2,2)&=frac{|D(X_2,2)|}{mathop{sum}limits_{Yin N(X_2,2)}d(X_2,Y)}=frac{2}{1+1}=1 end{aligned}$

Kepadatan lokal objek data lainnya dapat dihitung dengan cara yang sama, lihat Tabel 10-12 di bawah.

Masukkan deskripsi gambar di sini
(3) Hitung setiap benda $X_i$ kepadatan relatif $ke-2}(X_i, 2)$ , dan menganggapnya sebagai faktor outlier $teks{OF}_2$ 。
① Hitung $X_1 ...$ kepadatan relatif
Menggunakan nilai massa jenis masing-masing benda pada Tabel 10-12, sesuai dengan rumus massa jenis relatif (10-30):
$begin{aligned} text{rdsty}(X_1,2)&=frac{mathop{sum}limits_{Yin N(X_1,2)}text{dsty}(Y,2)/|N(X_1,2)|}{text{dsty}(X_1,2)}\[3ex] &=frac{(1+1+1)/3}{1}=1=text{OF}_2(X_1,2) end{aligned}$

② Perhitungan serupa dapat diperoleh $X_2, X_3, …, X_{11}$ nilai kepadatan relatif.
Misalnya $X_5 X_5 tidak ditemukan$ Kepadatan relatif dari:
$begin{aligned} text{rdsty}(X_5,2)&=frac{mathop{sum}limits_{Yin N(X_5,2)}text{dsty}(Y,2)/|N(X_5,2)|}{text{dsty}(X_5,2)}\[3ex] &=frac{(1+1+1+0.79)/4}{1}=0.95=text{OF}_2(X_5,2) end{aligned}$ Hasilnya dirangkum dalam Tabel 10-13 di bawah ini.

Masukkan deskripsi gambar di sini
Contoh 10-15 Mengingat kumpulan data yang ditunjukkan pada Tabel 10-14, silakan gunakan jarak Euclidean untuk $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 2, 3, 5$ , hitung nilai setiap poin $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -kepadatan lokal tetangga terdekat, $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Kepadatan relatif lokal tetangga terdekat (faktor outlier $teks{OF}_2$ ) dan berdasarkan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Faktor outlier untuk jarak tetangga terdekat $teks{OF}_1$ 。

Masukkan deskripsi gambar di sini
membuka: (1) Untuk memudahkan pemahaman dapat $S$ Posisi relatif titik-titik ditandai pada bidang dua dimensi (Gambar 10-30).

Masukkan deskripsi gambar di sini
(2) Gunakan algoritma berbasis jarak dan kepadatan relatif masing-masing 10-8 dan 10-9.Hitung setiap objek secara terpisah $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Kepadatan lokal tetangga terdekat $dsty$ 、 $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Kepadatan relatif lokal tetangga terdekat (faktor outlier $teks{OF}_2$ ) dan berdasarkan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Faktor outlier untuk jarak tetangga terdekat $teks{OF}_1$ , hasilnya dirangkum dalam Tabel 10-15.

Masukkan deskripsi gambar di sini
(3) Analisis sederhana
① Seperti yang terlihat pada Gambar 10-30, $X_{15}$ Dan $X_{16}$ Ya $S$ Ada dua outlier yang jelas, dan metode berdasarkan jarak dan kepadatan relatif dapat menggalinya dengan lebih baik;
② Dari contoh ini, kedua algoritma tersebut memiliki $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ tidak sesensitif yang diharapkan, mungkin ini outlier. $X_{15}$ Dan $X_{16}$ Pemisahan dari objek lain terlihat sangat jelas.
③Seperti yang terlihat pada Tabel 10-15, tidak masalah $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Ambil 2, 3 atau 5, $X_1 ...$ wilayah tersebut $dsty$ nilainya jauh lebih rendah dari $X_7_7_Kelas$ wilayah tersebut $dsty$ nilai, yang konsisten dengan kepadatan area yang ditunjukkan pada Gambar 10-30.Namun nilai kepadatan relatif kedua wilayah tersebut $teks{OF}_2$ Namun hampir tidak ada perbedaan yang nyata. Hal ini ditentukan oleh sifat kerapatan relatif, yaitu untuk titik data yang terdistribusi merata, kerapatan relatif titik inti adalah 1, berapa pun jarak antar titik.

7. Metode pengelompokan lainnya

1. Peningkatan algoritma pengelompokan

（1） $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -mod ( $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -modes) algoritma untuk $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Algoritma rata-rata hanya cocok untuk batasan atribut numerik dan diusulkan untuk mencapai pengelompokan data diskrit dengan cepat.Karena $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Algoritme modular menggunakan metode pencocokan 0-1 sederhana untuk menghitung jarak antara dua nilai atribut pada atribut diskrit yang sama, yang melemahkan perbedaan antara nilai atribut ordinal, yaitu tidak dapat sepenuhnya mencerminkan perbedaan antara dua nilai atribut di bawah atribut ordinal yang sama. Masih ada ruang untuk perbaikan dan perbaikan.
（2） $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -prototipe ( $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Prototipe) algoritma dikombinasikan dengan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Algoritma rata-rata dengan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Keuntungan dari algoritma modular adalah dapat mengelompokkan kumpulan data dengan atribut diskrit dan numerik (disebut atribut campuran).Dibutuhkan untuk atribut diskrit $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Objek perhitungan algoritma modular $X$ Dan $kamu$ jarak antara $d_1(X,Y)$ , untuk atribut numerik, gunakan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Metode dalam algoritma rata-rata menghitung jarak antar objek $d_2(X,Y)$ , dan terakhir menggunakan metode pembobotan, yaitu $d_1(X,Y)+(1-alfa)d_2(X,Y)$ sebagai objek kumpulan data $X$ Dan $kamu$ jarak antara $D (X, kamu)$ ,di dalam $α \in [0, 1]$ adalah koefisien bobot, biasanya bisa $α = 0.5$ 。
(3) Algoritma BIRCH (Balanced Iterative Reducing and Clustering Used Hierarchies) adalah metode pengelompokan hierarki yang komprehensif.Ia menggunakan Clustering Features (CF) dan Clustering Feature Tree (CF Tree, mirip dengan B-tree) untuk meringkas cluster-cluster. $C_i$ ,di dalam $teks{CF}_i=(ni, teks{LS}_i, teks{SS}_i)$ adalah kembar tiga, $n_i$ adalah jumlah objek dalam cluster, $teks{LS}_i$ Ya $n_i$ jumlah linier komponen objek, $teks{SS}_i$ Ya $n_i$ Jumlah kuadrat komponen-komponen suatu benda.
(4) Algoritma CURE (Clustering Menggunakan Representatives) adalah untuk $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Peningkatan lain pada algoritma rata-rata. Banyak algoritma pengelompokan yang hanya bagus dalam pengelompokan kelompok bola, sementara beberapa algoritma pengelompokan lebih sensitif terhadap titik-titik yang terisolasi. Untuk menyelesaikan dua permasalahan di atas, algoritma CURE telah diubah $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Algoritma rata-rata menggunakan jumlah pusat cluster $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ -Algoritma titik pusat menggunakan satu objek spesifik untuk mewakili sebuah cluster, metode tradisional, tetapi menggunakan beberapa objek perwakilan dalam cluster untuk mewakili sebuah cluster, sehingga dapat beradaptasi dengan pengelompokan cluster non-bola dan mengurangi dampak dari kebisingan pada pengelompokan.
(5) Algoritma ROCK (RObust Clustering menggunakan linK) adalah algoritma pengelompokan yang diusulkan untuk kumpulan data atribut biner atau kategorikal.
(6) Algoritma OPTICS (Ordering Points To Identification the Clustering Structure) digunakan untuk mereduksi kepadatan algoritma DBSCAN. $(ε, Poin Minimum)$ sensitivitas parameter. Ini tidak secara eksplisit menghasilkan klaster hasil, namun menghasilkan peringkat klaster yang diperbesar untuk analisis klaster (misalnya, bagan koordinat dengan jarak yang dapat dijangkau sebagai sumbu vertikal dan urutan keluaran titik sampel sebagai sumbu horizontal). Pemeringkatan ini mewakili struktur pengelompokan berbasis kepadatan pada setiap titik sampel.Kita bisa mendapatkan dari penyortiran ini berdasarkan parameter kepadatan apa pun $(ε, Poin Minimum)$ Hasil clustering dari algoritma DBSCAN.

2. Metode pengelompokan baru lainnya

Gunakan beberapa teori atau teknik baru untuk merancang metode pengelompokan baru.

(1) Metode pengelompokan berbasis grid
Metode berbasis grid mengkuantifikasi ruang objek menjadi sejumlah sel terbatas untuk membentuk struktur grid, dan informasi posisi titik pemisah di setiap dimensi disimpan dalam array. Garis pemisah melewati seluruh ruang, dan semua pengelompokan operasi dilakukan di Dilakukan pada struktur grid ini (yaitu ruang kuantisasi). Keuntungan utama dari metode ini adalah kecepatan pemrosesannya yang sangat cepat. Kecepatan pemrosesannya tidak bergantung pada jumlah objek data dan hanya terkait dengan jumlah sel di setiap dimensi ruang kuantifikasi mengorbankan hasil pengelompokan. Karena algoritma pengelompokan grid memiliki masalah skala kuantifikasi, kita biasanya mulai mencari cluster dari unit kecil terlebih dahulu, kemudian secara bertahap meningkatkan ukuran unit, dan mengulangi proses ini hingga ditemukan cluster yang memuaskan.

(2) Metode pengelompokan berbasis model
Metode berbasis model mengasumsikan model untuk setiap cluster dan menemukan data yang paling sesuai dengan model yang diberikan. Metode berbasis model berupaya mengoptimalkan kemampuan adaptasi antara data tertentu dan model data tertentu dengan menetapkan fungsi kepadatan yang mencerminkan distribusi spasial sampel untuk menemukan lokasi cluster.

(3) Metode clustering berdasarkan himpunan fuzzy
Dalam praktiknya, tidak ada nilai atribusi yang ketat di cluster mana sebagian besar objek berada. Ada perantara atau ketidakpastian dalam nilai dan bentuk atribusinya, yang cocok untuk partisi lunak. Karena analisis pengelompokan fuzzy memiliki keunggulan dalam menggambarkan keterhubungan atribusi sampel dan dapat mencerminkan dunia nyata secara objektif, maka analisis ini menjadi salah satu hot spot dalam penelitian analisis klaster saat ini.
Algoritma fuzzy clustering merupakan metode pembelajaran tanpa pengawasan yang didasarkan pada teori matematika fuzzy dan metode clustering tidak pasti. Setelah fuzzy clustering diusulkan, ia mendapat perhatian besar dari komunitas akademis. Fuzzy clustering adalah "keluarga" clustering yang besar, dan penelitian tentang fuzzy clustering juga sangat aktif.

(4) Metode pengelompokan berdasarkan himpunan kasar
Pengelompokan kasar adalah metode pengelompokan tidak pasti yang didasarkan pada teori himpunan kasar. Dari perspektif penggandengan antara himpunan kasar dan algoritma pengelompokan, metode pengelompokan kasar dapat dibagi menjadi dua kategori: pengelompokan kasar penggandengan kuat dan pengelompokan kasar penggandengan lemah.
Tentu saja, arah penelitian baru dalam analisis klaster lebih dari itu. Misalnya, algoritma penambangan dan pengelompokan aliran data, data yang tidak pasti dan algoritma pengelompokannya, komputasi kuantum, dan algoritma pengelompokan genetika kuantum adalah teknologi pengelompokan yang telah muncul dalam beberapa tahun terakhir. . topik penelitian mutakhir.

3. Metode penambangan outlier lainnya

Metode penambangan outlier yang diperkenalkan sebelumnya hanyalah dua perwakilan dari penambangan outlier. Ada banyak metode penambangan outlier yang lebih matang dalam penerapan praktisnya. Metode tersebut dapat ditentukan dari jenis teknologi yang digunakan dalam metode penambangan atau penggunaan pengetahuan sebelumnya sudut: derajat.

(1) Jenis teknologi yang digunakan
Terutama ada metode statistik, metode berbasis jarak, metode berbasis kepadatan, metode berbasis clustering, metode berbasis deviasi, metode berbasis kedalaman, metode berbasis transformasi wavelet, metode berbasis grafik, metode berbasis pola, dan jaringan saraf metode, dll.

(2) Pemanfaatan pengetahuan sebelumnya
Bergantung pada ketersediaan informasi kelas normal atau outlier, ada tiga pendekatan umum:
① Metode deteksi outlier tanpa pengawasan, yaitu tidak ada pengetahuan sebelumnya seperti label kategori dalam kumpulan data;
② Metode deteksi outlier yang diawasi, yaitu mengekstraksi karakteristik outlier melalui keberadaan set pelatihan yang berisi outlier dan titik normal;
③ Metode deteksi outlier semi-supervised, data pelatihan berisi data berlabel normal, tetapi tidak ada informasi tentang objek data outlier.

Berbagi teknologi