Menjelajahi kesamaan data: Analisis lengkap metode perhitungan kesamaan di sklearn

Menjelajahi kesamaan data: analisis lengkap metode perhitungan kesamaan di sklearn

2024-07-12

Menjelajahi kesamaan data: analisis lengkap metode perhitungan kesamaan di sklearn

Dalam dunia ilmu data dan pembelajaran mesin, menghitung kesamaan antar titik data adalah tugas mendasar dan penting. Perhitungan kesamaan dapat membantu kita mengidentifikasi pola dalam data, melakukan analisis cluster, merancang sistem rekomendasi, dll. scikit-learn (singkatnya sklearn), sebagai pustaka pembelajaran mesin populer dengan Python, menyediakan berbagai metode untuk menghitung kesamaan data. Artikel ini akan memperkenalkan secara rinci metode yang digunakan untuk penghitungan kesamaan di sklearn dan memberikan contoh kode praktis.

1. Pentingnya perhitungan kesamaan

Perhitungan kesamaan memiliki penerapan penting dalam bidang berikut:

Analisis klaster: Mengelompokkan titik data serupa menjadi satu.
Sistem yang direkomendasikan: Merekomendasikan item serupa berdasarkan preferensi historis pengguna.
deteksi tidak normal: Mengidentifikasi outlier yang tidak serupa dengan sebagian besar titik data.
Identifikasi Gambar: Mengidentifikasi konten gambar dengan membandingkan vektor fitur.

2. Metode perhitungan kemiripan di sklearn

sklearn menyediakan berbagai alat dan algoritma untuk perhitungan kesamaan. Berikut adalah beberapa metode yang umum digunakan:

2.1 Kesamaan kosinus

Kesamaan kosinus mengevaluasi kesamaan antara dua vektor dengan mengukur sudut di antara keduanya.

from sklearn.metrics.pairwise import cosine_similarity

# 假设X是数据集
cosine_sim = cosine_similarity(X)
1
2
3
4

2.2 Jarak Euclidean

Jarak Euclidean adalah metode pengukuran jarak paling intuitif, menghitung jarak garis lurus antara dua titik.

from sklearn.metrics.pairwise import euclidean_distances

# 假设X是数据集
distances = euclidean_distances(X)
# 计算相似度，通常使用1减去距离
similarity = 1 / (1 + distances)
1
2
3
4
5
6

2.3 Jarak Manhattan

Jarak Manhattan (juga disebut jarak blok kota) mengukur jumlah jarak sumbu absolut dua titik pada sistem koordinat standar.

from sklearn_extra.metrics import manhattan_distances

# 假设X是数据集
manhattan_dist = manhattan_distances(X)
# 转换为相似度
similarity = 1 / (1 + manhattan_dist)
1
2
3
4
5
6

2.4 Koefisien kesamaan Jaccard

Koefisien kemiripan Jaccard terutama digunakan untuk mengukur kemiripan dua himpunan, dengan nilai antara 0 dan 1.

from sklearn.metrics import jaccard_score

# 假设X和Y是两个数据集
jaccard_sim = jaccard_score(X, Y, average='micro')
1
2
3
4

2.5 Koefisien korelasi Pearson

Koefisien korelasi Pearson digunakan untuk mengukur korelasi linier antara dua kumpulan data.

from sklearn.metrics.pairwise import pearsonr

# 假设X和Y是两个数据集
correlation, _ = pearsonr(X[:, 0], Y[:, 0])
1
2
3
4

3. Contoh penerapan perhitungan kemiripan

Misalkan kita perlu merekomendasikan produk yang disukai pengguna serupa berdasarkan riwayat perilaku pengguna:

from sklearn.metrics.pairwise import cosine_similarity

# 假设user_behavior是一个DataFrame，记录了用户对商品的评分
user_behavior = ...

# 计算用户之间的相似度
user_similarity = cosine_similarity(user_behavior)

# 推荐系统可以根据相似度来推荐商品
# 例如，找出与目标用户相似度最高的用户喜欢的其他商品
similar_users = user_similarity[目标用户索引].argsort()[::-1]
recommended_products = 商品列表[similar_users[1]]
1
2
3
4
5
6
7
8
9
10
11
12

4. Kesimpulan

Penghitungan kesamaan adalah teknologi dasar dalam analisis data dan pembelajaran mesin, dan sklearn menyediakan berbagai metode untuk melakukan pekerjaan ini. Melalui artikel ini, kita mempelajari berbagai metode penghitungan kesamaan di sklearn dan memberikan contoh kode praktis.

Tujuan artikel ini adalah untuk membantu pembaca lebih memahami perhitungan kesamaan dan menguasai metode penerapan teknik ini di sklearn. Diharapkan pembaca dapat meningkatkan pemahaman mereka tentang perhitungan kesamaan melalui artikel ini dan menerapkan teknik ini secara efektif dalam proyek sebenarnya. Seiring dengan bertambahnya jumlah data, penghitungan kesamaan akan terus memainkan peran penting dalam bidang ilmu data.

Berbagi teknologi