Εξερεύνηση της ομοιότητας των δεδομένων: Πλήρης ανάλυση των μεθόδων υπολογισμού ομοιότητας στο sklearn

Διερεύνηση της ομοιότητας των δεδομένων: πλήρης ανάλυση μεθόδων υπολογισμού ομοιότητας στο sklearn

2024-07-12

Διερεύνηση της ομοιότητας των δεδομένων: πλήρης ανάλυση μεθόδων υπολογισμού ομοιότητας στο sklearn

Στον κόσμο της επιστήμης δεδομένων και της μηχανικής μάθησης, ο υπολογισμός των ομοιοτήτων μεταξύ των σημείων δεδομένων είναι μια θεμελιώδης και κρίσιμη εργασία. Ο υπολογισμός της ομοιότητας μπορεί να μας βοηθήσει να αναγνωρίσουμε μοτίβα στα δεδομένα, να εκτελέσουμε ανάλυση συμπλέγματος, σχεδιασμό συστήματος συστάσεων κ.λπ. Το scikit-learn (sklearn για συντομία), ως δημοφιλής βιβλιοθήκη μηχανικής εκμάθησης στην Python, παρέχει μια ποικιλία μεθόδων για τον υπολογισμό της ομοιότητας των δεδομένων. Αυτό το άρθρο θα εισαγάγει λεπτομερώς τη μέθοδο που χρησιμοποιείται για τον υπολογισμό της ομοιότητας στο sklearn και θα παρέχει πρακτικά παραδείγματα κώδικα.

1. Η σημασία του υπολογισμού της ομοιότητας

Ο υπολογισμός της ομοιότητας έχει σημαντικές εφαρμογές στα ακόλουθα πεδία:

Ανάλυση συστάδων: Συγκεντρώστε παρόμοια σημεία δεδομένων μαζί.
Προτεινόμενο σύστημα: Προτείνετε παρόμοια αντικείμενα με βάση τις ιστορικές προτιμήσεις του χρήστη.
μη φυσιολογική ανίχνευση: Προσδιορίστε ακραίες τιμές που δεν είναι παρόμοια με τα περισσότερα σημεία δεδομένων.
Αναγνώριση εικόνας: Προσδιορίστε το περιεχόμενο της εικόνας συγκρίνοντας διανύσματα χαρακτηριστικών.

2. Μέθοδος υπολογισμού ομοιότητας στο sklearn

Το sklearn παρέχει μια ποικιλία εργαλείων και αλγορίθμων για τον υπολογισμό της ομοιότητας.

2.1 Ομοιότητα συνημιτονίου

Η ομοιότητα συνημιτόνου αξιολογεί την ομοιότητα μεταξύ δύο διανυσμάτων μετρώντας τη γωνία μεταξύ τους.

from sklearn.metrics.pairwise import cosine_similarity

# 假设X是数据集
cosine_sim = cosine_similarity(X)
1
2
3
4

2.2 Ευκλείδεια απόσταση

Η Ευκλείδεια απόσταση είναι η πιο διαισθητική μέθοδος μέτρησης της απόστασης, για τον υπολογισμό της ευθείας απόστασης μεταξύ δύο σημείων.

from sklearn.metrics.pairwise import euclidean_distances

# 假设X是数据集
distances = euclidean_distances(X)
# 计算相似度，通常使用1减去距离
similarity = 1 / (1 + distances)
1
2
3
4
5
6

2.3 Απόσταση Μανχάταν

Η απόσταση του Μανχάταν (ονομάζεται επίσης απόσταση μπλοκ πόλεων) μετρά το άθροισμα των απόλυτων αποστάσεων του άξονα δύο σημείων σε ένα τυπικό σύστημα συντεταγμένων.

from sklearn_extra.metrics import manhattan_distances

# 假设X是数据集
manhattan_dist = manhattan_distances(X)
# 转换为相似度
similarity = 1 / (1 + manhattan_dist)
1
2
3
4
5
6

2.4 Συντελεστής ομοιότητας Jaccard

Ο συντελεστής ομοιότητας Jaccard χρησιμοποιείται κυρίως για τη μέτρηση της ομοιότητας δύο συνόλων, με τιμή μεταξύ 0 και 1.

from sklearn.metrics import jaccard_score

# 假设X和Y是两个数据集
jaccard_sim = jaccard_score(X, Y, average='micro')
1
2
3
4

2.5 Συντελεστής συσχέτισης Pearson

Ο συντελεστής συσχέτισης Pearson χρησιμοποιείται για τη μέτρηση της γραμμικής συσχέτισης μεταξύ δύο συνόλων δεδομένων.

from sklearn.metrics.pairwise import pearsonr

# 假设X和Y是两个数据集
correlation, _ = pearsonr(X[:, 0], Y[:, 0])
1
2
3
4

3. Παραδείγματα εφαρμογής υπολογισμού ομοιότητας

Ας υποθέσουμε ότι πρέπει να προτείνουμε προϊόντα που αρέσουν σε παρόμοιους χρήστες με βάση την ιστορική συμπεριφορά του χρήστη:

from sklearn.metrics.pairwise import cosine_similarity

# 假设user_behavior是一个DataFrame，记录了用户对商品的评分
user_behavior = ...

# 计算用户之间的相似度
user_similarity = cosine_similarity(user_behavior)

# 推荐系统可以根据相似度来推荐商品
# 例如，找出与目标用户相似度最高的用户喜欢的其他商品
similar_users = user_similarity[目标用户索引].argsort()[::-1]
recommended_products = 商品列表[similar_users[1]]
1
2
3
4
5
6
7
8
9
10
11
12

4. Συμπέρασμα

Ο υπολογισμός ομοιότητας είναι μια βασική τεχνολογία στην ανάλυση δεδομένων και τη μηχανική μάθηση, και το sklearn παρέχει μια ποικιλία μεθόδων για την εκτέλεση αυτής της εργασίας. Μέσα από αυτό το άρθρο, μάθαμε για τις διαφορετικές μεθόδους υπολογισμού ομοιότητας στο sklearn και παρέχουμε πρακτικά παραδείγματα κώδικα.

Ο σκοπός αυτού του άρθρου είναι να βοηθήσει τους αναγνώστες να κατανοήσουν καλύτερα τους υπολογισμούς ομοιότητας και να κατακτήσουν τις μεθόδους εφαρμογής αυτών των τεχνικών στο sklearn. Ελπίζουμε ότι οι αναγνώστες μπορούν να βελτιώσουν την κατανόησή τους για τον υπολογισμό της ομοιότητας μέσω αυτού του άρθρου και να εφαρμόσουν αποτελεσματικά αυτές τις τεχνικές σε πραγματικά έργα. Καθώς ο όγκος των δεδομένων συνεχίζει να αυξάνεται, οι υπολογισμοί ομοιότητας θα συνεχίσουν να διαδραματίζουν σημαντικό ρόλο στον τομέα της επιστήμης δεδομένων.

Κοινή χρήση τεχνολογίας

Διερεύνηση της ομοιότητας των δεδομένων: πλήρης ανάλυση μεθόδων υπολογισμού ομοιότητας στο sklearn

Διερεύνηση της ομοιότητας των δεδομένων: πλήρης ανάλυση μεθόδων υπολογισμού ομοιότητας στο sklearn

1. Η σημασία του υπολογισμού της ομοιότητας

2. Μέθοδος υπολογισμού ομοιότητας στο sklearn

2.1 Ομοιότητα συνημιτονίου

2.2 Ευκλείδεια απόσταση

2.3 Απόσταση Μανχάταν

2.4 Συντελεστής ομοιότητας Jaccard

2.5 Συντελεστής συσχέτισης Pearson

3. Παραδείγματα εφαρμογής υπολογισμού ομοιότητας

4. Συμπέρασμα

Προσωπικό προφίλ

τα στοιχεία επικοινωνίας μου