Κοινή χρήση τεχνολογίας

Εξερευνώντας το μυστικό της εγγύτητας: εφαρμογή του αλγόριθμου K-πλησιέστερου γείτονα (KNN) στο SKlearn

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Εξερευνώντας το μυστικό της εγγύτητας: εφαρμογή του αλγόριθμου K-πλησιέστερου γείτονα (KNN) στο SKlearn

Στον κόσμο της μηχανικής μάθησης, ο αλγόριθμος K-Nearest Neighbors (KNN) είναι γνωστός για την απλότητα και τη διαισθητικότητά του. Το KNN είναι μια βασική μέθοδος ταξινόμησης και παλινδρόμησης και η αρχή λειτουργίας του είναι πολύ εύκολα κατανοητή: προβλέψτε σε ποια κατηγορία ή τιμή ανήκει ένα νέο σημείο δεδομένων μετρώντας την απόσταση μεταξύ διαφορετικών τιμών χαρακτηριστικών. Το Scikit-learn (sklearn για συντομία), ως μια ευρέως χρησιμοποιούμενη βιβλιοθήκη μηχανικής μάθησης στην Python, παρέχει την υλοποίηση του αλγορίθμου KNN. Αυτό το άρθρο θα εισαγάγει λεπτομερώς τον τρόπο χρήσης του αλγόριθμου KNN στο sklearn και θα παρέχει πρακτικά παραδείγματα κώδικα.

1. Βασικές αρχές αλγόριθμου Κ-πλησιέστερου γείτονα

Η βασική ιδέα του αλγόριθμου K-πλησιέστερου γείτονα είναι: εάν οι περισσότεροι από τους K πλησιέστερους γείτονες ενός δείγματος στον χώρο χαρακτηριστικών ανήκουν σε μια συγκεκριμένη κατηγορία, τότε το δείγμα είναι πιθανό να ανήκει επίσης σε αυτήν την κατηγορία.

2. Βασικά στοιχεία του αλγόριθμου Κ-πλησιέστερου γείτονα
  • Επιλογή τιμής Κ: Η επιλογή του K έχει σημαντικό αντίκτυπο στην απόδοση του μοντέλου.
  • μέτρο απόστασης: Στον αλγόριθμο KNN μπορούν να χρησιμοποιηθούν διαφορετικές μέθοδοι μέτρησης απόστασης, όπως η Ευκλείδεια απόσταση, η απόσταση του Μανχάταν κ.λπ.
  • λειτουργία βάρους: Στους γείτονες μπορούν να εκχωρηθούν διαφορετικά βάρη, όπως η αμοιβαία στάθμιση με βάση την απόσταση.
3. Ταξινόμηση με χρήση KNN στο sklearn

Ακολουθούν τα βασικά βήματα για την ταξινόμηση KNN χρησιμοποιώντας το sklearn:

3.1 Εισαγωγή ταξινομητή KNN
from sklearn.neighbors import KNeighborsClassifier
  • 1
3.2 Προετοιμάστε δεδομένα

Ας υποθέσουμε ότι έχετε ήδη ένα σύνολο δεδομένων μεXείναι η χαρακτηριστική μήτρα,yείναι η μεταβλητή στόχος.

from sklearn.datasets import load_iris
X, y = load_iris(return_X_y=True)
  • 1
  • 2
3.3 Δημιουργία παρουσίας ταξινομητή KNN
knn = KNeighborsClassifier(n_neighbors=3)
  • 1
3.4 Μοντέλο εκπαίδευσης

Χρησιμοποιήστε το σύνολο δεδομένων για να εκπαιδεύσετε το μοντέλο KNN.

knn.fit(X, y)
  • 1
3.5 Κάνοντας προβλέψεις

Χρησιμοποιήστε το εκπαιδευμένο μοντέλο για να κάνετε προβλέψεις.

y_pred = knn.predict(X)
  • 1
4. Χρήση KNN για παλινδρόμηση στο sklearn

Το KNN μπορεί επίσης να χρησιμοποιηθεί για εργασίες παλινδρόμησης.

4.1 Εισαγωγή παλινδρομητή KNN
from sklearn.neighbors import KNeighborsRegressor
  • 1
4.2 Δημιουργία εμφάνισης αναδρομικού συστήματος KNN
knn_reg = KNeighborsRegressor(n_neighbors=3)
  • 1
4.3 Μοντέλο εκπαίδευσης

Χρησιμοποιήστε το σύνολο δεδομένων για να εκπαιδεύσετε ένα μοντέλο παλινδρόμησης KNN.

knn_reg.fit(X, y)
  • 1
4.4 Κάνοντας προβλέψεις

Χρησιμοποιήστε το εκπαιδευμένο μοντέλο για πρόβλεψη παλινδρόμησης.

y_pred_reg = knn_reg.predict(X)
  • 1
5. Πλεονεκτήματα και μειονεκτήματα του αλγόριθμου K-Nearest Neighbor
  • πλεονέκτημα: Ο αλγόριθμος είναι απλός και κατανοητός, χωρίς να υποθέσουμε ότι η κατανομή των δεδομένων έχει ισχυρή προσαρμοστικότητα στα δεδομένα.
  • έλλειψη: Υψηλή υπολογιστική πολυπλοκότητα, ειδικά σε μεγάλα σύνολα δεδομένων ευαίσθητα σε ακραίες τιμές.
6 Συμπέρασμα

Ο αλγόριθμος Κ-πλησιέστερου γείτονα είναι μια απλή αλλά ισχυρή μέθοδος μηχανικής μάθησης κατάλληλη για εργασίες ταξινόμησης και παλινδρόμησης. Το sklearn παρέχει μια εύχρηστη υλοποίηση KNN, επιτρέποντάς μας να εφαρμόσουμε γρήγορα αυτόν τον αλγόριθμο σε πρακτικά προβλήματα.

Αυτό το άρθρο περιγράφει λεπτομερώς τον τρόπο χρήσης του αλγόριθμου KNN στο sklearn και παρέχει πρακτικά παραδείγματα κώδικα. Ελπίζω ότι αυτό το άρθρο μπορεί να βοηθήσει τους αναγνώστες να κατανοήσουν καλύτερα τον αλγόριθμο K-πλησιέστερου γείτονα και να κατακτήσουν τις μεθόδους εφαρμογής αυτών των τεχνικών στο sklearn. Καθώς ο όγκος των δεδομένων συνεχίζει να αυξάνεται και η τεχνολογία μηχανικής μάθησης αναπτύσσεται, ο αλγόριθμος K-nearest γείτονα θα συνεχίσει να παίζει σημαντικό ρόλο στην ανάλυση δεδομένων και στην προγνωστική μοντελοποίηση.