Menjelajahi rahasia kedekatan: penerapan algoritma K-nearest neighbour (KNN) di SKlearn

2024-07-12

Menjelajahi rahasia kedekatan: penerapan algoritma K-nearest neighbour (KNN) di SKlearn

Dalam dunia pembelajaran mesin, algoritma K-Nearest Neighbors (KNN) dikenal dengan kesederhanaan dan intuisinya. KNN adalah metode klasifikasi dan regresi dasar, dan prinsip kerjanya sangat mudah dipahami: memprediksi kategori atau nilai mana yang dimiliki suatu titik data baru dengan mengukur jarak antara nilai fitur yang berbeda. Scikit-learn (singkatnya sklearn), sebagai pustaka pembelajaran mesin yang banyak digunakan dengan Python, menyediakan implementasi algoritma KNN. Artikel ini akan memperkenalkan secara detail cara menggunakan algoritma KNN di sklearn dan memberikan contoh kode praktis.

1. Prinsip dasar algoritma K-nearest neighbour

Ide inti dari algoritma K-nearest neighbour adalah: jika sebagian besar K tetangga terdekat suatu sampel dalam ruang fitur termasuk dalam kategori tertentu, maka sampel tersebut kemungkinan besar juga termasuk dalam kategori ini.

2. Elemen kunci dari algoritma K-nearest neighbour

Pemilihan nilai K: Pilihan K mempunyai dampak penting pada performa model.
ukuran jarak: Metode pengukuran jarak yang berbeda dapat digunakan dalam algoritma KNN, seperti jarak Euclidean, jarak Manhattan, dll.
fungsi berat: Tetangga dapat diberi bobot yang berbeda, seperti bobot timbal balik berdasarkan jarak.

3. Klasifikasi menggunakan KNN di sklearn

Berikut langkah dasar klasifikasi KNN menggunakan sklearn:

3.1 Impor pengklasifikasi KNN

from sklearn.neighbors import KNeighborsClassifier
1

3.2 Menyiapkan data

Misalkan Anda sudah memiliki kumpulan dataXadalah matriks karakteristik,yadalah variabel target.

from sklearn.datasets import load_iris
X, y = load_iris(return_X_y=True)
1
2

3.3 Membuat instance pengklasifikasi KNN

knn = KNeighborsClassifier(n_neighbors=3)
1

3.4 Model pelatihan

Gunakan kumpulan data untuk melatih model KNN.

knn.fit(X, y)
1

3.5 Membuat prediksi

Gunakan model terlatih untuk membuat prediksi.

y_pred = knn.predict(X)
1

4. Menggunakan KNN untuk regresi di sklearn

KNN juga dapat digunakan untuk tugas regresi.

4.1 Impor regresor KNN

from sklearn.neighbors import KNeighborsRegressor
1

4.2 Buat instance regresi KNN

knn_reg = KNeighborsRegressor(n_neighbors=3)
1

4.3 Model pelatihan

Gunakan kumpulan data untuk melatih model regresi KNN.

knn_reg.fit(X, y)
1

4.4 Membuat prediksi

Gunakan model terlatih untuk prediksi regresi.

y_pred_reg = knn_reg.predict(X)
1

5. Kelebihan dan Kekurangan Algoritma K-Nearest Neighbor

keuntungan: Algoritmenya sederhana dan mudah dipahami, tanpa mengasumsikan distribusi data memiliki kemampuan beradaptasi yang kuat terhadap data.
kekurangan: Kompleksitas komputasi yang tinggi, terutama pada kumpulan data yang besar; sensitif terhadap outlier.

6. Kesimpulan

Algoritme K-nearest neighbour adalah metode pembelajaran mesin sederhana namun kuat yang cocok untuk tugas klasifikasi dan regresi. sklearn menyediakan implementasi KNN yang mudah digunakan, memungkinkan kita menerapkan algoritme ini dengan cepat pada masalah praktis.

Artikel ini merinci cara menggunakan algoritma KNN di sklearn dan memberikan contoh kode praktis. Saya harap artikel ini dapat membantu pembaca lebih memahami algoritma K-nearest neighbour dan menguasai metode penerapan teknik tersebut di sklearn. Seiring dengan bertambahnya jumlah data dan berkembangnya teknologi pembelajaran mesin, algoritma K-nearest neighbour akan terus memainkan peran penting dalam analisis data dan pemodelan prediktif.

Berbagi teknologi