Berbagi teknologi

tutorial dasar sklearn

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Scikit-learn (sklearn) adalah perpustakaan pembelajaran mesin populer yang menyediakan banyak alat untuk penambangan data dan analisis data. Berikut ini adalah tutorial dasar sederhana tentang sklearn, yang memperkenalkan cara melakukan prapemrosesan data, pelatihan model, dan evaluasi.

1. Instalasi dan impor

Pertama, pastikan Anda telah menginstal perpustakaan sklearn. Dapat diinstal menggunakan pip:

 

pip install scikit-learn

Mengimpor sklearn biasanya menggunakan cara berikut:

 

import sklearn from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score

2. Muat kumpulan data

sklearn berisi beberapa kumpulan data standar bawaan untuk memfasilitasi latihan dan pembelajaran kita. Misalnya, kita dapat memuat kumpulan data iris mata:

 

iris = datasets.load_iris() X = iris.data # 特征数据 y = iris.target # 目标数据

3. Pemrosesan awal data

Sebelum melatih suatu model, biasanya data perlu diproses terlebih dahulu, seperti standardisasi, normalisasi, pemilihan fitur, dll.

data yang dinormalisasi

 

scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

4. Bagilah set pelatihan dan set tes

Bagilah kumpulan data menjadi kumpulan pelatihan dan kumpulan pengujian, biasanya menggunakan train_test_split fungsi:

 

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

5. Pilih model dan pelatihan

Pilih model yang sesuai untuk pelatihan, seperti mesin vektor dukungan (SVM):

 

from sklearn.svm import SVC model = SVC(kernel='linear', C=1.0) model.fit(X_train, y_train)

6. Evaluasi model

Dengan menggunakan set pengujian untuk mengevaluasi performa model, Anda dapat menggunakan indikator seperti akurasi:

 

y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}')

7. Penyetelan parameter dan validasi silang

Gunakan validasi silang untuk mengoptimalkan parameter model:

 

from sklearn.model_selection import GridSearchCV parameters = {'kernel': ('linear', 'rbf'), 'C': [1, 10]} svc = SVC() clf = GridSearchCV(svc, parameters) clf.fit(X_train, y_train) print(clf.best_params_)

Tutorial sederhana ini menunjukkan cara menggunakan sklearn untuk tugas pembelajaran mesin dasar. sklearn menyediakan banyak alat dan algoritma yang dapat diterapkan untuk memecahkan berbagai masalah pembelajaran mesin. Aplikasi spesifiknya bergantung pada data Anda dan persyaratan tugas spesifik. Anda dapat menjelajahi lebih lanjut dokumentasi sklearn dan contoh untuk pembelajaran mendalam.