Κοινή χρήση τεχνολογίας

Βασικό σεμινάριο sklearn

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Το Scikit-learn (sklearn) είναι μια δημοφιλής βιβλιοθήκη μηχανικής εκμάθησης που παρέχει πολλά εργαλεία για εξόρυξη δεδομένων και ανάλυση δεδομένων. Το παρακάτω είναι ένα απλό βασικό σεμινάριο για το sklearn, το οποίο εισάγει τον τρόπο εκτέλεσης της προεπεξεργασίας δεδομένων, την εκπαίδευση μοντέλων και την αξιολόγηση.

1. Εγκατάσταση και εισαγωγή

Πρώτα, βεβαιωθείτε ότι έχετε εγκαταστήσει τη βιβλιοθήκη sklearn. Μπορεί να εγκατασταθεί χρησιμοποιώντας pip:

 

pip install scikit-learn

Η εισαγωγή του sklearn χρησιμοποιεί συνήθως την ακόλουθη μέθοδο:

 

import sklearn from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score

2. Φορτώστε το σύνολο δεδομένων

Το sklearn περιέχει ορισμένα ενσωματωμένα τυπικά σύνολα δεδομένων για τη διευκόλυνση της πρακτικής και της εκμάθησής μας. Για παράδειγμα, μπορούμε να φορτώσουμε το σύνολο δεδομένων ίριδας:

 

iris = datasets.load_iris() X = iris.data # 特征数据 y = iris.target # 目标数据

3. Προεπεξεργασία δεδομένων

Πριν από την εκπαίδευση ενός μοντέλου, τα δεδομένα συνήθως χρειάζονται προεπεξεργασία, όπως τυποποίηση, κανονικοποίηση, επιλογή χαρακτηριστικών κ.λπ.

κανονικοποιημένα δεδομένα

 

scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

4. Διαχωρίστε το σετ προπόνησης και το σετ δοκιμών

Διαχωρίστε το σύνολο δεδομένων σε ένα σετ εκπαίδευσης και σε ένα σύνολο δοκιμών, συνήθως χρησιμοποιώντας train_test_split λειτουργία:

 

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

5. Επιλέξτε μοντέλο και εκπαίδευση

Επιλέξτε ένα κατάλληλο μοντέλο για εκπαίδευση, όπως μια μηχανή υποστήριξης διανυσμάτων (SVM):

 

from sklearn.svm import SVC model = SVC(kernel='linear', C=1.0) model.fit(X_train, y_train)

6. Αξιολόγηση μοντέλου

Χρησιμοποιώντας το σετ δοκιμών για την αξιολόγηση της απόδοσης του μοντέλου, μπορείτε να χρησιμοποιήσετε δείκτες όπως η ακρίβεια:

 

y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}')

7. Ρύθμιση παραμέτρων και διασταυρούμενη επικύρωση

Χρησιμοποιήστε διασταυρούμενη επικύρωση για να βελτιστοποιήσετε τις παραμέτρους του μοντέλου:

 

from sklearn.model_selection import GridSearchCV parameters = {'kernel': ('linear', 'rbf'), 'C': [1, 10]} svc = SVC() clf = GridSearchCV(svc, parameters) clf.fit(X_train, y_train) print(clf.best_params_)

Αυτό το απλό σεμινάριο δείχνει πώς να χρησιμοποιείτε το sklearn για βασικές εργασίες μηχανικής εκμάθησης. Το sklearn παρέχει πληθώρα εργαλείων και αλγορίθμων που μπορούν να εφαρμοστούν για την επίλυση διαφόρων προβλημάτων μηχανικής μάθησης. Η συγκεκριμένη εφαρμογή εξαρτάται από τα δεδομένα σας και τις συγκεκριμένες απαιτήσεις εργασίας.