tutoriel de base sklearn

2024-07-08

Scikit-learn (sklearn) est une bibliothèque d'apprentissage automatique populaire qui fournit de nombreux outils pour l'exploration et l'analyse de données. Ce qui suit est un didacticiel de base simple sur sklearn, qui présente comment effectuer le prétraitement des données, la formation et l'évaluation des modèles.

1. Installation et importation

Tout d’abord, assurez-vous que la bibliothèque sklearn est installée. Peut être installé en utilisant pip :

pip install scikit-learn

L'importation de sklearn utilise généralement la méthode suivante :

import sklearn from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score

2. Chargez l'ensemble de données

sklearn contient des ensembles de données standard intégrés pour faciliter notre pratique et notre apprentissage. Par exemple, nous pouvons charger le jeu de données iris :

iris = datasets.load_iris() X = iris.data # 特征数据 y = iris.target # 目标数据

3. Prétraitement des données

Avant de former un modèle, les données doivent généralement être prétraitées, comme la standardisation, la normalisation, la sélection de fonctionnalités, etc.

données normalisées：

scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

4. Divisez l'ensemble de formation et l'ensemble de test

Divisez l'ensemble de données en un ensemble d'entraînement et un ensemble de test, généralement en utilisant train_test_split fonction:

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

5. Sélectionnez le modèle et la formation

Choisissez un modèle approprié pour la formation, tel qu'une machine à vecteurs de support (SVM) :

from sklearn.svm import SVC model = SVC(kernel='linear', C=1.0) model.fit(X_train, y_train)

6. Évaluation du modèle

En utilisant l'ensemble de tests pour évaluer les performances du modèle, vous pouvez utiliser des indicateurs tels que la précision :

y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}')

7. Réglage des paramètres et validation croisée

Utilisez la validation croisée pour optimiser les paramètres du modèle :

from sklearn.model_selection import GridSearchCV parameters = {'kernel': ('linear', 'rbf'), 'C': [1, 10]} svc = SVC() clf = GridSearchCV(svc, parameters) clf.fit(X_train, y_train) print(clf.best_params_)

Ce didacticiel simple montre comment utiliser sklearn pour les tâches de base d'apprentissage automatique. sklearn fournit une multitude d'outils et d'algorithmes qui peuvent être appliqués pour résoudre divers problèmes d'apprentissage automatique. L'application spécifique dépend de vos données et des exigences spécifiques de la tâche. Vous pouvez explorer davantage la documentation sklearn et des exemples pour un apprentissage approfondi.

Partage de technologie