2024-07-08
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Scikit-learn (sklearn) ist eine beliebte Bibliothek für maschinelles Lernen, die viele Tools für Data Mining und Datenanalyse bereitstellt. Das Folgende ist ein einfaches grundlegendes Tutorial zu sklearn, das die Durchführung der Datenvorverarbeitung, des Modelltrainings und der Auswertung vorstellt.
Stellen Sie zunächst sicher, dass die Sklearn-Bibliothek installiert ist. Kann mit pip installiert werden:
pip install scikit-learn
Beim Importieren von sklearn wird normalerweise die folgende Methode verwendet:
import sklearn from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score
sklearn enthält einige integrierte Standarddatensätze, um unser Üben und Lernen zu erleichtern. Zum Beispiel können wir den Iris-Datensatz laden:
iris = datasets.load_iris() X = iris.data # 特征数据 y = iris.target # 目标数据
Vor dem Training eines Modells müssen Daten normalerweise vorverarbeitet werden, z. B. Standardisierung, Normalisierung, Merkmalsauswahl usw.
normalisierte Daten:
scaler = StandardScaler() X_scaled = scaler.fit_transform(X)
Teilen Sie den Datensatz normalerweise in einen Trainingssatz und einen Testsatz auf train_test_split
Funktion:
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)
Wählen Sie ein geeignetes Modell für das Training, beispielsweise eine Support Vector Machine (SVM):
from sklearn.svm import SVC model = SVC(kernel='linear', C=1.0) model.fit(X_train, y_train)
Wenn Sie den Testsatz verwenden, um die Leistung des Modells zu bewerten, können Sie Indikatoren wie die Genauigkeit verwenden:
y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}')
Verwenden Sie Kreuzvalidierung, um Modellparameter zu optimieren:
from sklearn.model_selection import GridSearchCV parameters = {'kernel': ('linear', 'rbf'), 'C': [1, 10]} svc = SVC() clf = GridSearchCV(svc, parameters) clf.fit(X_train, y_train) print(clf.best_params_)
Dieses einfache Tutorial zeigt, wie Sie sklearn für grundlegende maschinelle Lernaufgaben verwenden. sklearn bietet eine Fülle von Tools und Algorithmen, die zur Lösung verschiedener Probleme des maschinellen Lernens eingesetzt werden können. Die konkrete Anwendung hängt von Ihren Daten und spezifischen Aufgabenanforderungen ab. Für vertiefendes Lernen können Sie die sklearn-Dokumentation und Beispiele weiter erkunden.