Обмен технологиями

базовое руководство по sklearn

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Scikit-learn (sklearn) — популярная библиотека машинного обучения, предоставляющая множество инструментов для интеллектуального анализа данных. Ниже приведено простое базовое руководство по sklearn, в котором рассказывается, как выполнять предварительную обработку данных, обучение и оценку модели.

1. Установка и импорт

Сначала убедитесь, что у вас установлена ​​библиотека sklearn. Можно установить с помощью pip:

 

pip install scikit-learn

Для импорта sklearn обычно используется следующий метод:

 

import sklearn from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score

2. Загрузите набор данных

sklearn содержит некоторые встроенные стандартные наборы данных, облегчающие нашу практику и обучение. Например, мы можем загрузить набор данных радужной оболочки глаза:

 

iris = datasets.load_iris() X = iris.data # 特征数据 y = iris.target # 目标数据

3. Предварительная обработка данных

Перед обучением модели данные обычно необходимо предварительно обработать, например стандартизировать, нормализовать, выбрать функции и т. д.

нормализованные данные

 

scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

4. Разделите обучающий набор и тестовый набор.

Разделите набор данных на обучающий и тестовый набор, обычно используя train_test_split функция:

 

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

5. Выберите модель и обучение.

Выберите подходящую модель для обучения, например машину опорных векторов (SVM):

 

from sklearn.svm import SVC model = SVC(kernel='linear', C=1.0) model.fit(X_train, y_train)

6. Оценка модели

Используя тестовый набор для оценки производительности модели, можно использовать такие показатели, как точность:

 

y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}')

7. Настройка параметров и перекрестная проверка

Используйте перекрестную проверку для оптимизации параметров модели:

 

from sklearn.model_selection import GridSearchCV parameters = {'kernel': ('linear', 'rbf'), 'C': [1, 10]} svc = SVC() clf = GridSearchCV(svc, parameters) clf.fit(X_train, y_train) print(clf.best_params_)

В этом простом руководстве показано, как использовать sklearn для основных задач машинного обучения. sklearn предоставляет множество инструментов и алгоритмов, которые можно применять для решения различных задач машинного обучения. Конкретное приложение зависит от ваших данных и требований конкретной задачи. Вы можете дополнительно изучить документацию по sklearn и примеры для углубленного изучения.