Compartilhamento de tecnologia

tutorial básico do sklearn

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Scikit-learn (sklearn) é uma biblioteca popular de aprendizado de máquina que fornece muitas ferramentas para mineração e análise de dados. A seguir está um tutorial básico simples sobre sklearn, que apresenta como realizar o pré-processamento de dados, treinamento de modelo e avaliação.

1. Instalação e importação

Primeiro, certifique-se de ter a biblioteca sklearn instalada. Pode ser instalado usando pip:

 

pip install scikit-learn

A importação do sklearn geralmente usa o seguinte método:

 

import sklearn from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score

2. Carregue o conjunto de dados

sklearn contém alguns conjuntos de dados padrão integrados para facilitar nossa prática e aprendizado. Por exemplo, podemos carregar o conjunto de dados da íris:

 

iris = datasets.load_iris() X = iris.data # 特征数据 y = iris.target # 目标数据

3. Pré-processamento de dados

Antes de treinar um modelo, os dados geralmente precisam ser pré-processados, como padronização, normalização, seleção de recursos, etc.

dados normalizados

 

scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

4. Divida o conjunto de treinamento e o conjunto de teste

Divida o conjunto de dados em um conjunto de treinamento e um conjunto de teste, geralmente usando train_test_split função:

 

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

5. Selecione modelo e treinamento

Escolha um modelo apropriado para treinamento, como uma máquina de vetores de suporte (SVM):

 

from sklearn.svm import SVC model = SVC(kernel='linear', C=1.0) model.fit(X_train, y_train)

6. Avaliação do modelo

Usando o conjunto de testes para avaliar o desempenho do modelo, você pode usar indicadores como precisão:

 

y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}')

7. Ajuste de parâmetros e validação cruzada

Use validação cruzada para otimizar os parâmetros do modelo:

 

from sklearn.model_selection import GridSearchCV parameters = {'kernel': ('linear', 'rbf'), 'C': [1, 10]} svc = SVC() clf = GridSearchCV(svc, parameters) clf.fit(X_train, y_train) print(clf.best_params_)

Este tutorial simples mostra como usar o sklearn para tarefas básicas de aprendizado de máquina. O sklearn fornece uma variedade de ferramentas e algoritmos que podem ser aplicados para resolver vários problemas de aprendizado de máquina. A aplicação específica depende dos seus dados e dos requisitos específicos da tarefa. Você pode explorar ainda mais a documentação e os exemplos do sklearn para um aprendizado aprofundado.