Compartir tecnología

tutorial básico de sklearn

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Scikit-learn (sklearn) es una biblioteca popular de aprendizaje automático que proporciona muchas herramientas para la extracción y el análisis de datos. El siguiente es un tutorial básico simple sobre sklearn, que presenta cómo realizar el preprocesamiento de datos, el entrenamiento y la evaluación de modelos.

1. Instalación e importación

Primero, asegúrese de tener instalada la biblioteca sklearn. Se puede instalar usando pip:

 

pip install scikit-learn

La importación de sklearn generalmente utiliza el siguiente método:

 

import sklearn from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score

2. Cargue el conjunto de datos

sklearn contiene algunos conjuntos de datos estándar integrados para facilitar nuestra práctica y aprendizaje. Por ejemplo, podemos cargar el conjunto de datos del iris:

 

iris = datasets.load_iris() X = iris.data # 特征数据 y = iris.target # 目标数据

3. Preprocesamiento de datos

Antes de entrenar un modelo, generalmente es necesario preprocesar los datos, como estandarización, normalización, selección de características, etc.

datos normalizados

 

scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

4. Divida el conjunto de entrenamiento y el conjunto de prueba.

Divida el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba, generalmente usando train_test_split función:

 

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

5. Seleccionar modelo y formación

Elija un modelo apropiado para el entrenamiento, como una máquina de vectores de soporte (SVM):

 

from sklearn.svm import SVC model = SVC(kernel='linear', C=1.0) model.fit(X_train, y_train)

6. Evaluación del modelo

Al utilizar el conjunto de pruebas para evaluar el rendimiento del modelo, puede utilizar indicadores como la precisión:

 

y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}')

7. Ajuste de parámetros y validación cruzada.

Utilice validación cruzada para optimizar los parámetros del modelo:

 

from sklearn.model_selection import GridSearchCV parameters = {'kernel': ('linear', 'rbf'), 'C': [1, 10]} svc = SVC() clf = GridSearchCV(svc, parameters) clf.fit(X_train, y_train) print(clf.best_params_)

Este sencillo tutorial muestra cómo utilizar sklearn para tareas básicas de aprendizaje automático. sklearn proporciona una gran cantidad de herramientas y algoritmos que se pueden aplicar para resolver diversos problemas de aprendizaje automático. La aplicación específica depende de sus datos y de los requisitos de la tarea específica. Puede explorar más a fondo la documentación y los ejemplos de sklearn para un aprendizaje en profundidad.