기술나눔

sklearn 기본 튜토리얼

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Scikit-learn(sklearn)은 데이터 마이닝 및 데이터 분석을 위한 다양한 도구를 제공하는 인기 있는 기계 학습 라이브러리입니다. 다음은 데이터 전처리, 모델 훈련 및 평가를 수행하는 방법을 소개하는 sklearn에 대한 간단한 기본 튜토리얼입니다.

1. 설치 및 가져오기

먼저 sklearn 라이브러리가 설치되어 있는지 확인하세요. pip를 사용하여 설치할 수 있습니다.

 

pip install scikit-learn

sklearn 가져오기는 일반적으로 다음 방법을 사용합니다.

 

import sklearn from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score

2. 데이터 세트 로드

sklearn에는 연습과 학습을 촉진하기 위한 일부 내장 표준 데이터 세트가 포함되어 있습니다. 예를 들어 붓꽃 데이터세트를 로드할 수 있습니다.

 

iris = datasets.load_iris() X = iris.data # 特征数据 y = iris.target # 目标数据

3. 데이터 전처리

모델을 훈련하기 전에 일반적으로 표준화, 정규화, 기능 선택 등과 같은 데이터를 전처리해야 합니다.

정규화된 데이터

 

scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

4. 훈련 세트와 테스트 세트 나누기

일반적으로 다음을 사용하여 데이터 세트를 훈련 세트와 테스트 세트로 나눕니다. train_test_split 기능:

 

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

5. 모델 및 교육 선택

SVM(서포트 벡터 머신)과 같은 훈련에 적합한 모델을 선택합니다.

 

from sklearn.svm import SVC model = SVC(kernel='linear', C=1.0) model.fit(X_train, y_train)

6. 모델 평가

테스트 세트를 사용하여 모델 성능을 평가하면 정확도와 같은 지표를 사용할 수 있습니다.

 

y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}')

7. 매개변수 튜닝 및 교차 검증

교차 검증을 사용하여 모델 매개변수를 최적화합니다.

 

from sklearn.model_selection import GridSearchCV parameters = {'kernel': ('linear', 'rbf'), 'C': [1, 10]} svc = SVC() clf = GridSearchCV(svc, parameters) clf.fit(X_train, y_train) print(clf.best_params_)

이 간단한 튜토리얼은 기본적인 기계 학습 작업에 sklearn을 사용하는 방법을 보여줍니다. sklearn은 다양한 기계 학습 문제를 해결하는 데 적용할 수 있는 풍부한 도구와 알고리즘을 제공합니다. 특정 애플리케이션은 데이터 및 특정 작업 요구 사항에 따라 달라집니다. 심층 학습을 위해 sklearn 설명서와 예제를 더 자세히 살펴볼 수 있습니다.