技術共有

sklearnの基本チュートリアル

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Scikit-learn (sklearn) は、データ マイニングとデータ分析のための多くのツールを提供する人気のある機械学習ライブラリです。以下は sklearn の簡単な基本チュートリアルで、データの前処理、モデルのトレーニング、評価の実行方法を紹介します。

1. インストールとインポート

まず、sklearn ライブラリがインストールされていることを確認してください。 pip を使用してインストールできます。

 

pip install scikit-learn

sklearn のインポートには通常、次の方法が使用されます。

 

import sklearn from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score

2. データセットをロードします

sklearn には、実践と学習を促進するための標準データセットがいくつか組み込まれています。たとえば、iris データセットをロードできます。

 

iris = datasets.load_iris() X = iris.data # 特征数据 y = iris.target # 目标数据

3. データの前処理

モデルをトレーニングする前に、通常、標準化、正規化、特徴の選択など、データを前処理する必要があります。

正規化されたデータ

 

scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

4. トレーニング セットとテスト セットを分割する

通常は次を使用して、データセットをトレーニングセットとテストセットに分割します。 train_test_split 関数:

 

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

5. モデルとトレーニングの選択

サポート ベクター マシン (SVM) など、トレーニングに適切なモデルを選択します。

 

from sklearn.svm import SVC model = SVC(kernel='linear', C=1.0) model.fit(X_train, y_train)

6. モデルの評価

テスト セットを使用してモデルのパフォーマンスを評価すると、精度などの指標を使用できます。

 

y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}')

7. パラメーターの調整と相互検証

相互検証を使用してモデル パラメーターを最適化します。

 

from sklearn.model_selection import GridSearchCV parameters = {'kernel': ('linear', 'rbf'), 'C': [1, 10]} svc = SVC() clf = GridSearchCV(svc, parameters) clf.fit(X_train, y_train) print(clf.best_params_)

この簡単なチュートリアルでは、基本的な機械学習タスクに sklearn を使用する方法を示します。 sklearn は、機械学習のさまざまな問題を解決するために適用できる豊富なツールとアルゴリズムを提供します。特定のアプリケーションは、データと特定のタスクの要件によって異なります。詳しくは、sklearn のドキュメントと例を参照してください。