Einführung in den Entscheidungsbaumalgorithmus, Prinzipien und Fallimplementierung

2024-07-12

Der Entscheidungsbaumalgorithmus ist ein sehr beliebter Algorithmus für maschinelles Lernen, der für Klassifizierungs- und Regressionsaufgaben verwendet werden kann. Im Folgenden finden Sie eine detaillierte Einführung in den Entscheidungsbaumalgorithmus, einschließlich Prinzipien und Fallimplementierungen sowie des entsprechenden Python-Codes.

Einführung in den Entscheidungsbaumalgorithmus

Basiskonzept

Ein Entscheidungsbaum ist eine Baumstruktur, die zur Klassifizierung oder Regression von Daten verwendet wird. Es besteht aus Knoten und Kanten, wobei jeder interne Knoten einen Test eines Merkmals darstellt, jeder Zweig das Ergebnis des Tests darstellt und jeder Blattknoten eine Kategorie oder einen Regressionswert darstellt.

Build-Prozess

Der Entscheidungsbaumkonstruktionsprozess umfasst normalerweise die folgenden Schritte:

Wählen Sie die besten Funktionen: Wählen Sie die besten Funktionen aus, um den Datensatz nach einem bestimmten Kriterium (z. B. Informationsgewinn, Gini-Index usw.) aufzuteilen.
Knoten erstellen: Teilen Sie den Datensatz mit den besten Funktionen auf und erstellen Sie neue Knoten für jeden Zweig.
Teilbäume rekursiv erstellen: Der Prozess der Auswahl der besten Features und der Aufteilung des Datensatzes wird für jeden untergeordneten Knoten wiederholt, bis eine Stoppbedingung erfüllt ist (z. B. wenn die Knotenreinheit ein bestimmtes Niveau erreicht oder die Tiefe des Baums einen voreingestellten Wert erreicht).
Erstellen Sie Blattknoten: Blattknoten werden erstellt, wenn eine Aufteilung nicht mehr erforderlich ist, normalerweise die Bezeichnung der Mehrheitsklasse für Klassifizierungsbäume oder der Mittelwert aller Datenpunkte in der Teilmenge für Regressionsbäume.

Split-Kriterium

Informationsgewinn: Misst die Verringerung der Unsicherheit bei der Klassifizierung eines Datensatzes nach einem Merkmal.
Gini-Index: Misst die Reinheit des Datensatzes. Je kleiner der Gini-Index, desto höher ist die Reinheit des Datensatzes.
Minimaler mittlerer quadratischer Fehler (MSE): Split-Kriterium für Regressionsbäume.

Fallumsetzung

Das Folgende ist ein Entscheidungsbaumklassifizierungsfall, der mit Python und der Scikit-Learn-Bibliothek implementiert wurde. Wir werden den berühmten Iris-Datensatz verwenden, der Merkmale und Kategorien von drei Irisblüten (Setosa, Versicolour, Virginica) enthält.

1. Datenaufbereitung


from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
 
# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
 
# 拆分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Trainieren Sie ein Entscheidungsbaummodell


from sklearn.tree import DecisionTreeClassifier
 
# 初始化决策树分类器
clf = DecisionTreeClassifier()
 
# 训练模型
clf.fit(X_train, y_train)

Bewertungsmodell


from sklearn.metrics import accuracy_score
 
# 预测测试集
y_pred = clf.predict(X_test)
 
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

Visueller Entscheidungsbaum


import matplotlib.pyplot as plt
from sklearn.tree import plot_tree
 
# 可视化决策树
plt.figure(figsize=(12, 12))
plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()

Zusammenfassen:

Der obige Code zeigt, wie Sie mit der scikit-learn-Bibliothek den Iris-Datensatz laden, einen Entscheidungsbaumklassifikator trainieren, die Modellleistung bewerten und den Entscheidungsbaum visualisieren. Anhand dieses Falles können Sie sehen, wie ein Entscheidungsbaum funktioniert und wie er in praktischen Anwendungen eingesetzt werden kann.

Technologieaustausch