Johdatus päätöspuun algoritmiin, periaatteisiin ja tapaukseen implementation

Johdatus päätöspuun algoritmiin, periaatteisiin ja tapauksen toteutukseen

2024-07-12

Päätöspuualgoritmi on erittäin suosittu koneoppimisalgoritmi, jota voidaan käyttää luokittelu- ja regressiotehtäviin. Seuraavassa on yksityiskohtainen johdatus päätöspuualgoritmiin, mukaan lukien periaatteet ja tapausten toteutukset sekä vastaava Python-koodi.

Johdatus päätöspuun algoritmiin

peruskonsepti

Päätöspuu on puurakenne, jota käytetään tietojen luokitukseen tai regressioon. Se koostuu solmuista ja reunoista, joissa jokainen sisäinen solmu edustaa ominaisuuden testiä, jokainen haara edustaa testin tulosta ja jokainen lehtisolmu edustaa luokkaa tai regressioarvoa.

Rakennusprosessi

Päätöspuun rakennusprosessi sisältää yleensä seuraavat vaiheet:

Valitse parhaat ominaisuudet: Valitse parhaat ominaisuudet jakaaksesi tietojoukon tietyn kriteerin mukaan (kuten tiedon vahvistus, Gini-indeksi jne.).
Luo solmu: Jaa tietojoukko parhailla ominaisuuksilla ja luo uusia solmuja jokaiselle haaralle.
Rakenna rekursiivisesti alipuita: Parhaiden ominaisuuksien valinta ja tietojoukon jakaminen toistetaan jokaiselle lapsisolmulle, kunnes pysäytysehto täyttyy (kuten solmun puhtaus saavuttaa tietyn tason tai puun syvyys saavuttaa esiasetetun arvon).
Rakenna lehtisolmuja: Lehtisolmut luodaan, kun jakamista ei enää tarvita, tyypillisesti enemmistön luokkatunniste luokituspuille tai kaikkien alijoukon datapisteiden keskiarvo regressiopuille.

jaettu kriteeri

tiedon saaminen: Mittaa ominaisuuden tietojoukon luokittelun epävarmuuden vähenemistä.
Gini-indeksi: Mittaa tietojoukon puhtautta, mitä pienempi Gini-indeksi on, sitä korkeampi on tietojoukon puhtaus.
Pienin keskineliövirhe (MSE): Jakokriteeri regressiopuille.

Tapauksen toteutus

Seuraavassa on päätöspuun luokittelutapaus, joka on toteutettu Pythonilla ja scikit-learn-kirjastolla. Käytämme kuuluisaa Iris-tietoaineistoa, joka sisältää kolmen iiriskukan (Setosa, Versicolour, Virginica) ominaisuuksia ja luokkia.

1. Tietojen valmistelu


from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
 
# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
 
# 拆分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Harjoittele päätöspuumalli


from sklearn.tree import DecisionTreeClassifier
 
# 初始化决策树分类器
clf = DecisionTreeClassifier()
 
# 训练模型
clf.fit(X_train, y_train)

Arviointimalli


from sklearn.metrics import accuracy_score
 
# 预测测试集
y_pred = clf.predict(X_test)
 
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

Visuaalinen päätöspuu


import matplotlib.pyplot as plt
from sklearn.tree import plot_tree
 
# 可视化决策树
plt.figure(figsize=(12, 12))
plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()

Yhteenveto:

Yllä oleva koodi näyttää, kuinka scikit-learn-kirjastoa käytetään Iris-tietojoukon lataamiseen, päätöspuuluokittajan kouluttamiseen, mallin suorituskyvyn arvioimiseen ja päätöspuun visualisointiin. Tämän tapauksen kautta näet, miten päätöspuu toimii ja miten sitä käytetään käytännön sovelluksissa.

Teknologian jakaminen