Maschinelles Lernen – Entscheidungsbaum (Notizen)

2024-07-12

Inhaltsverzeichnis

1. Entscheidungsbäume verstehen

1. Einleitung

2. Prozess der Entscheidungsbaumgenerierung

2. Entscheidungsbaum in sklearn

1. tree.DecisionTreeClassifier (Klassifizierungsbaum)

(1) Grundparameter des Modells

(2) Modellattribute

(3) Schnittstelle

2. tree.DecisionTreeRegressor (Regressionsbaum)

3. tree.export_graphviz (exportiert den generierten Entscheidungsbaum in das DOT-Format, speziell zum Zeichnen)

4. Sonstiges (ergänzend)

3. Vor- und Nachteile von Entscheidungsbäumen

1. Vorteile

2. Nachteile

1. Entscheidungsbäume verstehen

1. Einleitung

Entscheidungsbaum ist einNichtparametrische überwachte Lernmethoden, die aus einer Reihe von auswählen kann Entscheidungsregeln werden aus Daten mit Merkmalen und Beschriftungen zusammengefasst und in einer Baumdiagrammstruktur dargestellt, um Klassifizierungs- und Regressionsprobleme zu lösen.Entscheidungsbaumalgorithmen sind leicht zu verstehen, auf verschiedene Daten anwendbar und eignen sich gut zur Lösung verschiedener Probleme. Insbesondere verschiedene integrierte Algorithmen mit Baummodellen als Kern werden in verschiedenen Branchen und Bereichen häufig verwendet.

2. Prozess der Entscheidungsbaumgenerierung

Der obige Datensatz ist Daten zu einer Liste bekannter Arten und ihrer Kategorien .Unser aktuelles Ziel ist es, die Tiere aufzuteilenSäugetiere und Nicht-Säugetiere . Basierend auf den gesammelten Daten kann der Entscheidungsbaumalgorithmus den folgenden Entscheidungsbaum berechnen:

Wenn wir nun eine neue Art A entdecken, bei der es sich um ein kaltblütiges Tier mit Schuppen am Körper handelt, das nicht lebendgebärend ist, können wir anhand dieses Entscheidungsbaums seine Art beurteilen Kategorie。

Beteiligte Schlüsselkonzepte: Knoten

① Wurzelknoten : Es gibt keine eingehende Kante, sondern eine ausgehende Kante. Enthält erste, funktionsbezogene Fragen.

② Zwischenknoten : Es gibt sowohl eingehende als auch ausgehende Kanten. Es gibt nur eine eingehende Kante, es können jedoch viele ausgehende Kanten vorhanden sein. Es sind alles Fragen zu Eigenschaften.

③ Blattknoten: Es gibt eingehende Kanten und keine ausgehenden Kanten. Jeder Blattknoten ist eine Kategoriebezeichnung.

④ Untergeordnete Knoten und übergeordnete Knoten: Von zwei verbundenen Knoten ist derjenige, der näher am Wurzelknoten liegt, der übergeordnete Knoten und der andere der untergeordnete Knoten.

2. Entscheidungsbaum in sklearn

Beteiligte Module: sklearn.tree

1. tree.DecisionTreeClassifier (Klassifizierungsbaum)

(1) Grundparameter des Modells

(2) Modellattribute

(3) Schnittstelle

2. tree.DecisionTreeRegressor (Regressionsbaum)

Wichtige Parameter：Kriterium

Der Regressionsbaum misst die Zweigqualität, es gibt drei unterstützte Standards:

① Geben Sie „mse“ ein, um den mittleren quadratischen Fehler (MSE) zu verwenden., wird die Differenz des mittleren quadratischen Fehlers zwischen dem Elternknoten und dem Blattknoten als Kriterium für die Merkmalsauswahl verwendet. Diese Methode minimiert den L2-Verlust, indem sie den Mittelwert des Blattknotens verwendet.

② Geben Sie „friedman_mse“ ein, um den mittleren quadratischen Feldman-Fehler zu verwenden, eine Metrik, die Friedmans modifizierten mittleren quadratischen Fehler für Probleme in latenten Zweigen verwendet.

③ Geben Sie „mae“ ein, um den mittleren absoluten Fehler MAE (mittlerer absoluter Fehler) zu verwenden.Diese Metrik verwendet den Medianwert der Blattknoten, um den L1-Verlust zu minimieren.

3. tree.export_graphviz (exportiert den generierten Entscheidungsbaum in das DOT-Format, speziell zum Zeichnen)

4. Sonstiges (ergänzend)

① Die Berechnung der Informationsentropie ist langsamer als der Bikini-Koeffizient. , da die Berechnung des Gini-Koeffizienten keine Logarithmen erfordert.Da die Informationsentropie außerdem empfindlicher auf Verunreinigungen reagiert, ist dies der FallWenn die Informationsentropie als Indikator verwendet wird, wird das Wachstum des Entscheidungsbaums „feiner“ sein.Daher kann es bei hochdimensionalen Daten oder Daten mit viel Rauschen leicht zu einer Überanpassung der Informationsentropie kommen, und der Gini-Koeffizient funktioniert in diesem Fall oft besser.

② random_state wird verwendet, um die Parameter des Zufallsmusters im Zweig festzulegen. Der Standardwert ist „Keine“.In hochdimensionalen Daten (wie dem Iris-Datensatz) wird die Zufälligkeit deutlicher sichtbar. . Geben Sie eine beliebige Ganzzahl ein und derselbe Baum wächst immer, sodass sich das Modell stabilisieren kann.

③ Der Splitter wird auch zur Steuerung der Zufallsoptionen im Entscheidungsbaum verwendet. Es gibt zwei Eingabewerte. Obwohl der Entscheidungsbaum beim Verzweigen zufällig ist, wird er dennoch wichtigeren Merkmalen für die Verzweigung Priorität einräumen kann über das Attribut feature_importances_ angezeigt werden),Geben Sie „zufällig“ ein und der Entscheidungsbaum wird beim Verzweigen eher zufällig sein, wird der Baum tiefer und größer, weil er mehr unnötige Informationen enthält, und die Anpassung an den Trainingssatz wird aufgrund dieser unnötigen Informationen reduziert.

④ Ohne Einschränkungen wächst ein Entscheidungsbaum, bis der Index zur Messung der Verunreinigung optimal ist oder bis keine Merkmale mehr verfügbar sind.Damit der Entscheidungsbaum besser verallgemeinert werden kann, muss der Entscheidungsbaum so seinBeschneidung . Beschneidungsstrategien haben einen großen Einfluss auf Entscheidungsbäume.Die richtige Bereinigungsstrategie ist der Kern der Optimierung des Entscheidungsbaumalgorithmus。

3. Vor- und Nachteile von Entscheidungsbäumen

1. Vorteile

① Leicht zu verstehen und zu erklären, da Bäume gezeichnet und gesehen werden können.

② Erfordert wenig Datenvorbereitung. Viele andere Algorithmen erfordern häufig eine Datennormalisierung, die Erstellung von Dummy-Variablen und das Entfernen von Nullwerten usw.AberDas Entscheidungsbaummodul in sklearn unterstützt die Verarbeitung fehlender Werte nicht。

③ Verwendung Baumkosten(z. B. bei der Vorhersage von Daten) ist der Logarithmus der Anzahl der Datenpunkte, die zum Trainieren des Baums verwendet werden, was im Vergleich zu anderen Algorithmen einen sehr geringen Aufwand darstellt.

④ Kann numerische und kategoriale Daten gleichzeitig verarbeiten,Es können sowohl Regression als auch Klassifizierung durchgeführt werden . Andere Techniken sind häufig auf die Analyse von Datensätzen mit nur einem Variablentyp spezialisiert.

⑤ Kann Multi-Output-Probleme bewältigen, also Probleme mit mehreren Labels (beachten Sie, dass sie sich von Problemen mit mehreren Label-Klassifizierungen in einem Label unterscheiden).

⑥ ist ein White-Box-Modell , die Ergebnisse sind leicht interpretierbar. Wenn eine bestimmte Situation im Modell beobachtet werden kann, können die Bedingungen einfach durch boolesche Logik erklärt werden. Im Gegensatz dazu können die Ergebnisse in Black-Box-Modellen (z. B. in künstlichen neuronalen Netzen) schwieriger zu interpretieren sein.

⑦ Das Modell kann mithilfe statistischer Tests überprüft werden, wodurch wir die Zuverlässigkeit des Modells berücksichtigen können. Es kann auch dann eine gute Leistung erbringen, wenn seine Annahmen in gewissem Maße gegen das reale Modell verstoßen, das die Daten generiert hat.

2. Nachteile

① Entscheidungsbaumlerner erstellen möglicherweise übermäßig komplexe Bäume, die die Daten nicht gut verallgemeinern. Dies wird als Überanpassung bezeichnet. prune,Mechanismen wie das Festlegen der für einen Blattknoten erforderlichen Mindestanzahl an Stichproben oder das Festlegen der maximalen Tiefe des Baumsist notwendig, um dieses Problem zu vermeiden.

② Entscheidungsbäume können instabil sein und kleine Änderungen in den Daten können zur Erzeugung völlig unterschiedlicher Bäume führen. Dieses Problem muss durch einen integrierten Algorithmus gelöst werden.

③ Das Lernen im Entscheidungsbaum basiert aufGieriger Algorithmus, darauf verlässt es sich Lokales Optimum optimieren (das Optimum jedes Knotens), um zu versuchen, das Gesamtoptimum zu erreichen, aber dieser Ansatz garantiert nicht die Rückgabe des globalen optimalen Entscheidungsbaums. Dieses Problem kann auch durch Ensemble-Algorithmen gelöst werden. In Zufallswäldern werden Merkmale und Stichproben während des Verzweigungsprozesses zufällig abgetastet.

④ Einige Konzepte sind schwer zu erlernen, da Entscheidungsbäume sie nicht einfach ausdrücken können, z. B. XOR-, Paritäts- oder Multiplexerprobleme.

⑤ Wenn bestimmte Klassen in den Etiketten dominant sind, erstellt der Entscheidungsbaum-Lerner Bäume, die auf die dominanten Klassen ausgerichtet sind.Daher wird empfohlen, vor der Anpassung einen Entscheidungsbaum zu erstellenAusgewogener Datensatz。

Technologieaustausch