Машинное обучение — дерево решений (примечания)

2024-07-12

Оглавление

1. Понимание деревьев решений

1. Введение

2. Процесс создания дерева решений

2. Дерево решений в sklearn

1. Tree.DecisionTreeClassifier (дерево классификации)

(1) Основные параметры модели

(2) Атрибуты модели

(3) Интерфейс

2. Tree.DecisionTreeRegressor (дерево регрессии)

3.tree.export_graphviz (экспортировать сгенерированное дерево решений в формат DOT, специально для рисования)

4. Прочие (дополнительные)

3. Преимущества и недостатки деревьев решений

1. Преимущества

2. Недостатки

1. Понимание деревьев решений

1. Введение

Дерево решений – этоНепараметрические методы обучения с учителем, который можно выбрать из ряда Правила принятия решений суммируются из данных с функциями и метками, и эти правила представлены в виде древовидной диаграммы для решения задач классификации и регрессии.Алгоритмы дерева решений просты для понимания, применимы к различным данным и хорошо работают при решении различных задач. В частности, в различных отраслях и областях широко используются различные интегрированные алгоритмы с древовидными моделями.

2. Процесс создания дерева решений

Приведенный выше набор данных Данные о списке известных видов и их категориях. .Наша текущая цель — разделить животных наМлекопитающие и немлекопитающие . На основе собранных данных алгоритм дерева решений может рассчитать следующее дерево решений:

Если мы теперь обнаружим новый вид А, который представляет собой хладнокровное животное с чешуей на теле и не является живородящим, мы сможем судить о его виде с помощью этого дерева решений. категория。

Ключевые понятия: узлы

① Корневой узел : Нет входящего края, есть исходящий край. Содержит первоначальные вопросы, ориентированные на особенности.

② Промежуточный узел : Есть как входящие, так и исходящие ребра. Входящее ребро только одно, но исходящих ребер может быть много. Это все вопросы о характеристиках.

③ Листовой узел: есть входящие ребра и нет исходящих ребер. Каждый листовой узел является меткой категории.

④ Дочерние узлы и родительские узлы: Среди двух связанных узлов тот, который ближе к корневому узлу, является родительским узлом, а другой — дочерним узлом.

2. Дерево решений в sklearn

Задействованные модули: sklearn.tree

1. Tree.DecisionTreeClassifier (дерево классификации)

(1) Основные параметры модели

(2) Атрибуты модели

(3) Интерфейс

2. Tree.DecisionTreeRegressor (дерево регрессии)

Важные параметры：критерий

Дерево регрессии измеряет качество ветвей, существует три поддерживаемых стандарта:

① Введите «mse», чтобы использовать среднеквадратичную ошибку (MSE)., разница среднеквадратической ошибки между родительским узлом и конечным узлом будет использоваться в качестве критерия для выбора функции. Этот метод минимизирует потери L2, используя среднее значение листового узла.

② Введите «friedman_mse», чтобы использовать среднеквадратическую ошибку Фельдмана., метрика, которая использует модифицированную среднеквадратическую ошибку Фридмана для проблем в скрытых ветвях.

③ Введите «mae», чтобы использовать среднюю абсолютную ошибку MAE (среднюю абсолютную ошибку)., эта метрика использует медианное значение конечных узлов, чтобы минимизировать потери L1.

3.tree.export_graphviz (экспортировать сгенерированное дерево решений в формат DOT, специально для рисования)

4. Прочие (дополнительные)

① Расчет информационной энтропии происходит медленнее, чем коэффициента бикини. , поскольку при расчете коэффициента Джини не используются логарифмы.Кроме того, поскольку информационная энтропия более чувствительна к примесям, поэтомуКогда информационная энтропия используется в качестве индикатора, рост дерева решений будет более «тонким»., поэтому для многомерных данных или данных с большим количеством шума информационную энтропию легко переопределить, и коэффициент Джини в этом случае часто работает лучше.

② Случайное_состояние используется для установки параметров случайного шаблона в ветке. По умолчанию установлено значение «Нет».Случайность будет более очевидной в больших размерностях. В данных низкой размерности (таких как набор данных радужной оболочки) случайность почти не проявляется. . Введите любое целое число, и одно и то же дерево всегда будет расти, позволяя модели стабилизироваться.

③ Разделитель также используется для управления случайными параметрами в дереве решений. Есть два входных значения. Введите «лучшее». Хотя дерево решений является случайным при разветвлении, оно все равно будет отдавать приоритет более важным функциям для ветвления (важность). можно просмотреть через атрибут Feature_importances_),Введите «случайно», и дерево решений будет более случайным при разветвлении., дерево будет глубже и больше, поскольку оно содержит больше ненужной информации, и подгонка к обучающему набору будет уменьшена из-за этой ненужной информации.

④ Без ограничений дерево решений будет расти до тех пор, пока индекс измерения примесей не станет оптимальным или пока не перестанут доступны функции. Такое дерево решений часто будет переопределяться.Чтобы дерево решений имело лучшее обобщение, дерево решений должно бытьобрезка . Стратегии сокращения оказывают огромное влияние на деревья решений.Правильная стратегия сокращения является основой оптимизации алгоритма дерева решений.。

3. Преимущества и недостатки деревьев решений

1. Преимущества

① Легко понять и объяснить, потому что деревья можно рисовать и видеть.

② Требует небольшой подготовки данных. Многие другие алгоритмы часто требуют нормализации данных, создания фиктивных переменных и удаления нулевых значений и т. д.ноМодуль дерева решений в sklearn не поддерживает обработку пропущенных значений。

③ Использование стоимость дерева(например, при прогнозировании данных) — это логарифм количества точек данных, используемых для обучения дерева, что является очень низкой стоимостью по сравнению с другими алгоритмами.

④ Возможность одновременной обработки числовых и категориальных данных,Можно выполнить как регрессию, так и классификацию. . Другие методы часто специализируются на анализе наборов данных только с одним типом переменных.

⑤ Способность решать проблемы с несколькими выходами, то есть проблемы с несколькими метками (обратите внимание, что они отличаются от проблем с классификациями нескольких меток на одной метке)

⑥ — это модель белого ящика , результаты легко интерпретируются. Если данную ситуацию можно наблюдать в модели, условия можно легко объяснить с помощью булевой логики. Напротив, в моделях «черного ящика» (например, в искусственных нейронных сетях) результаты интерпретировать сложнее.

⑦ Модель можно проверить с помощью статистических тестов, что позволяет оценить надежность модели. Он может работать хорошо, даже если его предположения в некоторой степени нарушают реальную модель, сгенерировавшую данные.

2. Недостатки

① Обучающиеся деревьям решений могут создавать слишком сложные деревья, которые плохо обобщают данные. Это называется переоснащением. чернослив,Такие механизмы, как установка минимального количества выборок, необходимых для конечного узла, или установка максимальной глубины дерева.необходимо, чтобы избежать этой проблемы.

② Деревья решений могут быть нестабильными, а небольшие изменения в данных могут привести к созданию совершенно разных деревьев. Эту проблему необходимо решать с помощью интегрированного алгоритма.

③ Обучение дереву решений основано нажадный алгоритм, оно опирается на Оптимизировать локальный оптимум (оптимум каждого узла), чтобы попытаться достичь общего оптимального решения, но этот подход не гарантирует возврат глобального оптимального дерева решений. Эту проблему также можно решить с помощью ансамблевых алгоритмов. В случайных лесах признаки и выборки выбираются случайным образом во время процесса ветвления.

④ Некоторые концепции трудны для изучения, поскольку деревья решений их нелегко выразить, например, XOR, четность или проблемы мультиплексора.

⑤ Если определенные классы в метках являются доминирующими, учащийся дерева решений создает деревья, смещенные в сторону доминирующих классов.Поэтому рекомендуется перед построением дерева решенийСбалансированный набор данных。

Обмен технологиями