Исследуя секрет близости: применение алгоритма K-ближайшего соседа (KNN) в SKlearn

2024-07-12

Исследуя секрет близости: применение алгоритма K-ближайшего соседа (KNN) в SKlearn

В мире машинного обучения алгоритм K-Nearest Neighbours (KNN) известен своей простотой и интуитивностью. KNN — это базовый метод классификации и регрессии, и принцип его работы очень легко понять: предскажите, к какой категории или значению принадлежит новая точка данных, измеряя расстояние между различными значениями признаков. Scikit-learn (сокращенно sklearn), широко используемая библиотека машинного обучения на Python, обеспечивает реализацию алгоритма KNN. В этой статье будет подробно описано, как использовать алгоритм KNN в sklearn, и приведены практические примеры кода.

1. Основные принципы алгоритма K-ближайшего соседа

Основная идея алгоритма K-ближайшего соседа заключается в следующем: если большинство K ближайших соседей выборки в пространстве признаков принадлежат к определенной категории, то выборка, скорее всего, также будет принадлежать к этой категории.

2. Ключевые элементы алгоритма K-ближайшего соседа

Выбор значения K: Выбор K оказывает важное влияние на производительность модели.
мера расстояния: В алгоритме KNN могут использоваться различные методы измерения расстояний, такие как евклидово расстояние, манхэттенское расстояние и т. д.
весовая функция: Соседям можно назначать разные веса, например, обратный вес в зависимости от расстояния.

3. Классификация с использованием KNN в sklearn

Вот основные шаги классификации KNN с использованием sklearn:

3.1 Импорт классификатора KNN

from sklearn.neighbors import KNeighborsClassifier
1

3.2 Подготовьте данные

Предположим, у вас уже есть набор данных сX– характеристическая матрица,yявляется целевой переменной.

from sklearn.datasets import load_iris
X, y = load_iris(return_X_y=True)
1
2

3.3 Создание экземпляра классификатора KNN

knn = KNeighborsClassifier(n_neighbors=3)
1

3.4 Модель обучения

Используйте набор данных для обучения модели KNN.

knn.fit(X, y)
1

3.5 Прогнозирование

Используйте обученную модель для прогнозирования.

y_pred = knn.predict(X)
1

4. Использование KNN для регрессии в sklearn

KNN также можно использовать для задач регрессии.

4.1 Импортировать регрессор KNN

from sklearn.neighbors import KNeighborsRegressor
1

4.2 Создание экземпляра регрессора KNN

knn_reg = KNeighborsRegressor(n_neighbors=3)
1

4.3 Модель обучения

Используйте набор данных для обучения модели регрессии KNN.

knn_reg.fit(X, y)
1

4.4 Прогнозирование

Используйте обученную модель для прогнозирования регрессии.

y_pred_reg = knn_reg.predict(X)
1

5. Преимущества и недостатки алгоритма K-ближайшего соседа

преимущество: Алгоритм прост и понятен, не предполагая распределения данных; он обладает высокой адаптируемостью к данным;
недостаток: Высокая вычислительная сложность, особенно для больших наборов данных, чувствительных к выбросам.

6. Заключение

Алгоритм K-ближайшего соседа — это простой, но мощный метод машинного обучения, подходящий для задач классификации и регрессии. sklearn предоставляет простую в использовании реализацию KNN, позволяющую нам быстро применять этот алгоритм к практическим задачам.

В этой статье подробно описано, как использовать алгоритм KNN в sklearn, и приведены практические примеры кода. Я надеюсь, что эта статья поможет читателям лучше понять алгоритм K-ближайшего соседа и освоить методы реализации этих методов в sklearn. Поскольку объем данных продолжает расти, а технологии машинного обучения развиваются, алгоритм K-ближайшего соседа будет продолжать играть важную роль в анализе данных и прогнозном моделировании.

Обмен технологиями