моя контактная информация
Почтамезофия@protonmail.com
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Кластерный анализ заключается в разложении набора данных на подмножества, каждое подмножество называется кластером, а совокупность всех подмножеств называется кластером набора объектов. Хороший алгоритм кластеризации должен создавать кластеры высокого качества и кластеры высокого качества, то есть общее сходство внутри кластеров является самым высоким, а общее сходство между кластерами — самым низким.Учитывая, что многие алгоритмы кластеризации включают ккк-Алгоритм усреднения, алгоритм DBSCAN и т. д. требуют от пользователя заранее указать количество кластеров в кластере. ккк, поэтому простой метод оценки k будет обсуждаться ниже.
Многие алгоритмы кластеризации, такие как ккк-Алгоритмы усреднения, даже алгоритмы DIANA и т. д., должны заранее указывать количество кластеров. ккк,и кккЗначение будет сильно влиять на качество кластеризации. Однако количество кластеров необходимо определить заранее. ккк Непростая задача. Сначала мы можем рассмотреть два крайних случая.
(1) Поместите весь набор данных SSСрассматриваться как кластер, т.е. к = 1 к=1к=1, это кажется простым и удобным, но результаты такого кластерного анализа не имеют никакой ценности.
(2) Поместите набор данных SSСКаждый объект рассматривается как кластер, т. е. пусть к = ∣ S ∣ = nk=|S|=nк=∣С∣=н , что обеспечивает наиболее детальную кластеризацию. Поэтому внутрикластерных различий в каждом кластере нет, а внутрикластерное сходство достигает наивысшего уровня.Но этот вид кластеризации нельзя использовать для SSСпредоставить любую информацию о SSСобщее описание.
Видно, что количество кластеров кккдолжен, по крайней мере, удовлетворить 2 ≤ к ≤ n − 1 2≤k≤n-12≤к≤н−1, но количество кластеров кккВопрос о том, какое именно значение является наиболее подходящим, остается неясным.
Обычно считается, кккЗначение можно оценить по форме и масштабу распределения набора данных, а также по разрешению кластеризации, требуемому пользователем, и у ученых есть множество различных методов оценки, таких как метод локтя, метод перекрестной проверки и теория информации. основанные методы и т. д.
Простой и часто используемый кккМетод эмпирической оценки стоимости предполагает, что для тех, у кого нннНабор данных объектов, количество кластеров, в которые он кластеризован. кккВыбирать н 2√н2
2н Это уместно.В настоящее время при среднем ожидании каждый кластер имеет примерно 2 n кв. корень{2n}2н объекты.На этом основании некоторые предложили дополнительные ограничения, то есть количество кластеров к < нкк<н。
Например, предположим п = 8 п=8н=8, то количество кластеров к = 2 к=2к=2 подходит, и в среднем на кластер приходится 4 точки, а по дополнительной эмпирической формуле к < 2,83 к < 2,83к<2.83 .Используя эти две информации о количестве кластеров кккЭмпирическая формула как бы поясняется с одной стороны, в примере 10-5. к = 2 к=2к=2 — наиболее подходящее количество кластеров.
Если у нас есть хорошая оценка количества кластеров ккк, вы можете использовать один или несколько методов кластеризации, например, ккк - Алгоритм усреднения, агломеративный иерархический алгоритм или алгоритм DBSCAN выполняет кластерный анализ известных наборов данных и получает множество различных результатов кластеризации. Теперь вопрос в том, какой метод дает лучшие результаты кластеризации, или, другими словами, как сравнить результаты кластеризации, полученные разными методами. Это оценка качества кластеризации.
В настоящее время существует множество методов оценки качества кластеризации, но их обычно можно разделить на две категории, а именно внешнюю (внешнюю) оценку качества и внутреннюю (внутреннюю) оценку качества.
Внешняя оценка качества предполагает, что идеальный кластер уже существует в наборе данных (обычно созданный экспертами), и сравнивает его как обычно используемый эталонный метод с результатами кластеризации определенного алгоритма. Его сравнительная оценка в основном включает энтропию кластеризации и кластеризацию. — это два распространенных метода точности классов.
1. Кластерно-энтропийный метод
Гипотетический набор данных S = {X1, X2, …, Xn} S={X_1,X_2,…,X_n}С={Икс1,Икс2,…,Иксн},и Т = {Т 1 , Т 2 , … , Т м } Т={Т_1,Т_2,…,Т_м}Т={Т1,Т2,…,Тм} — идеальная стандартная кластеризация, предложенная экспертами, и С = {С 1 , С 2 , … , С k } С={С_1,С_2,…,С_k}С={С1,С2,…,Ск} определяется алгоритмом о SSСКластер , то для кластера C i C_iСяОтносительно базовой кластеризации ТТТЭнтропия кластеризации определяется как
E ( C i ∣ T ) = − ∑ j = 1 m ∣ C i ∩ T j ∣ ∣ C i ∣ log 2 ∣ C i ∩ T j ∣ ∣ C i ∣ (10-20) E(C_i|T)=-sum_{j=1}^mfrac{|C_icap T_j|}{|C_i|}log_2frac{|C_icap T_j|}{|C_i|}tag{10-20}Э(Ся∣Т)=−дж=1∑м∣Ся∣∣Ся∩Тдж∣вотг2∣Ся∣∣Ся∩Тдж∣(10-20) и СССО тестах ТТТОбщая энтропия кластеризации определяется как все кластеры C i C_iСяО тестах ТТТСредневзвешенное значение энтропии кластеризации, т.е.
E ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × E ( C i ∣ T ) (10-21) E(C)=frac{1}{mathop{sum}limits_{i=1}^k|C_i|}sum_{i=1}^k|C_i|times E(C_i|T)tag{10-21}Э(С)=я=1∑к∣Ся∣1я=1∑к∣Ся∣×Э(Ся∣Т)(10-21) Метод кластерной энтропии предполагает, что Э ( С ) Э(С)Э(С) Чем меньше значение, тем СССОтносительно базового уровня ТТТЧем выше качество кластеризации.
Стоит отметить, что знаменатель первого слагаемого в правой части формулы (10-21) ∑ i = 1 k ∣ C i ∣к∑я=1|Ся|
я=1∑к∣Ся∣ представляет собой сумму количества элементов в каждом кластере и не может использоваться ннн заменить.Потому что только тогда, когда СССВ случае кластера с разделением знаменатель равен ннн, а знаменатель общих методов кластеризации, таких как кластеризация DBSCAN, может быть меньше, чем ннн。
2. Точность кластеризации
Основная идея оценки точности (прецизионности) кластеризации заключается в использовании наибольшего числа категорий в кластере в качестве метки категории кластера, то есть для кластера C i C_iСя, если оно существует Т дж Т_джТджделать ∣ C i ∩ T j ∣ = макс { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } |C_icap T_j|=макс{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}∣Ся∩Тдж∣=Макс{∣Ся∩Т1∣,∣Ся∩Т2∣,⋯,∣Ся∩Тм∣}, считается, что C i C_iСяКатегория Т дж Т_джТдж .Таким образом, кластер C i C_iСяО тестах ТТТТочность определяется как
J ( C i ∣ T ) = макс { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } ∣ C i ∣ (10-22) J(C_i|T)=frac{макс{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}}{|C_i|}тег{10-22}Дж.(Ся∣Т)=∣Ся∣Макс{∣Ся∩Т1∣,∣Ся∩Т2∣,⋯,∣Ся∩Тм∣}(10-22) и СССО тестах ТТТОбщая точность определяется для всех кластеров C i C_iСяО тестах ТТТСредневзвешенное значение точности кластеризации, т.е.
J ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × J ( C i ∣ T ) (10-23) J(C)=frac{1}{mathop{sum}limits_{i=1}^k|C_i|}sum_{i=1}^k|C_i|times J(C_i|T)tag{10-23}Дж.(С)=я=1∑к∣Ся∣1я=1∑к∣Ся∣×Дж.(Ся∣Т)(10-23) Метод точности кластеризации предполагает, что Дж ( С ) Дж(С)Дж.(С) Чем больше значение, тем кластеризация СССОтносительно базового уровня ТТТЧем выше качество кластеризации.
Кроме того, как правило 1 − J ( C ) 1-J(C)1−Дж.(С) называется СССО тестах ТТТ общий коэффициент ошибок.Следовательно, точность кластеризации Дж ( С ) Дж(С)Дж.(С) Большая или общая частота ошибок 1 − J ( C ) 1-J(C)1−Дж.(С) Маленький, он показывает, что алгоритм кластеризации может лучше группировать объекты разных категорий в разные кластеры, то есть точность кластеризации высока.
Не существует известных внешних критериев для внутренней оценки качества, используются только наборы данных. SSСи кластеризация СССОценить внутренние характеристики и размеры кластера. ССС качество. То есть эффект кластеризации обычно оценивается путем расчета среднего сходства внутри кластеров, среднего сходства между кластерами или общего сходства.
Внутренняя оценка качества связана с алгоритмом кластеризации. Индекс эффективности кластеризации в основном используется для оценки качества эффекта кластеризации или определения оптимального количества кластеров. Идеальный эффект кластеризации состоит в том, чтобы иметь наименьшее расстояние внутри кластера и минимальное расстояние. Самый большой кластер Таким образом, эффективность кластеризации обычно измеряется некоторым соотношением расстояния внутри кластера и расстояния между кластерами. Обычно используемые индикаторы этого типа включают индикатор CH, индикатор Данна, индикатор I, индикатор Се-эни и т. д.
1. Индикатор CH
Индекс CH — это аббревиатура индекса Калински-Харабаша. Он сначала вычисляет сумму квадратов расстояния между каждой точкой кластера и ее центром кластера, чтобы измерить близость внутри класса, затем вычисляет сумму квадратов расстояния; между каждой центральной точкой кластера и центральной точкой набора данных для измерения. Разделение набора данных и отношение разделения к близости - это индекс CH.
настраивать X ‾ i надчеркнуть{X}_iИксяпредставляет собой кластер СССцентральная точка (среднее), X ‾ надстрочный{X}Икспредставляет набор данных SSСцентральная точка d ( X ‾ i , X ‾ ) d(надстрочная линия{X}_i,надстрочная линия{X})г(Икся,Икс) для X ‾ i надчеркнуть{X}_iИксяприезжать X ‾ надстрочный{X}ИксОпределенная функция расстояния от , затем кластеризация СССКомпактность среднего кластера определяется как
Трассировка ( A ) = ∑ i = 1 k ∑ X j ∈ C id ( X j , X ‾ i ) 2 (10-24) текст{Трассировка}(A)=sum_{i=1}^ksum_{X_jin C_i}d(X_j,overline{X}_i)^2tag{10-24}След(А)=я=1∑кИксдж∈Ся∑г(Иксдж,Икся)2(10-24) Следовательно, Trace(A) — это кластер ССС Сумма квадратов расстояний между центрами кластеров.И кластеризация ССССтепень разделения определяется как
След ( B ) = ∑ i = 1 k ∣ C i ∣ d ( X ‾ i , X ‾ ) 2 (10-25) текст{След}(B)=сумма_{i=1}^k|C_i|d(overline{X}_i,overline{X})^2тег{10-25}След(Б)=я=1∑к∣Ся∣г(Икся,Икс)2(10-25) То есть Trace(B) кластеризуется. СССКаждая центральная точка кластера SSСВзвешенная сумма квадратных расстояний от центральной точки .
Отсюда, если N = ∑ i = 1 k ∣ C i ∣Н=к∑я=1|Ся|
Н=я=1∑к∣Ся∣ Тогда показатель CH можно определить как
V CH ( k ) = След ( B ) / ( k − 1 ) След ( A ) / ( N − k ) (10-26) V_{text{CH}}(k)=frac{text{След}(B)/(k-1)}{text{След}(A)/(Nk)}тег{10-26}ВЧ.(к)=След(А)/(Н−к)След(Б)/(к−1)(10-26) Формула (10-26) обычно используется в следующих двух ситуациях:
(1) Оцените, какая кластеризация, полученная с помощью двух алгоритмов, лучше.
Предположим, что для анализа набора данных используются два алгоритма. SSСБыл проведен кластерный анализ и два разных кластера (оба содержат ккккластеры), кластеризация, соответствующая большему значению CH, лучше, поскольку чем больше значение CH, тем больше каждый кластер в кластере находится ближе к самому себе, а кластеры более рассредоточены.
(2) Оценить, какой из двух кластеров с разным количеством кластеров, полученных одним и тем же алгоритмом, лучше.
Предположим, что алгоритм имеет набор данных SSСБыл проведен кластерный анализ, и количество кластеров было получено как к 1 к_1к1и б 2 б_2б2 Из двух кластеров результат кластеризации с большим значением CH лучше, что также означает, что количество кластеров, соответствующих этому кластеру, является более подходящим.Следовательно, многократно применяя формулу (10-26), мы также можем получить набор данных SSСОптимальное количество кластеров для кластеризации.
2. Индикатор Данна
Индикатор Данна использует кластеры C i C_iСяс кластером С j С_jСджминимальное расстояние между ds ( C i , C j ) d_s(C_i,C_j)гс(Ся,Сдж) рассчитать разделение между кластерами, используя наибольший диаметр кластера среди всех кластеров макс { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } макс{varPhi(C_1), varPhi(C_2),...,varPhi(C_k)}Макс{Φ(С1),Φ(С2),...,Φ(Ск)} Для характеристики тесноты внутри кластера индекс Данна представляет собой минимальное значение отношения между первым и вторым, то есть
VD ( k ) = min i ≠ jds ( Ci , C j ) max { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } (10-27) V_D(k)=min_{i≠j}frac{d_s(C_i,C_j)}{max{varPhi(C_1), varPhi(C_2),...,varPhi (C_k)}}тег{10-27}ВД(к)=я=джминМакс{Φ(С1),Φ(С2),...,Φ(Ск)}гс(Ся,Сдж)(10-27) Чем больше значение Данна, тем дальше расстояние между кластерами и тем лучше соответствующая кластеризация.Подобно индексу оценки CH, индекс Данна можно использовать для оценки качества кластеров, полученных разными алгоритмами, а также для оценки того, какие кластеры, полученные одним и тем же алгоритмом с разным количеством кластеров, лучше, то есть можно использовать для поиска SSСоптимальное количество кластеров.
Выбросы — это особые данные в наборе данных, которые значительно отличаются от большинства данных. Алгоритмы интеллектуального анализа данных, такие как классификация и кластеризация, представленные ранее, направлены на обнаружение регулярных закономерностей, применимых к большинству данных. Поэтому многие алгоритмы интеллектуального анализа данных пытаются уменьшить или устранить влияние выбросов, а также уменьшить выбросы при реализации интеллектуального анализа. или игнорируются как шум, но во многих практических приложениях люди подозревают, что отклонение точек-выбросов вызвано не случайными факторами, а может быть вызвано другими совершенно другими механизмами, которые необходимо раскопать для специального анализа и использования. Например, в таких областях приложений, как управление безопасностью и контроль рисков, шаблон выявления выбросов более ценен, чем шаблон обычных данных.
Слово Outlier обычно переводится как выброс, но также и как аномалия. Однако в различных ситуациях применения существует множество псевдонимов, таких как изолированные точки, аномальные точки, новые точки, точки отклонения, точки исключений, шум, аномальные данные и т. д. В китайской литературе интеллектуальный анализ выбросов имеет схожие термины, такие как интеллектуальный анализ данных аномалий, обнаружение аномальных данных, интеллектуальный анализ данных выбросов, интеллектуальный анализ данных исключений и интеллектуальный анализ редких событий.
1. Генерация выбросов
(1) Данные поступают из-за аномалий, вызванных мошенничеством, вторжением, вспышками заболеваний, необычными экспериментальными результатами и т. д. Например, средний счет за телефон составляет около 200 юаней, но в определенный месяц внезапно увеличивается до нескольких тысяч юаней; чья-то кредитная карта обычно расходует около 5000 юаней в месяц, но в определенный месяц потребление превышает 30 000 юаней и т. д. Такие выбросы обычно представляют интерес для интеллектуального анализа данных и являются одной из ключевых точек применения.
(2) Вызвано внутренними изменениями переменных данных, отражающими естественные характеристики распределения данных, такие как изменение климата, новые модели покупок клиентов, генетические мутации и т. д. Тоже одно из интересных направлений.
(3) Ошибки измерения и сбора данных в основном происходят из-за человеческой ошибки, неисправности измерительного оборудования или присутствия шума. Например, оценка студента -100 по определенному курсу может быть связана с установленным программой по умолчанию значением; зарплата топ-менеджеров компании существенно превышает зарплату рядовых сотрудников. Может показаться, что это выброс, но это так. Разумные данные.
2. Проблема постороннего майнинга
Обычно проблему обнаружения выбросов можно разложить на три подзадачи для описания.
(1) Определить выбросы
Поскольку выбросы тесно связаны с практическими проблемами, четкое определение того, какие данные являются выбросами или аномальными данными, является предпосылкой и основной задачей анализа выбросов. Как правило, необходимо объединить опыт и знания экспертов в предметной области, чтобы обеспечить точный анализ выбросов. . Дайте подходящее описание или определение.
(2) Выбросы в горнодобывающей отрасли
После того, как точки выбросов четко определены, ключевой задачей анализа выбросов является выбор алгоритма, который следует использовать для эффективной идентификации или анализа определенных точек выбросов. Алгоритм анализа выбросов обычно предоставляет пользователям подозрительные данные о выбросах с точки зрения закономерностей, которые могут быть отражены в данных, чтобы привлечь внимание пользователя.
(3) Понять выбросы
Разумное объяснение, понимание и руководство по практическому применению результатов добычи полезных ископаемых являются целями добычи выбросов. Поскольку механизм генерации выбросов неясен, то, действительно ли «выбросы», обнаруженные алгоритмом анализа выбросов, соответствуют фактическому аномальному поведению, не может быть объяснено и объяснено алгоритмом анализа выбросов, но может быть объяснено только алгоритмом анализа выбросов. Эксперты в отрасли или предметной области, которые поймут и объяснят инструкции.
3. Относительность выбросов
Выбросы — это особые данные в наборе данных, которые явно отклоняются от большинства данных, но «очевидно» и «в основном» относительны, то есть, хотя выбросы и различны, они относительны. Таким образом, существует несколько проблем, которые следует учитывать при определении и анализе выбросов.
(1) Глобальные или локальные выбросы
Объект данных может быть выбросом по отношению к своим локальным соседям, но не по отношению ко всему набору данных. Например, ученик ростом 1,9 метра является исключением в первом классе по математике нашей школы, но не среди людей по всей стране, включая профессиональных игроков, таких как Яо Мин.
(2) Количество выбросов
Хотя количество точек-выбросов неизвестно, количество нормальных точек должно значительно превышать количество точек-выбросов. То есть количество точек-выбросов должно составлять меньшую долю в большом наборе данных. Обычно считается, что это число. точек выбросов. Оно должно быть менее 5% или даже менее 1%.
(3) Фактор выброса точки
Вы не можете использовать «да» или «нет», чтобы сообщить, является ли объект выбросом. Вместо этого вы должны использовать степень отклонения объекта, то есть коэффициент выброса (коэффициент выброса) или оценку выброса (оценка выброса). охарактеризовать степень отклонения данных от группы, а затем отфильтровать объекты с факторами выбросов выше определенного порога, предоставить их лицам, принимающим решения, или экспертам предметной области для понимания и объяснения и применить их в практической работе.
1. Основные понятия
Определение 10-11 Существует целое положительное число ккк, объект ХХИксиз ккк- Расстояние до ближайшего соседа — это положительное целое число, удовлетворяющее следующим условиям. дк ( X ) д_к(X)гк(Икс):
(1) за исключением ХХИксКроме того, существует как минимум кккобъекты ГГИудовлетворить d ( X , Y ) ≤ dk ( X ) d(X,Y)≤d_k(X)г(Икс,И)≤гк(Икс)。
(2) за исключением ХХИксКроме того, существует не более к − 1 к-1к−1 объекты ГГИудовлетворить д ( X , Y ) < дк ( X ) д(X,Y)г(Икс,И)<гк(Икс)。
в д ( X , Y ) д(X,Y)г(Икс,И) это объект ХХИкси ГГИнекоторая функция расстояния между ними.
объекта ккк-Чем больше расстояние до ближайшего соседа, тем больше вероятность того, что объект находится далеко от большинства данных, поэтому объект можно ХХИксиз ккк- расстояние до ближайшего соседа дк ( X ) д_к(X)гк(Икс) как его исключительный фактор.
Определение 10-12 делать D ( X , k ) = { Y ∣ d ( X , Y ) ≤ dk ( X ) ∧ Y ≠ X } D(X,k)={Y|d(X,Y)≤d_k(X)клин Y≠X}Д(Икс,к)={И∣г(Икс,И)≤гк(Икс)∧И=Икс}, то это называется D ( X , k ) D(X,k)Д(Икс,к) да ХХИксиз ккк-Ближайший сосед (домен).
Из определения 10-12 видно, что D ( X , k ) D(X,k)Д(Икс,к) Да ХХИкскак центр, расстояние ХХИксНе превышает дк ( X ) д_к(X)гк(Икс) Объект ГГИ Коллекция состоит из. Стоит обратить на это особое внимание, ХХИксне принадлежит к нему ккк-ближайший сосед, т.е. X ∉ D ( X , k ) X не в D(X,k)Икс∈/Д(Икс,к) . В частности, ХХИксиз ккк-ближайший сосед D ( X , k ) D(X,k)Д(Икс,к) Количество содержащихся объектов может значительно превышать ккк,Прямо сейчас ∣ D ( X , k ) ∣ ≥ k |D(X,k)|≥k∣Д(Икс,к)∣≥к。
Определение 10-13 Существует целое положительное число ккк, объект ХХИксиз ккк- Фактор выброса ближайшего соседа определяется как
OF 1 ( X , k ) = ∑ Y ∈ D ( X , k ) d ( X , Y ) ∣ D ( X , k ) ∣ (10-28) текст{OF}_1(X,k)=frac{mathop{сумма}пределы_{Yin D(X,k)}d(X,Y)}{|D(X,k)|}тег{10-28}ИЗ1(Икс,к)=∣Д(Икс,к)∣И∈Д(Икс,к)∑г(Икс,И)(10-28)
2. Описание алгоритма
Для данного набора данных и количества расстояний до ближайших соседей ккк, мы можем использовать приведенную выше формулу для расчета ккк-Ближайшие соседние факторы-выбросы и выводите их в порядке от большего к меньшему. Среди них несколько объектов с более крупными выбросами, скорее всего, будут выбросами. Как правило, они должны быть проанализированы и оценены лицами, принимающими решения, или отраслевыми экспертами. , Какие точки действительно являются выбросами.
Алгоритм 10-8 Алгоритм обнаружения выбросов на основе расстояния
Входные данные: набор данных SSС, количество расстояний до ближайших соседей ккк
Выходные данные: нисходящий список предполагаемых точек выбросов и соответствующих факторов выбросов.
(1)ПОВТОРИТЬ
(2) Возьмите SSСнеобработанный объект в ХХИкс
(3) ОК ХХИксиз ккк-ближайший сосед D ( X , k ) D(X,k)Д(Икс,к)
(4) Расчет ХХИксиз ккк- коэффициент выброса ближайшего соседа OF 1 ( X , k ) текст {OF}_1(X,k)ИЗ1(Икс,к)
(5)ДО SSСКаждый пункт обработан
(6) Да OF 1 ( X , k ) текст {OF}_1(X,k)ИЗ1(Икс,к)Сортировать по убыванию и выводить ( X , OF 1 ( X , k ) ) (X, текст {OF}_1(X,k))(Икс,ИЗ1(Икс,к))
3. Примеры расчета
Пример 10-12 Двумерный набор данных с 11 точками SSСОно дается табл. 10-10, пусть к = 2 к=2к=2, используйте расчет квадрата евклидова расстояния X 7 , X 10 , X 11 X_7, X_{10},X_{11}Икс7,Икс10,Икс11 Коэффициент выброса по отношению ко всем остальным точкам.
развязать: Чтобы интуитивно понять принцип работы алгоритма, будем SSСОбъекты данных отображаются на плоскости на рисунке (10-27) ниже.
Ниже вычисляются факторы выбросов указанной точки и других точек соответственно.
(1) Объект расчета Х 7 Х_7Икс7посторонний фактор
Как видно из рисунка, расстояние X 7 = ( 6 , 8 ) X_7=(6,8)Икс7=(6,8) Ближайшая точка находится X 10 = ( 5 , 7 ) X_{10}=(5,7)Икс10=(5,7),и d ( X 7 , X 10 ) = 1,41 d(X_7,X_{10}) =1,41г(Икс7,Икс10)=1.41, другие ближайшие точки могут быть X 11 = ( 5 , 2 ) X_{11}=(5,2)Икс11=(5,2), X 9 = ( 3 , 2 ) X_9=(3,2)Икс9=(3,2), X 8 = ( 2 , 4 ) X_8=(2,4)Икс8=(2,4);
Рассчитано д ( Х 7 , Х 11 ) = 6,08 д(Х_7,Х_{11})=6,08г(Икс7,Икс11)=6.08, д ( Х 7 , Х 9 ) = 6,71 д(Х_7,Х_9)=6,71г(Икс7,Икс9)=6.71, д ( Х 7 , Х 8 ) = 5,66 д(Х_7,Х_8)=5,66г(Икс7,Икс8)=5.66
потому что к = 2 к=2к=2,так d 2 ( X 7 ) = 5,66 d_2(X_7)=5,66г2(Икс7)=5.66, поэтому согласно определению 10-11 мы имеем D ( X 7 , 2 ) = { X 10 , X 8 } D(X_7,2)={X_{10},X_8}Д(Икс7,2)={Икс10,Икс8}
Согласно формуле (10-28), Х 7 Х_7Икс7посторонний фактор
OF 1 ( X 7 , 2 ) = ∑ Y ∈ N ( X 7 , 2 ) d ( X 7 , Y ) ∣ N ( X 7 , k ) ∣ = d ( X 7 , X 10 ) + d ( X 7 , X 8 ) 2 = 1,41 + 5,66 2 = 3,54ИЗ1(Икс7,2)=∑И∈Н(Икс7,2)г(Икс7,И)|Н(Икс7,к)|=г(Икс7,Икс10)+г(Икс7,Икс8)2=1.41+5.662=3.54
ИЗ1(Икс7,2)=∣Н(Икс7,к)∣И∈Н(Икс7,2)∑г(Икс7,И)=2г(Икс7,Икс10)+г(Икс7,Икс8)=21.41+5.66=3.54(2) Объект расчета Х 10 Х_{10}Икс10посторонний фактор OF 1 ( X 10 , 2 ) = 2,83 текст {OF}_1(X_{10},2)=2,83ИЗ1(Икс10,2)=2.83
(3) Объект расчета Х 11 Х_{11}Икс11посторонний фактор OF 1 ( X 11 , 2 ) = 2,5 текст {OF}_1(X_{11},2)=2,5ИЗ1(Икс11,2)=2.5
(4) Объект расчета Х 5 Х_{5}Икс5посторонний фактор OF 1 ( X 5 , 2 ) = 1 текст {OF}_1(X_{5},2)=1ИЗ1(Икс5,2)=1
Аналогичным образом можно рассчитать коэффициенты выбросов остальных объектов, см. следующую таблицу (10-11).
4. Порог выброса фактора
в соответствии с ккк -Теория ближайшего соседа: чем больше фактор выброса, тем более вероятно, что это выброс. Поэтому необходимо указать порог, чтобы отличать выбросы от нормальных точек. Самый простой метод — указать количество точек выбросов, но этот метод слишком прост и иногда упускает некоторые реальные точки выбросов или приписывает слишком много нормальных точек возможным точкам выбросов, что затрудняет работу экспертов в предметной области или лиц, принимающих решения. Возникают трудности. в понимании и интерпретации выбросов.
(1) Пороговый метод сегментации факторов выбросов сначала упорядочивает факторы выбросов в порядке убывания и в то же время перенумеровывает объекты данных в порядке возрастания в соответствии с факторами выбросов.
(2) На основе фактора выброса OF 1 ( X , k ) текст {OF}_1(X,k)ИЗ1(Икс,к) – ордината, а серийный номер фактора выброса – это абсцисса, т. е. (серийный номер, ИЗ 1 текста{OF}_1ИЗ1значение) отмечаются на плоскости и соединяются, образуя невозрастающую ломаную линию, а точка, в которой ломаная линия пересекает резкий и плавный спад, соответствует коэффициенту выброса в качестве порогового значения. Объекты с коэффициентом выброса меньше. чем или равные этому порогу, являются нормальными объектами, остальные — возможными выбросами.
Пример 10-13 Набор данных для примера 10-12 SSС , его факторы выбросов суммированы в порядке убывания и порядкового номера в Таблице 10-11. Попробуйте найти порог точек выбросов на основе метода порога сегментации факторов выбросов.
развязать: Сначала используйте (серийный номер, ИЗ 1 текста{OF}_1ИЗ1 значение) в виде точек на плоскости, отмеченных на плоскости и соединенных полилиниями. Как показано на рисунке 10-28 ниже.
Затем, глядя на рисунок 10-28, мы видим, что ломаная линия слева от четвертой точки (4, 1,27) падает очень круто, а ломаная линия справа падает очень плавно. Поэтому в качестве коэффициента выброса выбран 1,27. порог.потому что X 7 、 X 10 X_7、X_{10}Икс7、Икс10 и Х 11 Х_{11}Икс11 Коэффициенты выбросов составляют 3,54, 2,83 и 2,5 соответственно, и все они превышают 1,27. Таким образом, эти три точки, скорее всего, будут точками-выбросами, а остальные точки — обычными точками.
Снова взглянув на рисунок 10-27, мы увидим, что X 7 、 X 10 X_7、X_{10}Икс7、Икс10 и Х 11 Х_{11}Икс11 действительно, далеко от плотного большинства объектов слева, поэтому относитесь к ним как к набору данных SSСВыбросы разумны.
5. Оценка алгоритма
Самым большим преимуществом метода обнаружения выбросов на основе расстояния является то, что он прост в принципе и удобен в использовании. Его недостатки в основном отражаются в следующих аспектах.
(1) Параметры кккВ отборе отсутствует простой и эффективный метод определения влияния результатов испытаний на параметры. кккНе существует общепринятого аналитического результата о степени чувствительности.
(2) Временная сложность равна О ( ∣ С ∣ 2 ) О(|С|^2)О(∣С∣2), ему не хватает масштабируемости для крупномасштабных наборов данных.
(3) Из-за использования порогового значения глобального фактора выбросов сложно выявить выбросы в наборах данных с регионами с различной плотностью.
Метод расстояния — это метод глобальной проверки выбросов, но он не может обрабатывать наборы данных в областях с различной плотностью, то есть он не может обнаруживать выбросы в областях локальной плотности. В практических приложениях не все данные распределяются с одной плотностью. Когда набор данных содержит несколько распределений плотности или представляет собой смесь различных подмножеств плотности, глобальные методы обнаружения выбросов, такие как расстояние, обычно не работают должным образом, поскольку то, является ли объект выбросом, зависит не только от его связи с окружающими данными. Расстояние. связано с плотностью в окрестностях.
1. Понятие относительной плотности
С точки зрения плотности окружения выбросы представляют собой объекты в областях с низкой плотностью. Поэтому необходимо ввести понятия локальной плотности окружения и относительной плотности объектов.
Определение 10-14 (1) объект ХХИксиз ккк-Локальная плотность (плотность) ближайших соседей определяется как
dsty ( X , k ) = ∣ D ( X , k ) ∣ ∑ Y ∈ D ( X , k ) d ( X , Y ) (10-29) текст{dsty}(X,k)=frac{|D(X,k)|}{mathop{сумма}пределы_{Yin D(X,k)}d(X,Y)}тег{10-29}dsty(Икс,к)=И∈Д(Икс,к)∑г(Икс,И)∣Д(Икс,к)∣(10-29) (2) объект ХХИксиз ккк-Локальная относительная плотность ближайшего соседа (относительная плотность)
rdsty ( X , k ) = ∑ Y ∈ D ( X , k ) dsty ( X , k ) / ∣ D ( X , k ) ∣ dsty ( X , k ) (10-30) текст{rdsty}(X,k)=frac{mathop{sum}limits_{Yin D(X,k)}текст{dsty}(X,k)/|D(X,k)|}{текст{dsty}(X,k)}тег{10-30}рдсти(Икс,к)=dsty(Икс,к)И∈Д(Икс,к)∑dsty(Икс,к)/∣Д(Икс,к)∣(10-30) в D ( X , k ) D(X,k)Д(Икс,к) Это объект ХХИксиз ккк- ближайший сосед (данный в определении 10-12), ∣ D ( X , k ) ∣ |D(X,k)|∣Д(Икс,к)∣ — количество объектов в коллекции.
2. Описание алгоритма
к rdsty ( X , k ) текст {rdsty}(X,k)рдсти(Икс,к) как выброс OF 2 ( X , k ) текст {OF}_2(X,k)ИЗ2(Икс,к), его расчет разбит на два этапа
(1) По количеству соседей ккк, рассчитать каждый объект ХХИксиз ккк- Местная плотность ближайшего соседа dsty ( X , k ) текст {dsty}(X,k)dsty(Икс,к)
(2) Расчет ХХИкссредняя плотность ближайших соседей и ккк-Местная относительная плотность ближайшего соседа rdsty ( X , k ) текст {rdsty}(X,k)рдсти(Икс,к)
Набор данных состоит из нескольких естественных кластеров. Относительная плотность объектов, близких к центральной точке внутри кластера, близка к 1, тогда как относительная плотность объектов на краю кластера или вне кластера относительно велика. Следовательно, чем больше значение относительной плотности, тем более вероятно, что это выброс.
Алгоритм 10-9 Алгоритм обнаружения выбросов на основе относительной плотности
Входные данные: набор данных SSС, количество ближайших соседей ккк
Выходные данные: нисходящий список предполагаемых точек выбросов и соответствующих факторов выбросов.
(1)ПОВТОРИТЬ
(2) Возьмите SSСнеобработанный объект в ХХИкс
(3) ОК ХХИксиз ккк-ближайший сосед D ( X , k ) D(X,k)Д(Икс,к)
(4) Использование D ( X , k ) D(X,k)Д(Икс,к)вычислить ХХИксПлотность dsty ( X , k ) текст {dsty}(X,k)dsty(Икс,к)
(5)ДО SSСКаждый пункт обработан
(6)ПОВТОРИТЬ
(7) Возьмите SSСпервый объект в ХХИкс
(8) ОК ХХИксотносительная плотность rdsty ( X , k ) текст {rdsty}(X,k)рдсти(Икс,к)и назначьте его OF 2 ( X , k ) текст {OF}_2(X,k)ИЗ2(Икс,к)
(9)ДО SSСВсе объекты в обработаны
(10) Правый OF 2 ( X , k ) текст {OF}_2(X,k)ИЗ2(Икс,к)Сортировать по убыванию и выводить ( X , OF 2 ( X , k ) ) (X, текст {OF}_2(X,k))(Икс,ИЗ2(Икс,к))
Пример 10-14 Для двумерного набора данных, приведенного в примере 10-12 SSС (Подробнее см. в Таблице 10-10), поэтому к = 2 к=2к=2, попробуйте вычислить евклидово расстояние X 7 , X 10 , X 11 X_7, X_{10},X_{11}Икс7,Икс10,Икс11 Коэффициент выброса, основанный на относительной плотности одинаковых объектов.
развязать:потому что к = 2 к=2к=2, поэтому нам нужна локальная плотность 2-х ближайших соседей всех объектов.
(1) Найдите 2-ближайшего соседа каждого объекта данных в таблице 10-11. D ( X i , 2 ) D(X_i,2)Д(Икся,2)。
По тому же методу расчета, что и в примере 10-12, можно получить
D (X 1 , 2 ) = {X 2 , X 3 , X 5 } , D (X 2 , 2 ) = {X 1 , X 6 } , D (X 3 , 2 ) = {X 1 , X 4 } , D (X 4 , 2 ) = {X 3 , X 5 } , D (X 5 , 2 ) = {X 1 , X 4 , X 6 , X 9 } , D (X 6 , 2 ) = {X 2 , X 5 , X 8 } , D (X 7 , 2 ) = {X 10 , X 8 } , D (X 8 , 2 ) = {X 2 , X 6 } , D (X 9 , 2 ) = { X 5 , X 4 , X 6 } , D ( X 10 , 2 ) = { X 7 , X 8 } , D ( X 11 , 2 ) = { X 9 , X 5 }Д(Икс1,2)={Икс2,Икс3,Икс5},Д(Икс2,2)={Икс1,Икс6}, Д(Икс3,2)={Икс1,Икс4},Д(Икс4,2)={Икс3,Икс5}, Д(Икс5,2)={Икс1,Икс4,Икс6,Икс9},Д(Икс6,2)={Икс2,Икс5,Икс8},Д(Икс7,2)={Икс10,Икс8}, Д(Икс8,2)={Икс2,Икс6}, Д(Икс9,2)={Икс5,Икс4,Икс6},Д(Икс10,2)={Икс7,Икс8}, Д(Икс11,2)={Икс9,Икс5}
Д(Икс1,2)={Икс2,Икс3,Икс5},Д(Икс2,2)={Икс1,Икс6}, Д(Икс3,2)={Икс1,Икс4},Д(Икс4,2)={Икс3,Икс5}, Д(Икс5,2)={Икс1,Икс4,Икс6,Икс9},Д(Икс6,2)={Икс2,Икс5,Икс8},Д(Икс7,2)={Икс10,Икс8}, Д(Икс8,2)={Икс2,Икс6}, Д(Икс9,2)={Икс5,Икс4,Икс6},Д(Икс10,2)={Икс7,Икс8}, Д(Икс11,2)={Икс9,Икс5}
(2) Рассчитайте локальную плотность каждого объекта данных. dsty ( X i , 2 ) текст {dsty}(X_i,2)dsty(Икся,2):
① Рассчитать Х 1 Х_1Икс1Плотность
потому что D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } D(X_1,2)={X_2,X_3,X_5}Д(Икс1,2)={Икс2,Икс3,Икс5}, поэтому после расчета мы имеем д ( Х 1 , Х 2 ) = 1 д(Х_1,Х_2)=1г(Икс1,Икс2)=1, д ( Х 1 , Х 3 ) = 1 д(Х_1,Х_3)=1г(Икс1,Икс3)=1, д ( Х 1 , Х 5 ) = 1 д(Х_1,Х_5)=1г(Икс1,Икс5)=1;
По формуле (10-29) получаем:
dsty ( X 1 , 2 ) = ∣ D ( X 1 , 2 ) ∣ ∑ Y ∈ N ( X 1 , 2 ) d ( X 1 , Y ) = ∣ N ( X 1 , 2 ) ∣ d ( X 1 , X 2 ) + d ( X 1 , X 3 ) + d ( X 1 , X 5 ) = 3 1 + 1 + 1 = 1dsty(Икс1,2)=|Д(Икс1,2)|∑И∈Н(Икс1,2)г(Икс1,И)=|Н(Икс1,2)|г(Икс1,Икс2)+г(Икс1,Икс3)+г(Икс1,Икс5)=31+1+1=1
dsty(Икс1,2)=И∈Н(Икс1,2)∑г(Икс1,И)∣Д(Икс1,2)∣=г(Икс1,Икс2)+г(Икс1,Икс3)+г(Икс1,Икс5)∣Н(Икс1,2)∣=1+1+13=1
② Расчет Х 2 Х_2Икс2Плотность
потому что D ( X 2 , 2 ) = { X 1 , X 6 } D(X_2,2)={X_1,X_6}Д(Икс2,2)={Икс1,Икс6}, поэтому рассчитанное д ( Х 2 , Х 1 ) = 1 д(Х_2,Х_1) =1г(Икс2,Икс1)=1, д ( Х 2 , Х 6 ) = 1 д(Х_2,Х_6) =1г(Икс2,Икс6)=1;
По формуле (10-29) получаем:
dsty ( X 2 , 2 ) = ∣ D ( X 2 , 2 ) ∣ ∑ Y ∈ N ( X 2 , 2 ) d ( X 2 , Y ) = 2 1 + 1 = 1dsty(Икс2,2)=|Д(Икс2,2)|∑И∈Н(Икс2,2)г(Икс2,И)=21+1=1
dsty(Икс2,2)=И∈Н(Икс2,2)∑г(Икс2,И)∣Д(Икс2,2)∣=1+12=1
Локальную плотность других объектов данных можно рассчитать аналогичным образом, см. Таблицу 10-12 ниже.
(3) Рассчитайте каждый объект X я X_iИксяотносительная плотность rdsty ( X i , 2 ) текст {rdsty}(X_i, 2)рдсти(Икся,2)и рассматривать это как посторонний фактор OF 2 текст{OF}_2ИЗ2。
① Рассчитать Х 1 Х_1Икс1относительная плотность
Используя значение плотности каждого объекта из таблицы 10-12, согласно формуле относительной плотности (10-30):
rdsty ( X 1 , 2 ) = ∑ Y ∈ N ( X 1 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 1 , 2 ) ∣ dsty ( X 1 , 2 ) = ( 1 + 1 + 1 ) / 3 1 = 1 = OF 2 ( X 1 , 2 )рдсти(Икс1,2)=∑И∈Н(Икс1,2)dsty(И,2)/|Н(Икс1,2)|dsty(Икс1,2)=(1+1+1)/31=1=ИЗ2(Икс1,2)
рдсти(Икс1,2)=dsty(Икс1,2)И∈Н(Икс1,2)∑dsty(И,2)/∣Н(Икс1,2)∣=1(1+1+1)/3=1=ИЗ2(Икс1,2)
② Аналогичный расчет можно получить X 2 、 X 3 、 … 、 X 11 X_2、X_3、…、X_{11}Икс2、Икс3、…、Икс11 значение относительной плотности.
например Х 5 Х_5Икс5Относительная плотность:
rdsty ( X 5 , 2 ) = ∑ Y ∈ N ( X 5 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 5 , 2 ) ∣ dsty ( X 5 , 2 ) = ( 1 + 1 + 1 + 0,79 ) / 4 1 = 0,95 = OF 2 ( X 5 , 2 )рдсти(Икс5,2)=∑И∈Н(Икс5,2)dsty(И,2)/|Н(Икс5,2)|dsty(Икс5,2)=(1+1+1+0.79)/41=0.95=ИЗ2(Икс5,2)
рдсти(Икс5,2)=dsty(Икс5,2)И∈Н(Икс5,2)∑dsty(И,2)/∣Н(Икс5,2)∣=1(1+1+1+0.79)/4=0.95=ИЗ2(Икс5,2) Результаты суммированы в таблицах 10-13 ниже.
Пример 10-15 Учитывая набор данных, показанный в Таблице 10-14, используйте евклидово расстояние для к = 2 , 3 , 5 к=2,3,5к=2,3,5, вычислите значение каждой точки ккк- локальная плотность ближайшего соседа, ккк-Локальная относительная плотность ближайшего соседа (коэффициент выброса OF 2 текст{OF}_2ИЗ2) и на основе ккк-Коэффициент выброса для расстояния до ближайшего соседа ИЗ 1 текста{OF}_1ИЗ1。
развязать: (1) Чтобы облегчить понимание, можно SSСОтносительное положение точек отмечено на двухмерной плоскости (рис. 10-30).
(2) Используйте алгоритмы на основе расстояния и относительной плотности 10-8 и 10-9 соответственно.Рассчитаем каждый объект отдельно ккк- Местная плотность ближайшего соседа dsty текст{dsty}dsty、 ккк-Локальная относительная плотность ближайшего соседа (коэффициент выброса OF 2 текст{OF}_2ИЗ2) и на основе ккк-Коэффициент выброса для расстояния до ближайшего соседа ИЗ 1 текста{OF}_1ИЗ1Результаты суммированы в Таблице 10-15.
(3) Простой анализ
① Как видно из рисунка 10-30, Х 15 Х_{15}Икс15и Х 16 Х_{16}Икс16да SSСЕсть два очевидных выброса, и методы, основанные на расстоянии и относительной плотности, могут лучше их обнаружить;
② В этом примере два алгоритма имеют кккне так чувствителен, как ожидалось, возможно, это выброс. Х 15 Х_{15}Икс15и Х 16 Х_{16}Икс16Отделение от других объектов очень очевидно.
③Как видно из Таблицы 10-15, независимо от кккВозьми 2, 3 или 5, Х 1 Х_1Икс1региона dsty текст{dsty}dsty значения значительно ниже, чем Х 7 Х_7Икс7региона dsty текст{dsty}dsty значение, которое соответствует плотности площади, показанной на рисунке 10-30.Но значение относительной плотности двух регионов OF 2 текст{OF}_2ИЗ2 Но очевидной разницы почти нет. Это определяется характером относительной плотности, то есть для равномерно распределенных точек данных относительная плотность основных точек равна 1, независимо от расстояния между точками.
1. Улучшен алгоритм кластеризации.
(1) ккк-мод ( ккк-режимы) алгоритм предназначен для ккк -Алгоритм среднего подходит только для ограничения числовых атрибутов и предлагается для достижения быстрой кластеризации дискретных данных.потому что ккк-Модульный алгоритм использует простой метод сопоставления 0-1 для расчета расстояния между двумя значениями атрибута одного и того же дискретного атрибута, что ослабляет разницу между порядковыми значениями атрибута, то есть не может полностью отразить разницу между двумя значениями атрибута. под тем же порядковым атрибутом. Еще есть возможности для совершенствования и совершенствования.
(2) ккк-опытный образец ( ккк-Прототип) алгоритм в сочетании с ккк-Алгоритм усреднения с ккк -Преимущество модульного алгоритма заключается в том, что он может кластеризовать наборы данных как с дискретными, так и с числовыми атрибутами (так называемыми смешанными атрибутами).Для дискретных атрибутов требуется ккк-Модульный алгоритм расчета объекта ХХИкси ГГИрасстояние между д 1 ( Х , Y ) д_1(Х,Y)г1(Икс,И), для числовых атрибутов используйте ккк-Методы в алгоритме усреднения рассчитывают расстояние между объектами d2(X,Y)d_2(X,Y)г2(Икс,И)и, наконец, использовать метод взвешивания, то есть α d 1 ( X , Y ) + ( 1 − α ) d 2 ( X , Y ) альфа d_1(X,Y)+(1-альфа)d_2(X,Y)αг1(Икс,И)+(1−α)г2(Икс,И) как объект набора данных ХХИкси ГГИрасстояние между д ( X , Y ) д(X,Y)г(Икс,И),в α ∈ [ 0 , 1 ] альфав[0,1]α∈[0,1] - весовой коэффициент, обычно он может быть α = 0,5 альфа=0,5α=0.5。
(3) Алгоритм BIRCH (сбалансированное итеративное сокращение и кластеризация с использованием иерархий) представляет собой комплексный метод иерархической кластеризации.Он использует функции кластеризации (CF) и дерево функций кластеризации (CF-дерево, аналогичное B-дереву) для суммирования кластеров кластеров. C i C_iСя,в CF i = (ni, LS i, SS i) текст{CF}_i=(ni, текст{LS}_i,текст{SS}_i)CFя=(ни,ЛСя,SSя) это тройка, ни н_иня— количество объектов в кластере, LS текст{LS}_iЛСяда ни н_инялинейная сумма компонентов объекта, СС я текст{СС}_iSSяда ни н_иняСумма квадратов компонентов объекта.
(4) Алгоритм CURE (кластеризация с использованием представителей) предназначен для ккк -Еще одно улучшение алгоритма усреднения. Многие алгоритмы кластеризации хороши только для кластеризации сферических кластеров, в то время как некоторые алгоритмы кластеризации более чувствительны к изолированным точкам. Для решения двух вышеуказанных проблем алгоритм CURE изменился. ккк-Алгоритм усреднения использует сумму центра кластера ккк-Алгоритм центральной точки использует один конкретный объект для представления кластера (традиционный метод), но использует несколько репрезентативных объектов в кластере для представления кластера, чтобы он мог адаптироваться к кластеризации несферических кластеров и уменьшить влияние шум при кластеризации.
(5) Алгоритм ROCK (RObust Clustering with linK) — это алгоритм кластеризации, предложенный для наборов данных двоичных или категориальных атрибутов.
(6) Алгоритм ОПТИКА (упорядочение точек для идентификации структуры кластеризации) используется для уменьшения плотности алгоритма DBSCAN. ( ε , MinPts ) (varepsilon,text{MinPts})(ε,МинПтс) чувствительность параметра. Он не создает кластеры результатов явно, но создает расширенный рейтинг кластеров для кластерного анализа (например, координатную диаграмму с достижимым расстоянием в качестве вертикальной оси и порядком вывода точек выборки в качестве горизонтальной оси). Этот рейтинг представляет собой основанную на плотности структуру кластеризации каждой точки выборки.Из этой сортировки мы можем получить по любому параметру плотности ( ε , MinPts ) (varepsilon,text{MinPts})(ε,МинПтс) Результаты кластеризации алгоритма DBSCAN.
2. Другие новые методы кластеризации
Используйте некоторые новые теории или методы для разработки новых методов кластеризации.
(1) Метод кластеризации на основе сетки
Метод на основе сетки распределяет пространство объекта по ограниченному числу ячеек для формирования структуры сетки, а информация о положении точек разделения в каждом измерении сохраняется в массиве. Разделительные линии проходят через все пространство и всю кластеризацию. операции выполняются в этой сетке (т.е. пространстве квантования). Основное преимущество этого метода заключается в том, что скорость его обработки очень высока. Скорость его обработки не зависит от количества объектов данных и связана только с количеством ячеек в каждом измерении пространства количественной оценки. Однако его эффективность находится на уровне. за счет кластеризации результатов. Поскольку алгоритм кластеризации сетки имеет проблему количественного масштаба, мы обычно сначала начинаем поиск кластеров с небольших единиц, затем постепенно увеличиваем размер единиц и повторяем этот процесс до тех пор, пока не будут найдены удовлетворительные кластеры.
(2) Метод кластеризации на основе модели
Методы, основанные на моделях, предполагают модель для каждого кластера и находят наилучшее соответствие данных данной модели. Методы, основанные на моделях, пытаются оптимизировать адаптируемость между заданными данными и определенными моделями данных, устанавливая функции плотности, которые отражают пространственное распределение выборок для обнаружения кластеров.
(3) Метод кластеризации на основе нечеткого множества.
На практике не существует строгого значения атрибуции, к какому кластеру принадлежит большинство объектов. Существует промежуточное значение или неопределенность в их значении атрибуции и форме, которая подходит для мягкого разделения. Поскольку анализ нечеткой кластеризации имеет то преимущество, что описывает последовательность атрибуции выборок и может объективно отражать реальный мир, он стал одной из горячих точек в сегодняшних исследованиях кластерного анализа.
Алгоритм нечеткой кластеризации — это метод обучения без учителя, основанный на нечеткой математической теории и неопределенном методе кластеризации. После того, как нечеткая кластеризация была предложена, она привлекла большое внимание академического сообщества. Нечеткая кластеризация представляет собой большое «семейство» кластеров, и исследования нечеткой кластеризации также очень активны.
(4) Метод кластеризации на основе грубого набора
Грубая кластеризация — это неопределенный метод кластеризации, основанный на грубой теории множеств. С точки зрения связи между грубыми множествами и алгоритмами кластеризации методы грубой кластеризации можно разделить на две категории: грубая кластеризация с сильной связью и грубая кластеризация со слабой связью.
Конечно, новые направления исследований в области кластерного анализа выходят далеко за рамки этих. Например, алгоритмы интеллектуального анализа потоков данных и кластеризации, неопределенные данные и алгоритмы их кластеризации, квантовые вычисления и алгоритмы квантовой генетической кластеризации — все это технологии кластеризации, появившиеся в последние годы. . новейшие темы исследований.
3. Другие методы извлечения выбросов
Представленные ранее методы анализа выбросов являются всего лишь двумя представителями метода анализа выбросов. В практическом применении существует множество более зрелых методов анализа выбросов. Их можно определить по типу технологии, используемой в методе анализа, или по использованию предшествующих знаний. углы: градусы.
(1) Тип используемой технологии
В основном существуют статистические методы, методы на основе расстояния, методы на основе плотности, методы на основе кластеризации, методы на основе отклонений, методы на основе глубины, методы на основе вейвлет-преобразования, методы на основе графов, методы на основе шаблонов и нейронные сети. методы и т. д.
(2) Использование предшествующих знаний
В зависимости от наличия информации о нормальном или выбросном классе существует три распространенных подхода:
① Неконтролируемый метод обнаружения выбросов, то есть в наборе данных отсутствуют предварительные знания, такие как метки категорий;
② Метод контролируемого обнаружения выбросов, то есть извлечение характеристик выбросов посредством существования обучающего набора, содержащего выбросы и нормальные точки;
③ Метод полуконтролируемого обнаружения выбросов: обучающие данные содержат помеченные нормальные данные, но нет информации об объектах данных выбросов.