Mi informacion de contacto
Correo[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
El análisis de conglomerados consiste en descomponer un conjunto de datos en subconjuntos, cada subconjunto se denomina conglomerado y el conjunto de todos los subconjuntos se denomina conglomerado del conjunto de objetos. Un buen algoritmo de agrupación debería producir conglomerados de alta calidad y conglomerados de alta calidad, es decir, la similitud general dentro de los conglomerados es la más alta, mientras que la similitud general entre los conglomerados es la más baja.Dado que muchos algoritmos de agrupamiento incluyen yoa-El algoritmo de promedio, el algoritmo DBSCAN, etc. requieren que el usuario especifique la cantidad de clústeres en el clúster de antemano yoa, por lo tanto, el método de estimación simple de k se discutirá a continuación.
Muchos algoritmos de agrupamiento como yoa-Los algoritmos de promedio, incluso los algoritmos DIANA, etc., deben especificar el número de grupos por adelantado yoa,y yoaEl valor de afectará en gran medida la calidad de la agrupación. Sin embargo, el número de agrupaciones debe determinarse de antemano. yoa No es una tarea fácil. Primero podemos considerar dos casos extremos.
(1) Coloque todo el conjunto de datos EspartanoSconsiderado como un grupo, es decir, k = 1 k = 1a=1, esto parece simple y conveniente, pero los resultados de este análisis de conglomerados no tienen valor.
(2) Poner el conjunto de datos EspartanoSCada objeto de se trata como un grupo, es decir, dejemos que k = ∣ S ∣ = nk=|S|=na=∣S∣=norteorteorteorteorteorteorteorteorteorteorteorteorteorteorte , produciendo así la agrupación más fina. Por lo tanto, no hay diferencias dentro del grupo en cada grupo y la similitud dentro del grupo alcanza el nivel más alto.Pero este tipo de agrupamiento no se puede utilizar para EspartanoSproporcionar cualquier información sobre EspartanoSuna descripción general.
Se puede observar que el número de conglomerados yoaal menos debería satisfacer 2 ≤ k ≤ n − 1 2≤k≤n-12≤a≤norteorteorteorteorteorteorteorteorteorteorteorteorteorteorte−1, pero el número de conglomerados yoaSigue siendo ambiguo exactamente qué valor es el más apropiado.
Generalmente considerado, yoaEl valor de puede estimarse mediante la forma y escala de la distribución del conjunto de datos, así como la resolución de agrupamiento requerida por el usuario, y los académicos tienen muchos métodos de estimación diferentes, como el método del codo, el método de validación cruzada y la teoría de la información. métodos basados, etc.
Un sencillo y de uso común. yoaEl método de estimación empírica del valor cree que para aquellos con nnnorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteUn conjunto de datos de objetos, el número de grupos en los que está agrupado. yoaElegir número 2√norteorteorteorteorteorteorteorteorteorteorteorteorteorteorte2
2norteorteorteorteorteorteorteorteorteorteorteorteorteorteorte Es apropiado.En este momento, según la expectativa promedio, cada grupo tiene aproximadamente 2 n raíz cuadrada {2n}2norteorteorteorteorteorteorteorteorteorteorteorteorteorteorte objetos.Sobre esta base, algunas personas han propuesto restricciones adicionales adicionales, es decir, el número de grupos k < nka<norteorteorteorteorteorteorteorteorteorteorteorteorteorteorte。
Por ejemplo, supongamos n = 8 n = 8norteorteorteorteorteorteorteorteorteorteorteorteorteorteorte=8, entonces el número de conglomerados k = 2 k=2a=2 es apropiado, y en promedio hay 4 puntos por grupo, y de acuerdo con la fórmula empírica adicional k < 2,83 k < 2,83a<2.83 .Usando estas dos informaciones sobre el número de clusters yoaLa fórmula empírica parece explicarse desde un lado, en el ejemplo 10-5 k = 2 k=2a=2 es el número más apropiado de clusters.
Si tenemos una buena estimación del número de conglomerados yoa, puede utilizar uno o más métodos de agrupación, por ejemplo, yoa -El algoritmo promedio, algoritmo jerárquico aglomerativo o algoritmo DBSCAN realiza análisis de conglomerados en conjuntos de datos conocidos y obtiene una variedad de resultados de agrupamiento diferentes. La pregunta ahora es qué método tiene mejores resultados de agrupación, o en otras palabras, cómo comparar los resultados de agrupación producidos por diferentes métodos. Ésta es la evaluación de la calidad de la agrupación.
En la actualidad, existen muchos métodos para elegir para la evaluación de la calidad de la agrupación, pero generalmente se pueden dividir en dos categorías, a saber, evaluación de la calidad externa (extrínseca) y evaluación de la calidad interna (intrínseca).
La evaluación de calidad externa supone que ya existe un grupo ideal en el conjunto de datos (generalmente construido por expertos) y lo compara como un método de referencia comúnmente utilizado con los resultados de agrupamiento de un determinado algoritmo. Su evaluación comparativa incluye principalmente la entropía de agrupamiento y la agrupación. son dos métodos comunes para la precisión de clases.
1. Método de entropía de agrupamiento
Conjunto de datos hipotéticos S = { X 1 , X 2 , … , X n } S={X_1,X_2,…,X_n}S={X1,X2,…,Xnorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte},y T = { T1, T2, …, Tm} T={T_1, T_2, …, T_m}yo={yo1,yo2,…,yometroetroetroetro} es la agrupación estándar ideal proporcionada por expertos, y C = { C 1 , C 2 , … , C k } C={C_1,C_2,…,C_k}C={C1,C2,…,Ca} está determinado por un algoritmo sobre EspartanoSUn grupo de, luego para el grupo C y C_iCiEn relación con la agrupación de referencia T.T.yoLa entropía de agrupamiento de se define como
E ( C i ∣ T ) = − ∑ j = 1 m ∣ C i ∩ T j ∣ ∣ C i ∣ log 2 ∣ C i ∩ T j ∣ ∣ C i ∣ (10-20) E(C_i|T)=-sum_{j=1}^mfrac{|C_icap T_j|}{|C_i|}log_2frac{|C_icap T_j|}{|C_i|}tag{10-20}mi(Ci∣yo)=−yo=1∑metroetroetroetro∣Ci∣∣Ci∩yoyo∣Logramo2∣Ci∣∣Ci∩yoyo∣(10-20) y C.C.CAcerca de los puntos de referencia T.T.yoLa entropía de agrupación general de se define como todos los grupos C y C_iCiAcerca de los puntos de referencia T.T.yoEl promedio ponderado de la entropía de agrupamiento, es decir
E ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × E ( C i ∣ T ) (10-21) E(C)=frac{1}{mathop{suma}límites_{i=1}^k|C_i|}suma_{i=1}^k|C_i|times E(C_i|T)tag{10-21}mi(C)=i=1∑a∣Ci∣1i=1∑a∣Ci∣×mi(Ci∣yo)(10-21) El método de entropía de agrupamiento cree que, mi ( C ) mi(C)mi(C) Cuanto menor sea el valor, mayor C.C.CEn relación con el valor inicial T.T.yoCuanto mayor sea la calidad de la agrupación.
Vale la pena señalar que el denominador del primer término del lado derecho de la fórmula (10-21) ∑ i = 1 k ∣ C i ∣a∑i=1|Ci|
i=1∑a∣Ci∣ es la suma del número de elementos en cada grupo y no se puede utilizar nnnorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte para reemplazar.Porque sólo cuando C.C.CCuando es un grupo de particiones, el denominador es nnnorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte, y el denominador de los métodos de agrupación generales, como la agrupación DBSCAN, puede ser menor que nnnorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte。
2. Precisión de agrupación
La idea básica de la evaluación de la exactitud (precisión) del clúster es utilizar la mayor cantidad de categorías en el clúster como etiqueta de categoría del clúster, es decir, para el clúster. C y C_iCi,si existiera T_jyoyohacer ∣ C i ∩ T j ∣ = máx { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } |C_icap T_j|=máx{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}∣Ci∩yoyo∣=máximo{∣Ci∩yo1∣,∣Ci∩yo2∣,⋯,∣Ci∩yometroetroetroetro∣}, Es considerado eso C y C_iCiLa categoría es T_jyoyo .Por lo tanto, el cúmulo C y C_iCiAcerca de los puntos de referencia T.T.yoLa precisión se define como
J ( C i ∣ T ) = máx { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } ∣ C i ∣ (10-22) J(C_i|T)=frac{máx{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}}{|C_i|}tag{10-22}Yo(Ci∣yo)=∣Ci∣máximo{∣Ci∩yo1∣,∣Ci∩yo2∣,⋯,∣Ci∩yometroetroetroetro∣}(10-22) y C.C.CAcerca de los puntos de referencia T.T.yoLa precisión general de está definida para todos los grupos. C y C_iCiAcerca de los puntos de referencia T.T.yoEl promedio ponderado de la precisión de agrupamiento, es decir
J ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × J ( C i ∣ T ) (10-23) J(C)=frac{1}{mathop{suma}límites_{i=1}^k|C_i|}suma_{i=1}^k|C_i|times J(C_i|T)tag{10-23}Yo(C)=i=1∑a∣Ci∣1i=1∑a∣Ci∣×Yo(Ci∣yo)(10-23) El método de precisión de agrupamiento cree que, J ( C ) J(C)Yo(C) Cuanto mayor sea el valor, mayor será la agrupación. C.C.CEn relación con el valor inicial T.T.yoCuanto mayor sea la calidad de la agrupación.
Además, generalmente 1 − J ( C ) 1-J(C)1−Yo(C) llamado C.C.CAcerca de los puntos de referencia T.T.yo tasa de error global.Por lo tanto, la precisión de agrupamiento J ( C ) J(C)Yo(C) Tasa de error grande o general 1 − J ( C ) 1-J(C)1−Yo(C) En pequeño, muestra que el algoritmo de agrupación puede agrupar mejor objetos de diferentes categorías en diferentes grupos, es decir, la precisión de la agrupación es alta.
No existen puntos de referencia externos conocidos para la evaluación de la calidad interna, solo se utilizan conjuntos de datos. EspartanoSy agrupamiento C.C.CEvaluar las características y magnitudes intrínsecas de un conglomerado. C.C.C la calidad de. Es decir, el efecto de agrupamiento generalmente se evalúa calculando la similitud promedio dentro de los grupos, la similitud promedio entre grupos o la similitud general.
La evaluación de la calidad interna está relacionada con el algoritmo de agrupación. El índice de efectividad de la agrupación se utiliza principalmente para evaluar la calidad del efecto de agrupación o para juzgar el número óptimo de agrupaciones. El efecto de agrupación ideal es tener la distancia dentro del grupo más pequeña. Por lo tanto, la efectividad de la agrupación generalmente se mide mediante alguna forma de relación entre la distancia dentro del grupo y la distancia entre grupos. Los indicadores comúnmente utilizados de este tipo incluyen el indicador CH, el indicador Dunn, el indicador I, el indicador Xie-eni, etc.
1. Indicador de canal
El índice CH es la abreviatura del índice Calinski-Harabasz. Primero calcula la suma de los cuadrados de la distancia entre cada punto del grupo y su centro del grupo para medir la cercanía dentro de la clase y luego calcula la suma del cuadrado de la distancia; entre cada punto central del grupo y el punto central del conjunto de datos a medir La separación del conjunto de datos y la relación entre separación y cercanía es el índice CH.
configuración X ‾ i sobrelínea{X}_iXirepresenta un grupo C.C.Cpunto central (media), X ‾ sobrelínea{X}Xrepresenta un conjunto de datos EspartanoSel punto central de d ( X ‾ i , X ‾ ) d(sobrelínea{X}_i,sobrelínea{X})d(Xi,X) para X ‾ i sobrelínea{X}_iXillegar X ‾ sobrelínea{X}XUna cierta función de distancia de, luego agrupación C.C.CLa compacidad de un grupo medio se define como
Traza ( A ) = ∑ i = 1 k ∑ X j ∈ C id ( X j , X ‾ i ) 2 (10-24) text{Traza}(A)=sum_{i=1}^ksum_{X_jin C_i}d(X_j,overline{X}_i)^2tag{10-24}Rastro(A)=i=1∑aXyo∈Ci∑d(Xyo,Xi)2(10-24) Por lo tanto, Trace(A) es el cluster C.C.C La suma de las distancias al cuadrado entre los centros del grupo.Y agrupamiento C.C.CEl grado de separación se define como
Traza ( B ) = ∑ i = 1 k ∣ C i ∣ d ( X ‾ i , X ‾ ) 2 (10-25) text{Traza}(B)=sum_{i=1}^k|C_i|d(overline{X}_i,overline{X})^2tag{10-25}Rastro(B)=i=1∑a∣Ci∣d(Xi,X)2(10-25) Es decir, Trace(B) se está agrupando C.C.CCada punto central del grupo de EspartanoSLa suma ponderada de distancias cuadradas desde el punto central de .
De esto, si N = ∑ i = 1 k ∣ C i ∣norte=a∑i=1|Ci|
norte=i=1∑a∣Ci∣ Entonces el indicador CH se puede definir como
V CH ( k ) = Traza ( B ) / ( k − 1 ) Traza ( A ) / ( N − k ) (10-26) V_{text{CH}}(k)=frac{text{Traza}(B)/(k-1)}{text{Traza}(A)/(Nk)}tag{10-26}Ves(a)=Rastro(A)/(norte−a)Rastro(B)/(a−1)(10-26) La fórmula (10-26) se utiliza generalmente en las dos situaciones siguientes:
(1) Evalúe qué agrupamiento obtenido por los dos algoritmos es mejor.
Supongamos que se utilizan dos algoritmos para analizar el conjunto de datos. EspartanoSSe realizó un análisis de conglomerados y se obtuvieron dos conglomerados diferentes (ambos conteniendo yoagrupos), la agrupación correspondiente al valor CH más grande es mejor, porque cuanto mayor es el valor CH significa que cada grupo en el grupo está más cerca de sí mismo y los grupos están más dispersos.
(2) Evaluar cuál de dos conglomerados con diferente número de conglomerados obtenidos mediante el mismo algoritmo es mejor.
Supongamos que un algoritmo tiene un conjunto de datos. EspartanoSSe realizó un análisis de conglomerados y el número de conglomerados se obtuvo como el 1 el 1a1y b2b_2b2 De los dos grupos, el resultado de agrupación con un valor CH mayor es mejor, lo que también significa que el número de grupos correspondientes a este grupo es más apropiado.Por lo tanto, aplicando repetidamente la fórmula (10-26), también podemos obtener un conjunto de datos EspartanoSEl número óptimo de clústeres para la agrupación.
2. Indicador Dunn
El indicador Dunn utiliza clusters C y C_iCicon racimo Cj C_jCyodistancia mínima entre ds(C_i,C_j) d_s(C_i,C_j)ds(Ci,Cyo) para calcular la separación entre conglomerados utilizando el diámetro de conglomerado más grande entre todos los conglomerados máx { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } máx{varPhi(C_1), varPhi(C_2),...,varPhi(C_k)}máximo{Φ(C1),Φ(C2),...,Φ(Ca)} Para caracterizar la estrechez dentro de un cluster, el índice de Dunn es el valor mínimo de la relación entre el primero y el segundo, es decir
VD ( k ) = mín i ≠ jds ( C i , C j ) máx { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } (10-27) V_D(k)=min_{i≠j}frac{d_s(C_i,C_j)}{max{varPhi(C_1), varPhi(C_2),...,varPhi (C_k)}}etiqueta{10-27}VD(a)=i=yomín.máximo{Φ(C1),Φ(C2),...,Φ(Ca)}ds(Ci,Cyo)(10-27) Cuanto mayor sea el valor de Dunn, mayor será la distancia entre los grupos y mejor será la agrupación correspondiente.Similar al índice de evaluación CH, el índice de Dunn se puede usar para evaluar la calidad de los conglomerados obtenidos por diferentes algoritmos, y también se puede usar para evaluar qué conglomerados obtenidos por el mismo algoritmo con diferentes números de conglomerados son mejores, es decir, puede usarse para buscar EspartanoSel número óptimo de conglomerados.
Los valores atípicos son datos especiales del conjunto de datos que se desvían significativamente de la mayoría de los datos. El objetivo de los algoritmos de minería de datos, como la clasificación y la agrupación presentados anteriormente, es descubrir patrones regulares que se apliquen a la mayoría de los datos. Por lo tanto, muchos algoritmos de minería de datos intentan reducir o eliminar el impacto de los valores atípicos y reducir los valores atípicos al implementar la minería. o ignorado como ruido, pero en muchas aplicaciones prácticas, la gente sospecha que la desviación de los puntos atípicos no es causada por factores aleatorios, sino que puede ser causada por otros mecanismos completamente diferentes, que deben desenterrarse para un análisis y utilización especiales. Por ejemplo, en campos de aplicación como la gestión de seguridad y el control de riesgos, el patrón de identificación de valores atípicos es más valioso que el patrón de datos normales.
La palabra Outlier suele traducirse como valor atípico, pero también como anomalía. Sin embargo, existen muchos alias en diferentes situaciones de aplicación, como puntos aislados, puntos anormales, puntos nuevos, puntos de desviación, puntos de excepción, ruido, datos anormales, etc. La minería de valores atípicos tiene términos similares, como minería de datos anómalos, detección de datos anómalos, minería de datos atípicos, minería de datos excepcionales y minería de eventos raros en la literatura china.
1. La generación de valores atípicos
(1) Los datos provienen de anomalías causadas por fraude, intrusión, brotes de enfermedades, resultados experimentales inusuales, etc. Por ejemplo, la factura telefónica promedio de una persona es de unos 200 yuanes, pero de repente aumenta a varios miles de yuanes en un mes determinado; la tarjeta de crédito de alguien suele consumir unos 5.000 yuanes al mes, pero en un mes determinado el consumo supera los 30.000 yuanes, etc. Estos valores atípicos suelen ser relativamente interesantes en la minería de datos y uno de los puntos clave de aplicación.
(2) Causado por cambios inherentes en las variables de datos, que reflejan las características naturales de la distribución de datos, como el cambio climático, nuevos patrones de compra de los clientes, mutaciones genéticas, etc. También una de las áreas de interés interesantes.
(3) Los errores de medición y recopilación de datos se deben principalmente a errores humanos, fallas del equipo de medición o presencia de ruido. Por ejemplo, la calificación de -100 de un estudiante en un determinado curso puede deberse al valor predeterminado establecido por el programa; el salario de los altos directivos de una empresa es significativamente más alto que el salario de los empleados comunes y corrientes, puede parecer un caso atípico, pero lo es. Datos razonables.
2. Problema minero atípico
Por lo general, el problema de la minería atípica se puede descomponer en tres subproblemas para describir.
(1) Definir valores atípicos
Dado que los valores atípicos están estrechamente relacionados con problemas prácticos, definir claramente qué tipo de datos son valores atípicos o datos anormales es la premisa y la tarea principal de la minería de valores atípicos. Generalmente, es necesario combinar la experiencia y el conocimiento de los expertos en el dominio para proporcionar un análisis preciso de los valores atípicos. . Dé una descripción o definición adecuada.
(2) Valores atípicos de minería
Una vez definidos claramente los puntos atípicos, la tarea clave de la extracción de valores atípicos es qué algoritmo utilizar para identificar o extraer eficazmente los puntos atípicos definidos. El algoritmo de minería de valores atípicos generalmente proporciona a los usuarios datos atípicos sospechosos desde la perspectiva de patrones que pueden reflejarse en los datos, para atraer la atención del usuario.
(3) Comprender los valores atípicos
La explicación razonable, la comprensión y la orientación de la aplicación práctica de los resultados de la minería son los objetivos de la minería atípica. Dado que el mecanismo por el cual se generan los valores atípicos es incierto, si los "valores atípicos" detectados por el algoritmo de minería de valores atípicos realmente corresponden al comportamiento anormal real no puede ser explicado ni explicado por el algoritmo de minería de valores atípicos, sino que solo puede explicarse por el algoritmo de minería de valores atípicos. Expertos de la industria o del dominio para comprender y explicar las instrucciones.
3. Relatividad de los valores atípicos
Los valores atípicos son datos especiales en el conjunto de datos que obviamente se desvían de la mayoría de los datos, pero "obviamente" y "en su mayoría" son relativos, es decir, aunque los valores atípicos son diferentes, son relativos. Por lo tanto, hay varias cuestiones a considerar al definir y extraer valores atípicos.
(1) Valores atípicos globales o locales
Un objeto de datos puede ser un valor atípico en relación con sus vecinos locales, pero no en relación con todo el conjunto de datos. Por ejemplo, un estudiante que mide 1,9 metros de altura es un caso atípico en la Clase 1 de la especialidad de matemáticas de nuestra escuela, pero no entre la gente de todo el país, incluidos jugadores profesionales como Yao Ming.
(2) Número de valores atípicos
Aunque se desconoce el número de puntos atípicos, el número de puntos normales debería exceder con creces el número de puntos atípicos. En general, se cree que el número de puntos atípicos debería representar una proporción menor. de puntos atípicos debería ser inferior al 5% o incluso inferior al 1%.
(3) Factor atípico de punto
No puede usar "sí" o "no" para informar si un objeto es un valor atípico. En su lugar, debe usar el grado de desviación del objeto, es decir, el factor de valor atípico (Factor de valor atípico) o la puntuación de valor atípico (Puntuación de valor atípico). para caracterizar la desviación de un dato del grado del grupo, y luego filtrar los objetos con factores atípicos superiores a un cierto umbral, proporcionarlos a los tomadores de decisiones o expertos en el dominio para su comprensión y explicación, y aplicarlos en el trabajo práctico.
1. Conceptos básicos
Definición 10-11 hay un numero entero positivo yoa, objeto XXXde yoa-La distancia del vecino más cercano es un número entero positivo que satisface las siguientes condiciones dk(X)d_k(X)da(X):
(1) excepto XXXAdemás, existen al menos yoaobjetos YYsatisfacer d(X,Y)≤dk(X)d(X,Y)≤da(X)。
(2) excepto XXXAdemás, hay como máximo k-1 k-1a−1 objetos YYsatisfacer d(X,Y) < dk(X) d(X,Y)d(X,Y)<da(X)。
en d(X,Y)d(X,Y) es un objeto XXXy YYalguna función de distancia entre ellos.
de un objeto yoa-Cuanto mayor sea la distancia del vecino más cercano, más probable será que el objeto esté lejos de la mayoría de los datos, por lo que el objeto puede ser XXXde yoa-distancia del vecino más cercano dk(X)d_k(X)da(X) como su factor atípico.
Definición 10-12 hacer D ( X , k ) = { Y ∣ d ( X , Y ) ≤ dk ( X ) ∧ Y ≠ X } D(X,k)={Y|d(X,Y)≤d_k(X)cuña Y≠X}D(X,a)={Y∣d(X,Y)≤da(X)∧Y=X}, entonces se llama D(X,k) D(X,k)D(X,a) Sí XXXde yoa-Vecino más cercano (Dominio).
Se puede ver en la definición 10-12 que D(X,k) D(X,k)D(X,a) Sí XXXcomo centro, distancia XXXNo excede dk(X)d_k(X)da(X) Objeto YY La colección compuesta por. Vale la pena prestar especial atención a, XXXno le pertenece yoa-vecino más cercano, es decir X ∉ D ( X , k ) Xno en D(X,k)X∈/D(X,a) . En particular, XXXde yoa-Vecino más cercano D(X,k) D(X,k)D(X,a) El número de objetos contenidos puede exceder con creces yoa,Ahora mismo ∣ D ( X , k ) ∣ ≥ k |D(X,k)|≥k∣D(X,a)∣≥a。
Definición 10-13 hay un numero entero positivo yoa, objeto XXXde yoa-El factor atípico del vecino más cercano se define como
DE 1 ( X , k ) = ∑ Y ∈ D ( X , k ) d ( X , Y ) ∣ D ( X , k ) ∣ (10-28) texto{DE}_1(X,k)=frac{mathop{suma}límites_{Yin D(X,k)}d(X,Y)}{|D(X,k)|}etiqueta{10-28}DE1(X,a)=∣D(X,a)∣Y∈D(X,a)∑d(X,Y)(10-28)
2. Descripción del algoritmo
Para un conjunto de datos dado y el número de distancias de vecinos más cercanos yoa, podemos usar la fórmula anterior para calcular el yoa-Factores atípicos del vecino más cercano y generarlos en orden de mayor a menor. Entre ellos, es más probable que varios objetos con factores atípicos más grandes sean valores atípicos, y deben ser analizados y juzgados por los tomadores de decisiones o los expertos de la industria. , Qué puntos son realmente atípicos.
Algoritmo 10-8 Algoritmo de detección de valores atípicos basado en la distancia
Entrada: conjunto de datos EspartanoS, el número de distancias de vecinos más cercanos yoa
Salida: Lista descendente de puntos atípicos sospechosos y factores atípicos correspondientes
(1) REPETIR
(2) tomar EspartanoSun objeto sin procesar en XXX
(3) OK XXXde yoa-Vecino más cercano D(X,k) D(X,k)D(X,a)
(4) Cálculo XXXde yoa-factor atípico del vecino más cercano DE 1 ( X , k ) texto{DE}_1(X,k)DE1(X,a)
(5) HASTA EspartanoSCada punto ha sido procesado.
(6) Sí DE 1 ( X , k ) texto{DE}_1(X,k)DE1(X,a)Ordenar en orden descendente y salida ( X , DE 1 ( X , k ) ) (X,texto{DE}_1(X,k))(X,DE1(X,a))
3. Ejemplos de cálculo
Ejemplo 10-12 Un conjunto de datos bidimensional con 11 puntos. EspartanoSEstá dado por la Tabla 10-10, sea k = 2 k=2a=2, utilice el cálculo de la distancia euclidiana al cuadrado X7, X10, X11 X_7, X_{10}, X_{11}X7,X10,X11 Factor atípico para todos los demás puntos.
desatar: Para comprender intuitivamente el principio del algoritmo, usaremos EspartanoSLos objetos de datos se muestran en el plano de la Figura (10-27) a continuación.
A continuación se calculan los factores atípicos del punto especificado y de otros puntos, respectivamente.
(1) Objeto de cálculo X7X_7X7factor atípico
Como se puede observar en la figura, la distancia X7=(6,8) X_7=(6,8)X7=(6,8) El punto más cercano es X10 = (5,7) X_{10}=(5,7)X10=(5,7),y d(X7,X10) = 1,41d(X7,X10)=1.41, otros puntos más cercanos pueden ser X11 = (5,2) X_{11}=(5,2)X11=(5,2), X9=(3,2)X9=(3,2), X8=(2,4)X8=(2,4);
Calculado d(X7,X11) = 6,08d(X7,X11)=6.08, d(X7,X9) = 6,71d(X7,X9)=6.71, d(X7,X8) = 5,66d(X7,X8)=5.66
porque k = 2 k=2a=2,entonces d2(X7)=5,66d2(X7)=5.66, entonces según la definición 10-11 tenemos D(X7,2)={X10,X8}D(X7,2)={X10,X8}
Según la fórmula (10-28), X7X_7X7factor atípico
DE 1 ( X 7 , 2 ) = ∑ Y ∈ N ( X 7 , 2 ) d ( X 7 , Y ) ∣ N ( X 7 , k ) ∣ = d ( X 7 , X 10 ) + d ( X 7 , X 8 ) 2 = 1,41 + 5,66 2 = 3,54DE1(X7,2)=∑Y∈norte(X7,2)d(X7,Y)|norte(X7,a)|=d(X7,X10)+d(X7,X8)2=1.41+5.662=3.54
DE1(X7,2)=∣norte(X7,a)∣Y∈norte(X7,2)∑d(X7,Y)=2d(X7,X10)+d(X7,X8)=21.41+5.66=3.54(2) Objeto de cálculo X10 X_{10}X10factor atípico DE 1 ( X 10 , 2 ) = 2,83 texto{DE}_1(X_{10},2)=2,83DE1(X10,2)=2.83
(3) Objeto de cálculo X11X_{11}X11factor atípico DE 1 ( X 11 , 2 ) = 2,5 texto{DE}_1(X_{11},2)=2,5DE1(X11,2)=2.5
(4) Objeto de cálculo X 5 X_{5}X5factor atípico DE 1 ( X 5 , 2 ) = 1 texto{DE}_1(X_{5},2)=1DE1(X5,2)=1
De manera similar, se pueden calcular los factores atípicos de los objetos restantes; consulte la siguiente tabla (10-11).
4. Umbral del factor atípico
de acuerdo a yoa -En la teoría del vecino más cercano, cuanto mayor es el factor atípico, más probable es que sea un valor atípico. Por lo tanto, se debe especificar un umbral para distinguir los valores atípicos de los puntos normales. El método más simple es especificar el número de puntos atípicos, pero este método es demasiado simple y, a veces, omite algunos puntos atípicos reales o atribuye demasiados puntos normales a posibles puntos atípicos, lo que dificulta que los expertos en el dominio o los tomadores de decisiones surjan dificultades. en la comprensión e interpretación de valores atípicos.
(1) El método de umbral de segmentación de factores atípicos primero organiza los factores atípicos en orden descendente y, al mismo tiempo, vuelve a numerar los objetos de datos en orden ascendente de acuerdo con los factores atípicos.
(2) Basado en el factor atípico DE 1 ( X , k ) texto{DE}_1(X,k)DE1(X,a) es la ordenada y el número de serie del factor atípico es la abscisa, es decir, (número de serie, DE 1 texto{DE}_1DE1valor) están marcados en el plano y conectados para formar una polilínea que no aumenta, y se encuentra que el punto donde la polilínea se cruza con una disminución pronunciada y una disminución suave corresponde al factor atípico como el umbral Objetos con un factor atípico menor. mayores o iguales a este umbral son objetos normales, los demás son posibles valores atípicos.
Ejemplo 10-13 Conjunto de datos para el ejemplo 10-12 EspartanoS , sus factores atípicos se resumen en orden descendente y número de serie en la Tabla 10-11. Intente encontrar el umbral de puntos atípicos basándose en el método de umbral de segmentación de factores atípicos.
desatar: Primero, utilice el (número de serie, DE 1 texto{DE}_1DE1 valor) como puntos en el plano, marcados en el plano y conectados por polilíneas. Como se muestra en la Figura 10-28 a continuación.
Luego, observando la Figura 10-28, podemos encontrar que la polilínea a la izquierda del cuarto punto (4, 1.27) cae muy abruptamente, mientras que la polilínea a la derecha cae muy suavemente. Por lo tanto, se selecciona el factor atípico 1.27 como el. límite.porque X7、X10 X_7、X_{10}X7、X10 y X11X_{11}X11 Los factores atípicos son 3,54, 2,83 y 2,5 respectivamente, y todos son mayores que 1,27. Por lo tanto, es más probable que estos tres puntos sean puntos atípicos, mientras que los puntos restantes son puntos ordinarios.
Mirando nuevamente la Figura 10-27, podemos encontrar que X7、X10 X_7、X_{10}X7、X10 y X11X_{11}X11 de hecho, muy lejos de la densa mayoría de objetos de la izquierda, así que trátelos como un conjunto de datos EspartanoSLos valores atípicos son razonables.
5. Evaluación de algoritmos
La mayor ventaja del método de detección de valores atípicos basado en la distancia es que es simple en principio y fácil de usar. Sus deficiencias se reflejan principalmente en los siguientes aspectos.
(1) Parámetros yoaLa selección carece de un método simple y eficaz para determinar el impacto de los resultados de las pruebas en los parámetros. yoaNo existe un resultado analítico universalmente aceptado sobre el grado de sensibilidad.
(2) La complejidad del tiempo es O ( ∣ S ∣ 2 ) O(|S|^2)Oh(∣S∣2), carece de escalabilidad para conjuntos de datos a gran escala.
(3) Debido al uso de un umbral de factor de valores atípicos globales, es difícil extraer valores atípicos en conjuntos de datos con regiones de diferentes densidades.
El método de distancia es un método de verificación de valores atípicos globales, pero no puede manejar conjuntos de datos en diferentes áreas de densidad, es decir, no puede detectar valores atípicos en áreas de densidad local. En aplicaciones prácticas, no todos los datos se distribuyen con una única densidad. Cuando el conjunto de datos contiene múltiples distribuciones de densidad o es una mezcla de diferentes subconjuntos de densidad, los métodos de detección de valores atípicos globales, como la distancia, generalmente no funcionan bien, porque el hecho de que un objeto sea un valor atípico depende no solo de su relación con los datos circundantes. está relacionado con la densidad del barrio.
1. El concepto de densidad relativa
Desde la perspectiva de la vecindad de densidad, los valores atípicos son objetos en áreas de baja densidad. Por lo tanto, es necesario introducir los conceptos de densidad de vecindad local y densidad relativa de objetos.
Definición 10-14 (1) un objeto XXXde yoa-La densidad local del vecino más cercano (densidad) se define como
dsty ( X , k ) = ∣ D ( X , k ) ∣ ∑ Y ∈ D ( X , k ) d ( X , Y ) (10-29) text{dsty}(X,k)=frac{|D(X,k)|}{mathop{suma}límites_{Yin D(X,k)}d(X,Y)}tag{10-29}Distrito(X,a)=Y∈D(X,a)∑d(X,Y)∣D(X,a)∣(10-29) (2) un objeto XXXde yoa-Densidad relativa local del vecino más cercano (densidad relativa)
rdsty ( X , k ) = ∑ Y ∈ D ( X , k ) dsty ( X , k ) / ∣ D ( X , k ) ∣ dsty ( X , k ) (10-30) text{rdsty}(X,k)=frac{mathop{suma}límites_{Yin D(X,k)}text{dsty}(X,k)/|D(X,k)|}{text{dsty}(X,k)}tag{10-30}rdsty(X,a)=Distrito(X,a)Y∈D(X,a)∑Distrito(X,a)/∣D(X,a)∣(10-30) en D(X,k) D(X,k)D(X,a) es el objeto XXXde yoa- vecino más cercano (dado en la Definición 10-12), ∣ D ( X , k ) ∣ |D(X,k)|∣D(X,a)∣ es el número de objetos de la colección.
2. Descripción del algoritmo
por rdsty ( X , k ) texto{rdsty}(X,k)rdsty(X,a) como un caso atípico DE 2 ( X , k ) texto{DE}_2(X,k)DE2(X,a), su cálculo se divide en dos pasos
(1) Según el número de vecinos yoa, calcula cada objeto XXXde yoa-Densidad local del vecino más cercano dsty ( X , k ) texto{dsty}(X,k)Distrito(X,a)
(2) Cálculo XXXla densidad media de los vecinos más cercanos y yoa-Densidad relativa local del vecino más cercano rdsty ( X , k ) texto{rdsty}(X,k)rdsty(X,a)
Un conjunto de datos consta de múltiples grupos naturales. La densidad relativa de objetos cerca del punto central dentro del grupo es cercana a 1, mientras que la densidad relativa de objetos en el borde del grupo o fuera del grupo es relativamente grande. Por lo tanto, cuanto mayor sea el valor de densidad relativa, más probable será que sea un valor atípico.
Algoritmo 10-9 Algoritmo de detección de valores atípicos basado en densidad relativa
Entrada: conjunto de datos EspartanoS, el número de vecinos más cercanos yoa
Salida: Lista descendente de puntos atípicos sospechosos y factores atípicos correspondientes
(1) REPETIR
(2) tomar EspartanoSun objeto sin procesar en XXX
(3) OK XXXde yoa-Vecino más cercano D(X,k) D(X,k)D(X,a)
(4) Utilización D(X,k) D(X,k)D(X,a)calcular XXXDensidad dsty ( X , k ) texto{dsty}(X,k)Distrito(X,a)
(5) HASTA EspartanoSCada punto ha sido procesado.
(6) REPETIR
(7) tomar EspartanoSprimer objeto en XXX
(8) Está bien XXXdensidad relativa de rdsty ( X , k ) texto{rdsty}(X,k)rdsty(X,a)y asignarlo a DE 2 ( X , k ) texto{DE}_2(X,k)DE2(X,a)
(9) HASTA EspartanoSTodos los objetos en han sido procesados.
(10) Derecha DE 2 ( X , k ) texto{DE}_2(X,k)DE2(X,a)Ordenar en orden descendente y salida ( X , DE 2 ( X , k ) ) (X,texto{DE}_2(X,k))(X,DE2(X,a))
Ejemplo 10-14 Para el conjunto de datos bidimensional dado en el ejemplo 10-12 EspartanoS (Consulte la Tabla 10-10 para obtener más detalles), por lo que k = 2 k=2a=2, intenta calcular la distancia euclidiana X7, X10, X11 X_7, X_{10}, X_{11}X7,X10,X11 Factor de valor atípico basado en la densidad relativa de objetos iguales.
desatar:porque k = 2 k=2a=2, por lo que necesitamos la densidad local de los 2 vecinos más cercanos de todos los objetos.
(1) Encuentre los 2 vecinos más cercanos de cada objeto de datos en la Tabla 10-11 D(X_i,2)D(Xi,2)。
Según el mismo método de cálculo del ejemplo 10-12, podemos obtener
D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } , D ( X 2 , 2 ) = { X 1 , X 6 } , D ( X 3 , 2 ) = { X 1 , X 4 } , D ( X 4 , 2 ) = { X 3 , X 5 } , D ( X 5 , 2 ) = { X 1 , X 4 , X 6 , X 9 } , D ( X 6 , 2 ) = { X 2 , X 5 , X 8 } , D ( X 7 , 2 ) = { X 10 , X 8 } , D ( X 8 , 2 ) = { X 2 , X 6 } , D ( X 9 , 2 ) = { X 5 , X 4 , X 6 } , D ( X 10 , 2 ) = { X 7 , X 8 } , D ( X 11 , 2 ) = { X 9 , X 5 }D(X1,2)={X2,X3,X5},D(X2,2)={X1,X6}, D(X3,2)={X1,X4},D(X4,2)={X3,X5}, D(X5,2)={X1,X4,X6,X9},D(X6,2)={X2,X5,X8},D(X7,2)={X10,X8}, D(X8,2)={X2,X6}, D(X9,2)={X5,X4,X6},D(X10,2)={X7,X8}, D(X11,2)={X9,X5}
D(X1,2)={X2,X3,X5},D(X2,2)={X1,X6}, D(X3,2)={X1,X4},D(X4,2)={X3,X5}, D(X5,2)={X1,X4,X6,X9},D(X6,2)={X2,X5,X8},D(X7,2)={X10,X8}, D(X8,2)={X2,X6}, D(X9,2)={X5,X4,X6},D(X10,2)={X7,X8}, D(X11,2)={X9,X5}
(2) Calcule la densidad local de cada objeto de datos. dsty ( X i , 2 ) texto{dsty}(X_i,2)Distrito(Xi,2):
① Calcular X1X_1X1Densidad
porque D(X1,2)={X2,X3,X5}D(X1,2)={X2,X3,X5}, entonces después del cálculo, tenemos d(X1,X2)=1d(X1,X2)=1, d(X1,X3)=1d(X1,X3)=1, d(X1,X5) = 1d(X1,X5)=1;
Según la fórmula (10-29), obtenemos:
dsty(X1,2) = ∣D(X1,2) ∣∑Y∈N(X1,2) d(X1,Y) = ∣N(X1,2) ∣d(X1,X2) + d(X1,X3) + d(X1,X5) = 3 1 + 1 + 1 = 1Distrito(X1,2)=|D(X1,2)|∑Y∈norte(X1,2)d(X1,Y)=|norte(X1,2)|d(X1,X2)+d(X1,X3)+d(X1,X5)=31+1+1=1
Distrito(X1,2)=Y∈norte(X1,2)∑d(X1,Y)∣D(X1,2)∣=d(X1,X2)+d(X1,X3)+d(X1,X5)∣norte(X1,2)∣=1+1+13=1
② Cálculo X2X_2X2Densidad
porque D(X2,2)={X1,X6}D(X2,2)={X1,X6}, por lo que el calculado d(X2,X1) = 1d(X2,X1)=1, d(X2,X6) = 1d(X2,X6)=1;
Según la fórmula (10-29), obtenemos:
dsty(X2,2) = ∣D(X2,2) ∣∑Y∈N(X2,2) d(X2,Y) = 2 1 + 1 = 1Distrito(X2,2)=|D(X2,2)|∑Y∈norte(X2,2)d(X2,Y)=21+1=1
Distrito(X2,2)=Y∈norte(X2,2)∑d(X2,Y)∣D(X2,2)∣=1+12=1
La densidad local de otros objetos de datos se puede calcular de manera similar; consulte la Tabla 10-12 a continuación.
(3) Calcular cada objeto X yo X_iXidensidad relativa de rdsty ( X i , 2 ) texto{rdsty}(X_i, 2)rdsty(Xi,2)y considerarlo como un factor atípico DE 2 texto{DE}_2DE2。
① Calcular X1X_1X1densidad relativa de
Usando el valor de densidad de cada objeto en la Tabla 10-12, según la fórmula de densidad relativa (10-30):
rdsty(X1,2) = ∑Y∈N(X1,2)dsty(Y,2) / ∣N(X1,2) ∣dsty(X1,2) = (1+1+1) / 3 1 = 1 = OF2(X1,2)rdsty(X1,2)=∑Y∈norte(X1,2)Distrito(Y,2)/|norte(X1,2)|Distrito(X1,2)=(1+1+1)/31=1=DE2(X1,2)
rdsty(X1,2)=Distrito(X1,2)Y∈norte(X1,2)∑Distrito(Y,2)/∣norte(X1,2)∣=1(1+1+1)/3=1=DE2(X1,2)
② Se puede obtener un cálculo similar X2, X3, …, X11 X_2, X_3, …, X_{11}X2、X3、…、X11 valor de densidad relativa.
Por ejemplo X 5 X_5X5La densidad relativa de:
rdsty(X5,2) = ∑Y∈N(X5,2)dsty(Y,2) / ∣N(X5,2) ∣dsty(X5,2) = (1+1+1+0,79) / 41 = 0,95 = OF2(X5,2)rdsty(X5,2)=∑Y∈norte(X5,2)Distrito(Y,2)/|norte(X5,2)|Distrito(X5,2)=(1+1+1+0.79)/41=0.95=DE2(X5,2)
rdsty(X5,2)=Distrito(X5,2)Y∈norte(X5,2)∑Distrito(Y,2)/∣norte(X5,2)∣=1(1+1+1+0.79)/4=0.95=DE2(X5,2) Los resultados se resumen en las Tablas 10-13 a continuación.
Ejemplo 10-15 Dado el conjunto de datos que se muestra en la Tabla 10-14, utilice la distancia euclidiana para k = 2, 3, 5 k = 2,3,5a=2,3,5, calcula el valor de cada punto yoa-densidad local del vecino más cercano, yoa-Densidad relativa local del vecino más cercano (factor atípico DE 2 texto{DE}_2DE2) y basado en yoa-Factor atípico para la distancia del vecino más cercano DE 1 texto{DE}_1DE1。
desatar: (1) Para facilitar la comprensión, se puede EspartanoSLas posiciones relativas de los puntos están marcadas en el plano bidimensional (Figura 10-30).
(2) Utilice algoritmos basados en distancia y densidad relativa 10-8 y 10-9 respectivamente.Calcula cada objeto por separado. yoa-Densidad local del vecino más cercano texto de dsty{dsty}Distrito、 yoa-Densidad relativa local del vecino más cercano (factor atípico DE 2 texto{DE}_2DE2) y basado en yoa-Factor atípico para la distancia del vecino más cercano DE 1 texto{DE}_1DE1, los resultados se resumen en la Tabla 10-15.
(3) Análisis simple
① Como se puede ver en la Figura 10-30, X15 X_{15}X15y X16 X_{16}X16Sí EspartanoSHay dos valores atípicos obvios, y los métodos basados en la distancia y la densidad relativa pueden detectarlos mejor;
② En este ejemplo, los dos algoritmos tienen yoaNo es tan sensible como se esperaba, tal vez sea un caso atípico. X15 X_{15}X15y X16 X_{16}X16La separación de otros objetos es muy obvia.
③Como se puede ver en la Tabla 10-15, no importa yoaToma 2, 3 o 5, X1X_1X1de la región texto de dsty{dsty}Distrito los valores son significativamente más bajos que X7X_7X7de la región texto de dsty{dsty}Distrito valor, que es consistente con la densidad de área que se muestra en la Figura 10-30.Pero el valor de densidad relativa de las dos regiones DE 2 texto{DE}_2DE2 Pero casi no hay una diferencia obvia. Esto está determinado por la naturaleza de la densidad relativa, es decir, para puntos de datos distribuidos uniformemente, la densidad relativa de los puntos centrales es 1, independientemente de la distancia entre los puntos.
1. Algoritmo de agrupación mejorado
(1) yoa-modificación ( yoa-modos) el algoritmo es para yoa -El algoritmo promedio sólo es adecuado para la limitación de atributos numéricos y se propone para lograr una agrupación rápida de datos discretos.porque yoa-El algoritmo modular utiliza un método simple de coincidencia 0-1 para calcular la distancia entre dos valores de atributos bajo el mismo atributo discreto, lo que debilita la diferencia entre los valores de atributos ordinales, es decir, no puede reflejar completamente la diferencia entre dos valores de atributos. Bajo el mismo atributo ordinal todavía hay margen de mejora y mejora.
(2) yoa-prototipo ( yoa-Prototipo) algoritmo combinado con yoa-Algoritmo de promediado con yoa -La ventaja del algoritmo modular es que puede agrupar conjuntos de datos con atributos tanto discretos como numéricos (llamados atributos mixtos).Se necesitan atributos discretos. yoa-Objeto de cálculo de algoritmo modular XXXy YYla distancia entre d1(X,Y) d_1(X,Y)d1(X,Y), para atributos numéricos, utilice yoa-Los métodos del algoritmo de promediado calculan la distancia entre objetos. d2(X,Y) d_2(X,Y)d2(X,Y), y finalmente use el método de ponderación, es decir α d 1 ( X , Y ) + ( 1 − α ) d 2 ( X , Y ) alfa d_1(X,Y)+(1-alfa)d_2(X,Y)αd1(X,Y)+(1−α)d2(X,Y) como un objeto de conjunto de datos XXXy YYla distancia entre d(X,Y)d(X,Y),en α ∈ [ 0 , 1 ] alfaína[0,1]α∈[0,1] es el coeficiente de peso, generalmente puede ser α = 0,5 alfa=0,5α=0.5。
(3) El algoritmo BIRCH (Reducción iterativa equilibrada y agrupación mediante jerarquías) es un método integral de agrupación jerárquica.Utiliza características de agrupación en clústeres (CF) y un árbol de características de agrupación en clústeres (árbol CF, similar al árbol B) para resumir los grupos de clústeres. C y C_iCi,en CF i = ( ni , LS i , SS i ) texto{CF}_i=(ni, texto{LS}_i,texto{SS}_i)CFi=(ni,LSi,Espartanoi) es un triplete, ni n_inorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteies el número de objetos en el grupo, LS y texto{LS}_iLSiSí ni n_inorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteisuma lineal de componentes del objeto, SS y texto{SS}_iEspartanoiSí ni n_inorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteiLa suma de los cuadrados de los componentes de un objeto.
(4) El algoritmo CURE (agrupación mediante representantes) es para yoa -Otra mejora al algoritmo de promediado. Muchos algoritmos de agrupación solo son buenos para agrupar grupos esféricos, mientras que algunos algoritmos de agrupación son más sensibles a puntos aislados. Para resolver los dos problemas anteriores, el algoritmo CURE ha cambiado yoa-El algoritmo de promedio utiliza la suma del centro del cluster yoa-El algoritmo de punto central utiliza un solo objeto específico para representar un grupo, un método tradicional, pero utiliza múltiples objetos representativos en el grupo para representar un grupo, de modo que pueda adaptarse a la agrupación de grupos no esféricos y reducir el impacto de ruido al agruparse.
(5) El algoritmo ROCK (RObust Clustering usando linK) es un algoritmo de agrupación propuesto para conjuntos de datos de atributos binarios o categóricos.
(6) El algoritmo OPTICS (Ordenar puntos para identificar la estructura de agrupación) se utiliza para reducir la densidad del algoritmo DBSCAN. ( ε , MinPts ) (varepsilon,texto{MinPts})(ε,MinPts) sensibilidad del parámetro. No genera explícitamente grupos de resultados, pero genera una clasificación de grupos aumentada para el análisis de grupos (por ejemplo, un gráfico de coordenadas con la distancia alcanzable como eje vertical y el orden de salida de los puntos de muestra como eje horizontal). Esta clasificación representa la estructura de agrupamiento basada en la densidad de cada punto de muestra.Podemos obtener de esta clasificación en función de cualquier parámetro de densidad. ( ε , MinPts ) (varepsilon,texto{MinPts})(ε,MinPts) Resultados de agrupamiento del algoritmo DBSCAN.
2. Otros métodos nuevos de agrupación
Utilice algunas teorías o técnicas nuevas para diseñar nuevos métodos de agrupación.
(1) Método de agrupación en clústeres basado en cuadrículas
El método basado en cuadrícula cuantifica el espacio del objeto en un número limitado de celdas para formar una estructura de cuadrícula, y la información de posición de los puntos divisorios en cada dimensión se almacena en la matriz. Las líneas divisorias atraviesan todo el espacio y todas las agrupaciones. Las operaciones se realizan en Realizadas en esta estructura de cuadrícula (es decir, espacio de cuantificación). La principal ventaja de este método es que su velocidad de procesamiento es muy rápida. Su velocidad de procesamiento es independiente de la cantidad de objetos de datos y solo está relacionada con la cantidad de celdas en cada dimensión del espacio de cuantificación. a expensas de agrupar los resultados. A expensas de la precisión. Dado que el algoritmo de agrupación en cuadrícula tiene el problema de la escala de cuantificación, generalmente comenzamos a buscar grupos a partir de unidades pequeñas primero, luego aumentamos gradualmente el tamaño de las unidades y repetimos este proceso hasta encontrar grupos satisfactorios.
(2) Método de agrupación basado en modelos
Los métodos basados en modelos suponen un modelo para cada grupo y encuentran el mejor ajuste de los datos al modelo dado. Los métodos basados en modelos intentan optimizar la adaptabilidad entre datos dados y ciertos modelos de datos estableciendo funciones de densidad que reflejan la distribución espacial de muestras para ubicar grupos.
(3) Método de agrupación basado en conjuntos difusos
En la práctica, no existe un valor de atribución estricto al que pertenece la mayoría de los objetos. Existe un valor intermedio o incierto en su forma y valor de atribución, lo que es adecuado para la partición suave. Debido a que el análisis de conglomerados difusos tiene la ventaja de describir la intermediación de la atribución de muestras y puede reflejar objetivamente el mundo real, se ha convertido en uno de los puntos calientes en la investigación actual del análisis de conglomerados.
El algoritmo de agrupamiento difuso es un método de aprendizaje no supervisado basado en una teoría matemática difusa y un método de agrupamiento incierto. Una vez que se propuso la agrupación difusa, recibió gran atención por parte de la comunidad académica. La agrupación difusa es una gran "familia" de agrupación, y la investigación sobre la agrupación difusa también es muy activa.
(4) Método de agrupación basado en un conjunto aproximado
La agrupación aproximada es un método de agrupación incierto basado en la teoría de conjuntos aproximados. Desde la perspectiva del acoplamiento entre conjuntos aproximados y algoritmos de agrupamiento, los métodos de agrupamiento aproximado se pueden dividir en dos categorías: agrupamiento aproximado de acoplamiento fuerte y agrupamiento aproximado de acoplamiento débil.
Por supuesto, las nuevas direcciones de investigación del análisis de conglomerados son mucho más que éstas. Por ejemplo, la minería de flujo de datos y los algoritmos de agrupamiento, los datos inciertos y sus algoritmos de agrupamiento, la computación cuántica y los algoritmos de agrupamiento genético cuántico son todas tecnologías de agrupamiento que han surgido en los últimos años. Temas de investigación de vanguardia.
3. Otros métodos de minería atípicos
Los métodos de minería atípica presentados anteriormente son solo dos representantes de la minería atípica. Hay muchos métodos de minería atípicas más maduros en aplicaciones prácticas. Se pueden determinar a partir del tipo de tecnología utilizada en el método de minería o del uso de conocimientos previos. ángulos: grado.
(1) Tipo de tecnología utilizada
Existen principalmente métodos estadísticos, métodos basados en distancia, métodos basados en densidad, métodos basados en agrupaciones, métodos basados en desviaciones, métodos basados en profundidad, métodos basados en transformadas wavelet, métodos basados en gráficos, métodos basados en patrones y redes neuronales. métodos, etc
(2) Utilización de conocimientos previos
Dependiendo de la disponibilidad de información de clase normal o atípica, existen tres enfoques comunes:
① Método de detección de valores atípicos no supervisado, es decir, no existe conocimiento previo, como etiquetas de categorías, en el conjunto de datos;
② Método de detección de valores atípicos supervisados, es decir, extraer las características de los valores atípicos mediante la existencia de un conjunto de entrenamiento que contiene valores atípicos y puntos normales;
③ Método de detección de valores atípicos semisupervisado. Los datos de entrenamiento contienen datos normales etiquetados, pero no hay información sobre los objetos de datos atípicos.