minhas informações de contato
Correspondência[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
A análise de cluster consiste em decompor um conjunto de dados em subconjuntos, cada subconjunto é chamado de cluster e o conjunto de todos os subconjuntos é chamado de cluster do conjunto de objetos. Um bom algoritmo de agrupamento deve produzir clusters e clusters de alta qualidade, ou seja, a similaridade geral dentro dos clusters é a mais alta, enquanto a similaridade geral entre os clusters é a mais baixa.Dado que muitos algoritmos de cluster incluem kko-Algoritmo de média, algoritmo DBSCAN, etc., todos exigem que o usuário especifique o número de clusters no cluster com antecedência kko, portanto, o método de estimativa simples de k será discutido abaixo.
Muitos algoritmos de clustering, como kko-Algoritmos de média, até mesmo algoritmos DIANA, etc., precisam especificar o número de clusters com antecedência kko,e kkoO valor de afetará muito a qualidade do agrupamento. No entanto, o número de clusters deve ser determinado antecipadamente. kko Não é uma tarefa fácil. Podemos primeiro considerar dois casos extremos.
(1) Coloque todo o conjunto de dados SSSconsiderado como um cluster, ou seja, k = 1 k=1o=1, isto parece simples e conveniente, mas os resultados desta análise de cluster não têm valor.
(2) Coloque o conjunto de dados SSSCada objeto de é tratado como um cluster, ou seja, seja k = ∣ S ∣ = nk=|S|=no=∣S∣=e , produzindo assim o agrupamento mais refinado. Portanto, não há diferença intra-cluster em cada cluster, e a similaridade intra-cluster atinge o nível mais alto.Mas este tipo de agrupamento não pode ser usado para SSSfornecer qualquer informação sobre SSSuma descrição geral.
Pode-se ver que o número de clusters kkodeveria pelo menos satisfazer 2 ≤ k ≤ n − 1 2≤k≤n-12≤o≤e−1, mas o número de clusters kkoExatamente qual valor é mais apropriado permanece ambíguo.
Geralmente considerado, kkoO valor de pode ser estimado pela forma e escala da distribuição do conjunto de dados, bem como pela resolução de agrupamento exigida pelo usuário, e os estudiosos têm muitos métodos de estimativa diferentes, como o método do cotovelo, o método de validação cruzada e a teoria da informação- métodos baseados etc.
Um simples e comumente usado kkoO método de estimativa empírica de valor acredita que para aqueles com nãoeUm conjunto de dados de objetos, o número de clusters em que ele está agrupado kkoEscolha n 2√e2
2e Isso é apropriado.Neste momento, sob a expectativa média, cada cluster tem aproximadamente 2 n quadrado {2n}2e objetos.Nesta base, algumas pessoas propuseram outras restrições adicionais, ou seja, o número de clusters k < nko<e。
Por exemplo, suponha n = 8 n=8e=8, então o número de clusters k = 2 k=2o=2 é apropriado, e em média há 4 pontos por cluster, e de acordo com a fórmula empírica adicional k < 2,83 k<2,83o<2.83 .Usando essas duas informações sobre o número de clusters kkoA fórmula empírica parece ser explicada de um lado, no Exemplo 10-5 k = 2 k=2o=2 é o número mais apropriado de clusters.
Se tivermos uma boa estimativa do número de clusters kko, você pode usar um ou mais métodos de cluster, por exemplo, kko -O algoritmo médio, algoritmo hierárquico aglomerativo ou algoritmo DBSCAN realiza análise de cluster em conjuntos de dados conhecidos e obtém uma variedade de resultados de cluster diferentes. A questão agora é qual método apresenta melhores resultados de agrupamento, ou em outras palavras, como comparar os resultados de agrupamento produzidos por diferentes métodos. Esta é a avaliação da qualidade do agrupamento.
Actualmente, existem muitos métodos à escolha para a avaliação da qualidade do agrupamento, mas geralmente podem ser divididos em duas categorias, nomeadamente avaliação da qualidade externa (extrínseca) e avaliação da qualidade interna (intrínseca).
A avaliação externa da qualidade pressupõe que já existe um cluster ideal no conjunto de dados (geralmente construído por especialistas) e compara-o como um método de referência comumente usado com os resultados de agrupamento de um determinado algoritmo. são dois métodos comuns para precisão de classe.
1. Método de entropia de cluster
conjunto de dados hipotético S = { X 1 , X 2 , … , X n } S={X_1,X_2,…,X_n}S={X1,X2,…,Xe},e T = { T 1 , T 2 , … , T m } T={T_1,T_2,…,T_m}E={E1,E2,…,Eeu} é o agrupamento padrão ideal fornecido por especialistas, e C = { C 1 , C 2 , … , C k } C={C_1,C_2,…,C_k}C={C1,C2,…,Co} é determinado por um algoritmo sobre SSSUm cluster de, então para o cluster C e C_iCeuEm relação ao cluster de linha de base TTEA entropia de agrupamento de é definida como
E ( C i ∣ T ) = − ∑ j = 1 m ∣ C i ∩ T j ∣ ∣ C i ∣ log 2 ∣ C i ∩ T j ∣ ∣ C i ∣ (10-20) E(C_i|T)=-soma_{j=1}^mfrac{|C_icap T_j|}{|C_i|}log_2frac{|C_icap T_j|}{|C_i|}tag{10-20}E(Ceu∣E)=−eu=1∑eu∣Ceu∣∣Ceu∩Eeu∣eisg2∣Ceu∣∣Ceu∩Eeu∣(10-20) e CCCSobre benchmarks TTEA entropia geral de clustering é definida como todos os clusters C e C_iCeuSobre benchmarks TTEA média ponderada da entropia de agrupamento, ou seja
E ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × E ( C i ∣ T ) (10-21) E(C)=frac{1}{matop{soma}limites_{i=1}^k|C_i|}soma_{i=1}^k|C_i|vezes E(C_i|T)tag{10-21}E(C)=eu=1∑o∣Ceu∣1eu=1∑o∣Ceu∣×E(Ceu∣E)(10-21) O método de entropia de agrupamento acredita que, E ( C ) E(C)E(C) Quanto menor o valor, maior CCCEm relação à linha de base TTEQuanto maior a qualidade do cluster.
É importante notar que o denominador do primeiro termo do lado direito da fórmula (10-21) ∑ i = 1 k ∣ C i ∣o∑eu=1|Ceu|
eu=1∑o∣Ceu∣ é a soma do número de elementos em cada cluster e não pode ser usado nãoe para substituir.Porque só quando CCCQuando é um cluster de particionamento, o denominador é nãoe, e o denominador de métodos gerais de agrupamento, como agrupamento DBSCAN, pode ser menor que nãoe。
2. Precisão de agrupamento
A ideia básica da avaliação da exatidão (precisão) do cluster é usar o maior número de categorias no cluster como o rótulo da categoria do cluster, ou seja, para o cluster C e C_iCeu,se existir O j T_jEeufazer ∣ C i ∩ T j ∣ = máx { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } |C_icap T_j|=máx{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}∣Ceu∩Eeu∣=máx.{∣Ceu∩E1∣,∣Ceu∩E2∣,⋯,∣Ceu∩Eeu∣}, considera-se que C e C_iCeuA categoria é O j T_jEeu .Portanto, o aglomerado C e C_iCeuSobre benchmarks TTEA precisão é definida como
J ( C i ∣ T ) = máx { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } ∣ C i ∣ (10-22) J(C_i|T)=frac{máx{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}}{|C_i|}tag{10-22}Eu(Ceu∣E)=∣Ceu∣máx.{∣Ceu∩E1∣,∣Ceu∩E2∣,⋯,∣Ceu∩Eeu∣}(10-22) e CCCSobre benchmarks TTEA precisão geral de é definida para todos os clusters C e C_iCeuSobre benchmarks TTEA média ponderada da precisão do agrupamento, ou seja
J ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × J ( C i ∣ T ) (10-23) J(C)=frac{1}{matop{soma}limites_{i=1}^k|C_i|}soma_{i=1}^k|C_i|vezes J(C_i|T)tag{10-23}Eu(C)=eu=1∑o∣Ceu∣1eu=1∑o∣Ceu∣×Eu(Ceu∣E)(10-23) O método de precisão de agrupamento acredita que, J ( C ) J(C)Eu(C) Quanto maior o valor, o agrupamento CCCEm relação à linha de base TTEQuanto maior a qualidade do cluster.
Além disso, geralmente 1 − J ( C ) 1-J(C)1−Eu(C) chamado CCCSobre benchmarks TTE taxa de erro geral.Portanto, a precisão do agrupamento J ( C ) J(C)Eu(C) Taxa de erro grande ou geral 1 − J ( C ) 1-J(C)1−Eu(C) Pequeno, mostra que o algoritmo de agrupamento pode agrupar melhor objetos de diferentes categorias em diferentes agrupamentos, ou seja, a precisão do agrupamento é alta.
Não existem benchmarks externos conhecidos para avaliação interna da qualidade, apenas conjuntos de dados são usados SSSe agrupamento CCCPara avaliar as características e magnitudes intrínsecas de um cluster CCC a qualidade de. Ou seja, o efeito de agrupamento é geralmente avaliado calculando a similaridade média dentro dos clusters, a similaridade média entre os clusters ou a similaridade geral.
A avaliação da qualidade interna está relacionada ao algoritmo de agrupamento. O índice de eficácia do agrupamento é usado principalmente para avaliar a qualidade do efeito de agrupamento ou para julgar o número ideal de agrupamentos. maior cluster. Portanto, a eficácia do cluster é geralmente medida por alguma forma de proporção entre a distância intra-cluster e a distância entre clusters. Indicadores comumente usados deste tipo incluem indicador CH, indicador Dunn, indicador I, indicador Xie-eni, etc.
1. Indicador CH
O índice CH é a abreviatura do índice Calinski-Harabasz. Ele primeiro calcula a soma dos quadrados da distância entre cada ponto do cluster e seu centro do cluster para medir a proximidade dentro da classe; entre cada ponto central do cluster e o ponto central do conjunto de dados para medir A separação do conjunto de dados e a relação entre separação e proximidade é o índice CH.
configurar X ‾ i sobrelinhado{X}_iXeurepresenta um aglomerado CCCponto central (média), X ‾ sobrelinhado{X}Xrepresenta um conjunto de dados SSSo ponto central de d ( X ‾ i , X ‾ ) d(sobrelinha{X}_i,sobrelinha{X})e(Xeu,X) para X ‾ i sobrelinhado{X}_iXeuchegar X ‾ sobrelinhado{X}XUma certa função de distância e então agrupamento CCCA compacidade de um cluster intermediário é definida como
Traço ( A ) = ∑ i = 1 k ∑ X j ∈ C id ( X j , X ‾ i ) 2 (10-24) texto{Traço}(A)=soma_{i=1}^ksoma_{X_jin C_i}d(X_j,sobrelinha{X}_i)^2tag{10-24}Vestígio(A)=eu=1∑oXeu∈Ceu∑e(Xeu,Xeu)2(10-24) Portanto, Trace(A) é o cluster CCC A soma das distâncias quadradas entre os centros do cluster.E agrupamento CCCO grau de separação é definido como
Traço ( B ) = ∑ i = 1 k ∣ C i ∣ d ( X ‾ i , X ‾ ) 2 (10-25) texto{Traço}(B)=soma_{i=1}^k|C_i|d(sobrelinha{X}_i,sobrelinha{X})^2tag{10-25}Vestígio(B)=eu=1∑o∣Ceu∣e(Xeu,X)2(10-25) Ou seja, Trace(B) está agrupando CCCCada ponto central do cluster de SSSA soma ponderada das distâncias quadradas do ponto central de .
A partir disso, se N = ∑ i = 1 k ∣ C i ∣Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão=o∑eu=1|Ceu|
Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão=eu=1∑o∣Ceu∣ Então o indicador CH pode ser definido como
V CH ( k ) = Traço ( B ) / ( k − 1 ) Traço ( A ) / ( N − k ) (10-26) V_{text{CH}}(k)=frac{text{Traço}(B)/(k-1)}{text{Traço}(A)/(Nk)}tag{10-26}VCH(o)=Vestígio(A)/(Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão−o)Vestígio(B)/(o−1)(10-26) A fórmula (10-26) é geralmente usada nas duas situações a seguir:
(1) Avalie qual agrupamento obtido pelos dois algoritmos é melhor.
Suponha que dois algoritmos sejam usados para analisar o conjunto de dados SSSA análise de cluster foi realizada e dois clusters diferentes (ambos contendo kkoclusters), o agrupamento correspondente ao maior valor de CH é melhor, porque quanto maior o valor de CH significa que cada cluster no cluster está mais próximo de si mesmo e os clusters estão mais dispersos.
(2) Avalie qual dos dois clusters com números diferentes de clusters obtidos pelo mesmo algoritmo é melhor.
Suponha que um algoritmo tenha um conjunto de dados SSSA análise de cluster foi realizada e o número de clusters foi obtido como k 1 k_1o1e b 2 b_2b2 Dos dois clusters, o resultado do cluster com um valor CH maior é melhor, o que também significa que o número de clusters correspondente a este cluster é mais apropriado.Portanto, aplicando repetidamente a fórmula (10-26), também podemos obter um conjunto de dados SSSO número ideal de clusters para clustering.
2. Indicador Dunn
Indicador Dunn usa clusters C e C_iCeucom cluster C j C_jCeudistância mínima entre ds ( C i , C j ) d_s(C_i,C_j)ee(Ceu,Ceu) para calcular a separação entre clusters usando o maior diâmetro de cluster entre todos os clusters máx. { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } máx. {varPhi(C_1), varPhi(C_2),...,varPhi(C_k)}máx.{Φ(C1),Φ(C2),...,Φ(Co)} Para caracterizar a rigidez dentro de um cluster, o índice de Dunn é o valor mínimo da razão entre o primeiro e o segundo, ou seja
VD ( k ) = min i ≠ jds ( C i , C j ) máx { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } (10-27) V_D(k)=min_{i≠j}frac{d_s(C_i,C_j)}{max{varPhi(C_1), varPhi(C_2),...,varPhi (C_k)}}etiqueta{10-27}VE(o)=eu=eumínimomáx.{Φ(C1),Φ(C2),...,Φ(Co)}ee(Ceu,Ceu)(10-27) Quanto maior for o valor de Dunn, maior será a distância entre os clusters e melhor será o agrupamento correspondente.Semelhante ao índice de avaliação CH, o índice de Dunn pode ser usado para avaliar a qualidade dos clusters obtidos por diferentes algoritmos, e também pode ser usado para avaliar quais clusters obtidos pelo mesmo algoritmo com diferentes números de clusters são melhores, ou seja, é pode ser usado para procurar SSSo número ideal de clusters.
Outliers são dados especiais no conjunto de dados que se desviam significativamente da maioria dos dados. O foco dos algoritmos de mineração de dados, como classificação e clustering introduzidos anteriormente, é descobrir padrões regulares que se aplicam à maioria dos dados. Portanto, muitos algoritmos de mineração de dados tentam reduzir ou eliminar o impacto de valores discrepantes e tratar valores discrepantes ao implementar a mineração. ou ignorado como ruído, mas em muitas aplicações práticas, as pessoas suspeitam que o desvio de pontos discrepantes não é causado por fatores aleatórios, mas pode ser causado por outros mecanismos completamente diferentes, que precisam ser escavados para análise e utilização especiais. Por exemplo, em campos de aplicação como gerenciamento de segurança e controle de risco, o padrão de identificação de valores discrepantes é mais valioso do que o padrão de dados normais.
A palavra Outlier é geralmente traduzida como outlier, mas também como anomalia. No entanto, existem muitos aliases em diferentes situações de aplicação, como pontos isolados, pontos anormais, pontos novos, pontos de desvio, pontos de exceção, ruído, dados anormais, etc. A mineração atípica tem termos semelhantes, como mineração de dados de anomalias, detecção de dados de anomalias, mineração de dados atípicos, mineração de dados de exceção e mineração de eventos raros na literatura chinesa.
1. A geração de outliers
(1) Os dados provêm de anomalias causadas por fraude, intrusão, surtos de doenças, resultados experimentais incomuns, etc. Por exemplo, a conta telefônica média de alguém é de cerca de 200 yuans, mas aumenta repentinamente para vários milhares de yuans em um determinado mês; o cartão de crédito de alguém geralmente consome cerca de 5.000 yuans por mês, mas em um determinado mês o consumo excede 30.000 yuans, etc. Esses valores discrepantes são geralmente relativamente interessantes na mineração de dados e são um dos principais pontos de aplicação.
(2) Causada por alterações inerentes às variáveis dos dados, refletindo as características naturais da distribuição dos dados, tais como alterações climáticas, novos padrões de compra dos clientes, mutações genéticas, etc. Também uma das áreas de foco interessantes.
(3) Os erros de medição e recolha de dados devem-se principalmente a erro humano, falha do equipamento de medição ou presença de ruído. Por exemplo, a nota -100 de um aluno em um determinado curso pode ser devido ao valor padrão definido pelo programa; Dados razoáveis.
2. Problema de mineração atípico
Normalmente, o problema de mineração atípica pode ser decomposto em três subproblemas para descrever.
(1) Definir valores discrepantes
Como os valores discrepantes estão intimamente relacionados a problemas práticos, definir claramente que tipo de dados são discrepantes ou anormais é a premissa e a principal tarefa da mineração de valores discrepantes. Geralmente, é necessário combinar a experiência e o conhecimento de especialistas no domínio para fornecer orientação sobre. outliers. Forneça uma descrição ou definição apropriada.
(2) Valores discrepantes de mineração
Depois que os pontos discrepantes são claramente definidos, qual algoritmo usar para identificar ou extrair efetivamente os pontos discrepantes definidos é a tarefa principal da mineração de discrepâncias. O algoritmo de mineração de outliers geralmente fornece aos usuários dados de outliers suspeitos da perspectiva de padrões que podem ser refletidos nos dados, de modo a atrair a atenção do usuário.
(3) Entenda os valores discrepantes
Explicação razoável, compreensão e orientação da aplicação prática dos resultados da mineração são os objetivos da mineração atípica. Como o mecanismo pelo qual os outliers são gerados é incerto, se os "outliers" detectados pelo algoritmo de mineração de outliers realmente correspondem ao comportamento anormal real não pode ser explicado e explicado pelo algoritmo de mineração de outliers, mas só pode ser explicado pelo algoritmo de mineração de outliers . Especialistas do setor ou do domínio para compreender e explicar as instruções.
3. Relatividade dos valores discrepantes
Outliers são dados especiais no conjunto de dados que obviamente se desviam da maioria dos dados, mas "obviamente" e "principalmente" são relativos, ou seja, embora os outliers sejam diferentes, eles são relativos. Portanto, há diversas questões a serem consideradas ao definir e explorar valores discrepantes.
(1) Valores discrepantes globais ou locais
Um objeto de dados pode ser um valor atípico em relação aos seus vizinhos locais, mas não em relação a todo o conjunto de dados. Por exemplo, um aluno com 1,9 metros de altura é uma exceção na classe 1 do curso de matemática da nossa escola, mas não é uma exceção entre as pessoas em todo o país, incluindo jogadores profissionais como Yao Ming.
(2) Número de valores discrepantes
Embora o número de pontos discrepantes seja desconhecido, o número de pontos normais deve exceder em muito o número de pontos discrepantes. Ou seja, o número de pontos discrepantes deve representar uma proporção menor no grande conjunto de dados. de pontos discrepantes Deve ser inferior a 5% ou até inferior a 1%.
(3) Fator outlier do ponto
Você não pode usar "sim" ou "não" para informar se um objeto é um outlier. Em vez disso, você deve usar o grau de desvio do objeto, ou seja, o fator outlier (Outlier Factor) ou a pontuação outlier (Outlier Score). caracterizar o desvio de um dado do grau do grupo e, em seguida, filtrar os objetos com fatores discrepantes superiores a um determinado limite, fornecê-los aos tomadores de decisão ou especialistas do domínio para compreensão e explicação e aplicá-los no trabalho prático.
1. Conceitos básicos
Definição 10-11 Existe um número inteiro positivo kko, objeto XXXde kko-A distância do vizinho mais próximo é um número inteiro positivo que satisfaz as seguintes condições dk ( X ) d_k(X)eo(X):
(1) exceto XXXAlém disso, há pelo menos kkoobjetos AAEsatisfazer d ( X , Y ) ≤ dk ( X ) d(X,Y)≤d_k(X)e(X,E)≤eo(X)。
(2) exceto XXXAlém disso, há no máximo k − 1 k-1o−1 objetos AAEsatisfazer d ( X , Y ) < dk ( X ) d(X,Y)e(X,E)<eo(X)。
em d ( X , Y ) d(X,Y)e(X,E) é um objeto XXXe AAEalguma função de distância entre eles.
de um objeto kko-Quanto maior a distância do vizinho mais próximo, maior a probabilidade de o objeto estar longe da maioria dos dados, então o objeto pode ser XXXde kko-distância do vizinho mais próximo dk ( X ) d_k(X)eo(X) como seu fator outlier.
Definição 10-12 fazer D ( X , k ) = { Y ∣ d ( X , Y ) ≤ dk ( X ) ∧ Y ≠ X } D(X,k)={Y|d(X,Y)≤d_k(X)cunha Y≠X}E(X,o)={E∣e(X,E)≤eo(X)∧E=X}, então é chamado D ( X , k ) D(X,k)E(X,o) sim XXXde kko-Vizinho mais próximo (domínio).
Pode ser visto na definição 10-12 que D ( X , k ) D(X,k)E(X,o) Sim XXXcomo centro, distância XXXNão excede dk ( X ) d_k(X)eo(X) Objeto AAE A coleção composta por. Vale a pena prestar atenção especial, XXXnão pertence a isso kko-vizinho mais próximo, ou seja, X ∉ D ( X , k ) X não em D(X,k)X∈/E(X,o) . Em particular, XXXde kko-vizinho mais próximo D ( X , k ) D(X,k)E(X,o) O número de objetos contidos pode exceder em muito kko,Agora mesmo ∣ D ( X , k ) ∣ ≥ k |D(X,k)|≥k∣E(X,o)∣≥o。
Definição 10-13 Existe um número inteiro positivo kko, objeto XXXde kko-O fator outlier do vizinho mais próximo é definido como
DE 1 ( X , k ) = ∑ Y ∈ D ( X , k ) d ( X , Y ) ∣ D ( X , k ) ∣ (10-28) texto{DE}_1(X,k)=frac{soma{mathop}limites_{Yin D(X,k)}d(X,Y)}{|D(X,k)|}etiqueta{10-28}DE1(X,o)=∣E(X,o)∣E∈E(X,o)∑e(X,E)(10-28)
2. Descrição do algoritmo
Para um determinado conjunto de dados e o número de distâncias dos vizinhos mais próximos kko, podemos usar a fórmula acima para calcular o kko-Fatores discrepantes vizinhos mais próximos e produzi-los em ordem de grande para pequeno. Entre eles, vários objetos com fatores discrepantes maiores têm maior probabilidade de serem discrepantes. Geralmente, eles precisam ser analisados e julgados por tomadores de decisão ou especialistas do setor. , Quais pontos são realmente discrepantes.
Algoritmo 10-8 Algoritmo de detecção de valores discrepantes baseado em distância
Entrada: conjunto de dados SSS, o número de distâncias vizinhas mais próximas kko
Saída: Lista decrescente de pontos suspeitos de valores discrepantes e fatores discrepantes correspondentes
(1) REPETIR
(2) Pegue SSSum objeto não processado em XXX
(3) OK XXXde kko-vizinho mais próximo D ( X , k ) D(X,k)E(X,o)
(4) Cálculo XXXde kko-fator discrepante do vizinho mais próximo DE 1 ( X , k ) texto{DE}_1(X,k)DE1(X,o)
(5)ATÉ SSSCada ponto foi processado
(6) Sim DE 1 ( X , k ) texto{DE}_1(X,k)DE1(X,o)Classifique em ordem decrescente e saída ( X , DE 1 ( X , k ) ) (X,texto{DE}_1(X,k))(X,DE1(X,o))
3. Exemplos de cálculo
Exemplo 10-12 Um conjunto de dados bidimensional com 11 pontos SSSÉ dado pela Tabela 10-10, seja k = 2 k=2o=2, use o cálculo da distância euclidiana ao quadrado X 7 , X 10 , X 11 X_7, X_{10},X_{11}X7,X10,X11 Fator outlier para todos os outros pontos.
desatar: Para compreender intuitivamente o princípio do algoritmo, iremos SSSOs objetos de dados são exibidos no plano da Figura (10-27) abaixo.
Os fatores discrepantes do ponto especificado e de outros pontos são calculados separadamente abaixo.
(1) Objeto de cálculo X 7 X_7X7fator atípico
Como pode ser visto na figura, a distância X 7 = ( 6 , 8 ) X_7=(6,8)X7=(6,8) O ponto mais próximo é X 10 = ( 5 , 7 ) X_{10}=(5,7)X10=(5,7),e d ( X 7 , X 10 ) = 1,41 d(X_7,X_{10}) =1,41e(X7,X10)=1.41, outros pontos mais próximos podem ser X 11 = ( 5 , 2 ) X_{11}=(5,2)X11=(5,2), X 9 = ( 3 , 2 ) X_9=(3,2)X9=(3,2), X 8 = ( 2 , 4 ) X_8=(2,4)X8=(2,4);
Calculado d ( X 7 , X 11 ) = 6,08 d(X_7,X_{11})=6,08e(X7,X11)=6.08, d ( X 7 , X 9 ) = 6,71 d(X_7,X_9)=6,71e(X7,X9)=6.71, d ( X 7 , X 8 ) = 5,66 d(X_7,X_8)=5,66e(X7,X8)=5.66
porque k = 2 k=2o=2,então d 2 ( X 7 ) = 5,66 d_2(X_7)=5,66e2(X7)=5.66, então de acordo com a definição 10-11 temos D ( X 7 , 2 ) = { X 10 , X 8 } D(X_7,2)={X_{10},X_8}E(X7,2)={X10,X8}
De acordo com a fórmula (10-28), X 7 X_7X7fator atípico
DE 1 ( X 7 , 2 ) = ∑ Y ∈ N ( X 7 , 2 ) d ( X 7 , Y ) ∣ N ( X 7 , k ) ∣ = d ( X 7 , X 10 ) + d ( X 7 , X 8 ) 2 = 1,41 + 5,66 2 = 3,54DE1(X7,2)=∑E∈Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X7,2)e(X7,E)|Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X7,o)|=e(X7,X10)+e(X7,X8)2=1.41+5.662=3.54
DE1(X7,2)=∣Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X7,o)∣E∈Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X7,2)∑e(X7,E)=2e(X7,X10)+e(X7,X8)=21.41+5.66=3.54(2) Objeto de cálculo X 10 X_{10}X10fator atípico DE 1 ( X 10 , 2 ) = 2,83 texto{DE}_1(X_{10},2)=2,83DE1(X10,2)=2.83
(3) Objeto de cálculo X 11 X_{11}X11fator atípico DE 1 ( X 11 , 2 ) = 2,5 texto{DE}_1(X_{11},2)=2,5DE1(X11,2)=2.5
(4) Objeto de cálculo X 5 X_{5}X5fator atípico DE 1 ( X 5 , 2 ) = 1 texto{DE}_1(X_{5},2)=1DE1(X5,2)=1
Da mesma forma, os fatores discrepantes dos objetos restantes podem ser calculados, consulte a tabela a seguir (10-11).
4. Limite do fator atípico
de acordo com kko -A teoria do vizinho mais próximo, quanto maior o fator outlier, maior a probabilidade de ser um outlier. Portanto, um limite deve ser especificado para distinguir os valores discrepantes dos pontos normais. O método mais simples é especificar o número de pontos discrepantes, mas esse método é muito simples e às vezes perde alguns pontos discrepantes reais ou atribui muitos pontos normais a possíveis pontos discrepantes, o que torna difícil para especialistas no domínio ou tomadores de decisão. na compreensão e interpretação de outliers.
(1) O método de limite de segmentação de fatores discrepantes primeiro organiza os fatores discrepantes em ordem decrescente e, ao mesmo tempo, renumera os objetos de dados em ordem crescente de acordo com os fatores discrepantes.
(2) Com base no fator outlier DE 1 ( X , k ) texto{DE}_1(X,k)DE1(X,o) é a ordenada, e o número de série do fator discrepante é a abcissa, ou seja, (número de série, DE 1 texto{DE}_1DE1valor) são marcados no plano e conectados para formar uma polilinha não crescente, e o ponto onde a polilinha cruza com um declínio acentuado e um declínio suave corresponde ao fator discrepante como o limite Objetos com um fator discrepante menor. iguais ou iguais a este limite são objetos normais, os outros são possíveis valores discrepantes.
Exemplo 10-13 Conjunto de dados para o Exemplo 10-12 SSS , seus fatores discrepantes estão resumidos em ordem decrescente e número de série na Tabela 10-11. Tente encontrar o limite de pontos discrepantes com base no método de limite de segmentação de fator discrepante.
desatar: Primeiro, use o (número de série, DE 1 texto{DE}_1DE1 valor) como pontos no plano, marcados no plano e conectados por polilinhas. Conforme mostrado na Figura 10-28 abaixo.
Então, olhando para a Figura 10-28, podemos descobrir que a polilinha à esquerda do quarto ponto (4, 1,27) cai muito acentuadamente, enquanto a polilinha à direita cai muito suavemente. Portanto, o fator outlier 1,27 é selecionado como o fator discrepante 1,27. limite.porque X 7, X 10 X_7, X_{10}X7、X10 e X 11 X_{11}X11 Os fatores discrepantes são 3,54, 2,83 e 2,5, respectivamente, todos maiores que 1,27. Portanto, é mais provável que esses três pontos sejam pontos discrepantes, enquanto os pontos restantes são pontos comuns.
Olhando novamente para a Figura 10-27, podemos descobrir que X 7, X 10 X_7, X_{10}X7、X10 e X 11 X_{11}X11 na verdade, longe da densa maioria dos objetos à esquerda, então trate-os como um conjunto de dados SSSOs valores discrepantes são razoáveis.
5. Avaliação do algoritmo
A maior vantagem do método de detecção de valores discrepantes baseado em distância é que ele é, em princípio, simples e fácil de usar. Suas deficiências refletem-se principalmente nos seguintes aspectos.
(1) Parâmetros kkoA seleção carece de um método simples e eficaz para determinar o impacto dos resultados dos testes nos parâmetros kkoNão existe um resultado analítico universalmente aceito sobre o grau de sensibilidade.
(2) A complexidade do tempo é O ( ∣ S ∣ 2 ) O(|S|^2)O(∣S∣2), carece de escalabilidade para conjuntos de dados em grande escala.
(3) Devido ao uso de um limite de fator atípico global, é difícil extrair valores atípicos em conjuntos de dados com regiões de densidades diferentes.
O método de distância é um método global de verificação de outliers, mas não consegue lidar com conjuntos de dados em diferentes áreas de densidade, ou seja, não consegue detectar outliers em áreas de densidade local. Em aplicações práticas, os dados não são todos distribuídos com uma única densidade. Quando o conjunto de dados contém múltiplas distribuições de densidade ou é uma mistura de diferentes subconjuntos de densidade, os métodos globais de detecção de valores discrepantes, como a distância, geralmente não funcionam bem, porque o fato de um objeto ser um valor discrepante não depende apenas de sua relação com os dados circundantes. está relacionado à densidade da vizinhança.
1. O conceito de densidade relativa
Do ponto de vista da vizinhança de densidade, os outliers são objetos em áreas de baixa densidade. Portanto, é necessário introduzir os conceitos de densidade de vizinhança local e densidade relativa de objetos.
Definição 10-14 (1) um objeto XXXde kko-A densidade local do vizinho mais próximo (densidade) é definida como
dsty ( X , k ) = ∣ D ( X , k ) ∣ ∑ Y ∈ D ( X , k ) d ( X , Y ) (10-29) texto{dsty}(X,k)=frac{|D(X,k)|}{mathop{soma}limites_{Yin D(X,k)}d(X,Y)}tag{10-29}dsty(X,o)=E∈E(X,o)∑e(X,E)∣E(X,o)∣(10-29) (2) um objeto XXXde kko- Densidade relativa local do vizinho mais próximo (densidade relativa)
rdsty ( X , k ) = ∑ Y ∈ D ( X , k ) dsty ( X , k ) / ∣ D ( X , k ) ∣ dsty ( X , k ) (10-30) texto{rdsty}(X,k)=frac{soma{mathop}limites_{Yin D(X,k)}texto{dsty}(X,k)/|D(X,k)|}{texto{dsty}(X,k)}tag{10-30}rdsty(X,o)=dsty(X,o)E∈E(X,o)∑dsty(X,o)/∣E(X,o)∣(10-30) em D ( X , k ) D(X,k)E(X,o) É o objeto XXXde kko- vizinho mais próximo (dado na definição 10-12), ∣ D ( X , k ) ∣ |D(X,k)|∣E(X,o)∣ é o número de objetos na coleção.
2. Descrição do algoritmo
por rdsty ( X , k ) texto{rdsty}(X,k)rdsty(X,o) como um estranho DE 2 ( X , k ) texto{DE}_2(X,k)DE2(X,o), seu cálculo é dividido em duas etapas
(1) De acordo com o número de vizinhos kko, calcule cada objeto XXXde kko- Densidade local do vizinho mais próximo dsty ( X , k ) texto{dsty}(X,k)dsty(X,o)
(2) Cálculo XXXa densidade média dos vizinhos mais próximos e kko- Densidade relativa local do vizinho mais próximo rdsty ( X , k ) texto{rdsty}(X,k)rdsty(X,o)
Um conjunto de dados consiste em vários clusters naturais. A densidade relativa de objetos próximos ao ponto central dentro do cluster é próxima de 1, enquanto a densidade relativa de objetos na borda do cluster ou fora do cluster é relativamente grande. Portanto, quanto maior o valor da densidade relativa, maior a probabilidade de ser um valor discrepante.
Algoritmo 10-9 Algoritmo de detecção de outliers baseado na densidade relativa
Entrada: conjunto de dados SSS, o número de vizinhos mais próximos kko
Saída: Lista decrescente de pontos suspeitos de valores discrepantes e fatores discrepantes correspondentes
(1) REPETIR
(2) Pegue SSSum objeto não processado em XXX
(3) OK XXXde kko-vizinho mais próximo D ( X , k ) D(X,k)E(X,o)
(4) Utilização D ( X , k ) D(X,k)E(X,o)calcular XXXDensidade dsty ( X , k ) texto{dsty}(X,k)dsty(X,o)
(5)ATÉ SSSCada ponto foi processado
(6)REPETIR
(7) Pegue SSSprimeiro objeto em XXX
(8) OK XXXdensidade relativa de rdsty ( X , k ) texto{rdsty}(X,k)rdsty(X,o)e atribuí-lo a DE 2 ( X , k ) texto{DE}_2(X,k)DE2(X,o)
(9)ATÉ SSSTodos os objetos foram processados
(10) Certo DE 2 ( X , k ) texto{DE}_2(X,k)DE2(X,o)Classifique em ordem decrescente e saída ( X , DE 2 ( X , k ) ) (X,texto{DE}_2(X,k))(X,DE2(X,o))
Exemplo 10-14 Para o conjunto de dados bidimensionais fornecido no Exemplo 10-12 SSS (Veja a Tabela 10-10 para detalhes), então k = 2 k=2o=2, tente o cálculo da distância euclidiana X 7 , X 10 , X 11 X_7, X_{10},X_{11}X7,X10,X11 Fator discrepante baseado na densidade relativa de objetos iguais.
desatar:porque k = 2 k=2o=2, portanto, precisamos da densidade local dos 2 vizinhos mais próximos de todos os objetos.
(1) Encontre o vizinho mais próximo de cada objeto de dados na Tabela 10-11 D ( X i , 2 ) D(X_i,2)E(Xeu,2)。
De acordo com o mesmo método de cálculo do Exemplo 10-12, podemos obter
D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } , D ( X 2 , 2 ) = { X 1 , X 6 } , D ( X 3 , 2 ) = { X 1 , X 4 } , D ( X 4 , 2 ) = { X 3 , X 5 } , D ( X 5 , 2 ) = { X 1 , X 4 , X 6 , X 9 } , D ( X 6 , 2 ) = { X 2 , X 5 , X 8 } , D ( X 7 , 2 ) = { X 10 , X 8 } , D ( X 8 , 2 ) = { X 2 , X 6 } , D ( X 9 , 2 ) = { X 5 , X 4 , X 6 } , D ( X 10 , 2 ) = { X 7 , X 8 } , D ( X 11 , 2 ) = { X 9 , X 5 }E(X1,2)={X2,X3,X5},E(X2,2)={X1,X6}, E(X3,2)={X1,X4},E(X4,2)={X3,X5}, E(X5,2)={X1,X4,X6,X9},E(X6,2)={X2,X5,X8},E(X7,2)={X10,X8}, E(X8,2)={X2,X6}, E(X9,2)={X5,X4,X6},E(X10,2)={X7,X8}, E(X11,2)={X9,X5}
E(X1,2)={X2,X3,X5},E(X2,2)={X1,X6}, E(X3,2)={X1,X4},E(X4,2)={X3,X5}, E(X5,2)={X1,X4,X6,X9},E(X6,2)={X2,X5,X8},E(X7,2)={X10,X8}, E(X8,2)={X2,X6}, E(X9,2)={X5,X4,X6},E(X10,2)={X7,X8}, E(X11,2)={X9,X5}
(2) Calcule a densidade local de cada objeto de dados dsty ( X i , 2 ) texto{dsty}(X_i,2)dsty(Xeu,2):
① Calcular X 1 X_1X1Densidade
porque D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } D(X_1,2)={X_2,X_3,X_5}E(X1,2)={X2,X3,X5}, então após o cálculo, temos d ( X 1 , X 2 ) = 1 d(X_1,X_2)=1e(X1,X2)=1, d ( X 1 , X 3 ) = 1 d(X_1,X_3)=1e(X1,X3)=1, d ( X 1 , X 5 ) = 1 d(X_1,X_5)=1e(X1,X5)=1;
De acordo com a fórmula (10-29), obtemos:
dsty ( X 1 , 2 ) = ∣ D ( X 1 , 2 ) ∣ ∑ Y ∈ N ( X 1 , 2 ) d ( X 1 , Y ) = ∣ N ( X 1 , 2 ) ∣ d ( X 1 , X 2 ) + d ( X 1 , X 3 ) + d ( X 1 , X 5 ) = 3 1 + 1 + 1 = 1dsty(X1,2)=|E(X1,2)|∑E∈Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X1,2)e(X1,E)=|Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X1,2)|e(X1,X2)+e(X1,X3)+e(X1,X5)=31+1+1=1
dsty(X1,2)=E∈Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X1,2)∑e(X1,E)∣E(X1,2)∣=e(X1,X2)+e(X1,X3)+e(X1,X5)∣Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X1,2)∣=1+1+13=1
② Cálculo X 2 X_2X2Densidade
porque D ( X 2 , 2 ) = { X 1 , X 6 } D(X_2,2)={X_1,X_6}E(X2,2)={X1,X6}, então o calculado d ( X 2 , X 1 ) = 1 d(X_2,X_1) =1e(X2,X1)=1, d ( X 2 , X 6 ) = 1 d(X_2,X_6) =1e(X2,X6)=1;
De acordo com a fórmula (10-29), obtemos:
dsty ( X 2 , 2 ) = ∣ D ( X 2 , 2 ) ∣ ∑ Y ∈ N ( X 2 , 2 ) d ( X 2 , Y ) = 2 1 + 1 = 1dsty(X2,2)=|E(X2,2)|∑E∈Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X2,2)e(X2,E)=21+1=1
dsty(X2,2)=E∈Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X2,2)∑e(X2,E)∣E(X2,2)∣=1+12=1
A densidade local de outros objetos de dados pode ser calculada de forma semelhante, consulte a Tabela 10-12 abaixo.
(3) Calcule cada objeto X eu X_iXeudensidade relativa de rdsty ( X i , 2 ) texto{rdsty}(X_i, 2)rdsty(Xeu,2), e considerá-lo como um fator atípico DE 2 texto{DE}_2DE2。
① Calcular X 1 X_1X1densidade relativa de
Usando o valor da densidade de cada objeto na Tabela 10-12, de acordo com a fórmula da densidade relativa (10-30):
rdsty ( X 1 , 2 ) = ∑ Y ∈ N ( X 1 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 1 , 2 ) ∣ dsty ( X 1 , 2 ) = ( 1 + 1 + 1 ) / 3 1 = 1 = DE 2 ( X 1 , 2 )rdsty(X1,2)=∑E∈Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X1,2)dsty(E,2)/|Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X1,2)|dsty(X1,2)=(1+1+1)/31=1=DE2(X1,2)
rdsty(X1,2)=dsty(X1,2)E∈Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X1,2)∑dsty(E,2)/∣Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X1,2)∣=1(1+1+1)/3=1=DE2(X1,2)
② Cálculo semelhante pode ser obtido X 2, X 3, …, X 11 X_2, X_3,…, X_{11}X2、X3、…、X11 valor de densidade relativa.
por exemplo X 5 X_5X5A densidade relativa de:
rdsty ( X 5 , 2 ) = ∑ Y ∈ N ( X 5 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 5 , 2 ) ∣ dsty ( X 5 , 2 ) = ( 1 + 1 + 1 + 0,79 ) / 4 1 = 0,95 = DE 2 ( X 5 , 2 )rdsty(X5,2)=∑E∈Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X5,2)dsty(E,2)/|Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X5,2)|dsty(X5,2)=(1+1+1+0.79)/41=0.95=DE2(X5,2)
rdsty(X5,2)=dsty(X5,2)E∈Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X5,2)∑dsty(E,2)/∣Nãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoãoão(X5,2)∣=1(1+1+1+0.79)/4=0.95=DE2(X5,2) Os resultados estão resumidos nas Tabelas 10-13 abaixo.
Exemplo 10-15 Dado o conjunto de dados mostrado na Tabela 10-14, use a distância euclidiana para k = 2, 3, 5 k=2,3,5o=2,3,5, calcule o valor de cada ponto kko-densidade local do vizinho mais próximo, kko- Densidade relativa local do vizinho mais próximo (fator discrepante DE 2 texto{DE}_2DE2) e com base em kko-Fator outlier para distância do vizinho mais próximo DE 1 texto{DE}_1DE1。
desatar: (1) Para facilitar a compreensão, pode-se SSSAs posições relativas dos pontos estão marcadas no plano bidimensional (Figura 10-30).
(2) Utilize algoritmos baseados em distância e densidade relativa 10-8 e 10-9, respectivamente.Calcule cada objeto separadamente kko- Densidade local do vizinho mais próximo texto dsty{dsty}dsty、 kko- Densidade relativa local do vizinho mais próximo (fator discrepante DE 2 texto{DE}_2DE2) e com base em kko-Fator outlier para distância do vizinho mais próximo DE 1 texto{DE}_1DE1, os resultados estão resumidos na Tabela 10-15.
(3) Análise simples
① Como pode ser visto na Figura 10-30, X 15 X_{15}X15e X 16 X_{16}X16sim SSSExistem dois valores discrepantes óbvios, e métodos baseados na distância e na densidade relativa podem melhor desenterrá-los;
② A partir deste exemplo, os dois algoritmos têm kkonão é tão sensível quanto o esperado, talvez seja um valor atípico. X 15 X_{15}X15e X 16 X_{16}X16A separação de outros objetos é muito óbvia.
③Como pode ser visto na Tabela 10-15, não importa kkoPegue 2, 3 ou 5, X 1 X_1X1da região texto dsty{dsty}dsty os valores são significativamente inferiores aos X 7 X_7X7da região texto dsty{dsty}dsty valor, que é consistente com a densidade de área mostrada na Figura 10-30.Mas o valor da densidade relativa das duas regiões DE 2 texto{DE}_2DE2 Mas quase não há diferença óbvia. Isto é determinado pela natureza da densidade relativa, ou seja, para pontos de dados distribuídos uniformemente, a densidade relativa dos pontos centrais é 1, independentemente da distância entre os pontos.
1. Algoritmo de cluster aprimorado
(1) kko-mod ( kko-modes) algoritmo é para kko -O algoritmo médio é adequado apenas para a limitação de atributos numéricos e é proposto para obter agrupamento rápido de dados discretos.porque kko-O algoritmo modular usa um método simples de correspondência 0-1 para calcular a distância entre dois valores de atributos sob o mesmo atributo discreto, o que enfraquece a diferença entre valores de atributos ordinais, ou seja, não pode refletir totalmente a diferença entre dois valores de atributos sob o mesmo atributo ordinal Ainda há espaço para melhorias e melhorias.
(2) kko-protótipo ( kko-Protótipo) algoritmo combinado com kko-Algoritmo de média com kko -A vantagem do algoritmo modular é que ele pode agrupar conjuntos de dados com atributos discretos e numéricos (chamados de atributos mistos).É necessário para atributos discretos kko-Objeto de cálculo de algoritmo modular XXXe AAEa distância entre d 1 ( X , Y ) d_1(X,Y)e1(X,E), para atributos numéricos, use kko-Métodos no algoritmo de média calculam a distância entre objetos d 2 ( X , Y ) d_2(X,Y)e2(X,E)e, finalmente, use o método de ponderação, ou seja α d 1 ( X , Y ) + ( 1 − α ) d 2 ( X , Y ) alfa d_1(X,Y)+(1-alfa)d_2(X,Y)αe1(X,E)+(1−α)e2(X,E) como um objeto de conjunto de dados XXXe AAEa distância entre d ( X , Y ) d(X,Y)e(X,E),em α ∈ [ 0 , 1 ] alfaina[0,1]α∈[0,1] é o coeficiente de peso, geralmente pode ser α = 0,5 alfa=0,5α=0.5。
(3) O algoritmo BIRCH (Balanced Iterative Reduction and Clustering Using Hierarchies) é um método abrangente de agrupamento hierárquico.Ele usa Clustering Features (CF) e Clustering Feature Tree (CF Tree, semelhante à árvore B) para resumir os clusters de clusters. C e C_iCeu,em CF i = ( ni , LS i , SS i ) texto{CF}_i=(ni, texto{LS}_i,texto{SS}_i)FCeu=(não,LSeu,SSeu) é um trigêmeo, não n_ieeué o número de objetos no cluster, LS eu texto{LS}_iLSeusim não n_ieeusoma linear dos componentes do objeto; SS i texto {SS}_iSSeusim não n_ieeuA soma dos quadrados dos componentes de um objeto.
(4) O algoritmo CURE (Clustering Using Representatives) é para kko -Outra melhoria no algoritmo de média. Muitos algoritmos de agrupamento são bons apenas para agrupamento de clusters esféricos, enquanto alguns algoritmos de agrupamento são mais sensíveis a pontos isolados. Para resolver os dois problemas acima, o algoritmo CURE mudou kko-Algoritmo de média usa soma central do cluster kko-O algoritmo do ponto central usa um único objeto específico para representar um cluster, um método tradicional, mas usa vários objetos representativos no cluster para representar um cluster, para que possa se adaptar ao agrupamento de clusters não esféricos e reduzir o impacto de ruído no agrupamento.
(5) O algoritmo ROCK (RObust Clustering usando linK) é um algoritmo de cluster proposto para conjuntos de dados de atributos binários ou categóricos.
(6) O algoritmo OPTICS (Ordering Points To Identification the Clustering Structure) é usado para reduzir a densidade do algoritmo DBSCAN. ( ε , MinPts ) (varepsilon,texto{MinPts})(ε,Pontos mínimos) sensibilidade do parâmetro. Ele não gera explicitamente clusters de resultados, mas gera uma classificação de cluster aumentada para análise de cluster (por exemplo, um gráfico de coordenadas com distância alcançável como eixo vertical e ordem de saída de pontos de amostra como eixo horizontal). Esta classificação representa a estrutura de agrupamento baseada na densidade de cada ponto amostral.Podemos obter desta classificação com base em qualquer parâmetro de densidade ( ε , MinPts ) (varepsilon,texto{MinPts})(ε,Pontos mínimos) Clustering de resultados do algoritmo DBSCAN.
2. Outros novos métodos de cluster
Use algumas novas teorias ou técnicas para projetar novos métodos de agrupamento.
(1) Método de cluster baseado em grade
O método baseado em grade quantifica o espaço do objeto em um número limitado de células para formar uma estrutura de grade, e as informações de posição dos pontos divisórios em cada dimensão são armazenadas na matriz. As linhas divisórias percorrem todo o espaço e todo o agrupamento. as operações são realizadas em Executado nesta estrutura de grade (ou seja, espaço de quantização). A principal vantagem deste método é que sua velocidade de processamento é muito rápida. Sua velocidade de processamento é independente do número de objetos de dados e está relacionada apenas ao número de células em cada dimensão do espaço de quantificação. às custas do agrupamento de resultados. Como o algoritmo de agrupamento de grade tem o problema de escala de quantificação, geralmente começamos a procurar clusters a partir de unidades pequenas primeiro, depois aumentamos gradualmente o tamanho das unidades e repetimos esse processo até que clusters satisfatórios sejam encontrados.
(2) Método de agrupamento baseado em modelo
Os métodos baseados em modelo assumem um modelo para cada cluster e encontram o melhor ajuste dos dados ao modelo fornecido. Os métodos baseados em modelos tentam otimizar a adaptabilidade entre determinados dados e determinados modelos de dados, estabelecendo funções de densidade que refletem a distribuição espacial de amostras para localizar clusters.
(3) Método de agrupamento baseado em conjunto fuzzy
Na prática, não existe um valor de atribuição estrito ao qual pertence a maioria dos objetos. Há intermediário ou incerteza em seu valor e forma de atribuição, o que é adequado para particionamento suave. Como a análise de agrupamento difuso tem a vantagem de descrever a intermediação da atribuição da amostra e pode refletir objetivamente o mundo real, ela se tornou um dos pontos críticos na pesquisa atual de análise de agrupamento.
O algoritmo de agrupamento difuso é um método de aprendizagem não supervisionado baseado na teoria matemática difusa e um método de agrupamento incerto. Uma vez proposto o agrupamento difuso, ele recebeu grande atenção da comunidade acadêmica. O agrupamento difuso é uma grande "família" de agrupamento, e a pesquisa sobre agrupamento difuso também é muito ativa.
(4) Método de agrupamento baseado em conjunto aproximado
O agrupamento aproximado é um método de agrupamento incerto baseado na teoria dos conjuntos aproximados. Do ponto de vista do acoplamento entre conjuntos aproximados e algoritmos de agrupamento, os métodos de agrupamento aproximado podem ser divididos em duas categorias: agrupamento bruto de acoplamento forte e agrupamento bruto de acoplamento fraco.
É claro que as novas direções de pesquisa da análise de cluster são muito mais do que estas. Por exemplo, mineração de fluxo de dados e algoritmos de agrupamento, dados incertos e seus algoritmos de agrupamento, computação quântica e algoritmos de agrupamento genético quântico são todas tecnologias de agrupamento que surgiram nos últimos anos. temas de pesquisa de ponta.
3. Outros métodos de mineração atípicos
Os métodos de mineração atípicos introduzidos anteriormente são apenas dois representantes da mineração atípica. Existem muitos métodos de mineração atípicos mais maduros em aplicações práticas. Eles podem ser determinados a partir do tipo de tecnologia usada no método de mineração ou do uso de conhecimento anterior. ângulos: grau.
(1) Tipo de tecnologia utilizada
Existem principalmente métodos estatísticos, métodos baseados em distância, métodos baseados em densidade, métodos baseados em cluster, métodos baseados em desvio, métodos baseados em profundidade, métodos baseados em transformada wavelet, métodos baseados em gráficos, métodos baseados em padrões e redes neurais. métodos, etc.
(2) Utilização de conhecimento prévio
Dependendo da disponibilidade de informações de classe normal ou atípica, existem três abordagens comuns:
① Método de detecção de outliers não supervisionado, ou seja, não há conhecimento prévio, como rótulos de categoria no conjunto de dados;
② Método de detecção de outliers supervisionados, ou seja, extração das características dos outliers através da existência de um conjunto de treinamento contendo outliers e pontos normais;
③ Método de detecção de valores discrepantes semissupervisionados Os dados de treinamento contêm dados normais rotulados, mas não há informações sobre objetos de dados discrepantes.