Technology sharing

Botrus analysis methodus (3)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


5. Quality iudicium racemosis

Botrus analysis est notitia in copia infixa, quodque subset dicitur botrus, et copia omnium copiarum botrus objecti dicitur. Algorithmus racemus bonus racemos generosos producere debet, et racemos generosos, id est, altiore uvarum similitudine altissimum, altiore infimis racemis similitudo.Cum plures racemosis algorithms includunt kkk-Averaging algorithmus, DBSCAN algorithmus, etc. omnia requirunt utentem ad numerum botri in antecessum denotandum. kkkergo simplex estimationis modus k infra dicetur.

(I) de numero clusters

Multi racemi algorithms ut kkk-Averaging algorithms, etiam DIANA algorithms, etc., opus est numerum uvarum in antecessum denotare. kkk,et kkkValor animi valde afficit qualitatem racemationis. Sed numerus botri ante determinandus est. kkk Haud facile. Circa primum duo possumus considerare casus extremos.
(I) Pone totum data set SSSpro botro, hoc est; k = 1 k = 1k=1haec simplex et opportuna videtur, sed eventus analyseos glomerati non valent.
(II) pone data set SSSQuodlibet objectum botrus, id est, let k = ∣ S = nk=|S|=nk=S=n adeoque opacissimas pampineas efficiens. Nulla ergo est differentia intra botri in utroque botro, et similitudo intra- botri ad summum gradum pervenit.Sed hoc genus pampineis adhiberi non potest SSSprovidere aliqua notitia de SSSgeneralis descriptio.
Ex eo videri potest quod numerus botri kkkut saltem satiat 2 ≤ k ≤ n 1 1 12kn1numerus autem botri kkkQuaenam utilitas aptissima sit, ambiguum manet.
Vulgo considerandum est; kkkValor aestimari potest per figuram et scalam in notitia certae distributionis, necnon resolutio pampinei ab utentis requisita, et scholares varias rationes aestimationis habent, sicut cubiti methodus, methodus sanatio et theory- informatio. fundata modis etc.
Innocens et communiter kkkValorem empiricam estimationis modum credit, qui pro illis est nnnData copia rerum, numerus botri aggregatus est kkkDelige n 2n2 2n Convenit.Hoc tempore, sub expectatione mediocris, quisque botrus circiter habet 2 n sqrt{2n}2n obiicit.Ex hoc fundamento aliqui adiectis limitibus amplius proposuerunt, id est, numerum botri k &lt; nkk<n
Puta n = 8 n = 8n=8Ergo numerus botri k = 2 k=2k=2 convenit, et in mediocris puncta 4 per racemum exstant, et iuxta formulam empiricam additam k &lt; 2.83 k&lt;2.83k<2.83 .His duabus notitia utens de numero botri kkkFormula empirica hinc inde explicanda videtur, in Exemplum 10-5 k = 2 k=2k=2 aptissimum est numerus botri.

(2.) Externa aestimatio

Si bene aestimatio numeri botri kkkuno vel pluribus modis racemosis uti potes, v.gr. kkk - Mediocris algorithmus, agglomerativa algorithmus hierarchicus vel DBSCAN algorithmus analysin botrum facit in notitiis notis notatis et obtinet varias varias pampineas eventus. Quaeritur nunc, qui methodus plus habeat fructus racemosos, vel aliis verbis, quomodo comparare proventum ligaturae ex diversis modis productis.
In praesenti, multi modi sunt eligendi e pro qualitate aestimationis racemi, sed generatim in duo genera dividi possunt, nempe externam (extrinsicam) aestimationem qualitatem et aestimationem internam (intrinsicam) qualitatem.
Externa qualitas aestimationis ponit botrum idealem iam existere in notitia statuto (plerumque a peritis constructum), eamque comparat methodum probandi communem cum quadam algorithmi convalescentem eventibus sunt duo modi communis pro genere subtilitatis.

1. Clustering entropy modum

hypothetica notitia paro S = { X 1 , X2 , X n }S={X1,X2,,Xn},et T = { T 1 , T 2 , T m } T={T_1,T_2, T_m}T={T1,T2,,Tm} est specimen pampinei datum a peritis, et C = { C 1 , C 2 , C k } C={C_1,C_2,...C_k}C={C1,C2,,Ck} determinatur per algorithmus de SSSBotrus, inde botrus C i C_iCegoAd baseline pampineis TTTDe ligatura entropy definitur
E ( C i T ) = j = 1 m C i ∩ T j C i log ⁡ 2 C i ∩ T j C i ∣ (10-20) E(C_i|T) =-sum_{j=1}^mfrac{|C_icap T_j|}{|C_i|}log_2frac{|C_icap T_j|}{|C_i|}tag{10-20}E(CegoT)=j=1mCegoCegoTjlog*2CegoCegoTj(10-20) et CCCDe benchmarks TTTSuprema pampineis entropy definitur omnes ligaturae C i C_iCegoDe benchmarks TTTMediocris densae entropy, id est
E ( C ) = 1 i = 1 k ∣ C i i = 1 k ∣ C i E (C i T ) (10-21) E(C)=frac{1}{matho{sum } limites_{i=}^k|C_i|}sum_{i=1}^k|C_i|times E(C_i|T)tag{10-21}E(C)=ego=1kCego1ego=1kCego×E(CegoT)(10-21) Modus pampinei entropy credit id; E ( C ) E ( C )E(C) Minoris valoris, the CCCAd baseline TTTAltior ibil qualitas.
Notatu dignum est quod denominator primi termini in dextro latere formulae (10-21). i = 1 k C ikego=1|Cego| ego=1kCego est numerus elementorum in unoquoque botro, et non potest adhiberi nnn reponere.Quia, nisi cum CCCCum partitione botrum, denominator nnnac denominator pampinei modorum generalium, ut DBSCAN pampineus, minor sit nnn

2. Clustering accuracy

Praecipua notio accurationis racemi (precisionis) aestimationis est uti plurima genera in botro, ut categoria pittacii botri, id est, pro botro. C i C_iCegosi existit T j T_jTjfacere C i ∩ T j = max { C i ∩ T 1 , C i ∩ T 2 , , C i ∩ T m ∣} |C_icap T_j|=max{|C_icap T_1|,| C_icap T_2|,cdots,|C_icap T_m|}CegoTj=max{CegoT1,CegoT2,,CegoTm}, Consideratum est C i C_iCegoGenus est T j T_jTj .Ideo botri C i C_iCegoDe benchmarks TTTAccurate definitur
J ( C i T ) = max ⁡ { C i ∩ T 1 , C i ∩ T 2 , , C i ∩ T m } C i ∣ (10-22) J(C_i| T)=frac{max{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}}{|C_i|}tag{10-22}J(CegoT)=Cegomax{CegoT1,CegoT2,,CegoTm}(10-22) et CCCDe benchmarks TTTIn altiore accurate definitur pro omnibus clusters C i C_iCegoDe benchmarks TTTMediocris densae accurate compactae, id est
J ( C ) = 1 ∑ i = 1 k ∣ C i i = 1 k ∣ C i J (C i T ) (10-23) J(C)=frac{1}{ mathop{sum } limites_{i=}^k|C_i|}sum_{i=1}^k|C_i|times J(C_i|T)tag{10-23}J(C)=ego=1kCego1ego=1kCego×J(CegoT)(10-23) Fibulae accurationis methodum credit esse; J ( C ) J ( C )J(C) Maior valor, pampinus CCCAd baseline TTTAltior ibil qualitas.
Praeterea, vulgo 1 J (C) 1-J(C)1J(C) vocavit CCCDe benchmarks TTT altiore errore rate.Ideo pampineis accurate J ( C ) J ( C )J(C) Magna vel altiore errore rate 1 J (C) 1-J(C)1J(C) Parvus, ostendit quod racemus algorithmus melius objecta diversorum generum in racemis, id est, alta accuratione pampineis.

(III) Internum quale iudicium

Probationes externae nullae notae sunt pro aestimatione qualitatis internae, tantum notitiae certae adhibitae sunt SSSet pampineis CCCBotrus qualitates intrinsecas et magnitudines aestimare CCC quale. Hoc est, effectus racemosi plerumque aestimantur, calculando mediam similitudinem intra racemosam, mediocrem inter uvas similitudinem, vel altiorem similitudinem.
Aestimatio qualitatis internae se habet ad algorithmum racemum. Efficacia index corymborum maxime adhibita est aestimare qualitatem corymborum vel meliorem aestimare numerum botri Botrus maximus. Ergo efficacia racemus plerumque mensuratur ab aliqua ratione distantiae intra- glomerorum et distantiae. Vulgo usus huius generis indices includunt CH indicator, Dunn indicator, ego indicator, Xie-eni indicator, etc.

1. CH indicator

Index CH abbreviatio indicis Calinski-Harabasz. Primum computat summam quadratorum distantiae inter utrumque punctum botrum et centrum ad metiendam propinquitatem intra genus; inter utrumque punctum centrum botri et punctum centri notitiarum statutorum ad metiendum Separatio notitiarum statutorum, et proportio separationis ad propinquitatem est index CH.
extruxerat X ‾ i overline{X}_iXegosignificat botrum portassent CCCcentrum punctum (medium); X ‾ overline{X}Xconstituit data set SSScentro punctum d ( X i , X ) d.d************************************************(Xego,X) for* X ‾ i overline{X}_iXegovenire X ‾ overline{X}XMunus quoddam intervallum est, deinde pampineis CCCFirmamentum medium botri definitur
Vestigium (A) = ∑ i = 1 k ∑ X j C id ( X j , X i ) 2 (10-24) text{Trac}(A)=sum_{i=}^ksum_{X_jin C_i} d(X_j, overline{X}_i)^2tag{10-24}Trace(A)=ego=1kXjCegod************************************************(Xj,Xego)2(10-24) Ergo Trace (A) est botrus CCC Summa distantiarum quadratarum inter centra botri.Et pampineis CCCGradus separationis definitur
Trace ( B ) = ∑ i = 1 k C i d ( X i , X ) 2 (10-25) text{Trac}(B)=sum_{i=}^k|C_i|d( overline{X}_i, overline{X}^2tag{10-25}Trace(B)=ego=1kCegod************************************************(Xego,X)2(10-25) Id est, Vestigium (B) est pampineis CCCQuisque botrum portassent centrum punctum SSSSummam distantiarum quadratarum a centro puncto ponderatis .
Ex hoc, si N = i = 1 k C iN=kego=1|Cego| N=ego=1kCego Tunc denotatur CH
V CH ( k ) = Vestigium ( B ) / ( k 1 ) Vestigium ( A ) / ( N k ) (10-26) V_{text{CH}}(k)=frac{text{Trace}(B. )/(k-1)}{text{Trace}(A)/(Nk)}tag{10-26}VCH*(k)=Trace(A)/(Nk)Trace(B)/(k1)(10-26) Formula (10-26) in duobus sequentibus plerumque adhibetur;
(1) Censeo, quod pampineis duabus algorithmis obtinetur melius.
Ponantur duo algorithms ad resolvere notitia paro SSSAnalysis botrus fiebat et duae ligaturae variae (utraque continens kkkracemi), racemosi respondentes majori pretii CH, melior est, quia major valorem CH significat quod quilibet botrus in botro sibi propinquior est, et racemi magis dispersi sunt.
(2) Censeo, quod ex duobus racemis, cum diversis botri numeris, ab eodem algorithmo potitus sit.
Id est algorithmus notitia paro SSSAnalysis botrus fiebat et numerus botri adeptus est k 1 k_1k1et b 2 b_2b2 Ex binis racemis, racemus melior effectus cum maiore CH valore, quo etiam significat numerum botri huic botri respondentem aptiorem esse.Ideo, saepe adhibitis formulae (10-26), possumus etiam notitias certas obtinere SSSMeliorem numerum botri pro pampineis.

2. Dunn indicator

Dunn indicator utitur clusters C i C_iCegocum botri C j C_jCjminimum intervallum ds ( C i , C j ) d_s(C_i,C_j)d************************************************s(Cego,Cj) inter-botrus separatio computare cum maxima botrus diametri inter omnes clusters max ⁡ { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } max{ varPhi(C_1), varPhi(C_2),.... varPhi(C_k)}max{Φ(C1),Φ(C2),...,Φ(Ck)} Ad rectitudinem intra botri denotandam, index Dunn minimi valoris proportio inter primum et hunc, hoc est.
VD ( k ) = min ⁡ i jds ( C i , C j ) max { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } (10-27) V_D(k)=min_{i≠j}frac{d_s(C_i,C_j)}{max{varPhi(C_1), varPhi(C_2),...., varPhi (C_k)}} tag{10-27}VD(k)=ego=jminmax{Φ(C1),Φ(C2),...,Φ(Ck)}d************************************************s(Cego,Cj)(10-27) Quo maior est Dunn valor, eo longius distantia inter racemos et racemos respondentes melior est.Similis cum indice CH aestimatione, Dunn index adhiberi potest ad aestimandam qualitatem botri a diversis algorithmis consecutis, et etiam adhiberi potest aestimare, qui racemi ab eodem algorithmo consecuti cum diversis numeris botri meliores sint, id est, it. non possunt quaerere SSSmeliorem numerum botri.

6. Outlier fodienda

Outliers sunt speciales notitiae in notitia copiae quae signanter a plerisque datae deviant. Focus notitiarum fodinarum algorithmorum sicut divisio et pampineis antea introductis est invenire exemplaria regularia quae ad maxime data sunt vel neglecta ut sonitus, sed in multis applicationibus adhibitis, suspicantur puncta errorum deviationem non temere factorum causari, sed ab aliis machinationibus omnino diversis, quae ad speciales analyses et utendos usus effodiendas debent. Exempli gratia, in applicatione agrorum sicut in administratione securitatis et in periculo temperantiae, exemplum manor cognoscendi pluris est quam exemplar notitiae normale.

(I) Overview of related quaestiones

Verbum Outlier transferri solet pro outlier, sed etiam pro anomalia. Multae tamen aliases in variis condicionibus applicationis sunt, ut puncta solitaria, puncta abnormalia, puncta nova, puncta declinationis, puncta exceptio, strepitus, notitia abnormes, etc. Minuendi outlier similes voces habet sicut fodienda anomaliae data, detectio anomaliae, notitia fodiendi outlior, exceptio fodiendi et rarum eventus fodiendi in litteris Sinensium.

1. generatio manor

(1) Data est ex anomaliis per fraudem, intrusionem, morbos seditiones, eventus experimentales insolitos, etc. Exempli gratia, libellum telephonicum mediocris alicuius est de 200 Yuan, sed subito crescit ad plura milia Yuan in aliquo mense; Tales manor solent relative interesting in notitia fodiendarum et unum ex cardinis applicationis.
(2) Causata mutationes innatas in notitiis variabilibus, naturas notas distribuendi, ut climatis mutationem, nova exemplaria emendandi clientium, mutationum geneticarum, etc. Etiam quis elit elit.
(3) Data mensurae et collectionis errores maxime debentur errori humano, instrumenti mensurae defectum vel strepitum praesentiae. Exempli gratia, gradus discipulorum -100 in certo cursu provenire potest ad valorem defaltam a programmatis statuto; salarium administratorum societatis summorum insigniter altior est quam salarium operariorum ordinariorum ut outer videri potest, sed est. Rationabilis notitia.

2. Outlier fodienda quaestio

Solet problema fodienda exteriora in tres problemata sub- describenda dissolvi posse.
(I) Definire manor
Cum manor ad problemata practica propinqua sint, plane definiens qualia sint notitiae manor vel abnormalis notitia praemissa et primarium opus fodiendi extranei manor.
(II) Mining outliers
Postquam puncta exteriora sunt clare definita, quae algorithmus utitur ad efficaciter cognoscendum vel meum puncta exteriora definita est cardo fodiendi exterioris. Algorithmus exterior fodienda plerumque praebet utentes cum suspicionibus amplioribus notitia ex prospectu exemplarium quae in notitia reflecti possunt, ad alliciendum intentionem usoris.
(III) Intellige manor
Rationabilis explicatio, intellectus et moderatio applicationis fodiendi fodiendi sunt metae fodiendi outeriores. Cum mechanismus qua manor generantur incertum est, an algorithmus "manor" per exteriores metalla deprehensus revera respondeat moribus actualibus abnormis, explicari et explicari non potest per algorithmum exterioris metalla, sed solum per fodienda algorithm exterioris explicari potest. . Industry or domain experts to understand and explain instructions .

3. relatione manor

Ueres sunt speciales notitiae in positis, quod patet a plerisque datarum declinare, sed "manifesto" et "plerumque" relativa sunt, id est, licet manor sint diversae, tamen relativae sunt. Ideo multae quaestiones considerandae sunt cum definiendis et fodiendis manor.
(I) Global vel loci manor
Obiectum notitiae ampliorem potest esse relativa ad vicinos locales, sed non relativum cum tota notitia statuta. Exempli gratia, discipulus qui 1.9 metra alta est in Classe I nostrae scholae mathematicae maior est outlier, sed non est externus inter homines per patriam, etiam histriones professionales sicut Yao Ming.
(II) Number of manor
Etsi numerus punctorum exteriorum ignotus est, numerus punctorum normalium numerum punctorum superiorum longe superet. Hoc est, numerus punctorum exteriorum pro portione minore in magna notitia statuto rationem habere debet puncta exteriora debet esse minus quam 5% vel etiam minus quam 1%.
(III) Outlier elementum est punctus
Non potes uti "fiat" vel "non" referre an res sit outlior. deviationem notitiarum e gradu notare, et res exteriores factores altiore quodam limine eliquare, easque peritis ad cognoscendum et explicandum arbitrium fabri vel dominici praebent, eaque in opere practico adhibent.

(II) Distantia secundum modum

1. notiones fundamentales

Definitio 10-11 Est integer affirmativus kkk, object XXXof * kkk-Proximus spatium proximus est integer affirmativus qui satisfacit his conditionibus dk (X) d_k(X)d************************************************k(X)
(1) except XXXPraeterea, ad minimum sunt kkkobiecti YYYsatisfacere d ( X , Y ) ≤ d (X) d(X,Y) ≤d_k(X)d************************************************(X,Y)d************************************************k(X)
(2) nisi XXXPraeterea, sunt ad summum k 1 k-1k1 obiecti YYYsatisfacere d ( X , Y ) &lt; dk ( X ) d ( X , Y )d************************************************(X,Y)<d************************************************k(X)
in d ( X , Y ) d(X,Y)d************************************************(X,Y) est objectum XXXet YYYaliqua distantia inter eos munus.

objecti kkkQuo maior est proxima distantia, eo verisimilius est quod objectum longe a plerisque notitiae, sic objectum esse potest; XXXof * kkk-nearest proximo spatio dk (X) d_k(X)d************************************************k(X) ut factor eius outlier.

Definitio 10-12 facere D ( X , k ) = { Y d ( X , Y ) ≤ dk ( X ) ∧ Y X } D(X,k)={Y|d(X,Y)≤d_k(X)cuneum Y≠ X}D(X,k)={Yd************************************************(X,Y)d************************************************k(X)Y=X}, tum dicitur D ( X , k ) D (X, k)D(X,k) sic XXXof * kkk-Nearest Vicinus (Domain).

Ex definitione 10-12 videri potest D ( X , k ) D (X, k)D(X,k) Ita XXXut centrum, spatium XXXNon excedit dk (X) d_k(X)d************************************************k(X) Object YYY Collectio composita a. Valet sedulo; XXXhoc non est kkkvicinus, i.e. X D ( X , k ) Xnotin D (X, k)X/D(X,k) . Praesertim, XXXof * kkk-nearest vicinus D ( X , k ) D (X, k)D(X,k) Numerus rerum contentarum longe excedat kkk,Nunc D ( X , k ) ≥ ≥ k |D(X,k)|≥kD(X,k)k

Definitio 10-13 Est integer affirmativus kkk, object XXXof * kkk-Proximus outlier factor definitur
OF 1 ( X , k ) = ∑ Y D ( X , k ) d ( X , Y ) ∣ D ( X , k ) ∣ (10-28) text{OF}_1(X,k)=frac{mathop {sum} limites_{Yin D(X,k)}d(X,Y)}{|D(X,k)|}tag{10-28}OF''''''''''''''''''''''''''1(X,k)=D(X,k)YD(X,k)d************************************************(X,Y)(10-28)

2. Algorithmus descriptio

Pro data notitia copia et numerus distantiarum proximarum proximarum kkk, uti possumus formulam superiorem computare kkk- Prope proximiores res exteriores sunt, et eas in ordine e magnis ad minimas disponunt. Inter eos, plura obiecta cum amplioribus factoribus outliers maxime verisimile esse debent Quae puncta vere manor.

Algorithmus 10-8 Procul-fundatur algorithmus outlier deprehendatur
Input: dataset SSSNumerus proximis distantiis kkk
Output: Descendens list of suspecta outlier puncta et correspondentes outlier factores
1) REPEAT
(2) Accipe SSSan unprocessed objectum XXX
(3) OK XXXof * kkk-nearest vicinus D ( X , k ) D (X, k)D(X,k)
(4) Calculus XXXof * kkk-nearest vicinus outlier factor OF 1 ( X , k ) text{OF}_1(X,k)OF''''''''''''''''''''''''''1(X,k)
5) USQUE SSSOmne punctum in processionaliter est
(6) Ita OF 1 ( X , k ) text{OF}_1(X,k)OF''''''''''''''''''''''''''1(X,k)Sort descendendo et output ( X , OF 1 ( X , k ) ) (X, text OF}_1(X,k))(X,OF''''''''''''''''''''''''''1(X,k))

3. Calculus exempla

Exemplum 10-12 Duo dimensiva notitia paro cum XI puncta SSSDatur per Tabulam 10-10, d k = 2 k=2k=2utere Euclidea distantia calculi quadrati X 7 ;X7,X10,X11 Outlier factor omnibus aliis punctis.

Insert imaginem descriptionis hic
solvere: Ut principium algorithmi intuenti intelligamus, volumus SSSNotitia rerum in plano in figura (X-XXVII) infra monstrantur.

Insert imaginem descriptionis hic
Res exteriores punctum determinatum et alia puncta seorsim infra computantur.

(I) Calculus object X 7 X_7X7outlier factor
Distantia, ut ex figura videri potest X 7 = ( 6 , 8 ) X_7=(6,8)X7=(6,8) Proximus est X 10 = ( 5 , 7 ) X_{10}=(5,7)X10=(5,7),et d ( X 7 , X 10 ) = 1.41 dd************************************************(X7,X10)=1.41, alia proxima puncta sint X 11 = ( 5 , 2) X_{11}=(5,2)X11=(5,2) X 9 = ( 3 , 2 ) X_9=(3,2)X9=(3,2) X 8 = ( 2 , 4 ) X_8=(2,4)X8=(2,4)
Calculus d ( X 7 , X 11 ) = 6.08 d(X7,X_{11)=6.08d************************************************(X7,X11)=6.08 d ( X 7 , X 9 ) = 6.71 dd************************************************(X7,X9)=6.71 d ( X 7 , X 8 ) = 5.66 dd************************************************(X7,X8)=5.66
quod k = 2 k=2k=2, sic d 2 ( X 7 ) = 5.66 d_2(X_7)=5.66d************************************************2(X7)=5.66ut secundum definitionem 10-11 habemus D ( X 7 , 2 ) = { X 10 , X 8 } DD(X7,2)={X10,X8}
Secundum formulam (10-28); X 7 X_7X7outlier factor
OF 1 ( X 7 , 2 ) = Y N ( X 7 , 2 ) d ( X 7 , Y ) N ( X 7 , k ) = d ( X 7 , X 10 ) + d ( X 7 , X 8 ) 2 = 1.41 + 5.66 2 = 3.54OF''''''''''''''''''''''''''1(X7,2)=YN(X7,2)d************************************************(X7,Y)|N(X7,k)|=d************************************************(X7,X10)+d************************************************(X7,X8)2=1.41+5.662=3.54 OF''''''''''''''''''''''''''1(X7,2)=N(X7,k)YN(X7,2)d************************************************(X7,Y)=2d************************************************(X7,X10)+d************************************************(X7,X8)=21.41+5.66=3.54(2) Calculus objectus X 10 X_{10}X10outlier factor OF 1 ( X 10 , 2 ) = 2.83 text{OF}_1(X_{10},2)=2.83OF''''''''''''''''''''''''''1(X10,2)=2.83

(III) Calculus object X 11 X_{11}X11outlier factor OF 1 ( X 11 , 2) = 2.5 text{OF}_1(X_{11},2)=2.5OF''''''''''''''''''''''''''1(X11,2)=2.5

(4) Calculus objectus X 5 X_{5}X5outlier factor OF 1 ( X 5 , 2) = 1 text{OF}_1(X_{5},2)=1OF''''''''''''''''''''''''''1(X5,2)=1

Similiter factores exteriores reliquorum obiectorum iniri possunt, vide tabulam sequentem (10-11).

Insert imaginem descriptionis hic
4. Outlier elementum limine

secundum kkk -Proximum theoriae proximum, quo maior est factor exterior, eo verisimilius est exterior. Methodus simplicissima est numerum punctorum exteriorum specificare, sed hic modus nimis simplex est et interdum aliqua puncta realia graviora vel attributa nimis multa puncta normalia ad puncta graviora possibilia praemittit, quae difficultatem facit ad peritos dominii vel decernendi ad difficultates oriendas. in intelligendo et interpretando manor.
(1) Limen segmentationis exterior modus primum factores exteriores descendendo disponit, et simul res notitias in ascendendo secundum exteriores causas renumerat.
(II) Ex outlier factor OF 1 ( X , k ) text{OF}_1(X,k)OF''''''''''''''''''''''''''1(X,k) est ordinatim, et factor serius numerus abscissa, hoc est, (Vide Numerus; OF 1 text{OF}_1OF''''''''''''''''''''''''''1valorem) in plano notatum et connexum ad polylinum formare non crescens, et punctus ubi cruces polyline acuta declinatione et leni declinatione inveniuntur, respondent factori exteriori sicut limen quam vel par huic limine sunt objecta normalia, alia manor possibilia sunt.

Exemplum 10-13 Data pone ad Exemplum 10-12 SSS , res exteriores eius descendendo et numero in Tabula 10-11 perstringuntur. Quaere limen puncta exteriora secundum factoris segmentationis limen extra modum.

solverePrimo utere. OF 1 text{OF}_1OF''''''''''''''''''''''''''1 valorem) ut puncta in plano, in plano notata et polylinis connexa. Ut infra in Figura 10-28 ostensum est.

Insert imaginem descriptionis hic
Deinde ad figuram 10-28 spectantes, invenire polylinum in sinistro quarti puncti (4, 1.27) valde praeruptam destillat, ac polylinum dextrorsum sensim destillat limen.quod X 7 、 X X X_7、X_{10}X7X10 et X 11 X_{11}X11 Res exteriores sunt 3.54, 2.83 et 2.5 respective, quae omnia maiora sunt quam 1.27.
Aspicientes figuram 10-27 iterum invenire possumus X 7 、 X X X_7、X_{10}X7X10 et X 11 X_{11}X11 immo longe a parte densa plurium objectorum sinistris, ita ut statis datae tractant SSSRationabilis manor.

5. Algorithmus iudicium

Maxima utilitas distantiae secundum modum deprehendendi outriorem est quod simplex est in principio et facile uti.
(1) Parameters kkkElectio simplici et efficaci methodo caret ad determinandum ictum testium proventuum in parametris kkkNullus universaliter acceptus est effectus analyticus in gradu sensibilitatis.
(2.) Tempus complexionis est O ( S 2 ) O ( | S | ^ 2 )O*(S2)caret scalability pro magnarum notitiarum copiarum.
(3) Ob usum liminis factoris externi globalis, difficile est mihi manor in notitia collocare cum regionum diversarum densitatum.

(III) Ratio secundum densitatem relativam

Methodus distantiae globalis methodi inhibitionis amplioris est, sed notitias in diversis densitatis locis tractare non potest, hoc est, in locis densitatis localibus manentes deprehendere non potest. Cum notitia copia multiplex densitatis distributiones continet vel mixtum est diversae densitatis copiae, deprehensio globalis methodi quales distantiae plerumque non bene operantur, quia an objectum extraneus sit non solum in relatione cum notitia circumjacente pendeat ad densitatem vicinitatis refertur.

1. De conceptu densitatis relativae

Ex prospectu densitatis vicinitatis, manor sunt obiecta in locis humilibus densitatis.

Definitio 10-14 (I) objectum XXXof * kkk-Nearest densitas vicinus loci (density) definitur
dsty ( X , k ) = D ( X , k ) Y D ( X , k ) d ( X , Y ) (10-29) text{dsty}(X,k)=frac{|D( X,k)|}{ mathop{sum} limites_{Yin D(X,k)}d(X,Y)}tag{10-29}dsty(X,k)=YD(X,k)d************************************************(X,Y)D(X,k)(10-29) (2) objectum XXXof * kkk-Nearest densitas propinqui loci relativum (density relativum)
rdsty ( X , k ) = Y D ( X , k ) dsty ( X , k ) / D ( X , k ) dsty ( X , k ) (10-30) text{rdsty}(X,k )=frac{mathop{sum}limites_{Yin D(X,k)}text{dsty}(X,k)/|D(X,k)|}{text{dsty}(X,k)}tag{ 10-30}rdsty(X,k)=dsty(X,k)YD(X,k)dsty(X,k)/∣D(X,k)(10-30) in D ( X , k ) D (X, k)D(X,k) Est objectum XXXof * kkk- proximus (definitio 10-12); D ( X , k ) |D(X,k)|D(X,k) est numerus rerum in collectione.

2. Algorithmus descriptio

by rdsty ( X , k ) text{rdsty}(X,k)rdsty(X,k) ut outlier OF 2 ( X , k ) text{OF}_2(X,k)OF''''''''''''''''''''''''''2(X,k)calculus autem eius in duos gradus dividitur
(I) secundum numerum finitimorum kkk, Ratio singula XXXof * kkk-Nearest density proximo loci dsty ( X , k ) text{dsty}(X,k)dsty(X,k)
(2) Calculus XXXmedium densitatem proximis ac kkk-Nearest proximo loci secundum densitatem rdsty ( X , k ) text{rdsty}(X,k)rdsty(X,k)
Data copia ex pluribus racemis naturalibus consistit. Densitas relativa objectorum prope nucleum intra botrum prope 1 est, at densitas objectorum relativa in ore botri vel extra botri est relative magna. Ergo densitas relativa quo maior, eo verisimilior est outlior.

Algorithmus 10-9 Outlier deprehendatur algorithmus secundum densitatem relativam
Input: dataset SSSnumerus proximi kkk
Output: Descendens list of suspecta outlier puncta et correspondentes outlier factores
1) REPEAT
(2) Accipe SSSan unprocessed objectum XXX
(3) OK XXXof * kkk-nearest vicinus D ( X , k ) D (X, k)D(X,k)
(IV) USUS D ( X , k ) D (X, k)D(X,k)computare XXXDensity dsty ( X , k ) text{dsty}(X,k)dsty(X,k)
5) USQUE SSSOmne punctum in processionaliter est
6) REPEAT
(7) Accipe SSSprimum obiectum XXX
(8) OK XXXrelative densitas rdsty ( X , k ) text{rdsty}(X,k)rdsty(X,k)et assignare OF 2 ( X , k ) text{OF}_2(X,k)OF''''''''''''''''''''''''''2(X,k)
9) USQUE SSSOmnia quae in processionaliter sunt
(X) Recte OF 2 ( X , k ) text{OF}_2(X,k)OF''''''''''''''''''''''''''2(X,k)Sort descendendo et output ( X , OF 2 ( X , k ) )(X,OF''''''''''''''''''''''''''2(X,k))

Exemplum 10-14 Duo dimensiva data in Exemplum 10-12 . posita SSS (Vide Tabula 10-10 pro singulis), sic k = 2 k=2k=2Conare Euclidea distantia calculi X 7 ;X7,X10,X11 Outlier factor secundum densitatem relativam objectorum aequalium.

Insert imaginem descriptionis hic
solvere:quod k = 2 k=2k=2ideo indigemus 2-proximo locorum densitate omnium objectorum.

(1) Reperio 2-proximum cuiusque notitiae obiecto in Tabula 10-11 D ( X i , 2 ) D ( X_i , 2 )D(Xego,2)
Iuxta eandem calculi methodum in Exemplum 10-12, accipere possumus
D ( X 1 , 2 ) = { X 2 , X 3 , X . D ( X 4 , 2 ) = { X 3 , X 5 ; D ( X 7 , 2 ) = { X 10 , X 8 } , D ( X 8 , 2 ) = { X 2 , X 6 5 , X 4 , X 6 } D ( X 10 , 2 ) = { X 7 , X 8 } D ( X 11 , 2 ) = { X 9 , XD(X1,2)={X2,X3,X5}D(X2,2)={X1,X6}              D(X3,2)={X1,X4}D(X4,2)={X3,X5}       D(X5,2)={X1,X4,X6,X9}D(X6,2)={X2,X5,X8}D(X7,2)={X10,X8}     D(X8,2)={X2,X6}               D(X9,2)={X5,X4,X6}D(X10,2)={X7,X8}     D(X11,2)={X9,X5} D(X1,2)={X2,X3,X5}D(X2,2)={X1,X6}              D(X3,2)={X1,X4}D(X4,2)={X3,X5}       D(X5,2)={X1,X4,X6,X9}D(X6,2)={X2,X5,X8}D(X7,2)={X10,X8}     D(X8,2)={X2,X6}               D(X9,2)={X5,X4,X6}D(X10,2)={X7,X8}     D(X11,2)={X9,X5}

(II) Calculare densitatem localem uniuscuiusque rei notitiae dsty ( X i , 2 ) text{dsty}(X_i,2)dsty(Xego,2)

Calculate X 1 X_1X1Density
quod D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } DD(X1,2)={X2,X3,X5}sic post rationem habemus d ( X 1 , X 2 ) = 1 dd************************************************(X1,X2)=1 d ( X 1 , X 3 ) = 1 dd************************************************(X1,X3)=1 d ( X 1 , X 5 ) = 1 dd************************************************(X1,X5)=1
Secundum formulam (10-29), habetur:
d ( X 1 , 2 ) = D ( X 1 , 2 ) d ( X 1 , 2 ) d ( X 1 , Y ) 2 ) + d ( X 1 , X 3 ) + d ( X 1 , X 5 ) = 3 1 + 1 + 1 = 1dsty(X1,2)=|D(X1,2)|YN(X1,2)d************************************************(X1,Y)=|N(X1,2)|d************************************************(X1,X2)+d************************************************(X1,X3)+d************************************************(X1,X5)=31+1+1=1 dsty(X1,2)=YN(X1,2)d************************************************(X1,Y)D(X1,2)=d************************************************(X1,X2)+d************************************************(X1,X3)+d************************************************(X1,X5)N(X1,2)=1+1+13=1

Calculus X 2 X_2X2Density
quod D ( X 2 , 2 ) = { X 1 , X 6}D(X2,2)={X1,X6}Ut calculi d ( X 2 , X 1 ) = 1 dd************************************************(X2,X1)=1 d ( X 2 , X 6 ) = 1 dd************************************************(X2,X6)=1
Secundum formulam (10-29), habetur:
d ( X 2 , 2 ) = D ( X 2 , 2 ) D ( X 2 , 2 ) d ( X 2 , Y ) = 2 1 + 1 = 1dsty(X2,2)=|D(X2,2)|YN(X2,2)d************************************************(X2,Y)=21+1=1 dsty(X2,2)=YN(X2,2)d************************************************(X2,Y)D(X2,2)=1+12=1

Densitas localis aliarum rerum notitiarum similiter iniri potest, vide infra Tabulam 10-12.

Insert imaginem descriptionis hic
(III) Calculare singula X i X_iXegorelative densitas rdsty ( X i , 2) text{rdsty}(X_i, 2)rdsty(Xego,2)et ratam esse factorem OF 2 text{OF}_2OF''''''''''''''''''''''''''2
Calculate X 1 X_1X1relative densitas
Usus densitatis valor cuiusque obiecti in Tabula 10-12, secundum formulam densitatis relativam (10-30);
rdsty ( X 1 , 2 ) = Y N ( X 1 , 2 ) dsty ( Y , 2 ) / N ( X 1 , 2 ) 3 1 = 1 = OF 2 ( X 1 , 2 )rdsty(X1,2)=YN(X1,2)dsty(Y,2)/|N(X1,2)|dsty(X1,2)=(1+1+1)/31=1=OF''''''''''''''''''''''''''2(X1,2) rdsty(X1,2)=dsty(X1,2)YN(X1,2)dsty(Y,2)/∣N(X1,2)=1(1+1+1)/3=1=OF''''''''''''''''''''''''''2(X1,2)

Similia ratio haberi potest X 2 X 3 ... X 11 X_2、X_3、…、X_{11}X2X3X11 relativum valorem densum.
exempli gratia X 5 X_5X5De densitate relativa:
rdsty ( X 5 , 2 ) = Y N ( X 5 , 2 ) dsty ( Y , 2 ) / N ( X 5 , 2 ) dsty ( X 5 , 2 ) = ) / 4 1 = 0.95 = OF 2 ( X 5 , 2 )rdsty(X5,2)=YN(X5,2)dsty(Y,2)/|N(X5,2)|dsty(X5,2)=(1+1+1+0.79)/41=0.95=OF''''''''''''''''''''''''''2(X5,2) rdsty(X5,2)=dsty(X5,2)YN(X5,2)dsty(Y,2)/∣N(X5,2)=1(1+1+1+0.79)/4=0.95=OF''''''''''''''''''''''''''2(X5,2) Eventus in tabulis 10-13 infra perstringuntur.

Insert imaginem descriptionis hic
Exemplum 10-15 Datae notitiae positae in Tabula 10-14 exhibitae, quaeso utere Euclideorum spatio to . k = 2 , 3 , 5 k=2,3,5k=2,3,5Pone valorem cuiusque punctum kkkdensitas loci -nearest vicinus; kkk-Nearest density propinqui loci relativa (outlier factor OF 2 text{OF}_2OF''''''''''''''''''''''''''2) Et secundum kkk-Outlier factor in proximum spatium OF 1 text{OF}_1OF''''''''''''''''''''''''''1

Insert imaginem descriptionis hic
solvere: (1) Ad intellegendum faciliorem esse potest SSSPositiones relativae punctorum in plano duarum dimensivarum notantur (Figura 10-30).

Insert imaginem descriptionis hic
(2) Utendum distantiae et densitatis relativae-substructio algorithmorum 10-8 et 10-9 respective.Singula rationem singula kkk-Nearest density proximo loci dsty text{dsty}dsty kkk-Nearest density propinqui loci relativa (outlier factor OF 2 text{OF}_2OF''''''''''''''''''''''''''2) Et secundum kkk-Outlier factor in proximum spatium OF 1 text{OF}_1OF''''''''''''''''''''''''''1eventus in Tabula 10-15 perstringuntur.

Insert imaginem descriptionis hic
(3) Simple analysis
① ut videri potest ex figura 10-30; X 15 X_{15}X15et X 16 X_{16}X16sic SSSDuae sunt manes manifestae, et methodi distantiae, et densitas secundum quid melius effodiunt;
Ex hoc exemplo duo algorithm habent kkknon tam sensilis quam exspectatur, fortasse outlier est. X 15 X_{15}X15et X 16 X_{16}X16Ab aliis obiectis separatio valde manifesta est.
Ut videri potest ex Tabula 10-15, nulla materia kkkAccipe II, III, V; X 1 X_1X1regionis dsty text{dsty}dsty values ​​​​sunt significantly humiliores X 7 X_7X7regionis dsty text{dsty}dsty valor, qui densitatis areae consonans in Figura 10-30 ostenditur.At densitas relativa duarum regionum valor OF 2 text{OF}_2OF''''''''''''''''''''''''''2 Sed nulla fere est evidens differentia. Hoc determinatur ex natura densitatis relativi, hoc est, pro data puncta uniformiter distributa, densitas core punctorum relativa est 1, cujuscumque distantia punctorum.

7. Aliae pampineis modis

1. melius pampineis algorithmus

  (1) kkk-mod ( kkk-modes) algorithmus est for kkk - Algorithmus mediocris solum ad limitationem attributorum numerorum aptus est et proponitur ut celerius notitiarum discretarum conglutinatio consequatur.quod kkk- Algorithmus modularis utitur simplici 0-1 congruenti methodo ad distantiam inter duos valores attributos sub eodem attributo discreto computandi, qui differentiam inter valores attributorum ordinales hebetat, hoc est, non potest plene reflectere differentiam inter duos valores attributos. sub eadem ordinali attributione.
  (2) kkk-prototype ( kkk-Prototype) algorithmus cum kkk-Averaging algorithmus cum kkk - Commodum algorithm modularis est quod glomerorum notitiae cum attributis tam discretis quam numericis (quae mixta dicuntur).It takes pro discretis attributis kkk-Modular algorithmus ratio objecti XXXet YYYintervallum inter d 1 ( X , Y ) d_1(X,Y)d************************************************1(X,Y)ad numerum attributorum, usus kkk-Methods in fere algorithm ratio distantiae obiecti d 2 ( X , Y ) d_2(X,Y)d************************************************2(X,Y)ac denique methodo ponderans utere, id est α d 1 ( X , Y ) + ( 1 α ) d 2 ( X , Y ) alpha d_1(X,Y)+(1-alpha)d_2(X,Y)αd************************************************1(X,Y)+(1α)d************************************************2(X,Y) ut notitia certa objectum XXXet YYYintervallum inter d ( X , Y ) d(X,Y)d************************************************(X,Y),in α [ 0 , 1 ]α[0,1] pondus coefficiens esse solet α = 0.5 alpha=0.5α=0.5
(3) BELLUS algorithmus (Blancans Iterativa Reducens et Conclusio Utens Hierarchiis) est methodus pampineis hierarchica conglutinantis.Utitur Features (CF) et ligatura Feature Arbor (CF Arbor, similis B arbori) ad uvas botri compendiose. C i C_iCego,in CF i = ( ni , LS i , SS i ) text{CF}_i=(ni, text{LS}_i,text{SS}_i)CFego=(ni,LSego,SSego) tergeminus est; ni n_inegonumerus rerum in botro eft; LS i text{LS}_iLSegosic ni n_inegosumma linearis objecti composita; SS i text{SS}_iSSegosic ni n_inegoSumma quadratorum partium rei.
(IV) CURATIO (repraesentantes glomerati) algorithmus est for kkk -Alia emendatio ad fere algorithm. Multi racemi algorithmi tantum boni sunt in racemis sphaericis racemosis, cum aliquae algorithmae racemosae magis sensibiles sunt ad puncta solitaria. CURATIO algorithmus mutavit ut praedictas duas difficultates solvendas kkk-Averaging algorithmus usus sum centrum botrum portassent kkk- Centrum punctum algorithmus utitur singulari obiecto ad significandum botrum, methodum traditionalem, sed pluribus obiectis repraesentativis in botro ad botrum repraesentandum utitur, ut accommodare possit ad racemos non globosos et ictum minuendum. strepitus pampineis.
(5) algorithmus racemosus algorithmus (V) algorithmus racemosus propositus est pro notitia attributi binarii vel categorici appositi.
(6) OPTICS (ordinare puncta ad recognoscendum structurae compagem) algorithmus adhibetur ad densitatem algorithmi DBSCAN reducendam. ( ε , MinPts ) (varepsilon, text{MinPts})(ε,MinPts) modulus suavitate. Botrus effectus expresse non gignit, sed racemum auctum ordinem pro analysi botri (exempli gratia, chartam coordinatam cum distantia reachabili sicut axis verticalis et punctum specimen output ordinem generat sicut axis horizontalis). Hoc ordo repraesentat density-substructio pampineis structuram cuiusque specimen punctum.Possumus ex hoc genus secundum aliquam densitatem parametri ( ε , MinPts ) (varepsilon, text{MinPts})(ε,MinPts) Conglobati eventus algorithmi DBSCAN.

2. Aliae novae modi racemosis

Novas quasdam theorias vel artes utere ad novas pampineas excogitandas methodos.

(I) malesuada euismod secundum modum pampineis
Modus euismod fundatus quantitatem obiecti spatii in paucas cellulas ut structuram desiderii formet, et positio notitia punctorum in unaquaque dimensione divisa in ordine reponitur operationes aguntur in hac eget structura (id est spatii quantitatis). Praecipua utilitas huius methodi est quod celeritas processus processus celerrimus est. Eius processus celeritas sine numero rerum notitiarum est et tantum ad numerum cellularum in unaquaque dimensione quantitatis spatii comparatur dispendio pampineo reddit. Cum algorithmus racemus aggregati quaestionem quantitatis scalae habet, plerumque incipimus uvas ex parvis unitatibus quaerere, paulatim augere unitates, et hunc processum repetere donec racemi satisfacientes inveniantur.

(II) Model-fundatur pampineis methodo
Modi methodi fundati exemplar pro unoquoque botro sumunt et optimam aptam notitiarum ad exemplar datum invenient. Modi fundati methodi accommodationem datam inter data et certa notitia optimizare conantur, constituendo densitatem functionum quae reflectunt spatialem exemplorum distributionem ad ligaturas collocandas.

(3) Clustering method based on quamquam set
Re vera, nulla est stricte attributio valoris ad quem maxime res pertinent. Quia quamquam analysi pampineis utilitas est describere intertatem exempli attributionis et obiective reflectere mundum verum, factum est unum ex calidis maculis in hodiernae investigationis botri analysis.
Fuzzy racemus algorithm is insuetus doctrina methodi innixa in theoria mathematici caliginoso et incerto pampineo methodo. Olim quamquam pampineis pampineis proponebatur, magnam attentionem accepit a communitate academica. Fuzzy pampinus est amplus pampinus "familia", et investigatio in quamquam pampineis etiam acerrima est.

(IV) Clustering modum secundum aspera set
RAPIDUS pampinus est incertus pampineus methodus innixa aspera pone theoriam. Ex prospectu copulationis inter asperam occasum et ligaturam algorithmorum, methodi asperae condensantes in duo genera dividi possunt: ​​iuncturae validae asperae pampineae et debiles iuncturae asperae pampineae.
Utique, novae investigationis directiones analysis botri longe plus sunt quam hae. Exempli gratia, notitiae fodiendae et algorithmorum conglobantium, notitiae incertae et algorithmi eius racemosi, quantum computatio et quantum genetica algorithmarum racemorum sunt omnes technologiae racemosae quae his annis ortae sunt. .

3. Aliae modi fodiendi outlier

Methodi fodiendi exteriores antea inductae sunt tantum duo repraesentativa fodiendi exterioris. Plures sunt fodiendi maturiores methodi in applicationibus practicis angulis: gradum.

(I) genus technicae artis usus
Modi statistici maxime sunt, modi distantiae fundatae, modi densitatis fundati, modi racemi fundati, modi declinationis fundati, methodi profundiores fundati, modi graphi substructi, methodi graphi fundati, modi formandi et retis Neuralis modis, etc.

(II) Utendo praevia scientia
Prout promptitudine notitiarum normalium vel ampliorum classium, tres sunt aditus communes;
① Deprehensio inexpertus methodus exterior, id est, nulla prior cognitio est sicut titulus categoriae in notitia praefixa;
Deprehensio exterioris methodi procuratio, id est extrahendi characteres manorum per existentiam disciplinae positae continentes manes et puncta normalia;
③ Deprehensio semi-excursionis methodum praefecit. Disciplina notitia normales intitulatum continet, sed nulla notitia de obiectis outlier.