प्रौद्योगिकी साझेदारी

समूहविश्लेषणविधिः (३) २.

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


5. समूहीकरणस्य गुणवत्तामूल्यांकनम्

क्लस्टर विश्लेषणं दत्तांशसमूहस्य उपसमूहेषु विघटनं भवति, प्रत्येकं उपसमूहं क्लस्टर इति उच्यते, सर्वेषां उपसमूहानां समुच्चयः वस्तुसमूहस्य समूहः इति उच्यते एकः उत्तमः समूहीकरण-एल्गोरिदम् उच्चगुणवत्तायुक्तानि समूहानि उच्चगुणवत्तायुक्तानि च समूहानि उत्पादयेत्, अर्थात् समूहानां अन्तः समग्रं साम्यं सर्वाधिकं भवति, यदा तु समूहानां मध्ये समग्रं साम्यं न्यूनतमं भवतिअनेके क्लस्टरिंग् एल्गोरिदम् अन्तर्भवन्ति इति दृष्ट्वा क्क्k-सरासरी एल्गोरिदम्, DBSCAN एल्गोरिदम् इत्यादीनि सर्वाणि उपयोक्त्रेण पूर्वमेव क्लस्टरमध्ये क्लस्टरसङ्ख्यां निर्दिष्टुं आवश्यकम् अस्ति क्क्k, अतः k इत्यस्य सरलानुमानविधिः अधः चर्चा भविष्यति ।

(1) समूहानां संख्यायाः अनुमानम्

अनेकाः क्लस्टरिंग् एल्गोरिदम्स् यथा... क्क्k-सरासरी एल्गोरिदम्, DIANA एल्गोरिदम् इत्यादीनि अपि पूर्वमेव क्लस्टर्-सङ्ख्यां निर्दिष्टुं आवश्यकम् अस्ति क्क्k,तथा क्क्kइत्यस्य मूल्यं समूहीकरणस्य गुणवत्तां बहु प्रभावितं करिष्यति तथापि समूहानां संख्या पूर्वमेव निर्धारितव्या । क्क्k न तु सुलभं कार्यम्। प्रथमं चरमप्रकरणद्वयं विचारयितुं शक्नुमः ।
(1) सम्पूर्णं दत्तांशसमूहं स्थापयन्तु एस.एससमूहत्वेन परिगण्यते इत्यर्थः । क = १ क=१k=1, एतत् सरलं सुलभं च प्रतीयते, परन्तु अस्य समूहविश्लेषणस्य परिणामानां मूल्यं नास्ति ।
(2) दत्तांशसमूहं स्थापयतु एस.एसप्रत्येकस्य वस्तुनः समूहवत् व्यवह्रियते इति यावत् k = ∣ S ∣ = nk=|S|=nk== , एवं सूक्ष्मतमं कणिकासमूहं उत्पादयति । अतः प्रत्येकस्मिन् समूहे अन्तर्-समूहान्तरं नास्ति, अन्तर्-समूह-सादृश्यं च उच्चतमं स्तरं प्राप्नोति ।परन्तु एतादृशस्य समूहीकरणस्य उपयोगः कर्तुं न शक्यते एस.एसविषये किमपि सूचनां प्रदातव्यम् एस.एससामान्यवर्णनम् ।
द्रष्टुं शक्यते यत् समूहानां संख्या क्क्kन्यूनातिन्यूनं तृप्तिः कर्तव्या २ ≤ k ≤ n − १ २≤k≤n-१2k1, किन्तु समूहानां संख्या क्क्kकिं मूल्यं सम्यक् अधिकं उपयुक्तं इति अस्पष्टं तिष्ठति।
सामान्यतः विचार्यते, २. क्क्kइत्यस्य मूल्यं दत्तांशसमूहवितरणस्य आकारेण, स्केलेन च, तथैव उपयोक्त्रेण अपेक्षितेन समूहीकरणसंकल्पेन च अनुमानितुं शक्यते, तथा च विद्वांसः अनेकाः भिन्नाः अनुमानविधयः सन्ति, यथा कोणविधिः, पार-मान्यताविधिः, सूचनासिद्धान्तः च आधारित विधि आदि।
एकः सरलः सामान्यतया च प्रयुक्तः क्क्kमूल्यानुभवात्मकानुमानपद्धतिः मन्यते यत् येषां कृते सन्ति तेषां कृते nnवस्तुनां दत्तांशसमूहः, यस्मिन् समूहे तस्य समूहः भवति तस्य संख्या क्क्kचिनूहि न २2 2 युक्तम् ।अस्मिन् समये औसत-अपेक्षायाः अन्तर्गतं प्रत्येकस्य समूहस्य अनुमानतः भवति २ न स्कृट्{२न}2 विषयाः ।अस्य आधारेण केचन जनाः अधिकानि अतिरिक्तप्रतिबन्धानि प्रस्तावितवन्तः अर्थात् समूहानां संख्या क &lt; न्क्k<
यथा - कल्पयतु न = ८ न=८=8, ततः समूहसङ्ख्या क = २ क=२k=2 उचितं भवति, तथा च समासे प्रतिसमूहं ४ बिन्दवः सन्ति, अतिरिक्त-अनुभवात्मकसूत्रानुसारं च क &lt; २.८३ क&lt;२.८३k<2.83 .एतयोः सूचनायोः उपयोगेन समूहसङ्ख्यायाः विषये क्क्kअनुभवजन्यसूत्रं एकतः व्याख्यातं इव दृश्यते, उदाहरणे १०-५ क = २ क=२k=2 समूहानां सर्वाधिकं उपयुक्ता संख्या अस्ति ।

(2) बाह्यगुणमूल्यांकन

यदि अस्माकं कृते समूहानां संख्यायाः उत्तमं अनुमानं भवति क्क्k, भवान् एकं वा अधिकं वा समूहीकरणविधिं उपयोक्तुं शक्नोति, यथा, क्क्k -सरासरी एल्गोरिदम्, समुच्चयपदानुक्रमित एल्गोरिदम् अथवा DBSCAN एल्गोरिदम् ज्ञातदत्तांशसमूहेषु क्लस्टरविश्लेषणं करोति तथा च विविधानि भिन्नानि क्लस्टरिंगपरिणामानि प्राप्नोति। इदानीं प्रश्नः अस्ति यत् कस्मिन् पद्धत्याः क्लस्टरिंग् परिणामाः उत्तमाः सन्ति, अथवा अन्येषु शब्देषु, भिन्न-भिन्न-विधिभिः उत्पादितानां क्लस्टरिंग्-परिणामानां तुलना कथं करणीयम् इति
वर्तमान समये समूहीकरणस्य गुणवत्तामूल्यांकनार्थं बहवः पद्धतयः चयनार्थं सन्ति, परन्तु सामान्यतया तान् बाह्य (बाह्य) गुणवत्तामूल्यांकनं आन्तरिक (आन्तरिक) गुणवत्तामूल्यांकनं च इति द्वयोः वर्गयोः विभक्तुं शक्यते
बाह्यगुणवत्तामूल्याङ्कनं कल्पयति यत् दत्तांशसमूहे (प्रायः विशेषज्ञैः निर्मितः) आदर्शसमूहः पूर्वमेव अस्ति, तथा च तस्य तुलनां सामान्यतः प्रयुक्ता बेन्चमार्कविधिरूपेण करोति, तस्य तुलनात्मकमूल्यांकने मुख्यतया क्लस्टरिंग् एन्ट्रोपी, क्लस्टरिंग् च अन्तर्भवति वर्गसटीकतायै सामान्यविधौ द्वौ स्तः ।

1. क्लस्टरिंग एन्ट्रोपी विधि

काल्पनिक दत्तांशसमूह S = { X 1 , X 2 , ... , X n } S={X_1,X_2,...,X_n} .={X1,X2,,X},तथा T = { T 1 , T 2 , ... , T m } T={T_1,T_2,...,T_m} .टी={टी1,टी2,,टीपु} विशेषज्ञैः दत्तं आदर्शमानकं समूहीकरणं भवति, तथा च C = { C 1 , C 2 , ... , C k } C={C_1,C_2,...,C_k} .={1,2,,k} विषये एकेन अल्गोरिदम् द्वारा निर्धारितं भवति एस.एसएकः समूहः , ततः समूहाय C i C_iअहम्‌आधाररेखासमूहीकरणस्य सापेक्षम् टी.टीटीइत्यस्य क्लस्टरिंग् एन्ट्रोपी इति परिभाषितम् अस्ति
ई ( C i ∣ T ) = − ∑ j = 1 m ∣ C i ∩ T j ∣ ∣ C i ∣ log ⁡ 2 ∣ C i ∩ T j ∣ ∣ C i ∣ (10-20) E(C_i|T) =-योग_{j=1}^mfrac{|C_icap T_j|}{|C_i|}log_2frac{|C_icap T_j|}{|C_i|}टैग{10-20}(अहम्‌टी)==1पुअहम्‌अहम्‌टीलो2अहम्‌अहम्‌टी(10-20) तथा सीसीबेन्चमार्कस्य विषये टी.टीटीof इत्यस्य समग्रं समूहीकरण-एन्ट्रोपी सर्वेषां समूहानां रूपेण परिभाषितम् अस्ति C i C_iअहम्‌बेन्चमार्कस्य विषये टी.टीटीसमूहीकरण-एन्ट्रोपी इत्यस्य भारित-सरासरी अर्थात्
E ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × E ( C i ∣ T ) (10-21) E(C)=frac{1}{मथोप{योग }सीमा_{i=1}^k|C_i|}योग_{i=1}^k|C_i|गुण E(C_i|T)टैग{10-21}()=अहम्‌=1kअहम्‌1अहम्‌=1kअहम्‌×(अहम्‌टी)(10-21) क्लस्टरिंग् एन्ट्रोपी पद्धतिः मन्यते यत्, ई ( ग ) ई ( ग ) .() मूल्यं यथा लघु भवति, तत्... सीसीआधाररेखायाः सापेक्षम् टी.टीटीसमूहीकरणस्य गुणवत्ता यथा अधिका भवति।
ज्ञातव्यं यत् सूत्रस्य दक्षिणपार्श्वे प्रथमपदस्य हरः (१०-२१) । ∑ i = 1 k ∣ C i ∣kअहम्‌=1|अहम्‌| अहम्‌=1kअहम्‌ प्रत्येकं समूहे तत्त्वसङ्ख्यायाः योगः अस्ति, न च उपयोक्तुं शक्यते nn प्रतिस्थापनम् ।यतः, यदा एव सीसीयदा विभाजनसमूहः भवति तदा हरः भवति nn, तथा च सामान्यसमूहीकरणविधिनां हरकः, यथा DBSCAN समूहीकरणं, तः न्यूनः भवितुम् अर्हति nn

2. समूहीकरणस्य सटीकता

समूहीकरणसटीकता (सटीकता) मूल्याङ्कनस्य मूलविचारः अस्ति यत् समूहे बृहत्तमानां श्रेणीनां उपयोगः समूहस्य श्रेणीलेबलरूपेण अर्थात् समूहस्य कृते भवति C i C_iअहम्‌,अस्ति चेत् T j T_jटीनिर्मीयताम्‌ ∣ C i ∩ T j ∣ = अधिकतम ⁡ { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } |C_icap T_j|=अधिकतम{|C_icap T_1|,| सी_इकैप टी_2|,cdots,|C_icap T_m|}अहम्‌टी=अधिकतमम्{अहम्‌टी1,अहम्‌टी2,,अहम्‌टीपु}, इति मन्यते C i C_iअहम्‌वर्गः इति T j T_jटी .अतः समूहः C i C_iअहम्‌बेन्चमार्कस्य विषये टी.टीटीसटीकता यथा परिभाषिता अस्ति
J ( C i ∣ T ) = अधिकतम ⁡ { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } ∣ C i ∣ (10-22) J(C_i| T)=frac{max{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}}{|C_i|}टैग{10-22}जे(अहम्‌टी)=अहम्‌अधिकतमम्{अहम्‌टी1,अहम्‌टी2,,अहम्‌टीपु}(10-22) तथा सीसीबेन्चमार्कस्य विषये टी.टीटीसर्वेषां समूहानां कृते समग्रसटीकता परिभाषिता अस्ति C i C_iअहम्‌बेन्चमार्कस्य विषये टी.टीटीसमूहीकरणसटीकतायाः भारितसरासरी अर्थात्
J ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × J ( C i ∣ T ) (10-23) J(C)=frac{1}{मथोप{योग }सीमा_{i=1}^k|C_i|}योग_{i=1}^k|C_i|गुण J(C_i|T)टैग{10-23}जे()=अहम्‌=1kअहम्‌1अहम्‌=1kअहम्‌×जे(अहम्‌टी)(10-23) क्लस्टरिंग् सटीकता पद्धतिः मन्यते यत्, ज ( ग ) ज ( ग ) .जे() मूल्यं यावत् बृहत् भवति, तत् समूहीकरणं भवति सीसीआधाररेखायाः सापेक्षम् टी.टीटीसमूहीकरणस्य गुणवत्ता यथा अधिका भवति।
तदतिरिक्तं सामान्यतया 1 − ज ( सी ) 1-ज(सी) 1 .1जे() आहूत सीसीबेन्चमार्कस्य विषये टी.टीटी समग्रदोषदरः।अतः समूहीकरणस्य सटीकता ज ( ग ) ज ( ग ) .जे() बृहत् अथवा समग्रदोषदरः 1 − ज ( सी ) 1-ज(सी) 1 .1जे() लघु, एतत् दर्शयति यत् क्लस्टरिंग् एल्गोरिदम् भिन्न-भिन्न-वर्गस्य वस्तुनः भिन्न-भिन्न-क्लस्टर-मध्ये उत्तमरीत्या क्लस्टरं कर्तुं शक्नोति, अर्थात् क्लस्टरिंग्-सटीकता उच्चा भवति

(3) आन्तरिक गुणवत्ता मूल्याङ्कनम्

आन्तरिकगुणवत्तामूल्यांकनार्थं ज्ञाताः बाह्यमापदण्डाः नास्ति, केवलं दत्तांशसमूहानां उपयोगः भवति एस.एसतथा समूहीकरणम् सीसीसमूहस्य आन्तरिकलक्षणानाम् परिमाणानां च मूल्याङ्कनार्थम् सीसी गुणः इति । अर्थात् समूहाणाम् अन्तः औसतसादृश्यं, समूहानां मध्ये औसतसादृश्यं, समग्रसादृश्यं वा गणयित्वा समूहीकरणप्रभावस्य मूल्याङ्कनं भवति
आन्तरिकगुणवत्तामूल्यांकनं क्लस्टरिंग् एल्गोरिदम् इत्यनेन सह सम्बद्धं भवति यत् क्लस्टरिंग् इत्यस्य प्रभावशीलतासूचकाङ्कस्य उपयोगः मुख्यतया क्लस्टरिंग् इफेक्ट् इत्यस्य गुणवत्तायाः मूल्याङ्कनार्थं वा क्लस्टरस्य इष्टतमसङ्ख्यायाः न्यायार्थं भवति आदर्शक्लस्टरिंग् प्रभावः लघुतमः इन्ट्रा-क्लस्टर-दूरता च भवति बृहत्तमः समूहः अतः समूहीकरणस्य प्रभावशीलता सामान्यतया समूहान्तर्गतस्य अन्तरस्य अन्तरस्य च केनचित् प्रकारेण अनुपातेन माप्यते । अस्य प्रकारस्य सामान्यतया प्रयुक्ताः सूचकाः CH सूचकः, Dunn सूचकः, I सूचकः, Xie-eni सूचकः इत्यादयः सन्ति ।

1. CH सूचकः

CH सूचकाङ्कः Calinski-Harabasz सूचकाङ्कस्य संक्षिप्तः अस्ति प्रत्येकस्य समूहकेन्द्रबिन्दुस्य तथा मापनार्थं दत्तांशसमूहस्य केन्द्रबिन्दुस्य मध्ये दत्तांशसमूहस्य पृथक्त्वं, पृथक्त्वस्य सामीप्यस्य च अनुपातः CH सूचकाङ्कः अस्ति
स्थापयति X i ओवरलाइन{X}_iXअहम्‌एकं समूहं प्रतिनिधियति सीसीकेन्द्रबिन्दु (मध्यम), २. X ⁄4 आच्छादनम्{X}Xएकं दत्तांशसमूहं प्रतिनिधियति एस.एसकेन्द्रबिन्दुः d ( X i , X ) d(अतिरेखा{X}_i,अतिरेखा{X})(Xअहम्‌,X) कृते X i ओवरलाइन{X}_iXअहम्‌आगच्छति X ⁄4 आच्छादनम्{X}X, ततः समूहीकरणस्य एकं निश्चितं दूरकार्यम् सीसीमध्यसमूहस्य संकुचितता यथा विवक्षिता
ट्रेस ( A ) = ∑ i = 1 k ∑ X j ∈ C id ( X j , X i ) 2 (10-24) पाठ{अनुसन्धान}(A)=योग_{i=1}^ksum_{X_jin C_i} d (X_j,ओवरलाइन {X}_i) ^ 2टैग {10-24}चिह्न(एकः)=अहम्‌=1kXअहम्‌(X,Xअहम्‌)2(10-24) अतः Trace(A) इति समूहः सीसी समूहकेन्द्रयोः मध्ये वर्गाकारदूराणां योगः ।समूहीकरणं च सीसीविरहस्य प्रमाणं यथा विवक्षितम्
ट्रेस ( B ) = ∑ i = 1 k ∣ C i ∣ d ( X ‾ i , X ‾ ) 2 (10-25) पाठ{अनुसन्धान}(B)=योग_{i=1}^k|C_i|d( ओवरलाइन{X}_i,ओवरलाइन{X})^2टैग{10-25}चिह्न()=अहम्‌=1kअहम्‌(Xअहम्‌,X)2(10-25) अर्थात् Trace(B) क्लस्टरिंग् इति सीसीप्रत्येकं समूहकेन्द्रबिन्दुः के एस.एसके केन्द्रबिन्दुतः वर्गदूराणां भारितयोगः .
अस्मात् यदि N = ∑ i = 1 k ∣ C i ∣न॰=kअहम्‌=1|अहम्‌| न॰=अहम्‌=1kअहम्‌ ततः CH सूचकं यथा परिभाषितुं शक्यते
V CH ( k ) = ट्रेस ( B ) / ( k − 1 ) ट्रेस ( A ) / ( N − k ) (10-26) V_{पाठ{CH}}(k)=frac{text{Trace}(B )/(k-1)}{पाठ{अनुसन्धान}(क)/(Nk)}टैग{10-26}वि(k)=चिह्न(एकः)/(न॰k)चिह्न()/(k1)(10-26) सूत्रं (१०-२६) सामान्यतया निम्नलिखितयोः परिस्थितियोः प्रयोगः भवति ।
(1) द्वयोः एल्गोरिदम्योः प्राप्तः कोऽपि क्लस्टरिंग् श्रेष्ठः इति मूल्याङ्कनं कुर्वन्तु।
मानातु यत् दत्तांशसमूहस्य विश्लेषणार्थं द्वौ अल्गोरिदम् उपयुज्यते एस.एससमूहविश्लेषणं कृत्वा द्वौ भिन्नौ समूहौ (उभौ अपि समाविष्टौ... क्क्kसमूहाः), बृहत्तरस्य CH मूल्यस्य अनुरूपं समूहीकरणं श्रेष्ठं भवति, यतः CH मूल्यं यथा बृहत् भवति तस्य अर्थः अस्ति यत् समूहे प्रत्येकं समूहं स्वस्य समीपे एव भवति, समूहाः च अधिकं विकीर्णाः भवन्ति
(2) एकस्मिन् एव अल्गोरिदम् इत्यनेन प्राप्तयोः भिन्नसङ्ख्यायाः समूहयोः द्वयोः समूहयोः कः श्रेष्ठः इति मूल्याङ्कनं कुर्वन्तु ।
एल्गोरिदम् इत्यस्य दत्तांशसमूहः अस्ति इति कल्पयन्तु एस.एससमूहविश्लेषणं कृत्वा समूहानां संख्या यथा प्राप्ता क १ क_१k1तथा ख २ ख_२2 द्वयोः समूहयोः मध्ये बृहत्तरं CH मूल्यं युक्तं समूहीकरणपरिणामं श्रेष्ठं भवति, यस्य अपि अर्थः अस्ति यत् अस्य समूहस्य अनुरूपसमूहानां संख्या अधिका उपयुक्ता भवतिअतः पुनः पुनः सूत्रं (10-26) प्रयोज्य वयं दत्तांशसमूहमपि प्राप्तुं शक्नुमः एस.एससमूहीकरणार्थं समूहानां इष्टतमसंख्या ।

2. डन् सूचकः

डन् सूचकः समूहानां उपयोगं करोति C i C_iअहम्‌समूहेन सह C j C_jमध्ये न्यूनतमं दूरी ds ( C i , C j ) d_s(C_i,C_j) .(अहम्‌,) सर्वेषु समूहेषु बृहत्तमस्य समूहव्यासस्य उपयोगं कुर्वन् अन्तर-समूहपृथक्करणस्य गणनां कर्तुं max ⁡ { Φ ( सी 1 ), Φ ( सी 2 ), . . . , Φ ( C k ) } max{varPhi(C_1), varPhi(C_2),...,varPhi(C_k)}अधिकतमम्{Φ(1),Φ(2),...,Φ(k)} समूहस्य अन्तः कठिनतायाः लक्षणं ज्ञातुं डन् सूचकाङ्कः पूर्वस्य उत्तरस्य च अनुपातस्य न्यूनतमं मूल्यं भवति अर्थात्
VD ( k ) = min ⁡ i ≠ jds ( C i , C j ) max ⁡ { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } (10-27) V_D(k)=min_{i≠j}frac{d_s(C_i,C_j)}{अधिकतम{varPhi(C_1), varPhi(C_2),...,varPhi (C_k)}}टैग{10-27}वि(k)=अहम्‌=मिअधिकतमम्{Φ(1),Φ(2),...,Φ(k)}(अहम्‌,)(10-27) डन् मूल्यं यत्किमपि बृहत् भवति तथा तथा समूहानां मध्ये दूरं भवति तथा च तत्सम्बद्धं समूहीकरणं तत् उत्तमं भवति ।CH मूल्याङ्कनसूचकाङ्कस्य सदृशं Dunn सूचकाङ्कस्य उपयोगेन भिन्न-भिन्न-एल्गोरिदम्-द्वारा प्राप्तानां समूहानां गुणवत्तायाः मूल्याङ्कनं कर्तुं शक्यते, अपि च भिन्न-भिन्न-समूह-समूह-युक्तेन एकेन एव अल्गोरिदम्-द्वारा प्राप्ताः के समूहाः श्रेष्ठाः सन्ति, अर्थात् तत् अन्वेष्टुं प्रयोक्तुं शक्यते एस.एससमूहानां इष्टतमसंख्या ।

6. आउटलाइयर खननम्

आउटलायर्स् इति दत्तांशसमूहे विशेषदत्तांशः यः अधिकांशदत्तांशतः महत्त्वपूर्णतया विचलितः भवति । पूर्वं प्रवर्तितानां वर्गीकरणस्य, समूहीकरणस्य च इत्यादीनां दत्तांशखनन-एल्गोरिदमानां केन्द्रबिन्दुः अधिकांश-आँकडानां कृते प्रवर्तमानानाम् नियमित-प्रतिमानानाम् आविष्कारः भवति अतः अनेके आँकडा-खनन-अल्गोरिदम्-इत्येतत् खननस्य कार्यान्वयनसमये बहिर्मुखानाम् प्रभावं न्यूनीकर्तुं वा समाप्तुं वा प्रयतन्ते अथवा कोलाहलरूपेण उपेक्षितः, परन्तु अनेकेषु व्यावहारिकप्रयोगेषु जनाः शङ्कयन्ति यत् बहिर्विन्दून् व्यभिचारः यादृच्छिककारकैः न भवति, अपितु अन्यैः सर्वथा भिन्नतन्त्रैः कारणं भवितुम् अर्हति, येषां विशेषविश्लेषणाय उपयोगाय च खनितव्यम् यथा, सुरक्षाप्रबन्धनं जोखिमनियन्त्रणं च इत्यादिषु अनुप्रयोगक्षेत्रेषु सामान्यदत्तांशस्य प्रतिमानापेक्षया बहिःस्थानां पहिचानस्य प्रतिमानं अधिकं मूल्यवान् भवति

(1) सम्बन्धित विषयों का अवलोकन

Outlier इति शब्दस्य अनुवादः प्रायः outlier इति भवति, परन्तु विषमता इति अपि भवति । परन्तु विभिन्नेषु अनुप्रयोगस्थितौ अनेके उपनामानि सन्ति, यथा पृथक् बिन्दवः, असामान्यबिन्दवः, नवीनबिन्दवः, विचलनबिन्दवः, अपवादबिन्दवः, कोलाहलः, असामान्यदत्तांशः इत्यादयः । चीनसाहित्ये विसंगतिदत्तांशखननम्, विसंगतिदत्तांशपरिचयः, आउटलयरदत्तांशखननम्, अपवाददत्तांशखननम्, दुर्लभघटनाखननम् इत्यादयः समानाः शब्दाः आउटलियरखननस्य सन्ति

1. बहिर्मुखानाम् जननम्

(१) धोखाधड़ी, घुसपैठ, रोगप्रकोप, असामान्यप्रयोगपरिणाम इत्यादिजन्यविसंगतिभ्यः आँकडा आगच्छति। यथा, कस्यचित् औसतं दूरभाषबिलम् प्रायः २०० युआन् भवति, परन्तु कस्मिंश्चित् मासे अचानकं कतिपये सहस्राणि युआन् यावत् वर्धते, कस्यचित् क्रेडिट् कार्ड् सामान्यतया मासे प्रायः ५,००० युआन् उपभोगं करोति, परन्तु कस्मिंश्चित् मासे उपभोगः ३०,००० युआन् इत्यादयः अधिकः भवति एतादृशाः बहिर्गाः प्रायः आँकडाखनने तुल्यकालिकरूपेण रोचकाः भवन्ति तथा च अनुप्रयोगस्य प्रमुखबिन्दुषु अन्यतमः भवति ।
(2) दत्तांशचरयोः निहितपरिवर्तनानां कारणेन, दत्तांशवितरणस्य प्राकृतिकलक्षणं प्रतिबिम्बयति, यथा जलवायुपरिवर्तनं, ग्राहकानाम् नवीनक्रयणप्रतिमानं, आनुवंशिकउत्परिवर्तनम् इत्यादयः। अपि च रोचककेन्द्रक्षेत्रेषु अन्यतमम्।
(3) आँकडामापनं संग्रहणं च दोषाः मुख्यतया मानवदोषस्य, मापनसाधनस्य विफलतायाः अथवा कोलाहलस्य उपस्थितेः कारणेन भवन्ति। यथा, कस्मिन्चित् पाठ्यक्रमे -१०० इति छात्रस्य ग्रेडः कार्यक्रमेन निर्धारितस्य पूर्वनिर्धारितमूल्येन भवितुं शक्नोति, यत् कम्पनीयाः शीर्षप्रबन्धकानां वेतनं साधारणकर्मचारिणां वेतनस्य अपेक्षया महत्त्वपूर्णतया अधिकं भवति, परन्तु तत् एव उचितदत्तांशः।

2. आउटलाइयर खननसमस्या

सामान्यतः, बहिर्मुखखननसमस्यायाः वर्णनार्थं त्रीणि उपसमस्यासु विघटितुं शक्यते ।
(1) बहिर्मुखीनां परिभाषां कुरुत
यतो हि बहिर्मुखाः व्यावहारिकसमस्याभिः सह निकटतया सम्बद्धाः सन्ति, तस्मात् स्पष्टतया परिभाषितुं बहिःस्थानां सटीकविश्लेषणं प्रदातुं डोमेनविशेषज्ञानाम् अनुभवं ज्ञानं च संयोजयितुं आवश्यकम् .उचितं वर्णनं परिभाषा वा ददातु।
(2) खनन बहिर्मुखी
आउटलायर-बिन्दून् स्पष्टतया परिभाषितस्य अनन्तरं परिभाषित-आउटलायर-बिन्दून् प्रभावीरूपेण पहिचानाय वा खननार्थं वा किं एल्गोरिदम्-प्रयोगः करणीयः इति आउट्लायर-खननस्य प्रमुखं कार्यम् अस्ति आउटलइयर माइनिंग एल्गोरिदम् प्रायः उपयोक्तृभ्यः संदिग्धं आउटलायर-दत्तांशं प्रदाति यत् दत्तांशेषु प्रतिबिम्बितुं शक्यते इति प्रतिमानाः दृष्ट्या प्रदाति, येन उपयोक्तुः ध्यानं आकर्षयितुं शक्यते
(3) बहिर्मुखान् अवगच्छन्तु
खननपरिणामानां व्यावहारिकप्रयोगस्य उचितव्याख्यानं, अवगमनं, मार्गदर्शनं च बहिर्मुखखननस्य लक्ष्याणि सन्ति । यतो हि यया तन्त्रेण बहिर्मुखाः उत्पद्यन्ते तत् अनिश्चितं भवति, अतः बहिर्मुखखनन-अल्गोरिदमेन ज्ञाताः "बहिःस्थलाः" वास्तवतः वास्तविक-असामान्य-व्यवहारस्य अनुरूपाः सन्ति वा इति, बहिर्मुख-खनन-अल्गोरिदम्-द्वारा व्याख्यातुं व्याख्यातुं च न शक्यते, अपितु केवलं बहिर्मुख-खनन-अल्गोरिदम्-द्वारा एव व्याख्यातुं शक्यते .उद्योगस्य वा डोमेनविशेषज्ञाः निर्देशान् अवगन्तुं व्याख्यातुं च।

3. बहिर्मुखानाम् सापेक्षता

बहिर्मुखाः दत्तांशसमूहे विशेषदत्तांशाः सन्ति ये स्पष्टतया अधिकांशदत्तांशतः व्यभिचरन्ति, परन्तु "स्पष्टतया" "अधिकांशतः" च सापेक्षाः सन्ति, अर्थात् यद्यपि बहिर्गताः भिन्नाः सन्ति तथापि ते सापेक्षाः सन्ति अतः बहिःस्थानां परिभाषणं खननं च कुर्वन् अनेके विषयाः विचारणीयाः सन्ति ।
(1) वैश्विकं वा स्थानीयं वा बहिर्गतिम्
दत्तांशवस्तु स्वस्य स्थानीयपरिजनस्य सापेक्षं बहिर्मुखं भवितुम् अर्हति परन्तु सम्पूर्णदत्तांशसमूहस्य सापेक्षं न । यथा, यः छात्रः १.९ मीटर् ऊर्ध्वः अस्ति सः अस्माकं विद्यालयस्य गणितप्रमुखस्य प्रथमश्रेण्यां बहिःस्थः अस्ति, परन्तु देशे सर्वत्र जनानां मध्ये न, यत्र याओ मिङ्ग् इत्यादयः व्यावसायिकाः क्रीडकाः अपि सन्ति
(2) बहिर्मुखानाम् संख्या
यद्यपि बहिर्मुखबिन्दुसङ्ख्या अज्ञाता अस्ति तथापि सामान्यबिन्दून् संख्या बहिःस्थबिन्दुसङ्ख्यायाः अपेक्षया दूरं अधिका भवेत् अर्थात् बृहत्दत्तांशसमूहे बहिर्मुखबिन्दुसङ्ख्या न्यूनतरं अनुपातं गृह्णीयात् of outlier points ५% तः न्यूनं वा १% तः अपि न्यूनं वा भवेत् ।
(3) बिन्दु के बहिर्मुखी कारक
भवान् "हाँ" अथवा "न" इत्यस्य उपयोगं कर्तुं न शक्नोति यत् कश्चन वस्तु बहिर्मुखी अस्ति वा इति निवेदयितुं तस्य स्थाने वस्तुनः विचलनस्य डिग्री अर्थात् बहिर्मुखी कारकस्य (Outlier Factor) अथवा बहिर्मुखस्य स्कोरस्य (Outlier Score) उपयोगं कर्तव्यम् । समूहस्य डिग्रीतः दत्तांशस्य विचलनस्य लक्षणं ज्ञातुं, ततः निश्चितदहलीजात् अधिकानि बहिर्मुखकारकाणि युक्तानि वस्तुनि छानयित्वा, निर्णयकर्तृभ्यः अथवा डोमेनविशेषज्ञाभ्यः अवगमनाय व्याख्यानार्थं च प्रदातुं, व्यावहारिककार्य्ये च तान् प्रयोक्तुं

(2) दूराधारितविधिः

1. मूलभूतसंकल्पना

परिभाषा १०-११ धनात्मकः पूर्णाङ्कः अस्ति क्क्k, वस्तु XXXइत्यस्य क्क्k-समीपस्थं प्रतिवेशिनः दूरं धनात्मकं पूर्णाङ्कं भवति यत् निम्नलिखितशर्ताः पूरयति dk ( X ) d_k(X) ९.k(X)
(1) व्यतिरिक्त XXXतदतिरिक्तं न्यूनातिन्यूनं सन्ति क्क्kविषयाः YYसम्- राध् d ( X , Y ) ≤ dk ( X ) d(X,Y)≤d_k(X) .(X,)k(X)
(2) व्यतिरिक्त XXXतदतिरिक्तं अधिकतया सन्ति k − 1 k-1k1 विषयाः YYसम्- राध् d ( X , Y ) &lt; dk ( X ) d(X,Y) .(X,)<k(X)
इत्यस्मिन्‌ d ( X , Y ) d(X,Y) ९.(X,) वस्तु इति XXXतथा YYतयोः मध्ये किञ्चित् दूरकार्यं भवति।

वस्तुनः क्क्k-समीपस्थं प्रतिवेशिनः दूरं यावत् बृहत् भवति, तावत् अधिकं सम्भाव्यते यत् वस्तु अधिकांशदत्तांशतः दूरं भवति, अतः वस्तु भवितुम् अर्हति XXXइत्यस्य क्क्k-समीपस्थं प्रतिवेशिनः दूरी dk ( X ) d_k(X) ९.k(X) तस्य बहिर्मुखकारकत्वेन ।

परिभाषा १०-१२ निर्मीयताम्‌ D ( X , k ) = { Y ∣ d ( X , Y ) ≤ dk ( X ) ∧ Y ≠ X } D(X,k)={Y|d(X,Y)≤d_k(X)वेज Y≠ X} २.(X,k)={(X,)k(X)=X}, अथ उच्यते D ( X , k ) D(X,k) ९.(X,k) आम्‌ XXXइत्यस्य क्क्k-समीपस्थः पड़ोसी (डोमेन)।

परिभाषया १०-१२ द्रष्टुं शक्यते यत् D ( X , k ) D(X,k) ९.(X,k) आम्‌ XXXकेन्द्रत्वेन दूरम् इति XXXन अतिक्रमति dk ( X ) d_k(X) ९.k(X) वस्तु YY सङ्ग्रहः रचितः । विशेषतया ध्यानं दातुं योग्यम् अस्ति, XXXतस्य न भवति क्क्k-समीपस्थः प्रतिवेशी अर्थात् । X ∉ D ( X , k ) Xnotin D(X,k) 1 .X/(X,k) . विशेषतः, २. XXXइत्यस्य क्क्k-समीपस्थः प्रतिवेशी D ( X , k ) D(X,k) ९.(X,k) समाविष्टानां वस्तूनाम् संख्या दूरम् अतिक्रान्तं भवेत् क्क्k,वर्तमाने ∣ D ( X , k ) ∣ ≥ k |D(X,k)|≥k(X,k)k

परिभाषा १०-१३ धनात्मकः पूर्णाङ्कः अस्ति क्क्k, वस्तु XXXइत्यस्य क्क्k-समीपस्थः प्रतिवेशिनः बहिर्मुखी कारकः यथा परिभाषितः अस्ति
OF 1 ( X , k ) = ∑ Y ∈ D ( X , k ) d ( X , Y ) ∣ D ( X , k ) ∣ (10-28) पाठ{OF}_1(X,k)=frac{mathop {योग}सीमा_{यिन D(X,k)}d(X,Y)}{|D(X,k)|}टैग{10-28}इत्यस्य1(X,k)=(X,k)(X,k)(X,)(10-28)

2. एल्गोरिदम वर्णन

दत्तस्य दत्तांशसमूहस्य कृते समीपस्थपरिजनदूराणां संख्यायाः च कृते क्क्k, वयं उपर्युक्तसूत्रस्य उपयोगेन गणनां कर्तुं शक्नुमः क्क्k-समीपस्थाः प्रतिवेशिनः बहिर्मुखीकारकाः, तथा च तान् बृहत्तः लघुपर्यन्तं क्रमेण उत्पादनं कुर्वन्ति तेषु बृहत्तराणि बहिर्मुखीकारकाणि सन्ति सामान्यतया, तेषां विश्लेषणं निर्णयकर्तृभिः वा उद्योगविशेषज्ञैः वा करणीयम् , के बिन्दवः वास्तवतः बहिर्गाः सन्ति।

एल्गोरिदम 10-8 दूर-आधारित-आउटलाइयर-परिचय-एल्गोरिदम्
निवेशः दत्तांशसमूहः एस.एस, समीपस्थपरिजनदूराणां संख्या क्क्k
उत्पादनम् : संदिग्धानां बहिर्गलबिन्दुनाम् अवरोही सूची तथा तत्सम्बद्धानां बहिर्मुखीकारकाणां च
(1)पुनरावृत्ति
(2) गृहाण एस.एसअप्रसंस्कृतं वस्तु in XXX
(3) ठीकम् XXXइत्यस्य क्क्k-समीपस्थः प्रतिवेशी D ( X , k ) D(X,k) ९.(X,k)
(4) गणना XXXइत्यस्य क्क्k-निकटतम पड़ोसी बहिर्मुखी कारक OF 1 ( X , k ) पाठ{OF}_1(X,k) .इत्यस्य1(X,k)
(५)पर्यन्तम् एस.एसप्रत्येकं बिन्दुः संसाधितः अस्ति
(6) आम् OF 1 ( X , k ) पाठ{OF}_1(X,k) .इत्यस्य1(X,k)अवरोहणक्रमेण निर्गमेन च क्रमणं कुर्वन्तु ( X , OF 1 ( X , k ) ) (X,पाठ{OF}_1(X,k))(X,इत्यस्य1(X,k))

3. गणना उदाहरणानि

उदाहरणम् १०-१२ ११ बिन्दुभिः सह द्विविमीयः दत्तांशसमूहः एस.एसतत् सारणी १०-१० द्वारा दत्तम् अस्ति, अस्तु क = २ क=२k=2, यूक्लिडियनदूरवर्गगणनायाः उपयोगं कुर्वन्तु X 7 , X 10 , X 11 X_7, X_{10},X_{11} .X7,X10,X11 अन्येषां सर्वेषां बिन्दूनां बहिर्मुखी कारकम्।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
अनबद्धः: अल्गोरिदम् इत्यस्य सिद्धान्तं सहजतया अवगन्तुं वयं करिष्यामः एस.एसइत्यस्मिन् दत्तांशवस्तूनि अधोलिखिते चित्रे (10-27) विमाने प्रदर्शितानि सन्ति ।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
निम्नलिखितम् क्रमशः निर्दिष्टबिन्दुस्य अन्यबिन्दुनाञ्च बहिर्मुखकारकाणां गणनां करोति ।

(1) गणना वस्तु X 7 X_7X7बहिर्मुखी कारक
यथा आकृतितः दृश्यते, दूरम् X 7 = ( 6 , 8 ) X_7=(6,8) .X7=(6,8) समीपस्थः बिन्दुः अस्ति X 10 = ( 5 , 7 ) X_{10}=(5,7) .X10=(5,7),तथा d ( X 7 , X 10 ) = 1.41 d(X_7,X_{10}) =1.41(X7,X10)=1.41, अन्ये समीपस्थबिन्दवः भवेयुः X 11 = ( 5 , 2 ) X_{11}=(5,2) .X11=(5,2) X 9 = ( 3 , 2 ) X_9=(3,2) .X9=(3,2) X 8 = ( 2 , 4 ) X_8=(2,4) .X8=(2,4)
गणितम् d ( X 7 , X 11 ) = 6.08 d(X_7,X_{11})=6.08(X7,X11)=6.08 घ ( X 7 , X 9 ) = 6.71 d(X_7,X_9)=6.71(X7,X9)=6.71 d ( X 7 , X 8 ) = 5.66 d(X_7,X_8)=5.66(X7,X8)=5.66
यतः क = २ क=२k=2,अतः घ २ ( X ७ ) = ५.६६ घ_२(X_७)=५.६६2(X7)=5.66, अतः परिभाषानुसारं १०-११ अस्माकं अस्ति D ( X 7 , 2 ) = { X 10 , X 8 } D(X_7,2)={X_{10},X_8}(X7,2)={X10,X8}
सूत्रानुसारं (१०-२८) २. X 7 X_7X7बहिर्मुखी कारक
OF 1 ( X 7 , 2 ) = ∑ Y ∈ N ( X 7 , 2 ) d ( X 7 , Y ) ∣ N ( X 7 , k ) ∣ = d ( X 7 , X 10 ) + d ( X 7 , 2 ) । X 8 ) 2 = 1.41 + 5.66 2 = 3.54इत्यस्य1(X7,2)=न॰(X7,2)(X7,)|न॰(X7,k)|=(X7,X10)+(X7,X8)2=1.41+5.662=3.54 इत्यस्य1(X7,2)=न॰(X7,k)न॰(X7,2)(X7,)=2(X7,X10)+(X7,X8)=21.41+5.66=3.54(2) गणना वस्तु X १० X_{१०} २.X10बहिर्मुखी कारक OF 1 ( X 10 , 2 ) = 2.83 पाठ{OF}_1(X_{10},2)=2.83इत्यस्य1(X10,2)=2.83

(3) गणना वस्तु X ११ X_{11} इति ।X11बहिर्मुखी कारक OF 1 ( X 11 , 2 ) = 2.5 पाठ{OF}_1(X_{11},2)=2.5इत्यस्य1(X11,2)=2.5

(4) गणना वस्तु X ५ X_{5} इति ।X5बहिर्मुखी कारक OF 1 ( X 5 , 2 ) = 1 पाठ{OF}_1(X_{5},2)=1इत्यस्य1(X5,2)=1

तथैव शेषवस्तूनाम् बहिर्मुखगुणकाः गणयितुं शक्यन्ते, निम्नलिखितसारणी (१०-११) पश्यन्तु ।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
4. आउटलाइयर कारक सीमा

तदनुसारम् क्क्k -समीपस्थः प्रतिवेशिनः सिद्धान्तः यथा यथा बृहत् भवति तथा बहिर्मुखीकारकः भवति अतः सामान्यबिन्दुभ्यः बहिःस्थानां भेदं कर्तुं सीमा निर्दिष्टा भवितुमर्हति। सरलतमः विधिः अस्ति बहिर्मुखबिन्दुसङ्ख्यां निर्दिष्टुं, परन्तु एषा पद्धतिः अतीव सरलः अस्ति तथा च कदाचित् केचन वास्तविकाः बहिर्मुखबिन्दवः चूकति अथवा सम्भाव्यबाह्यबिन्दुभ्यः अत्यधिकं सामान्यबिन्दून् विशेषयति, येन डोमेनविशेषज्ञानाम् अथवा निर्णयकर्तृणां कृते कठिनताः उत्पद्यन्ते बहिर्मुखानाम् अवगमने व्याख्याने च।
(1) आउटलइयर कारक विभाजन थ्रेशोल्ड विधि प्रथमं आउटलायर कारकं अवरोहणक्रमेण व्यवस्थापयति, तथा च तस्मिन् एव काले आउटलइयर कारकानाम् अनुसारं आरोहणक्रमेण दत्तांशवस्तूनाम् पुनः संख्यां करोति
(2) बहिर्मुखकारकस्य आधारेण OF 1 ( X , k ) पाठ{OF}_1(X,k) .इत्यस्य1(X,k) क्रमाङ्कः, बहिर्मुखकारकः क्रमाङ्कः च अब्सिसा अर्थात् (क्रमाङ्कः, OF 1 पाठ{OF}_1इत्यस्य1मूल्यं) विमानस्य उपरि चिह्निताः भवन्ति तथा च अ-वृद्धिशीलं बहुरेखां निर्मातुं संयोजिताः भवन्ति, तथा च यत्र बहुरेखा तीक्ष्णक्षयेन सह मृदुक्षयेन च पारं करोति सः बिन्दुः बहिर्मुख्यकारकस्य अनुरूपः भवति यथा बहिर्मुखी कारकं न्यूनं भवति than or equal to this threshold are normal objects , अन्ये सम्भाव्य बहिर्गाः सन्ति ।

उदाहरणम् १०-१३ उदाहरण 10-12 कृते दत्तांशसमूहः एस.एस , तस्य बहिर्मुखकारकाणां सारांशः अवरोहीक्रमेण क्रमाङ्केन च सारणी 10-11 मध्ये दर्शितः अस्ति । आउटलायर कारक विभाजन थ्रेशोल्ड पद्धत्या आधारितं आउटलइयर बिन्दुनाम् सीमां अन्वेष्टुं प्रयतध्वम् ।

अनबद्धः: प्रथमं (serial number, 1000) इत्यस्य उपयोगं कुर्वन्तु । OF 1 पाठ{OF}_1इत्यस्य1 value) इति विमानस्य बिन्दुरूपेण, विमाने चिह्नितं बहुरेखाभिः च संयोजितम् । यथा अधोलिखिते चित्रे १०-२८ दर्शितम् ।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
ततः चित्रं १०-२८ दृष्ट्वा वयं ज्ञातुं शक्नुमः यत् चतुर्थबिन्दुस्य (४, १.२७) वामे स्थिता बहुरेखा अतीव तीव्ररूपेण पतति, दक्षिणभागे स्थिता बहुरेखा अतीव मन्दं पतति अतः आउट्लायरकारकं १.२७ इति चयनं भवति देहली।यतः X 7 、 X 10 X_7、X_{10} .X7X10 तथा X ११ X_{11} इति ।X11 बहिर्गताकारकाः क्रमशः ३.५४, २.८३, २.५ च सन्ति, ये सर्वे १.२७ तः अधिकाः सन्ति अतः एते त्रयः बिन्दवः बहिःस्थबिन्दवः भवितुम् अधिकतया सम्भाव्यन्ते, शेषबिन्दवः तु साधारणबिन्दवः सन्ति
पुनः चित्रं १०-२७ दृष्ट्वा वयं तत् ज्ञातुं शक्नुमः X 7 、 X 10 X_7、X_{10} .X7X10 तथा X ११ X_{11} इति ।X11 ननु वामे सघनबहुसंख्यकवस्तूनाम् दूरम्, अतः तान् दत्तांशसमूहरूपेण व्यवहरन्तु एस.एसबहिर्गताः युक्तियुक्ताः सन्ति।

5. एल्गोरिदम मूल्याङ्कनम्

दूरी-आधारित-बहिर्मुख-परिचय-पद्धतेः बृहत्तमः लाभः अस्ति यत् सिद्धान्ततः सरलं, उपयोगाय च सुलभं भवति, अस्य दोषाः मुख्यतया निम्नलिखित-पक्षेषु प्रतिबिम्बिताः भवन्ति ।
(1) पैरामीटर् क्क्kचयनं मापदण्डेषु परीक्षणपरिणामानां प्रभावं निर्धारयितुं सरलस्य प्रभावी च पद्धतेः अभावः अस्ति क्क्kसंवेदनशीलतायाः प्रमाणस्य विषये सर्वत्र स्वीकृतं विश्लेषणात्मकं परिणामं नास्ति ।
(2) कालजटिलता अस्ति ओ ( ∣ स ∣ २ ) ओ(|S|^2)(2), बृहत्-परिमाणस्य दत्तांशसमूहानां कृते मापनीयतायाः अभावः अस्ति ।
(3) वैश्विकस्य बहिर्मुखकारकदहलीजस्य उपयोगात् भिन्नघनत्वस्य प्रदेशैः सह दत्तांशसमूहेषु बहिर्मुखीनां खननं कठिनम् अस्ति ।

(3) सापेक्षघनत्वमाश्रितविधिः

दूरविधिः वैश्विकः बहिर्मुखपरीक्षणविधिः अस्ति, परन्तु सा भिन्नघनत्वक्षेत्रेषु दत्तांशसमूहान् सम्भालितुं न शक्नोति, अर्थात् स्थानीयघनत्वक्षेत्रेषु बहिर्मुखानाम् अन्वेषणं कर्तुं न शक्नोति यदा दत्तांशसमूहे बहुघनत्ववितरणं भवति अथवा भिन्नघनत्वउपसमूहानां मिश्रणं भवति तदा दूरम् इत्यादयः वैश्विकबाह्यपरिचयविधयः सामान्यतया सम्यक् कार्यं न कुर्वन्ति, यतः वस्तु बहिःस्थः अस्ति वा इति न केवलं परितः दत्तांशैः सह तस्य सम्बन्धे निर्भरं भवति समीपस्थे घनत्वेन सह सम्बद्धः अस्ति ।

1. सापेक्षघनत्वस्य अवधारणा

घनत्वपरिसरस्य दृष्ट्या बहिर्गताः न्यूनघनत्वयुक्तेषु क्षेत्रेषु वस्तूनि सन्ति अतः स्थानीयपरिसरघनत्वस्य, वस्तुनां सापेक्षघनत्वस्य च अवधारणानां परिचयः आवश्यकः

परिभाषा १०-१४ (१) वस्तु XXXइत्यस्य क्क्k-समीपस्थः प्रतिवेशी स्थानीयघनत्वं (घनत्वं) इति परिभाषितम् अस्ति
dsty ( X , k ) = ∣ D ( X , k ) ∣ ∑ Y ∈ D ( X , k ) d ( X , Y ) (10-29) पाठ{dsty}(X,k)=frac{|D( X,k)|}{मथोप{योग}सीमा_{यिन D(X,k)}d(X,Y)}टैग{10-29}dsty(X,k)=(X,k)(X,)(X,k)(10-29) (2) वस्तु XXXइत्यस्य क्क्k-निकटतम पड़ोसी स्थानीय सापेक्ष घनत्व (सापेक्षिक घनत्व) २.
rdsty ( X , k ) = ∑ Y ∈ D ( X , k ) dsty ( X , k ) / ∣ D ( X , k ) ∣ dsty ( X , k ) (10-30) पाठ{rdsty}(X,k )=frac{mathop{sum}सीमा_{यिन D(X,k)}पाठ{dsty}(X,k)/|D(X,k)|}{पाठ{dsty}(X,k)}टैग{ १०-३०} २.rdsty(X,k)=dsty(X,k)(X,k)dsty(X,k)/∣(X,k)(10-30) इत्यस्मिन्‌ D ( X , k ) D(X,k) ९.(X,k) वस्तु इति XXXइत्यस्य क्क्k- समीपस्थः प्रतिवेशी (परिभाषा १०-१२ दत्तः), २. ∣ D ( X , k ) ∣ |D(X,k)|(X,k) इति सङ्ग्रहे पदार्थानां संख्या ।

2. एल्गोरिदम वर्णन

इत्यनेन rdsty ( X , k ) पाठ{rdsty}(X,k) .rdsty(X,k) बहिर्मुखत्वेन OF 2 ( X , k ) पाठ{OF}_2(X,k) .इत्यस्य2(X,k), तस्य गणना द्विधा विभक्ता भवति
(1) प्रतिवेशिनः संख्यानुसारम् क्क्k, प्रत्येकं वस्तु गणयन्तु XXXइत्यस्य क्क्k-समीपस्थः पड़ोसी स्थानीयघनत्वम् dsty ( X , k ) पाठ{dsty}(X,k) .dsty(X,k)
(2) गणना XXXसमीपस्थानां प्रतिवेशिनां औसतघनत्वं च क्क्k-निकटतम पड़ोसी स्थानीय सापेक्ष घनत्व rdsty ( X , k ) पाठ{rdsty}(X,k) .rdsty(X,k)
दत्तांशसमूहः बहुभिः प्राकृतिकसमूहैः युक्तः भवति समूहस्य अन्तः कोरबिन्दुसमीपस्थानां वस्तुनां सापेक्षिकघनत्वं १ समीपे भवति, यदा तु समूहस्य धारायाम् अथवा समूहस्य बहिः स्थितानां वस्तुनां सापेक्षिकघनत्वं तुल्यकालिकरूपेण बृहत् भवति अतः सापेक्षिकघनत्वमूल्यं यथा यथा बृहत् भवति तथा तथा तस्य बहिर्मुखत्वस्य सम्भावना अधिका भवति ।

एल्गोरिदम 10-9 सापेक्षिकघनत्वस्य आधारेण आउटलइयर-परिचय-एल्गोरिदम्
निवेशः दत्तांशसमूहः एस.एस, समीपस्थानां प्रतिवेशिनां संख्या क्क्k
उत्पादनम् : संदिग्धानां बहिर्गलबिन्दुनाम् अवरोही सूची तथा तत्सम्बद्धानां बहिर्मुखीकारकाणां च
(1)पुनरावृत्ति
(2) गृहाण एस.एसअप्रसंस्कृतं वस्तु in XXX
(3) ठीकम् XXXइत्यस्य क्क्k-समीपस्थः प्रतिवेशी D ( X , k ) D(X,k) ९.(X,k)
(4) उपयोग D ( X , k ) D(X,k) ९.(X,k)गणयतु XXXघनत्व dsty ( X , k ) पाठ{dsty}(X,k) .dsty(X,k)
(५)पर्यन्तम् एस.एसप्रत्येकं बिन्दुः संसाधितः अस्ति
(6)पुनरावृत्ति
(7) गृहाण एस.एसप्रथमं वस्तु in XXX
(8) ठीकम् XXXसापेक्षिकघनत्वस्य rdsty ( X , k ) पाठ{rdsty}(X,k) .rdsty(X,k), तत् च नियुङ्क्ते OF 2 ( X , k ) पाठ{OF}_2(X,k) .इत्यस्य2(X,k)
(९)पर्यन्तम् एस.एसमध्ये सर्वाणि वस्तूनि संसाधितानि सन्ति
(१०) सम्यक् OF 2 ( X , k ) पाठ{OF}_2(X,k) .इत्यस्य2(X,k)अवरोहणक्रमेण निर्गमेन च क्रमणं कुर्वन्तु ( X , OF 2 ( X , k ) ) (X,पाठ{OF}_2(X,k))(X,इत्यस्य2(X,k))

उदाहरणम् १०-१४ उदाहरणे १०-१२ दत्तस्य द्विविधदत्तांशसमूहस्य कृते एस.एस (विवरणार्थं सारणी १०-१० पश्यन्तु), अतः क = २ क=२k=2, यूक्लिडियन-अन्तरस्य गणनां कर्तुं प्रयतध्वम् X 7 , X 10 , X 11 X_7, X_{10},X_{11} .X7,X10,X11 समानवस्तूनाम् सापेक्षिकघनत्वस्य आधारेण बहिःस्थकारकः ।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
अनबद्धः:यतः क = २ क=२k=2, अतः अस्माकं सर्वेषां वस्तुनां २-समीपस्थं प्रतिवेशिनः स्थानीयघनत्वं आवश्यकम् ।

(1) सारणी 10-11 मध्ये प्रत्येकस्य दत्तांशवस्तुनः 2-समीपस्थं प्रतिवेशकं ज्ञातव्यम् D ( X i , 2 ) D(X_i,2) ९.(Xअहम्‌,2)
उदाहरणे १०-१२ मध्ये समानगणनाविधिना वयं प्राप्तुं शक्नुमः
D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } , D ( X 2 , 2 ) = { X 1 , X 6 } , D ( X 3 , 2 ) = { X 1 , X 4 } . , D ( X 4 , 2 ) = { X 3 , X 5 } , D ( X 5 , 2 ) = { X 1 , X 4 , X 6 , X 9 } , D ( X 6 , 2 ) = { X 2 , X 5 , X 8 } , D ( X 7 , 2 ) = { X 10 , X 8 } , D ( X 8 , 2 ) = { X 2 , X 6 } , D ( X 9 , 2 ) = { X ५ , X ४ , X ६ } , D ( X 10 , 2 ) = { X 7 , X 8 } , D ( X 11 , 2 ) = { X 9 , X 5 } .(X1,2)={X2,X3,X5}(X2,2)={X1,X6}              (X3,2)={X1,X4}(X4,2)={X3,X5}       (X5,2)={X1,X4,X6,X9}(X6,2)={X2,X5,X8}(X7,2)={X10,X8}     (X8,2)={X2,X6}               (X9,2)={X5,X4,X6}(X10,2)={X7,X8}     (X11,2)={X9,X5} (X1,2)={X2,X3,X5}(X2,2)={X1,X6}              (X3,2)={X1,X4}(X4,2)={X3,X5}       (X5,2)={X1,X4,X6,X9}(X6,2)={X2,X5,X8}(X7,2)={X10,X8}     (X8,2)={X2,X6}               (X9,2)={X5,X4,X6}(X10,2)={X7,X8}     (X11,2)={X9,X5}

(2) प्रत्येकस्य दत्तांशवस्तुनः स्थानीयघनत्वस्य गणनां कुर्वन्तु dsty ( X i , 2 ) पाठ{dsty}(X_i,2) .dsty(Xअहम्‌,2)

1 गणनां कुरुत X 1 X_1X1घनत्व
यतः D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } D(X_1,2)={X_2,X_3,X_5} .(X1,2)={X2,X3,X5}, अतः गणनापश्चात् अस्माकं अस्ति d ( X 1 , X 2 ) = 1 d(X_1,X_2)=1(X1,X2)=1 d ( X 1 , X 3 ) = 1 d(X_1,X_3)=1(X1,X3)=1 d ( X 1 , X 5 ) = 1 d(X_1,X_5)=1(X1,X5)=1
(१०-२९) सूत्रानुसारं वयं प्राप्नुमः : १.
dsty ( X 1 , 2 ) = ∣ D ( X 1 , 2 ) ∣ ∑ Y ∈ N ( X 1 , 2 ) d ( X 1 , Y ) = ∣ N ( X 1 , 2 ) ∣ d ( X 1 , X २ ) + घ ( X 1 , X 3 ) + d ( X 1 , X 5 ) = 3 1 + 1 + 1 = 1dsty(X1,2)=|(X1,2)|न॰(X1,2)(X1,)=|न॰(X1,2)|(X1,X2)+(X1,X3)+(X1,X5)=31+1+1=1 dsty(X1,2)=न॰(X1,2)(X1,)(X1,2)=(X1,X2)+(X1,X3)+(X1,X5)न॰(X1,2)=1+1+13=1

२ गणना X 2 X_2X2घनत्व
यतः D ( X 2 , 2 ) = { X 1 , X 6 } D(X_2,2)={X_1,X_6} .(X2,2)={X1,X6}, अतः गणितम् d ( X 2 , X 1 ) = 1 d(X_2,X_1) =1(X2,X1)=1 d ( X 2 , X 6 ) = 1 d(X_2,X_6) =1(X2,X6)=1
(१०-२९) सूत्रानुसारं वयं प्राप्नुमः : १.
dsty ( X 2 , 2 ) = ∣ D ( X 2 , 2 ) ∣ ∑ Y ∈ N ( X 2 , 2 ) d ( X 2 , Y ) = 2 1 + 1 = 1dsty(X2,2)=|(X2,2)|न॰(X2,2)(X2,)=21+1=1 dsty(X2,2)=न॰(X2,2)(X2,)(X2,2)=1+12=1

अन्येषां दत्तांशवस्तूनाम् स्थानीयघनत्वं तथैव गणयितुं शक्यते, अधः सारणी १०-१२ पश्यन्तु ।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
(3) प्रत्येकं वस्तु गणयन्तु X i X_iXअहम्‌सापेक्षिकघनत्वस्य rdsty ( X i , 2 ) पाठ{rdsty}(X_i, 2) .rdsty(Xअहम्‌,2), तथा च बहिर्गतिकारकत्वेन मन्यन्ते OF 2 पाठ{OF}_2इत्यस्य2
1 गणनां कुरुत X 1 X_1X1सापेक्षिकघनत्वस्य
सापेक्षिकघनत्वसूत्रस्य (१०-३०) अनुसारं सारणी १०-१२ मध्ये प्रत्येकस्य वस्तुनः घनत्वमूल्यं उपयुज्य:
rdsty ( X 1 , 2 ) = ∑ Y ∈ N ( X 1 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 1 , 2 ) ∣ dsty ( X 1 , 2 ) = ( 1 + 1 + 1 ) / 1 . ३ १ = १ = OF २ ( X 1 , 2 ) .rdsty(X1,2)=न॰(X1,2)dsty(,2)/|न॰(X1,2)|dsty(X1,2)=(1+1+1)/31=1=इत्यस्य2(X1,2) rdsty(X1,2)=dsty(X1,2)न॰(X1,2)dsty(,2)/∣न॰(X1,2)=1(1+1+1)/3=1=इत्यस्य2(X1,2)

२ तथैव गणना प्राप्तुं शक्यते X 2 、 X 3 、 ... 、 X 11 X_2、X_3、...、X_{11}X2X3X11 सापेक्ष घनत्व मूल्य।
उदाहरणतया X 5 X_5X5सापेक्षिकघनत्वम् : १.
rdsty ( X 5 , 2 ) = ∑ Y ∈ N ( X 5 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 5 , 2 ) ∣ dsty ( X 5 , 2 ) = ( 1 + 1 + 1 + 0.79 ) / ४ १ = ०.९५ = OF २ ( X ५ , २ ) .rdsty(X5,2)=न॰(X5,2)dsty(,2)/|न॰(X5,2)|dsty(X5,2)=(1+1+1+0.79)/41=0.95=इत्यस्य2(X5,2) rdsty(X5,2)=dsty(X5,2)न॰(X5,2)dsty(,2)/∣न॰(X5,2)=1(1+1+1+0.79)/4=0.95=इत्यस्य2(X5,2) परिणामाः अधोलिखितेषु सारणीषु १०-१३ मध्ये सारांशतः दर्शिताः सन्ति ।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
उदाहरणम् १०-१५ सारणी 10-14 मध्ये दर्शितं दत्तांशसमूहं दृष्ट्वा कृपया Euclidean distance to इत्यस्य उपयोगं कुर्वन्तु k = 2 , 3 , 5 k=2,3,5k=2,3,5, प्रत्येकस्य बिन्दुस्य मूल्यं गणयन्तु क्क्k-निकटतम पड़ोसी स्थानीय घनत्व, . क्क्k-निकटतमः पड़ोसी स्थानीयः सापेक्षिकघनत्वं (आउटलाइयर कारकम् OF 2 पाठ{OF}_2इत्यस्य2) आधारितं च क्क्k-समीपस्थस्य प्रतिवेशिनः दूरस्य कृते बहिर्मुखी कारकम् OF 1 पाठ{OF}_1इत्यस्य1

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
अनबद्धः: (1) अवगमनस्य सुविधायै भवितुं शक्नोति एस.एसबिन्दुनाम् सापेक्षस्थानानि द्विविमविमानस्य उपरि चिह्नितानि सन्ति (चित्रम् १०-३०) ।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
(2) दूरी- सापेक्षिकघनत्व-आधारित-अल्गोरिदम् क्रमशः 10-8 तथा 10-9 इत्यस्य उपयोगं कुर्वन्तु।प्रत्येकं वस्तु पृथक् पृथक् गणयन्तु क्क्k-समीपस्थः पड़ोसी स्थानीयघनत्वम् dsty पाठ{dsty}dsty क्क्k-निकटतमः पड़ोसी स्थानीयः सापेक्षिकघनत्वं (आउटलाइयर कारकम् OF 2 पाठ{OF}_2इत्यस्य2) आधारितं च क्क्k-समीपस्थस्य प्रतिवेशिनः दूरस्य कृते बहिर्मुखी कारकम् OF 1 पाठ{OF}_1इत्यस्य1, परिणामाः सारणी १०-१५ मध्ये सारांशतः दर्शिताः सन्ति ।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
(3) सरलं विश्लेषणम्
1 यथा चित्रे १०-३०, ९. X १५ X_{15} इति ।X15तथा X १६ X_{16} इति ।X16आम्‌ एस.एसतत्र द्वौ स्पष्टौ बहिर्मुखौ स्तः, दूरं सापेक्षघनत्वं च आधारिताः पद्धतयः तान् अधिकतया खनितुं शक्नुवन्ति;
२ अस्मात् उदाहरणात् द्वयोः अल्गोरिदम्योः अस्ति क्क्kअपेक्षितवत् संवेदनशीलः नास्ति, भवतु बहिर्गतः। X १५ X_{15} इति ।X15तथा X १६ X_{16} इति ।X16अन्येभ्यः विषयेभ्यः विरहः अतीव स्पष्टः अस्ति ।
3यथा सारणी 10-15 तः द्रष्टुं शक्यते, किमपि न क्क्k२, ३ वा ५, ९. X 1 X_1X1प्रदेशस्य dsty पाठ{dsty}dsty मूल्यानि महत्त्वपूर्णतया न्यूनानि सन्ति X 7 X_7X7प्रदेशस्य dsty पाठ{dsty}dsty मूल्यं, यत् चित्रे १०-३० दर्शितेन क्षेत्रघनत्वेन सह सङ्गतम् अस्ति ।परन्तु द्वयोः प्रदेशयोः सापेक्षिकघनत्वमूल्यम् OF 2 पाठ{OF}_2इत्यस्य2 परन्तु तत्र प्रायः स्पष्टः भेदः नास्ति । एतत् सापेक्षिकघनत्वस्य प्रकृत्या निर्धारितं भवति अर्थात् एकरूपरूपेण वितरितदत्तांशबिन्दून् कृते बिन्दुयोः मध्ये दूरं न कृत्वा कोरबिन्दून् सापेक्षघनत्वं १ भवति

7. अन्ये समूहीकरणविधयः

1. क्लस्टरिंग् एल्गोरिदम् उन्नतम्

  (1) क्क्k-मोद ( क्क्k-modes) अल्गोरिदम् इत्यस्य कृते अस्ति क्क्k -सरासरी एल्गोरिदम् केवलं संख्यात्मकगुणानां सीमायाः कृते उपयुक्तः अस्ति तथा च असततदत्तांशस्य द्रुतगतिसमूहीकरणं प्राप्तुं प्रस्तावितं भवति ।यतः क्क्k-मॉड्यूलर एल्गोरिदम् एकस्यैव असततविशेषणस्य अन्तर्गतं द्वयोः विशेषतामूल्यानां मध्ये दूरं गणयितुं सरलं 0-1 मेलविधिं प्रयुङ्क्ते, यत् क्रमिकविशेषणमूल्यानां मध्ये अन्तरं दुर्बलं करोति, अर्थात् द्वयोः विशेषतामूल्यानां मध्ये अन्तरं पूर्णतया प्रतिबिम्बयितुं न शक्नोति तस्यैव क्रमिकगुणस्य अन्तर्गतम् अद्यापि सुधारस्य, सुधारस्य च स्थानं वर्तते ।
  (2) क्क्k-आद्यप्रकार ( . क्क्k-प्रोटोटाइप) एल्गोरिदम् इत्यनेन सह संयुक्तम् क्क्k-सहित एल्गोरिदम् औसतन क्क्k -मॉड्यूलर एल्गोरिदमस्य लाभः अस्ति यत् एतत् असतत-संख्यात्मक-विशेषताभिः (मिश्रित-विशेषता इति कथ्यते) द्वयोः सह आँकडा-समूहान् क्लस्टरं कर्तुं शक्नोति ।विच्छिन्नगुणानां कृते गृह्णाति क्क्k-मॉड्यूलर एल्गोरिदम गणना वस्तु XXXतथा YYअन्तरं d 1 ( X , Y ) d_1(X,Y) .1(X,), संख्यात्मकविशेषणानां कृते प्रयोगः क्क्k-सरासरीकरण-अल्गोरिदम् इत्यस्मिन् पद्धतयः वस्तुनां मध्ये दूरं गणयन्ति d 2 ( X , Y ) d_2(X,Y) .2(X,), अन्ते च भारविधिं प्रयोजयन्तु अर्थात् α d 1 ( X , Y ) + ( 1 − α ) d 2 ( X , Y ) अल्फा d_1(X,Y)+(1-अल्फा)d_2(X,Y) .α1(X,)+(1α)2(X,) दत्तांशसमूहवस्तुरूपेण XXXतथा YYअन्तरं d ( X , Y ) d(X,Y) ९.(X,),इत्यस्मिन्‌ α ∈ [ 0 , 1 ] अल्फाइन[0,1] ।α[0,1] भारगुणकं भवति, प्रायः भवितुम् अर्हति α = 0.5 अल्फा=0.5α=0.5
(3) BIRCH एल्गोरिदम् (Balanced Iterative Reducing and Clustering Using Hierarchies) एकः व्यापकः श्रेणीबद्धः समूहीकरणविधिः अस्ति ।एतत् समूहानां समूहानां सारांशं दातुं Clustering Features (CF) तथा Clustering Feature Tree (CF Tree, B-tree इत्यस्य सदृशम्) इत्येतयोः उपयोगं करोति । C i C_iअहम्‌,इत्यस्मिन्‌ CF i = ( नि , LS i , SS i ) text{CF}_i=(नि, पाठ{LS}_i,पाठ{SS}_i)सी.एफअहम्‌=(नि,लस्अहम्‌,एस.एसअहम्‌) त्रिगुणः अस्ति, २. नि न_इअहम्‌इति समूहे पदार्थानां संख्या, २. LS i पाठ{LS}_iलस्अहम्‌आम्‌ नि न_इअहम्‌वस्तुघटकानाम् रेखीययोगः, २. SS i पाठ{SS}_iएस.एसअहम्‌आम्‌ नि न_इअहम्‌वस्तुनः अवयवानां वर्गानां योगः ।
(4) CURE (Clustering Using Representatives) एल्गोरिदम् इत्यस्य कृते अस्ति क्क्k -सरासरीकरणस्य एल्गोरिदम् इत्यस्य अन्यः सुधारः । अनेकाः क्लस्टरिंग् एल्गोरिदम् केवलं गोलाकारक्लस्टरिंग् इत्यत्र उत्तमाः सन्ति, यदा तु केचन क्लस्टरिंग् एल्गोरिदम् पृथक्कृतबिन्दुषु अधिकं संवेदनशीलाः भवन्ति । उपर्युक्तयोः समस्यायोः समाधानार्थं CURE एल्गोरिदम् परिवर्तितम् अस्ति क्क्k-Averaging algorithm इत्यनेन cluster center sum इत्यस्य उपयोगः भवति क्क्k-केन्द्रबिन्दु एल्गोरिदम् एकस्य समूहस्य प्रतिनिधित्वार्थं एकस्य विशिष्टस्य वस्तुनः उपयोगं करोति, पारम्परिकपद्धतिः, परन्तु समूहस्य प्रतिनिधित्वार्थं समूहे बहुप्रतिनिधिवस्तूनाम् उपयोगं करोति, येन सः अगोलाकारसमूहानां समूहीकरणस्य अनुकूलतां प्राप्तुं शक्नोति तथा च तस्य प्रभावं न्यूनीकर्तुं शक्नोति समूहीकरणे कोलाहलः ।
(5) ROCK (RObust Clustering using linK) एल्गोरिदम् द्विचक्रीय अथवा श्रेणीगतविशेषतादत्तांशसमूहानां कृते प्रस्तावितं क्लस्टरिंग् एल्गोरिदम् अस्ति ।
(6) DBSCAN एल्गोरिदमस्य घनत्वं न्यूनीकर्तुं OPTICS (Ording Points To Identify the Clustering Structure) एल्गोरिदम् इत्यस्य उपयोगः भवति । ( ε , MinPts ) (varepsilon,पाठ{MinPts})(ε,MinPts) पैरामीटर संवेदनशीलता। इदं स्पष्टतया परिणामसमूहान् न जनयति, परन्तु समूहविश्लेषणार्थं संवर्धितं समूहक्रमणं जनयति (उदाहरणार्थं, ऊर्ध्वाधर-अक्षरूपेण प्राप्य दूरं, क्षैतिज-अक्षरूपेण च नमूनाबिन्दुनिर्गमक्रमेण सह समन्वय-चार्टः) एषा श्रेणी प्रत्येकस्य नमूनाबिन्दुस्य घनत्व-आधारित-समूहीकरण-संरचनायाः प्रतिनिधित्वं करोति ।वयं कस्यापि घनत्वमापदण्डस्य आधारेण अस्मात् क्रमाङ्कनात् प्राप्तुं शक्नुमः ( ε , MinPts ) (varepsilon,पाठ{MinPts})(ε,MinPts) DBSCAN एल्गोरिदम् इत्यस्य क्लस्टरिंग् परिणामाः ।

2. अन्ये नवीनाः समूहीकरणविधयः

नूतनानां समूहीकरणपद्धतीनां परिकल्पनाय केचन नूतनाः सिद्धान्ताः अथवा तकनीकाः उपयुज्यताम् ।

(1) जाल-आधारित-समूहीकरण-विधिः
जाल-आधारित-विधिः वस्तु-अन्तरिक्षस्य परिमाणं कृत्वा जाल-संरचनायाः निर्माणं करोति, तथा च प्रत्येकस्मिन् आयामे विभाजन-बिन्दु-स्थान-सूचना विभाजन-रेखाः सम्पूर्ण-अन्तरिक्षे, सर्वाणि च समूहीकरणं कुर्वन्ति operations are performed in अस्मिन् जालसंरचने (अर्थात् क्वाण्टाइजेशन स्पेस) Performed. अस्याः पद्धतेः मुख्यः लाभः अस्ति यत् अस्य प्रसंस्करणवेगः दत्तांशवस्तूनाम् संख्यातः स्वतन्त्रः भवति तथा च केवलं परिमाणीकरणस्थानस्य प्रत्येकस्मिन् आयामे कोष्ठकानां संख्यायाः सह सम्बद्धः भवति तथापि तस्य कार्यक्षमतासुधारः अस्ति परिणामानां समूहीकरणस्य व्ययः सटीकतायाः व्ययेन। यतो हि ग्रिड् क्लस्टरिंग् एल्गोरिदम् इत्यस्य मात्रानिर्धारणपरिमाणस्य समस्या अस्ति, अतः वयं प्रायः प्रथमं लघु-एककानां समूहान् अन्वेष्टुं आरभामः, ततः क्रमेण एककानां आकारं वर्धयामः, तथा च यावत् सन्तोषजनकाः समूहाः न प्राप्यन्ते तावत् एतां प्रक्रियां पुनः पुनः कुर्मः

(2) आदर्श-आधारित-समूहीकरण-विधिः
आदर्श-आधारित-विधयः प्रत्येकस्य समूहस्य कृते एकं प्रतिरूपं गृह्णन्ति, दत्तस्य प्रतिरूपस्य कृते दत्तांशस्य सर्वोत्तम-सङ्गतिं च अन्विष्यन्ति । आदर्श-आधारित-विधयः घनत्व-कार्यं स्थापयित्वा दत्त-दत्तांशस्य तथा कतिपयेषु आँकडा-प्रतिरूपेषु अनुकूलतां अनुकूलितुं प्रयतन्ते ये समूहानां स्थानं ज्ञातुं नमूनानां स्थानिकवितरणं प्रतिबिम्बयन्ति

(3) अस्पष्टसमूहस्य आधारेण समूहीकरणविधिः
व्यवहारे अधिकांशवस्तूनि कस्मिन् समूहे सन्ति इति कठोरविशेषणमूल्यं नास्ति तेषां विशेषणमूल्ये रूपेण च मध्यस्थता अथवा अनिश्चितता अस्ति, यत् मृदुविभाजनार्थं उपयुक्तम् अस्ति । यतो हि अस्पष्टसमूहविश्लेषणस्य लाभः अस्ति यत् नमूनाविशेषणस्य अन्तरङ्गतायाः वर्णनं भवति तथा च यथार्थजगत् वस्तुनिष्ठरूपेण प्रतिबिम्बयितुं शक्नोति, अतः अद्यतनसमूहविश्लेषणसंशोधनस्य उष्णस्थानेषु अन्यतमं जातम्
फजी क्लस्टरिंग् एल्गोरिदम् फजी गणितीयसिद्धान्ते आधारिता अनिरीक्षिता शिक्षणपद्धतिः अस्ति तथा च अनिश्चितसमूहीकरणपद्धतिः अस्ति । एकदा फजी क्लस्टरिंग् प्रस्तावितं जातं तदा शैक्षणिकसमुदायात् अस्य विषये महत् ध्यानं प्राप्तम् फजी क्लस्टरिंग् इति एकः विशालः क्लस्टरिंग् "परिवारः" अस्ति, तथा च फजी क्लस्टरिंग् विषये संशोधनम् अपि अतीव सक्रियम् अस्ति

(4) रूक्षसमूहस्य आधारेण समूहीकरणविधिः
रूक्षसमूहीकरणं रूक्षसमूहसिद्धान्ताधारितं अनिश्चितसमूहीकरणविधिः अस्ति । रूक्षसमूहानां तथा समूहीकरणस्य एल्गोरिदमानां मध्ये युग्मनस्य दृष्ट्या रूक्षसमूहीकरणविधयः द्वयोः वर्गयोः विभक्तुं शक्यन्ते: दृढयुग्मनरूक्षसमूहीकरणं तथा दुर्बलयुग्मनरूक्षसमूहीकरणं च
अवश्यं, क्लस्टर विश्लेषणस्य नवीनाः शोधदिशाः एतेभ्यः दूरम् अधिकाः सन्ति उदाहरणार्थं, आँकडाप्रवाहखननस्य तथा समूहीकरणस्य एल्गोरिदम्, अनिश्चितदत्तांशः तस्य च समूहीकरणस्य एल्गोरिदम्, क्वाण्टमगणना तथा क्वाण्टम आनुवंशिकसमूहीकरण एल्गोरिदम् सर्वाणि क्लस्टरिंग् प्रौद्योगिकीनि सन्ति ये अन्तिमेषु वर्षेषु उद्भूताः सन्ति अत्याधुनिकसंशोधनविषयाः।

3. अन्ये बहिर्मुखखननविधयः

पूर्वं प्रवर्तितानि आउटलइयर खननपद्धतयः केवलं द्वौ प्रतिनिधिौ सन्ति व्यावहारिकप्रयोगेषु अधिकानि परिपक्वानि आउटलइयरखननपद्धतयः सन्ति येषां निर्धारणं खननपद्धत्या प्रयुक्तायाः प्रौद्योगिक्याः प्रकारात् अथवा पूर्वज्ञानस्य उपयोगात् कर्तुं शक्यते कोणाः डिग्री।

(1) प्रयुक्तप्रौद्योगिक्याः प्रकारः
मुख्यतया सांख्यिकीयविधयः, दूरी-आधारिताः पद्धतयः, घनत्व-आधारिताः पद्धतयः, क्लस्टरिंग्-आधारित-विधयः, विचलन-आधारित-विधयः, गभीरता-आधारित-विधयः, वेवलेट-रूपान्तर-आधारित-विधयः, आलेख-आधारित-विधयः, प्रतिरूप-आधारित-विधयः, Neural network च सन्ति विधिना इत्यादयः ।

(2) पूर्वज्ञानस्य उपयोगः
सामान्यस्य अथवा बहिर्मुखवर्गस्य सूचनायाः उपलब्धतायाः आधारेण त्रयः सामान्याः उपायाः सन्ति ।
1 अनिरीक्षित आउटलायर-परिचय-विधिः, अर्थात् दत्तांशसमूहे श्रेणी-लेबल्-इत्यादीनि पूर्वज्ञानं नास्ति;
2 पर्यवेक्षिता बहिर्मुखपरिचयपद्धतिः, अर्थात् बहिर्मुखीनां सामान्यबिन्दून् च युक्तस्य प्रशिक्षणसमूहस्य अस्तित्वस्य माध्यमेन बहिर्गतानां लक्षणं निष्कासयितुं
3 अर्ध-निरीक्षित आउटलइयर-परिचय-विधिः, प्रशिक्षण-आँकडेषु लेबल-कृत-सामान्य-दत्तांशः भवति, परन्तु बहिर्मुख-दत्तांश-वस्तूनाम् विषये कोऽपि सूचना नास्ति ।