2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
क्लस्टर विश्लेषणं दत्तांशसमूहस्य उपसमूहेषु विघटनं भवति, प्रत्येकं उपसमूहं क्लस्टर इति उच्यते, सर्वेषां उपसमूहानां समुच्चयः वस्तुसमूहस्य समूहः इति उच्यते एकः उत्तमः समूहीकरण-एल्गोरिदम् उच्चगुणवत्तायुक्तानि समूहानि उच्चगुणवत्तायुक्तानि च समूहानि उत्पादयेत्, अर्थात् समूहानां अन्तः समग्रं साम्यं सर्वाधिकं भवति, यदा तु समूहानां मध्ये समग्रं साम्यं न्यूनतमं भवतिअनेके क्लस्टरिंग् एल्गोरिदम् अन्तर्भवन्ति इति दृष्ट्वा क्क्k-सरासरी एल्गोरिदम्, DBSCAN एल्गोरिदम् इत्यादीनि सर्वाणि उपयोक्त्रेण पूर्वमेव क्लस्टरमध्ये क्लस्टरसङ्ख्यां निर्दिष्टुं आवश्यकम् अस्ति क्क्k, अतः k इत्यस्य सरलानुमानविधिः अधः चर्चा भविष्यति ।
अनेकाः क्लस्टरिंग् एल्गोरिदम्स् यथा... क्क्k-सरासरी एल्गोरिदम्, DIANA एल्गोरिदम् इत्यादीनि अपि पूर्वमेव क्लस्टर्-सङ्ख्यां निर्दिष्टुं आवश्यकम् अस्ति क्क्k,तथा क्क्kइत्यस्य मूल्यं समूहीकरणस्य गुणवत्तां बहु प्रभावितं करिष्यति तथापि समूहानां संख्या पूर्वमेव निर्धारितव्या । क्क्k न तु सुलभं कार्यम्। प्रथमं चरमप्रकरणद्वयं विचारयितुं शक्नुमः ।
(1) सम्पूर्णं दत्तांशसमूहं स्थापयन्तु एस.एसससमूहत्वेन परिगण्यते इत्यर्थः । क = १ क=१k=1, एतत् सरलं सुलभं च प्रतीयते, परन्तु अस्य समूहविश्लेषणस्य परिणामानां मूल्यं नास्ति ।
(2) दत्तांशसमूहं स्थापयतु एस.एससप्रत्येकस्य वस्तुनः समूहवत् व्यवह्रियते इति यावत् k = ∣ S ∣ = nk=|S|=nk=∣स∣=न , एवं सूक्ष्मतमं कणिकासमूहं उत्पादयति । अतः प्रत्येकस्मिन् समूहे अन्तर्-समूहान्तरं नास्ति, अन्तर्-समूह-सादृश्यं च उच्चतमं स्तरं प्राप्नोति ।परन्तु एतादृशस्य समूहीकरणस्य उपयोगः कर्तुं न शक्यते एस.एससविषये किमपि सूचनां प्रदातव्यम् एस.एसससामान्यवर्णनम् ।
द्रष्टुं शक्यते यत् समूहानां संख्या क्क्kन्यूनातिन्यूनं तृप्तिः कर्तव्या २ ≤ k ≤ n − १ २≤k≤n-१2≤k≤न−1, किन्तु समूहानां संख्या क्क्kकिं मूल्यं सम्यक् अधिकं उपयुक्तं इति अस्पष्टं तिष्ठति।
सामान्यतः विचार्यते, २. क्क्kइत्यस्य मूल्यं दत्तांशसमूहवितरणस्य आकारेण, स्केलेन च, तथैव उपयोक्त्रेण अपेक्षितेन समूहीकरणसंकल्पेन च अनुमानितुं शक्यते, तथा च विद्वांसः अनेकाः भिन्नाः अनुमानविधयः सन्ति, यथा कोणविधिः, पार-मान्यताविधिः, सूचनासिद्धान्तः च आधारित विधि आदि।
एकः सरलः सामान्यतया च प्रयुक्तः क्क्kमूल्यानुभवात्मकानुमानपद्धतिः मन्यते यत् येषां कृते सन्ति तेषां कृते nnनवस्तुनां दत्तांशसमूहः, यस्मिन् समूहे तस्य समूहः भवति तस्य संख्या क्क्kचिनूहि न २√न2
2न युक्तम् ।अस्मिन् समये औसत-अपेक्षायाः अन्तर्गतं प्रत्येकस्य समूहस्य अनुमानतः भवति २ न स्कृट्{२न}2न विषयाः ।अस्य आधारेण केचन जनाः अधिकानि अतिरिक्तप्रतिबन्धानि प्रस्तावितवन्तः अर्थात् समूहानां संख्या क < न्क्k<न。
यथा - कल्पयतु न = ८ न=८न=8, ततः समूहसङ्ख्या क = २ क=२k=2 उचितं भवति, तथा च समासे प्रतिसमूहं ४ बिन्दवः सन्ति, अतिरिक्त-अनुभवात्मकसूत्रानुसारं च क < २.८३ क<२.८३k<2.83 .एतयोः सूचनायोः उपयोगेन समूहसङ्ख्यायाः विषये क्क्kअनुभवजन्यसूत्रं एकतः व्याख्यातं इव दृश्यते, उदाहरणे १०-५ क = २ क=२k=2 समूहानां सर्वाधिकं उपयुक्ता संख्या अस्ति ।
यदि अस्माकं कृते समूहानां संख्यायाः उत्तमं अनुमानं भवति क्क्k, भवान् एकं वा अधिकं वा समूहीकरणविधिं उपयोक्तुं शक्नोति, यथा, क्क्k -सरासरी एल्गोरिदम्, समुच्चयपदानुक्रमित एल्गोरिदम् अथवा DBSCAN एल्गोरिदम् ज्ञातदत्तांशसमूहेषु क्लस्टरविश्लेषणं करोति तथा च विविधानि भिन्नानि क्लस्टरिंगपरिणामानि प्राप्नोति। इदानीं प्रश्नः अस्ति यत् कस्मिन् पद्धत्याः क्लस्टरिंग् परिणामाः उत्तमाः सन्ति, अथवा अन्येषु शब्देषु, भिन्न-भिन्न-विधिभिः उत्पादितानां क्लस्टरिंग्-परिणामानां तुलना कथं करणीयम् इति
वर्तमान समये समूहीकरणस्य गुणवत्तामूल्यांकनार्थं बहवः पद्धतयः चयनार्थं सन्ति, परन्तु सामान्यतया तान् बाह्य (बाह्य) गुणवत्तामूल्यांकनं आन्तरिक (आन्तरिक) गुणवत्तामूल्यांकनं च इति द्वयोः वर्गयोः विभक्तुं शक्यते
बाह्यगुणवत्तामूल्याङ्कनं कल्पयति यत् दत्तांशसमूहे (प्रायः विशेषज्ञैः निर्मितः) आदर्शसमूहः पूर्वमेव अस्ति, तथा च तस्य तुलनां सामान्यतः प्रयुक्ता बेन्चमार्कविधिरूपेण करोति, तस्य तुलनात्मकमूल्यांकने मुख्यतया क्लस्टरिंग् एन्ट्रोपी, क्लस्टरिंग् च अन्तर्भवति वर्गसटीकतायै सामान्यविधौ द्वौ स्तः ।
1. क्लस्टरिंग एन्ट्रोपी विधि
काल्पनिक दत्तांशसमूह S = { X 1 , X 2 , ... , X n } S={X_1,X_2,...,X_n} .स={X1,X2,…,Xन},तथा T = { T 1 , T 2 , ... , T m } T={T_1,T_2,...,T_m} .टी={टी1,टी2,…,टीपु} विशेषज्ञैः दत्तं आदर्शमानकं समूहीकरणं भवति, तथा च C = { C 1 , C 2 , ... , C k } C={C_1,C_2,...,C_k} .ग={ग1,ग2,…,गk} विषये एकेन अल्गोरिदम् द्वारा निर्धारितं भवति एस.एससएकः समूहः , ततः समूहाय C i C_iगअहम्आधाररेखासमूहीकरणस्य सापेक्षम् टी.टीटीइत्यस्य क्लस्टरिंग् एन्ट्रोपी इति परिभाषितम् अस्ति
ई ( C i ∣ T ) = − ∑ j = 1 m ∣ C i ∩ T j ∣ ∣ C i ∣ log 2 ∣ C i ∩ T j ∣ ∣ C i ∣ (10-20) E(C_i|T) =-योग_{j=1}^mfrac{|C_icap T_j|}{|C_i|}log_2frac{|C_icap T_j|}{|C_i|}टैग{10-20}ई(गअहम्∣टी)=−झ=1∑पु∣गअहम्∣∣गअहम्∩टीझ∣लोछ2∣गअहम्∣∣गअहम्∩टीझ∣(10-20) तथा सीसीगबेन्चमार्कस्य विषये टी.टीटीof इत्यस्य समग्रं समूहीकरण-एन्ट्रोपी सर्वेषां समूहानां रूपेण परिभाषितम् अस्ति C i C_iगअहम्बेन्चमार्कस्य विषये टी.टीटीसमूहीकरण-एन्ट्रोपी इत्यस्य भारित-सरासरी अर्थात्
E ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × E ( C i ∣ T ) (10-21) E(C)=frac{1}{मथोप{योग }सीमा_{i=1}^k|C_i|}योग_{i=1}^k|C_i|गुण E(C_i|T)टैग{10-21}ई(ग)=अहम्=1∑k∣गअहम्∣1अहम्=1∑k∣गअहम्∣×ई(गअहम्∣टी)(10-21) क्लस्टरिंग् एन्ट्रोपी पद्धतिः मन्यते यत्, ई ( ग ) ई ( ग ) .ई(ग) मूल्यं यथा लघु भवति, तत्... सीसीगआधाररेखायाः सापेक्षम् टी.टीटीसमूहीकरणस्य गुणवत्ता यथा अधिका भवति।
ज्ञातव्यं यत् सूत्रस्य दक्षिणपार्श्वे प्रथमपदस्य हरः (१०-२१) । ∑ i = 1 k ∣ C i ∣k∑अहम्=1|गअहम्|
अहम्=1∑k∣गअहम्∣ प्रत्येकं समूहे तत्त्वसङ्ख्यायाः योगः अस्ति, न च उपयोक्तुं शक्यते nnन प्रतिस्थापनम् ।यतः, यदा एव सीसीगयदा विभाजनसमूहः भवति तदा हरः भवति nnन, तथा च सामान्यसमूहीकरणविधिनां हरकः, यथा DBSCAN समूहीकरणं, तः न्यूनः भवितुम् अर्हति nnन。
2. समूहीकरणस्य सटीकता
समूहीकरणसटीकता (सटीकता) मूल्याङ्कनस्य मूलविचारः अस्ति यत् समूहे बृहत्तमानां श्रेणीनां उपयोगः समूहस्य श्रेणीलेबलरूपेण अर्थात् समूहस्य कृते भवति C i C_iगअहम्,अस्ति चेत् T j T_jटीझनिर्मीयताम् ∣ C i ∩ T j ∣ = अधिकतम { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } |C_icap T_j|=अधिकतम{|C_icap T_1|,| सी_इकैप टी_2|,cdots,|C_icap T_m|}∣गअहम्∩टीझ∣=अधिकतमम्{∣गअहम्∩टी1∣,∣गअहम्∩टी2∣,⋯,∣गअहम्∩टीपु∣}, इति मन्यते C i C_iगअहम्वर्गः इति T j T_jटीझ .अतः समूहः C i C_iगअहम्बेन्चमार्कस्य विषये टी.टीटीसटीकता यथा परिभाषिता अस्ति
J ( C i ∣ T ) = अधिकतम { ∣ C i ∩ T 1 ∣ , ∣ C i ∩ T 2 ∣ , ⋯ , ∣ C i ∩ T m ∣ } ∣ C i ∣ (10-22) J(C_i| T)=frac{max{|C_icap T_1|,|C_icap T_2|,cdots,|C_icap T_m|}}{|C_i|}टैग{10-22}जे(गअहम्∣टी)=∣गअहम्∣अधिकतमम्{∣गअहम्∩टी1∣,∣गअहम्∩टी2∣,⋯,∣गअहम्∩टीपु∣}(10-22) तथा सीसीगबेन्चमार्कस्य विषये टी.टीटीसर्वेषां समूहानां कृते समग्रसटीकता परिभाषिता अस्ति C i C_iगअहम्बेन्चमार्कस्य विषये टी.टीटीसमूहीकरणसटीकतायाः भारितसरासरी अर्थात्
J ( C ) = 1 ∑ i = 1 k ∣ C i ∣ ∑ i = 1 k ∣ C i ∣ × J ( C i ∣ T ) (10-23) J(C)=frac{1}{मथोप{योग }सीमा_{i=1}^k|C_i|}योग_{i=1}^k|C_i|गुण J(C_i|T)टैग{10-23}जे(ग)=अहम्=1∑k∣गअहम्∣1अहम्=1∑k∣गअहम्∣×जे(गअहम्∣टी)(10-23) क्लस्टरिंग् सटीकता पद्धतिः मन्यते यत्, ज ( ग ) ज ( ग ) .जे(ग) मूल्यं यावत् बृहत् भवति, तत् समूहीकरणं भवति सीसीगआधाररेखायाः सापेक्षम् टी.टीटीसमूहीकरणस्य गुणवत्ता यथा अधिका भवति।
तदतिरिक्तं सामान्यतया 1 − ज ( सी ) 1-ज(सी) 1 .1−जे(ग) आहूत सीसीगबेन्चमार्कस्य विषये टी.टीटी समग्रदोषदरः।अतः समूहीकरणस्य सटीकता ज ( ग ) ज ( ग ) .जे(ग) बृहत् अथवा समग्रदोषदरः 1 − ज ( सी ) 1-ज(सी) 1 .1−जे(ग) लघु, एतत् दर्शयति यत् क्लस्टरिंग् एल्गोरिदम् भिन्न-भिन्न-वर्गस्य वस्तुनः भिन्न-भिन्न-क्लस्टर-मध्ये उत्तमरीत्या क्लस्टरं कर्तुं शक्नोति, अर्थात् क्लस्टरिंग्-सटीकता उच्चा भवति
आन्तरिकगुणवत्तामूल्यांकनार्थं ज्ञाताः बाह्यमापदण्डाः नास्ति, केवलं दत्तांशसमूहानां उपयोगः भवति एस.एससतथा समूहीकरणम् सीसीगसमूहस्य आन्तरिकलक्षणानाम् परिमाणानां च मूल्याङ्कनार्थम् सीसीग गुणः इति । अर्थात् समूहाणाम् अन्तः औसतसादृश्यं, समूहानां मध्ये औसतसादृश्यं, समग्रसादृश्यं वा गणयित्वा समूहीकरणप्रभावस्य मूल्याङ्कनं भवति
आन्तरिकगुणवत्तामूल्यांकनं क्लस्टरिंग् एल्गोरिदम् इत्यनेन सह सम्बद्धं भवति यत् क्लस्टरिंग् इत्यस्य प्रभावशीलतासूचकाङ्कस्य उपयोगः मुख्यतया क्लस्टरिंग् इफेक्ट् इत्यस्य गुणवत्तायाः मूल्याङ्कनार्थं वा क्लस्टरस्य इष्टतमसङ्ख्यायाः न्यायार्थं भवति आदर्शक्लस्टरिंग् प्रभावः लघुतमः इन्ट्रा-क्लस्टर-दूरता च भवति बृहत्तमः समूहः अतः समूहीकरणस्य प्रभावशीलता सामान्यतया समूहान्तर्गतस्य अन्तरस्य अन्तरस्य च केनचित् प्रकारेण अनुपातेन माप्यते । अस्य प्रकारस्य सामान्यतया प्रयुक्ताः सूचकाः CH सूचकः, Dunn सूचकः, I सूचकः, Xie-eni सूचकः इत्यादयः सन्ति ।
1. CH सूचकः
CH सूचकाङ्कः Calinski-Harabasz सूचकाङ्कस्य संक्षिप्तः अस्ति प्रत्येकस्य समूहकेन्द्रबिन्दुस्य तथा मापनार्थं दत्तांशसमूहस्य केन्द्रबिन्दुस्य मध्ये दत्तांशसमूहस्य पृथक्त्वं, पृथक्त्वस्य सामीप्यस्य च अनुपातः CH सूचकाङ्कः अस्ति
स्थापयति X i ओवरलाइन{X}_iXअहम्एकं समूहं प्रतिनिधियति सीसीगकेन्द्रबिन्दु (मध्यम), २. X ⁄4 आच्छादनम्{X}Xएकं दत्तांशसमूहं प्रतिनिधियति एस.एससकेन्द्रबिन्दुः d ( X i , X ) d(अतिरेखा{X}_i,अतिरेखा{X})घ(Xअहम्,X) कृते X i ओवरलाइन{X}_iXअहम्आगच्छति X ⁄4 आच्छादनम्{X}X, ततः समूहीकरणस्य एकं निश्चितं दूरकार्यम् सीसीगमध्यसमूहस्य संकुचितता यथा विवक्षिता
ट्रेस ( A ) = ∑ i = 1 k ∑ X j ∈ C id ( X j , X i ) 2 (10-24) पाठ{अनुसन्धान}(A)=योग_{i=1}^ksum_{X_jin C_i} d (X_j,ओवरलाइन {X}_i) ^ 2टैग {10-24}चिह्न(एकः)=अहम्=1∑kXझ∈गअहम्∑घ(Xझ,Xअहम्)2(10-24) अतः Trace(A) इति समूहः सीसीग समूहकेन्द्रयोः मध्ये वर्गाकारदूराणां योगः ।समूहीकरणं च सीसीगविरहस्य प्रमाणं यथा विवक्षितम्
ट्रेस ( B ) = ∑ i = 1 k ∣ C i ∣ d ( X ‾ i , X ‾ ) 2 (10-25) पाठ{अनुसन्धान}(B)=योग_{i=1}^k|C_i|d( ओवरलाइन{X}_i,ओवरलाइन{X})^2टैग{10-25}चिह्न(ख)=अहम्=1∑k∣गअहम्∣घ(Xअहम्,X)2(10-25) अर्थात् Trace(B) क्लस्टरिंग् इति सीसीगप्रत्येकं समूहकेन्द्रबिन्दुः के एस.एससके केन्द्रबिन्दुतः वर्गदूराणां भारितयोगः .
अस्मात् यदि N = ∑ i = 1 k ∣ C i ∣न॰=k∑अहम्=1|गअहम्|
न॰=अहम्=1∑k∣गअहम्∣ ततः CH सूचकं यथा परिभाषितुं शक्यते
V CH ( k ) = ट्रेस ( B ) / ( k − 1 ) ट्रेस ( A ) / ( N − k ) (10-26) V_{पाठ{CH}}(k)=frac{text{Trace}(B )/(k-1)}{पाठ{अनुसन्धान}(क)/(Nk)}टैग{10-26}विछ(k)=चिह्न(एकः)/(न॰−k)चिह्न(ख)/(k−1)(10-26) सूत्रं (१०-२६) सामान्यतया निम्नलिखितयोः परिस्थितियोः प्रयोगः भवति ।
(1) द्वयोः एल्गोरिदम्योः प्राप्तः कोऽपि क्लस्टरिंग् श्रेष्ठः इति मूल्याङ्कनं कुर्वन्तु।
मानातु यत् दत्तांशसमूहस्य विश्लेषणार्थं द्वौ अल्गोरिदम् उपयुज्यते एस.एसससमूहविश्लेषणं कृत्वा द्वौ भिन्नौ समूहौ (उभौ अपि समाविष्टौ... क्क्kसमूहाः), बृहत्तरस्य CH मूल्यस्य अनुरूपं समूहीकरणं श्रेष्ठं भवति, यतः CH मूल्यं यथा बृहत् भवति तस्य अर्थः अस्ति यत् समूहे प्रत्येकं समूहं स्वस्य समीपे एव भवति, समूहाः च अधिकं विकीर्णाः भवन्ति
(2) एकस्मिन् एव अल्गोरिदम् इत्यनेन प्राप्तयोः भिन्नसङ्ख्यायाः समूहयोः द्वयोः समूहयोः कः श्रेष्ठः इति मूल्याङ्कनं कुर्वन्तु ।
एल्गोरिदम् इत्यस्य दत्तांशसमूहः अस्ति इति कल्पयन्तु एस.एसससमूहविश्लेषणं कृत्वा समूहानां संख्या यथा प्राप्ता क १ क_१k1तथा ख २ ख_२ख2 द्वयोः समूहयोः मध्ये बृहत्तरं CH मूल्यं युक्तं समूहीकरणपरिणामं श्रेष्ठं भवति, यस्य अपि अर्थः अस्ति यत् अस्य समूहस्य अनुरूपसमूहानां संख्या अधिका उपयुक्ता भवतिअतः पुनः पुनः सूत्रं (10-26) प्रयोज्य वयं दत्तांशसमूहमपि प्राप्तुं शक्नुमः एस.एसससमूहीकरणार्थं समूहानां इष्टतमसंख्या ।
2. डन् सूचकः
डन् सूचकः समूहानां उपयोगं करोति C i C_iगअहम्समूहेन सह C j C_jगझमध्ये न्यूनतमं दूरी ds ( C i , C j ) d_s(C_i,C_j) .घस(गअहम्,गझ) सर्वेषु समूहेषु बृहत्तमस्य समूहव्यासस्य उपयोगं कुर्वन् अन्तर-समूहपृथक्करणस्य गणनां कर्तुं max { Φ ( सी 1 ), Φ ( सी 2 ), . . . , Φ ( C k ) } max{varPhi(C_1), varPhi(C_2),...,varPhi(C_k)}अधिकतमम्{Φ(ग1),Φ(ग2),...,Φ(गk)} समूहस्य अन्तः कठिनतायाः लक्षणं ज्ञातुं डन् सूचकाङ्कः पूर्वस्य उत्तरस्य च अनुपातस्य न्यूनतमं मूल्यं भवति अर्थात्
VD ( k ) = min i ≠ jds ( C i , C j ) max { Φ ( C 1 ) , Φ ( C 2 ) , . . . , Φ ( C k ) } (10-27) V_D(k)=min_{i≠j}frac{d_s(C_i,C_j)}{अधिकतम{varPhi(C_1), varPhi(C_2),...,varPhi (C_k)}}टैग{10-27}विघ(k)=अहम्=झमिअधिकतमम्{Φ(ग1),Φ(ग2),...,Φ(गk)}घस(गअहम्,गझ)(10-27) डन् मूल्यं यत्किमपि बृहत् भवति तथा तथा समूहानां मध्ये दूरं भवति तथा च तत्सम्बद्धं समूहीकरणं तत् उत्तमं भवति ।CH मूल्याङ्कनसूचकाङ्कस्य सदृशं Dunn सूचकाङ्कस्य उपयोगेन भिन्न-भिन्न-एल्गोरिदम्-द्वारा प्राप्तानां समूहानां गुणवत्तायाः मूल्याङ्कनं कर्तुं शक्यते, अपि च भिन्न-भिन्न-समूह-समूह-युक्तेन एकेन एव अल्गोरिदम्-द्वारा प्राप्ताः के समूहाः श्रेष्ठाः सन्ति, अर्थात् तत् अन्वेष्टुं प्रयोक्तुं शक्यते एस.एसससमूहानां इष्टतमसंख्या ।
आउटलायर्स् इति दत्तांशसमूहे विशेषदत्तांशः यः अधिकांशदत्तांशतः महत्त्वपूर्णतया विचलितः भवति । पूर्वं प्रवर्तितानां वर्गीकरणस्य, समूहीकरणस्य च इत्यादीनां दत्तांशखनन-एल्गोरिदमानां केन्द्रबिन्दुः अधिकांश-आँकडानां कृते प्रवर्तमानानाम् नियमित-प्रतिमानानाम् आविष्कारः भवति अतः अनेके आँकडा-खनन-अल्गोरिदम्-इत्येतत् खननस्य कार्यान्वयनसमये बहिर्मुखानाम् प्रभावं न्यूनीकर्तुं वा समाप्तुं वा प्रयतन्ते अथवा कोलाहलरूपेण उपेक्षितः, परन्तु अनेकेषु व्यावहारिकप्रयोगेषु जनाः शङ्कयन्ति यत् बहिर्विन्दून् व्यभिचारः यादृच्छिककारकैः न भवति, अपितु अन्यैः सर्वथा भिन्नतन्त्रैः कारणं भवितुम् अर्हति, येषां विशेषविश्लेषणाय उपयोगाय च खनितव्यम् यथा, सुरक्षाप्रबन्धनं जोखिमनियन्त्रणं च इत्यादिषु अनुप्रयोगक्षेत्रेषु सामान्यदत्तांशस्य प्रतिमानापेक्षया बहिःस्थानां पहिचानस्य प्रतिमानं अधिकं मूल्यवान् भवति
Outlier इति शब्दस्य अनुवादः प्रायः outlier इति भवति, परन्तु विषमता इति अपि भवति । परन्तु विभिन्नेषु अनुप्रयोगस्थितौ अनेके उपनामानि सन्ति, यथा पृथक् बिन्दवः, असामान्यबिन्दवः, नवीनबिन्दवः, विचलनबिन्दवः, अपवादबिन्दवः, कोलाहलः, असामान्यदत्तांशः इत्यादयः । चीनसाहित्ये विसंगतिदत्तांशखननम्, विसंगतिदत्तांशपरिचयः, आउटलयरदत्तांशखननम्, अपवाददत्तांशखननम्, दुर्लभघटनाखननम् इत्यादयः समानाः शब्दाः आउटलियरखननस्य सन्ति
1. बहिर्मुखानाम् जननम्
(१) धोखाधड़ी, घुसपैठ, रोगप्रकोप, असामान्यप्रयोगपरिणाम इत्यादिजन्यविसंगतिभ्यः आँकडा आगच्छति। यथा, कस्यचित् औसतं दूरभाषबिलम् प्रायः २०० युआन् भवति, परन्तु कस्मिंश्चित् मासे अचानकं कतिपये सहस्राणि युआन् यावत् वर्धते, कस्यचित् क्रेडिट् कार्ड् सामान्यतया मासे प्रायः ५,००० युआन् उपभोगं करोति, परन्तु कस्मिंश्चित् मासे उपभोगः ३०,००० युआन् इत्यादयः अधिकः भवति एतादृशाः बहिर्गाः प्रायः आँकडाखनने तुल्यकालिकरूपेण रोचकाः भवन्ति तथा च अनुप्रयोगस्य प्रमुखबिन्दुषु अन्यतमः भवति ।
(2) दत्तांशचरयोः निहितपरिवर्तनानां कारणेन, दत्तांशवितरणस्य प्राकृतिकलक्षणं प्रतिबिम्बयति, यथा जलवायुपरिवर्तनं, ग्राहकानाम् नवीनक्रयणप्रतिमानं, आनुवंशिकउत्परिवर्तनम् इत्यादयः। अपि च रोचककेन्द्रक्षेत्रेषु अन्यतमम्।
(3) आँकडामापनं संग्रहणं च दोषाः मुख्यतया मानवदोषस्य, मापनसाधनस्य विफलतायाः अथवा कोलाहलस्य उपस्थितेः कारणेन भवन्ति। यथा, कस्मिन्चित् पाठ्यक्रमे -१०० इति छात्रस्य ग्रेडः कार्यक्रमेन निर्धारितस्य पूर्वनिर्धारितमूल्येन भवितुं शक्नोति, यत् कम्पनीयाः शीर्षप्रबन्धकानां वेतनं साधारणकर्मचारिणां वेतनस्य अपेक्षया महत्त्वपूर्णतया अधिकं भवति, परन्तु तत् एव उचितदत्तांशः।
2. आउटलाइयर खननसमस्या
सामान्यतः, बहिर्मुखखननसमस्यायाः वर्णनार्थं त्रीणि उपसमस्यासु विघटितुं शक्यते ।
(1) बहिर्मुखीनां परिभाषां कुरुत
यतो हि बहिर्मुखाः व्यावहारिकसमस्याभिः सह निकटतया सम्बद्धाः सन्ति, तस्मात् स्पष्टतया परिभाषितुं बहिःस्थानां सटीकविश्लेषणं प्रदातुं डोमेनविशेषज्ञानाम् अनुभवं ज्ञानं च संयोजयितुं आवश्यकम् .उचितं वर्णनं परिभाषा वा ददातु।
(2) खनन बहिर्मुखी
आउटलायर-बिन्दून् स्पष्टतया परिभाषितस्य अनन्तरं परिभाषित-आउटलायर-बिन्दून् प्रभावीरूपेण पहिचानाय वा खननार्थं वा किं एल्गोरिदम्-प्रयोगः करणीयः इति आउट्लायर-खननस्य प्रमुखं कार्यम् अस्ति आउटलइयर माइनिंग एल्गोरिदम् प्रायः उपयोक्तृभ्यः संदिग्धं आउटलायर-दत्तांशं प्रदाति यत् दत्तांशेषु प्रतिबिम्बितुं शक्यते इति प्रतिमानाः दृष्ट्या प्रदाति, येन उपयोक्तुः ध्यानं आकर्षयितुं शक्यते
(3) बहिर्मुखान् अवगच्छन्तु
खननपरिणामानां व्यावहारिकप्रयोगस्य उचितव्याख्यानं, अवगमनं, मार्गदर्शनं च बहिर्मुखखननस्य लक्ष्याणि सन्ति । यतो हि यया तन्त्रेण बहिर्मुखाः उत्पद्यन्ते तत् अनिश्चितं भवति, अतः बहिर्मुखखनन-अल्गोरिदमेन ज्ञाताः "बहिःस्थलाः" वास्तवतः वास्तविक-असामान्य-व्यवहारस्य अनुरूपाः सन्ति वा इति, बहिर्मुख-खनन-अल्गोरिदम्-द्वारा व्याख्यातुं व्याख्यातुं च न शक्यते, अपितु केवलं बहिर्मुख-खनन-अल्गोरिदम्-द्वारा एव व्याख्यातुं शक्यते .उद्योगस्य वा डोमेनविशेषज्ञाः निर्देशान् अवगन्तुं व्याख्यातुं च।
3. बहिर्मुखानाम् सापेक्षता
बहिर्मुखाः दत्तांशसमूहे विशेषदत्तांशाः सन्ति ये स्पष्टतया अधिकांशदत्तांशतः व्यभिचरन्ति, परन्तु "स्पष्टतया" "अधिकांशतः" च सापेक्षाः सन्ति, अर्थात् यद्यपि बहिर्गताः भिन्नाः सन्ति तथापि ते सापेक्षाः सन्ति अतः बहिःस्थानां परिभाषणं खननं च कुर्वन् अनेके विषयाः विचारणीयाः सन्ति ।
(1) वैश्विकं वा स्थानीयं वा बहिर्गतिम्
दत्तांशवस्तु स्वस्य स्थानीयपरिजनस्य सापेक्षं बहिर्मुखं भवितुम् अर्हति परन्तु सम्पूर्णदत्तांशसमूहस्य सापेक्षं न । यथा, यः छात्रः १.९ मीटर् ऊर्ध्वः अस्ति सः अस्माकं विद्यालयस्य गणितप्रमुखस्य प्रथमश्रेण्यां बहिःस्थः अस्ति, परन्तु देशे सर्वत्र जनानां मध्ये न, यत्र याओ मिङ्ग् इत्यादयः व्यावसायिकाः क्रीडकाः अपि सन्ति
(2) बहिर्मुखानाम् संख्या
यद्यपि बहिर्मुखबिन्दुसङ्ख्या अज्ञाता अस्ति तथापि सामान्यबिन्दून् संख्या बहिःस्थबिन्दुसङ्ख्यायाः अपेक्षया दूरं अधिका भवेत् अर्थात् बृहत्दत्तांशसमूहे बहिर्मुखबिन्दुसङ्ख्या न्यूनतरं अनुपातं गृह्णीयात् of outlier points ५% तः न्यूनं वा १% तः अपि न्यूनं वा भवेत् ।
(3) बिन्दु के बहिर्मुखी कारक
भवान् "हाँ" अथवा "न" इत्यस्य उपयोगं कर्तुं न शक्नोति यत् कश्चन वस्तु बहिर्मुखी अस्ति वा इति निवेदयितुं तस्य स्थाने वस्तुनः विचलनस्य डिग्री अर्थात् बहिर्मुखी कारकस्य (Outlier Factor) अथवा बहिर्मुखस्य स्कोरस्य (Outlier Score) उपयोगं कर्तव्यम् । समूहस्य डिग्रीतः दत्तांशस्य विचलनस्य लक्षणं ज्ञातुं, ततः निश्चितदहलीजात् अधिकानि बहिर्मुखकारकाणि युक्तानि वस्तुनि छानयित्वा, निर्णयकर्तृभ्यः अथवा डोमेनविशेषज्ञाभ्यः अवगमनाय व्याख्यानार्थं च प्रदातुं, व्यावहारिककार्य्ये च तान् प्रयोक्तुं
1. मूलभूतसंकल्पना
परिभाषा १०-११ धनात्मकः पूर्णाङ्कः अस्ति क्क्k, वस्तु XXXइत्यस्य क्क्k-समीपस्थं प्रतिवेशिनः दूरं धनात्मकं पूर्णाङ्कं भवति यत् निम्नलिखितशर्ताः पूरयति dk ( X ) d_k(X) ९.घk(X):
(1) व्यतिरिक्त XXXतदतिरिक्तं न्यूनातिन्यूनं सन्ति क्क्kविषयाः YYयसम्- राध् d ( X , Y ) ≤ dk ( X ) d(X,Y)≤d_k(X) .घ(X,य)≤घk(X)。
(2) व्यतिरिक्त XXXतदतिरिक्तं अधिकतया सन्ति k − 1 k-1k−1 विषयाः YYयसम्- राध् d ( X , Y ) < dk ( X ) d(X,Y) .घ(X,य)<घk(X)。
इत्यस्मिन् d ( X , Y ) d(X,Y) ९.घ(X,य) वस्तु इति XXXतथा YYयतयोः मध्ये किञ्चित् दूरकार्यं भवति।
वस्तुनः क्क्k-समीपस्थं प्रतिवेशिनः दूरं यावत् बृहत् भवति, तावत् अधिकं सम्भाव्यते यत् वस्तु अधिकांशदत्तांशतः दूरं भवति, अतः वस्तु भवितुम् अर्हति XXXइत्यस्य क्क्k-समीपस्थं प्रतिवेशिनः दूरी dk ( X ) d_k(X) ९.घk(X) तस्य बहिर्मुखकारकत्वेन ।
परिभाषा १०-१२ निर्मीयताम् D ( X , k ) = { Y ∣ d ( X , Y ) ≤ dk ( X ) ∧ Y ≠ X } D(X,k)={Y|d(X,Y)≤d_k(X)वेज Y≠ X} २.घ(X,k)={य∣घ(X,य)≤घk(X)∧य=X}, अथ उच्यते D ( X , k ) D(X,k) ९.घ(X,k) आम् XXXइत्यस्य क्क्k-समीपस्थः पड़ोसी (डोमेन)।
परिभाषया १०-१२ द्रष्टुं शक्यते यत् D ( X , k ) D(X,k) ९.घ(X,k) आम् XXXकेन्द्रत्वेन दूरम् इति XXXन अतिक्रमति dk ( X ) d_k(X) ९.घk(X) वस्तु YYय सङ्ग्रहः रचितः । विशेषतया ध्यानं दातुं योग्यम् अस्ति, XXXतस्य न भवति क्क्k-समीपस्थः प्रतिवेशी अर्थात् । X ∉ D ( X , k ) Xnotin D(X,k) 1 .X∈/घ(X,k) . विशेषतः, २. XXXइत्यस्य क्क्k-समीपस्थः प्रतिवेशी D ( X , k ) D(X,k) ९.घ(X,k) समाविष्टानां वस्तूनाम् संख्या दूरम् अतिक्रान्तं भवेत् क्क्k,वर्तमाने ∣ D ( X , k ) ∣ ≥ k |D(X,k)|≥k∣घ(X,k)∣≥k。
परिभाषा १०-१३ धनात्मकः पूर्णाङ्कः अस्ति क्क्k, वस्तु XXXइत्यस्य क्क्k-समीपस्थः प्रतिवेशिनः बहिर्मुखी कारकः यथा परिभाषितः अस्ति
OF 1 ( X , k ) = ∑ Y ∈ D ( X , k ) d ( X , Y ) ∣ D ( X , k ) ∣ (10-28) पाठ{OF}_1(X,k)=frac{mathop {योग}सीमा_{यिन D(X,k)}d(X,Y)}{|D(X,k)|}टैग{10-28}इत्यस्य1(X,k)=∣घ(X,k)∣य∈घ(X,k)∑घ(X,य)(10-28)
2. एल्गोरिदम वर्णन
दत्तस्य दत्तांशसमूहस्य कृते समीपस्थपरिजनदूराणां संख्यायाः च कृते क्क्k, वयं उपर्युक्तसूत्रस्य उपयोगेन गणनां कर्तुं शक्नुमः क्क्k-समीपस्थाः प्रतिवेशिनः बहिर्मुखीकारकाः, तथा च तान् बृहत्तः लघुपर्यन्तं क्रमेण उत्पादनं कुर्वन्ति तेषु बृहत्तराणि बहिर्मुखीकारकाणि सन्ति सामान्यतया, तेषां विश्लेषणं निर्णयकर्तृभिः वा उद्योगविशेषज्ञैः वा करणीयम् , के बिन्दवः वास्तवतः बहिर्गाः सन्ति।
एल्गोरिदम 10-8 दूर-आधारित-आउटलाइयर-परिचय-एल्गोरिदम्
निवेशः दत्तांशसमूहः एस.एसस, समीपस्थपरिजनदूराणां संख्या क्क्k
उत्पादनम् : संदिग्धानां बहिर्गलबिन्दुनाम् अवरोही सूची तथा तत्सम्बद्धानां बहिर्मुखीकारकाणां च
(1)पुनरावृत्ति
(2) गृहाण एस.एससअप्रसंस्कृतं वस्तु in XXX
(3) ठीकम् XXXइत्यस्य क्क्k-समीपस्थः प्रतिवेशी D ( X , k ) D(X,k) ९.घ(X,k)
(4) गणना XXXइत्यस्य क्क्k-निकटतम पड़ोसी बहिर्मुखी कारक OF 1 ( X , k ) पाठ{OF}_1(X,k) .इत्यस्य1(X,k)
(५)पर्यन्तम् एस.एससप्रत्येकं बिन्दुः संसाधितः अस्ति
(6) आम् OF 1 ( X , k ) पाठ{OF}_1(X,k) .इत्यस्य1(X,k)अवरोहणक्रमेण निर्गमेन च क्रमणं कुर्वन्तु ( X , OF 1 ( X , k ) ) (X,पाठ{OF}_1(X,k))(X,इत्यस्य1(X,k))
3. गणना उदाहरणानि
उदाहरणम् १०-१२ ११ बिन्दुभिः सह द्विविमीयः दत्तांशसमूहः एस.एससतत् सारणी १०-१० द्वारा दत्तम् अस्ति, अस्तु क = २ क=२k=2, यूक्लिडियनदूरवर्गगणनायाः उपयोगं कुर्वन्तु X 7 , X 10 , X 11 X_7, X_{10},X_{11} .X7,X10,X11 अन्येषां सर्वेषां बिन्दूनां बहिर्मुखी कारकम्।
अनबद्धः: अल्गोरिदम् इत्यस्य सिद्धान्तं सहजतया अवगन्तुं वयं करिष्यामः एस.एससइत्यस्मिन् दत्तांशवस्तूनि अधोलिखिते चित्रे (10-27) विमाने प्रदर्शितानि सन्ति ।
निम्नलिखितम् क्रमशः निर्दिष्टबिन्दुस्य अन्यबिन्दुनाञ्च बहिर्मुखकारकाणां गणनां करोति ।
(1) गणना वस्तु X 7 X_7X7बहिर्मुखी कारक
यथा आकृतितः दृश्यते, दूरम् X 7 = ( 6 , 8 ) X_7=(6,8) .X7=(6,8) समीपस्थः बिन्दुः अस्ति X 10 = ( 5 , 7 ) X_{10}=(5,7) .X10=(5,7),तथा d ( X 7 , X 10 ) = 1.41 d(X_7,X_{10}) =1.41घ(X7,X10)=1.41, अन्ये समीपस्थबिन्दवः भवेयुः X 11 = ( 5 , 2 ) X_{11}=(5,2) .X11=(5,2), X 9 = ( 3 , 2 ) X_9=(3,2) .X9=(3,2), X 8 = ( 2 , 4 ) X_8=(2,4) .X8=(2,4);
गणितम् d ( X 7 , X 11 ) = 6.08 d(X_7,X_{11})=6.08घ(X7,X11)=6.08, घ ( X 7 , X 9 ) = 6.71 d(X_7,X_9)=6.71घ(X7,X9)=6.71, d ( X 7 , X 8 ) = 5.66 d(X_7,X_8)=5.66घ(X7,X8)=5.66
यतः क = २ क=२k=2,अतः घ २ ( X ७ ) = ५.६६ घ_२(X_७)=५.६६घ2(X7)=5.66, अतः परिभाषानुसारं १०-११ अस्माकं अस्ति D ( X 7 , 2 ) = { X 10 , X 8 } D(X_7,2)={X_{10},X_8}घ(X7,2)={X10,X8}
सूत्रानुसारं (१०-२८) २. X 7 X_7X7बहिर्मुखी कारक
OF 1 ( X 7 , 2 ) = ∑ Y ∈ N ( X 7 , 2 ) d ( X 7 , Y ) ∣ N ( X 7 , k ) ∣ = d ( X 7 , X 10 ) + d ( X 7 , 2 ) । X 8 ) 2 = 1.41 + 5.66 2 = 3.54इत्यस्य1(X7,2)=∑य∈न॰(X7,2)घ(X7,य)|न॰(X7,k)|=घ(X7,X10)+घ(X7,X8)2=1.41+5.662=3.54
इत्यस्य1(X7,2)=∣न॰(X7,k)∣य∈न॰(X7,2)∑घ(X7,य)=2घ(X7,X10)+घ(X7,X8)=21.41+5.66=3.54(2) गणना वस्तु X १० X_{१०} २.X10बहिर्मुखी कारक OF 1 ( X 10 , 2 ) = 2.83 पाठ{OF}_1(X_{10},2)=2.83इत्यस्य1(X10,2)=2.83
(3) गणना वस्तु X ११ X_{11} इति ।X11बहिर्मुखी कारक OF 1 ( X 11 , 2 ) = 2.5 पाठ{OF}_1(X_{11},2)=2.5इत्यस्य1(X11,2)=2.5
(4) गणना वस्तु X ५ X_{5} इति ।X5बहिर्मुखी कारक OF 1 ( X 5 , 2 ) = 1 पाठ{OF}_1(X_{5},2)=1इत्यस्य1(X5,2)=1
तथैव शेषवस्तूनाम् बहिर्मुखगुणकाः गणयितुं शक्यन्ते, निम्नलिखितसारणी (१०-११) पश्यन्तु ।
4. आउटलाइयर कारक सीमा
तदनुसारम् क्क्k -समीपस्थः प्रतिवेशिनः सिद्धान्तः यथा यथा बृहत् भवति तथा बहिर्मुखीकारकः भवति अतः सामान्यबिन्दुभ्यः बहिःस्थानां भेदं कर्तुं सीमा निर्दिष्टा भवितुमर्हति। सरलतमः विधिः अस्ति बहिर्मुखबिन्दुसङ्ख्यां निर्दिष्टुं, परन्तु एषा पद्धतिः अतीव सरलः अस्ति तथा च कदाचित् केचन वास्तविकाः बहिर्मुखबिन्दवः चूकति अथवा सम्भाव्यबाह्यबिन्दुभ्यः अत्यधिकं सामान्यबिन्दून् विशेषयति, येन डोमेनविशेषज्ञानाम् अथवा निर्णयकर्तृणां कृते कठिनताः उत्पद्यन्ते बहिर्मुखानाम् अवगमने व्याख्याने च।
(1) आउटलइयर कारक विभाजन थ्रेशोल्ड विधि प्रथमं आउटलायर कारकं अवरोहणक्रमेण व्यवस्थापयति, तथा च तस्मिन् एव काले आउटलइयर कारकानाम् अनुसारं आरोहणक्रमेण दत्तांशवस्तूनाम् पुनः संख्यां करोति
(2) बहिर्मुखकारकस्य आधारेण OF 1 ( X , k ) पाठ{OF}_1(X,k) .इत्यस्य1(X,k) क्रमाङ्कः, बहिर्मुखकारकः क्रमाङ्कः च अब्सिसा अर्थात् (क्रमाङ्कः, OF 1 पाठ{OF}_1इत्यस्य1मूल्यं) विमानस्य उपरि चिह्निताः भवन्ति तथा च अ-वृद्धिशीलं बहुरेखां निर्मातुं संयोजिताः भवन्ति, तथा च यत्र बहुरेखा तीक्ष्णक्षयेन सह मृदुक्षयेन च पारं करोति सः बिन्दुः बहिर्मुख्यकारकस्य अनुरूपः भवति यथा बहिर्मुखी कारकं न्यूनं भवति than or equal to this threshold are normal objects , अन्ये सम्भाव्य बहिर्गाः सन्ति ।
उदाहरणम् १०-१३ उदाहरण 10-12 कृते दत्तांशसमूहः एस.एसस , तस्य बहिर्मुखकारकाणां सारांशः अवरोहीक्रमेण क्रमाङ्केन च सारणी 10-11 मध्ये दर्शितः अस्ति । आउटलायर कारक विभाजन थ्रेशोल्ड पद्धत्या आधारितं आउटलइयर बिन्दुनाम् सीमां अन्वेष्टुं प्रयतध्वम् ।
अनबद्धः: प्रथमं (serial number, 1000) इत्यस्य उपयोगं कुर्वन्तु । OF 1 पाठ{OF}_1इत्यस्य1 value) इति विमानस्य बिन्दुरूपेण, विमाने चिह्नितं बहुरेखाभिः च संयोजितम् । यथा अधोलिखिते चित्रे १०-२८ दर्शितम् ।
ततः चित्रं १०-२८ दृष्ट्वा वयं ज्ञातुं शक्नुमः यत् चतुर्थबिन्दुस्य (४, १.२७) वामे स्थिता बहुरेखा अतीव तीव्ररूपेण पतति, दक्षिणभागे स्थिता बहुरेखा अतीव मन्दं पतति अतः आउट्लायरकारकं १.२७ इति चयनं भवति देहली।यतः X 7 、 X 10 X_7、X_{10} .X7、X10 तथा X ११ X_{11} इति ।X11 बहिर्गताकारकाः क्रमशः ३.५४, २.८३, २.५ च सन्ति, ये सर्वे १.२७ तः अधिकाः सन्ति अतः एते त्रयः बिन्दवः बहिःस्थबिन्दवः भवितुम् अधिकतया सम्भाव्यन्ते, शेषबिन्दवः तु साधारणबिन्दवः सन्ति
पुनः चित्रं १०-२७ दृष्ट्वा वयं तत् ज्ञातुं शक्नुमः X 7 、 X 10 X_7、X_{10} .X7、X10 तथा X ११ X_{11} इति ।X11 ननु वामे सघनबहुसंख्यकवस्तूनाम् दूरम्, अतः तान् दत्तांशसमूहरूपेण व्यवहरन्तु एस.एससबहिर्गताः युक्तियुक्ताः सन्ति।
5. एल्गोरिदम मूल्याङ्कनम्
दूरी-आधारित-बहिर्मुख-परिचय-पद्धतेः बृहत्तमः लाभः अस्ति यत् सिद्धान्ततः सरलं, उपयोगाय च सुलभं भवति, अस्य दोषाः मुख्यतया निम्नलिखित-पक्षेषु प्रतिबिम्बिताः भवन्ति ।
(1) पैरामीटर् क्क्kचयनं मापदण्डेषु परीक्षणपरिणामानां प्रभावं निर्धारयितुं सरलस्य प्रभावी च पद्धतेः अभावः अस्ति क्क्kसंवेदनशीलतायाः प्रमाणस्य विषये सर्वत्र स्वीकृतं विश्लेषणात्मकं परिणामं नास्ति ।
(2) कालजटिलता अस्ति ओ ( ∣ स ∣ २ ) ओ(|S|^2)ओ(∣स∣2), बृहत्-परिमाणस्य दत्तांशसमूहानां कृते मापनीयतायाः अभावः अस्ति ।
(3) वैश्विकस्य बहिर्मुखकारकदहलीजस्य उपयोगात् भिन्नघनत्वस्य प्रदेशैः सह दत्तांशसमूहेषु बहिर्मुखीनां खननं कठिनम् अस्ति ।
दूरविधिः वैश्विकः बहिर्मुखपरीक्षणविधिः अस्ति, परन्तु सा भिन्नघनत्वक्षेत्रेषु दत्तांशसमूहान् सम्भालितुं न शक्नोति, अर्थात् स्थानीयघनत्वक्षेत्रेषु बहिर्मुखानाम् अन्वेषणं कर्तुं न शक्नोति यदा दत्तांशसमूहे बहुघनत्ववितरणं भवति अथवा भिन्नघनत्वउपसमूहानां मिश्रणं भवति तदा दूरम् इत्यादयः वैश्विकबाह्यपरिचयविधयः सामान्यतया सम्यक् कार्यं न कुर्वन्ति, यतः वस्तु बहिःस्थः अस्ति वा इति न केवलं परितः दत्तांशैः सह तस्य सम्बन्धे निर्भरं भवति समीपस्थे घनत्वेन सह सम्बद्धः अस्ति ।
1. सापेक्षघनत्वस्य अवधारणा
घनत्वपरिसरस्य दृष्ट्या बहिर्गताः न्यूनघनत्वयुक्तेषु क्षेत्रेषु वस्तूनि सन्ति अतः स्थानीयपरिसरघनत्वस्य, वस्तुनां सापेक्षघनत्वस्य च अवधारणानां परिचयः आवश्यकः
परिभाषा १०-१४ (१) वस्तु XXXइत्यस्य क्क्k-समीपस्थः प्रतिवेशी स्थानीयघनत्वं (घनत्वं) इति परिभाषितम् अस्ति
dsty ( X , k ) = ∣ D ( X , k ) ∣ ∑ Y ∈ D ( X , k ) d ( X , Y ) (10-29) पाठ{dsty}(X,k)=frac{|D( X,k)|}{मथोप{योग}सीमा_{यिन D(X,k)}d(X,Y)}टैग{10-29}dsty(X,k)=य∈घ(X,k)∑घ(X,य)∣घ(X,k)∣(10-29) (2) वस्तु XXXइत्यस्य क्क्k-निकटतम पड़ोसी स्थानीय सापेक्ष घनत्व (सापेक्षिक घनत्व) २.
rdsty ( X , k ) = ∑ Y ∈ D ( X , k ) dsty ( X , k ) / ∣ D ( X , k ) ∣ dsty ( X , k ) (10-30) पाठ{rdsty}(X,k )=frac{mathop{sum}सीमा_{यिन D(X,k)}पाठ{dsty}(X,k)/|D(X,k)|}{पाठ{dsty}(X,k)}टैग{ १०-३०} २.rdsty(X,k)=dsty(X,k)य∈घ(X,k)∑dsty(X,k)/∣घ(X,k)∣(10-30) इत्यस्मिन् D ( X , k ) D(X,k) ९.घ(X,k) वस्तु इति XXXइत्यस्य क्क्k- समीपस्थः प्रतिवेशी (परिभाषा १०-१२ दत्तः), २. ∣ D ( X , k ) ∣ |D(X,k)|∣घ(X,k)∣ इति सङ्ग्रहे पदार्थानां संख्या ।
2. एल्गोरिदम वर्णन
इत्यनेन rdsty ( X , k ) पाठ{rdsty}(X,k) .rdsty(X,k) बहिर्मुखत्वेन OF 2 ( X , k ) पाठ{OF}_2(X,k) .इत्यस्य2(X,k), तस्य गणना द्विधा विभक्ता भवति
(1) प्रतिवेशिनः संख्यानुसारम् क्क्k, प्रत्येकं वस्तु गणयन्तु XXXइत्यस्य क्क्k-समीपस्थः पड़ोसी स्थानीयघनत्वम् dsty ( X , k ) पाठ{dsty}(X,k) .dsty(X,k)
(2) गणना XXXसमीपस्थानां प्रतिवेशिनां औसतघनत्वं च क्क्k-निकटतम पड़ोसी स्थानीय सापेक्ष घनत्व rdsty ( X , k ) पाठ{rdsty}(X,k) .rdsty(X,k)
दत्तांशसमूहः बहुभिः प्राकृतिकसमूहैः युक्तः भवति समूहस्य अन्तः कोरबिन्दुसमीपस्थानां वस्तुनां सापेक्षिकघनत्वं १ समीपे भवति, यदा तु समूहस्य धारायाम् अथवा समूहस्य बहिः स्थितानां वस्तुनां सापेक्षिकघनत्वं तुल्यकालिकरूपेण बृहत् भवति अतः सापेक्षिकघनत्वमूल्यं यथा यथा बृहत् भवति तथा तथा तस्य बहिर्मुखत्वस्य सम्भावना अधिका भवति ।
एल्गोरिदम 10-9 सापेक्षिकघनत्वस्य आधारेण आउटलइयर-परिचय-एल्गोरिदम्
निवेशः दत्तांशसमूहः एस.एसस, समीपस्थानां प्रतिवेशिनां संख्या क्क्k
उत्पादनम् : संदिग्धानां बहिर्गलबिन्दुनाम् अवरोही सूची तथा तत्सम्बद्धानां बहिर्मुखीकारकाणां च
(1)पुनरावृत्ति
(2) गृहाण एस.एससअप्रसंस्कृतं वस्तु in XXX
(3) ठीकम् XXXइत्यस्य क्क्k-समीपस्थः प्रतिवेशी D ( X , k ) D(X,k) ९.घ(X,k)
(4) उपयोग D ( X , k ) D(X,k) ९.घ(X,k)गणयतु XXXघनत्व dsty ( X , k ) पाठ{dsty}(X,k) .dsty(X,k)
(५)पर्यन्तम् एस.एससप्रत्येकं बिन्दुः संसाधितः अस्ति
(6)पुनरावृत्ति
(7) गृहाण एस.एससप्रथमं वस्तु in XXX
(8) ठीकम् XXXसापेक्षिकघनत्वस्य rdsty ( X , k ) पाठ{rdsty}(X,k) .rdsty(X,k), तत् च नियुङ्क्ते OF 2 ( X , k ) पाठ{OF}_2(X,k) .इत्यस्य2(X,k)
(९)पर्यन्तम् एस.एससमध्ये सर्वाणि वस्तूनि संसाधितानि सन्ति
(१०) सम्यक् OF 2 ( X , k ) पाठ{OF}_2(X,k) .इत्यस्य2(X,k)अवरोहणक्रमेण निर्गमेन च क्रमणं कुर्वन्तु ( X , OF 2 ( X , k ) ) (X,पाठ{OF}_2(X,k))(X,इत्यस्य2(X,k))
उदाहरणम् १०-१४ उदाहरणे १०-१२ दत्तस्य द्विविधदत्तांशसमूहस्य कृते एस.एसस (विवरणार्थं सारणी १०-१० पश्यन्तु), अतः क = २ क=२k=2, यूक्लिडियन-अन्तरस्य गणनां कर्तुं प्रयतध्वम् X 7 , X 10 , X 11 X_7, X_{10},X_{11} .X7,X10,X11 समानवस्तूनाम् सापेक्षिकघनत्वस्य आधारेण बहिःस्थकारकः ।
अनबद्धः:यतः क = २ क=२k=2, अतः अस्माकं सर्वेषां वस्तुनां २-समीपस्थं प्रतिवेशिनः स्थानीयघनत्वं आवश्यकम् ।
(1) सारणी 10-11 मध्ये प्रत्येकस्य दत्तांशवस्तुनः 2-समीपस्थं प्रतिवेशकं ज्ञातव्यम् D ( X i , 2 ) D(X_i,2) ९.घ(Xअहम्,2)。
उदाहरणे १०-१२ मध्ये समानगणनाविधिना वयं प्राप्तुं शक्नुमः
D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } , D ( X 2 , 2 ) = { X 1 , X 6 } , D ( X 3 , 2 ) = { X 1 , X 4 } . , D ( X 4 , 2 ) = { X 3 , X 5 } , D ( X 5 , 2 ) = { X 1 , X 4 , X 6 , X 9 } , D ( X 6 , 2 ) = { X 2 , X 5 , X 8 } , D ( X 7 , 2 ) = { X 10 , X 8 } , D ( X 8 , 2 ) = { X 2 , X 6 } , D ( X 9 , 2 ) = { X ५ , X ४ , X ६ } , D ( X 10 , 2 ) = { X 7 , X 8 } , D ( X 11 , 2 ) = { X 9 , X 5 } .घ(X1,2)={X2,X3,X5},घ(X2,2)={X1,X6}, घ(X3,2)={X1,X4},घ(X4,2)={X3,X5}, घ(X5,2)={X1,X4,X6,X9},घ(X6,2)={X2,X5,X8},घ(X7,2)={X10,X8}, घ(X8,2)={X2,X6}, घ(X9,2)={X5,X4,X6},घ(X10,2)={X7,X8}, घ(X11,2)={X9,X5}
घ(X1,2)={X2,X3,X5},घ(X2,2)={X1,X6}, घ(X3,2)={X1,X4},घ(X4,2)={X3,X5}, घ(X5,2)={X1,X4,X6,X9},घ(X6,2)={X2,X5,X8},घ(X7,2)={X10,X8}, घ(X8,2)={X2,X6}, घ(X9,2)={X5,X4,X6},घ(X10,2)={X7,X8}, घ(X11,2)={X9,X5}
(2) प्रत्येकस्य दत्तांशवस्तुनः स्थानीयघनत्वस्य गणनां कुर्वन्तु dsty ( X i , 2 ) पाठ{dsty}(X_i,2) .dsty(Xअहम्,2):
1 गणनां कुरुत X 1 X_1X1घनत्व
यतः D ( X 1 , 2 ) = { X 2 , X 3 , X 5 } D(X_1,2)={X_2,X_3,X_5} .घ(X1,2)={X2,X3,X5}, अतः गणनापश्चात् अस्माकं अस्ति d ( X 1 , X 2 ) = 1 d(X_1,X_2)=1घ(X1,X2)=1, d ( X 1 , X 3 ) = 1 d(X_1,X_3)=1घ(X1,X3)=1, d ( X 1 , X 5 ) = 1 d(X_1,X_5)=1घ(X1,X5)=1;
(१०-२९) सूत्रानुसारं वयं प्राप्नुमः : १.
dsty ( X 1 , 2 ) = ∣ D ( X 1 , 2 ) ∣ ∑ Y ∈ N ( X 1 , 2 ) d ( X 1 , Y ) = ∣ N ( X 1 , 2 ) ∣ d ( X 1 , X २ ) + घ ( X 1 , X 3 ) + d ( X 1 , X 5 ) = 3 1 + 1 + 1 = 1dsty(X1,2)=|घ(X1,2)|∑य∈न॰(X1,2)घ(X1,य)=|न॰(X1,2)|घ(X1,X2)+घ(X1,X3)+घ(X1,X5)=31+1+1=1
dsty(X1,2)=य∈न॰(X1,2)∑घ(X1,य)∣घ(X1,2)∣=घ(X1,X2)+घ(X1,X3)+घ(X1,X5)∣न॰(X1,2)∣=1+1+13=1
२ गणना X 2 X_2X2घनत्व
यतः D ( X 2 , 2 ) = { X 1 , X 6 } D(X_2,2)={X_1,X_6} .घ(X2,2)={X1,X6}, अतः गणितम् d ( X 2 , X 1 ) = 1 d(X_2,X_1) =1घ(X2,X1)=1, d ( X 2 , X 6 ) = 1 d(X_2,X_6) =1घ(X2,X6)=1;
(१०-२९) सूत्रानुसारं वयं प्राप्नुमः : १.
dsty ( X 2 , 2 ) = ∣ D ( X 2 , 2 ) ∣ ∑ Y ∈ N ( X 2 , 2 ) d ( X 2 , Y ) = 2 1 + 1 = 1dsty(X2,2)=|घ(X2,2)|∑य∈न॰(X2,2)घ(X2,य)=21+1=1
dsty(X2,2)=य∈न॰(X2,2)∑घ(X2,य)∣घ(X2,2)∣=1+12=1
अन्येषां दत्तांशवस्तूनाम् स्थानीयघनत्वं तथैव गणयितुं शक्यते, अधः सारणी १०-१२ पश्यन्तु ।
(3) प्रत्येकं वस्तु गणयन्तु X i X_iXअहम्सापेक्षिकघनत्वस्य rdsty ( X i , 2 ) पाठ{rdsty}(X_i, 2) .rdsty(Xअहम्,2), तथा च बहिर्गतिकारकत्वेन मन्यन्ते OF 2 पाठ{OF}_2इत्यस्य2。
1 गणनां कुरुत X 1 X_1X1सापेक्षिकघनत्वस्य
सापेक्षिकघनत्वसूत्रस्य (१०-३०) अनुसारं सारणी १०-१२ मध्ये प्रत्येकस्य वस्तुनः घनत्वमूल्यं उपयुज्य:
rdsty ( X 1 , 2 ) = ∑ Y ∈ N ( X 1 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 1 , 2 ) ∣ dsty ( X 1 , 2 ) = ( 1 + 1 + 1 ) / 1 . ३ १ = १ = OF २ ( X 1 , 2 ) .rdsty(X1,2)=∑य∈न॰(X1,2)dsty(य,2)/|न॰(X1,2)|dsty(X1,2)=(1+1+1)/31=1=इत्यस्य2(X1,2)
rdsty(X1,2)=dsty(X1,2)य∈न॰(X1,2)∑dsty(य,2)/∣न॰(X1,2)∣=1(1+1+1)/3=1=इत्यस्य2(X1,2)
२ तथैव गणना प्राप्तुं शक्यते X 2 、 X 3 、 ... 、 X 11 X_2、X_3、...、X_{11}X2、X3、…、X11 सापेक्ष घनत्व मूल्य।
उदाहरणतया X 5 X_5X5सापेक्षिकघनत्वम् : १.
rdsty ( X 5 , 2 ) = ∑ Y ∈ N ( X 5 , 2 ) dsty ( Y , 2 ) / ∣ N ( X 5 , 2 ) ∣ dsty ( X 5 , 2 ) = ( 1 + 1 + 1 + 0.79 ) / ४ १ = ०.९५ = OF २ ( X ५ , २ ) .rdsty(X5,2)=∑य∈न॰(X5,2)dsty(य,2)/|न॰(X5,2)|dsty(X5,2)=(1+1+1+0.79)/41=0.95=इत्यस्य2(X5,2)
rdsty(X5,2)=dsty(X5,2)य∈न॰(X5,2)∑dsty(य,2)/∣न॰(X5,2)∣=1(1+1+1+0.79)/4=0.95=इत्यस्य2(X5,2) परिणामाः अधोलिखितेषु सारणीषु १०-१३ मध्ये सारांशतः दर्शिताः सन्ति ।
उदाहरणम् १०-१५ सारणी 10-14 मध्ये दर्शितं दत्तांशसमूहं दृष्ट्वा कृपया Euclidean distance to इत्यस्य उपयोगं कुर्वन्तु k = 2 , 3 , 5 k=2,3,5k=2,3,5, प्रत्येकस्य बिन्दुस्य मूल्यं गणयन्तु क्क्k-निकटतम पड़ोसी स्थानीय घनत्व, . क्क्k-निकटतमः पड़ोसी स्थानीयः सापेक्षिकघनत्वं (आउटलाइयर कारकम् OF 2 पाठ{OF}_2इत्यस्य2) आधारितं च क्क्k-समीपस्थस्य प्रतिवेशिनः दूरस्य कृते बहिर्मुखी कारकम् OF 1 पाठ{OF}_1इत्यस्य1。
अनबद्धः: (1) अवगमनस्य सुविधायै भवितुं शक्नोति एस.एससबिन्दुनाम् सापेक्षस्थानानि द्विविमविमानस्य उपरि चिह्नितानि सन्ति (चित्रम् १०-३०) ।
(2) दूरी- सापेक्षिकघनत्व-आधारित-अल्गोरिदम् क्रमशः 10-8 तथा 10-9 इत्यस्य उपयोगं कुर्वन्तु।प्रत्येकं वस्तु पृथक् पृथक् गणयन्तु क्क्k-समीपस्थः पड़ोसी स्थानीयघनत्वम् dsty पाठ{dsty}dsty、 क्क्k-निकटतमः पड़ोसी स्थानीयः सापेक्षिकघनत्वं (आउटलाइयर कारकम् OF 2 पाठ{OF}_2इत्यस्य2) आधारितं च क्क्k-समीपस्थस्य प्रतिवेशिनः दूरस्य कृते बहिर्मुखी कारकम् OF 1 पाठ{OF}_1इत्यस्य1, परिणामाः सारणी १०-१५ मध्ये सारांशतः दर्शिताः सन्ति ।
(3) सरलं विश्लेषणम्
1 यथा चित्रे १०-३०, ९. X १५ X_{15} इति ।X15तथा X १६ X_{16} इति ।X16आम् एस.एससतत्र द्वौ स्पष्टौ बहिर्मुखौ स्तः, दूरं सापेक्षघनत्वं च आधारिताः पद्धतयः तान् अधिकतया खनितुं शक्नुवन्ति;
२ अस्मात् उदाहरणात् द्वयोः अल्गोरिदम्योः अस्ति क्क्kअपेक्षितवत् संवेदनशीलः नास्ति, भवतु बहिर्गतः। X १५ X_{15} इति ।X15तथा X १६ X_{16} इति ।X16अन्येभ्यः विषयेभ्यः विरहः अतीव स्पष्टः अस्ति ।
3यथा सारणी 10-15 तः द्रष्टुं शक्यते, किमपि न क्क्k२, ३ वा ५, ९. X 1 X_1X1प्रदेशस्य dsty पाठ{dsty}dsty मूल्यानि महत्त्वपूर्णतया न्यूनानि सन्ति X 7 X_7X7प्रदेशस्य dsty पाठ{dsty}dsty मूल्यं, यत् चित्रे १०-३० दर्शितेन क्षेत्रघनत्वेन सह सङ्गतम् अस्ति ।परन्तु द्वयोः प्रदेशयोः सापेक्षिकघनत्वमूल्यम् OF 2 पाठ{OF}_2इत्यस्य2 परन्तु तत्र प्रायः स्पष्टः भेदः नास्ति । एतत् सापेक्षिकघनत्वस्य प्रकृत्या निर्धारितं भवति अर्थात् एकरूपरूपेण वितरितदत्तांशबिन्दून् कृते बिन्दुयोः मध्ये दूरं न कृत्वा कोरबिन्दून् सापेक्षघनत्वं १ भवति
1. क्लस्टरिंग् एल्गोरिदम् उन्नतम्
(1) क्क्k-मोद ( क्क्k-modes) अल्गोरिदम् इत्यस्य कृते अस्ति क्क्k -सरासरी एल्गोरिदम् केवलं संख्यात्मकगुणानां सीमायाः कृते उपयुक्तः अस्ति तथा च असततदत्तांशस्य द्रुतगतिसमूहीकरणं प्राप्तुं प्रस्तावितं भवति ।यतः क्क्k-मॉड्यूलर एल्गोरिदम् एकस्यैव असततविशेषणस्य अन्तर्गतं द्वयोः विशेषतामूल्यानां मध्ये दूरं गणयितुं सरलं 0-1 मेलविधिं प्रयुङ्क्ते, यत् क्रमिकविशेषणमूल्यानां मध्ये अन्तरं दुर्बलं करोति, अर्थात् द्वयोः विशेषतामूल्यानां मध्ये अन्तरं पूर्णतया प्रतिबिम्बयितुं न शक्नोति तस्यैव क्रमिकगुणस्य अन्तर्गतम् अद्यापि सुधारस्य, सुधारस्य च स्थानं वर्तते ।
(2) क्क्k-आद्यप्रकार ( . क्क्k-प्रोटोटाइप) एल्गोरिदम् इत्यनेन सह संयुक्तम् क्क्k-सहित एल्गोरिदम् औसतन क्क्k -मॉड्यूलर एल्गोरिदमस्य लाभः अस्ति यत् एतत् असतत-संख्यात्मक-विशेषताभिः (मिश्रित-विशेषता इति कथ्यते) द्वयोः सह आँकडा-समूहान् क्लस्टरं कर्तुं शक्नोति ।विच्छिन्नगुणानां कृते गृह्णाति क्क्k-मॉड्यूलर एल्गोरिदम गणना वस्तु XXXतथा YYयअन्तरं d 1 ( X , Y ) d_1(X,Y) .घ1(X,य), संख्यात्मकविशेषणानां कृते प्रयोगः क्क्k-सरासरीकरण-अल्गोरिदम् इत्यस्मिन् पद्धतयः वस्तुनां मध्ये दूरं गणयन्ति d 2 ( X , Y ) d_2(X,Y) .घ2(X,य), अन्ते च भारविधिं प्रयोजयन्तु अर्थात् α d 1 ( X , Y ) + ( 1 − α ) d 2 ( X , Y ) अल्फा d_1(X,Y)+(1-अल्फा)d_2(X,Y) .αघ1(X,य)+(1−α)घ2(X,य) दत्तांशसमूहवस्तुरूपेण XXXतथा YYयअन्तरं d ( X , Y ) d(X,Y) ९.घ(X,य),इत्यस्मिन् α ∈ [ 0 , 1 ] अल्फाइन[0,1] ।α∈[0,1] भारगुणकं भवति, प्रायः भवितुम् अर्हति α = 0.5 अल्फा=0.5α=0.5。
(3) BIRCH एल्गोरिदम् (Balanced Iterative Reducing and Clustering Using Hierarchies) एकः व्यापकः श्रेणीबद्धः समूहीकरणविधिः अस्ति ।एतत् समूहानां समूहानां सारांशं दातुं Clustering Features (CF) तथा Clustering Feature Tree (CF Tree, B-tree इत्यस्य सदृशम्) इत्येतयोः उपयोगं करोति । C i C_iगअहम्,इत्यस्मिन् CF i = ( नि , LS i , SS i ) text{CF}_i=(नि, पाठ{LS}_i,पाठ{SS}_i)सी.एफअहम्=(नि,लस्अहम्,एस.एसअहम्) त्रिगुणः अस्ति, २. नि न_इनअहम्इति समूहे पदार्थानां संख्या, २. LS i पाठ{LS}_iलस्अहम्आम् नि न_इनअहम्वस्तुघटकानाम् रेखीययोगः, २. SS i पाठ{SS}_iएस.एसअहम्आम् नि न_इनअहम्वस्तुनः अवयवानां वर्गानां योगः ।
(4) CURE (Clustering Using Representatives) एल्गोरिदम् इत्यस्य कृते अस्ति क्क्k -सरासरीकरणस्य एल्गोरिदम् इत्यस्य अन्यः सुधारः । अनेकाः क्लस्टरिंग् एल्गोरिदम् केवलं गोलाकारक्लस्टरिंग् इत्यत्र उत्तमाः सन्ति, यदा तु केचन क्लस्टरिंग् एल्गोरिदम् पृथक्कृतबिन्दुषु अधिकं संवेदनशीलाः भवन्ति । उपर्युक्तयोः समस्यायोः समाधानार्थं CURE एल्गोरिदम् परिवर्तितम् अस्ति क्क्k-Averaging algorithm इत्यनेन cluster center sum इत्यस्य उपयोगः भवति क्क्k-केन्द्रबिन्दु एल्गोरिदम् एकस्य समूहस्य प्रतिनिधित्वार्थं एकस्य विशिष्टस्य वस्तुनः उपयोगं करोति, पारम्परिकपद्धतिः, परन्तु समूहस्य प्रतिनिधित्वार्थं समूहे बहुप्रतिनिधिवस्तूनाम् उपयोगं करोति, येन सः अगोलाकारसमूहानां समूहीकरणस्य अनुकूलतां प्राप्तुं शक्नोति तथा च तस्य प्रभावं न्यूनीकर्तुं शक्नोति समूहीकरणे कोलाहलः ।
(5) ROCK (RObust Clustering using linK) एल्गोरिदम् द्विचक्रीय अथवा श्रेणीगतविशेषतादत्तांशसमूहानां कृते प्रस्तावितं क्लस्टरिंग् एल्गोरिदम् अस्ति ।
(6) DBSCAN एल्गोरिदमस्य घनत्वं न्यूनीकर्तुं OPTICS (Ording Points To Identify the Clustering Structure) एल्गोरिदम् इत्यस्य उपयोगः भवति । ( ε , MinPts ) (varepsilon,पाठ{MinPts})(ε,MinPts) पैरामीटर संवेदनशीलता। इदं स्पष्टतया परिणामसमूहान् न जनयति, परन्तु समूहविश्लेषणार्थं संवर्धितं समूहक्रमणं जनयति (उदाहरणार्थं, ऊर्ध्वाधर-अक्षरूपेण प्राप्य दूरं, क्षैतिज-अक्षरूपेण च नमूनाबिन्दुनिर्गमक्रमेण सह समन्वय-चार्टः) एषा श्रेणी प्रत्येकस्य नमूनाबिन्दुस्य घनत्व-आधारित-समूहीकरण-संरचनायाः प्रतिनिधित्वं करोति ।वयं कस्यापि घनत्वमापदण्डस्य आधारेण अस्मात् क्रमाङ्कनात् प्राप्तुं शक्नुमः ( ε , MinPts ) (varepsilon,पाठ{MinPts})(ε,MinPts) DBSCAN एल्गोरिदम् इत्यस्य क्लस्टरिंग् परिणामाः ।
2. अन्ये नवीनाः समूहीकरणविधयः
नूतनानां समूहीकरणपद्धतीनां परिकल्पनाय केचन नूतनाः सिद्धान्ताः अथवा तकनीकाः उपयुज्यताम् ।
(1) जाल-आधारित-समूहीकरण-विधिः
जाल-आधारित-विधिः वस्तु-अन्तरिक्षस्य परिमाणं कृत्वा जाल-संरचनायाः निर्माणं करोति, तथा च प्रत्येकस्मिन् आयामे विभाजन-बिन्दु-स्थान-सूचना विभाजन-रेखाः सम्पूर्ण-अन्तरिक्षे, सर्वाणि च समूहीकरणं कुर्वन्ति operations are performed in अस्मिन् जालसंरचने (अर्थात् क्वाण्टाइजेशन स्पेस) Performed. अस्याः पद्धतेः मुख्यः लाभः अस्ति यत् अस्य प्रसंस्करणवेगः दत्तांशवस्तूनाम् संख्यातः स्वतन्त्रः भवति तथा च केवलं परिमाणीकरणस्थानस्य प्रत्येकस्मिन् आयामे कोष्ठकानां संख्यायाः सह सम्बद्धः भवति तथापि तस्य कार्यक्षमतासुधारः अस्ति परिणामानां समूहीकरणस्य व्ययः सटीकतायाः व्ययेन। यतो हि ग्रिड् क्लस्टरिंग् एल्गोरिदम् इत्यस्य मात्रानिर्धारणपरिमाणस्य समस्या अस्ति, अतः वयं प्रायः प्रथमं लघु-एककानां समूहान् अन्वेष्टुं आरभामः, ततः क्रमेण एककानां आकारं वर्धयामः, तथा च यावत् सन्तोषजनकाः समूहाः न प्राप्यन्ते तावत् एतां प्रक्रियां पुनः पुनः कुर्मः
(2) आदर्श-आधारित-समूहीकरण-विधिः
आदर्श-आधारित-विधयः प्रत्येकस्य समूहस्य कृते एकं प्रतिरूपं गृह्णन्ति, दत्तस्य प्रतिरूपस्य कृते दत्तांशस्य सर्वोत्तम-सङ्गतिं च अन्विष्यन्ति । आदर्श-आधारित-विधयः घनत्व-कार्यं स्थापयित्वा दत्त-दत्तांशस्य तथा कतिपयेषु आँकडा-प्रतिरूपेषु अनुकूलतां अनुकूलितुं प्रयतन्ते ये समूहानां स्थानं ज्ञातुं नमूनानां स्थानिकवितरणं प्रतिबिम्बयन्ति
(3) अस्पष्टसमूहस्य आधारेण समूहीकरणविधिः
व्यवहारे अधिकांशवस्तूनि कस्मिन् समूहे सन्ति इति कठोरविशेषणमूल्यं नास्ति तेषां विशेषणमूल्ये रूपेण च मध्यस्थता अथवा अनिश्चितता अस्ति, यत् मृदुविभाजनार्थं उपयुक्तम् अस्ति । यतो हि अस्पष्टसमूहविश्लेषणस्य लाभः अस्ति यत् नमूनाविशेषणस्य अन्तरङ्गतायाः वर्णनं भवति तथा च यथार्थजगत् वस्तुनिष्ठरूपेण प्रतिबिम्बयितुं शक्नोति, अतः अद्यतनसमूहविश्लेषणसंशोधनस्य उष्णस्थानेषु अन्यतमं जातम्
फजी क्लस्टरिंग् एल्गोरिदम् फजी गणितीयसिद्धान्ते आधारिता अनिरीक्षिता शिक्षणपद्धतिः अस्ति तथा च अनिश्चितसमूहीकरणपद्धतिः अस्ति । एकदा फजी क्लस्टरिंग् प्रस्तावितं जातं तदा शैक्षणिकसमुदायात् अस्य विषये महत् ध्यानं प्राप्तम् फजी क्लस्टरिंग् इति एकः विशालः क्लस्टरिंग् "परिवारः" अस्ति, तथा च फजी क्लस्टरिंग् विषये संशोधनम् अपि अतीव सक्रियम् अस्ति
(4) रूक्षसमूहस्य आधारेण समूहीकरणविधिः
रूक्षसमूहीकरणं रूक्षसमूहसिद्धान्ताधारितं अनिश्चितसमूहीकरणविधिः अस्ति । रूक्षसमूहानां तथा समूहीकरणस्य एल्गोरिदमानां मध्ये युग्मनस्य दृष्ट्या रूक्षसमूहीकरणविधयः द्वयोः वर्गयोः विभक्तुं शक्यन्ते: दृढयुग्मनरूक्षसमूहीकरणं तथा दुर्बलयुग्मनरूक्षसमूहीकरणं च
अवश्यं, क्लस्टर विश्लेषणस्य नवीनाः शोधदिशाः एतेभ्यः दूरम् अधिकाः सन्ति उदाहरणार्थं, आँकडाप्रवाहखननस्य तथा समूहीकरणस्य एल्गोरिदम्, अनिश्चितदत्तांशः तस्य च समूहीकरणस्य एल्गोरिदम्, क्वाण्टमगणना तथा क्वाण्टम आनुवंशिकसमूहीकरण एल्गोरिदम् सर्वाणि क्लस्टरिंग् प्रौद्योगिकीनि सन्ति ये अन्तिमेषु वर्षेषु उद्भूताः सन्ति अत्याधुनिकसंशोधनविषयाः।
3. अन्ये बहिर्मुखखननविधयः
पूर्वं प्रवर्तितानि आउटलइयर खननपद्धतयः केवलं द्वौ प्रतिनिधिौ सन्ति व्यावहारिकप्रयोगेषु अधिकानि परिपक्वानि आउटलइयरखननपद्धतयः सन्ति येषां निर्धारणं खननपद्धत्या प्रयुक्तायाः प्रौद्योगिक्याः प्रकारात् अथवा पूर्वज्ञानस्य उपयोगात् कर्तुं शक्यते कोणाः डिग्री।
(1) प्रयुक्तप्रौद्योगिक्याः प्रकारः
मुख्यतया सांख्यिकीयविधयः, दूरी-आधारिताः पद्धतयः, घनत्व-आधारिताः पद्धतयः, क्लस्टरिंग्-आधारित-विधयः, विचलन-आधारित-विधयः, गभीरता-आधारित-विधयः, वेवलेट-रूपान्तर-आधारित-विधयः, आलेख-आधारित-विधयः, प्रतिरूप-आधारित-विधयः, Neural network च सन्ति विधिना इत्यादयः ।
(2) पूर्वज्ञानस्य उपयोगः
सामान्यस्य अथवा बहिर्मुखवर्गस्य सूचनायाः उपलब्धतायाः आधारेण त्रयः सामान्याः उपायाः सन्ति ।
1 अनिरीक्षित आउटलायर-परिचय-विधिः, अर्थात् दत्तांशसमूहे श्रेणी-लेबल्-इत्यादीनि पूर्वज्ञानं नास्ति;
2 पर्यवेक्षिता बहिर्मुखपरिचयपद्धतिः, अर्थात् बहिर्मुखीनां सामान्यबिन्दून् च युक्तस्य प्रशिक्षणसमूहस्य अस्तित्वस्य माध्यमेन बहिर्गतानां लक्षणं निष्कासयितुं
3 अर्ध-निरीक्षित आउटलइयर-परिचय-विधिः, प्रशिक्षण-आँकडेषु लेबल-कृत-सामान्य-दत्तांशः भवति, परन्तु बहिर्मुख-दत्तांश-वस्तूनाम् विषये कोऽपि सूचना नास्ति ।