प्रौद्योगिकी साझेदारी

आँकडा सीमां पश्यन् : sklearn मध्ये आउटलइयर डिटेक्शन प्रौद्योगिकी

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

आँकडा सीमां पश्यन् : sklearn मध्ये आउटलइयर डिटेक्शन प्रौद्योगिकी

आँकडाविश्लेषणं यन्त्रशिक्षणपरियोजनासु च आउटलाइयरपरिचयः महत्त्वपूर्णं कार्यम् अस्ति । बहिर्मुखाः, बहिर्गताः अथवा बहिर्गाः इति अपि ज्ञायन्ते, अन्येभ्यः दत्तांशेभ्यः महत्त्वपूर्णतया भिन्नानि अवलोकनानि निर्दिशन्ति । एते बिन्दवः मापनदोषेण, दत्तांशप्रविष्टिदोषेण, सत्या परिवर्तनशीलतायाः वा कारणेन भवितुम् अर्हन्ति । आदर्शस्य गुणवत्तां सटीकता च सुनिश्चित्य बहिःस्थानां सम्यक् पहिचानं निबन्धनं च महत्त्वपूर्णम् अस्ति । scikit-learn (संक्षेपेण sklearn), पायथन् इत्यस्मिन् विशेषता-समृद्धस्य यन्त्रशिक्षणपुस्तकालयस्य रूपेण, विविधानि आउटलइयर-परिचय-विधयः प्रदाति । अयं लेखः sklearn इत्यस्मिन् outlier detection technology इत्यस्य विस्तरेण परिचयं करिष्यति तथा च व्यावहारिकं कोड उदाहरणं प्रदास्यति ।

1. बहिर्गलपरिचयस्य महत्त्वम्

बहिर्मुखस्य अन्वेषणं यथा क्षेत्रेषु महत्त्वपूर्णं भवति :

  • दत्तांशसफाई: दत्तांशपूर्वसंसाधनपदे बहिःस्थानां पहिचानं निबन्धनं च कुर्वन्तु।
  • धोखाधड़ी का पता लगाना: वित्तीयव्यवहारेषु सम्भाव्यं धोखाधड़ीं चिन्तयन्तु।
  • प्रक्रिया निगरानी: उपकरणस्य स्थितिं निरीक्ष्य औद्योगिकनिर्माणे विफलतां निवारयन्तु।
2. sklearn इत्यस्मिन् आउटलाइयर-परिचय-विधिः

sklearn outlier detection कृते अनेकाः पद्धतयः प्रदाति अत्र केचन सामान्यतया प्रयुक्ताः तकनीकाः सन्ति ।

२.१ Z-Score (मानकीकृताङ्कः) २.

Z-Score पद्धतिः दत्तांशस्य औसतं मानकविचलनं च आधारीकृत्य सामान्यवितरणं प्रति दत्तांशं सामान्यीकरोति, तथा च प्रत्येकस्य बिन्दुस्य Z-Score गणयति

from scipy.stats import zscore

data = [[1, 2], [3, 4], [5, 6], [100, 100]]
data = np.array(data)
z_scores = zscore(data)
threshold = 3  # 通常阈值设为3
outliers = np.where((z_scores > threshold) | (z_scores < -threshold))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
२.२ IQR (अन्तरचतुर्थांशपरिधि) २.

IQR पद्धतिः बहिःस्थानां परिधिं निर्धारयितुं आँकडानां प्रथमचतुर्थांशस्य (Q1) तृतीयचतुर्थांशस्य (Q3) च उपयोगं करोति ।

Q1 = np.percentile(data, 25, axis=0)
Q3 = np.percentile(data, 75, axis=0)
IQR = Q3 - Q1
threshold = 1.5
outliers = np.where((data < (Q1 - threshold * IQR)) | (data > (Q3 + threshold * IQR)))
  • 1
  • 2
  • 3
  • 4
  • 5
२.३ घनत्व-आधारित-विधयः

घनत्व-आधारित-विधयः, यथा DBSCAN, नियत-दहलीजस्य अपेक्षया आँकडा-बिन्दु-घनत्वस्य आधारेण बहिःस्थानां पहिचानं कुर्वन्ति ।

from sklearn.cluster import DBSCAN

dbscan = DBSCAN(min_samples=5, eps=0.5)
dbscan.fit(data)
core_samples_mask = np.zeros_like(dbscan.labels_, dtype=bool)
core_samples_mask[dbscan.core_sample_indices_] = True
outliers = dbscan.labels_ == -1
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
२.४ एकान्तवासः वनम्

पृथक्करणवनं यादृच्छिकवने आधारितं बहिर्गलपरिचयपद्धतिः अस्ति, यत् विशेषतानां विभाजनबिन्दुनाञ्च यादृच्छिकरूपेण चयनं कृत्वा बहिर्मुखानाम् "पृथक्करणं" करोति ।

from sklearn.ensemble import IsolationForest

iso_forest = IsolationForest(n_estimators=100, contamination=0.01)
iso_forest.fit(data)
outliers = iso_forest.predict(data) == -1
  • 1
  • 2
  • 3
  • 4
  • 5
3. बहिर्गलपरिचयस्य मूल्याङ्कनं कुर्वन्तु

बहिर्गलपरिचयस्य कार्यप्रदर्शनस्य मूल्याङ्कनं प्रायः कठिनं भवति यतोहि निरपेक्षमानकाः नास्ति । तथापि तस्य मूल्याङ्कनं निम्नलिखितरीत्या कर्तुं शक्यते ।

  • दृश्यीकरणम्: scatter plots इत्यादीनां पद्धतीनां उपयोगेन data points तथा detected outliers इत्यस्य कल्पनां कुर्वन्तु।
  • ज्ञाताः बहिर्गाः: यदि ज्ञाताः बहिर्गाः सन्ति तर्हि अन्वेषणसटीकता, स्मरणदरः इत्यादयः सूचकाः गणयितुं शक्यन्ते ।
4. व्यावहारिकप्रयोगैः सह संयुक्तम्

व्यावहारिक-अनुप्रयोगेषु, बहिर्मुख-परिचयः अस्मान् अग्रे विश्लेषणं कर्तुं वा निवारक-उपायान् कर्तुं वा आँकडा-समूहे असामान्य-व्यवहारानाम् अभिज्ञानं कर्तुं साहाय्यं कर्तुं शक्नोति ।

५ उपसंहारः

दत्तांशविश्लेषणे यन्त्रशिक्षणे च आउटलाइयर-परिचयः महत्त्वपूर्णः कडिः अस्ति । sklearn विविधानि आउटलइयर-परिचय-विधयः प्रदाति, प्रत्येकस्य पद्धतेः विशिष्टानि अनुप्रयोग-परिदृश्यानि लाभाः च सन्ति । अस्य लेखस्य माध्यमेन वयं sklearn इत्यस्मिन् भिन्न-भिन्न-आउटलाइर्-परिचय-प्रविधिषु ज्ञातवन्तः, व्यावहारिक-सङ्केत-उदाहरणानि च प्रदत्तवन्तः ।

अस्य लेखस्य उद्देश्यं पाठकानां कृते आउटलायर-परिचयं अधिकतया अवगन्तुं, sklearn इत्यस्मिन् एतासां तकनीकानां कार्यान्वयनस्य पद्धतीषु निपुणतां प्राप्तुं च अस्ति । वयम् आशास्महे यत् पाठकाः अस्य लेखस्य माध्यमेन बहिर्गलपरिचयस्य विषये स्वस्य अवगमनं सुधारयितुम् अर्हन्ति तथा च एताः तकनीकाः वास्तविकपरियोजनासु प्रभावीरूपेण प्रयोक्तुं शक्नुवन्ति। यथा यथा आँकडा-मात्रा वर्धते तथा तथा आँकडा-विज्ञाने बहिर्मुख-परिचयः महत्त्वपूर्णां भूमिकां निरन्तरं निर्वहति ।