आँकडानां समानतायाः अन्वेषणम् : sklearn_developdoc इत्यस्मिन् समानतागणनापद्धतेः पूर्णविश्लेषणम्

दत्तांशस्य समानतायाः अन्वेषणम् : sklearn इत्यस्मिन् समानतागणनाविधिनाम् पूर्णविश्लेषणम्

2024-07-12

दत्तांशस्य समानतायाः अन्वेषणम् : sklearn इत्यस्मिन् समानतागणनाविधिनाम् पूर्णविश्लेषणम्

दत्तांशविज्ञानस्य यन्त्रशिक्षणस्य च जगति दत्तांशबिन्दुयोः समानतायाः गणना मौलिकं महत्त्वपूर्णं च कार्यम् अस्ति । सादृश्यगणना अस्मान् दत्तांशेषु प्रतिमानानाम् अभिज्ञानं, समूहविश्लेषणं, अनुशंसकप्रणालीनिर्माणम् इत्यादिषु सहायकं भवितुम् अर्हति । scikit-learn (संक्षेपेण sklearn), पायथन् इत्यस्मिन् लोकप्रियं यन्त्रशिक्षणपुस्तकालयरूपेण, दत्तांशस्य समानतायाः गणनायाः विविधाः पद्धतयः प्रदाति । अयं लेखः sklearn इत्यस्मिन् समानतागणनायाः कृते प्रयुक्तायाः पद्धतेः विस्तरेण परिचयं करिष्यति तथा च व्यावहारिकसङ्केतस्य उदाहरणानि प्रदास्यति ।

1. सादृश्यगणनायाः महत्त्वम्

समानतागणनायाः महत्त्वपूर्णाः अनुप्रयोगाः निम्नलिखितक्षेत्रेषु सन्ति ।

समूहविश्लेषणम्: समानदत्तांशबिन्दून् एकत्र समूहीकृत्य स्थापयन्तु।
अनुशंसित व्यवस्था: उपयोक्तुः ऐतिहासिकप्राथमिकतानां आधारेण समानवस्तूनि अनुशंसयन्तु।
असामान्यपरिचयः: अधिकांशदत्तांशबिन्दुसदृशाः न सन्ति ये बहिर्गाः चिनुत।
बिम्बपरिचयः: विशेषतासदिशस्य तुलनां कृत्वा चित्रसामग्रीणां परिचयं कुर्वन्तु।

2. sklearn इत्यस्मिन् सादृश्यगणनाविधिः

sklearn समानतागणनायाः कृते विविधानि साधनानि एल्गोरिदम् च प्रदाति निम्नलिखिताः केचन सामान्यतया प्रयुक्ताः पद्धतयः सन्ति ।

२.१ कोसाइनसादृश्यम्

कोसाइनसादृश्यं द्वयोः सदिशयोः मध्ये कोणं माप्य समानतायाः मूल्याङ्कनं करोति ।

from sklearn.metrics.pairwise import cosine_similarity

# 假设X是数据集
cosine_sim = cosine_similarity(X)
1
2
3
4

२.२ यूक्लिडियनदूरता

यूक्लिडियन-अन्तरं सर्वाधिकं सहजं दूरमापनविधिः अस्ति, यत्र द्वयोः बिन्दुयोः मध्ये ऋजुरेखा-अन्तरस्य गणना भवति ।

from sklearn.metrics.pairwise import euclidean_distances

# 假设X是数据集
distances = euclidean_distances(X)
# 计算相似度，通常使用1减去距离
similarity = 1 / (1 + distances)
1
2
3
4
5
6

२.३ म्यानहट्टन्-अन्तरम्

म्यानहट्टन्-दूरता (नगरखण्ड-अन्तरम् इति अपि उच्यते) मानक-निर्देशाङ्क-प्रणाल्यां द्वयोः बिन्दुयोः निरपेक्ष-अक्ष-अन्तराणां योगं मापयति

from sklearn_extra.metrics import manhattan_distances

# 假设X是数据集
manhattan_dist = manhattan_distances(X)
# 转换为相似度
similarity = 1 / (1 + manhattan_dist)
1
2
3
4
5
6

२.४ जक्करसादृश्यगुणकः

जैकार्ड-सादृश्यगुणकस्य मुख्यतया उपयोगः द्वयोः समुच्चययोः समानतां मापनार्थं भवति, यस्य मूल्यं ० तः १ पर्यन्तं भवति ।

from sklearn.metrics import jaccard_score

# 假设X和Y是两个数据集
jaccard_sim = jaccard_score(X, Y, average='micro')
1
2
3
4

२.५ पियर्सन सहसंबन्धगुणकः

द्वयोः दत्तांशसमूहयोः रेखीयसहसंबन्धस्य मापनार्थं पियर्सन् सहसंबन्धगुणकस्य उपयोगः भवति ।

from sklearn.metrics.pairwise import pearsonr

# 假设X和Y是两个数据集
correlation, _ = pearsonr(X[:, 0], Y[:, 0])
1
2
3
4

3. सादृश्यगणनायाः अनुप्रयोगोदाहरणानि

मानातु यत् अस्माभिः उपयोक्तुः ऐतिहासिकव्यवहारस्य आधारेण समानप्रयोक्तृभ्यः रोचमानानि उत्पादानि अनुशंसितव्यानि सन्ति:

from sklearn.metrics.pairwise import cosine_similarity

# 假设user_behavior是一个DataFrame，记录了用户对商品的评分
user_behavior = ...

# 计算用户之间的相似度
user_similarity = cosine_similarity(user_behavior)

# 推荐系统可以根据相似度来推荐商品
# 例如，找出与目标用户相似度最高的用户喜欢的其他商品
similar_users = user_similarity[目标用户索引].argsort()[::-1]
recommended_products = 商品列表[similar_users[1]]
1
2
3
4
5
6
7
8
9
10
11
12

४ उपसंहारः

सादृश्यगणना आँकडाविश्लेषणे यन्त्रशिक्षणे च मूलभूतप्रौद्योगिकी अस्ति, sklearn इत्यनेन एतत् कार्यं कर्तुं विविधाः पद्धतयः प्रदत्ताः सन्ति । अस्य लेखस्य माध्यमेन वयं sklearn इत्यस्मिन् भिन्नसादृश्यगणनाविधिविषये ज्ञात्वा व्यावहारिकसङ्केतस्य उदाहरणानि प्रदत्तवन्तः ।

अस्य लेखस्य उद्देश्यं पाठकानां कृते समानतागणनां अधिकतया अवगन्तुं, sklearn इत्यस्मिन् एतासां तकनीकानां कार्यान्वयनस्य पद्धतीषु निपुणतां प्राप्तुं च अस्ति । आशास्ति यत् पाठकाः अस्य लेखस्य माध्यमेन समानतागणनायाः अवगमनं सुदृढं कर्तुं शक्नुवन्ति तथा च एताः तकनीकाः वास्तविकपरियोजनासु प्रभावीरूपेण प्रयोक्तुं शक्नुवन्ति। यथा यथा दत्तांशस्य परिमाणं वर्धते तथा तथा दत्तांशविज्ञानस्य क्षेत्रे सादृश्यगणनायाः महत्त्वपूर्णा भूमिका निरन्तरं भविष्यति ।

प्रौद्योगिकी साझेदारी

दत्तांशस्य समानतायाः अन्वेषणम् : sklearn इत्यस्मिन् समानतागणनाविधिनाम् पूर्णविश्लेषणम्

दत्तांशस्य समानतायाः अन्वेषणम् : sklearn इत्यस्मिन् समानतागणनाविधिनाम् पूर्णविश्लेषणम्

1. सादृश्यगणनायाः महत्त्वम्

2. sklearn इत्यस्मिन् सादृश्यगणनाविधिः

२.१ कोसाइनसादृश्यम्

२.२ यूक्लिडियनदूरता

२.३ म्यानहट्टन्-अन्तरम्

२.४ जक्करसादृश्यगुणकः

२.५ पियर्सन सहसंबन्धगुणकः

3. सादृश्यगणनायाः अनुप्रयोगोदाहरणानि

४ उपसंहारः

व्यक्तिगत प्रोफाइल

मम सम्पर्कसूचना