2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
दत्तांशविज्ञानस्य यन्त्रशिक्षणस्य च जगति दत्तांशबिन्दुयोः समानतायाः गणना मौलिकं महत्त्वपूर्णं च कार्यम् अस्ति । सादृश्यगणना अस्मान् दत्तांशेषु प्रतिमानानाम् अभिज्ञानं, समूहविश्लेषणं, अनुशंसकप्रणालीनिर्माणम् इत्यादिषु सहायकं भवितुम् अर्हति । scikit-learn (संक्षेपेण sklearn), पायथन् इत्यस्मिन् लोकप्रियं यन्त्रशिक्षणपुस्तकालयरूपेण, दत्तांशस्य समानतायाः गणनायाः विविधाः पद्धतयः प्रदाति । अयं लेखः sklearn इत्यस्मिन् समानतागणनायाः कृते प्रयुक्तायाः पद्धतेः विस्तरेण परिचयं करिष्यति तथा च व्यावहारिकसङ्केतस्य उदाहरणानि प्रदास्यति ।
समानतागणनायाः महत्त्वपूर्णाः अनुप्रयोगाः निम्नलिखितक्षेत्रेषु सन्ति ।
sklearn समानतागणनायाः कृते विविधानि साधनानि एल्गोरिदम् च प्रदाति निम्नलिखिताः केचन सामान्यतया प्रयुक्ताः पद्धतयः सन्ति ।
कोसाइनसादृश्यं द्वयोः सदिशयोः मध्ये कोणं माप्य समानतायाः मूल्याङ्कनं करोति ।
from sklearn.metrics.pairwise import cosine_similarity
# 假设X是数据集
cosine_sim = cosine_similarity(X)
यूक्लिडियन-अन्तरं सर्वाधिकं सहजं दूरमापनविधिः अस्ति, यत्र द्वयोः बिन्दुयोः मध्ये ऋजुरेखा-अन्तरस्य गणना भवति ।
from sklearn.metrics.pairwise import euclidean_distances
# 假设X是数据集
distances = euclidean_distances(X)
# 计算相似度,通常使用1减去距离
similarity = 1 / (1 + distances)
म्यानहट्टन्-दूरता (नगरखण्ड-अन्तरम् इति अपि उच्यते) मानक-निर्देशाङ्क-प्रणाल्यां द्वयोः बिन्दुयोः निरपेक्ष-अक्ष-अन्तराणां योगं मापयति
from sklearn_extra.metrics import manhattan_distances
# 假设X是数据集
manhattan_dist = manhattan_distances(X)
# 转换为相似度
similarity = 1 / (1 + manhattan_dist)
जैकार्ड-सादृश्यगुणकस्य मुख्यतया उपयोगः द्वयोः समुच्चययोः समानतां मापनार्थं भवति, यस्य मूल्यं ० तः १ पर्यन्तं भवति ।
from sklearn.metrics import jaccard_score
# 假设X和Y是两个数据集
jaccard_sim = jaccard_score(X, Y, average='micro')
द्वयोः दत्तांशसमूहयोः रेखीयसहसंबन्धस्य मापनार्थं पियर्सन् सहसंबन्धगुणकस्य उपयोगः भवति ।
from sklearn.metrics.pairwise import pearsonr
# 假设X和Y是两个数据集
correlation, _ = pearsonr(X[:, 0], Y[:, 0])
मानातु यत् अस्माभिः उपयोक्तुः ऐतिहासिकव्यवहारस्य आधारेण समानप्रयोक्तृभ्यः रोचमानानि उत्पादानि अनुशंसितव्यानि सन्ति:
from sklearn.metrics.pairwise import cosine_similarity
# 假设user_behavior是一个DataFrame,记录了用户对商品的评分
user_behavior = ...
# 计算用户之间的相似度
user_similarity = cosine_similarity(user_behavior)
# 推荐系统可以根据相似度来推荐商品
# 例如,找出与目标用户相似度最高的用户喜欢的其他商品
similar_users = user_similarity[目标用户索引].argsort()[::-1]
recommended_products = 商品列表[similar_users[1]]
सादृश्यगणना आँकडाविश्लेषणे यन्त्रशिक्षणे च मूलभूतप्रौद्योगिकी अस्ति, sklearn इत्यनेन एतत् कार्यं कर्तुं विविधाः पद्धतयः प्रदत्ताः सन्ति । अस्य लेखस्य माध्यमेन वयं sklearn इत्यस्मिन् भिन्नसादृश्यगणनाविधिविषये ज्ञात्वा व्यावहारिकसङ्केतस्य उदाहरणानि प्रदत्तवन्तः ।
अस्य लेखस्य उद्देश्यं पाठकानां कृते समानतागणनां अधिकतया अवगन्तुं, sklearn इत्यस्मिन् एतासां तकनीकानां कार्यान्वयनस्य पद्धतीषु निपुणतां प्राप्तुं च अस्ति । आशास्ति यत् पाठकाः अस्य लेखस्य माध्यमेन समानतागणनायाः अवगमनं सुदृढं कर्तुं शक्नुवन्ति तथा च एताः तकनीकाः वास्तविकपरियोजनासु प्रभावीरूपेण प्रयोक्तुं शक्नुवन्ति। यथा यथा दत्तांशस्य परिमाणं वर्धते तथा तथा दत्तांशविज्ञानस्य क्षेत्रे सादृश्यगणनायाः महत्त्वपूर्णा भूमिका निरन्तरं भविष्यति ।