प्रौद्योगिकी साझेदारी

[मशीन लर्निंग] नैव बेयस् एल्गोरिदमस्य विस्तृतव्याख्या व्यावहारिकविस्तारः च

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

द जर्नी आफ् डॉन् इत्यस्य ब्लोग् मध्ये स्वागतम्

⛺️अपने समय के अनुरूप जीवन जीना चाहिये✈️

आमुख

नैव बेयस् एल्गोरिदम् संभाव्यतासांख्यिकीयानाम् आधारेण वर्गीकरणपद्धतिः अस्ति, या नमूनायाः श्रेणीयाः पूर्वानुमानार्थं बेयस् इत्यस्य प्रमेयस्य तथा च विशेषता सशर्तस्वतन्त्रताधारणायाः उपयोगं करोति यद्यपि तस्य धारणा यत् विशेषताः परस्परं स्वतन्त्राः सन्ति इति प्रायः वास्तविकतायां सत्यं न भवति तथापि नैव बेयस् वर्गीकरणस्य सरलगणना, उच्चदक्षता, अनुपलब्धदत्तांशस्य प्रति असंवेदनशीलता च इत्यादयः लाभाः सन्ति भावनाविश्लेषणम् अन्यक्षेत्राणि च विस्तृताः अनुप्रयोगाः।
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

नैव बेयस् एल्गोरिदमस्य सिद्धान्तस्य गहनं विश्लेषणम्

बेयस प्रमेय

बेयस् इत्यस्य प्रमेयः भोले बेयस् वर्गीकरणस्य आधारः अस्ति, यः सशर्तसंभाव्यतानां सम्बन्धस्य वर्णनं करोति ।वर्गीकरणसमस्यासु वयं दत्तविशेषतानां विषये चिन्तिताः स्मः XXXअधः नमूना कस्यचित् वर्गस्य अस्ति YY, इत्यस्य सम्भावना अर्थात् पश्चसंभावना P ( Y ∣ X ) P(Y|X) ९.पु(X) .बेयस् इत्यस्य प्रमेयम् अस्मान् पूर्वसंभावनाः पारयितुं शक्नोति प ( य ) प(य) .पु(),सशर्त संभाव्यता प ( X ∣ Y ) प(X|Y) .पु(X)प्रमाणस्य च सम्भावना प ( X ) प(X) .पु(X)पश्चसंभाव्यतायाः गणनां कर्तुं ।

लक्षण सशर्त स्वातन्त्र्य परिकल्पना

नैव बेयस् एल्गोरिदम् इत्यस्य मूलभूतं धारणा अस्ति यत् विशेषताः परस्परं स्वतन्त्राः सन्ति अर्थात् एकस्य विशेषतायाः घटनायाः अन्यविशेषताभिः सह किमपि सम्बन्धः नास्ति एषा कल्पना गणनां बहु सरलीकरोति, यतः वयं संयुक्तसंभाव्यतावितरणं बहुविधसीमान्तसंभाव्यतावितरणस्य गुणनफलरूपेण विघटयितुं शक्नुमः परन्तु एषा धारणा प्रायः वास्तविकतायां सत्यं न भवति, परन्तु प्रयोगाः दर्शयन्ति यत् नैव बेयस् वर्गीकारः अद्यापि बहुषु सन्दर्भेषु उत्तमं वर्गीकरणफलं प्राप्तुं शक्नोति

पैरामीटर् अनुमानम्

Naive Bayes algorithm इत्यस्मिन् अस्माभिः पूर्वसंभाव्यतायाः अनुमानं कर्तव्यम् प ( य ) प(य) .पु()तथा सशर्तसंभावना प ( X ∣ Y ) प(X|Y) .पु(X) . पूर्वसंभाव्यतायाः कृते प्रायः प्रशिक्षणदत्तांशतः प्रत्यक्षतया तस्य गणना कर्तुं शक्यते । सशर्तसंभाव्यतायाः कृते भिन्न-भिन्न-नाइव-बेस्-कार्यन्वयन-विधिषु भिन्नाः प्रसंस्करण-विधयः सन्ति, यथा बहुपद-नाइव-बेस् (असतत-विशेषतानां कृते उपयुक्ताः), गाउसी-नाइव-बेस् (निरन्तर-विशेषतानां कृते उपयुक्ताः) इत्यादयः
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

एल्गोरिदमस्य लाभहानिविश्लेषणम्

लाभ

  1. उच्च गणनादक्षता

    • नैव बेयस् एल्गोरिदम् इत्यस्य मूललाभः तस्य कुशलं कम्प्यूटिङ्ग् प्रदर्शने अस्ति । यतो हि विशेषताः परस्परं स्वतन्त्राः इति कल्प्यन्ते, संयुक्तसंभाव्यतावितरणं बहुविधसीमान्तसंभाव्यतावितरणस्य गुणनफलरूपेण विघटितुं शक्यते, येन गणनाप्रक्रिया बहु सरली भवति एतेन Naive Bayes एल्गोरिदम् बृहत्-परिमाणस्य आँकडा-समूहानां संसाधनं कुर्वन् द्रुत-प्रक्रिया-वेगं निर्वाहयितुं शक्नोति ।
    • तदतिरिक्तं, Naive Bayes एल्गोरिदम् सामान्यतया केवलं प्रशिक्षण-भविष्यवाणी-चरणयोः गुणन-योगः, घातीय-क्रियाः इत्यादीनां सरल-गणितीय-क्रियाणां आवश्यकतां जनयति, एतानि क्रियाणि सङ्गणकेषु कार्यान्वितुं अतीव कुशलाः भवन्ति
  2. अनुपलब्धदत्तांशस्य प्रति असंवेदनशीलः

    • व्यावहारिकप्रयोगेषु दत्तांशसमूहेषु प्रायः लुप्तमूल्यानि सन्ति अथवा अपूर्णानि भवन्ति । एतादृशसमस्यानां निवारणे Naive Bayes एल्गोरिदम् उत्तमं दृढतां दर्शयति । यदि केचन विशेषतामूल्यानि लुप्ताः सन्ति चेदपि, एल्गोरिदम् अद्यापि जटिलपूर्वसंसाधनस्य अथवा लुप्तमूल्यानां पूरणस्य आवश्यकतां विना अन्येषां विशेषतानां उपयोगं कर्तुं समर्थः भवति
    • यतो हि यदा Naive Bayes एल्गोरिदम् सशर्तसंभाव्यतायाः गणनां करोति तदा प्रत्येकं विशेषता स्वतन्त्रतया विचार्यते, अतः कस्यचित् विशेषतायाः अभावः अन्यविशेषतानां सशर्तसंभाव्यतायाः गणनां न प्रभावितं करिष्यति
  3. आदर्शः सरलः, कार्यान्वितुं सुलभः च अस्ति

    • नैव बेयस् एल्गोरिदम् इत्यस्य आदर्शसंरचना तुल्यकालिकरूपेण सरलं भवति तथा च अवगन्तुं कार्यान्वयनञ्च सुलभं भवति । अस्य जटिलपुनरावृत्तिप्रक्रियाणां वा अनुकूलन-अल्गोरिदमस्य वा आवश्यकता नास्ति, केवलं प्रशिक्षणं भविष्यवाणीं च पूर्णं कर्तुं सरलगणितीयक्रियाणां आवश्यकता भवति । एतेन अविशेषज्ञाः उपयोक्तारः वास्तविक-जगतः समस्यानां समाधानार्थं Naive Bayes एल्गोरिदम् इत्यस्य उपयोगं सुलभतया कर्तुं समर्थाः भवन्ति ।
    • तदतिरिक्तं, मॉडलस्य सरलतायाः कारणात्, Naive Bayes एल्गोरिदमस्य व्याख्यानं दृश्यीकरणं च सुलभं भवति, येन उपयोक्तारः मॉडलस्य निर्णयप्रक्रियायाः परिणामान् च अवगन्तुं साहाय्यं कुर्वन्ति
  4. वर्गीकरणस्य परिणामाः प्रायः उत्तमाः भवन्ति

    • यद्यपि Naive Bayes एल्गोरिदम् एकस्याः प्रबल-अनुमानस्य (feature conditional independence) आधारितः अस्ति तथापि सः अद्यापि अनेकेषु व्यावहारिक-अनुप्रयोगेषु उत्तमं वर्गीकरण-परिणामं प्राप्तुं शक्नोति एतत् यतोहि व्यावहारिकसमस्यासु विशेषतानां मध्ये सहसंबन्धः सर्वदा प्रबलः न भवति, अथवा सहसंबन्धः अस्ति चेदपि, Naive Bayes एल्गोरिदम् अन्यैः मार्गैः (यथा विशेषताचयनं, पैरामीटर् समायोजनं इत्यादिभिः) दोषं कृत्वा एतस्य क्षतिपूर्तिं कर्तुं शक्नोति .
      अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

अभावः

  1. लक्षणशर्तस्वातन्त्र्यप्रतिपत्तिः न धारयति

    • Naive Bayes algorithm इत्यस्य बृहत्तमः दोषः अस्ति यत् एतत् कल्पयति यत् विशेषताः परस्परं स्वतन्त्राः सन्ति, यत् प्रायः वास्तविकतायां सत्यं न भवति प्रायः Naive Bayes एल्गोरिदम् इत्यस्मिन् उपेक्षितानां विशेषतानां मध्ये जटिलाः अन्तरक्रियाः सहसम्बन्धाः च भवन्ति । एतेन केषुचित् सन्दर्भेषु एल्गोरिदम् दत्तांशस्य यथार्थवितरणं समीचीनतया गृहीतुं असफलं भवितुम् अर्हति, अतः वर्गीकरणप्रभावः प्रभावितः भवितुम् अर्हति ।
    • एतस्याः समस्यायाः निवारणाय शोधकर्तारः अनेके सुधारविधयः प्रस्ताविताः, यथा Semi-Naive Bayes algorithm, ये विशेषतास्थितिस्वतन्त्रताधारणायाः प्रतिबन्धं किञ्चित्पर्यन्तं शिथिलं कुर्वन्ति, परन्तु तदनुसारं गणनाजटिलता अपि वर्धते
  2. निवेशदत्तांशस्य प्रतिनिधित्वं प्रति संवेदनशीलः

    • Naive Bayes एल्गोरिदम् इत्यस्य कार्यक्षमता बहुधा निवेशदत्तांशस्य प्रतिनिधित्वस्य उपरि निर्भरं भवति । यथा, पाठवर्गीकरणसमस्यासु शब्दविभाजनस्य गुणवत्ता, स्टॉपशब्दानां निष्कासनं, शब्दस्य पुटप्रतिरूपस्य निर्माणं च इत्यादीनां पूर्वसंसाधनपदार्थानाम् वर्गीकरणपरिणामेषु महत्त्वपूर्णः प्रभावः भविष्यति यदि निवेशदत्तांशस्य अभिव्यक्तिरूपं पर्याप्तं सटीकं वा उचितं वा नास्ति तर्हि Naive Bayes एल्गोरिदमस्य वर्गीकरणप्रभावः बहु प्रभावितः भवितुम् अर्हति ।
    • अतः Naive Bayes एल्गोरिदमस्य उपयोगात् पूर्वं सावधानीपूर्वकं आँकडापूर्वसंसाधनं, विशेषताचयनं च आवश्यकं भवति यत् निवेशदत्तांशः समस्यायाः प्रकृतिं विशेषतानां मध्ये सम्बन्धं च समीचीनतया प्रतिबिम्बयितुं शक्नोति इति सुनिश्चितं भवति
  3. पैरामीटर् अनुमानस्य संवेदनशीलता

    • Naive Bayes एल्गोरिदम् इत्यनेन पूर्वसंभावना, सशर्तसंभावना इत्यादीनां मापदण्डानां अनुमानस्य आवश्यकता भवति । एतेषां मापदण्डानां अनुमानपरिणामानां एल्गोरिदमस्य वर्गीकरणप्रभावे महत् प्रभावः भवति । यदि पैरामीटर्-अनुमानं अशुद्धं वा पक्षपातपूर्णं वा भवति तर्हि एल्गोरिदमस्य वर्गीकरण-प्रदर्शनं प्रभावितं भवितुम् अर्हति ।
    • पैरामीटर् अनुमानस्य सटीकतायां सुधारं कर्तुं अधिकजटिलसंभाव्यताप्रतिमानानाम् (यथा Gaussian Naive Bayes, Polynomial Naive Bayes इत्यादीनां) उपयोगः आँकडानां वितरणं समायोजयितुं कर्तुं शक्यते, परन्तु एतेन गणनाजटिलता अपि च मॉडलजटिलता अपि वर्धते
  4. वर्ग असंतुलनसमस्या

    • वर्ग-असन्तुलितदत्तांशसमूहानां निवारणे Naive Bayes एल्गोरिदम् दुःखं प्राप्नुयात् । वर्ग असन्तुलनस्य अर्थः अस्ति यत् दत्तांशसमूहे कस्मिंश्चित् वर्गे नमूनानां संख्या अन्यवर्गेषु नमूनानां संख्यायाः अपेक्षया बहु अधिका भवति । अस्मिन् सन्दर्भे Naive Bayes एल्गोरिदम् नमूनानां बहूनां श्रेणीषु पूर्वानुमानं कर्तुं प्रवृत्तः भवितुम् अर्हति, यस्य परिणामेण वर्गीकरणस्य परिणामाः दुर्बलाः भवन्ति ।
    • वर्ग असन्तुलनसमस्यायाः निवारणाय, पुनः नमूनाकरणप्रविधयः (यथा अतिनमूनाकरणं, अण्डरसैम्पलिंगम् इत्यादयः) उपयोक्तुं शक्यन्ते, येन आँकडासमूहस्य वर्गवितरणं समायोजितुं शक्यते, अथवा मूल्याङ्कनसूचकाः ये वर्गस्य असन्तुलनं नियन्त्रयितुं शक्नुवन्ति (यथा F1 स्कोरः, ROC वक्राः) , इत्यादीनि) इत्यस्य उपयोगेन एल्गोरिदम-प्रदर्शनस्य मूल्याङ्कनं कर्तुं शक्यते ।
      अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

अतिरिक्त उदाहरणानि तथा कोड कार्यान्वयनम्

उदाहरणम् ३ : स्पैम-छननम्

दृश्यवर्णनम्: ईमेल-पत्राणां वर्गीकरणाय Naive Bayes-एल्गोरिदम् इत्यस्य उपयोगं कुर्वन्तु यत् ते स्पैम् सन्ति वा इति निर्धारयन्तु ।

दत्तांशपूर्वसंसाधनम्

  • शब्दानां क्रमं व्याकरणिकसंरचनायाः च अवहेलनां कृत्वा ईमेलपाठं Bag of Words मॉडल् मध्ये परिवर्तयन्तु ।
  • TF-IDF इत्यादीनां तकनीकानां उपयोगेन शब्दानां महत्त्वं गणयन्तु।

संहिता(किञ्चित् विवरणं परित्यज्य, यथा दत्तांशभारः पूर्वसंसाधनं च):

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 假设 emails 和 labels 分别是邮件文本和对应的标签(0为正常邮件,1为垃圾邮件)
# 这里省略了数据加载和预处理的步骤

# 特征提取(TF-IDF)
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(emails)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)

# 创建朴素贝叶斯分类器
clf = MultinomialNB()
clf.fit(X_train, y_train)

# 预测测试集
y_pred = clf.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f'Accuracy: {accuracy:.4f}')
print(report)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28

उपसंहारे

Naive Bayes एल्गोरिदम् इत्यस्य सरलतायाः कार्यक्षमतायाः च कारणेन पाठवर्गीकरणं, स्पैम-छननम् इत्यादिषु क्षेत्रेषु व्यापकरूपेण उपयोगः कृतः अस्ति । यद्यपि तस्य लक्षणीयस्थितिस्वतन्त्रताधारणा प्रायः वास्तविकतायां न धारयति तथापि अस्याः कल्पनायाः सरलीकरणेन एल्गोरिदमस्य गणनाप्रक्रिया अतीव कार्यक्षमा भवति उचितदत्तांशपूर्वसंसाधनस्य तथा विशेषताचयनस्य माध्यमेन Naive Bayes एल्गोरिदम् अनेकव्यावहारिकप्रयोगेषु उत्तमं परिणामं प्राप्तुं शक्नोति ।