प्रौद्योगिकी साझेदारी

लॉजिस्टिक रिग्रेशन (शुद्ध सिद्धान्त) २.

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

1. लॉजिस्टिक रिग्रेशन इति किम् ?

लॉजिस्टिक रिग्रेशन इति सामान्यतया प्रयुक्ता सांख्यिकीयशिक्षणपद्धतिः अस्ति, यस्याः उपयोगः मुख्यतया वर्गीकरणसमस्यानां समाधानार्थं भवति ।नाम्नि "regression" इति शब्दः अस्ति चेदपि वस्तुतः एतत् वर्गीकरण-अल्गोरिदम् अस्ति

2. यन्त्रशिक्षणस्य लॉजिस्टिक रिग्रेशनस्य उपयोगः किमर्थं आवश्यकः ?

1. द्विचक्रीय वर्गीकरण

एषः लॉजिस्टिक रिग्रेशनस्य मूलभूततमः सामान्यः च उपयोगः अस्ति ।एतत् पूर्वानुमानं कर्तुं शक्नोति यत् कश्चन घटना भविष्यति तथा च आउटपुट् परिणामः हाँ वा न वा इति

उदाहरणतया:

  • कश्चन उपयोक्ता विज्ञापनं क्लिक् करिष्यति वा इति पूर्वानुमानं कुर्वन्तु
  • ईमेल स्पैम अस्ति वा इति निर्धारयन्तु
  • रोगी रोगः अस्ति वा इति निदानं कुर्वन्तु

एतेषां उदाहरणानां सर्वेषां सामान्यं वैशिष्ट्यं भवति अर्थात् सत्यं (1) असत्यं (0) इति द्वौ एव परिणामौ स्तः ।

2. बहुश्रेणीवर्गीकरणम्

लॉजिस्टिक रिग्रेशनं बहु-श्रेणीवर्गीकरणसमस्यासु One-vs-Rest अथवा softmax इत्यादीनां पद्धतीनां माध्यमेन विस्तारयितुं शक्यते

उदाहरणतया:

  • बिम्बपरिचये वस्तुवर्गीकरणं
  • पाठवर्गीकरण (वार्ता वर्गीकरण, भावविश्लेषण आदि) २.

एतेषां उदाहरणानां सर्वेषां सामान्यं विशेषता अस्ति, अर्थात् एकस्यैव वस्तुनः बहुविधं सम्भाव्यं परिणामं भवति, अस्माकं सामान्यबहुविकल्पप्रश्नानां सदृशं बहुविकल्पाः सन्ति, परन्तु उत्तरे सर्वोत्तमरूपेण उपयुक्तः एकः एव विकल्पः अस्ति

3. संभाव्यता भविष्यवाणी

लॉजिस्टिक रिग्रेशन न केवलं वर्गीकरणस्य परिणामं ददाति, अपितु संभाव्यतामूल्यानि अपि निर्गच्छति, यत् अनेकेषु परिदृश्येषु अतीव उपयोगी भवति ।

उदाहरणतया:

  • ग्राहकस्य उत्पादक्रयणस्य सम्भावनायाः पूर्वानुमानं कुर्वन्तु
  • ऋण-आवेदकस्य डिफॉल्ट-जोखिमस्य सम्भावनायाः आकलनं कुर्वन्तु

एतेषां उदाहरणानां सर्वेषां सामान्यं वैशिष्ट्यं भवति यत् पूर्वानुमानम् अर्थात् अज्ञातपरिणामानां निष्कर्षणार्थं ज्ञातपरिणामानां उपयोगः ।

यदि भवान् लॉजिस्टिक रिग्रेशनस्य भूमिकां न अवगच्छति तर्हि तस्य महत्त्वं नास्ति ।

कल्पयतु यत् भवान् वैद्यः अस्ति, तस्मात् रोगी कश्चन रोगः अस्ति वा इति निर्धारयितुं प्रवृत्तः अस्ति । लॉजिस्टिक रिग्रेशनः बुद्धिमान् सहायकः इव अस्ति यत् भवतः एतत् निर्णयं कर्तुं साहाय्यं करोति। यथा वैद्यः रोगीनां विविधान् शारीरिकपरीक्षासूचकान् पश्यति तथा लॉजिस्टिक रिग्रेशनः बहुविधसम्बद्धकारकाणां विचारं करिष्यति (वयं तान् विशेषताः इति वदामः)। केचन मेट्रिकाः अन्येभ्यः अधिकं महत्त्वपूर्णाः भवितुम् अर्हन्ति । लॉजिस्टिक रिग्रेशन प्रत्येकं कारकं प्रति "भारं" नियुङ्क्ते, तस्य महत्त्वं प्रतिबिम्बयति । अन्ते केवलं "आम्" अथवा "न" इति वक्तुं स्थाने संभाव्यतां ददाति । यथा "अस्य रोगी रोगस्य सम्भावना ७०% अस्ति" इति । भवान् मानकं निर्धारयितुं शक्नोति, यथा, यदि 50% अधिकं भवति तर्हि "आम्" इति गण्यते, अन्यथा "न" इति गण्यते । लॉजिस्टिक रिग्रेशनः ज्ञातानां उदाहरणानां बहूनां संख्यातः "शिक्षते" । यथा वैद्यः बहूनां प्रकरणानाम् माध्यमेन अनुभवं प्राप्नोति।

अवश्यं, लॉजिस्टिक रिग्रेशनस्य भूमिका अस्मात् दूरं गच्छति, अन्तरिक्षेण सीमितं (वस्तुतः अहं केवलं आलस्यं कर्तुम् इच्छामि), अहं बहु परिचयं न गमिष्यामि ।

3.ठीकम्, logistic regression इत्यस्य सूत्रं प्रवर्तयामः

अहं स्वयमेव भवद्भ्यः दीर्घवायुरूपेण बहु गणितीयसूत्राणि दातुं न रोचये, ततः भवन्तं वदामि यत् अन्तर्निहितसिद्धान्ताः एतानि गणितीयसूत्राणि सन्ति, तथा च भवन्तः स्वयमेव शनैः शनैः तान् अवगन्तुं दद्युः।अहं यत् आशासे यत् कतिपयानां मूलसूत्राणां विश्लेषणं कर्तुं शक्नोमि तथा च एतेषां कतिपयानां सूत्राणां प्रयोगः किमर्थं आवश्यकः इति एतत् किञ्चित् मम लेखे स्पष्टतया व्याख्यातुं शक्नोमि इति आशासे।

1. रेखीय प्रतिगमन सूत्र

य = ख० + ख१x1 + b2x2 + ... + bn*xn

  • य्आश्रितः चरः अस्ति, मूल्यं वयं पूर्वानुमानं कर्तुम् इच्छामः ।
  • ख०इति अवरोधः, यदा सर्वे स्वतन्त्रचराः 0 भवन्ति तदा आश्रितचरस्य मूल्यं सूचयति
  • ख१, ख२, ..., बन्प्रतिगमनगुणकं भवति, यत् प्रत्येकस्य स्वतन्त्रचरस्य आश्रितचरस्य उपरि प्रभावस्य प्रमाणं सूचयति
  • x1, x2, ..., xnस्वतन्त्रचरः अर्थात् आश्रितचरस्य पूर्वानुमानार्थं प्रयुक्तं मूल्यम्

अत्र रेखीयप्रतिगमनस्य उदाहरणम् अस्ति

भवन्तः कोडं न अवगच्छन्ति चेत् तस्य महत्त्वं नास्ति, केवलं चित्रं पश्यन्तु

  1. import matplotlib.pyplot as plt
  2. import numpy as np
  3. import matplotlib.font_manager as fm
  4. # Generate some simulated house data
  5. np.random.seed(0)
  6. area = np.random.rand(100) * 200 + 50 # House area (square meters)
  7. price = 2 * area + 5000 + np.random.randn(100) * 500 # House price (ten thousand yuan)
  8. # Fit the data using linear regression
  9. from sklearn.linear_model import LinearRegression
  10. model = LinearRegression()
  11. model.fit(area.reshape(-1, 1), price)
  12. # Get the regression coefficients
  13. b0 = model.intercept_
  14. b1 = model.coef_[0]
  15. # Plot the scatter plot
  16. plt.scatter(area, price, label="House Data")
  17. # Plot the regression line
  18. plt.plot(area, b0 + b1*area, color="red", label="Linear Regression")
  19. # Set the plot title and axis labels
  20. plt.title("Linear Regression of House Area and Price")
  21. # Set the font to SimSun (楷体)
  22. font_prop = fm.FontProperties(fname=r"C:WindowsFontssimkai.ttf", size=12) # Replace with your SimSun font path
  23. plt.xlabel("House Area (Square Meters)", fontproperties=font_prop)
  24. plt.ylabel("House Price (Ten Thousand Yuan)", fontproperties=font_prop)
  25. # Add legend
  26. plt.legend()
  27. # Show the plot
  28. plt.show()

1. 100 गृहसिमुलेशनदत्तांशं जनयन्तु

  1. np.random.seed(0)
  2. area = np.random.rand(100) * 200 + 50
  3. price = 2 * area + 5000 + np.random.randn(100) * 500

2. दत्तांशं समायोजयितुं रेखीयप्रतिगमनस्य उपयोगं कुर्वन्तु

  1. from sklearn.linear_model import LinearRegression
  2. model = LinearRegression()
  3. model.fit(area.reshape(-1, 1), price)

3. प्रतिगमन गुणांक (b0 ~ bn) प्राप्त करें।

  1. b0 = model.intercept_
  2. b1 = model.coef_[0]

4. एकं प्रकीर्णन-प्लॉटं आकर्षयन्तु

plt.scatter(area, price, label="House Data")

5. प्रतिगमनरेखां आकर्षयन्तु

plt.plot(area, b0 + b1*area, color="red", label="Linear Regression")

6. लेखस्य शीर्षकं सेट् कुर्वन्तु

plt.title("Linear Regression of House Area and Price")

7. फ़ॉन्ट् इटालिक्स् && font size (यदि अस्ति) इत्यत्र सेट् कुर्वन्तु ।

  1. font_prop = fm.FontProperties(fname=r"C:WindowsFontssimkai.ttf", size=12)
  2. plt.xlabel("House Area (Square Meters)", fontproperties=font_prop)
  3. plt.ylabel("House Price (Ten Thousand Yuan)", fontproperties=font_prop)

8. आख्यायिकां योजयन्तु

plt.legend()

9. चार्ट्स् प्रदर्शयन्तु

plt.show()

अयं कोडः गृहक्षेत्रस्य मूल्यस्य च सम्बन्धं समायोजयितुं रेखीयप्रतिगमनस्य उपयोगं करोति (दोषाणां परिहाराय क्षैतिज-लम्ब-शीर्षकाणि आङ्ग्लभाषायां वर्णितानि सन्ति)

धावनस्य परिणामाः निम्नलिखितरूपेण सन्ति ।

केचन जनाः पृच्छन्ति यत् वयं किमर्थम् एतावता बृहत् परिमाणेन दत्तांशं उत्पादयामः ?

उत्तमः प्रश्नः~

एतैः दत्तांशैः सह, किं वयं मोटेन गणनां कर्तुं शक्नुमः य = ख० + ख१x1 + b2x2 + ... + bn*xn गुणांकस्य किम् ?

विशेषतः : १.

  • y वयं यत् लक्ष्यचरं पूर्वानुमानं कर्तुम् इच्छामः तस्य प्रतिनिधित्वं करोति, यथा गृहमूल्यानि ।
  • x1, x2, ... xn लक्ष्यचरं प्रभावितं कुर्वन्तः कारकं प्रतिनिधियन्ति, यथा गृहक्षेत्रं, कक्षसङ्ख्या, भौगोलिकस्थानं इत्यादयः ।
  • b0, b1, b2, ... bn लक्ष्यचरस्य उपरि प्रत्येकस्य कारकस्य प्रभावस्य डिग्रीम् दर्शयन्ति, यत् गुणांकं वयं गणयितुम् इच्छामः ।

बृहत् परिमाणं दत्तांशसङ्ग्रहेण वयं एतेषां गुणांकानाम् गणनां कर्तुं भविष्यवाणीप्रतिरूपं निर्मातुं रेखीयप्रतिगमनप्रतिरूपस्य उपयोगं कर्तुं शक्नुमः ।इदं प्रतिरूपं लक्ष्यचरस्य उपरि भिन्नकारकाणां प्रभावं अवगन्तुं भविष्ये लक्ष्यचरस्य मूल्यस्य पूर्वानुमानं कर्तुं च अस्मान् साहाय्यं कर्तुं शक्नोति (गणिते y = kx + b इत्यस्य सदृशम्। विशिष्टेन k तथा b इत्यनेन सह x प्राप्त्वा y इत्यस्य पूर्वानुमानं कर्तुं शक्नुमः , भेदः अस्ति यत् अत्र अधिकाः गुणांकाः k सन्ति)

2.सिग्मोइड फंक्शन सूत्र

σ(x) = 1 / (1 + exp(-x)) 1.1.

sig फंक्शन् इत्यस्य चित्रम् एतादृशं दृश्यते ।

प्रश्नः १ : सिग्मोइड् फंक्शन् किमर्थं चयनं करणीयम् ?

यथा वयं पूर्वं उक्तवन्तः, लॉजिस्टिक रिग्रेशनस्य मूलभूततमः उपयोगः द्विचक्रीयवर्गीकरणसमस्यानां समाधानं भवति ।

लॉजिस्टिक रिग्रेशनस्य लक्ष्यं रेखीयप्रतिरूपस्य (यत् कोऽपि वास्तविकसङ्ख्या भवितुम् अर्हति) निर्गमं संभाव्यतामूल्ये परिवर्तयितुं भवति यत् घटनायाः घटनस्य सम्भावनां प्रतिनिधियति, संभाव्यतामूल्यं स्वाभाविकतया 0 तः 1 पर्यन्तं भवितुमर्हति

सिग्मोइड् फंक्शन् एतत् कार्यं सम्यक् सम्पादयति: रेखीयप्रतिरूपस्य निर्गमं 0 तः 1 पर्यन्तं संपीडयति, तथा च यथा यथा इनपुट् मूल्यं वर्धते तथा तथा आउटपुट् मूल्यं क्रमेण वर्धते, यत् संभाव्यतामूल्यस्य परिवर्तनशीलप्रवृत्त्या सह सङ्गतम् अस्ति

sig इत्यस्य कार्यं पश्यन्तु यदा सः सकारात्मकस्य अनन्तस्य समीपं गच्छति तदा सः 0 इत्यस्य अनन्ततया समीपं गच्छति किं केवलं अस्माकं 0 अथवा 1 इत्यस्य समस्यायाः सह न सङ्गच्छते?

प्रश्नः २ : सिग्मोइड् कार्याणां वर्गीकरणं कथं करणीयम् ?

तदा कश्चन पुनः वक्तुम् इच्छति, तर्हि भवन्तः सम्यक् न सन्ति यद्यपि पक्षद्वयं अनन्तं समीपं भवितुम् अर्हति तथापि मध्यं प्राप्तुं न शक्यते यथा 0.5 0 तथा 1 मध्ये अस्ति, तर्हि 0.5 0 समीपे अस्ति। उत १ उपसृत्य ?

यद्यपि मध्ये सङ्ख्याः समीपं न भवितुम् अर्हन्ति इति उच्यते तथापि कृत्रिमरूपेण सेट् कर्तुं शक्नोमि~

यथा, यदि अहं >= 0.5 इति सङ्ख्याः 1 वर्गे स्थापयामि, < 0.5 इति सङ्ख्याः 0 वर्गे स्थापयामि तर्हि समस्यायाः समाधानं भविष्यति~

अतः 0.5 इति महत्त्वपूर्णः बिन्दुः नास्ति, अपितु वर्गीकरणार्थं वयं कृत्रिमरूपेण निर्धारितः सीमा अस्ति ।

3. लॉजिस्टिक रिग्रेशन सूत्र

p = σ(b0 + b1*x1 + b2*x2 + ... + bn*xn) = 1 / (1 + exp(-(b0 + b1*x1 + b2*x2 + ... + bn*xn) )) २.

अस्माभिः पूर्वमेव एतावत् उक्तं यत् केवलं एतत् सूत्रं प्रवर्तयितुं

किं केवलं तत् पश्यन् भवतः शिरोवेदना भवति ? तत् पश्यन् एव मम शिरोवेदना भवति, अतः किमर्थं न सरलीकरोमः~

पश्यन्तु, एवं बहु अधिकं स्फूर्तिदायकं भवति, यथा सुन्दरः वयस्कः यः वेषं धारयितुं न रोचते सः स्वस्य रूपं किञ्चित् व्यवस्थितं करोति, ततः भवन्तः ज्ञायन्ते, वाह, अयं वयस्कः एतावत् सुन्दरः दृश्यते~

अहेम्, अहं विक्षेपं करोमि~ अतःलॉजिस्टिक रिग्रेशन वस्तुतः रेखीय रिग्रेशन + सिग्मोइड फंक्शन् अस्ति

सिग्मोइड् फंक्शन् मध्ये z रेखीयप्रतिगमनस्य उपयोगं करोति य = ख० + ख१x1 + b2x2 + ... + bn*xn प्रतिस्थापनम्

अतः एतत् किं करोति ?

ठीकम्, अवलोकयामः~

4. लॉजिस्टिक रिग्रेशनस्य सारं कार्यं च

लॉजिस्टिक रिग्रेशनस्य सारः अस्तिकस्यापि घटनायाः सम्भावनायाः पूर्वानुमानं कुर्वन्तु .इदं प्रत्यक्षतया दत्तांशस्य वर्गीकरणं न करोति, परन्तु रेखीयप्रतिगमनपरिणामानां 0~1 अन्तरालस्य कृते एकस्य फंक्शन् (Sigmoid function) इत्यस्य माध्यमेन मैप् करोति ।

लॉजिस्टिक प्रतिगमनस्य आधारः रेखीयप्रतिगमनम् अस्ति । रेखीयप्रतिगमनं रेखीयप्रतिरूपं निर्माति तथा च पूर्वानुमानितमूल्यं प्राप्तुं रेखीयकार्येण सह दत्तांशं समायोजयितुं प्रयतते ।इदं पूर्वानुमानितं मूल्यं किमपि मूल्यं भवितुम् अर्हति तथा च 0~1 अन्तरालेन प्रतिबन्धितं न भवति ।

सिग्मोइड् फंक्शन् एकं "जादू" फंक्शन् अस्ति यत् रेखीयप्रतिगमनेन प्राप्तं पूर्वानुमानितं मूल्यं 0~1 अन्तरालरूपेण परिवर्तयति, अस्मिन् अन्तरालस्य मूल्यानि च घटनायाः घटितस्य सम्भावनारूपेण व्याख्यातुं शक्यन्ते

द्विचक्रीयवर्गीकरणं कर्तुं अस्माभिः एकं सीमां सेट् कर्तव्यं, प्रायः 0.5 ।यदि पूर्वानुमानितसंभावना सीमातः अधिका भवति तर्हि सकारात्मकवर्गः इति निर्धारितः अन्यथा ऋणात्मकवर्गः इति निर्धारितः

उदाहरणतया:

वामभागे यत् कार्यं भवति तत् रेखीयप्रतिगमनफलनरूपेण द्रष्टुं शक्यते तथा च दक्षिणभागे यत् कार्यं भवति तत् मैप्ड् सिग्मोइड् फंक्शन् अस्ति ।

अस्मिन् लेखे सर्वाणि चित्राणि तस्मात् आगतानि सन्ति[यन्त्रशिक्षणम्] लॉजिस्टिक रिग्रेशनं दशनिमेषेषु शिक्षितुं शक्यते, सुलभतया अवगन्तुं शक्यते (स्पार्क समाधानप्रक्रिया सहितम्)_bilibili_bilibili