प्रौद्योगिकी साझेदारी

मशीन लर्निंग (5) -- पर्यवेक्षित लर्निंग (6) -- लॉजिस्टिक रिग्रेशन

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

विषयसूची तथा लेखमालानां लिङ्कानि

पूर्वलेखः : १.यन्त्रशिक्षण (5) -- पर्यवेक्षितशिक्षण (5) -- रेखीय प्रतिगमन 2
अग्रिमः लेखः : १.यन्त्रशिक्षण (5) -- पर्यवेक्षितशिक्षण (7) --SVM1


प्रस्तावना

tips:标题前有“***”的内容为补充内容,是给好奇心重的宝宝看的,可自行跳过。文章内容被“文章内容”删除线标记的,也可以自行跳过。“!!!”一般需要特别注意或者容易出错的地方。

本系列文章是作者边学习边总结的,内容有不对的地方还请多多指正,同时本系列文章会不断完善,每篇文章不定时会有修改。

由于作者时间不算富裕,有些内容的《算法实现》部分暂未完善,以后有时间再来补充。见谅!

文中为方便理解,会将接口在用到的时候才导入,实际中应在文件开始统一导入。


1. लोकप्रियबोधः परिभाषा च

1. लॉजिस्टिक रिग्रेशन (What) इति किम् .

लॉजिस्टिक रिग्रेशन = रेखीय प्रतिगमन + सिग्मोइड फंक्शन

Logistic regression (Logistic Regression) केवलं द्विचक्रीयदत्तांशस्य विभाजनार्थं सीधारेखां अन्वेष्टुं भवति ।

2. लॉजिस्टिक रिग्रेशनस्य प्रयोजनम् (किमर्थम्) .

कस्यचित् वर्गस्य वस्तूनि वर्गीकृत्य द्विचक्रीयवर्गीकरणसमस्यायाः समाधानं कुर्वन्तुसंभाव्यता मूल्यकस्यचित् वर्गस्य अस्ति वा इति निर्धारयितुं अयं वर्गः पूर्वनिर्धारितरूपेण 1 (सकारात्मकं उदाहरणम्) इति चिह्नितः भवति, अन्यः वर्गः 0 (नकारात्मकोदाहरणम्) इति चिह्नितः भविष्यति

3. एषा रेखा कथं अन्वेष्टव्या (How) .

वस्तुतः एतत् रेखीयप्रतिगमनपदस्य सदृशम् अस्ति ।

  1. प्रारम्भिकऋजुरेखारूपेण ऋजुरेखां यादृच्छिकरूपेण आकर्षयन्तु
  2. तस्य फिटिंग् प्रभावं पश्यन्तु, .
  3. यदि सर्वोत्तमम् (threshold reached) नास्ति तर्हि रेखास्थानं कोणं च समायोजयन्तु
  4. सर्वोत्तमप्रभावपर्यन्तं (सेट् थ्रेशोल्ड् प्राप्तुं), अन्ते च वयं यत् मॉडल् इच्छामः तत् यावत् चरणं 2 तथा 3 पुनः कुर्वन्तु ।

भवद्भिः इनपुट्-दत्तांशं 0-1 मध्ये मैप् कर्तुं फंक्शन् (sigmoid function) इत्यस्य उपयोगः करणीयः, यदि च फंक्शन् मूल्यं 0.5 इत्यस्मात् अधिकं भवति तर्हि तत् 1 इति निर्णीयते, अन्यथा 0 इति एतत् संभाव्यतावादीप्रतिपादने परिणतुं शक्यते ।

2. सिद्धान्तबोधः सूत्राणि च

1. परसेप्ट्रॉन्

1.1.समस्यावर्णनम्

चित्रवर्गीकरणं उदाहरणरूपेण गृह्य चित्राणि लम्बवत् क्षैतिजं च विभजन्तु

एतत् दत्तांशं आलेखे कथं प्रदर्शितं भवति आलेखे भिन्नवर्णानां (विभिन्नवर्गाणां) बिन्दून् पृथक् कर्तुं वयं तादृशीम् रेखां आकर्षयामः । अस्य वर्गीकरणस्य उद्देश्यं तादृशरेखायाः अन्वेषणम् अस्ति ।

इयं "ऋजुरेखा या भारसदिशं सामान्यसदिशं करोति" (भारसदिशः रेखायाः लम्बः भवतु) ।

w इति भारसदिशः सामान्यसदिशस्य ऋजुरेखा भवति, अपि

1.2.पर्सेप्ट्रॉन् मॉडल्

एकं प्रतिरूपं यत् बहुमूल्यानि स्वीकुर्वति, प्रत्येकं मूल्यं स्वस्वभारेन गुणयति, अन्ते च योगं निर्गच्छति ।

1.3.विवेकात्मकं कार्यम्

आन्तरिकं उत्पादं सदिशयोः साम्यस्य प्रमाणस्य मापः भवति सकारात्मकं परिणामं समानतां सूचयति, 0 मूल्यं लम्बताम् सूचयति, ऋणात्मकं परिणामं च असमानतां सूचयति

उपयुञ्जताम्‌अवगन्तुं श्रेयस्करम्, यतः |w|., |x| ९० अंशः इति विषमः इत्यर्थः

1.4.पैरामीटर् अनुमानं (भार अद्यतनव्यञ्जनम्)

यदि मूललेबलमूल्येन समानं भवति तर्हि भारसदिशः अद्यतनं न भविष्यति यदि मूललेबलमूल्येन समानं न भवति तर्हि भारसदिशस्य अद्यतनीकरणाय सदिशसंयोजनस्य उपयोगः भविष्यति ।

यथा चित्रे दर्शितं, यदि मूललेबलस्य समं न भवति तर्हि

अद्यतनस्य अनन्तरं सीधी रेखा

अद्यतनस्य अनन्तरं समानम्

चरणाः : प्रथमं यादृच्छिकरूपेण एकां सीधारेखां निर्धारयन्तु (अर्थात् यादृच्छिकरूपेण भारसदिशं w निर्धारयन्तु), आन्तरिकं उत्पादं वास्तविकमूल्यदत्तांशं x प्रतिस्थापयन्तु, तथा च विवेकशीलफलनस्य माध्यमेन मूल्यं (1 अथवा -1) प्राप्नुवन्तु मूललेबलमूल्यं प्रति, भारसदिशः Update नास्ति, यदि मूललेबलमूल्यात् भिन्नः अस्ति तर्हि भारसदिशं अद्यतनीकर्तुं सदिशसंयोजनस्य उपयोगं कुर्वन्तु ।

! ! !नोटः- परसेप्ट्रॉन् केवलं रेखीयरूपेण पृथक्करणीयसमस्यानां समाधानं कर्तुं शक्नोति
रेखीयरूपेण पृथक्करणीयम् : एतादृशाः प्रकरणाः यत्र वर्गीकरणार्थं ऋजुरेखाः उपयोक्तुं शक्यन्ते
रेखीय अविभाज्यता : ऋजुरेखाभिः वर्गीकरणं कर्तुं न शक्यते

2. सिग्मोइड कार्य

कृष्णं सिग्मोइड् कार्यं, रक्तं सोपानं (असंततम्)

कार्यम् : लॉजिस्टिक प्रतिगमनस्य निवेशः रेखीयप्रतिगमनस्य परिणामः भवति ।वयं रेखीयप्रतिगमने पूर्वानुमानितं मूल्यं प्राप्तुं शक्नुमः सिग्मोइड् फंक्शन् [0,1] अन्तरालस्य कृते किमपि इनपुट् मैप् करोति, अतः मूल्यात् संभाव्यतायां परिवर्तनं सम्पन्नं करोति, यत् वर्गीकरणकार्यम् अस्ति

3. लॉजिस्टिक रिग्रेशन

३.१ आदर्शपरिभाषा

लॉजिस्टिक रिग्रेशन = रेखीय प्रतिगमन + सिग्मोइड फंक्शन

रेखीय प्रतिगमन : १.

सिग्मोइड कार्य : १.

लॉजिस्टिक रिग्रेशन : १.

y इत्यनेन लेबलस्य प्रतिनिधित्वं कर्तुं, तत् परिवर्तयन्तु:

संभाव्यताः कर्तुं प्रयोगं कुर्वन्तु : १.

3.2.विवेकात्मकं कार्यम्

संभाव्यतया वर्गाणां भेदः कर्तुं शक्यते इति यावत्

3.3.निर्णयसीमा

पुनः लिखितुं शक्यते यथा - १.

कदा

प्रतिस्थापनदत्तांशः : १.

तत्र तादृशं चित्रम् अस्ति

दत्तांशवर्गीकरणाय प्रयुक्ता ऋजुरेखा निर्णयसीमा अस्ति

3.4.उद्देश्यकार्यं (log likelihood function) .

वयं यत् इच्छामः तत् अस्ति यत् -
यदा y=1, तदा P(y=1|x) बृहत्तमः भवति
यदा y=0, तदा P(y=0|x) बृहत्तमः भवति

Likelihood function (joint probability): अत्र वयं अधिकतमं कर्तुम् इच्छामः संभाव्यता अस्ति

Log likelihood function: likelihood function इत्यस्य प्रत्यक्षतया भेदः कठिनः भवति, तथा च प्रथमं लघुगणकं ग्रहीतुं आवश्यकम् अस्ति

विकृतेः अनन्तरं भवति- १.

3.4.पैरामीटर् अनुमानं (ढाल अवरोहण) .

संभावनाकार्यस्य भेदः : १.

3. लाभहानिः च

३.१ लाभाः : १.

1. कार्यान्वयनार्थं सरलम् : लॉजिस्टिक रिग्रेशनः एकः सरलः एल्गोरिदम् अस्ति यस्य अवगमनं कार्यान्वयनञ्च सुलभम् अस्ति ।
2. उच्चगणनादक्षता : लॉजिस्टिक रिग्रेशनस्य गणनायाः अपेक्षाकृतं अल्पं भवति तथा च बृहत्-परिमाणस्य आँकडा-समूहानां कृते उपयुक्तम् अस्ति ।
3. दृढव्याख्याक्षमता : लॉजिस्टिक प्रतिगमनस्य उत्पादनपरिणामाः संभाव्यतामूल्यानि सन्ति, ये सहजतया प्रतिरूपस्य उत्पादनं व्याख्यातुं शक्नुवन्ति।

३.२ दोषाः : १.

1. रेखीयपृथक्करणस्य आवश्यकताः : लॉजिस्टिक प्रतिगमनं रेखीयप्रतिरूपं भवति तथा च अरैखिकपृथक्करणसमस्यानां कृते दुर्बलं कार्यं करोति।
2. विशेषतासहसंबन्धसमस्या : लॉजिस्टिकप्रतिगमनं निवेशविशेषतानां मध्ये सहसंबन्धस्य प्रति अधिकं संवेदनशीलं भवति यदा विशेषतानां मध्ये प्रबलः सहसंबन्धः भवति तदा तस्य कारणेन मॉडलस्य कार्यक्षमतायाः न्यूनता भवितुम् अर्हति
3. अतिफिटिंग समस्या : यदा अत्यधिकं नमूनाविशेषताः सन्ति अथवा नमूनानां संख्या अल्पा भवति तदा लॉजिस्टिक रिग्रेशन ओवरफिटिंग समस्यां प्रति प्रवृत्ता भवति।

3. **एल्गोरिदम कार्यान्वयन

1. दत्तांशं प्राप्नुवन्तु

  1. import numpy as np
  2. import pandas as pd
  3. import matplotlib.pyplot as plt
  4. %matplotlib notebook
  5. # 读取数据
  6. train=pd.read_csv('csv/images2.csv')
  7. train_x=train.iloc[:,0:2]
  8. train_y=train.iloc[:,2]
  9. # print(train_x)
  10. # print(train_y)
  11. # 绘图
  12. plt.figure()
  13. plt.plot(train_x[train_y ==1].iloc[:,0],train_x[train_y ==1].iloc[:,1],'o')
  14. plt.plot(train_x[train_y == 0].iloc[:,0],train_x[train_y == 0].iloc[:,1],'x')
  15. plt.axis('scaled')
  16. # plt.axis([0,500,0,500])
  17. plt.show()

2. दत्तांशसंसाधनम्

  1. # 初始化参数
  2. theta=np.random.randn(3)
  3. # 标准化
  4. mu = train_x.mean(axis=0)
  5. sigma = train_x.std(axis=0)
  6. # print(mu,sigma)
  7. def standardize(x):
  8. return (x - mu) / sigma
  9. train_z = standardize(train_x)
  10. # print(train_z)
  11. # 增加 x0
  12. def to_matrix(x):
  13. x0 = np.ones([x.shape[0], 1])
  14. return np.hstack([x0, x])
  15. X = to_matrix(train_z)
  16. # 绘图
  17. plt.figure()
  18. plt.plot(train_z[train_y ==1].iloc[:,0],train_z[train_y ==1].iloc[:,1],'o')
  19. plt.plot(train_z[train_y == 0].iloc[:,0],train_z[train_y == 0].iloc[:,1],'x')
  20. plt.axis('scaled')
  21. # plt.axis([0,500,0,500])
  22. plt.show()

3.सिग्मोइड कार्य एवं विवेकशील कार्य

  1. # sigmoid 函数
  2. def f(x):
  3. return 1 / (1 + np.exp(-np.dot(x, theta)))
  4. # 分类函数
  5. def classify(x):
  6. return (f(x) >= 0.5).astype(np.int)

4. पैरामीटर् सेटिंग् तथा प्रशिक्षण

  1. # 学习率
  2. ETA = 1e-3
  3. # 重复次数
  4. epoch = 5000
  5. # 更新次数
  6. count = 0
  7. print(f(X))
  8. # 重复学习
  9. for _ in range(epoch):
  10. theta = theta - ETA * np.dot(f(X) - train_y, X)
  11. # 日志输出
  12. count += 1
  13. print('第 {} 次 : theta = {}'.format(count, theta))

5. पुष्टिकरणं रेखाङ्कनम्

  1. # 绘图确认
  2. plt.figure()
  3. x0 = np.linspace(-2, 2, 100)
  4. plt.plot(train_z[train_y ==1].iloc[:,0],train_z[train_y ==1].iloc[:,1],'o')
  5. plt.plot(train_z[train_y == 0].iloc[:,0],train_z[train_y == 0].iloc[:,1],'x')
  6. plt.plot(x0, -(theta[0] + theta[1] * x0) / theta[2], linestyle='dashed')
  7. plt.show()

 

6.सत्यापनम्

  1. # 验证
  2. text=[[200,100],[500,400],[150,170]]
  3. tt=pd.DataFrame(text,columns=['x1','x2'])
  4. # text=pd.DataFrame({'x1':[200,400,150],'x2':[100,50,170]})
  5. x=to_matrix(standardize(tt))
  6. print(x)
  7. a=f(x)
  8. print(a)
  9. b=classify(x)
  10. print(b)
  11. plt.plot(x[:,1],x[:,2],'ro')

 

4. अन्तरफलकस्य कार्यान्वयनम्

1. स्तनकर्क्कसदत्तांशसमूहस्य परिचयः

१.१、एपि

from sklearn.datasets import load_breast_cancer

1.2 मूलभूतसूचना

  1. # 键
  2. print("乳腺癌数据集的键:",breast_cancer.keys())
  3. # 特征值名字、目标值名字
  4. print("乳腺癌数据集的特征数据形状:",breast_cancer.data.shape)
  5. print("乳腺癌数据集的目标数据形状:",breast_cancer.target.shape)
  6. print("乳腺癌数据集的特征值名字:",breast_cancer.feature_names)
  7. print("乳腺癌数据集的目标值名字:",breast_cancer.target_names)
  8. # print("乳腺癌数据集的特征值:",breast_cancer.data)
  9. # print("乳腺癌数据集的目标值:",breast_cancer.target)
  10. # 返回值
  11. # print("乳腺癌数据集的返回值:n", breast_cancer)
  12. # 返回值类型是bunch--是一个字典类型
  13. # 描述
  14. # print("乳腺癌数据集的描述:",breast_cancer.DESCR)
  15. # 每个特征信息
  16. print("最小值:",breast_cancer.data.min(axis=0))
  17. print("最大值:",breast_cancer.data.max(axis=0))
  18. print("平均值:",breast_cancer.data.mean(axis=0))
  19. print("标准差:",breast_cancer.data.std(axis=0))

  1. # 取其中间两列特征
  2. x=breast_cancer.data[0:569,0:2]
  3. y=breast_cancer.target[0:569]
  4. samples_0 = x[y==0, :]
  5. samples_1 = x[y==1, :]
  6. # 实现可视化
  7. plt.figure()
  8. plt.scatter(samples_0[:,0],samples_0[:,1],marker='o',color='r')
  9. plt.scatter(samples_1[:,0],samples_1[:,1],marker='x',color='y')
  10. plt.xlabel('mean radius')
  11. plt.ylabel('mean texture')
  12. plt.show()

  1. # 绘制每个特征直方图,显示特征值的分布情况。
  2. for i, feature_name in enumerate(breast_cancer.feature_names):
  3. plt.figure(figsize=(6, 4))
  4. sns.histplot(breast_cancer.data[:, i], kde=True)
  5. plt.xlabel(feature_name)
  6. plt.ylabel("数量")
  7. plt.title("{}直方图".format(feature_name))
  8. plt.show()

  1. # 绘制箱线图,展示每个特征最小值、第一四分位数、中位数、第三四分位数和最大值概括。
  2. plt.figure(figsize=(10, 6))
  3. sns.boxplot(data=breast_cancer.data, orient="v")
  4. plt.xticks(range(len(breast_cancer.feature_names)), breast_cancer.feature_names, rotation=90)
  5. plt.xlabel("特征")
  6. plt.ylabel("值")
  7. plt.title("特征箱线图")
  8. plt.show()

1.3.अनुपलब्धाः मूल्यानि बहिर्मुखी च

  1. # 创建DataFrame对象
  2. df = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
  3. # 检测缺失值
  4. print("缺失值数量:")
  5. print(df.isnull().sum())
  6. # 检测异常值
  7. print("异常值统计信息:")
  8. print(df.describe())
  9. # 使用.describe()方法获取数据集的统计信息,包括计数、均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值。

1.4 प्रासंगिकता

  1. # 创建DataFrame对象
  2. df = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
  3. # 计算相关系数
  4. correlation_matrix = df.corr()
  5. # 可视化相关系数热力图
  6. plt.figure(figsize=(10, 8))
  7. sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm")
  8. plt.title("Correlation Heatmap")
  9. plt.show()

२、एपि

  1. sklearn.linear_model.LogisticRegression
  2. 导入:
  3. from sklearn.linear_model import LogisticRegression
  4. 语法:
  5. LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0)
  6. solver可选参数:{'liblinear', 'sag', 'saga','newton-cg', 'lbfgs'},
  7. 默认: 'liblinear';用于优化问题的算法。
  8. 对于小数据集来说,“liblinear”是个不错的选择,而“sag”和'saga'对于大型数据集会更快。
  9. 对于多类问题,只有'newton-cg''sag''saga''lbfgs'可以处理多项损失;“liblinear”仅限于“one-versus-rest”分类。
  10. penalty:正则化的种类
  11. C:正则化力度

2. प्रक्रिया

2.1.दत्तांशं प्राप्नुवन्तु

  1. from sklearn.datasets import load_breast_cancer
  2. from sklearn.model_selection import train_test_split
  3. from sklearn.linear_model import LogisticRegression
  4. # 获取数据
  5. breast_cancer = load_breast_cancer()

2.2.दत्तांशपूर्वसंसाधनम्

  1. # 划分数据集
  2. x_train,x_test,y_train,y_test = train_test_split(breast_cancer.data, breast_cancer.target, test_size=0.2, random_state=1473)

2.3.विशेषता अभियांत्रिकी

2.4 आदर्श प्रशिक्षणम्

  1. # 实例化学习器
  2. lr = LogisticRegression(max_iter=10000)
  3. # 模型训练
  4. lr.fit(x_train, y_train)
  5. print("建立的逻辑回归模型为:n", lr)

 

2.5 आदर्शमूल्यांकनम्

  1. # 用模型计算测试值,得到预测值
  2. y_pred = lr.predict(x_test)
  3. print('预测前20个结果为:n', y_pred[:20])
  4. # 求出预测结果的准确率和混淆矩阵
  5. from sklearn.metrics import accuracy_score, confusion_matrix,precision_score,recall_score
  6. print("预测结果准确率为:", accuracy_score(y_test, y_pred))
  7. print("预测结果混淆矩阵为:n", confusion_matrix(y_test, y_pred))
  8. print("预测结果查准率为:", precision_score(y_test, y_pred))
  9. print("预测结果召回率为:", recall_score(y_test, y_pred))

  1. from sklearn.metrics import roc_curve,roc_auc_score,auc
  2. fpr,tpr,thresholds=roc_curve(y_test,y_pred)
  3. plt.plot(fpr, tpr)
  4. plt.axis("square")
  5. plt.xlabel("假正例率/False positive rate")
  6. plt.ylabel("正正例率/True positive rate")
  7. plt.title("ROC curve")
  8. plt.show()
  9. print("AUC指标为:",roc_auc_score(y_test,y_pred))

 

  1. # 求出预测取值和真实取值一致的数目
  2. num_accu = np.sum(y_test == y_pred)
  3. print('预测对的结果数目为:', num_accu)
  4. print('预测错的结果数目为:', y_test.shape[0]-num_accu)
  5. print('预测结果准确率为:', num_accu/y_test.shape[0])

2.6.परिणामस्य पूर्वानुमानम्

आदर्शमूल्यांकनानन्तरं यत् प्रतिरूपं गच्छति तत् पूर्वानुमानार्थं वास्तविकमूल्ये प्रतिस्थापयितुं शक्यते ।


पुरातनस्वप्नाः पुनः जीवितुं शक्यन्ते, पश्यामः :यन्त्रशिक्षण (5) -- पर्यवेक्षितशिक्षण (5) -- रेखीय प्रतिगमन 2
यदि भवान् ज्ञातुम् इच्छति यत् अग्रे किं भवति तर्हि अवलोकयामः :यन्त्रशिक्षण (5) -- पर्यवेक्षितशिक्षण (7) --SVM1