प्रौद्योगिकी साझेदारी

पायथन् क्रॉलर-अनुरोधं मॉड्यूल्

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

पूर्वक्रीडा : १.
1. किं भवन्तः केचन चित्राणि द्रष्टुम् इच्छन्ति येन भवन्तः रात्रौ मृते निद्रां कर्तुं असमर्थाः भविष्यन्ति, परन्तु भवतः समीपे साधनानि नास्ति...
2. अवकाशदिनेषु चरमयात्राऋतौ शीघ्रं रेलयानस्य टिकटं क्रेतुं इच्छति वा?
3. ऑनलाइन शॉपिङ्ग् करणसमये किं भवान् शीघ्रं समीचीनतया च उत्तमप्रतिष्ठितगुणवत्तायुक्तानां उत्पादानाम् स्थानं ज्ञातुम् इच्छति?

क्रौलर इति किम् : १.
- कार्यक्रमं लिखित्वा, ब्राउजर्-इत्यस्य अन्तर्जाल-सर्फिंग्-प्रक्रियायाः अनुकरणं कुर्वन्तु, ततः अन्तर्जालतः दत्तांशं क्रॉल कर्तुं दत्त्वा ।

क्रॉलरस्य मूल्यम् : १.

-व्यावहारिक अनुप्रयोग

-व्यवसाय

क्रॉलर्-इत्येतत् वैधानिकम् अथवा अवैधम् ?

न विधिना प्रतिषिद्धः

नियमस्य उल्लङ्घनस्य जोखिमः

उत्तम सरीसृप दुर्भावनापूर्ण सरीसृप

क्रॉलर्-इत्यनेन आनयितानि जोखिमानि निम्नलिखित-पक्षद्वये प्रतिबिम्बितुं शक्यन्ते ।
-क्रॉलर्-इत्यनेन आगतानां वेबसाइट्-स्थानानां सामान्य-सञ्चालने बाधा भवति
-क्रॉलर् विशिष्टप्रकारस्य दत्तांशं वा सूचनां वा गृह्णाति ये कानूनेन सुरक्षिताः सन्ति

क्रॉलरस्य उपयोगे विपदि भवितुं दुर्भाग्यं कथं परिहर्तव्यम्?

- आगतानां वेबसाइट्-स्थानानां सामान्य-सञ्चालने बाधां न जनयितुं स्वस्य कार्यक्रमान् बहुधा अनुकूलितं कुर्वन्तु

- क्रॉल कृतस्य आँकडानां उपयोगं प्रसारयन् च क्रॉल कृतसामग्रीणां समीक्षां कुर्वन्तु यदि उपयोक्त्रेण सह सम्बद्धा व्यावसायिक रहस्यादिसंवेदनशीलसामग्री लभ्यते तर्हि क्रॉलिंग् अथवा प्रसारणं समये एव स्थगयितुं आवश्यकम्।

उपयोगपरिदृश्येषु क्रॉलरस्य वर्गीकरणं
-सार्वभौमिक क्रॉलर : १.
क्रॉलिंग् प्रणाल्याः महत्त्वपूर्णः भागः । यत् गृह्यते तत् दत्तांशस्य सम्पूर्णं पृष्ठम् अस्ति ।
-क्रॉलर् इत्यत्र ध्यानं दत्तव्यम् : १.
सार्वत्रिकक्रॉलरस्य आधारेण निर्मितम् अस्ति । यत् गृह्यते तत् पृष्ठे विशिष्टा आंशिकसामग्री एव ।

-वृद्धिशील क्रॉलर : १.
वेबसाइट् मध्ये डाटा अपडेट् अन्वेष्टुम्। केवलं वेबसाइटतः नवीनतमं अद्यतनं दत्तांशं क्रॉलं भविष्यति।


सरीसृपः शूलः कवचः च
आरोहणविरोधी तन्त्रम्
पोर्टलजालस्थलानि तत्सम्बद्धानि रणनीतयः अथवा तकनीकीसाधनं निर्माय क्रॉलर्-जालस्थलदत्तांशं क्रॉलं कर्तुं निवारयितुं शक्नुवन्ति ।
आरोहणविरोधी रणनीति
क्रॉलर कार्यक्रमः प्रासंगिकरणनीतयः अथवा तकनीकीसाधनं निर्माय पोर्टलजालस्थले क्रॉलविरोधी तन्त्रं क्रैक कर्तुं शक्नोति, येन पोर्टलसूचना प्राप्तुं शक्यते


robots.txt protocol: +/robots.txt कस्यापि वेबसाइट् इत्यस्य अनन्तरं द्रष्टुं शक्यते
सज्जनस्य सम्झौता। अस्मिन् जालपुटे काः दत्तांशाः क्रॉलर्-द्वारा क्रॉल कर्तुं शक्यन्ते, के दत्तांशाः क्रॉल कर्तुं न शक्यन्ते इति निर्धारितं भवति ।

http प्रोटोकॉल

- अवधारणा : सर्वरस्य क्लायन्ट् च मध्ये दत्तांशपरस्परक्रियायाः एकं रूपम् अस्ति ।

सामान्यं अनुरोधशीर्षकसूचना: अनुरोधवाहकस्य परिचयः

- User-Agent:Connection: अनुरोधस्य समाप्तेः अनन्तरं, संयोजनं विच्छेदयितुं वा परिपालयितुं वा
सामान्यप्रतिक्रियाशीर्षकसूचना
-Content-Type: सर्वरः क्लायन्ट् प्रति यस्य दत्तांशप्रकारस्य प्रतिक्रियां ददाति


https protocol:- सुरक्षितः अतिपाठ स्थानान्तरण प्रोटोकॉल (सुरक्षा)
एन्क्रिप्शन
सममित कीलगुप्तीकरण
असममित कुञ्जी एन्क्रिप्शन
प्रमाणपत्र कुञ्जी एन्क्रिप्शन

पाठ

  1. import requests
  2. # 检查当前脚本是否作为主程序运行
  3. if __name__ == "__main__":
  4. # 定义 KFC 官方网站获取门店列表信息的 URL
  5. url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx'
  6. # 定义 HTTP 请求的头部信息,模拟浏览器请求
  7. headers = {
  8. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
  9. }
  10. # 提示用户输入一个位置信息,作为搜索门店的关键词
  11. keyword = input('enter location:') # 例如 "北京"
  12. # 循环请求第1页到第9页的数据
  13. for page in range(1,10):
  14. # 定义发送请求时所需的参数
  15. params = {
  16. 'op': 'keyword', # 操作类型为关键词搜索
  17. 'cname': '', # 城市名称(此处为空)
  18. 'pid': '', # 其他参数(此处为空)
  19. 'keyword': keyword, # 用户输入的关键词
  20. 'pageIndex': page, # 当前请求的页面索引
  21. 'pageSize': 1000, # 每页显示的门店数量
  22. }
  23. # 尝试发送请求并处理响应
  24. try:
  25. # 发送 GET 请求,请求参数包括 URL、参数和头部信息
  26. response = requests.get(url=url, params=params, headers=headers)
  27. # 检查响应状态码,如果不是 200,将引发 HTTPError 异常
  28. response.raise_for_status()
  29. # 获取响应内容
  30. page_text = response.text
  31. # 构建文件名,包括关键词、页码和 .html 扩展名
  32. filename = f'{keyword}_page_{page}.html'
  33. # 打开一个文件,以写入模式打开,并指定编码为 utf-8
  34. with open(filename, 'w', encoding='utf-8') as fp:
  35. # 将响应内容写入到文件中
  36. fp.write(page_text)
  37. # 打印一条消息,表明文件已经成功保存
  38. print(f'{filename} 保存成功!!!')
  39. # 捕获由 requests 库抛出的任何异常
  40. except requests.RequestException as e:
  41. # 打印异常信息
  42. print(f'请求错误: {e}')