सर्वेषां CSDN प्रकाशितस्य articles_developdoc इत्यस्य तत्सम्बद्धदत्तांशं प्राप्तुं पायथन् फंक्शन् उत्पादनम्

सर्वेषां CSDN प्रकाशितलेखानां तत्सम्बद्धदत्तांशं प्राप्तुं पायथन् फंक्शन् उत्पादनम्

2024-07-12

नमस्कार सर्वेभ्यः, अद्य अहं एकं व्यावहारिकं साझां कर्तुम् इच्छामिपायथन लिपि , एतत् भवन्तं CSDN ब्लोग् इत्यत्र प्रकाशितानां सर्वेषां लेखानाम् प्रासंगिकदत्तांशं बैच-रूपेण प्राप्तुं, आँकडान् Excel सञ्चिकायां रक्षितुं च सहायकं भवितुम् अर्हति । तदतिरिक्तं स्क्रिप्ट् प्रत्येकस्य लेखस्य गुणवत्तायाः स्कोरं प्राप्नोति तथा च एतत् स्कोरं Excel इत्यत्र अपि अभिलेखयति । आरभामः !

लिपिकार्यक्षमतायाः अवलोकनम्

इयं लिपिः मुख्यतया द्वयोः भागयोः विभक्ता अस्ति : १.

लेखस्य सूचनां प्राप्य Excel मध्ये रक्षन्तु: अयं भागः CSDN API तः भवतः लेखसूचीं प्राप्स्यति तथा च मुख्यसूचनाः Excel सञ्चिकायां रक्षति ।
लेखस्य गुणवत्तायाः स्कोरं प्राप्नुवन्तु तथा च Excel अद्यतनं कुर्वन्तु: अयं भागः प्रत्येकस्य लेखस्य गुणवत्तास्कोरं अनुरोधयिष्यति तथा च एतत् स्कोरं तत्सम्बद्धे Excel सञ्चिकायां योजयिष्यति ।

कार्यान्वयनपदार्थाः

1. आवश्यकपुस्तकालयानां आयातम्

प्रथमं, अस्माभिः एतत् कार्यं साधयितुं सहायतार्थं केचन Python पुस्तकालयाः आयातव्याः:


import json
import pandas as pd
from openpyxl import Workbook, load_workbook
from openpyxl.utils.dataframe import dataframe_to_rows
import math
import requests

2. लेखसूचना प्राप्तुं परिभाषयन्तु तथा च तस्मिन् रक्षन्तुExcelप्रकारः

वयं वर्गं परिभाषयामःGetInformationToExcelलेखसूचनाः प्राप्तुं Excel सञ्चिकानां रक्षणं च सम्पादयितुं:


class GetInformationToExcel:
    def __init__(self, username, cookies, Referer, page, size, filename):
        self.username = username
        self.cookies = cookies
        self.Referer = Referer
        self.size = size
        self.filename = filename
        self.page = page
 
    # 发送HTTP GET请求到CSDN的API，获取文章列表
    def get_articles(self):
        url = "https://blog.csdn.net/community/home-api/v1/get-business-list"
        params = {
            "page": {self.page},
            "size": {self.size},
            "businessType": "blog",
            "username": {self.username}
        }
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 11.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
            'Cookie': self.cookies,
            'Referer': self.Referer
        }
 
        try:
            response = requests.get(url, params=params, headers=headers)
            response.raise_for_status()
            data = response.json()
            return data.get('data', {}).get('list', [])
        except requests.exceptions.HTTPError as e:
            print(f"HTTP错误: {e.response.status_code} {e.response.reason}")
        except requests.exceptions.RequestException as e:
            print(f"请求异常: {e}")
        except json.JSONDecodeError:
            print("解析JSON失败")
        return []
 
    # 将文章列表转换为Pandas DataFrame,选择并重命名必要的列。
    def export_to_excel(self):
        df = pd.DataFrame(self.get_articles())
        df = df[['title', 'url', 'postTime', 'viewCount', 'collectCount', 'diggCount', 'commentCount']]
        df.columns = ['文章标题', 'URL', '发布时间', '阅读量', '收藏量', '点赞量', '评论量']
        wb = Workbook()
        sheet = wb.active
        for r in dataframe_to_rows(df, index=False, header=True):
            sheet.append(r)
        for column in sheet.columns:
            max_length = 0
            column = [cell for cell in column]
            for cell in column:
                try:
                    if len(str(cell.value)) > max_length:
                        max_length = len(cell.value)
                except:
                    pass
            adjusted_width = (max_length + 5)
            sheet.column_dimensions[column[0].column_letter].width = adjusted_width
        # Save the workbook
        wb.save(self.filename)

अस्मिन् वर्गे वयं निम्नलिखितविधयः कार्यान्वयामः ।

__init__: वर्गस्य मूलभूतगुणान् सेट् कर्तुं Initialization method ।
get_articles: लेखसूचीं प्राप्तुं CSDN API - मध्ये HTTP GET अनुरोधं प्रेषयन्तु ।
export_to_excel: लेखसूचीं Pandas DataFrame इत्यत्र परिवर्त्य Excel सञ्चिकायां रक्षन्तु ।

3. लेखगुणवत्ताअङ्कं प्राप्तुं श्रेणयः परिभाषयन्तु

तदनन्तरं वयं अन्यं वर्गं परिभाषयामःGetArticleScoresलेखगुणवत्तास्कोरस्य अधिग्रहणं Excel सञ्चिकानां अद्यतनीकरणं च सम्पादयितुं:


class GetArticleScores:
    def __init__(self, filepath):
        self.filepath = filepath
 
    # 发送HTTP POST请求到一个API，获取文章的质量分。
    @staticmethod
    def get_article_score(article_url):
        url = "https://bizapi.csdn.net/trends/api/v1/get-article-score"
        headers = {
            "Accept": "application/json, text/plain, */*",
            "X-Ca-Key": "203930474",
            "X-Ca-Nonce": "b35e1821-05c2-458d-adae-3b720bb15fdf",
            "X-Ca-Signature": "gjeSiKTRCh8aDv0UwThIVRITc/JtGJkgkZoLVeA6sWo=",
            "X-Ca-Signature-Headers": "x-ca-key,x-ca-nonce",
            "X-Ca-Signed-Content-Type": "multipart/form-data",
        }
        data = {"url": article_url}
        try:
            response = requests.post(url, headers=headers, data=data)
            response.raise_for_status()  # This will raise an error for bad responses
            return response.json().get('data', {}).get('score', 'Score not found')
        except requests.RequestException as e:
            print(f"Request failed: {e}")
            return "Error fetching score"
 
    def get_scores_from_excel(self):
        """读取Excel文件，获取文章URL列表。
            对每个URL调用 get_article_score 方法，获取分数列表。
            返回分数列表。"""
        df = pd.read_excel(self.filepath)
        urls = df['URL'].tolist()
        scores = [self.get_article_score(url) for url in urls]
        return scores
 
    def write_scores_to_excel(self):
        """读取Excel文件到DataFrame。
            将获取的分数添加到DataFrame中。
            将更新后的DataFrame保存回Excel文件。"""
        df = pd.read_excel(self.filepath)
        df['质量分'] = self.get_scores_from_excel()
        df.to_excel(self.filepath, index=False)

अस्मिन् वर्गे वयं निम्नलिखितविधयः कार्यान्वयामः ।

__init__: वर्गस्य मूलभूतगुणान् सेट् कर्तुं Initialization method ।
get_article_score: स्थिरविधिः, लेखस्य गुणवत्तास्कोरं प्राप्तुं HTTP POST अनुरोधं एपिआइ प्रति प्रेषयति ।
get_scores_from_excel: Excel सञ्चिकां पठन्तु, लेखस्य URL सूचीं प्राप्नुवन्तु, स्कोरसूचीं च प्राप्नुवन्तु।
write_scores_to_excel: Excel सञ्चिकां DataFrame मध्ये पठन्तु, प्राप्तानि स्कोरं DataFrame मध्ये योजयित्वा पुनः Excel सञ्चिकायां रक्षन्तु ।

4. मुख्य कार्यक्रम

अन्ते वयं मुख्यकार्यक्रमे लेखानाम्, कुकीजानां, Referer, CSDN user ID इत्येतयोः कुलसङ्ख्यां सेट् कृत्वा निम्नलिखितपदार्थाः कृतवन्तः ।

पृष्ठानां संख्यां गणयन्तु येषां अनुरोधः करणीयः अस्ति ।
लेखानाम् प्रत्येकं पृष्ठं लूप् कृत्वा Excel सञ्चिकां रचयन्तु, गुणवत्तायाः स्कोरं च प्राप्य Excel मध्ये लिखन्तु ।


if __name__ == '__main__':
    # 请填写:已发文章总数量,cookies,你的首页Referer，你的id：CSDNid
    total = 145
    cookies = 'uuid_tt_dd=10'  # Simplified for brevity
    Referer = 'https://blog.csdn.net/q244645787'
    CSDNid = 'q244645787'
    # 下面是计算和获取
    t_index = math.ceil(total / 100) + 1  # 向上取整，半闭半开区间，开区间+1。
    for index in range(1, t_index):  # 文章总数
        filename = "score" + str(index) + ".xlsx"
        exporter_excel = GetInformationToExcel(CSDNid, cookies, Referer, index, 100, filename)  # Replace with your username
        exporter_excel.export_to_excel()
        article_score = GetArticleScores(filename)
        article_score.write_scores_to_excel()
 
    print("获取完成")

निष्पादनस्य अनन्तरं भवन्तः सर्वाणि लेखदत्तांशं गुणवत्तास्कोरं च समाविष्टं Excel सञ्चिकां प्राप्नुवन्ति ।

सर्वे कोडाः : १.


import json
import pandas as pd
from openpyxl import Workbook, load_workbook
from openpyxl.utils.dataframe import dataframe_to_rows
import math
import requests
 
 
# 批量获取文章信息并保存到excel
class GetInformationToExcel:
    def __init__(self, username, cookies, Referer, page, size, filename):
        self.username = username
        self.cookies = cookies
        self.Referer = Referer
        self.size = size
        self.filename = filename
        self.page = page
 
    # 发送HTTP GET请求到CSDN的API，获取文章列表
    def get_articles(self):
        url = "https://blog.csdn.net/community/home-api/v1/get-business-list"
        params = {
            "page": {self.page},
            "size": {self.size},
            "businessType": "blog",
            "username": {self.username}
        }
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 11.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
            'Cookie': self.cookies,
            'Referer': self.Referer
        }
 
        try:
            response = requests.get(url, params=params, headers=headers)
            response.raise_for_status()
            data = response.json()
            return data.get('data', {}).get('list', [])
        except requests.exceptions.HTTPError as e:
            print(f"HTTP错误: {e.response.status_code} {e.response.reason}")
        except requests.exceptions.RequestException as e:
            print(f"请求异常: {e}")
        except json.JSONDecodeError:
            print("解析JSON失败")
        return []
 
    # 将文章列表转换为Pandas DataFrame,选择并重命名必要的列。
    def export_to_excel(self):
        df = pd.DataFrame(self.get_articles())
        df = df[['title', 'url', 'postTime', 'viewCount', 'collectCount', 'diggCount', 'commentCount']]
        df.columns = ['文章标题', 'URL', '发布时间', '阅读量', '收藏量', '点赞量', '评论量']
        wb = Workbook()
        sheet = wb.active
        for r in dataframe_to_rows(df, index=False, header=True):
            sheet.append(r)
        for column in sheet.columns:
            max_length = 0
            column = [cell for cell in column]
            for cell in column:
                try:
                    if len(str(cell.value)) > max_length:
                        max_length = len(cell.value)
                except:
                    pass
            adjusted_width = (max_length + 5)
            sheet.column_dimensions[column[0].column_letter].width = adjusted_width
        # Save the workbook
        wb.save(self.filename)
 
 
# 获取每篇文章的质量分，并将分数写入到Excel文件中
class GetArticleScores:
    def __init__(self, filepath):
        self.filepath = filepath
 
    # 发送HTTP POST请求到一个API，获取文章的质量分。
    @staticmethod
    def get_article_score(article_url):
        url = "https://bizapi.csdn.net/trends/api/v1/get-article-score"
        headers = {
            "Accept": "application/json, text/plain, */*",
            "X-Ca-Key": "203930474",
            "X-Ca-Nonce": "b35e1821-05c2-458d-adae-3b720bb15fdf",
            "X-Ca-Signature": "gjeSiKTRCh8aDv0UwThIVRITc/JtGJkgkZoLVeA6sWo=",
            "X-Ca-Signature-Headers": "x-ca-key,x-ca-nonce",
            "X-Ca-Signed-Content-Type": "multipart/form-data",
        }
        data = {"url": article_url}
        try:
            response = requests.post(url, headers=headers, data=data)
            response.raise_for_status()  # This will raise an error for bad responses
            return response.json().get('data', {}).get('score', 'Score not found')
        except requests.RequestException as e:
            print(f"Request failed: {e}")
            return "Error fetching score"
 
    def get_scores_from_excel(self):
        """读取Excel文件，获取文章URL列表。
            对每个URL调用 get_article_score 方法，获取分数列表。
            返回分数列表。"""
        df = pd.read_excel(self.filepath)
        urls = df['URL'].tolist()
        scores = [self.get_article_score(url) for url in urls]
        return scores
 
    def write_scores_to_excel(self):
        """读取Excel文件到DataFrame。
            将获取的分数添加到DataFrame中。
            将更新后的DataFrame保存回Excel文件。"""
        df = pd.read_excel(self.filepath)
        df['质量分'] = self.get_scores_from_excel()
        df.to_excel(self.filepath, index=False)
 
 
if __name__ == '__main__':
    # 请填写:已发文章总数量,cookies,你的首页Referer，你的id：CSDNid
    total = 145
    cookies = 'uuid_tt_dd=10'  # Simplified for brevity
    Referer = 'https://blog.csdn.net/q244645787'
    CSDNid = 'q244645787'
    # 下面是计算和获取
    t_index = math.ceil(total / 100) + 1  # 向上取整，半闭半开区间，开区间+1。
    for index in range(1, t_index):  # 文章总数
        filename = "score" + str(index) + ".xlsx"
        exporter_excel = GetInformationToExcel(CSDNid, cookies, Referer, index, 100, filename)  # Replace with your username
        exporter_excel.export_to_excel()
        article_score = GetArticleScores(filename)
        article_score.write_scores_to_excel()
 
    print("获取完成")

प्रौद्योगिकी साझेदारी