Python crawler και έξοδος

Ανιχνευτής Python και έξοδος

2024-07-12

1. Παράδειγμα ανίχνευσης και εξόδου Python

Παρακάτω είναι ένα παράδειγμα ενός απλού προγράμματος ανίχνευσης ιστού γραμμένου σε Python που θα ανιχνεύσει μια συγκεκριμένη ιστοσελίδα (για παράδειγμα, ας πούμεhttps://example.com , αλλά σημειώστε ότι στην πραγματική χρήση πρέπει να το αντικαταστήσουμε με τον τίτλο (Τίτλος) ενός πραγματικού ιστότοπου που επιτρέπεται η ανίχνευση) και να τον εκτυπώσουμε. Δεδομένου ότι η απευθείας πρόσβαση και η απόξεση πραγματικών ιστοτόπων μπορεί να περιλαμβάνει ζητήματα πνευματικών δικαιωμάτων και νομικά ζητήματα, παρέχουμε μόνο ένα εννοιολογικό παράδειγμα εδώ.

Για να ολοκληρώσουμε αυτήν την εργασία θα χρησιμοποιήσουμε Python'srequestsβιβλιοθήκη για αποστολή αιτημάτων HTTP και χρήσηBeautifulSoup Βιβλιοθήκη για ανάλυση περιεχομένου HTML. Εάν δεν έχουμε εγκαταστήσει ακόμα αυτές τις βιβλιοθήκες, μπορούμε να τις εγκαταστήσουμε μέσω pip:


bash复制代码
pip install requests beautifulsoup4

Εδώ είναι το πλήρες παράδειγμα κώδικα:


# 导入必要的库  
import requests  
from bs4 import BeautifulSoup  
  
def fetch_website_title(url):  
    """  
    抓取指定网页的标题并返回。  
      
    参数:  
    url (str): 需要抓取的网页的URL。  
      
    返回:  
    str: 网页的标题，如果抓取失败则返回None。  
    """  
    try:  
        # 发送HTTP GET请求  
        response = requests.get(url)  
          
        # 检查请求是否成功  
        if response.status_code == 200:  
            # 使用BeautifulSoup解析HTML内容  
            soup = BeautifulSoup(response.text, 'html.parser')  
              
            # 查找网页的<title>标签  
            title_tag = soup.find('title')  
              
            # 如果找到<title>标签，则返回其内容  
            if title_tag:  
                return title_tag.get_text(strip=True)  
            else:  
                return "No title found."  
        else:  
            return f"Failed to retrieve the webpage. Status code: {response.status_code}"  
    except requests.RequestException as e:  
        return f"Error fetching the webpage: {e}"  
  
# 示例URL（请替换为我们要抓取的网页的URL）  
url = 'https://example.com'  
  
# 调用函数并打印结果  
title = fetch_website_title(url)  
print(f"The title of the webpage is: {title}")

Ειδοποίηση：

(1) Λόγωhttps://example.comείναι ένα σύμβολο κράτησης θέσης για παράδειγμα, επομένως πρέπει να το αντικαταστήσουμε με μια έγκυρη διεύθυνση URL ιστοσελίδας που επιτρέπει την ανίχνευση κατά την εκτέλεση.

(2) Ο ανιχνευτής θα πρέπει να συμμορφώνεται με τις απαιτήσεις του ιστότοπου προορισμού κατά την εκτέλεσηrobots.txtΤο έγγραφο ορίζει τον σεβασμό των πνευματικών δικαιωμάτων και των περιορισμών πρόσβασης του ιστότοπου.

(3) Ορισμένοι ιστότοποι ενδέχεται να έχουν ρυθμισμένους μηχανισμούς κατά του ανιχνευτή, όπως έλεγχος παράγοντα χρήστη, όριο συχνότητας κ.λπ. Μπορεί να χρειαστεί να τροποποιήσουμε τις κεφαλίδες των αιτημάτων μας (όπως π.χ.User-Agent) ή χρησιμοποιήστε μεθόδους όπως διακομιστή μεσολάβησης για να παρακάμψετε αυτούς τους περιορισμούς.

(4) Για πιο σύνθετες δομές ιστοσελίδων ή πιο προηγμένες απαιτήσεις συλλογής δεδομένων, ίσως χρειαστεί να μάθουμε περισσότερα σχετικά με τους επιλογείς HTML, CSS, XPath και αιτήματα δικτύου.

2. Πιο αναλυτικά παραδείγματα κώδικα

Παρακάτω είναι ένα πιο λεπτομερές παράδειγμα κώδικα ανίχνευσης Python, αυτή τη φορά θα χρησιμοποιήσωrequestsβιβλιοθήκη για αποστολή αιτημάτων HTTP και χρήσηBeautifulSoupβιβλιοθήκη για την ανάλυση περιεχομένου HTML για την ανίχνευση ενός πραγματικού ιστότοπου (για παράδειγμα, χρησιμοποιούμεhttps://www.wikipedia.orgΓια παράδειγμα, αλλά σημειώστε ότι η πραγματική ανίχνευση πρέπει να συμμορφώνεται με τον ιστότοποrobots.txtκανονισμούς και πολιτική πνευματικών δικαιωμάτων).

Πρώτα, βεβαιωθείτε ότι έχουμε εγκαταστήσειrequestsκαιbeautifulsoup4 βιβλιοθήκη. Εάν δεν είναι εγκατεστημένο, χρησιμοποιήστε το pip για να το εγκαταστήσετε:


bash复制代码
pip install requests beautifulsoup4

Στη συνέχεια, μπορούμε να χρησιμοποιήσουμε τον ακόλουθο κώδικα για να πάρουμε και να εκτυπώσουμε τον τίτλο της αρχικής σελίδας της Wikipedia:


# 导入必要的库  
import requests  
from bs4 import BeautifulSoup  
  
def fetch_and_parse_title(url):  
    """  
    发送HTTP GET请求到指定的URL，解析HTML内容，并返回网页的标题。  
  
    参数:  
    url (str): 需要抓取的网页的URL。  
  
    返回:  
    str: 网页的标题，如果抓取或解析失败则返回相应的错误消息。  
    """  
    try:  
        # 发送HTTP GET请求  
        headers = {  
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'  
        }  # 设置User-Agent来模拟浏览器访问  
        response = requests.get(url, headers=headers)  
  
        # 检查请求是否成功  
        if response.status_code == 200:  
            # 使用BeautifulSoup解析HTML内容  
            soup = BeautifulSoup(response.text, 'html.parser')  
  
            # 查找网页的<title>标签  
            title_tag = soup.find('title')  
  
            # 提取并返回标题内容  
            if title_tag:  
                return title_tag.get_text(strip=True)  
            else:  
                return "No title found in the webpage."  
        else:  
            return f"Failed to retrieve the webpage. Status code: {response.status_code}"  
    except requests.RequestException as e:  
        return f"Error fetching the webpage: {e}"  
  
# 示例URL（这里使用Wikipedia的主页作为示例）  
url = 'https://www.wikipedia.org'  
  
# 调用函数并打印结果  
title = fetch_and_parse_title(url)  
print(f"The title of the webpage is: {title}")

Αυτός ο κωδικός ορίζει πρώτα μια κεφαλίδα αιτήματος (headers), το οποίο περιέχει αUser-Agent Αυτό γίνεται για την προσομοίωση μιας πραγματικής πρόσβασης στο πρόγραμμα περιήγησης, επειδή ορισμένοι ιστότοποι θα ελέγχουν την κεφαλίδα του αιτήματος για να αποτρέψουν την πρόσβαση του προγράμματος ανίχνευσης. Στη συνέχεια στέλνει ένα αίτημα GET στην καθορισμένη διεύθυνση URL και χρησιμοποιεί το BeautifulSoup για να αναλύσει το περιεχόμενο HTML που επιστρέφεται.Στη συνέχεια, αναζητά το HTML<title> επισημάνετε και εξάγετε το περιεχόμενο του κειμένου ως τίτλο της ιστοσελίδας. Τέλος, εκτυπώνει τον τίτλο στην κονσόλα.

Λάβετε υπόψη ότι παρόλο που αυτό το παράδειγμα χρησιμοποιεί τη Wikipedia ως παράδειγμα, σε ένα πραγματικό έργο θα πρέπει πάντα να τηρούμε τις οδηγίες του ιστότοπου-στόχουrobots.txtτεκμηρίωση και πολιτικές πνευματικών δικαιωμάτων για να διασφαλίσουμε ότι οι πρακτικές ανίχνευσης είναι νόμιμες και ηθικές.

Κοινή χρήση τεχνολογίας

Ανιχνευτής Python και έξοδος

1. Παράδειγμα ανίχνευσης και εξόδου Python

2. Πιο αναλυτικά παραδείγματα κώδικα

Προσωπικό προφίλ

τα στοιχεία επικοινωνίας μου