기술나눔

Python 크롤러 기본 사항 소개

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

단계

  1. 웹 콘텐츠 가져오기:

    1. http 요청

    2. Python용 라이브러리 요청

  2. 웹 콘텐츠 구문 분석

    1. HTML 웹 페이지 구조

    2. Python을 위한 아름다운 수프 라이브러리

  3. 데이터 저장 또는 분석

    1. 데이터베이스에 저장

    2. AI 분석으로서의 데이터

    3. 그래프로 변환하여 표시

DDoS 공격

서버에 대량의 고주파 요청을 보내면 많은 양의 웹 페이지 리소스가 소비되고 다른 사용자의 요청이 영향을 받습니다.

규칙을 따라

웹사이트의 robots.txt 파일을 보면 크롤링할 수 있는 웹페이지 경로 범위를 이해할 수 있습니다.

HTTP(하이퍼텍스트 전송 프로토콜 하이퍼텍스트 전송 프로토콜)

  1. 클라이언트와 서버 간의 요청-응답 프로토콜입니다.

  2. 요청 방법: (일반적으로 사용됨)

    1. GET: 데이터 가져오기

    2. POST: 데이터 생성

  3. 요청은 다음으로 구성됩니다.
    POST /user/info HTTP/1.1           #请求行(包含方法类型、资源路径、协议版本)
    Host:www.example.com              #请求头
    User-Agent:curl/7.77.0            #请求头
    Accept:*/*                        #请求头
    
    {"username":"呦呦呦",              #请求体
    "email":"[email protected]"}      #请求头