Estrutura do rastreador Go1.19: simplifique o rastreamento automatizado de sites templates

Estrutura do rastreador Go1.19: simplifique o rastreamento automatizado de modelos de site

2024-07-12

introdução

Web Scraper é uma ferramenta que extrai automaticamente dados de sites. Eles são amplamente utilizados na coleta de dados, otimização de mecanismos de pesquisa, pesquisas de mercado e outros campos. Este artigo apresentará em detalhes como usar o Go 1.19 para implementar uma ferramenta simplificada e automatizada de rastreamento de modelos de site para ajudar os desenvolvedores a coletar dados com eficiência.

Índice

Preparação ambiental
Conceitos básicos de rastreadores da web
Seleção da estrutura do rastreador Go
Processo básico de design de um rastreador
Implemente um rastreador da web simples
Analisar conteúdo HTML
Processamento simultâneo de rastreadores
armazenamento de dados
Tratamento de erros e mecanismo de nova tentativa
Caso prático: rastreamento de sites de notícias
Recursos avançados e otimizações
para concluir

1. Preparação do ambiente

Antes de começar, certifique-se de ter o Go 1.19 instalado em seu sistema. Você pode verificar a versão Go com o seguinte comando:

go version
1

Se você ainda não instalou o Go, você pode baixá-lo em Acesse o site oficial Baixe e instale a versão mais recente.

2. Conceitos básicos de rastreadores da web

O fluxo de trabalho básico de um rastreador da web é o seguinte:

enviar pedido: envie uma solicitação HTTP para a página da web de destino.
Obter resposta: Receba a resposta HTTP retornada pelo servidor.
analisar conteúdo: extraia os dados necessários da resposta.
Armazenando dados: salve os dados extraídos em um arquivo ou banco de dados local.
Lidar com links: extraia links de páginas da web e continue rastreando outras páginas.

3. Vá para a seleção da estrutura do rastreador

Na linguagem Go, existem várias estruturas de rastreadores populares, como:

Colly: uma estrutura de rastreador rápida e elegante que oferece funcionalidades ricas e bom desempenho.
Goquery: Uma biblioteca semelhante a jQuery para analisar e manipular documentos HTML.
Cliente HTTP: O pacote net/http da biblioteca padrão pode atender às necessidades mais simples de solicitação HTTP.

Este artigo usará principalmente Colly e Goquery para rastreamento da web e análise de conteúdo.

4. Processo básico de criação de um rastreador

Projetaremos uma ferramenta simplificada de rastreamento automatizado de modelos de site. O processo básico é o seguinte:

Inicialize a configuração do rastreador.
Envie uma solicitação HTTP para obter o conteúdo da página da web.
Use Goquery para analisar o conteúdo HTML e extrair os dados necessários.
Salve os dados em arquivo local ou banco de dados.
Tratamento de erros e mecanismos de nova tentativa.
Use processamento simultâneo para melhorar a eficiência do rastreamento.

5. Implemente um rastreador da web simples

Primeiro, crie um novo projeto Go:

mkdir go_scraper
cd go_scraper
go mod init go_scraper
1
2
3

Em seguida, instale Colly e Goquery:

go get -u github.com/gocolly/colly
go get -u github.com/PuerkitoBio/goquery
1
2

A seguir, escreva um rastreador simples para rastrear conteúdo da web:

package main

import (
    "fmt"
    "github.com/gocolly/colly"
)

func main() {
    // 创建一个新的爬虫实例
    c := colly.NewCollector()

    // 设置请求时的回调函数
    c.OnRequest(func(r *colly.Request) {
        fmt.Println("Visiting", r.URL.String())
    })

    // 设置响应时的回调函数
    c.OnResponse(func(r *colly.Response) {
        fmt.Println("Visited", r.Request.URL)
        fmt.Println("Response:", string(r.Body))
    })

    // 设置错误处理的回调函数
    c.OnError(func(r *colly.Response, err error) {
        fmt.Println("Error:", err)
    })

    // 设置HTML解析时的回调函数
    c.OnHTML("title", func(e *colly.HTMLElement) {
        fmt.Println("Title:", e.Text)
    })

    // 开始爬取
    c.Visit("http://example.com")
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35

A execução do código acima rastreará o conteúdo de http://example.com e imprimirá o título da página.

6. Analise o conteúdo HTML

Para extrair os dados necessários da página web, precisamos usar Goquery para analisar o conteúdo HTML. O exemplo a seguir mostra como usar Goquery para extrair links e texto de uma página web:

package main

import (
    "fmt"
    "github.com/gocolly/colly"
    "github.com/PuerkitoBio/goquery"
)

func main() {
    c := colly.NewCollector()

    c.OnHTML("body", func(e *colly.HTMLElement) {
        e.DOM.Find("a").Each(func(index int, item *goquery.Selection) {
            link, _ := item.Attr("href")
            text := item.Text()
            fmt.Printf("Link #%d: %s (%s)n", index, text, link)
        })
    })

    c.Visit("http://example.com")
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

7. Processamento simultâneo de rastreadores

Para melhorar a eficiência do rastreador, podemos usar a função de simultaneidade de Colly:

package main

import (
    "fmt"
    "github.com/gocolly/colly"
    "github.com/PuerkitoBio/goquery"
    "log"
    "time"
)

func main() {
    c := colly.NewCollector(
        colly.Async(true), // 启用异步模式
    )

    c.Limit(&colly.LimitRule{
        DomainGlob:  "*",
        Parallelism: 2, // 设置并发数
        Delay:       2 * time.Second,
    })

    c.OnHTML("body", func(e *colly.HTMLElement) {
        e.DOM.Find("a").Each(func(index int, item *goquery.Selection) {
            link, _ := item.Attr("href")
            text := item.Text()
            fmt.Printf("Link #%d: %s (%s)n", index, text, link)
            c.Visit(e.Request.AbsoluteURL(link))
        })
    })

    c.OnRequest(func(r *colly.Request) {
        fmt.Println("Visiting", r.URL.String())
    })

    c.OnError(func(r *colly.Response, err error) {
        log.Println("Error:", err)
    })

    c.Visit("http://example.com")

    c.Wait() // 等待所有异步任务完成
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42

8. Armazenamento de dados

Salve os dados capturados em um arquivo ou banco de dados local. Aqui está um arquivo CSV como exemplo:

package main

import (
    "encoding/csv"
    "fmt"
    "github.com/gocolly/colly"
    "github.com/PuerkitoBio/goquery"
    "log"
    "os"
    "time"
)

func main() {
    file, err := os.Create("data.csv")
    if err != nil {
        log.Fatalf("could not create file: %v", err)
    }
    defer file.Close()

    writer := csv.NewWriter(file)
    defer writer.Flush()

    c := colly.NewCollector(
        colly.Async(true),
    )

    c.Limit(&colly.LimitRule{
        DomainGlob:  "*",
        Parallelism: 2,
        Delay:       2 * time.Second,
    })

    c.OnHTML("body", func(e *colly.HTMLElement) {
        e.DOM.Find("a").Each(func(index int, item *goquery.Selection) {
            link, _ := item.Attr("href")
            text := item.Text()
            fmt.Printf("Link #%d: %s (%s)n", index, text, link)
            writer.Write([]string{text, link})
            c.Visit(e.Request.AbsoluteURL(link))
        })
    })

    c.OnRequest(func(r *colly.Request) {
        fmt.Println("Visiting", r.URL.String())
    })

    c.OnError(func(r *colly.Response, err error) {
        log.Println("Error:", err)
    })

    c.Visit("http://example.com")

    c.Wait()
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54

9. Tratamento de erros e mecanismo de nova tentativa

Para melhorar a estabilidade do rastreador, precisamos lidar com erros de solicitação e implementar um mecanismo de nova tentativa:

package main

import (
    "fmt"
    "github.com/gocolly/colly"
    "github.com/PuerkitoBio/goquery"
    "log"
    "os"
    "time"
)

func main() {
    file, err := os.Create("data.csv")
    if err != nil {
        log.Fatalf("could not create file: %v", err)
    }
    defer file.Close()

    writer := csv.NewWriter(file)
    defer writer.Flush()

    c := colly.NewCollector(
        colly.Async(true),
        colly.MaxDepth(1),
    )

    c.Limit(&colly.LimitRule{
        DomainGlob:  "*",
        Parallelism: 2,
        Delay:       2 * time.Second,
    })

    c.OnHTML("body", func(e *colly.HTMLElement) {
        e.DOM.Find("a").Each(func(index int, item *goquery.Selection) {
            link, _ := item.Attr("href")
            text := item.Text()
            fmt.Printf("Link #%d: %s (%s)

n", index, text, link)
            writer.Write([]string{text, link})
            c.Visit(e.Request.AbsoluteURL(link))
        })
    })

    c.OnRequest(func(r *colly.Request) {
        fmt.Println("Visiting", r.URL.String())
    })

    c.OnError(func(r *colly.Response, err error) {
        log.Println("Error:", err)
        // 重试机制
        if r.StatusCode == 0 || r.StatusCode >= 500 {
            r.Request.Retry()
        }
    })

    c.Visit("http://example.com")

    c.Wait()
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60

10. Caso prático: rastreamento de sites de notícias

O exemplo a seguir mostra como copiar os títulos e links de um site de notícias e salvá-los em um arquivo CSV:

package main

import (
    "encoding/csv"
    "fmt"
    "github.com/gocolly/colly"
    "log"
    "os"
    "time"
)

func main() {
    file, err := os.Create("news.csv")
    if err != nil {
        log.Fatalf("could not create file: %v", err)
    }
    defer file.Close()

    writer := csv.NewWriter(file)
    defer writer.Flush()

    writer.Write([]string{"Title", "Link"})

    c := colly.NewCollector(
        colly.Async(true),
    )

    c.Limit(&colly.LimitRule{
        DomainGlob:  "*",
        Parallelism: 5,
        Delay:       1 * time.Second,
    })

    c.OnHTML(".news-title", func(e *colly.HTMLElement) {
        title := e.Text
        link := e.ChildAttr("a", "href")
        writer.Write([]string{title, e.Request.AbsoluteURL(link)})
        fmt.Printf("Title: %snLink: %sn", title, e.Request.AbsoluteURL(link))
    })

    c.OnRequest(func(r *colly.Request) {
        fmt.Println("Visiting", r.URL.String())
    })

    c.OnError(func(r *colly.Response, err error) {
        log.Println("Error:", err)
        if r.StatusCode == 0 || r.StatusCode >= 500 {
            r.Request.Retry()
        }
    })

    c.Visit("http://example-news-site.com")

    c.Wait()
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55

11. Funções avançadas e otimizações

Use um proxy

Para evitar ser bloqueado pelo site de destino, você pode usar um proxy:

c.SetProxy("http://proxyserver:port")
1

Mascaramento de agente de usuário

Finja ser um navegador diferente configurando o agente do usuário:

c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
1

Rastreador distribuído

Você pode usar a biblioteca de extensão Colly-Redis da Colly para implementar rastreadores distribuídos:

import (
    "github.com/gocolly/redisstorage"
)

func main() {
    c := colly.NewCollector()
    redisStorage := &redisstorage.Storage{
        Address:  "localhost:6379",
        Password: "",
        DB:       0,
        Prefix:   "colly",
    }
    c.SetStorage(redisStorage)
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14

Web scraping dinâmico

Para páginas da web dinâmicas, você pode usar um navegador headless como o chromedp:

import (
    "context"
    "github.com/chromedp/chromedp"
)

func main() {
    ctx, cancel := chromedp.NewContext(context.Background())
    defer cancel()

    var res string
    err := chromedp.Run(ctx,
        chromedp.Navigate("http://example.com"),
        chromedp.WaitVisible(`#some-element`),
        chromedp.InnerHTML(`#some-element`, &res),
    )

    if err != nil {
        log.Fatal(err)
    }

    fmt.Println(res)
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

12. Conclusão

Por meio da introdução detalhada deste artigo, aprendemos como usar o Go 1.19 para implementar uma ferramenta simplificada e automatizada de rastreamento de modelos de site. Começamos com o processo básico de design do rastreador e gradualmente abordamos aspectos-chave, como análise de HTML, processamento simultâneo, armazenamento de dados e tratamento de erros, e demonstramos como rastrear e processar dados de páginas da web por meio de exemplos de código específicos.

Os poderosos recursos de processamento simultâneo da linguagem Go e as ricas bibliotecas de terceiros a tornam a escolha ideal para a construção de rastreadores da Web eficientes e estáveis. Através da otimização e expansão contínuas, funções de rastreador mais complexas e avançadas podem ser alcançadas para fornecer soluções para diversas necessidades de coleta de dados.

Espero que este artigo possa fornecer referências valiosas para a implementação de rastreadores da web na linguagem Go e inspirá-lo a conduzir mais exploração e inovação neste campo.

Compartilhamento de tecnologia