Eräpoimi tiettyjen PDF-alueiden sisältö Exceliin ja nimeä automaattisesti v1.3 uudelleen PDF-tiedoston ensimmäisen tekstirivin perusteella ideoiden ja koodin kanssa implement

Eräpoimi tiettyjen PDF-alueiden sisältö Exceliin ja nimeä automaattisesti v1.3 uudelleen PDF-tiedoston ensimmäisen tekstirivin perusteella ideoiden ja koodin toteutuksen kanssa

2024-07-12

Tämän artikkelin päivitetyssä sisällössä kuvat ja skannatut PDF-tiedostot voivat myös tukea tietyn alueen sisällön eräpoimimista. Tämä saavutetaan pääasiassa ottamalla kuvakaappauksia määritetystä alueesta ja käyttämällä sitten tekstintunnistusta alueen tekstin tunnistamiseen, joten tarkkuus ei välttämättä ole mahdollista. riittää, mutta jos se on digitaalinen, se ei ole suuri ongelma, joten on parasta purkaa PDF-tiedoston puhtaasti sähköinen versio parhaan tuloksen saavuttamiseksi.

Vaatimus 1: Jos minulla on suuri määrä samanmuotoisia PDF-sähköisiä asiakirjoja, minun on poimittava numerot tai teksti tietyiltä alueilta.

Vaatimus 2: Minulla on joukko PDF-dokumentteja, mutta kaikkien tiedostojen nimet ovat sekaisin, minun on nimettävä nämä tiedostot uudelleen PDF-tiedoston ensimmäisen sivun ensimmäisen rivin otsikkotekstin perusteella.

Huomautus: Ei sovellu skenaarioihin: Jos useista PDF-tiedostoista purettavien alueiden sijainnit ovat erilaisia, esimerkiksi numero, jonka haluan purkaa, on ensimmäisen PDF-tiedoston koordinaateissa (30, 30), ja tulos muuttuu toisessa tiedostossa. Jos siitä tulee (35, 35) koordinaatti, ohjelmisto ei pysty poimimaan sisältötekstiä kovin hyvin, joten tämän koodin käyttöalue on, että useissa PDF-dokumenteissa on. samassa muodossa, ja PDF-paikat, joissa poimittavat tekstitiedot sijaitsevat, ovat periaatteessa samat.

Idea 1: Valitsemme satunnaisesti PDF-tiedoston näytteeksi ja merkitsemme sitten koodilla poimittavat alueet laatikoilla ja tallennamme sitten näiden alueiden koordinaatit Käsitellessämme jokaista PDF-tiedostoa erissä, käytämme tallennettuja aluekoordinaatteja poimimaan sijaintia vastaavan tekstin tai numerot

Ideakaavio:

Lopputuloskaavio:

Tämän idean puutteet ja huomioita vaativat kohdat:

1 Jokaisesta eräkäsitellystä tiedostosta erotettavien tietojen sijainnin on oltava sama. Esimerkiksi ensimmäisestä PDF-tiedostosta poimittava numero sijaitsee koordinaateissa [100, 100], sitten numero, joka on purettava. jokaisesta seuraavasta tiedostosta poimitut tiedot on sijoitettava koordinaattien [100, 100] kohdalle.

2. Jos poimittu teksti on epätäydellinen, se tarkoittaa, että valittu laatikko voi olla hieman pienempi. Olen asettanut koodiin toiminnon, joka lisää tietyn alueen kokoa yksitellen.

Vaatimus 2 Idea: PDF-dokumenttien nimet ovat sekaisin. Minun täytyy nimetä nämä tiedostot uudelleen PDF-tiedoston ensimmäisen sivun otsikon perusteella PDF-tiedosto ja hanki sitten PDF-tiedoston ensimmäinen rivi ja nimeä tiedosto uudelleen. Tämä koodi ei ole monimutkainen, joten se ei sisälly tähän sivuun.

Koodi:


from typing import Optional, Dict, List
 
from solapi.magic_eden.site_api.utils.consts import MEAPIUrls
from solapi.magic_eden.site_api.utils.data import collection_stats_cleaner, collection_info_cleaner, 
    collection_list_stats_cleaner
from solapi.magic_eden.site_api.utils.types import MECollectionStats, MECollectionInfo, MECollectionMetrics
from solapi.utils.api import BaseApi
 
 
 
class MagicEdenCollectionApi(BaseApi):
 
    def get_collection_stats_dirty(self, symbol: str) -> Optional[Dict]:
        url = f'{MEAPIUrls.COLLECTION_STATS}{symbol}'
        res = self._get_request(url)
        return res.get('results') if isinstance(res, dict) else None
 
    def get_collection_info_dirty(self, symbol: str) -> Optional[Dict]:
        url = f'{MEAPIUrls.COLLECTION_INFO}{symbol}'
        res = self._get_request(url)
        return res if bool(res) else None
 
    def get_collection_stats(self, symbol: str) -> Optional[MECollectionStats]:
        data = self.get_collection_stats_dirty(symbol)
        if data:
            return collection_stats_cleaner(data)
 
    def get_collection_info(self, symbol: str) -> Optional[MECollectionInfo]:
        data = self.get_collection_info_dirty(symbol)
        if data:
            return collection_info_cleaner(data)
 
    def get_collection_list_stats_dirty(self):
        url = MEAPIUrls.COLLECTION_LIST_STATS
        res = self._get_request(url)
        return res.get('results') if isinstance(res, dict) else None
 
    def get_collection_list_stats(self) -> Optional[List[MECollectionMetrics]]:
        data = self.get_collection_list_stats_dirty()
        if data:
            return list(map(lambda x: collection_list_stats_cleaner(x), data))
 
    def get_collection_list_dirty(self):
        url = MEAPIUrls.COLLECTION_LIST
        res = self._get_request(url)
        return res.get('collections') if isinstance(res, dict) else None
 
    def get_collection_list(self) -> Optional[List[MECollectionInfo]]:
        data = self.get_collection_list_dirty()
        if data:
            return list(map(lambda x: collection_info_cleaner(x), data))

Koodin latauslinkki:

Linkki: https://pan.baidu.com/s/1WQQ8kaDilaagjoK5IrYZzA

Poistokoodi: 1111

Teknologian jakaminen

Eräpoimi tiettyjen PDF-alueiden sisältö Exceliin ja nimeä automaattisesti v1.3 uudelleen PDF-tiedoston ensimmäisen tekstirivin perusteella ideoiden ja koodin toteutuksen kanssa

henkilökohtainen profiili

yhteystietoni