appunti per datawale 2° campo estivo NLP task1

2024-07-12

//Ho scritto questa nota in obsidian e l'ho copiata qui. Lo strano formato di questa nota è dovuto alla mancanza di plugin obsidian.

etichette:

Studio di intelligenza artificiale
ML
stato: fatto

Bersaglio: Percorrere la linea di base, sperimentare il processo di risoluzione dei problemi del modello PNL, comprendere sostanzialmente i requisiti delle domande della concorrenza e comprendere lo scenario della concorrenza
difficoltà:molto basso
Passaggi consigliati:

Invia secondo la documentazione e ottieni il primo punteggio
Comprendere il formato per la presentazione delle domande del concorso
Formati di dati relativi all'addestramento del modello
Controlla il primo spartito e prova a scrivere le note

Attività 1 Conoscenza Fare clic su Documenti - Documenti Feishu Cloud (feishu.cn)

breve storia di ML

La traduzione automatica (MT) è un ramo importante nel campo dell'elaborazione del linguaggio naturale. Il suo obiettivo è quello diConverti automaticamente il testo da una lingua al testo in un'altra lingua

Metodo di traduzione automatica: basato su regole -> basato su statistiche -> deep learning
Basato su regole->Driver basato su dati->Intelligente

Traduzione automatica basata su regole (anni '50 -'80): I primi sistemi di traduzione automatica adottavano principalmente metodi basati su regole, ovvero utilizzandoRegole grammaticali e dizionari scritti da linguisti per la traduzione .Questo metodo richiede una comprensione approfondita della grammatica e del vocabolario della lingua di partenza e di quella di destinazione, ma è meno flessibile e adattabile, rendendo difficile affrontare strutture linguistiche complesse e problemi di polisemia.

Traduzione automatica basata su statistiche (anni '90-2000) : Con il miglioramento delle prestazioni dei computer e l’emergere di corpora paralleli su larga scala, la traduzione automatica statistica ha cominciato a crescere.questo metodoImpara automaticamente la corrispondenza tra le lingue di partenza e di arrivo analizzando grandi quantità di testo bilingue , realizzando così la traduzione. La traduzione automatica statistica ha mostrato risultati migliori nella gestione della polisemia e della variazione linguistica, ma a causa della sua dipendenza da grandi quantità di dati di addestramento, non ha un supporto sufficiente per le lingue povere di risorse.

Traduzione automatica basata su reti neurali (anni 2010-oggi) : L'applicazione dei metodi delle reti neurali nelle attività di traduzione automatica può essere fatta risalire agli anni '80 e '90. Tuttavia, a causa delle limitazioni delle risorse di calcolo e della scala dei dati dell’epoca, le prestazioni del metodo della rete neurale erano insoddisfacenti, quindi il suo sviluppo ristagnava per molti anni. Negli ultimi anni, il rapido sviluppo della tecnologia di deep learning ha promosso l’ascesa della traduzione automatica neurale (NMT). NMT utilizza modelli di rete neurale profonda comeRete di memoria a lungo termine (LSTM) e Transformer , possono apprendere automaticamente la complessa relazione di mappatura tra la lingua di origine e la lingua di destinazione senza progettare manualmente caratteristiche o regole. La NMT ha compiuto progressi significativi in termini di qualità, velocità e adattabilità della traduzione ed è diventata il metodo principale nell’attuale campo della traduzione automatica.

Partizione dei dati

Nei progetti di machine learning e deep learning, il set di dati viene solitamente suddiviso in tre parti: set di training (Training Set), set di sviluppo (Development Set, spesso chiamato anche validation set, Validation Set) e test set (Test Set)

set di formazione, modello di formazione
Set di sviluppo per evitare che il modello si adatti eccessivamente al set di training
Prova il set, simula dati reali, controlla l'effetto

Analisi delle domande sulla concorrenza

Sfondo dell'evento

attualmentetraduzione automatica neuraleLa tecnologia ha fatto grandi passi avanti, maIn alcuni campi o industrie, l’effetto di traduzione non è ideale perché è difficile per la traduzione automatica garantire la coerenza della terminologia. .Per risultati di traduzione automatica imprecisi come terminologia, nomi di persone e luoghi, ecc., puoi farloCorreggere tramite dizionario terminologico, evitando confusione o ambiguità e massimizzando la qualità della traduzione.

Compiti dell'evento

Sfida di traduzione automatica basata sull'intervento del dizionario terminologico Seleziona la traduzione automatica con l'inglese come lingua di origine e il cinese come lingua di destinazione. Oltre ai dati bilingui dall'inglese al cinese, questo concorso fornisce anche un dizionario terminologico inglese-cinese.I team partecipanti devono iniziare dai campioni di dati di formazione forniti sulla baseCostruzione e formazione di modelli di traduzione automatica multilingue e fornitura di risultati finali di traduzione basati su set di test e dizionari di termini

//RAG🤗

Dati sulla concorrenza

Set di formazione: dati bilingui: oltre 140.000 coppie di frasi bilingui in cinese e inglese
Set di sviluppo: 1000 coppie di frasi bilingue inglese-cinese
Set di test: 1000 coppie di frasi bilingue inglese-cinese
Dizionario terminologico: 2226 termini in inglese e cinese

[!info] 🐵

Il **set di training** viene utilizzato per eseguire l'algoritmo di apprendimento.
insieme di sviluppo Utilizzato per regolare i parametri, selezionare funzionalità e prendere altre decisioni sull'algoritmo di apprendimento.a volte chiamatoset di validazione incrociata di hold-out。
**Test set** viene utilizzato per valutare le prestazioni dell'algoritmo, ma non modifica di conseguenza l'algoritmo o i parametri di apprendimento.

Indicatori di valutazione

Per i file dei risultati della traduzione dei set di test inviati dai team partecipanti, vengono utilizzati indicatori di valutazione automatici BLU-4 Condurre valutazioni e utilizzare strumenti specificiversione open source di Sacrebleu。

[!info] 📘
cosa èBLU-4?

BLEU, nome e cognomeBilingual Evaluation Understudy(sostituzione della valutazione bilingue), è a生成语句condotta评估的指标 . Il punteggio BLEU è un articolo del 2002 di Kishore Papineni et al.《BLEU: un metodo per la valutazione automatica della traduzione automatica》proposto nel.

Nel campo della traduzione automatica, BLEU (Bilingual Evaluation Understudy) è un indicatore di valutazione automatica comunemente utilizzato per misurareSomiglianza tra una traduzione generata dal computer e un insieme di traduzioni di riferimento .Questo indicatore presta particolare attenzionen-grammi Una corrispondenza esatta di (n parole consecutive) può essere considerata come una stima statistica dell'accuratezza e della fluidità della traduzione. Quando si calcola il punteggio BLU, viene prima conteggiata la frequenza di n grammi nel testo generato, quindi queste frequenze vengono confrontate con gli n grammi nel testo di riferimento. Se la traduzione generata contiene gli stessi n-grammi che appaiono nella traduzione di riferimento, viene considerata una corrispondenza. Il punteggio BLU finale è un valore compreso tra 0 e 1, dove 1 rappresenta una corrispondenza perfetta con la traduzione di riferimento e 0 rappresenta nessuna corrispondenza.

BLU-4 In particolare si tratta di tenere conto della corrispondenza delle quadruple (ovvero di quattro parole consecutive) durante il calcolo.

BLU Caratteristiche degli indicatori di valutazione:

Vantaggi: elevata velocità di calcolo, basso costo di calcolo, facile da comprendere, indipendente dal linguaggio specifico e altamente correlato alla valutazione umana.
Svantaggi: l'accuratezza dell'espressione linguistica (grammatica) non viene presa in considerazione; l'accuratezza della valutazione sarà compromessa dalle parole di uso comune; l'accuratezza della valutazione delle frasi brevi tradotte è talvolta maggiore, non vengono considerati sinonimi o espressioni simili, il che può portare al rifiuto; di traduzioni ragionevoli.

Oltre alla traduzione, il punteggio BLEU combinato con metodi di deep learning può essere applicato ad altri problemi di generazione del linguaggio, come: generazione del linguaggio, generazione di titoli di immagini, riepilogo del testo e riconoscimento vocale.

Pensieri dopo la lezione

D'ora in poi utilizzerò solo la Magic Tower, un laptop da 8 GB non sarà in grado di gestirlo.
Ho guardato brevemente il codice e i dati, ma non li capisco del tutto.
Immagino che durante il processo di traduzione vengano recuperate diverse opzioni dal dizionario per ogni parola e quella con la probabilità di combinazione più alta sarà il risultato della traduzione?

Condivisione della tecnologia