le mie informazioni di contatto
Posta[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
//Ho scritto questa nota in obsidian e l'ho copiata qui. Lo strano formato di questa nota è dovuto alla mancanza di plugin obsidian.
etichette:
Bersaglio: Percorrere la linea di base, sperimentare il processo di risoluzione dei problemi del modello PNL, comprendere sostanzialmente i requisiti delle domande della concorrenza e comprendere lo scenario della concorrenza
difficoltà:molto basso
Passaggi consigliati:
Attività 1 Conoscenza Fare clic su Documenti - Documenti Feishu Cloud (feishu.cn)
La traduzione automatica (MT) è un ramo importante nel campo dell'elaborazione del linguaggio naturale. Il suo obiettivo è quello diConverti automaticamente il testo da una lingua al testo in un'altra lingua
Metodo di traduzione automatica: basato su regole -> basato su statistiche -> deep learning
Basato su regole->Driver basato su dati->Intelligente
Traduzione automatica basata su regole (anni '50 -'80): I primi sistemi di traduzione automatica adottavano principalmente metodi basati su regole, ovvero utilizzandoRegole grammaticali e dizionari scritti da linguisti per la traduzione .Questo metodo richiede una comprensione approfondita della grammatica e del vocabolario della lingua di partenza e di quella di destinazione, ma è meno flessibile e adattabile, rendendo difficile affrontare strutture linguistiche complesse e problemi di polisemia.
Traduzione automatica basata su statistiche (anni '90-2000) : Con il miglioramento delle prestazioni dei computer e l’emergere di corpora paralleli su larga scala, la traduzione automatica statistica ha cominciato a crescere.questo metodoImpara automaticamente la corrispondenza tra le lingue di partenza e di arrivo analizzando grandi quantità di testo bilingue , realizzando così la traduzione. La traduzione automatica statistica ha mostrato risultati migliori nella gestione della polisemia e della variazione linguistica, ma a causa della sua dipendenza da grandi quantità di dati di addestramento, non ha un supporto sufficiente per le lingue povere di risorse.
Traduzione automatica basata su reti neurali (anni 2010-oggi) : L'applicazione dei metodi delle reti neurali nelle attività di traduzione automatica può essere fatta risalire agli anni '80 e '90. Tuttavia, a causa delle limitazioni delle risorse di calcolo e della scala dei dati dell’epoca, le prestazioni del metodo della rete neurale erano insoddisfacenti, quindi il suo sviluppo ristagnava per molti anni. Negli ultimi anni, il rapido sviluppo della tecnologia di deep learning ha promosso l’ascesa della traduzione automatica neurale (NMT). NMT utilizza modelli di rete neurale profonda comeRete di memoria a lungo termine (LSTM) e Transformer , possono apprendere automaticamente la complessa relazione di mappatura tra la lingua di origine e la lingua di destinazione senza progettare manualmente caratteristiche o regole. La NMT ha compiuto progressi significativi in termini di qualità, velocità e adattabilità della traduzione ed è diventata il metodo principale nell’attuale campo della traduzione automatica.
Nei progetti di machine learning e deep learning, il set di dati viene solitamente suddiviso in tre parti: set di training (Training Set), set di sviluppo (Development Set, spesso chiamato anche validation set, Validation Set) e test set (Test Set)
set di formazione, modello di formazione
Set di sviluppo per evitare che il modello si adatti eccessivamente al set di training
Prova il set, simula dati reali, controlla l'effetto
attualmentetraduzione automatica neuraleLa tecnologia ha fatto grandi passi avanti, maIn alcuni campi o industrie, l’effetto di traduzione non è ideale perché è difficile per la traduzione automatica garantire la coerenza della terminologia. .Per risultati di traduzione automatica imprecisi come terminologia, nomi di persone e luoghi, ecc., puoi farloCorreggere tramite dizionario terminologico, evitando confusione o ambiguità e massimizzando la qualità della traduzione.
Sfida di traduzione automatica basata sull'intervento del dizionario terminologico Seleziona la traduzione automatica con l'inglese come lingua di origine e il cinese come lingua di destinazione. Oltre ai dati bilingui dall'inglese al cinese, questo concorso fornisce anche un dizionario terminologico inglese-cinese.I team partecipanti devono iniziare dai campioni di dati di formazione forniti sulla baseCostruzione e formazione di modelli di traduzione automatica multilingue e fornitura di risultati finali di traduzione basati su set di test e dizionari di termini
//RAG🤗
[!info] 🐵
- Il **set di training** viene utilizzato per eseguire l'algoritmo di apprendimento.
- insieme di sviluppo Utilizzato per regolare i parametri, selezionare funzionalità e prendere altre decisioni sull'algoritmo di apprendimento.a volte chiamatoset di validazione incrociata di hold-out。
- **Test set** viene utilizzato per valutare le prestazioni dell'algoritmo, ma non modifica di conseguenza l'algoritmo o i parametri di apprendimento.
Per i file dei risultati della traduzione dei set di test inviati dai team partecipanti, vengono utilizzati indicatori di valutazione automatici BLU-4 Condurre valutazioni e utilizzare strumenti specificiversione open source di Sacrebleu。
[!info] 📘
cosa èBLU-4?
BLEU
, nome e cognomeBilingual Evaluation Understudy
(sostituzione della valutazione bilingue), è a生成语句
condotta评估的指标
. Il punteggio BLEU è un articolo del 2002 di Kishore Papineni et al.《BLEU: un metodo per la valutazione automatica della traduzione automatica》proposto nel.
Nel campo della traduzione automatica, BLEU (Bilingual Evaluation Understudy) è un indicatore di valutazione automatica comunemente utilizzato per misurareSomiglianza tra una traduzione generata dal computer e un insieme di traduzioni di riferimento .Questo indicatore presta particolare attenzionen-grammi Una corrispondenza esatta di (n parole consecutive) può essere considerata come una stima statistica dell'accuratezza e della fluidità della traduzione. Quando si calcola il punteggio BLU, viene prima conteggiata la frequenza di n grammi nel testo generato, quindi queste frequenze vengono confrontate con gli n grammi nel testo di riferimento. Se la traduzione generata contiene gli stessi n-grammi che appaiono nella traduzione di riferimento, viene considerata una corrispondenza. Il punteggio BLU finale è un valore compreso tra 0 e 1, dove 1 rappresenta una corrispondenza perfetta con la traduzione di riferimento e 0 rappresenta nessuna corrispondenza.
BLU-4 In particolare si tratta di tenere conto della corrispondenza delle quadruple (ovvero di quattro parole consecutive) durante il calcolo.
BLU Caratteristiche degli indicatori di valutazione:
Oltre alla traduzione, il punteggio BLEU combinato con metodi di deep learning può essere applicato ad altri problemi di generazione del linguaggio, come: generazione del linguaggio, generazione di titoli di immagini, riepilogo del testo e riconoscimento vocale.
D'ora in poi utilizzerò solo la Magic Tower, un laptop da 8 GB non sarà in grado di gestirlo.
Ho guardato brevemente il codice e i dati, ma non li capisco del tutto.
Immagino che durante il processo di traduzione vengano recuperate diverse opzioni dal dizionario per ogni parola e quella con la probabilità di combinazione più alta sarà il risultato della traduzione?