Report settimanale sull'apprendimento automatico CF-LT

Report settimanale sull'apprendimento automatico CF-LT per la 47a settimana

2024-07-12

Elenco degli articoli

settimana47 CF-LT
Riepilogo
Astratto

settimana47 CF-LT

Riepilogo

Questa settimana ho letto un articolo intitolato Modello ibrido interpretabile del trasformatore CEEMDAN-FE-LSTM per prevedere le concentrazioni di fosforo totale nelle acque superficiali. Questo articolo propone un modello ibrido per la previsione del TP. Questo articolo propone un modello ibrido per la previsione del TP, vale a dire il modello CF-LT. Il modello combina in modo innovativo la decomposizione in modalità empirica (EMD) completamente integrata con l'elaborazione adattiva del rumore, l'analisi entropica fuzzy, la rete di memoria a lungo termine (LSTM) e la tecnologia Transformer. Introducendo la tecnologia di ricostruzione della divisione della frequenza dei dati, questo modello risolve efficacemente i problemi di over-fitting e under-fitting che tendono a verificarsi quando i modelli tradizionali di machine learning gestiscono dati ad alta dimensione. Allo stesso tempo, l’applicazione del meccanismo di attenzione consente al modello CF-LT di superare i limiti di altri modelli che rendono difficile stabilire dipendenze a lungo termine tra i dati quando si effettuano previsioni a lungo termine. I risultati della previsione mostrano che il modello CF-LT ha raggiunto un coefficiente di determinazione (R2) compreso tra 0,37 e 0,87 sul set di dati del test, che rappresenta un miglioramento significativo compreso tra 0,05 e 0,17 (ovvero, dal 6% all'85%) rispetto al controllo modello. Inoltre, il modello CF-LT ha mostrato anche le migliori prestazioni di previsione dei picchi.

Astratto

Il settimanale di questa settimana decodifica il documento intitolato Interpretable CEEMDAN-FE-LSTM-transformer hybrid model for predicting total phosphorus concentrations in surface water. Questo documento introduce un modello ibrido, CF-LT, specificamente per la previsione di TP. Il modello integra in modo innovativo Complete Ensemble Empirical Mode Decomposition (EMD) con elaborazione del rumore adattiva, analisi dell'entropia fuzzy, reti Long Short-Term Memory (LSTM) e tecnologia Transformer. Introducendo la divisione e la ricostruzione della frequenza dei dati, CF-LT affronta efficacemente i problemi di overfitting e underfitting che i modelli di apprendimento automatico tradizionali incontrano spesso quando hanno a che fare con dati ad alta dimensionalità. Inoltre, l'applicazione del meccanismo di attenzione consente a CF-LT di superare i limiti di altri modelli nello stabilire dipendenze a lungo termine tra punti dati durante le previsioni a lungo termine. I risultati della previsione dimostrano che CF-LT raggiunge un coefficiente di decisione (R2) che va da 0,37 a 0,87 sui set di dati di prova, rappresentando un miglioramento significativo da 0,05 a 0,17 (o dal 6% all'85%) rispetto ai modelli di controllo. Inoltre, CF-LT fornisce le migliori prestazioni di previsione di picco.

1. Domanda

Argomento: Modello ibrido CEEMDAN-FE-LSTM-trasformatore interpretabile per la previsione delle concentrazioni totali di fosforo nelle acque superficiali

Autore: Jiefu Yao, Shuai Chen, Xiaohong Ruan

pubblicazione:Rivista di idrologia Volume 629, febbraio 2024, 130609

Fonte: https://www.sciencedirect.com/science/article/pii/S0022169424000039?via%3Dihub

2. Riassunto

Questo articolo propone un modello ibrido per la previsione del TP. Questo modello (CF-LT) combina la decomposizione in modalità empirica (EMD) completamente integrata con rumore adattivo, entropia fuzzy, memoria a lungo termine e trasformatore.Ricostruzione della divisione di frequenza dei datiL'introduzione di risolve in modo efficace i problemi di over-fitting e under-fitting che si verificavano quando i precedenti modelli di machine learning si confrontavano con dati ad alta dimensione.meccanismo di attenzione Ciò supera il problema che questi modelli non possono stabilire dipendenze a lungo termine tra i dati e fare previsioni a lungo termine. I risultati della previsione mostrano che il modello CF-LT raggiunge un coefficiente di determinazione (R2) di 0,37-0,87 sul set di dati del test, che è 0,05-0,17 (6%-85%) superiore rispetto al modello di controllo. Inoltre, il modello CF-LT ha fornito la migliore previsione del picco.

3. Struttura della rete

3.1 CEEMDAN (Decomposizione in modalità empirica dell'insieme di rumore completamente adattivo)

Essendo un metodo avanzato di analisi delle serie temporali, CEEMDAN riduce efficacemente il problema dell'aliasing modale esistente nell'EMD tradizionale aggiungendo rumore adattivo al processo di decomposizione empirica della modalità (EMD). Può scomporre il segnale originale in una serie di funzioni di modalità intrinseca (IMF). Ciascun IMF rappresenta diverse caratteristiche di scala temporale del segnale, rendendo così l'analisi di segnali complessi più intuitiva e accurata. In questo studio, CEEMDAN è stato utilizzato per elaborare i dati giornalieri sulla qualità dell'acqua provenienti da tre stazioni di monitoraggio nel lago Tai, separando la concentrazione totale di fosforo e altri parametri di qualità dell'acqua come temperatura dell'acqua, pH, ossigeno disciolto, ecc. in segnali in diverse bande di frequenza.

immagine-20240711193243810

Algoritmo S1: Decomposizione completa della modalità empirica dell'insieme con rumore adattivo (CEEMDAN)

Definire operatore $E_K(sim)$ , questo operatore genera l'algoritmo EMD K-esimo modello. $v_t^i$ Impostato su rumore bianco gaussiano, $ϵ$ è il coefficiente del rumore bianco, $ioooooooooooooooooo$ Indice per l'aggiunta di rumore bianco. L'EMD viene utilizzato per scomporre i dati e, dopo aver aggiunto il rumore bianco gaussiano al segnale originale y(t) secondo l'equazione (S1), il primo componente della funzione modalità intrinseca (IMF) ( $\overline{IO MF 1}$ ). La prima modalità viene calcolata utilizzando l'equazione (S2).

$y^{i}(t)=y(t)+epsilon_0v^i(t)quad i=1,2,punti,ntag{S1}$

$testo{FMI1}_i=E_0(y^i(t))+r^i_1quad overline{testo{FMI1}}=frac1ntesto{FMI1}_itag{S2}$

Calcolare i residui della prima decomposizione del segnale utilizzando l'equazione (S3). Aggiungi nuovo rumore bianco secondo l'equazione (S4) e calcola il secondo componente FMI (S4).

$r_1=y^i(t)-overline{testo{FMI1}}tag{S3}$

$overline{testo{FMI2}}=frac1nsum^n_{i=1}E_1(r_1+epsilon_1E_1(v^i(t))) tag{S4}$

Ripetere i passaggi 1 e 2 finché il residuo r_k non diventa una funzione monotona. Infine, applicare EMD per ottenere la serie K−1th IMF, che è la composizione della serie originale, come:

$y(t)=somma^{K-1}_{l=1}sopra{testo{FMI1}}+r_Ktag{S5}$

3.2 Struttura del modello CF-LT

Per la parte CEEMDAN-FE, dividiamo prima il set di dati originale in set di dati di addestramento e test, quindi applichiamo CEEMDAN per scomporre ciascuna caratteristica nei due set di dati in più funzioni in modalità intrinseca (IMF). A seconda della vicinanza dei valori FE di ciascun FMI, questi vengono ricostruiti in componenti ad alta frequenza (IMFH), frequenza intermedia (IMFM), bassa frequenza (IMFL) e termine di tendenza (IMFT), che riflettono diversi aspetti del FMI .

Per la parte LSTM-Transformer, nel codificatore e nel decodificatore, lo strato nascosto di LSTM è sostituito dalla codifica della posizione del trasformatore per stabilire la dipendenza temporale tra i dati di input. Il processo di calcolo specifico è il seguente (Figura 2a).

immagine-20240711190100763

L'input del modello è costituito da due input di funzionalità. In questo studio, lo strato codificatore comprende la temperatura dell'acqua (WT), il pH (PH), l'ossigeno disciolto (DO), la domanda chimica di ossigeno (COD), la conduttività elettrica (EC), la torbidità (TU), l'azoto ammoniacale (NH3-N) e i dati sull'azoto totale (TN) sotto forma di serie temporali ottenuti 7 giorni prima del primo punto temporale della previsione. Il livello del decodificatore contiene le serie temporali TP per i 7 giorni precedenti il primo punto temporale della previsione.
Dopo aver attraversato gli strati LSTM e lineare, i due set di dati delle caratteristiche vengono inseriti rispettivamente nello strato codificatore e nello strato decodificatore.
Due sottostrati formano lo strato codificatore. Il livello di attenzione multi-testa calcola la matrice di attenzione delle caratteristiche di input, quindi il livello feed-forward modifica la dimensione dei dati. Infine, i dati vengono inseriti nel successivo livello di codifica o decodifica.
Tre sottostrati costituiscono lo strato del decodificatore. Dopo che il livello di attenzione multi-testa mascherato ha calcolato la matrice di attenzione delle caratteristiche di input, il livello di attenzione multi-testa stabilisce connessioni di attenzione basate sull'output del livello di codifica. Il livello feedforward lo passa al livello decodificatore successivo o al livello lineare per ottenere l'output del modello finale.

3.3 FORMA

SHAP è un metodo della teoria dei giochi per interpretare l'output di qualsiasi modello ML.Per determinare l'impatto delle funzionalità di input sull'output del modello, le funzionalità di input $lo = [lo 1, ..., lo P]$ Relativo al modello di deep learning addestrato F.
$F=f(z)=phi_0+sum_{i=1}^M phi_iz_i tag{12}$
$φ_i ∈ R$ Indica il contributo di ciascuna caratteristica al modello, che è dato dalla seguente formula:
$phi_i(F,x)=somma_{zleq x}frazione{|z|!(M-|z|-1)!}{M!}[F(z)-F(z/i)] tag{13}$

4. Interpretazione della letteratura

4.1 Introduzione

Lo studio propone un nuovo modello per prevedere le concentrazioni totali di fosforo. Il modello combina le tecnologie CEEM DAN, FE, LSTM e Transformer e utilizza SHAP per interpretare l'output del modello. L'obiettivo principale di questo studio è valutare le prestazioni del modello CEEMDAN-FE-LSTM-Transformer (CF-LT) proposto nel prevedere la concentrazione di TP all'ingresso del Lago Tai e applicare SHAP per interpretare l'output del CF-LT modello. Ciò dovrebbe rivelare i fattori chiave che influenzano la concentrazione di TP nella regione e i loro meccanismi di risposta.

La scomposizione dei dati ad alta dimensione può produrre un gran numero di componenti modali. Per risolvere questo problema, è possibile combinare con CEEMDAN il metodo Fuzzy Entropy (FE), un metodo efficiente per il calcolo della complessità temporale. Questa combinazione ricostruisce efficacemente i sottosegnali scomposti CEEMDAN, riducendo così il numero di modelli di sottofrequenza.

I modelli LSTMTransformer possono acquisire relazioni tra punti temporali non adiacenti preservando le caratteristiche della serie temporale dei dati di input.

I modelli del trasformatore utilizzano meccanismi di attenzione per identificare le correlazioni tra due posizioni in un contesto specifico durante l'addestramento. Ciò consente un'acquisizione efficiente dei dati rilevanti e riduce la ridondanza delle informazioni.

4.2 Punti di innovazione

I principali contributi di questo articolo riguardano quattro aspetti:

Il modello proposto combina l’analisi modale con metodi di deep learning, utilizza l’entropia fuzzy per ridurre l’impatto della scomposizione modale sulla complessità temporale e combina LSTM con Transformer per costruire dipendenze a lungo e breve termine nei dati.
Verrà utilizzato un modello ibrido che utilizza LSTM e Transformer per prevedere il TP totale del fosforo, cosa che non è stata eseguita negli studi precedenti.
I risultati della previsione mostrano che il modello CF-LT raggiunge un coefficiente di determinazione (R2) di 0,37-0,87 sul set di dati del test, che è 0,05-0,17 (6%-85%) superiore rispetto al modello di controllo. Inoltre, il modello CF-LT ha fornito la migliore previsione del picco.

4.3 Processo sperimentale

insieme di dati : Il bacino del lago Taihu si trova nel corso inferiore del fiume Yangtze, coprendo un'area di 36.900 chilometri quadrati, con una fitta rete fluviale e numerosi laghi. Il lago Taihu è un tipico lago poco profondo. Il bacino ha le caratteristiche di un clima subtropicale settentrionale umido, con una temperatura media annua di 15-17°C e una precipitazione media annua di 1181 mm. Questo studio ha utilizzato i dati di monitoraggio della qualità dell'acqua provenienti dalla stazione Yaoxiangqiao, dalla stazione Zhihugang e dalla stazione Guanduqiao (Figura S2). Queste stazioni di monitoraggio si trovano a Taihukou, una sezione nazionale chiave per la valutazione della qualità dell'acqua. I dati provengono dal Centro di monitoraggio ambientale provinciale di Jiangsu.

immagine-20240711193010590

Criteri di valutazione : La valutazione delle prestazioni del modello utilizza diversi indicatori chiave: coefficiente di determinazione (R²), errore quadratico medio (MSE) ed errore percentuale assoluto medio (MAPE). R² misura il grado di adattamento tra il valore previsto del modello e il valore effettivo. Vicino a 1 indica che il modello ha una forte capacità di previsione; MSE misura la somma dei quadrati dell'errore di previsione. MAPE riflette la dimensione dell'errore di previsione da una prospettiva percentuale. Il valore inferiore indica previsioni più accurate.

Dettagli di implementazione : Il processo sperimentale include la preelaborazione dei dati, l'addestramento e il test del modello. Viene stabilita una procedura sperimentale completa per valutare le prestazioni del modello proposto su diversi set di dati e finestre temporali di previsione. Innanzitutto, i dati vengono preelaborati dal metodo CEEMDAN-FE, che rimuove l'interferenza delle informazioni aggiungendo una scomposizione in modalità empirica completamente integrata con rumore adattivo, estrae informazioni multiscala e utilizza l'entropia fuzzy per ridurre il numero di sottosegnali. Successivamente, i dati elaborati vengono suddivisi in set di addestramento e set di test in proporzioni del 75% e 25%. Nella fase di addestramento, il set di dati di addestramento preelaborato viene immesso nel modello LSTM-Transformer. Utilizza la backpropagation e l'ottimizzatore Adam per aggiornare i pesi del modello e utilizza la ricerca nella griglia per identificare i migliori iperparametri del modulo LSTMTransformer per garantire le prestazioni del modello in diverse finestre temporali di previsione (7 giorni, 5 giorni, 3 giorni, 1 giorno) ottimali.

Risultati sperimentali : Applicando il miglior modello di addestramento al set di dati del test, la tabella riassume le previsioni di concentrazione di TP fornite dai modelli CF-LT, LSTM, Transformer, CF-L e CF-T in diversi siti e diverse finestre temporali di previsione. Il modello CF-LT proposto fornisce i migliori risultati per tutti e tre i parametri di valutazione. In termini di R2, il modello CF-LT varia da 0,37 a 0,87, mentre i successivi migliori modelli CF-L e CF-T sono rispettivamente 0,32-0,84 e 0,35-0,86. Ciò dimostra che la combinazione della memoria a lungo termine di LSTM con il meccanismo di attenzione di Transformer può migliorare l’accuratezza della previsione. Confrontando i peggiori modelli LSTM e Transformer con i modelli CF-L e CF-T, il MAPE varia da 8,94%-20,62% (LSTM) e 8,91%-18,73% (Transformer) a 8,29%-19,56% (CF -L) e 7,82%-17,55% (CF-T). Questi risultati dimostrano che la scomposizione dei dati e la modellazione della divisione di frequenza migliorano significativamente l’accuratezza della previsione acquisendo più informazioni nascoste nei dati originali.

immagine-20240711191527172

Previsione dei fattori che influenzano la concentrazione totale di fosforo TP：

Il valore SHAP assoluto medio (MASV) viene utilizzato per quantificare il contributo delle caratteristiche di input (WT, PH, DO, COD, EC, TU, TN, NH3-N, TP) ai risultati della previsione TP maggiore è l'impatto sui risultati della previsione del modello. La ricerca mostra che oltre alle serie di concentrazioni di TP passate, l’azoto totale (TN) e la torbidità (TU) sono i due fattori principali che influenzano la previsione del TP. Ciò dimostra che i cambiamenti nel TP non sono solo direttamente influenzati dalle concentrazioni storiche, ma sono anche strettamente correlati alle dinamiche di crescita delle alghe associate alle emissioni di inquinamento da fonti non puntuali e al rapporto azoto-fosforo nel corpo idrico. In particolare, la correlazione significativa tra TN e TP enfatizza l’effetto di accoppiamento dei due nel ciclo dei nutrienti del lago ed evidenzia l’importanza dell’input di azoto da fonti non puntuali per la previsione della concentrazione di fosforo.

immagine-20240711191709183

Da questi risultati si possono fare le seguenti osservazioni:

In termini di parametri di equità, molti GNN esistenti hanno prestazioni scadenti rispetto ai modelli MLP su tutti e tre i set di dati. Ad esempio, nel set di dati Pokec-z, la parità demografica di MLP è inferiore del 32,64%, 50,46%, 66,53% e 58,72% rispetto a GAT, GCN, SGC e APPNP. Una distorsione di previsione più elevata deriva dalle aggregazioni all'interno degli stessi nodi di attributi sensibili e dalla distorsione topologica nei dati del grafico.
La FMP raggiunge costantemente il bias di previsione più basso in termini di uguaglianza della popolazione e di opportunità in tutti i set di dati. Nello specifico, FMP riduce la parità demografica del 49,69%, 56,86% e 5,97% rispetto al bias più basso tra tutte le linee di base nei set di dati Pokecz, Pokec-n e NBA. Allo stesso tempo, FMP raggiunge la migliore precisione nel set di dati NBA e raggiunge una precisione comparabile nei set di dati Pokec-z e Pokec-n. In breve, il FMP proposto può mitigare efficacemente gli errori di previsione mantenendo le prestazioni di previsione.

Confronto con il debiasing e la regolarizzazione del contraddittorio : suddiviso casualmente 50%/25%/25% per set di dati di training, convalida e test. La Figura 2 mostra le curve Pareto ottimali per tutti i metodi, dove il punto nell'angolo in basso a destra rappresenta la prestazione ideale (massima precisione e deviazione di previsione minima).

immagine-20240707171047802

5. conclusione

Il modello ibrido CF-LT proposto in questo articolo combina i moduli CEEM DAN, FE, LSTM e Transformer per prevedere la concentrazione di TP nelle acque superficiali. Questo approccio ibrido risolve i limiti dell’overfitting e dell’underfitting del modello causati da dati ad alta dimensionalità e dall’incapacità di stabilire dipendenze a lungo termine tra i dati quando si effettuano previsioni a lungo termine. Inoltre, i valori SHAP vengono utilizzati per interpretare l'output del modello CF-LT.

Il modello utilizza i dati provenienti da tre stazioni di monitoraggio della qualità dell'acqua nel bacino del lago Taihu per produrre 9 indicatori di qualità dell'acqua in diverse finestre temporali di previsione. Come modelli di controllo vengono utilizzati gli algoritmi LSTM, Transformer, CF-L e CF-T. Il modello CF-LT ha un valore R2 di 0,37–0,87, un valore MSE di 0,34 × 10−3–1,46 × 10−3 e un valore MAPE di 7,88%–17,63% sul set di dati di test, indicando che tutti e tre gli indicatori sono migliori dei risultati LSTM, Transformer, CF-L e CF-T. Il modello CF-LT proposto ha anche prodotto i migliori risultati di previsione dei picchi. Sulla base dell'interpretazione SHAP, abbiamo scoperto che TU e TN (escluse le prime serie temporali della concentrazione di TP) sono fattori importanti che influenzano la previsione di TP, il che indica che i cambiamenti in TP non sono solo correlati ai primi livelli di concentrazione di TP, ma sono anche influenzati da TP concentrazione. La relazione tra le emissioni di inquinamento da fonti non puntuali e le piante acquatiche nell'estuario del lago Taihu. Inoltre, vale la pena notare che TN e TU contribuiscono maggiormente alla previsione della concentrazione di TP nella stagione delle piogge. Pertanto, i risultati di questo studio indicano che il modello CF-LT fornisce informazioni aggiuntive per comprendere il meccanismo di risposta del TP quando cambiano le diverse condizioni ambientali.

6. Riproduzione del codice

Preelaborazione dati CEEMDAN e FE

def ceemdan_fe_preprocessing(data):
    # CEEMDAN分解
    imfs, residue = ceemdan(data, **ceemdan_params)
    
    # 计算各个IMF的模糊熵
    fe_values = []
    for imf in imfs:
        fe_values.append(fuzzy_entropy(imf)) # 假定fuzzy_entropy为计算模糊熵的函数
    
    # 根据FE值重组IMFs
    imfs_sorted = [imf for _, imf in sorted(zip(fe_values, imfs))]
    imf_hf, imf_mf, imf_lf, imf_trend = imfs_sorted[:4], imfs_sorted[4:8], imfs_sorted[8:12], imfs_sorted[12:]
    return np.concatenate((imf_hf, imf_mf, imf_lf, imf_trend), axis=1)
 
# 应用到数据上
preprocessed_data = ceemdan_fe_preprocessing(original_data)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

LSTM e Trasformatore

def get_positional_encoding(max_len, d_model):
    pe = np.zeros((max_len, d_model))
    position = np.arange(0, max_len).reshape(-1, 1)
    div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))
    pe[:, 0::2] = np.sin(position * div_term)
    pe[:, 1::2] = np.cos(position * div_term)
    return pe
 
def transformer_encoder(inputs, d_model, num_heads, ff_dim):
    x = MultiHeadAttention(num_heads=num_heads, key_dim=d_model)(inputs, inputs)
    x = LayerNormalization()(Add()([inputs, x]))
    x = Dense(ff_dim, activation='relu')(x)
    x = Dense(d_model)(x)
    x = LayerNormalization()(Add()([inputs, x]))
    return x
 
def transformer_decoder(inputs, encoder_outputs, d_model, num_heads, ff_dim):
    return decoder_output
 
input_features = Input(shape=(input_shape))
lstm_out = LSTM(lstm_units)(input_features) # LSTM
 
pos_encodings = get_positional_encoding(max_seq_length, d_model)
 
transformer_in = Add()([lstm_out, pos_encodings])
transformer_encoded = transformer_encoder(transformer_in, d_model, num_heads, ff_dim)
 
decoder_output = transformer_decoder(decoder_input, transformer_encoded, d_model, num_heads, ff_dim)
 
output_layer = Dense(output_dim, activation='linear')(decoder_output)
model = Model(inputs=input_features, outputs=output_layer)
 
model.compile(optimizer=Adam(learning_rate), loss='mse')
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

riepilogo

Questo studio ha sviluppato un modello ibrido interpretabile CEEMDAN-FE-LSTM-Transformer per la previsione della concentrazione totale di fosforo nelle acque superficiali. Il modello ha migliorato significativamente l'accuratezza della previsione attraverso la fusione di tecnologia avanzata di preelaborazione dei dati e modelli di deep learning e fornisce una chiara spiegazione delle caratteristiche. tramite SHAP. I risultati sperimentali hanno confermato l’efficacia del modello, in particolare l’identificazione dei fattori ambientali chiave, fornendo un potente strumento per la gestione dell’eutrofizzazione dei corpi idrici e il controllo dell’inquinamento.

Riferimenti

[1] Rivista di idrologia Volume 629, febbraio 2024, 130609

Condivisione della tecnologia