내 연락처 정보
우편메소피아@프로톤메일.com
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
이번 주에 저는 지표수의 총 인 농도를 예측하기 위한 해석 가능한 CEEMDAN-FE-LSTM-변압기 하이브리드 모델이라는 제목의 논문을 읽었습니다. 본 논문에서는 TP 예측을 위한 하이브리드 모델을 제안합니다. 본 논문에서는 TP 예측을 위한 하이브리드 모델, 즉 CF-LT 모델을 제안합니다. 이 모델은 완전히 통합된 경험적 모드 분해(EMD)와 적응형 잡음 처리, 퍼지 엔트로피 분석, 장단기 기억 네트워크(LSTM) 및 Transformer 기술을 혁신적으로 결합합니다. 이 모델은 데이터 주파수 분할 재구성 기술을 도입하여 기존 기계 학습 모델이 고차원 데이터를 처리할 때 발생하기 쉬운 과적합 및 과소적합 문제를 효과적으로 해결합니다. 동시에, 어텐션 메커니즘을 적용하면 CF-LT 모델은 장기 예측 시 데이터 간의 장기 종속성을 설정하기 어려운 다른 모델의 한계를 극복할 수 있습니다. 예측 결과에 따르면 CF-LT 모델은 테스트 데이터 세트에서 결정계수(R2)가 0.37~0.87로 대조군에 비해 0.05~0.17(즉, 6%~85%) 크게 개선된 것으로 나타났습니다. 모델. 또한 CF-LT 모델 역시 가장 좋은 피크 예측 성능을 보였다.
이번 주 주간 신문은 Interpretable CEEMDAN-FE-LSTM-transformer 하이브리드 모델로 표면 수의 총 인 농도를 예측하는 논문을 디코딩합니다. 이 논문은 TP 예측을 위한 하이브리드 모델인 CF-LT를 소개합니다. 이 모델은 적응형 노이즈 처리, 퍼지 엔트로피 분석, Long Short-Term Memory(LSTM) 네트워크 및 Transformer 기술과 Complete Ensemble Empirical Mode Decomposition(EMD)을 혁신적으로 통합합니다. CF-LT는 데이터 주파수 분할 및 재구성을 도입하여 기존 머신 러닝 모델이 고차원 데이터를 처리할 때 종종 마주치는 과적합 및 과소적합 문제를 효과적으로 해결합니다. 또한, 어텐션 메커니즘을 적용하여 CF-LT는 장기 예측 중에 데이터 포인트 간의 장기 종속성을 설정하는 데 있어 다른 모델의 한계를 극복할 수 있습니다. 예측 결과는 CF-LT가 테스트 데이터 세트에서 0.37~0.87 범위의 결정 계수(R2)를 달성한다는 것을 보여주며, 이는 제어 모델과 비교하여 0.05~0.17(또는 6%~85%)의 상당한 개선을 나타냅니다. 또한 CF-LT는 최고의 피크 예측 성능을 제공합니다.
제목: 표면수 중 총인 농도 예측을 위한 해석 가능한 CEEMDAN-FE-LSTM-변압기 하이브리드 모델
저자: Jiefu Yao, Shuai Chen, Xiaohong Ruan
풀어 주다:수문학 저널 629권, 2024년 2월, 130609
출처: https://www.sciencedirect.com/science/article/pii/S0022169424000039?via%3Dihub
본 논문에서는 TP 예측을 위한 하이브리드 모델을 제안합니다. 이 모델(CF-LT)은 적응형 잡음, 퍼지 엔트로피, 장단기 기억 및 변환기와 완전히 통합된 경험적 모드 분해(EMD)를 결합합니다.데이터 주파수 분할 재구성의 도입으로 기존 머신러닝 모델이 고차원 데이터를 접할 때 발생했던 과적합(over-fitting) 및 과소적합(under-fitting) 문제를 효과적으로 해결합니다.주의 메커니즘 이는 이러한 모델이 데이터 간의 장기적인 종속성을 설정하고 장기적인 예측을 할 수 없다는 문제를 극복합니다. 예측 결과에 따르면 CF-LT 모델은 테스트 데이터 세트에서 0.37-0.87의 결정 계수(R2)를 달성했으며 이는 제어 모델보다 0.05-0.17(6%-85%) 더 높습니다. 또한 CF-LT 모델은 최고의 피크 예측을 제공했습니다.
고급 시계열 분석 방법인 CEEMDAN은 경험적 모드 분해(EMD) 프로세스에 적응형 노이즈를 추가하여 기존 EMD에 존재하는 모드 앨리어싱 문제를 효과적으로 줄입니다. 원본 신호를 일련의 고유 모드 함수(IMF)로 분해할 수 있습니다. 각 IMF는 신호의 다양한 시간 척도 특성을 나타내므로 복잡한 신호를 보다 직관적이고 정확하게 분석할 수 있습니다. 본 연구에서 CEEMDAN은 Tai Lake에 있는 3개 모니터링 스테이션의 일일 수질 데이터를 처리하여 총 인 농도와 수온, pH, 용존 산소 등과 같은 기타 수질 매개변수를 서로 다른 주파수 대역의 신호로 분리하는 데 사용되었습니다.
알고리즘 S1: 적응 노이즈를 사용한 완전한 앙상블 경험적 모드 분해(CEEMDAN)
yi(t) = y(t) + ϵ 0 vi(t) i = 1 , 2 , … , n (S1) y^{i}(t)=y(t)+epsilon_0v^i(t)quad i=1,2,dots,ntag{S1}와이나(티)=와이(티)+ϵ0V나(티)나=1,2,…,N(S1)
IMF1 i = E 0 ( yi ( t ) ) + r 1 i IMF1‾ = 1 n IMF1 i (S2) 텍스트{IMF1}_i=E_0(y^i(t))+r^i_1사각형 오버라인{텍스트{IMF1}}=frac1n텍스트{IMF1}_itag{S2}국제통화기금(IMF)1나=이자형0(와이나(티))+아르 자형1나국제통화기금(IMF)1=N1국제통화기금(IMF)1나(S2)
r 1 = yi ( t ) − IMF1‾ (S3) r_1=y^i(t)-오버라인{텍스트{IMF1}}태그{S3}아르 자형1=와이나(티)−국제통화기금(IMF)1(S3)
IMF2‾=1n∑i=1nE1(r1+ϵ1E1(vi(t))) (S4) 윗줄{text{IMF2}}=frac1nsum^n_{i=1}E_1(r_1+epsilon_1E_1(v^i(t))) 태그{S4}국제통화기금(IMF)2=N1나=1∑N이자형1(아르 자형1+ϵ1이자형1(V나(티)))(S4)
y ( t ) = ∑ l = 1 K − 1 IMF1‾ + r K (S5) y(t) = 합계^{K-1}_{l=1}윗줄{텍스트{IMF1}} + r_Ktag{S5}와이(티)=엘=1∑케이−1국제통화기금(IMF)1+아르 자형케이(S5)
CEEMDAN-FE 부분의 경우 먼저 원본 데이터 세트를 훈련 및 테스트 데이터 세트로 나눈 다음 CEEMDAN을 적용하여 두 데이터 세트의 각 기능을 여러 고유 모드 함수(IMF)로 분해합니다. 각 IMF의 FE 값의 근접성에 따라 IMF의 다양한 측면을 반영하는 고주파수(IMFH), 중간주파수(IMFM), 저주파수(IMFL) 및 추세항(IMFT) 구성요소로 재구성됩니다. .
LSTM-Transformer 부분의 경우 인코더와 디코더에서 LSTM의 숨겨진 계층을 Transformer 위치 인코딩으로 대체하여 입력 데이터 간의 시간적 의존성을 설정합니다. 구체적인 계산 과정은 다음과 같다(그림 2a).
SHAP는 ML 모델의 출력을 해석하기 위한 게임 이론 방법입니다.모델 출력에 대한 입력 특성의 영향을 확인하려면 입력 특성 z = [ z 1 , . . . , zp ] z = [z1, ..., zp]지=[지1,...,지피]훈련된 딥러닝 모델 F와 관련됩니다.
F = f(z) = ϕ 0 + ∑ i = 1 M ϕ izi (12) F = f(z) = phi_0 + sum_{i=1}^M phi_iz_i 태그{12}에프=에프(지)=ϕ0+나=1∑중ϕ나지나(12)
φ i ∈ R φ_i ∈ Rφ나∈아르 자형다음 공식으로 제공되는 모델에 대한 각 기능의 기여도를 나타냅니다.
ϕ i ( F , x ) = ∑ z ≤ x ∣ z ∣ ! ( M − ∣ z ∣ − 1 ) !M ![ F ( z ) − F ( z / i ) ] (13) phi_i(F, x) = sum_{zleq x}frac{|z|!(M-|z|-1)!}{M!}[F(z)-F(z/i)] 태그{13}ϕ나(에프,엑스)=지≤엑스∑중!∣지∣!(중−∣지∣−1)
이번 연구는 총인 농도를 예측하기 위한 새로운 모델을 제안합니다. 이 모델은 CEEM DAN, FE, LSTM 및 Transformer 기술을 결합하고 SHAP를 사용하여 모델 출력을 해석합니다. 본 연구의 주요 목적은 제안된 CEEMDAN-FE-LSTM-Transformer(CF-LT) 모델의 성능을 타이 호수 입구의 TP 농도 예측에 평가하고 SHAP를 적용하여 CF-LT의 출력을 해석하는 것입니다. 모델. 이를 통해 해당 지역의 TP 농도에 영향을 미치는 주요 요인과 그 대응 메커니즘이 밝혀져야 합니다.
고차원 데이터 분해는 많은 수의 모달 구성 요소를 생성할 수 있습니다. 이 문제를 해결하기 위해 시간 복잡도를 계산하는 효율적인 방법인 퍼지 엔트로피(FE)를 CEEMDAN과 결합할 수 있습니다. 이 조합은 CEEMDAN 분해된 하위 신호를 효과적으로 재구성하여 하위 주파수 모델의 수를 줄입니다.
LSTMTransformer 모델은 입력 데이터의 시계열 특성을 유지하면서 인접하지 않은 시점 간의 관계를 캡처할 수 있습니다.
변환기 모델은 주의 메커니즘을 사용하여 훈련 중에 특정 컨텍스트에서 두 위치 간의 상관 관계를 식별합니다. 이를 통해 관련 데이터를 효율적으로 수집하고 정보 중복을 줄일 수 있습니다.
이 기사의 주요 기여는 네 가지 측면입니다.
데이터 세트 : 태호유역은 양쯔강 하류에 위치하고 있으며 면적은 36,900평방킬로미터에 달하며 하천망이 촘촘하고 호수가 많습니다. 태호는 전형적인 얕은 호수입니다. 분지는 연평균 기온 15~17°C, 연평균 강수량 1181mm로 습한 북아열대 기후의 특징을 갖고 있습니다. 본 연구에서는 Yaoxiangqiao 역, Zhihugang 역, Guanduqiao 역의 수질 모니터링 데이터를 사용했습니다(그림 S2). 이러한 모니터링 스테이션은 국가 핵심 수질 평가 구역인 타이후커우(Taihukou)에 위치해 있습니다. 데이터는 장쑤성 환경 모니터링 센터에서 가져온 것입니다.
평가 기준 : 모델의 성능 평가에는 결정계수(R²), 평균 제곱 오차(MSE), 평균 절대 백분율 오차(MAPE) 등 여러 가지 주요 지표가 사용됩니다. R²는 모델의 예측 값과 실제 값 사이의 적합도를 측정합니다. 1에 가까울수록 모델의 예측 능력이 강함을 나타내고, MSE는 값이 작을수록 예측 오류가 작아집니다. MAPE는 백분율 관점에서 예측 오류의 크기를 반영합니다. 값이 낮을수록 예측이 더 정확하다는 의미입니다.
구현 세부정보 : 실험 과정에는 데이터 전처리, 모델 훈련 및 테스트가 포함됩니다. 다양한 데이터 세트와 예측 시간 창에서 제안된 모델의 성능을 평가하기 위해 완전한 실험 절차가 확립되었습니다. 먼저 CEEMDAN-FE 방법으로 데이터를 전처리하는데, 이는 적응성 잡음이 포함된 완전 통합 경험적 모드 분해를 추가하여 정보 간섭을 제거하고 다중 스케일 정보를 추출하며 퍼지 엔트로피를 사용하여 하위 신호 수를 줄입니다. 다음으로 처리된 데이터를 75%와 25%의 비율로 훈련 세트와 테스트 세트로 나눕니다. 훈련 단계에서는 전처리된 훈련 데이터 세트가 LSTM-Transformer 모델에 입력됩니다. 역전파 및 Adam 최적화 프로그램을 사용하여 모델 가중치를 업데이트하고 그리드 검색을 사용하여 LSTMTransformer 모듈의 최상의 하이퍼 매개변수를 식별하여 다양한 예측 기간(7일, 5일, 3일, 1일)에서 최적의 모델 성능을 보장합니다.
실험 결과 : 테스트 데이터 세트에 최상의 훈련 모델을 적용하여 표에는 다양한 사이트 및 다양한 예측 시간 창에서 CF-LT, LSTM, Transformer, CF-L 및 CF-T 모델에 의해 제공되는 TP 농도 예측이 요약되어 있습니다. 제안된 CF-LT 모델은 세 가지 평가 지표 모두에서 최상의 결과를 제공합니다. R2 측면에서 CF-LT 모델의 범위는 0.37~0.87인 반면, 다음으로 우수한 CF-L 및 CF-T 모델은 각각 0.32~0.84 및 0.35~0.86입니다. 이는 LSTM의 장기기억과 Transformer의 Attention 메커니즘을 결합하면 예측 정확도를 향상시킬 수 있음을 보여줍니다. 최악의 LSTM 및 Transformer 모델을 CF-L 및 CF-T 모델과 비교하면 MAPE 범위는 8.94%-20.62%(LSTM) 및 8.91%-18.73%(Transformer) ~ 8.29%-19.56%(CF -L)입니다. 및 7.82%-17.55%(CF-T). 이러한 결과는 데이터 분해 및 주파수 분할 모델링이 원본 데이터에 숨겨진 더 많은 정보를 캡처하여 예측 정확도를 크게 향상시킨다는 것을 보여줍니다.
총인 TP 농도에 영향을 미치는 요인 예측:
평균 절대 SHAP 값(MASV)은 TP 예측 결과에 대한 입력 기능(WT, PH, DO, COD, EC, TU, TN, NH3-N, TP)의 기여도를 정량화하는 데 사용됩니다. 모델 예측 결과에 미치는 영향이 커집니다. 연구에 따르면 과거 TP 농도 시리즈 자체 외에도 총 질소(TN)와 탁도(TU)가 TP 예측에 영향을 미치는 두 가지 주요 요인인 것으로 나타났습니다. 이는 TP의 변화가 과거 농도에 의해 직접적인 영향을 받을 뿐만 아니라 비점오염원 배출 및 수역의 질소-인 비율과 관련된 조류 성장 역학과 밀접한 관련이 있음을 보여줍니다. 특히, TN과 TP 사이의 중요한 상관 관계는 호수 영양 순환에서 둘의 결합 효과를 강조하고 인 농도 예측을 위한 비점 소스 질소 입력의 중요성을 강조합니다.
이 결과로부터 다음과 같은 관찰이 가능합니다.
적대적 편향 제거 및 정규화와의 비교 : 학습, 검증 및 테스트 데이터 세트에 대해 50%/25%/25%를 무작위로 분할합니다. 그림 2는 모든 방법에 대한 파레토 최적 곡선을 보여줍니다. 여기서 오른쪽 하단 모서리 지점은 이상적인 성능(최고 정확도 및 최저 예측 편차)을 나타냅니다.
본 논문에서 제안한 CF-LT 하이브리드 모델은 CEEM DAN, FE, LSTM 및 Transformer 모듈을 결합하여 지표수의 TP 농도를 예측합니다. 이 하이브리드 접근 방식은 고차원 데이터로 인한 모델 과적합 및 과소적합의 단점과 장기 예측 시 데이터 간의 장기적인 종속성을 설정할 수 없는 문제를 해결합니다. 또한 SHAP 값은 CF-LT 모델의 출력을 해석하는 데 사용됩니다.
이 모델은 타이후 호수 유역에 있는 3개 수질 모니터링 스테이션의 데이터를 사용하여 다양한 예측 기간에 9개의 수질 지표를 출력합니다. 제어 모델로는 LSTM, Transformer, CF-L 및 CF-T 알고리즘이 사용됩니다. CF-LT 모델은 테스트 데이터 세트에서 R2 값이 0.37~0.87, MSE 값이 0.34 × 10−3~1.46 × 10−3, MAPE 값이 7.88%~17.63%로 나타나 세 가지 모두 지표는 LSTM, Transformer, CF-L 및 CF-T 결과보다 낫습니다. 제안된 CF-LT 모델 역시 가장 좋은 피크 예측 결과를 보였다. SHAP 해석을 바탕으로 TU와 TN(TP 농도의 초기 시계열 제외)이 TP 예측에 영향을 미치는 중요한 요소임을 발견했습니다. 이는 TP의 변화가 TP 농도의 초기 수준과 관련될 뿐만 아니라 TP의 영향도 받는다는 것을 나타냅니다. 집중. 태호 하구의 비점오염원 배출과 수생식물과의 관계. 또한 TN과 TU가 장마철 TP 농도 예측에 더 많이 기여한다는 점은 주목할 가치가 있습니다. 따라서 본 연구의 결과는 CF-LT 모델이 다양한 환경 조건이 변할 때 TP의 반응 메커니즘을 이해하기 위한 추가 정보를 제공한다는 것을 나타냅니다.
CEEMDAN 및 FE 데이터 전처리
def ceemdan_fe_preprocessing(data):
# CEEMDAN分解
imfs, residue = ceemdan(data, **ceemdan_params)
# 计算各个IMF的模糊熵
fe_values = []
for imf in imfs:
fe_values.append(fuzzy_entropy(imf)) # 假定fuzzy_entropy为计算模糊熵的函数
# 根据FE值重组IMFs
imfs_sorted = [imf for _, imf in sorted(zip(fe_values, imfs))]
imf_hf, imf_mf, imf_lf, imf_trend = imfs_sorted[:4], imfs_sorted[4:8], imfs_sorted[8:12], imfs_sorted[12:]
return np.concatenate((imf_hf, imf_mf, imf_lf, imf_trend), axis=1)
# 应用到数据上
preprocessed_data = ceemdan_fe_preprocessing(original_data)
LSTM&트랜스포머
def get_positional_encoding(max_len, d_model):
pe = np.zeros((max_len, d_model))
position = np.arange(0, max_len).reshape(-1, 1)
div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))
pe[:, 0::2] = np.sin(position * div_term)
pe[:, 1::2] = np.cos(position * div_term)
return pe
def transformer_encoder(inputs, d_model, num_heads, ff_dim):
x = MultiHeadAttention(num_heads=num_heads, key_dim=d_model)(inputs, inputs)
x = LayerNormalization()(Add()([inputs, x]))
x = Dense(ff_dim, activation='relu')(x)
x = Dense(d_model)(x)
x = LayerNormalization()(Add()([inputs, x]))
return x
def transformer_decoder(inputs, encoder_outputs, d_model, num_heads, ff_dim):
return decoder_output
input_features = Input(shape=(input_shape))
lstm_out = LSTM(lstm_units)(input_features) # LSTM
pos_encodings = get_positional_encoding(max_seq_length, d_model)
transformer_in = Add()([lstm_out, pos_encodings])
transformer_encoded = transformer_encoder(transformer_in, d_model, num_heads, ff_dim)
decoder_output = transformer_decoder(decoder_input, transformer_encoded, d_model, num_heads, ff_dim)
output_layer = Dense(output_dim, activation='linear')(decoder_output)
model = Model(inputs=input_features, outputs=output_layer)
model.compile(optimizer=Adam(learning_rate), loss='mse')
본 연구에서는 지표수 내 총인 농도 예측을 위한 해석 가능한 CEEMDAN-FE-LSTM-Transformer 하이브리드 모델을 개발하였습니다. 이 모델은 첨단 데이터 전처리 기술과 딥러닝 모델의 융합을 통해 예측 정확도를 획기적으로 향상시켰으며, 명확한 특징 설명을 제공합니다. SHAP를 통해. 실험 결과는 모델의 효율성, 특히 주요 환경 요인의 식별을 확인하여 수역 부영양화 관리 및 오염 제어를 위한 강력한 도구를 제공했습니다.