informasi kontak saya
Surat[email protected]
2024-07-08
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
pengarang:pangsit sup
Baru-baru ini, saya telah melakukan beberapa persyaratan pengembangan data waktu nyata, dan mau tidak mau menemui beberapa masalah dalam proses penggunaan Flink, seperti tekanan balik yang disebabkan oleh kemiringan data, penggabungan interval, kegagalan ketinggian air yang disebabkan oleh pembukaan jendela, dll., melalui pemikiran dan penyelesaian Pertanyaan-pertanyaan ini telah memperdalam pemahaman saya tentang prinsip dan mekanisme Flink, jadi saya berbagi pengalaman pengembangan ini dengan harapan dapat membantu siswa yang membutuhkan.
Tiga kasus akan diperkenalkan di bawah ini. Setiap kasus akan dibagi menjadi tiga bagian: latar belakang, analisis penyebab, dan solusi.
Kemiringan data terjadi baik secara offline maupun real-time, dan definisinya adalah:Saat melakukan pemrosesan data secara paralel, data yang dibagi menurut kunci tertentu secara signifikan melebihi bagian lain dan terdistribusi secara tidak merata, mengakibatkan sejumlah besar data terkonsentrasi pada satu atau beberapa node komputasi, membuat kecepatan pemrosesan bagian ini jauh lebih rendah daripada kecepatan pemrosesan data. rata-rata. Kecepatan komputasi menjadi penghambat seluruh pemrosesan kumpulan data, sehingga memengaruhi kinerja komputasi secara keseluruhan. . Ada banyak alasan untuk data yang miring, seperti distribusi kunci yang tidak merata selama pengelompokan berdasarkan, terlalu banyak nilai nol, jumlah yang berbeda, dll. Artikel ini hanya akan memperkenalkan situasi pengelompokan berdasarkan jumlah yang berbeda.