私の連絡先情報
郵便メール:
2024-07-08
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
著者:小籠包
最近、いくつかのリアルタイム データ開発要件を実行しましたが、Flink を使用するプロセスで必然的にいくつかの問題に遭遇しました。データ スキューによるバック プレッシャー、インターバル結合、ウィンドウのオープンによる水位の障害などです。これらの質問を解決することで、Flink の原理とメカニズムについての理解が深まったため、困っている学生を助けることができることを願って、これらの開発経験を共有します。
以下に 3 つの事例を、背景、原因分析、解決策の 3 つのパートに分けて紹介します。
データ スキューはオフラインでもリアルタイムでも発生します。その定義は次のとおりです。データ処理を並列的に行う場合、特定のキーで分割されたデータが他の部分を大幅に超えて偏在するため、1つまたは複数の計算ノードに大量のデータが集中し、この部分の処理速度が従来の計算ノードよりも大幅に遅くなります。計算速度はデータセット全体の処理のボトルネックとなり、全体的な計算パフォーマンスに影響を与えます。 。データ スキューの原因は、group by 中のキー分散の不均一、null 値の多さ、個別のカウントなど、さまざまです。この記事では、group by count unique の状況のみを紹介します。