Обмен технологиями

Обмен опытом разработки FlinkSQL

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Обмен опытом разработки FlinkSQL

автор:суп с пельменями

Недавно я выполнил несколько требований к разработке данных в режиме реального времени и неизбежно столкнулся с некоторыми проблемами в процессе использования Flink, такими как противодавление, вызванное неравномерностью данных, соединение интервалов, сбой уровня воды, вызванный открытием окна и т. д., в результате размышлений. и решение Эти вопросы углубили мое понимание принципов и механизмов Flink, поэтому я делюсь своим опытом разработки в надежде, что они помогут нуждающимся учащимся.

Ниже будут представлены три случая. Каждый случай будет разделен на три части: предыстория, анализ причин и решение.

1. Случай 1: перекос данных

Асимметрия данных встречается как в автономном режиме, так и в режиме реального времени, и ее определение следующее:При параллельной обработке данных данные, разделенные по определенным ключам, значительно превосходят другие части и распределяются неравномерно, в результате чего большой объем данных концентрируется на одном или нескольких вычислительных узлах, что делает скорость обработки этой части значительно ниже, чем у Средняя скорость вычислений становится узким местом обработки всего набора данных, что влияет на общую производительность вычислений. . Существует множество причин неравномерности данных, таких как неравномерное распределение ключей во время группировки, слишком много нулевых значений, количество уникальных значений и т. д. В этой статье будет представлена ​​только ситуация группировки по количеству различных.

1.1