Compartir tecnología

Intercambio de experiencias de desarrollo de FlinkSQL

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Intercambio de experiencias de desarrollo de FlinkSQL

autor:albóndigas de sopa

Recientemente, cumplí con varios requisitos de desarrollo de datos en tiempo real e inevitablemente encontré algunos problemas en el proceso de uso de Flink, como contrapresión causada por datos sesgados, unión de intervalos, falla del nivel del agua causada por la apertura de ventanas, etc., al pensar. y resolver Estas preguntas han profundizado mi comprensión de los principios y mecanismos de Flink, por lo que comparto estas experiencias de desarrollo con la esperanza de que puedan ayudar a los estudiantes necesitados.

A continuación se presentarán tres casos. Cada caso se dividirá en tres partes: antecedentes, análisis de causa y solución.

1. Caso 1: datos sesgados

La asimetría de datos se encuentra tanto fuera de línea como en tiempo real, y su definición es:Cuando se realiza el procesamiento de datos en paralelo, los datos divididos según ciertas claves exceden significativamente otras partes y se distribuyen de manera desigual, lo que da como resultado que una gran cantidad de datos se concentre en uno o varios nodos informáticos, lo que hace que la velocidad de procesamiento de esta parte sea mucho menor que la promedio, la velocidad informática se convierte en el cuello de botella de todo el procesamiento del conjunto de datos, lo que afecta el rendimiento informático general. . Hay muchas razones para la distorsión de los datos, como la distribución desigual de claves durante el grupo por, demasiados valores nulos, recuentos distintos, etc. Este artículo solo presentará la situación del grupo por recuento distinto.

1.1