기술나눔

FlinkSQL 개발 경험 공유

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

FlinkSQL 개발 경험 공유

작가:수프 만두

최근 여러 가지 실시간 데이터 개발 요구 사항을 수행했는데 Flink를 사용하는 과정에서 데이터 왜곡으로 인한 역압, 간격 조인, 창 열림으로 인한 수위 오류 등의 몇 가지 문제에 필연적으로 직면하게 되었습니다. 이러한 질문을 해결하면서 Flink의 원리와 메커니즘에 대한 이해가 깊어졌고, 도움이 필요한 학생들에게 도움이 될 수 있기를 바라며 이러한 개발 경험을 공유합니다.

아래에서는 세 가지 사례를 소개하겠습니다. 각 사례를 배경, 원인 분석, 해결 방법의 세 부분으로 나누어 설명하겠습니다.

1. 사례 1: 데이터 왜곡

데이터 왜곡은 오프라인과 실시간 모두에서 발생하며 그 정의는 다음과 같습니다.데이터를 병렬로 처리할 경우, 특정 키에 따라 나누어진 데이터가 다른 부분을 크게 초과하고 불균일하게 분산되어 하나 또는 여러 개의 컴퓨팅 노드에 많은 양의 데이터가 집중되어 이 부분의 처리 속도가 기존 컴퓨팅 노드에 비해 훨씬 느려지게 됩니다. 평균 컴퓨팅 속도는 전체 데이터 세트 처리의 병목 현상이 되어 전체 컴퓨팅 성능에 영향을 미칩니다. . 데이터 왜곡에는 그룹별 키 분포가 고르지 않거나, Null 값이 너무 많거나, 고유 개수가 다른 경우 등 여러 가지 이유가 있습니다. 이 문서에서는 그룹별 개수 고유의 상황만 소개합니다.

1.1