기술나눔

데이터 평활화(일부)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

       1. 이동 평균

시계열 데이터를 평활화하는 가장 간단한 데이터 평활화 방법입니다. 데이터의 추세를 유지하면서 특정 창 내에서 데이터 포인트의 평균을 계산하여 노이즈를 줄입니다.이동 평균 패키지단순 이동 평균(SMA) 포함또는 색인가중 이동 평균(EMA).

        plt.rcParams['font.sans-serif'] = ['SimHei'],在整篇文章的代码中绘制图的时候加入此句代码,可以解决下图中文字标题显示不出的问题。

     1.1 단순 이동 평균(SMA)

고정된 창 내에서 데이터 포인트의 평균을 계산하여 데이터를 평활화하는 방법입니다. 창 크기에 따라 스무딩 정도가 결정됩니다. 창이 클수록 곡선은 더 부드러워지지만 추세에 대한 반응 속도는 느려지고, 창이 작을수록 데이터 변동에 더 민감해집니다.

​ 위 코드의 이해: 파란색 선 차트는 코드에서 생성된 배열을 나타냅니다. 단순 이동 평균을 계산하는 방법:

창을 변경하면 스무딩 효과와 스무딩 정도가 빨간색으로 변경됩니다. 창 크기가 3일 경우에는 다듬기 힘든 부분이 사라지고 거친 곡선이 매끄러워지는 것을 볼 수 있지만, 창 크기를 계속해서 늘리면 결국 작은 직선이 얻어지는 것을 볼 수 있습니다. 빨간색 곡선은 예측 곡선입니다.

seaborn 및 matplotlib 패키지를 설치할 때 >python -m pip install matplotlib 또는 pip install matplotlib https://pypi.tuna.tsinghua.edu.cn/simple 또는 pin install matplotlib를 사용하여 설치하기가 어렵다는 점에 유의해야 합니다. 터미널에 다음 프롬프트가 나타납니다.

C:UsersHONORAppDataLocalTemppip-unpack-4qkfflipsimple.html 파일을 압축 해제할 수 없습니다(C:UsersHONORAppDataLocalTemppip-req-build-s6_3j05c에서 다운로드, 콘텐츠 유형: text/html). 보관 형식을 감지할 수 없습니다.
오류: C:UsersHONORAppDataLocalTemppip-req-build-s6_3j05c의 아카이브 형식을 결정할 수 없습니다.

성공적으로 설치하려면 다음 명령문을 사용하십시오.

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn matplotlib

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn seaborn

1.2 지수가중이동평균(EWMA)

지수가중이동평균은 데이터 포인트에 지수 가중치를 적용하여 데이터를 평활화하는 방법입니다.그것에최근 데이터 포인트에 더 높은 가중치가 부여됩니다., 그리고오래된 데이터 포인트에는 더 낮은 가중치가 부여됩니다. .이는 EMA를 더욱빠른 변화를 추적하는 데 이상적자료.

지수가중이동평균 코드의 이해: 해당 패키지를 가져와서 해당 배열(즉, 파란색 폴리라인)을 생성하고 평활화 요소를 정의하면 평활화 요소가 작을수록 평활화 효과가 강해집니다. 그 반대. 그렇다면 지수가중이동평균 알고리즘은 무엇일까요?

기간 t의 가중 이동 평균은 기간 t+1의 예측값으로 사용됩니다.

2. 지수 평활화

지수평활법은 추세와 계절성을 고려하여 데이터를 처리하기 위해 일반적으로 사용되는 시계열 데이터 평활화 및 예측 방법입니다. 과거 데이터 포인트에 서로 다른 가중치를 할당하고 최신 데이터에 더 높은 가중치를 할당하여 변화하는 데이터 추세를 포착합니다. 지수평활은 예측을 생성하는 데 자주 사용되며, 특히 미래 시점에 대한 예측이 필요할 때 더욱 그렇습니다.

지수 평활의 주요 기능은 다음과 같습니다.

  1. 가중 평활화 : 지수평활은 지수 가중치를 사용하여 데이터를 평활화합니다. 최신 데이터 포인트는 더 높은 가중치를 받고, 오래된 데이터 포인트는 더 낮은 가중치를 받습니다. 즉, 최신 데이터에 더 민감하므로 데이터의 최신 추세를 더 잘 포착할 수 있습니다.

  2. 세 가지 주요 형태 : 지수평활에는 단순지수평활, 이중지수평활, 삼중지수평활의 세 가지 주요 형태가 있습니다. 각 양식은 다양한 유형의 데이터 및 패턴에 사용됩니다.

    • 단순 지수평활은 추세와 계절성을 고려하여 데이터를 평활화하는 데 사용됩니다.

    • 이중 지수평활은 추세는 있지만 계절성은 없는 데이터를 평활화하는 데 사용됩니다.

    • 삼중 지수평활은 추세와 계절성을 모두 갖춘 데이터를 평활화하는 데 사용됩니다.

  3. 재귀 업데이트: 지수 평활화는 이전에 평활화된 결과를 새로운 데이터 포인트와 결합하여 다음 시점에 대한 평활화된 결과를 생성하는 재귀적 방법입니다.

  4. 예측 능력 : 지수 평활화는 데이터를 평활화하는 데 사용될 뿐만 아니라 미래 시점에 대한 예측을 생성하는 데에도 사용될 수 있습니다. 이는 수요 예측, 주가 예측, 매출 예측 등의 분야에서 유용합니다.

  5. 적용 가능성: 지수평활은 정상 또는 비정상 시계열 데이터에 적합하며 추세, 계절성 및 노이즈를 잘 처리할 수 있습니다.

  6. 사례:

결과 표시:

3. 다항식 피팅

다항식 피팅(Polynomial Fitting)은 데이터의 추세나 패턴을 더 잘 설명하기 위해 다항식 함수를 사용하여 원본 데이터를 근사화하거나 피팅하는 데이터 평활화 및 곡선 피팅 방법입니다. 다항식 피팅의 목표는 주어진 데이터 포인트를 통과하고 해당 포인트에 잘 맞는 다항식 함수를 찾는 것입니다.

다항식 피팅의 일반적인 형태는 다음과 같습니다.

그 중 는 독립변수, 는 종속변수, 는 다항계수이다. 이러한 계수를 조정하면 다항식 함수가 데이터에 더 잘 맞도록 만들 수 있습니다.

다항식 피팅은 다음과 같은 상황에서 자주 사용됩니다.

  1. 데이터 평활화: 다항식 피팅을 사용하면 데이터의 노이즈나 변동을 제거하여 부드러운 곡선을 얻을 수 있습니다.

  2. 유행 분석: 다항식 피팅은 선형 추세(1차 다항식), 2차 추세(2차 다항식) 또는 고차 추세와 같은 데이터의 추세를 식별하는 데 사용할 수 있습니다.

  3. 곡선 피팅: 다항식 피팅을 사용하면 실험 데이터를 피팅하여 이론 모델이나 이론 곡선에 가장 적합한 피팅을 얻을 수 있습니다.

  4. 데이터 보간:다항식 보간(Polynomial Interpolation)은 알려진 데이터 포인트 사이의 다항식을 사용하여 중간 값을 추정하는 다항식 피팅의 특별한 경우입니다.

다항식 피팅의 일반적인 원리는 적절한 다항식 차수를 선택하는 것입니다. 차수가 너무 낮으면 데이터가 잘 맞지 않을 수 있고, 차수가 너무 높으면 새 데이터의 변동에 매우 민감한 과적합이 발생할 수 있습니다. 따라서 적절한 다항식 순서를 선택하는 것이 중요합니다. 삼항식 경우: