Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 12, pp.3497-3505
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Dec 2025
Received 11 Oct 2025 Revised 10 Nov 2025 Accepted 24 Nov 2025
DOI: https://doi.org/10.9728/dcs.2025.26.12.3497

다중 계절성 전력 부하 예측을 위한 하이브리드 MSTL-SARIMAX 모델의 성능 분석

권기현1 ; 이형봉2, *
1강원대학교 전자AI시스템공학과 교수
2강릉원주대학교 컴퓨터공학과 교수
Performance Analysis of a Hybrid MSTL-SARIMAX Model for Multiple Seasonality Power Load Forecasting
Kihyeon Kwon1 ; Hyung-Bong Lee2, *
1Professor, Department of Electronic and AI System Engineering, Kangwon National University, Samcheok 25913, Korea
2Professor, Department of Computer Science & Engineering, Gangneung-Wonju National University, Wonju 25457, Korea

Correspondence to: *Hyung-Bong Lee Tel: +82-33-760-8668 E-mail: hblee@gwnu.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

대학 건물의 전력 부하 데이터는 학사일정과 계절 변화로 인해 복잡한 주간 및 연간 계절성을 동시에 포함하여 정확한 예측이 어렵다. 본 연구는 이러한 다중계절성 패턴을 효과적으로 분해하고 해석 가능한 예측을 수행하기 위해, MSTL과 SARIMAX를 결합한 하이브리드 모델을 제안한다. 제안 모델은 MSTL을 사용하여 전력 부하 시계열을 추세-잔차, 주간 계절성, 연간 계절성으로 분해하고, 분해된 다중 계절 성분들을 외생 변수로 활용하여 SARIMAX 모델이 비계절성 요소를 학습하도록 구성했다. 실제 대학 건물 데이터를 이용한 실험 결과, 제안 모델은 표준 SARIMAX 및 통계적 다중계절성 모델(Fourier-ARIMA)보다 우수한 예측 성능을 보였다. 또한, 하이퍼파라미터 최적화를 거친 머신러닝 모델(XGBoost, LightGBM)이 가장 높은 예측 정확도를 기록했으나, 제안 모델은 각 시계열 구성 요소를 분해하여 예측의 근거를 설명할 수 있다는 해석 가능성 측면에서 뚜렷한 강점을 가짐을 확인하였다. 이는 예측의 정확성뿐만 아니라 원인 분석이 중요한 실무 환경에서 제안 모델의 높은 활용 가치가 있다.

Abstract

Predicting power loads in university buildings is challenging due to the complex weekly and annual seasonality driven by academic calendars and seasonal shifts. In this study, we develop hybrid Multiple Seasonal-Trend decomposition using locally estimated scatterplot smoothing (LOESS) and Seasonal Autoregressive Integrated Moving Average with eXogenous variables (MSTL-SARIMAX) model for effective decomposition and interpretable forecasting. The model uses MSTL to separate the time series into trend-residual and seasonal components, which then serve as exogenous variables for the SARIMAX model in predicting the non-seasonal elements. Using actual university data, the proposed model outperformed standard SARIMAX and Fourier–ARIMA models. Although hyperparameter-tuned machine learning models, such as eXtreme Gradient Boosting (XGBoost) and Light Gradient-Boosting Machine (LightGBM), achieved the highest accuracy, our hybrid model offers a distinct advantage in terms of interpretability. By decomposing each component, it explains the basis of its predictions, making it highly valuable when causal analysis is as crucial as accuracy.

Keywords:

Power Load Forecasting, Time-Series Analysis, Hybrid Model, MSTL, SARIMAX

키워드:

전력 부하 예측, 시계열 분석, 하이브리드 모델, 다중 계절-추세 분해, 계절 자기회귀 누적 이동평균

Ⅰ. 서 론

안정적인 에너지 시스템 운영과 경제성 확보를 위해 정확한 전력 부하 예측은 필수적인 요소로 자리 잡았다. 이러한 예측의 정확성은 에너지 저장 장치의 최적 운영과 스마트 그리드의 효율적 관리에 직접적인 영향을 미치기 때문에, 지난 수십 년간 다양한 예측 방법론이 발전해 왔다. 연구의 흐름은 전통적인 통계 모델에서 시작하여, 기계학습 모델을 거쳐, 최근에는 두 가지를 결합한 하이브리드 모델로 진화하고 있다[1],[2].

초기 연구는 주로 Box-Jenkins 방법론에 기반한 ARIMA(Autoregressive Integrated Moving Average) 모델과 계절성을 반영할 수 있도록 확장된 SARIMA(Seasonal ARIMA) 모델에 집중되었다. SARIMA 모델은 단일 계절성 형태를 보이는 시계열 데이터에 대해 강력한 예측 성능을 제공하며, 여기에 온도나 공휴일 같은 외부 요인을 외생변수(exogenous variables)로 추가한 SARIMAX 모델은 예측 정확도를 한층 더 개선할 수 있음을 보여주었다. 이러한 통계 모델들은 모델의 구조가 명확하고 결과에 대한 해석이 직관적이라는 큰 장점을 가지고 있어, 현재까지도 전력 시스템의 단기 및 중기 수요 예측에 널리 활용되고 있다[3],[4].

그러나 대학 캠퍼스, 대형 상업 시설, 또는 산업 단지의 전력 부하는 주(week) 단위의 근무 및 생활 패턴과 연(year) 단위의 냉난방 패턴이 복합적으로 중첩된 다중 계절성(multi-seasonality)을 보이는 경우가 많다. 표준 SARIMAX 모델은 하나의 주요 계절성 주기(m)만을 다루도록 설계되었기 때문에, 이처럼 여러 주기가 혼재된 데이터를 직접 모델링하는 데 명백한 한계를 가진다. 이러한 한계로 인해, 비선형적 관계를 더 잘 포착할 수 있는 인공지능(AI) 및 머신러닝(ML) 모델에 관한 연구가 활발히 진행되었다[5],[6].

이 문제를 해결하기 위한 또 다른 접근법으로 시계열을 여러 구성 요소로 분해하는 기법이 주목받고 있다. 시계열 분해는 데이터를 추세(trend), 계절성(seasonality), 그리고 잔차(residual)로 분리하여 각 요소의 특성을 개별적으로 분석하는 방법이다. Loess(Locally Estimated Scatterplot Smoothing)를 사용하는 STL(Seasonal-Trend decomposition using Loess)은 비선형적인 추세를 잘 포착하고 이상치에 강건하여 널리 사용되었으며, 실제로 STL을 통해 전처리 된 데이터를 예측 모델에 사용했을 때 정확도가 향상됨이 입증되었다. 하지만 STL 역시 단일 계절성 분해만을 지원한다는 근본적인 한계가 있었다[7].

이러한 STL의 한계를 극복하기 위해 Hyndman 등에 의해 제안된 MSTL(Multiple Seasonal-Trend decomposition using Loess)은 다중계절성을 명시적으로 다룰 수 있는 진보된 분해 기법이다. MSTL은 서로 다른 주기를 갖는 여러 계절성 요소를 동시에 추출할 수 있어, 일별, 주별, 연별 패턴이 모두 존재하는 복잡한 시계열 분석에 매우 효과적이다. 최근 연구들은 MSTL을 전처리 단계로 활용하여 시계열을 분해한 뒤, 잔차와 같은 비선형적 요소를 LSTM(Long Short-Term Memory)과 같은 딥러닝 모델로 예측하는 하이브리드 접근법을 시도하고 있다[8].

또한, SARIMAX의 선형적 예측 능력과 신경망의 비선형 모델링 능력을 결합하려는 연구도 활발하다. 대표적인 연구로 SARIMAX로 시계열의 선형적 부분을 예측한 뒤, 그 예측 오차(잔차)를 LSTM이나 ANN(Artificial Neural Network)으로 학습시켜 최종 예측값을 보정하는 SARIMAX-LSTM, SARIMAX-ANN 하이브리드 모델이 제안되었다. 이러한 모델들은 단일 모델보다 우수한 성능을 보였지만, 모델 구조가 복잡해지고 여전히 초기 SARIMAX 모델이 다중계절성을 온전히 처리하지 못하는 문제를 근본적으로 해결하지는 못했다[9],[10].

기존의 연구가 표준 SARIMAX의 한계를 지적하며 복잡한 딥러닝 모델로 전환하거나, 선형 모델의 잔차를 비선형 모델로 보정하는 방식에 집중해 왔다. 그러나 본 연구에서는 문제의 핵심인 '다중계절성' 자체를 MSTL을 통해 정교하게 분리하고, 분리된 다중계절성 요소들을 해석 가능한 통계 모델인 SARIMAX의 '외생변수'로 직접 활용하는 새로운 하이브리드 구조를 제안한다. 이 접근법은 SARIMAX 모델이 복잡한 계절성 패턴 대신 상대적으로 예측이 용이한 비계절성 요소(추세+잔차)에만 집중하도록 하여 모델의 부담을 줄여준다. 이를 통해 모델의 해석 가능성을 유지하면서도 다중계절성 데이터에 대한 예측 정확도를 획기적으로 향상시킬 수 있다. 본 연구는 이러한 MSTL-SARIMAX 결합 모델의 유효성을 실제 대학 건물 전력 부하 데이터에 적용하여 실증적으로 검증하고자 한다.

본 논문의 구성은 다음과 같다. 서론에 이어 2장에서는 다중계절성 시계열의 한계를 극복하기 위한 하이브리드 MSTL-SARIMAX 모델을 제안하고, 그 구조와 방법론을 수식과 함께 상세히 설명한다. 3장에서는 실제 대학 건물 데이터를 이용한 실험 환경, 성능 평가 지표, 그리고 비교모델(Baseline SARIMAX, LightGBM, XGBoost, Fourier-ARIMA)의 설정을 기술하고, 제안 모델의 예측 성능을 정량적·시각적으로 비교 분석하여 우수성을 입증한다. 마지막으로 4장에서는 본 연구의 결과를 종합하고 그 의의를 논하며 결론을 맺는다.


Ⅱ. 다중계절성을 고려한 예측 모델 제안

2-1 전체 모델 구조

본 연구에서는 다중계절성을 갖는 건물 전력 부하 시계열 데이터의 예측 정확도를 높이기 위해 MSTL 분해와 SARIMAX 모델을 결합한 하이브리드 예측 구조를 제안한다.

제안하는 MSTL-SARIMAX 모델의 전체 파이프라인은 그림 1과 같다.

Fig. 1.

MSTL-SARIMAX model pipeline

원본 시계열 Yt를 MSTL로 분해하여 추세(Trend), 여러 계절성(Seasonality), 잔차(Residual)로 분리하고, 분리된 계절성 요소들을 SARIMAX 모델의 외생변수(Exogenous variables)로 활용한다. 그리고 SARIMAX 모델은 추세와 잔차의 합(비계절성 요소)을 내생 변수(Endogenous variable)로 예측한다. 최종 예측값은 SARIMAX의 예측 결과에 계절성 요소를 다시 합산하여 산출한다.

표 1은 원본 시계열 데이터가 MSTL을 통해 다중계절성 성분으로 분해되고, SARIMAX 모델이 비계절성 성분을 예측하며, 최종적으로 계절성 성분과 합산하여 예측값을 산출하는 과정을 단계별로 정리하였다.

Overall model structure

2-2 MSTL을 이용한 시계열 분해

MSTL은 서로 다른 주기를 갖는 복수의 계절성 패턴을 동시에 분해할 수 있다. 본 연구에서는 주간(7일)과 연간(365일) 계절성을 고려한다. MSTL 분해는 다음과 같이 표현된다.

Yt=Tt+St,7+St,365+Rt(1) 
Yt : 시계열의 원본값 (예: 일별 전력 부하)
Tt : 추세(Trend) 성분
St,7 : 주간(7일) 계절성 성분
St,365 : 연간(365일) 계절성 성분
Rt : 잔차(Residual) 성분

MSTL 알고리즘은 Loess 스무딩을 반복적으로 적용하여 각 계절성 주기별 성분을 추출한다. 분해 결과, 각 성분은 다음과 같이 활용된다.

• 내생 변수(Endogenous) : Tt + Rt
• 외생변수(Exogenous) : Xt = [St,7, St,365]

데이터 누수를 방지하기 위해 MSTL 분해는 훈련 구간에 한해 수행하였다. 테스트 구간의 계절 성분은 훈련 구간에서 추출된 주간/연간 계절 성분을 Seasonal Naive 방식으로 동일 위상에 대응시켜 외생변수로 연장 적용하였으며, 테스트 구간 정보는 분해 과정에 포함하지 않았다.

2-3 MSTL-SARIMAX 모델링

분해된 시계열 성분을 활용하여 SARIMAX 모델을 구성한다. SARIMAX의 일반적 수식은 다음과 같다.

Yt=c+ϕ1Yt-1++ϕpYt-p+θ1ϵt-1++θqϵt-q+βXt+ϵt(2) 

여기서 외생변수 Xt는 MSTL로 추출한 계절 성분으로 정의하며, ϕθ는 AR, MA 계수, ϵt는 오차항이다.

본 연구의 MSTL-SARIMAX 모델에서는 다음과 같이 적용한다.

• 내생 변수(endogt) : Tt + Rt
• 외생변수(exogt) : Xt = [St,7, St,365]

SARIMAX 모델을 통해 endogt를 예측한 후, 최종 예측값 Yt는 다음과 같이 계산한다.

Y^t=endog^t+St,7+St,365(3) 

즉, SARIMAX가 예측한 비계절성 성분에 MSTL로 분리된 계절성 성분을 다시 합산하여 최종 예측값을 산출한다. 이 방식은 복잡한 다중계절성 패턴을 명시적으로 분리하여 모델의 해석 가능성과 예측 정확도를 동시에 높일 수 있다.


Ⅲ. 실험 및 결과 분석

3-1 실험 데이터 및 환경

실험은 강원권 소재 K 대학 본부 건물의 실제 일별 전력 부하 데이터를 활용하여 수행하였다. 데이터는 2019년 6월부터 2023년 7월까지 약 4년간 연속적으로 수집되었으며, 결측치는 Python의 시계열 기반 선형 보간법을 적용해(예: interpolate(method='time')) 정제했다. 다만, 데이터 수집 기간에는 코로나19로 인한 비대면 수업 등 일반적이지 않은 패턴이 포함되어 있으며, 이에 대한 분석은 본 연구의 한계로 남겨둔다. 실험은 Python 환경(주요 패키지: Pandas, statsmodels, LightGBM, XGBoost, Fourier-ARIMA)에서 이루어졌고, 전체 시계열의 마지막 180일을 테스트세트로 분리하여 예측 성능을 평가하였다. 표 2에는 본 연구에서 사용한 컴퓨팅 환경과 주요 라이브러리 버전을 정리하였다.

Computing environment and software versions

그림 2의 MSTL 분해 도표는 'University HQ' 건물 부하 시계열 데이터를 각각 전처리한 시계열, 추세, 주간 및 연간 계절성, 잔차 성분으로 정교하게 분해한 결과를 보여준다.

Fig. 2.

MSTL Decomposition of Power Load Time Series

Fig. 3.

Low-load Markers - University HQ

본 데이터세트의 결측 비율은 건물별로 약 3.23% 수준이며, 대학 본부 기준 missing_ratio는 0.032로 집계되었다. 대학 본부의 경우 코로나19 기간에도 필수 인력 상주로 완전 저부하 구간의 비중이 낮아 상대적으로 영향이 크지 않은 것으로 판단된다. 본 실험은 단일 건물(대학 본부) 사례에 근거하므로 결과의 일반화에는 주의가 필요하며, 다양한 건물 유형과 시설군을 대상으로 한 추가 검증이 요구된다.

3-2 성능 지표

모델의 예측 성능을 객관적으로 평가하기 위해 MAE(Mean Absolute Error)와 RMSE(Root Mean Square Error)를 사용하였다. 또한, 기존 MAPE(Mean Absolute Percentage Error)는 실제 부하가 0에 가까운 방학/공휴일 구간에서 값이 왜곡되는 현상이 발견되어, 이를 대체하기 위해 데이터 스케일에 독립적인 MASE(Mean Absolute Scaled Error)를 추가 지표로 도입하였다. MASE는 계절성을 고려한 Naive 예측 모델의 오차로 현재 모델의 오차를 스케일링한 값으로, 1보다 작으면 Naive 모델보다 우수함을 의미한다.

1) MAE (Mean Absolute Error)
MAE=1ni=1nyi-yi^(4) 

MAE(Mean Absolute Error)는 예측값과 실제값의 절대 오차의 평균으로, 각 예측이 실제 부하와 얼마만큼 차이가 나는지를 직관적으로 소수점 단위까지 파악할 수 있다. 단위가 실제 부하 데이터(kWh 등)와 동일하므로 실무적 현장감 있는 오차 수준을 보여준다.

2) RMSE (Root Mean Square Error)
RMSE=1ni=1nyi-yi^2(5) 

RMSE(Root Mean Square Error)는 오차의 제곱 평균값에 다시 제곱근을 씌워, 큰 오차에 더 민감하게 반응한다. MAE에 비해 이상치에 더 취약하며, 복합적 오차 상황에서 모델의 '평균적 기대 오차'를 실제 단위로 이해할 수 있다.

3) MASE (Mean Absolute Scaled Error)
MASE=1nt=1nyt-y^t1n-1t=2nyt-yt-1(6) 

MASE는 예측값과 실제값의 절대 오차를 단순 무작위 보행(Naive) 예측 오차의 평균으로 나눈 값이다. 이 지표는 MAPE (Mean Absolute Percentage Error)와 달리 분모가 0이 되는 상황(실제 부하가 0 또는 0에 가까울 때)에서 발생하는 통계적 왜곡을 방지한다. MASE 값이 1보다 작으면 제안 모델이 단순 예측 모델보다 우수함을 의미하며, 데이터의 절대 크기나 단위에 구애받지 않아 다양한 시계열 모델의 성능을 공정하고 직관적으로 비교하는 데 유리하다.

따라서 MAE는 오류의 절대 크기를, RMSE는 평균적인 오류의 분산까지, MASE는 오류의 상대적 크기를 나타내어, 각각 모델의 실제 적용성과 데이터 분포에 따른 신뢰도를 다층적으로 확인할 수 있다. 여러 지표를 동시 사용함으로써, 제안 모델이 실제 건물 부하 환경에서 타 모델 대비 현저히 뛰어난 예측 성능을 보인다는 점을 수치적으로 명확히 증명한다.

3-3 비교모델 설정

다양한 모델의 특성과 장단점을 고려하여 네 가지 대표적 예측 모델을 선정, 동일 데이터세트와 평가 기준 아래에 성능을 비교하였다. 각 모델을 선택한 이유와 비교 우위, 그리고 최적의 모수 탐색 과정을 아래와 같이 상세히 설명한다.

1) Baseline SARIMAX

Baseline SARIMAX 모델은 자기회귀(AR), 차분(I), 이동평균(MA) 요소와 함께 단일 계절성(Seasonal)까지 통합적으로 반영할 수 있는 전통적인 시계열 예측 모델이다. SARIMAX는 데이터의 선형성과 단일 계절성이 뚜렷할 때 모델의 해석력과 신뢰성이 높다는 강점을 가진다. 본 연구에서는 단일 계절성 모델인 SARIMAX의 예측 성능을 확인하기 위해, auto_arima의 stepwise search를 통해 최적의 모수를 자동 탐색하였다. 이 과정은 AIC (Akaike Information Criterion) 최소화를 기준으로 일반 부분의 차수 (p,d,q)와 주간 계절성 주기(m=7)를 가정한 계절 부분의 차수 (P,D,Q) 등 다양한 파라미터 조합을 반복적으로 평가한다. 하지만 표준 SARIMAX 모델은 하나의 주요 계절성 주기(m)만을 다루도록 설계되었기 때문에, 대학 건물의 전력 부하와 같이 주간 및 연간 계절성이 복합적으로 중첩된 다중계절성이나 비선형 패턴을 직접 모델링하는 데는 한계가 있다.

2) LightGBM

LightGBM은 Gradient Boosting 기반의 트리 앙상블 모델로, 날짜 정보(연, 월, 일, 요일 등)를 피처(Feature)로 활용하여 시계열의 계절성, 트렌드, 그리고 복잡한 비선형적 상호작용까지 자동으로 학습할 수 있는 대표적인 머신러닝 기법이다. LightGBM은 leaf-wise 트리 분할, GOSS (Gradient-based One-Side Sampling) 등의 최적화 기법을 통해 XGBoost와 같은 기존 부스팅 모델 대비 빠른 학습 속도와 높은 예측력을 제공하며, 특히 대규모 데이터 처리 및 예측에 효율적이다. 이들 머신러닝 모델은 과적합을 방지하고 일반화 성능을 높이기 위해 TimeSeriesSplit을 이용한 시계열 교차검증과 GridSearchCV를 통해 주요 하이퍼파라미터(n_estimators, learning_rate, max_depth 등)를 최적화하여 공정한 비교를 수행하였다. 다만, LightGBM은 데이터에 내재된 복합 계절성 구조를 명시적으로 분해하지 않고 오직 피처 엔지니어링에 의존하여 학습하므로, 예측 결과의 해석 가능성 측면에서는 MSTL-SARIMAX와 같은 하이브리드 통계 모델보다 제한적이라는 한계가 있다.

3) XGBoost

XGBoost는 Gradient Boosting 기반의 트리 계열을 대표하는 모델로, LightGBM과 더불어 날짜 정보를 피처(Feature)로 활용하는 주요 머신러닝 기법이다. XGBoost는 병렬 처리, 정교한 가지치기, L1/L2 정규화 등 다양한 최적화 기법이 내장되어 있어 안정적이고 높은 예측 성능을 보인다. LightGBM과 유사하게 날짜형 피처(연, 월, 요일 등), Lag/Rolling 피처 등 다양한 입력을 활용할 수 있으며, 특히 대규모 데이터와 결측치, 이상치에 강건하다는 특징을 갖는다. 이들 모델은 과적합 방지와 공정한 비교를 위해 TimeSeriesSplit을 이용한 시계열 교차검증과 GridSearchCV를 통해 주요 하이퍼파라미터(n_estimators, learning_rate, max_depth 등)를 최적화하여 탐색하였다. 학습 속도는 LightGBM에 비해 다소 느릴 수 있지만, 높은 예측 안정성을 제공한다. 하지만 SARIMAX나 MSTL-SARIMAX와 달리 시계열의 계절성을 명시적으로 분해하지 않고 오직 피처에 의존하여 학습한다는 점에서 복합 계절성 구조에 대한 해석력은 제한적이라는 한계가 있다.

4) Fourier-ARIMA

Fourier-ARIMA는 통계적 시계열 모델인 ARIMA/SARIMAX의 예측 프레임워크에 푸리에 급수(Fourier Series)를 외생변수(Xt)로 결합하여 다중계절성을 간접적으로 모델링하는 기법이다. 푸리에 급수는 계절 주기를 갖는 시계열을 사인(sine) 및 코사인(cosine) 함수 항들의 합으로 근사하며, 이를 통해 여러 개의 계절 주파수를 동시에 표현할 수 있다. 이 모델은 MSTL과 같은 분해 기법을 사용하지 않고도, 다양한 계절 주기를 외생변수 형태로 SARIMAX에 통합하여 다중계절성 문제에 대응할 수 있다. 계절성의 복잡도가 증가함에 따라 필요한 푸리에 급수의 차수(Order)를 AIC (Akaike Information Criterion)를 최소화하는 방향으로 탐색하여 최적화한다. Fourier-ARIMA는 순수 SARIMAX의 한계를 보완하면서도 통계 모델의 해석 가능성을 유지하는 장점이 있으나, 실제 시계열의 복잡한 비선형적 패턴이나 트렌드 변화에 MSTL-SARIMAX 모델보다 유연성이 떨어질 수 있다. 본 연구에서는 주간 및 연간 계절성을 반영하기 위해 각각의 푸리에 급수 항을 생성하여 ARIMA 모델에 외생변수로 활용하였다.

5) MSTL-SARIMAX(제안 모델)

MSTL-SARIMAX는 본 연구의 핵심 하이브리드 모델로, MSTL을 사용하여 원본 시계열을 추세, 다중계절성 (주간, 연간), 잔차 성분으로 정밀하게 분해한다. 이후, MSTL로 분리된 계절성 성분들은 SARIMAX 모델의 외생변수(Xt)로 활용되며, SARIMAX는 비계절성 요소(추세 + 잔차) 만 예측하도록 구성되어 복잡한 다중계절성 구조의 학습 부담을 낮춘다. SARIMAX 부분의 모수는 AIC/BIC 기반 그리드 서치 또는 자동 탐색을 통해 최적화된다. 이 방식은 복합 계절성을 명시적으로 분리하고 활용함으로써, Baseline SARIMAX 모델의 다중계절성 취약점을 보완할 수 있다. 또한, MSTL-SARIMAX는 통계 모델의 해석 가능성과 통계적 안정성을 유지하면서, Fourier-ARIMA와 같은 다른 통계적 다중계절성 모델 대비 더 나은 예측 성능을 기대할 수 있다. LightGBM이나 XGBoost와 같은 머신러닝 모델이 피처 엔지니어링에만 의존하여 얻는 높은 예측 정확도에는 미치지 못할 가능성이 있지만, 계절성 성분을 분해하여 예측의 근거를 설명할 수 있다는 해석 가능성 측면에서는 뚜렷한 강점을 가진다. 모든 모델은 동일한 데이터세트, 동일한 평가지표(MAE, RMSE, MASE)로 공정하게 비교되었으며, 각 모델의 하이퍼파라미터는 그리드 서치 또는 내장 자동 탐색(stepwise search)으로 최적화하였다. 이러한 비교를 통해, 제안 모델이 실제 복합 계절성 시계열 예측 환경에서 기존 방법론 대비 어떤 성능적 우위와 해석 가능성의 이점을 제공하는지 실증적으로 확인한다.

3-4 실험 결과 및 분석

다음은 테스트세트 예측 성능과 실제값-예측값 시각화 결과에 대한 주요 분석이다.

1) 정량적 성능 비교

본 연구에서는 MAE, RMSE, MASE와 같은 정량적 평가지표를 각각 측정하여, 모든 모델이 동일한 데이터세트, 동일한 평가에 어떤 예측력을 보이는지 수치적으로 비교하였다.

실험 결과, 예측 정확도(MAE, RMSE, MASE) 측면에서는 하이퍼파라미터 최적화를 거친 XGBoost와 LightGBM 모델이 가장 우수한 성능을 보였다. 이는 복잡한 비선형 패턴과 시간적 특징(날짜 피처) 간의 상호작용을 학습하는 데 트리 기반 앙상블 모델이 강점을 가짐을 보여준다.

하지만 본 연구에서 제안한 MSTL-SARIMAX 모델은 통계 기반 모델 군 내에서 가장 뛰어난 성능을 기록했다. 표준 SARIMAX와 다른 다중계절성 모델인 Fourier-ARIMA보다 모든 지표에서 우수함을 확인하였으며, 이는 MSTL을 통한 명시적 계절성 분해 방식이 복잡한 다중계절성 시계열을 다루는 데 매우 효과적인 접근법임을 시사한다.

MSTL-SARIMAX 모델은 전체 모델 중에서도 높은 순위를 차지하며, 단순 통계 모델 대비 현저히 개선된 예측력을 보였다.

Quantitative performance comparison table

2) 시각적 결과 해석

그림 4는 각 모델이 테스트세트 기간 동안 실제 전력 부하 데이터를 얼마나 잘 예측하는지를 시각적으로 보여준다. 이 도표에서 점선은 예측값을, 실선은 실제 부하값을 나타내며, 예측 곡선의 민감도와 모형별 상대 예측력을 직관적으로 비교할 수 있다.

Fig. 4.

Forecast comparison: Proposed model vs. alternative models

시각적 분석 결과, XGBoost와 LightGBM의 예측 곡선이 복잡한 일일 및 주간 변동을 가장 세밀하게 추종하며 실제 부하 변동에 가장 근접했다. 이는 앞선 정량적 평가에서 이들 머신러닝 모델이 가장 낮은 오차를 기록한 결과와 일치한다.

제안 모델인 MSTL-SARIMAX의 예측 곡선 역시 Fourier-ARIMA나 Baseline SARIMAX에 비해 실제 패턴을 훨씬 더 잘 추종하는 모습을 보였다. 특히 MSTL을 통해 분리된 주간 및 연간 계절성 성분이 SARIMAX 예측에 정확히 더해짐으로써, 복잡한 실환경 변동성에도 강인한 성능을 보이며 실제 부하 변동 패턴을 안정적으로 재현하였다.

이러한 정량적 평가(수치적 우위)와 시각적 평가(패턴 적합성)의 상호보완적 검증을 통해, MSTL-SARIMAX 모델이 현장 도입 시 신뢰할 수 있는 예측 도구로서의 활용 가치를 입증한다.

3-5 잔차 분석

제안 모델의 통계적 적절성을 검증하기 위해 잔차 분석을 수행하였다. 시차 기준 Ljung-Box 검정 결과, 통계량 lb_stat=11.728, lb_pvalue=0.304로 유의수준 0.05에서 귀무가설(잔차의 독립성) 을 기각하지 못하였으며, 이는 잔차에 유의한 자기상관이 존재하지 않음을 시사한다(그림 5). 또한 시각적 잔차 플롯에서 뚜렷한 구조적 패턴이나 분산 비정상성 징후가 관찰되지 않아 모델이 데이터의 패턴을 충분히 학습했음을 뒷받침한다.

Fig. 5.

Residuals of MSTL-SARIMAX model

3-6 실시간/온라인 적용성

실험은 데스크톱 환경에서 수행되었으며, CPU·메모리·저장장치 등 사양은 실험 재현을 위해 별도로 명시하였다(표 2). 단계별 지연은 스크립트 내 타이머로 계측하여 총합과 모델별 지연을 산출하였다(표 4). 계측 결과, MSTL-SARIMAX 파이프라인의 핵심 단계에 한정하면 MSTL 분해 0.641s, MSTL-SARIMAX 자동모형선정/학습/예측 12.841/1.362/0.007s이며, 전체 파이프라인 총합은 175.789s이고 MSTL-SARIMAX 처리 시간은 약 14.852s로, 5분(300s) 주기 기준 대비 충분한 여유를 확인하였다. 따라서 제안 파이프라인의 핵심 경로 기준으로 볼 때 5분 분해능 실시간·온라인 운영 주기에서의 적용 가능성이 높다고 판단된다. 다만, 운영 환경의 외부 데이터 취득 지연, 동시 다채널 예측, 로깅/시각화 I/O 등 시스템 요인에 따라 총지연이 증가할 수 있어, 실제 배포 환경에서의 엔드투엔드 지연 측정 및 부하 시험을 추가로 시행할 예정이다.

Per-step latency summary (5-min SLA)


Ⅳ. 결 론

본 연구는 대학 건물의 전력 부하와 같이 주간 및 연간의 복합적인 다중계절성을 지닌 시계열 데이터에 대해, 해석 가능성에 초점을 맞춘 하이브리드 MSTL-SARIMAX 모델을 제안하고 그 유효성을 검증하였다.

제안 모델은 MSTL을 통해 원본 시계열을 추세-잔차, 주간 계절성, 연간 계절성으로 명확히 분해하고, 분리된 계절성 성분을 SARIMAX의 외생변수로 활용하여 비계절성 요소만을 예측하도록 설계되었다.

실제 대학 본부 건물의 전력 부하 데이터를 대상으로 실험한 결과, 예측 정확도 자체는 하이퍼파라미터 최적화를 수행한 XGBoost와 LightGBM이 가장 높았다. 이는 복잡한 비선형 패턴을 학습하는 데 트리 기반 앙상블 모델이 강점을 가짐을 보여준다.

하지만 제안한 MSTL-SARIMAX 모델은 통계 기반 모델 군 내에서 가장 우수한 성능을 기록하였다. 기존의 표준 SARIMAX 및 다른 다중계절성 모델인 Fourier-ARIMA보다 모든 지표(MAE, RMSE, MASE)에서 현저히 낮은 오차를 기록하였으며, MAE 기준으로 표준 SARIMAX 대비 약 76%의 오차 감소 효과를 보였다.

더욱 중요한 것은, MSTL-SARIMAX 모델은 예측 결과를 추세, 주간/연간 계절성 등 의미 있는 구성 요소로 분해하여 설명할 수 있다는 중요한 강점을 가진다. 이는 '왜' 예측이 그렇게 나왔는지 설명하는 것이 중요한 실무 환경에서 큰 가치를 제공하며, 예측의 정확성뿐만 아니라 원인 분석이 필수적인 에너지 관리 분야에서 제안 모델의 실무적 적용 가능성을 높여준다.

본 연구는 단일 건물 데이터에 기반하며, 기상 정보 등 외부 변수를 고려하지 않은 한계를 가진다. 향후에는 다양한 용도와 지역의 건물 데이터를 활용하여 모델의 일반화 가능성을 검증하고, 기온, 공휴일 등 외부 변수를 통합하여 예측 성능을 고도화할 필요가 있다. 또한, LSTM, Transformer 등 최신 딥러닝 모델과의 비교를 통해 제안 모델의 위치와 성능적 우위를 명확히 하고, 딥러닝 기반 예측 모델과의 결합을 통한 성능 고도화 연구도 의미 있을 것으로 기대된다.

References

  • A. T. Mustafa and O. S. Al-Deen Al-Yozbaky, “Forecasting Energy Demand and Generation Using Time Series Models: A Comparative Analysis of Classical, Grey, Fuzzy, and Intelligent Approaches,” Franklin Open, Vol. 12, 100350, 2025. [https://doi.org/10.1016/j.fraope.2025.100350]
  • K. Kwon and N. Kim, “Performance Comparison of Battery and Hydrogen Energy Storage for Solar-Integrated Economic Optimization Using Linear Programming,” Journal of the Korea Digital Contents Society, Vol. 26, No. 6, pp. 1645-1653, June 2025. [https://doi.org/10.9728/dcs.2025.26.6.1645]
  • N. Elamin and M. Fukushige, “Modeling and Forecasting Hourly Electricity Demand by SARIMAX with Interactions,” Energy, Vol. 165, Part B, pp. 257-268, 2018. [https://doi.org/10.1016/j.energy.2018.09.157]
  • A. Tarsitano and I. L. Amerise, “Short-Term Load Forecasting Using a Two-Stage SARIMAX Model,” Energy, Vol. 133, pp. 108-114, 2017. [https://doi.org/10.1016/j.energy.2017.05.126]
  • S. Papadopoulos and I. Karakatsanis, “Short-Term Electricity Load Forecasting Using Time Series and Ensemble Learning Methods,” in Proceedings of the 2015 IEEE Power and Energy Conference at Illinois (PECI), Champaign: IL, pp. 1-6, 2015. https://ieeexplore.ieee.org/abstract/document/7064913/ [https://doi.org/10.1109/PECI.2015.7064913]
  • F. R. Alharbi and D. Csala, “A Seasonal Autoregressive Integrated Moving Average with Exogenous Factors (SARIMAX) Forecasting Model-Based Time Series Approach,” Inventions, Vol. 7, No. 4, 94, 2022. [https://doi.org/10.3390/inventions7040094]
  • Y. J. Park, F. Germain, J. Liu, Y. Wang, T. Koike-Akino, G. Wichern, ... and A. Chakrabarty, “Probabilistic Forecasting for Building Energy Systems using Time-Series Foundation Models,” arXiv:2506.00630v1, , 2025. [https://doi.org/10.48550/arXiv.2506.00630]
  • I. A. Kachalla, C. Ghiaus, A. Ademuwagun, O. B. Odeyinde, and M. Baseer, “Data-Driven Hybrid SARIMAX-MLP Framework for Energy Consumption Prediction in Residential Micro-Grid,” Results in Engineering, Vol. 26, 105336, 2025. [https://doi.org/10.1016/j.rineng.2025.105336]
  • J. Lee and Y. Cho, “National-Scale Electricity Peak Load Forecasting: Traditional, Machine Learning, or Hybrid Model,” Energy, Vol. 239, Part D, 122366, 2022. [https://doi.org/10.1016/j.energy.2021.122366]
  • Y. Pang and C. Li, “A Decomposition Modeling Framework for Seasonal Time-Series Forecasting,” arXiv:2412.12168, , 2024. https://arxiv.org/abs/2412.12168
권기현(Kihyeon Kwon)

1993년:강원대학교 컴퓨터과학과(학사)

1995년:강원대학교 대학원 컴퓨터과학과(석사)

2000년:강원대학교 대학원 컴퓨터과학과(박사)

2002년~현 재: 강원대학교 교수

※관심분야:AIoT, 에너지 데이터 분석

이형봉(Hyung-Bong Lee)

1984년:서울대학교 계산통계학과(학사)

1986년:서울대학교 대학원 계산통계학과(석사)

2000년:강원대학교 대학원 컴퓨터과학과(박사)

1986년~1994년: LG전자 컴퓨터연구소

1994년~1999년: 한국디지털(주)

2004년~현 재: 강릉원주대학교 컴퓨터공학과 교수

※관심분야:운영체제, 임베디드 시스템, IoT

Fig. 1.

Fig. 1.
MSTL-SARIMAX model pipeline

Fig. 2.

Fig. 2.
MSTL Decomposition of Power Load Time Series

Fig. 3.

Fig. 3.
Low-load Markers - University HQ

Fig. 4.

Fig. 4.
Forecast comparison: Proposed model vs. alternative models

Fig. 5.

Fig. 5.
Residuals of MSTL-SARIMAX model

Table 1.

Overall model structure

Step Input Process Output
1 Original time series Yt MSTL decomposition Trend Tt, Weekly seasonality St,7, Yearly seasonality St,365, Residual Rt
2 Trend + Residual
(Tt+Rt), Seasonal components (St,7, St,365)
SARIMAX prediction (Endogenous:
Tt+Rt, Exogenous:
St,7, St,365)
Predicted non-seasonal component
Tt+Rt^
3 Predicted non-seasonal component, Seasonal components Seasonal components re-aggregation Final forecast
Yt^=Tt+Rt^+St,7+St,365

Table 2.

Computing environment and software versions

Item Value
OS Windows 10 (Build 26200), SP0 
Kernel 10 
Python 3.9.23 
CPU Intel64 Family 6 Model 154 Stepping 3
RAM 31.6 GB 
pandas 2.3.1 
numpy 2.0.2 
matplotlib 3.9.4 
statsmodels 0.14.5 
pmdarima 2.0.4 
lightgbm 4.6.0 
xgboost 2.1.4 

Table 3.

Quantitative performance comparison table

Model MAE RMSE MASE
Baseline SARIMAX 399.33 435.44 5.96
LightGBM (Tuned) 104.52 168.05 1.56
XGBoost (Tuned) 104.41 168.08 1.56
Fourier-ARIMA 203.49 262.42 3.04
MSTL-SARIMAX (Proposed) 155.85 207.12 2.33

Table 4.

Per-step latency summary (5-min SLA)

Step Time (s)
Data: load + interpolate 0.050
Features: build 0.004
SARIMAX: auto_arima 51.434
SARIMAX: fit 2.938
SARIMAX: forecast 0.004
LGBM: gridsearch_fit 18.503
LGBM: predict 0.002
XGB: gridsearch_fit 2.891
XGB: predict 0.004
MSTL: fit(train_only) 0.641
MSTL: seasonal extrapolation 0.001
MSTL-SARIMAX: auto_arima 12.841
MSTL-SARIMAX: fit 1.362
MSTL-SARIMAX: forecast 0.007
Fourier-ARIMA: fourier_features 0.002
Fourier-ARIMA: auto_arima_predict 85.107
TOTAL 175.789
5‑min SLA margin (300−TOTAL) 124.2