Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 12, pp.3521-3531
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Dec 2025
Received 31 Oct 2025 Revised 24 Nov 2025 Accepted 28 Nov 2025
DOI: https://doi.org/10.9728/dcs.2025.26.12.3521

기후변화 대응을 위한 산불 예측 딥러닝 모델 개발: 위성데이터(Landsat 8) 및 기상데이터(ERA5-Land) 융합 기반

김문기1 ; 배현영2, *
1한국기술교육대학교 IT융합과학경영산업대학원 AI융합교육학과 석사
2한국기술교육대학교 IT융합과학경영산업대학원 AI융합교육학과 겸임교수
Deep Learning-Based Wildfire Prediction Using Landsat 8 and ERA5-Land Data
Moon Kee Kim1 ; Hyun-Young Bae2, *
1M.S. in AI Convergence Education, Graduate School of IT Convergence and Industrial Management, Korea University of Technology and Education (KOREATECH), Cheonan 31253, Korea
2Adjunct Professor, Department of AI Convergence Education, Graduate School of IT Convergence and Industrial Management, Korea University of Technology and Education (KOREATECH), Cheonan 31253, Korea

Correspondence to: *Hyun-Young Bae E-mail: youg989@daum.net

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 Landsat-8(30 m)과 ERA5-Land(시간별, 9 km)를 융합하여 딥러닝(DNN) 기반 산불 예측 모델을 구축하였다. 학습 폴드에만 SMOTE를 적용하고 5-fold 교차검증으로 일반화 성능을 추정하였으며, GridSearchCV 및 PR-곡선 기반 임계값(τ = 0.7390)으로 모델을 최적화하였다. 최종 모델은 독립 테스트에서 Accuracy 0.94, ROC–AUC 0.968, Fire-F1 0.89를 달성하였고, SMOTE 적용으로 Fire-Recall이 0.90으로 향상되었다. 경상북도 계절 예측에서는 건조기(봄·겨울) 위험도가 높게 나타나 실제 관측 경향과 부합하였다. 결과적으로, 위성–기상 데이터 융합과 불균형 보정·최적화 절차가 산불 위험 예측의 실무 적합성과 신뢰성을 높이는 데 기여함을 확인하였다.

Abstract

This study developed a deep-learning neural network (DNN) wildfire prediction model that fuses 30 m Landsat-8 satellite imagery with hourly 9 km meteorological ERA5-Land reanalysis data. Only the training folds were balanced using synthetic minority oversampling technique (SMOTE) with validation and test sets retaining their original distributions; 5-fold cross-validation was employed to estimate generalization. Model hyperparameters were optimized via GridSearchCV, and the decision threshold was tuned to the F1-max point on the precision–recall curve (τ = 0.7390). On an independent test set, the optimized model achieved Accuracy = 0.94, ROC–AUC ≈ 0.968, and Fire-F1 = 0.89. Fire-Recall improved to 0.90 upon applying SMOTE. Seasonal forecasts for Gyeongsangbuk-do correspond well with observed wildfire patterns, showing high risk in spring and winter, whereas low risk in summer. These results demonstrate that satellite–meteorological data fusion when combined with imbalance handling and threshold/hyperparameter optimization, provides reliable and operationally useful wildfire-risk forecasts.

Keywords:

Wildfire Prediction, Deep Learning, Climate Change, Satellite Data, Meteorological Data

키워드:

산불 예측, 딥러닝, 기후변화, 인공위성 데이터, 기상 데이터

Ⅰ. 서 론

기후변화의 가속화는 전 세계적으로 산불 발생의 빈도와 규모를 지속적으로 증가시키고 있다. 가뭄, 고온, 강풍 등 이상 기후 현상은 산림의 건조도를 높여 화재 확산에 유리한 환경을 조성하며, 그 결과 과거에는 보기 드물었던 대형 산불이 빈번하게 발생하고 있다. 기후변화에 관한 정부간 협의체(IPCC) 제6차 평가보고서에 따르면, 이러한 변화는 산불 시즌의 연장, 발생 빈도 및 강도의 증가, 산림 소실 면적의 확대를 초래하며 인명 피해, 생태계 파괴, 탄소 배출 증가 등 복합적 위험을 심화시키고 있다[1].

현재 대표적인 산불 예측 시스템으로는 캐나다 및 유럽의 FWI(Fire Weather Index), 대한민국 산림청의 국가산불위험예보시스템, 미국의 NFDRS(National Fire Danger Rating System) 등이 있다[2]–[4]. 이들 시스템은 주로 지상 기상관측소의 실시간 데이터와 과거 산불 통계를 기반으로 산불 위험도를 산출하지만, 산불 발생 메커니즘의 복잡성과 시·공간적 변동성을 충분히 반영하지 못해 예측 정확도와 신속 대응 능력의 한계가 지적되고 있다[5]. 즉, 기존 방식은 특정 지역이나 기간에서는 유효할 수 있으나, 지역 간 일반화 성능과 조기 예측 정확도 면에서 제약이 존재한다.

이러한 한계를 극복하기 위해 최근에는 위성 및 기상 데이터를 융합해 산불 발생 조건을 정밀하게 분석하고, 딥러닝 기법을 활용하여 발생 위험을 사전에 예측하려는 연구가 활발히 진행되고 있다[6]. 인공위성 데이터는 식생 상태, 지표 온도, 건조도 등 산불 발생과 밀접한 환경 인자를 광범위하게 반복 관측할 수 있으며, 특히 Landsat 8은 30 m 공간해상도로 지표의 미세한 변화를 감지할 수 있다[7]. 또한 ERA5-Land 재분석 기상 데이터는 약 9 km 격자와 시간별(hourly) 연속 자료를 제공하여 지상 관측의 한계를 보완한다[7]. 따라서 두 데이터의 융합은 산불 예측의 시공간적 정밀도를 높이는 효과적인 접근으로 주목받고 있다.

본 연구의 목적은 기후변화에 효과적으로 대응하기 위해 Landsat 8 위성영상과 ERA5-Land 기상 데이터를 융합한 딥러닝 기반 산불 예측 모델을 개발하고, 데이터 불균형 보정과 하이퍼파라미터 최적화를 통해 예측 성능을 향상시키는 것이다[6]–[9]. 이를 위해 소수 클래스 보완 기법인 SMOTE (Synthetic Minority Over-sampling Technique)를 적용하고[10], GridSearchCV 기반의 체계적 하이퍼파라미터 탐색을 수행하여 기존 산불 예측 모델의 한계를 실증적으로 검증하였다[11].

본 연구의 가설은 다음과 같다. H1: 위성–기상 융합 딥러닝 모델은 단일 데이터 기반 모델보다 AUC-PR과 F1에서 유의하게 우수할 것이다. H2: 적절한 불균형 대응(예: 클래스 가중, Focal Loss, SMOTE 등)은 미탐률(False Negative Rate)을 유의하게 감소시킬 것이다. H3: 체계적인 하이퍼파라미터 최적화는 평균 성능을 향상시키고, 교차검증 분산을 유의하게 낮출 것이다.

본 연구의 학술적 기여는 다음과 같다. 첫째, 고해상 위성(약 30 m)과 중해상 기상(약 9 km)의 스케일 미스매치를 정합(Alignment)하여 융합 예측 프레임을 제시한다. 둘째, 산불 예측의 핵심 과제인 시·공간 일반화 문제를 평가 설계에 반영함으로써 모델의 재현성과 이전 가능성을 강화한다. 셋째, 불균형 강건 학습과 하이퍼파라미터 최적화, 그리고 해석가능성(Explainability)을 통합 보고함으로써 기존 지수 기반 체계의 한계를 보완하고, 위험 지역의 사전 식별 및 초기 대응 의사결정에 기여할 수 있는 실무적 근거를 제시한다[1]–[11].


Ⅱ. 이론적 배경

2-1 산불 발생 요인 및 예측의 중요성

산불은 단순한 점화에 의해 발생하는 현상에 그치지 않고, 기상(고온, 저습도, 강풍), 지형(경사도, 사면 방향), 식생(종류, 밀도, 수분 함량) 등 다양한 환경 요인이 복합적으로 작용하여 확산된다[12]. 이는 단일 요인보다는 복합 요인 간의 상호작용이 산불의 발생과 확산에 더 큰 영향을 미친다는 점을 시사한다. 이러한 요인들은 산불의 발생 가능성뿐 아니라 확산 속도와 피해 범위를 결정하는 핵심 요인으로 작용하며, 대규모 재난으로 확산될 수 있다[13]. 특히 기후변화의 가속화로 고온·건조한 환경이 확대되면서 산불의 규모와 피해가 점차 커지고 있다. 따라서 산불 발생 가능성의 사전 예측과 고위험 지역의 조기 식별은 인명 및 재산 피해를 최소화하고, 예방 활동의 효율성과 진화 자원 배치의 최적화를 달성하기 위한 필수 요소이다.

2-2 인공위성 데이터 활용

인공위성 데이터는 광범위한 지역을 정기적이고 일관되게 관측할 수 있어, 산불 예측과 모니터링의 핵심 자료로 활용된다. 다중분광 영상의 밴드 조합은 식생 활력(가시광선 및 근적외선), 연료 수분 및 건조도(SWIR), 지표 온도(열적 적외선)의 추정을 가능하게 하며, 이를 통해 산림의 가연성 상태를 간접적으로 평가할 수 있다. 특히 Landsat-8(USGS–NASA, 2013년 이후)은 OLI와 TIRS 센서를 탑재해 총 11개의 밴드를 제공하며, 약 30 m 공간해상도를 바탕으로 NDVI, NDMI, NBR(ΔNBR), LST 등 산불 관련 지표를 산출할 수 있다[7],[14]. 이러한 다중분광 지표는 산림의 연료 특성과 화염 확산 가능성을 정량적으로 평가하는 데 기여한다. 다만 Landsat의 재방문 주기(16일)와 기상 요인(구름·연무 등)에 따른 관측 공백의 한계가 존재하므로, 예측 모델에서는 ERA5-Land와 같은 재분석 기상자료를 융합해 시·공간 정보를 보완하는 것이 예측 성능을 높일 수 있다[7]-[9],[14].

2-3 기상 데이터 활용

기상 변수(온도, 습도, 강수, 풍속·풍향)는 연료의 건조도와 화재 전파 속도를 직접적으로 좌우하므로, 시공간적으로 연속성이 높은 기상 정보는 산불 예측을 위한 핵심 입력 변수로 작용한다. ERA5-Land는 Copernicus Climate Change Service(C3S)와 European Centre for Medium-Range Weather Forecasts(ECMWF)가 제공하는 재분석 자료로, 약 9 km 격자와 시간별(hourly) 시계를 제공하여 지역별 미세 기상 특성을 반영하는 데 적합하다[7],[8]. 본 연구에서는 2 m 기온, 2 m 이슬점(또는 상대습도), 총 강수량, 표층 토양수분, 풍속·풍향 등을 활용하며, 이러한 변수들은 산불 위험지수(Fire Weather Index, FWI) 산출과 딥러닝 예측 모두에서 핵심 설명변수로 사용된다[2],[15].

2-4 산불 예측 적용 딥러닝 개요

산불 예측 분야에서는 기상 및 지형 변수를 활용한 로지스틱 회귀, 서포트 벡터 머신(SVM), 랜덤 포레스트(Random Forest) 등 전통적 머신러닝 알고리즘이 폭넓게 적용되어 왔다[16],[17]. 이러한 모델들은 특정 지역이나 기간에서는 유효했으나, 복잡한 비선형 상호작용의 학습과 위성–기상 융합 데이터의 통합 처리 측면에서는 구조적 한계가 지적되어 왔다[5]. 최근 딥러닝 기술의 확산과 위성 데이터 접근성 향상에 힘입어 위성–기상 통합 분석이 확대되고 있으나[6], (1) 클래스 불균형 대응의 미흡(단순 가중치나 합성 샘플의 물리적 타당성 부족)[18], (2) 변수 활용 및 적용 범위의 제약(국지 지수 중심의 사후 피해 분석, 위성 정보의 부분적 사용)[5],[15], (3) 하이퍼파라미터 최적화 절차의 체계성 부족 등의 공백이 여전히 존재한다[6]. 본 연구는 Landsat-8과 ERA5-Land의 융합 입력을 기반으로, 불균형 강건 손실함수(클래스 가중 및 Focal Loss)와 보조적 SMOTE(탭형 비교군), 공간 블록 교차검증 및 기간 홀드아웃, 그리고 베이지안·Hyperband·GridSearchCV 병행 최적화를 통해 이러한 공백을 보완하고자 한다[6]–[18].


Ⅲ. 본 문

3-1 독립변수 및 종속변수 데이터 선정

딥러닝 예측의 성능은 입력 변수의 적절한 선정에 크게 좌우된다. 본 연구는 문헌 검토와 도메인 전문가 자문을 바탕으로 산불 발생과 밀접한 변수를 선별하였으며, Google Earth Engine(GEE)을 통해 ERA5-Land(재분석 기상자료)와 Landsat-8 Collection 2 Level-2(원격탐사 영상) 데이터를 수집·구성하였다. 분석에 사용한 자료의 기간은 2023년 1월부터 2024년 5월까지이다. Landsat-8은 궤도 특성상 재방문 주기가 약 16일이며, 구름·연무 등 운량에 따라 일부 시기에는 관측 공백이 발생한다. 종속변수는 NASA LANCE/FIRMS의 MODIS/VIIRS 능동화재(Active Fire) 탐지 정보를 이용해 격자별 산불 존재 여부를 이진 변수 fire ∈ {0,1}로 정의하였다. ERA5-Land에서는 2 m 기온(t2m), 2 m 이슬점(d2m), 상대습도(rh2m; t2m–d2m로부터 도출), 총 강수량(tp), 표층 토양수분(swvl1), 10 m 바람(u10, v10)으로부터 풍속 및 풍향을 계산하였다. Landsat-8에서는 TIRS 열밴드를 이용해 지표온도(LST)를 산출하였다. 각 변수의 단위, 전처리 유형(원자료·도출·단위변환), 데이터 출처는 표 1과 같다.

Selected independent and dependent variables

3-2 딥러닝 설계

본 연구는 가설 검증을 위해 세 단계의 딥러닝 모델을 구축하고, AUC-PR, F1-score, Recall을 핵심 평가 지표로 설정하여 비교·평가하였다(보조 지표: ROC-AUC, Calibration/Brier score). 모든 단계에서 동일한 입력 특성과 평가 절차를 적용하였으며, 전처리와 불균형 보정은 각 폴드의 학습 데이터에만 수행하고 검증·테스트 세트에는 동일 변환(transform)만 적용하였다.

1) 1차 모델링: 기본 딥러닝 모델

기본 단계에서는 표준 스케일링(Standard Scaler)을 적용한 심층 신경망(Deep Neural Network, DNN)을 학습하여 기준 성능을 산출하였다. 손실함수는 이진 교차엔트로피(Binary Cross-Entropy, BCE)와 클래스 가중(class weight)을 함께 사용하거나, 비교 실험으로 Focal Loss(γ=2)를 적용하였다. 옵티마이저는 Adam을 사용하였으며, 조기 종료(early stopping)와 가중 감쇠(L2 정규화)를 통해 과적합을 방지하였다.

2) 2차 모델링: 클래스 불균형 해소 및 교차 검증 모델

산불 예측 맥락에서 상대적으로 적은 양성(fire = 1) 클래스에 따른 편향을 줄이기 위해 클래스 가중(class weight)을 우선 적용하고, SMOTE는 탭형(tabular) 특성 실험에서 보조 비교군으로만 활용하였다. 검증 절차는 공간 블록(spatial block) 5-fold 교차검증으로 수행하여 인접 지역 간 데이터 누수를 최소화하였다. 폴드별 성능은 평균값과 표준편차(±)로 요약하여 모델의 일반화 안정성을 평가하였다.

3) 3차 모델링: 하이퍼파라미터 최적화 모델

3차 단계에서는 2차 모델의 데이터 구성 및 불균형 처리 설정(학습 세트에 한정된 SMOTE와 클래스 가중)을 유지한 상태에서, Optuna와 Hyperband 알고리즘을 병행하여 핵심 하이퍼파라미터(은닉층 수, 뉴런 수, 학습률, 배치 크기, 드롭아웃 비율, L2 정규화 계수 등)를 탐색하였다. 선택 기준은 교차검증 AUC-PR(주 평가 지표)과 F1-score(보조 지표)이며, 최적 조합으로 재학습한 모델의 성능을 독립 테스트 세트에서 최종 보고하였다.

참고로, 전통적 머신러닝 비교모델 가운데에서는 산불·기상 예측 분야에서 성능과 활용도가 높은 XGBoost를 대표 베이스라인으로 선정하여 GridSearchCV를 적용하고, 본 연구의 DNN 모델과 성능 차이를 비교하였다. Logistic Regression과 Random Forest는 사전 실험 및 선행연구에서 DNN·XGBoost 대비 일관되게 낮은 성능을 보여 내부 참고용으로만 활용하였으며, 지면과 연구 초점상의 이유로 본문 비교 대상에서는 제외하였다.

3-3 데이터 수집 및 전처리

본 연구의 데이터셋은 대한민국 전역을 대상으로 2023년 1월부터 2024년 5월까지의 기간 동안 Python 기반 Google Earth Engine(GEE) API를 활용하여 자동 수집하였다. 위성 자료는 Landsat-8 Collection 2 Level-2(다중분광 및 열적 적외선), 기상 자료는 ERA5-Land(시간별 재분석), 레이블은 NASA LANCE/FIRMS의 MODIS/VIIRS 능동화재(Active Fire) 포인트를 사용하였다. 각 자료원의 유효 장면 및 시간 스텝 규모는 표 2에 요약하였다.

Image datasets for deep learning

독립변수는 Landsat-8의 TIRS Band 10 밝기온도(K)를 표준 변환 절차를 거쳐 지표온도(Land Surface Temperature, LST, °C)로 산출하였다. 이후 장면 단위의 구름 및 그림자(QA 밴드) 마스킹을 수행하고, 연구 영역 경계를 기준으로 클리핑하였다. ERA5-Land에서는 2 m 기온(t2m), 2 m 이슬점(d2m), 총강수량(tp), 표층 토양수분(swvl1, 0–7 cm), 10 m 바람(u10, v10)을 추출하고, t2m–d2m 차이를 이용해 상대습도(rh2m)를 도출하였다.

모든 표본은 예측 기준시점 T 이전의 정보만을 활용하도록 시계열을 정합하였다. Landsat-8 관측일은 T 이하로 제한하였으며, ERA5-Land 변수는 예측 기준시점 T의 직전 7일([T−7, T−1]) 구간에 대해 집계·누적·래깅하여 시계열 정보를 구성하였다. 공간적으로는 동일 좌표계에서 표본 포인트를 기준으로 반경 300 m 이내의 최근접 매칭(Nearest Neighbor Matching)을 통해 두 자료를 결합하였다.

종속변수는 FIRMS 능동화재 포인트를 이용하여 각 표본별 산불 존재 여부를 이진 라벨 fire ∈ {0,1}로 정의하였다. 비산림성 화열원을 제거하기 위해 MCD12Q1(IGBP) 토지피복 자료에서 산림(1–5), 관목·초지(6–10), 농경지(12) 범주만 유지하였다. 공간 반경 300 m, 시간 간격 24시간 윈도우 내 중복 탐지 포인트는 클러스터링하여 단일 이벤트로 통합하였다.

최종 표본은 양성(fire = 1) 885개, 음성(fire = 0) 2,000개로 구성되며, 이는 불균형 보정(SMOTE, 언더샘플링 등)을 적용하기 이전의 원본 클래스 분포이다. 전형적인 극단적 불균형(예: 1:10 이상) 수준은 아니지만, 정책적으로 False Negative의 비용이 큰 산불 예측 맥락에서는 Fire가 상대적으로 소수 클래스에 해당하므로 클래스 불균형을 고려한 학습 전략이 필요하다. 전처리 과정에서는 변수 간 스케일 차이를 보정하고 학습 안정성을 확보하기 위해 StandardScaler를 적용하였다. 데이터 누출을 방지하기 위해 스케일러는 각 교차검증 fold의 학습 세트에만 적합(fit)하고, 검증 및 테스트 세트에는 동일 변환(transform)만 적용하였다. 데이터 분할은 학습·검증(공간 블록 5-fold) 85%, 독립 테스트 15% 비율로 수행하였으며, 난수 시드는 재현성을 위해 고정하였다.

Fig. 1.

Visualization of wildfire points(red: fire 1, blue: fire 0)

3-4 1차 기본 딥러닝 모델링

산불 발생 예측의 기준선을 설정하기 위해 심층 신경망(Deep Neural Network, DNN; 다층 퍼셉트론 구조)을 구축하였다. 입력 차원은 본 연구에서 선정한 6개 주요 특성에 맞추었으며(선정 특성은 표 1 참조), 은닉층은 Dense(64)–Dense(32)–Dropout(0.30)–Dense(16)의 구조로 설계하였다. 활성함수는 모든 은닉층에 ReLU를, 출력층에는 Sigmoid를 적용하여 산불 발생 확률을 산출하였다.

학습 과정에서는 Adam 옵티마이저와 Binary Cross-Entropy 손실함수를 사용하였으며, Early Stopping (patience=10, restore_best_weights=True)과 L2 정규화를 적용하여 과적합을 방지하였다. 평가 지표는 AUC-PR, F1-score, Recall을 핵심으로 하였고, AUROC과 Accuracy는 보조 지표로 활용하였다. 데이터 분할 및 스케일링 절차는 §3.2의 설정과 동일하게 유지하였다.

기본 학습 설정은 batch_size=32, max_epoch=150, seed 고정으로 구성하였으며, 본 모델은 클래스 가중, Focal Loss, SMOTE 등의 불균형 보정 기법을 적용하지 않은 순수 기준선(Baseline) 모델로서, 이후 단계의 불균형 보정 및 하이퍼파라미터 최적화 모델과의 성능 비교를 위한 기준 모델로 활용하였다.

3-5 2차 클래스 불균형 해소 및 교차 검증

산불 발생(fire = 1: 885개)과 비발생(fire = 0: 2,000개) 간의 클래스 불균형을 완화하고 모델의 일반화 성능을 확보하기 위해, 본 단계에서는 클래스 가중(class weight)을 적용하였으며, SMOTE는 탭형(tabular) 특성 실험에서만 보조 비교군으로 운용하였다. 극단적인 수준의 불균형은 아니지만, 산불 예측 맥락에서 상대적으로 적은 양성(fire = 1) 클래스에 따른 편향을 줄이기 위해 불균형 처리는 각 폴드의 학습 세트에만 수행하고, 검증 및 테스트 세트에는 관측된 원래 분포를 유지하였다. 데이터 스케일러는 학습 세트에만 적합(fit)하고, 검증·테스트 세트에는 동일 변환(transform)만 적용하여 데이터 누출을 방지하였다.

검증은 공간 블록(spatial block) 5-fold 교차검증으로 수행하여 인접 지역 간 데이터 누수를 최소화하였다. 참고로, 층화(stratified) 5-fold 검증 결과는 부록에 제시하였다. 평가지표는 AUC-PR, F1-score, Recall을 핵심 지표로 사용하였으며, AUROC과 Accuracy는 보조 지표로 보고하였다. SMOTE의 설정값은 k = 5, sampling_strategy = 'minority'로 고정하였다.

Basic deep learning modeling stack

3-6 3차 하이퍼파라미터 최적화

딥러닝의 구조(층 및 뉴런 수), 드롭아웃 비율, 배치 크기, 학습률, L2 정규화 등 하이퍼파라미터는 모델의 성능과 안정성에 중대한 영향을 미친다. 이에 본 연구는 딥러닝 모델에 대해 Optuna와 Hyperband 기반의 베이지안 최적화 기법을 적용하였으며, 전통 머신러닝 비교모델(XGBoost 등)에는 GridSearchCV를 활용하여 방법론적 일관성과 효율성을 확보하였다.

탐색 공간은 표 4에 제시하였으며, 주요 선정 기준은 교차검증 AUC-PR(주 평가 지표)과 F1-score(보조 지표)이다. 최적 조합을 도출한 후 해당 설정으로 모델을 재학습하고, 독립 테스트 세트에서 AUC-PR, F1-score, Recall(보조 지표: AUROC, Accuracy)을 평가하였다. 의사결정 임계값(τ)은 0.5로 고정하지 않고, 검증 세트의 정밀도–재현율(PR) 곡선에서 F1-score를 극대화하는 지점으로 설정하였다.

Hyperparameter Optimization Targets


Ⅳ. 연구결과

4-1 1차 기본 딥러닝 모델 성능

기본 DNN의 독립 테스트 세트 성능은 AUC-PR = 0.90, AUROC = 0.97, Accuracy = 0.93으로 나타났다(Table 5, τ = 0.5). 클래스별로 살펴보면, No Fire 클래스의 정밀도(Precision), 재현율(Recall), F1-score는 각각 0.93, 0.97, 0.95였으며, Fire 클래스는 0.92, 0.83, 0.87로 상대적으로 성능이 낮았다.

Classification metrics of the baseline DNN (test set)

혼동행렬(표 6)에 따르면 TP = 111, TN = 290, FP = 10, FN = 22로 나타났으며, FN(22건)의 발생이 Fire 클래스 재현율(Recall) 저하의 주된 원인이었다(Recall = 111 / (111 + 22) = 0.83). 이는 테스트 세트의 클래스 비율(No Fire 300, Fire 133)과 임계값 0.5의 고정 설정으로 인해 모델이 다수 클래스(No Fire)에 상대적으로 보수적으로 반응했음을 시사한다.

Confusion matrix of the baseline DNN (actual × predicted)

따라서 Accuracy 단일 지표는 과대평가될 가능성이 있으므로, 본 연구에서는 AUC-PR, F1-score, Recall을 핵심 평가 지표로 병행 해석하였다. 이어지는 절에서는 클래스 가중(class weight)과 Focal Loss(1차 단계), SMOTE(보조 비교군), 그리고 하이퍼파라미터 최적화 및 PR–F1 기반 임계값(τ) 재설정을 통해 Fire 클래스의 민감도와 F1-score를 향상시키는 방안을 검증한다. 이 단계의 기본 DNN 모델에는 별도의 클래스 불균형 보정 기법을 적용하지 않았다. 이어지는 절에서는 불균형 보정과 하이퍼파라미터 및 임계값(τ) 최적화를 통해 Fire 클래스 성능을 개선하는 단계를 제시한다.

4-2 2차 SMOTE 및 교차검증 적용 모델 성능

2차 단계에서는 1차 기본 DNN 모델과 동일한 입력 변수 및 네트워크 구조를 유지하되, 공간 블록 5-fold 교차검증과 SMOTE 기반 불균형 보정을 결합하여 성능을 평가하였다.

데이터셋의 최종 라벨 분포는 fire = 885, no fire = 2{,}000(약 1:2.26)으로 극단적 불균형 수준은 아니지만, 산불 예측에서 False Negative의 비용이 크다는 점을 고려하여 SMOTE를 보조적인 불균형 처리 기법으로 적용하였다.

평가 절차는 먼저, 연구 대상 지역을 일정한 크기의 공간 블록(spatial block)으로 분할한 뒤, 각 fold에서 한 블록을 검증 세트로, 나머지 블록들을 학습 세트로 사용하는 공간 블록 5-fold 교차검증을 수행하고, 그 다음 전체 데이터에서 사전에 분리해 둔 독립 테스트 세트에 대해 최종 성능을 평가하는 홀드아웃 + 공간 블록 5-fold 교차검증 방식으로 구성하였다. 학습 단계에서 각 fold의 학습 세트에 대해서만 SMOTE를 적용하여 Fire 클래스의 상대적 소수성을 보완하였으며, 검증 및 테스트 세트는 관측된 원래의 클래스 분포를 그대로 유지하였다. 이후 5-fold 교차검증 결과를 바탕으로 설정을 확정한 뒤, 독립 테스트 세트에서 모델 성능을 평가하였다(표 7, 표 8, τ = 0.5).

Classification metrics of the SMOTE + 5-fold model (test set)

Confusion matrix of the SMOTE + 5-fold model (actual × predicted, test set)

종합 지표에서 AUROC = 0.97, Accuracy = 0.92로 1차 기본 DNN(기준선) 모델과 유사한 수준을 보였으나, Fire 클래스 재현율(Recall)은 0.83 → 0.90(+0.07)으로 유의미하게 개선되었다. 혼동행렬(표 8)에 따르면 TP = 120, TN = 277, FP = 23, FN = 13으로, 기준선 모델(TP = 111, TN = 290, FP = 10, FN = 22)과 비교할 때 FN이 9건(−40.9%) 감소한 것이 성능 개선의 주요 요인이었다.

반면, Fire 클래스의 정밀도(Precision)는 0.92 → 0.84(−0.08)로 다소 낮아져 Precision–Recall 간 트레이드오프가 발생하였다. 그러나 재난 예측의 특성상 미탐(False Negative)을 최소화하는 것이 과탐(False Positive) 감소보다 상대적으로 더 중요한 점을 고려하면, 본 단계에서의 민감도(Recall) 향상은 실무적으로 의미 있는 개선으로 해석할 수 있다.

다음 절에서는 동일한 데이터 구성과 불균형 처리 설정을 유지한 상태에서, 하이퍼파라미터 최적화 및 PR–F1 기반 임계값(τ) 재설정을 통해 정밀도 저하를 완화하면서 AUC-PR과 F1-score의 추가 개선이 가능한지 검증한다.

4-3 하이퍼파라미터 최적화 모델 성능

3차 단계에서는 2차 단계와 동일한 데이터 구성 및 불균형 처리 설정(학습 세트에 한정된 SMOTE와 클래스 가중)을 유지한 상태에서, GridSearchCV를 이용해 하이퍼파라미터 탐색을 수행하고, 검증 세트의 정밀도–재현율(PR) 곡선에서 F1-score가 최대가 되는 지점을 의사결정 임계값(τ)으로 선정하였다(τ = 0.74; 표 9). 최적 조합은 dropout_rate = 0.20, neurons = 256, batch_size = 32로 도출되었다.

Optimal hyper-parameter values

독립 테스트 세트에서 Accuracy = 0.94, AUROC = 0.97, AUC-PR = 0.91을 기록하였으며, Fire 클래스의 F1-score는 0.89로 SMOTE 단계(0.87) 대비 개선되었다(표 10). 혼동행렬(표 11)에 따르면 TP = 117, TN = 288, FP = 12, FN = 16으로 나타났다. 이는 SMOTE 단계(TP = 120, TN = 277, FP = 23, FN = 13) 대비 FP가 23 → 12(−11, −47.8%)로 감소하고, FN이 13 → 16(+3, +23.1%)으로 소폭 증가한 결과이다.

Classification metrics of the optimized model (test set)

Confusion matrix of the optimized model (actual × predicted, test set)

그 결과, Fire 클래스의 정밀도(Precision)는 0.84 → 0.91(+0.07)로 향상된 반면, 재현율(Recall)은 0.90 → 0.88(−0.02)로 소폭 감소하였다. 이는 Precision–Recall 간의 균형 조정이 이루어졌음을 의미한다. 결과적으로 오경보(False Positive) 감소를 통해 알람 품질을 개선하면서, 전체 F1-score는 0.87 → 0.89로 향상되었다.

4-4 모델별 성능 비교 및 분석

표 12에 요약된 바와 같이, 세 단계의 모델은 각기 다른 목적을 통해 점진적인 성능 향상을 달성하였다.

Model-wise performance summary (test set; baseline/SMOTE at τ=0.50, optimized at τ=0.74; positive=Fire)

첫째, Baseline DNN은 AUROC = 0.97, Accuracy = 0.93으로 전반적인 분류 성능이 양호하였다. 그러나 Fire 클래스의 재현율(Recall)은 0.83(FN = 22)으로 미탐률(FNR = 0.165)이 높게 나타났다. 이는 모델이 다수 클래스(No Fire)에 보수적으로 반응한 결과로, 화재 예측 민감도 향상이 필요한 상태였다.

둘째, SMOTE + 5-fold 교차검증 모델은 소수 클래스의 표현 확장으로 Fire 클래스의 재현율이 0.83 → 0.90(+0.07)로 상승하였으나, 정밀도(Precision)는 0.92 → 0.84(−0.08)로 감소하였다. 이로 인해 오탐률(FPR = 0.077)이 높아지고, 경보 빈도(Alarm rate)가 27.9%에서 33.0%로 증가하였다. 이는 정밀도(Precision)와 재현율(Recall) 간의 전형적인 트레이드오프(Trade-off) 현상으로 해석된다.

셋째, 하이퍼파라미터 최적화 모델(+τ = 0.74)은 Precision = 0.91(FP = 12)로 오경보(False Positive)를 크게 줄이면서, Recall = 0.88을 유지하여 F1-score = 0.89와 Accuracy = 0.94를 달성하였다(총 오류 건수 36 → 28). 즉, 2차 단계에서 확보한 민감도 향상을 기반으로, 3차 단계에서는 임계값 재설정과 구조적 최적화를 통해 정밀도를 회복하고 전체적인 성능 균형을 개선하였다.


Ⅴ. 실증 분석

5-1 예측 데이터 수집

모델의 실사용 가능성을 검증하기 위해, 학습 단계와 동일한 입력 변수 및 전처리 파이프라인을 사용하되 모든 특징(feature)은 예측 기준시점(T) 이전의 정보만을 활용하였다. 대상 지역은 경상북도 전역이며, 계절별 예측 성능 비교를 위해 표 13의 네 기간(Spring, Summer, Fall, Winter)을 수집하였다.

Dataset status by forecast period (Gyeongsangbuk-do)

입력 변수는 Landsat-8(LST 등)과 ERA5-Land(2 m 기온, 2 m 이슬점, 총강수량, 표층 토양수분, 상대습도 파생 변수)의 동일 구성을 유지하였다. 구름 및 그림자 마스킹 → 시간 정합 → 공간 매칭의 전처리 절차는 학습 단계와 동일하게 적용하였다. 단, Landsat-8 데이터는 예측 기준시점 T를 기준으로 직전 2일(−2~0일) 이내의 관측만을 허용하여 시점 누수를 차단하였다. ERA5-Land 변수는 예측 기준시점 T의 직전 7일([T−7, T−1]) 구간을 기반으로 집계·누적·래깅하여 구성하였다.

토지피복(MCD12Q1) 기반으로 비산림 및 도시 지역 픽셀은 예측 단계에서도 제외하였다. 예측 데이터 그리드는 (위도, 경도, 날짜)의 3차원 좌표 체계로 구성하였으며, 동일 위치라도 날짜가 다를 경우 서로 다른 표본으로 처리하였다. 따라서 시각화 시 동일 지점에 상이한 상태가 겹쳐 보일 수 있으나, 이는 시간 축을 포함한 정상적인 스태킹(Stacking) 결과이며, 단일 날짜 단면에서는 중복이 발생하지 않는다.

5-2 예측 절차 및 결과

최종 예측에는 GridSearchCV로 최적화된 모델을 사용하였으며, 의사결정 임계값(τ)은 0.74로 설정하였다. 예측 파이프라인은 학습 단계와 동일한 입력 변수 구성과 전처리 절차(구름·그림자 마스킹, 시간 정합[T−2∼T, 직전 2일 이내], 공간 근접 매칭 ≤300 m, StandardScaler의 학습 세트 통계 적용)를 유지하였다. 모든 특징(feature)은 예측 기준시점(T) 이전의 정보만을 사용하도록 정합하여, 미래 정보 누출을 방지하였다.

경상북도 전역을 대상으로 계절별 기간(봄, 여름, 가을, 겨울)에 대해 (위도, 경도, 날짜) 단위의 예측 표본을 생성하였다. 이후 저장된 모델(.keras)을 로드하여 포인트별 산불 발생 확률을 산출하고, 임계값 τ를 적용해 예측확률이 τ 이상인 경우 fire = 1, 미만인 경우 fire = 0으로 이진 분류하였다. 동일한 위·경도라도 날짜가 다를 경우 서로 다른 표본으로 처리되므로, 시각화 시 동일 지점에 상이한 예측 결과가 중첩되어 보일 수 있다. 이는 시간 축을 포함한 정상적인 스태킹(Stacking) 결과이며, 단일 날짜 단면에서는 중복이 발생하지 않는다.

계절별 예측 집계 결과는 표 14에 요약하였다. 봄(3월)과 겨울(1월) 기간에는 예측된 산불 비율(Fire rate)이 각각 60.9%와 92.2%로 높게 나타났으며, 여름(0.3%)과 가을(37.7%)은 상대적으로 낮았다. 이러한 결과는 실제 관측된 계절적 산불 발생 경향(건조한 봄·겨울에 집중, 여름철 최소)과 일치하여 모델의 예측 타당성을 지지한다.

Statistics on seasonal wildfire forecast results (Gyeongsangbuk-do)

5-3 예측 결과 시각화

예측 결과는 Folium 기반의 인터랙티브 지도 형태로 탐색하였으며, 학회지 게재용 도판은 동일한 타일, 색상, 투명도 규칙을 적용하여 정적 이미지로 제작하였다. 모든 예측에는 최종 모델(§4.3)의 의사결정 임계값 τ = 0.74를 적용하였으며, 양성(positive) 클래스는 Fire = 1로 정의하였다.

표본은 (위도, 경도, 날짜) 단위로 구성되어 있으며, 동일한 위치라도 날짜가 다를 경우 서로 다른 표본으로 표시된다. 포인트는 Fire = 1(적색), Fire = 0(청색)으로 구분하고, 마커 투명도(opacity)를 이용해 중첩 밀도와 예측 강도를 시각적으로 표현하였다. 지도는 행정경계와 동일한 좌표계를 사용하였으며, 시각적 일관성을 확보하기 위해 확대 수준(zoom)과 컬러 스케일을 통일하였다.

계절별 예측 결과(봄 2025-03, 여름 2024-07, 가을 2024-10, 겨울 2025-01)는 그림 2의 네 개 패널로 제시하였다. 예측된 공간 분포를 보면, 봄과 겨울 기간에는 경상북도 북부 및 동부 산악 지역을 중심으로 산불 위험 지역이 집중되는 반면, 여름에는 대부분 지역이 저위험(청색)으로 나타났다. 이러한 계절별 차이는 앞서 표 14의 통계적 결과와 일치하며, 건조·고온 계절에 모델이 높은 산불 확률을 산출함을 확인할 수 있다. 봄·겨울에 고위험으로 예측된 지역은 상대적으로 낮은 표층 토양수분(swvl1)과 낮은 상대습도, 그리고 서풍·북서풍 계열의 강한 바람이 자주 나타나는 구역과 대체로 일치한다. 반대로 여름에는 강수량과 토양수분이 전반적으로 증가하면서 대부분 지역이 저위험으로 분류되어, 예측 패턴이 주요 기상·수분 조건과 일관되게 나타남을 알 수 있다.

Fig. 2.

Seasonal wildfire forecasts in Gyeongsangbuk-do (τ=0.74, positive=Fire)*Local administrative area names are presented in Korean to maintain geographic accuracy and consistency with the official Korean map database, as Romanized expressions may cause confusion due to identical spellings of different regions.


Ⅵ. 결론 및 논의

본 연구는 Landsat-8 위성영상과 ERA5-Land 재분석 기상자료를 융합한 DNN 기반 산불 예측 모델을 제안하고, 불균형 대응–교차검증–하이퍼파라미터 및 의사결정 임계값(τ) 최적화를 통해 모델 성능을 단계적으로 고도화하였다.

비교 결과, Baseline DNN은 Accuracy = 0.93, AUROC = 0.97, Fire-F1 = 0.87로 전반적인 분류 성능이 양호하였으나, Fire 클래스의 미탐(False Negative)이 상대적으로 높았다. SMOTE + 5-fold 교차검증 모델은 Fire Recall이 0.83 → 0.90으로 향상되어 FN이 유의하게 감소했으나, 정밀도 하락으로 Accuracy는 0.92로 소폭 낮아졌다. 최종적으로 dropout = 0.20, neurons = 256, batch_size = 32, τ = 0.74의 설정을 적용한 최적화 모델은 Precision(Fire) = 0.91, Recall(Fire) = 0.88, Fire-F1 = 0.89, Accuracy = 0.94를 달성하며 정밀도–재현율의 균형을 회복하였다(혼동행렬: FP = 12, FN = 16). 모델별 종합 비교 결과는 Table 12에 제시하였다.

학술적 측면에서 본 연구의 의의는 다음과 같이 정리할 수 있다.

첫째, 30 m 공간해상도 위성 자료와 시간 단위 기상 자료를 스케일 정합하여 융합함으로써, 산불 예측에 적합한 시공간 통합 프레임워크를 제시하였다. 이는 단일 지수나 단일 자료에 의존하던 기존 접근에 비해, 공간 패턴과 시간 변동성을 동시에 고려할 수 있는 구조라는 점에서 의미가 있다.

둘째, 클래스 불균형 대응, 공간 블록 교차검증, PR 기반 임계값 최적화를 하나의 실증 프레임으로 통합함으로써, 전통적인 산불위험 지수 체계가 충분히 고려하지 못했던 부분(불균형 데이터, 공간 일반화, 임계값 고정 문제)을 보완하였다. 특히 재난 예측 맥락에서 중요한 Fire 클래스 재현율과 정밀도 사이의 트레이드오프를 정량적으로 분석하고, 정책·운영 목적에 따라 임계값을 조정할 수 있는 근거를 제시하였다.

셋째, 경상북도 지역을 대상으로 한 계절별 예측 실험에서 봄·겨울의 고위험 패턴(예측 비율 60.9%, 92.2%)과 여름·가을의 저위험 패턴(0.3%, 37.7%)이 뚜렷하게 나타났으며, 이는 건조·온도·풍속 조건의 계절적 차이를 모델이 반영하고 있음을 보여준다(표 14, 그림 2). 이러한 결과는 계절·권역별로 차별화된 산불 대응 전략을 설계하는 데 기초 정보로 활용될 수 있다.

한편, 본 연구는 다음과 같은 한계를 지닌다.

첫째, 학습·평가에 사용된 데이터가 2023년 1월부터 2024년 5월까지의 비교적 단기 구간에 한정되어 있어, 이상고온이나 장기 가뭄과 같은 극한 기상 상황과 장기 기후변동을 충분히 포착하지 못한다. 따라서 제안 모델의 장기적 일반화 가능성과 극단적 사건에 대한 예측력은 부분적으로만 검증된 상태이며, 결과 해석 시 이 점을 고려할 필요가 있다.

둘째, Landsat-8의 약 16일 재방문 주기와 운량(구름·연무 등)에 대한 민감성으로 인해, 고해상 공간 정보를 제공하는 장점에도 불구하고 단독으로는 준실시간 감시·운영에 활용하는 데 구조적 제약이 존재한다. 특정 시·공간 구간에서는 관측 공백이 발생할 수 있으며, 이는 입력 데이터의 시계열 연속성과 예측 갱신 빈도에 영향을 미친다.

셋째, 평가 설계가 홀드아웃과 공간 블록 5-fold 교차검증 중심으로 이루어져 있어, 공간·시간 축을 더 세분화한 검증과 통계적 유의성 검정 측면에서 보완 여지가 있다. 본 연구에서는 모델별 AUC-PR, Fire-F1, Recall 등 핵심 지표를 비교하였으나, 부트스트랩 기반 신뢰구간이나 DeLong 검정 등을 통한 성능 차이의 통계적 유의성을 직접적으로 보고하지는 못하였다. 따라서 모델 간 우위의 크기와 불확실성을 보다 엄밀하게 규명하기 위해서는 평가 체계에 대한 추가 고도화가 필요하다.

넷째, 본 연구에서 사용한 SMOTE는 탭형(tabular) 특성 공간에서 합성 표본을 생성하는 기법으로, 위성·기상 변수 간의 물리적 결합 관계를 완전히 보존하지 못할 가능성이 있다. 특히 극한 기상 조건이나 드문 조합에서는 합성 샘플이 실제 자연 상태를 충분히 대표하지 못할 수 있으므로, 본 연구에서는 SMOTE를 학습 세트에 한정된 보조 실험으로 사용하였다. 향후 연구에서는 클래스 가중, Focal Loss, 비용민감(cost-sensitive) 학습 등 물리적 의미를 상대적으로 덜 왜곡하는 불균형 대응 기법을 중심으로 비교·검증할 필요가 있다.

이러한 기여와 한계를 종합하면, 제안한 위성–기상 융합 딥러닝 모델은 단기·지역 단위 산불위험 예측 도구로서의 가능성을 보여주었으나, 장기 시계열과 멀티센서 자료를 포함한 확장, 그리고 평가 체계 및 운영 전략의 정교화가 뒤따를 때 실제 산불 관리 현장에서 활용 가능한 예측 시스템으로 발전할 잠재력이 크다.


Ⅶ. 제 언

본 절은 제안 모델의 운영·확장·배포 관점에서의 실질적 활용 방안을 제시한다.

첫째, 운영 및 정책 적용 관점에서 임계값(τ)의 가변적 운용 전략이 필요하다. 겨울·봄처럼 화재 민감도가 높은 기간·권역에서는 Fire Recall 또는 미탐률 상한을 기준으로 τ를 낮추어 탐지 민감도를 우선시하고, 오경보 비용이 상대적으로 큰 기간·권역에서는 Precision을 중시하여 τ를 높게 설정하는 방식이 적절하다. 또한 하루 경보량을 관리하기 위해 일별 Top-k% 경보(알람 예산) 방식을 병행하고, 수집–전처리–추론–시각화–경보 발령 과정을 자동화한 웹 대시보드·API를 구축하여 기관·사용자별 접근 권한을 차등 부여할 필요가 있다. 이때 계절별 고위험 지역은 우선 순찰 및 장비 전진배치 대상 구역으로 지정함으로써 예측 결과를 현장 운영과 바로 연결할 수 있다.

둘째, 데이터 및 모델 일반화 강화를 위해 장기 시계열과 멀티센서 통합을 체계적으로 추진할 필요가 있다. 향후 연구에서는 Landsat-8/9뿐 아니라 Sentinel-2, VIIRS, Himawari 등 서로 다른 공간·시간 해상도를 갖는 센서를 통합하여, 고해상 공간 패턴과 고빈도 시간 정보가 결합된 입력 구조를 설계할 수 있다. 이러한 멀티센서 자료 위에 본 연구의 DNN 구조를 확장하고, 국내 농림위성 등 신규 위성자료가 공개될 경우 한국형 준실시간 예측 체계로 연계한다면, 장기·극한 상황을 포괄하는 보다 견고한 산불 예측 플랫폼으로 발전시킬 수 있을 것이다. 검증 단계에서는 시·군 또는 기상구역 단위의 공간 블록 교차검증과 계절 홀드아웃(time-based) 검증을 표준화하고, McNemar 검정, 부트스트랩 기반 신뢰구간, DeLong 검정 등을 정례화하여 평가의 통계적 신뢰도를 높일 필요가 있다. 또한 불균형 처리 측면에서는 SMOTE를 보조 기법으로 활용하되, 향후 연구에서는 클래스 가중, Focal Loss, 비용민감 학습 등 물리적 타당성을 보다 잘 유지하는 대안 기법들을 중심으로 비교·검증할 필요가 있다.

셋째, 확률 보정(Calibration)과 로컬 임계값(Local thresholding)을 결합한 운영 전략이 요구된다. Platt 스케일링 또는 Isotonic 회귀 등을 통해 예측 확률을 보정한 뒤, 목표 허위경보율(FPR)이나 일일 알람률에 맞추어 τ를 선택하거나, 비용민감 임계값(cost-sensitive threshold)을 적용함으로써 Precision–Recall 트레이드오프를 현장 상황에 맞게 조정할 수 있다. 동시에 SHAP, Permutation Importance 등의 기법을 활용하여 주요 변수의 기여도를 분석하고, FP·FN 사례의 공간·지형·토지피복별 분포를 검토한다면, “우선 감시 구역”과 “대표적 오경보 유형”을 도출하여 실무 지침으로 활용할 수 있다.

넷째, 모델의 재현성과 배포 가능성을 확보하기 위한 관리 체계가 필요하다. 시드(seed), 라이브러리 버전, 모델 가중치, 임계값(τ) 등 핵심 설정을 버전 관리 시스템으로 관리하고 변경 이력을 기록함으로써, 동일 환경에서의 재학습 및 재현을 용이하게 할 수 있다. 코드와 설정(그리고 허용되는 범위 내 데이터 경로)을 공개·공유하면 타 기관 및 연구자가 동일 프레임워크를 적용·검증하는 데 도움이 되며, 운영 보고서에는 Accuracy, AUROC뿐 아니라 Fire-Recall, Fire-F1, FP+FN(오류 건수)와 같은 지표를 필수적으로 병기하여 현장 의사결정자가 예측 성능을 다각도로 이해할 수 있도록 해야 한다.

다섯째, 모델 구조 및 설명변수를 확장하여 성능과 일반화를 동시에 추구할 필요가 있다. ConvLSTM, TempCNN, U-Net 등 시공간 구조를 직접적으로 다루는 딥러닝 모델을 도입하여 본 연구의 DNN과 체계적으로 비교하고, VPD(증기압결핍), 지형 변수(고도, 경사, 향), 인문·사회 변수(접근성, 인구, 토지 이용 등)를 추가 설명변수로 확장하는 방향을 고려할 수 있다. 이때 모든 특징은 예측 기준시점(T) 이전에 관측 가능한 정보만을 사용하는 파이프라인 일관성을 유지함으로써, 실제 운용 가능성이 담보되도록 해야 한다.

References

  • Intergovernmental Panel on Climate Change (IPCC). Climate Change 2022: Impacts, Adaptation and Vulnerability [Internet]. Available: https://www.ipcc.ch/report/ar6/wg2/, .
  • Natural Resources Canada. Canadian Forest Fire Weather Index (FWI) System—Map Viewer [Internet]. Available: https://cwfis.cfs.nrcan.gc.ca/maps/fw?type=fwi, .
  • Korea Forest Service (KFS). Forest Fire Information System [Internet]. Available: http://forestfire.nifos.go.kr/main.action, .
  • W. M. Jolly, P. H. Freeborn, L. S. Bradshaw, J. Wallace, and S. Brittain, “Modernizing the U.S. National Fire Danger Rating System (Version 4): Simplified Fuel Models and Improved Live and Dead Fuel Moisture Calculations,” Environmental Modelling & Software, Vol. 181, 106181, 2024. [https://doi.org/10.1016/j.envsoft.2024.106181]
  • Y.-J. Kang, S.-M. Park, E.-N. Jang, J.-H. Im, C.-G. Kwon, and S.-J. Lee, “Spatio-Temporal Enhancement of Forest Fire Risk Index Using Weather Forecast and Satellite Data in South Korea,” Journal of the Korean Association of Geographic Information Studies, Vol. 22, No. 4, pp. 116-130, 2019. [https://doi.org/10.11108/kagis.2019.22.4.116]
  • Z. Xu, J. Li, S. Cheng, X. Rui, Y. Zhao, H. He, ... and L. Xu, “Deep Learning for Wildfire Risk Prediction: A Survey of Recent Advances Using Deep Learning Techniques,” arXiv:2405.01607, , 2024. https://arxiv.org/abs/2405.01607
  • USGS EROS Center. Landsat 8–9 OLI/TIRS Level-2, Collection 2 [Internet]. Available: [https://doi.org/10.5066/P9OGBGM6]
  • European Centre for Medium-Range Weather Forecasts (ECMWF). ERA5-Land: Data documentation [Internet]. Available: https://confluence.ecmwf.int/display/CKB/ERA5-Land%3A+data+documentation, .
  • J. Muñoz-Sabater, E. Dutra, A. Agustí-Panareda, C. Albergel, G. Arduini, G. Balsamo, ... and J.-N. Thépaut, “ERA5-Land: A State-of-the-Art Global Reanalysis Dataset for Land Applications,” Earth System Science Data, Vol. 13, No. 9, pp. 4349-4383, 2021. [https://doi.org/10.5194/essd-13-4349-2021]
  • N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, “SMOTE: Synthetic Minority Over-Sampling Technique,” Journal of Artificial Intelligence Research, Vol. 16, pp. 321-357, 2002. [https://doi.org/10.1613/jair.953]
  • B. Bischl, M. Binder, M. Lang, T. Pielok, J. Richter, S. Coors, ... and M. Lindauer, Hyperparameter Optimization: Foundations, Algorithms, Best Practices, and Open Challenges, Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, Vol 13, No. 2, e1484, 2023. [https://doi.org/10.1002/widm.1484]
  • J. E. Keeley, “Fire Intensity, Fire Severity and Burn Severity: A Brief Review and Suggested Usage,” International Journal of Wildland Fire, Vol. 18, No. 1, pp. 116-126, 2009. [https://doi.org/10.1071/WF07049]
  • B.-D. Lee, K.-S. Koo, and M.-B. Lee, “Forest Fire Direction and Spread Characteristics by Field Investigations,” Fire Science and Engineering, Vol. 23, No. 5, pp. 96-102, 2009. https://www.koreascience.kr/article/JAKO200908856860530.pub
  • L. Vlassova, F. Perez-Cabello, M. R. Mimbrero, R. M. Llovería, and A. García-Martín, “Analysis of the Relationship between Land Surface Temperature and Wildfire Severity in a Series of Landsat Images,” Remote Sensing, Vol. 6, No. 7, pp. 6136-6162, 2014. [https://doi.org/10.3390/rs6076136]
  • O. Ghorbanzadeh, T. Blaschke, K. Gholamnia, and J. Aryal, “Forest Fire Susceptibility and Risk Mapping Using Social/Infrastructural Vulnerability and Environmental Variables,” Fire, Vol. 2, No. 3, 50, 2019. [https://doi.org/10.3390/fire2030050]
  • S.-K. Kim and J.-G. Ahn, “Data Mining Based Forest Fires Prediction Models Using Meteorological Data,” Journal of the Korea Academia-Industrial Cooperation Society, Vol. 21, No. 8, pp. 521-529, 2020. [https://doi.org/10.5762/KAIS.2020.21.8.521]
  • W. Peng, Y. Wei, G. Chen, G. Lu, Q. Ye, R. Ding, ... and Z. Cheng, “Analysis of Wildfire Danger Level Using Logistic Regression Model in Sichuan Province, China,” Forests, Vol. 14, No. 12, 2352, 2023. [https://doi.org/10.3390/f14122352]
  • D. Rosadi, D. Arisanty, and W. Andriyani, “Prediction of Forest Fire Occurrences in Peatlands - Unbalanced - Data Using Hybrid ADASYN–Machine Learning Method,” AIP Conference Proceedings, Vol. 3024, No. 1, 030005, 2024. [https://doi.org/10.1063/5.0204719]
김문기(Moon Kee Kim)

2025년:한국기술교육대학교 IT융합과학경영산업대학원 (공학석사 - AI융합교육학과)

1994년~2015년: SK텔레콤 엔지니어링본부 및 연구소

2015년~2019년: 2018평창동계올림픽조직위원회 정보통신국

2024년~현 재: 한국기술교육대학교 AI융합교육학과 석사

※관심분야:AI, 인공위성데이터, 로봇, 메타버스 등

배현영(Hyun-Young Bae)

2024년:한국기술교육대학교 IT융합과학경영산업대학원 (공학석사 - AI융합교육학과)

2024년~현 재: 서강대학교 메타버스전문대학원 박사과정

2025년~현 재: 한국기술교육대학교 IT융합과학경영산업대학원 AI융합교육학과 겸임교수

※관심분야:AI, AI융합교육, 가상융합, 디지털트윈 등

Fig. 1.

Fig. 1.
Visualization of wildfire points(red: fire 1, blue: fire 0)

Fig. 2.

Fig. 2.
Seasonal wildfire forecasts in Gyeongsangbuk-do (τ=0.74, positive=Fire)*Local administrative area names are presented in Korean to maintain geographic accuracy and consistency with the official Korean map database, as Romanized expressions may cause confusion due to identical spellings of different regions.

Table 1.

Selected independent and dependent variables

Category Variable Name Units Type Source
Independent Variables 2m_temperature K→°C derived† ERA5-
Land
2m_dewpoint_temperature K→°C derived†
relative_humidity_2m % derived‡
total_precipitation mm* raw
volumetric_soil_water_layer_1 m³/m³ raw
LST_C (from ST_B10) °C derived§ Landsat 8
Dependent Variable fire (1=fire, 0=non-fire) - label FIRMS

Table 2.

Image datasets for deep learning

Dataset Landsat8 ERA5-Land FIRMS
Image count 363 516 151

Table 3.

Basic deep learning modeling stack

Component Setting
Input Input(6 features)
Hidden layers Dense(64, ReLU) → Dense(32, ReLU) → Dropout(0.30) → Dense(16, ReLU)
Output Dense(1, Sigmoid)
Loss / Optimizer Binary cross-entropy / Adam
Metrics Accuracy, Precision, Recall, F1-score, AUC
Training epochs=150, batch_size=32, early stopping(patience=10, restore_best_weights=True)
Class imbalance Not applied in Baseline
(no class_weight, no SMOTE)

Table 4.

Hyperparameter Optimization Targets

Hyperparameter Name Searching Values
dropout_rate 0.15, 0.2, 0.25, 0.3
neurons 64, 128, 256
batch_size 16, 32
activation threshold flexible

Table 5.

Classification metrics of the baseline DNN (test set)

Class Precision Recall F1-score Support
No Fire 0.93 0.97 0.95 300
Fire 0.92 0.83 0.87 133
Accuracy 0.93 433
Macro avg 0.92 0.90 0.91 -
Weighted avg 0.93 0.93 0.93 433
ROC–AUC 0.97 -

Table 6.

Confusion matrix of the baseline DNN (actual × predicted)

Actual ₩ Predicted No Fire Fire
No Fire 290 10
Fire 22 111

Table 7.

Classification metrics of the SMOTE + 5-fold model (test set)

Class Precision Recall F1-score Support
No Fire 0.96 0.92 0.94 300
Fire 0.84 0.90 0.87 133
Accuracy 0.92 433
Macro avg 0.90 0.91 0.90 -
Weighted avg 0.92 0.92 0.92 433
ROC–AUC 0.97 -

Table 8.

Confusion matrix of the SMOTE + 5-fold model (actual × predicted, test set)

Actual ₩ Predicted No Fire Fire
No Fire 277 23
Fire 13 120

Table 9.

Optimal hyper-parameter values

Hyper-parameter Optimal Values
dropout_rate 0.2
neurons 256
batch_size 32
activation threshold 0.7390

Table 10.

Classification metrics of the optimized model (test set)

Class Precision Recall F1-score Support
No Fire 0.95 0.96 0.95 300
Fire 0.91 0.88 0.89 133
Accuracy 0.94 433
Macro avg 0.93 0.92 0.92 -
Weighted avg 0.93 0.94 0.94 433
ROC–AUC 0.97 -

Table 11.

Confusion matrix of the optimized model (actual × predicted, test set)

No Fire Fire
No Fire 288 12
Fire 16 117

Table 12.

Model-wise performance summary (test set; baseline/SMOTE at τ=0.50, optimized at τ=0.74; positive=Fire)

Model Accuracy F1- Score
(NoFire/Fire)
Error Count
(FP+FN)
Baseline DNN .93 .95/.87 32
SMOTE + 5-fold CV .92 .94/.87 36
Hyperparameter Optimization (+τ) .94 .95/.89 28

Table 13.

Dataset status by forecast period (Gyeongsangbuk-do)

Period Landsat 8 — Scenes ERA5-Land — Time steps CSV Record Count*
Spring
(2025.03.10–03.20)
6 21 26,809
Summer
(2024.07.20–08.05)
5 16 31,041
Fall (2024.10.01–10.15) 5 14 30,893
Winter (2025.01.01–01.20) 5 19 30,906

Table 14.

Statistics on seasonal wildfire forecast results (Gyeongsangbuk-do)

Period Total points Fire predicted No fire predicted Fire rate(%)
Spring
(2025.03.10–03.20)
26,809 16,336 10,473 60.9
Summer
(2024.07.20–08.05)
31,041 104 30,937 0.3
Fall (2024.10.01–10.15) 30,893 11,648 19,245 37.7
Winter (2025.01.01–01.20) 30,906 28,482 2,424 92.2