Korea Digital Contents Society

Current Issue

Journal of Digital Contents Society - Vol. 27, No. 3

[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 11, pp. 3187-3195
Abbreviation: J. DCS
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 30 Nov 2025
Received 19 Sep 2025 Revised 10 Oct 2025 Accepted 13 Oct 2025
DOI: https://doi.org/10.9728/dcs.2025.26.11.3187

금융 사기 탐지를 위한 시간 인식 슬라이딩 윈도우 기반 머신러닝 평가 프레임워크
이솔비1 ; 강인혁2 ; 권정혁1 ; 김지온3 ; 김의직4, *
1한림대학교 스마트컴퓨팅연구소 연구교수
2한림대학교 융합소프트웨어학과 박사과정
3한림대학교 융합과학수사학과 부교수
4한림대학교 소프트웨어학부 교수

Time-Aware Sliding Window-Based Machine Learning Evaluation Framework for Financial Fraud Detection
Sol-Bee Lee1 ; Inhyeok Kang2 ; Jung-Hyok Kwon1 ; Ji-On Kim3 ; Eui-Jik Kim4, *
1Research Professor, Smart Computing Laboratory, Hallym University, Chuncheon 24252, Korea
2Ph.D. Course, Department of Convergence Software, Hallym University, Chuncheon 24252, Korea
3Associate Professor, Department of Forensic Information Science and Technology, Hallym University, Chuncheon 24252, Korea
4Professor, Division of Software, Hallym University, Chuncheon 24252, Korea
Correspondence to : *Eui-Jik Kim Tel: +82-33-248-2333 E-mail: ejkim32@hallym.ac.kr


Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Funding Information ▼

초록

최근 몇 년 동안, 보이스피싱이 점점 더 정교해지면서 금융 사기를 적발하는 것은 어려운 과제가 되었다. 이를 해결하기 위해, 금융 사기 탐지를 위한 시간 인식 슬라이딩 윈도우 기반 머신러닝 평가 프레임워크를 제안한다. 제안하는 프레임워크는 전처리, 특징 선택, 슬라이딩 윈도우 생성, 모델 학습 및 평가를 통해 시간 흐름에 따라 변화하는 데이터 분포에서 지속적인 학습 및 평가를 가능하게 한다. IBM Anti-Money Laundering 데이터셋을 사용하여 사기 거래 빈도가 낮은 그룹과 높은 그룹을 대상으로 Random Forest, LightGBM, CatBoost, XGBoost 모델의 성능을 비교했다. 실험 결과, 슬라이딩 윈도우 기반 학습 및 평가가 고정된 학습 및 평가 방식에 비해 상대적으로 우수한 성능을 나타냄을 확인할 수 있었다. 결과적으로, 슬라이딩 윈도우 기법을 적용하는 것이 실제 금융 사기 탐지의 신뢰성과 실용성을 높이는 데 효과적임을 보여준다.

Abstract

In recent years, voice phishing has become increasingly sophisticated and has rendered the detection of financial frauds challenging. To address this, we propose a time-aware sliding window–based machine learning evaluation framework for financial fraud detection. This framework integrates preprocessing, feature selection, sliding window generation, model training, and evaluation, enabling continuous assessment under changing data distributions. Using the IBM Transactions for Anti-Money Laundering dataset, we compared random forest, LightGBM, XGBoost, and CatBoost on groups with lower and a higher illicit ratios. The results show that sliding window–based training and evaluation achieve relatively superior performance compared to fixed training and evaluation methods. These findings demonstrate that applying the sliding window technique is effective for enhancing the reliability and practicality of real-world financial fraud detection.


Keywords: Financial Fraud Detection, Machine Learning, Sliding Window, Anti-Money Laundering, Evaluation Framework
키워드: 금융 사기 탐지, 머신러닝, 슬라이딩 윈도우, 자금 세탁 방지, 평가 프레임워크

Ⅰ. 서 론

최근 몇 년간 보이스피싱을 통한 금융 사기가 급격하게 증가하고 있다[1],[2]. 보이스피싱은 불특정 다수의 피해자들을 속여 거액의 자금을 범죄 조직의 계좌로 송금하게 한다. 이는 피해자들의 자산을 직접적으로 위협할 뿐만 아니라 심각한 사회적 문제를 초래하고 있다[3]. 이에 따라, 보이스피싱의 조기 탐지와 불법 송금의 추적 및 차단이 긴급하고도 핵심적인 과제로 대두되고 있다. 그러나 보이스피싱을 탐지하는 일은 결코 단순하지 않다. 이는 정교한 심리적 기법과 복잡한 자금 이체 구조가 결합되어 있기 때문이다[4],[5].

구체적으로, 보이스피싱의 경우, 범죄 조직이 피해자에게 전화를 걸어 금융기관이나 수사기관을 사칭해 자산 보호를 명목으로 다른 계좌로의 송금을 유도한다[6]. 이때 송금액 및 계좌 명의자 등은 일반 금융 거래와 크게 구별되지 않으므로 단순한 규칙 기반 기법만으로는 탐지가 어렵다[7]. 간혹 반복적이고 일관된 송금 패턴이 일부 드러나기도 하나 비대면 금융거래가 확대되면서 보이스피싱의 수법도 날로 진화하고 고도화되고 있다. 특히, 피해자의 심리적 약점을 이용하거나 피해자의 연령 및 상황에 따른 맞춤형 수법을 사용하기 때문에 보이스피싱을 통한 금융 사기를 탐지하는 것은 여전히 어려운 문제로 남아 있다[8].

더 나아가 보이스피싱 범죄 조직은 다수의 인출 계좌와 차명 계좌를 활용해 자금을 신속히 분산하여 인출함으로써 흔적을 은폐하는데, 이는 자금 세탁과 유사한 방식을 보인다. 이러한 특징으로 인해 보이스피싱 관련 사기 거래 탐지는 단순한 거래 단위의 분석을 넘어, 자금 이동 경로, 계좌 간 연관 관계, 송금 시점 및 빈도 등을 종합적으로 분석해야 하는 복잡한 문제가 된다[9]. 결과적으로, 보이스피싱은 피해자를 대상으로 한 심리적 기만 행위와 다계좌 기반 자금 은닉 전략이 결합된 형태의 금융 사기로, 앞서 언급된 보이스피싱의 복합적인 특성이 사기 거래 탐지를 어렵게 만들 뿐 아니라 금융 시스템의 안정성에도 심각한 위협이 될 수 있다는 문제가 있다[10].

전통적인 금융 사기 탐지 모델은 일반적으로 거래 내역에서 속성-값 형태의 특징을 추출하고, 계좌 단위의 합계나 빈도와 같은 집계 정보를 활용하여 지도학습 또는 비지도학습 기법을 적용한다[11]. 그러나 보이스피싱 및 자금 세탁은 자금이 여러 차명 계좌와 인출 계좌로 빠르게 분산되는 특징을 보이므로 단일 속성만으로는 사기 거래를 충분히 설명하기 어렵다[12]. 또한, 모든 거래는 본질적으로 두 개의 주체와 상호 연결된 계좌를 포함하므로, 관계적인 구조를 고려해야 한다. 이러한 구조를 파악하지 않는다면 활용가능한 정보가 줄어들고, 전통적인 특징 기반 모델의 일반화 성능 측면에서도 한계가 발생한다.

이러한 측면을 고려할 때, 보이스피싱으로 인한 불법 송금 및 인출 거래를 효과적으로 탐지하기 위해서는 단순한 속성 기반 분석을 넘어 거래 패턴의 시간적 역동성과 연속성을 함께 고려할 필요가 있다. 기존에는 금융 사기 탐지를 위해 그래프 신경망, 순차 모델, 커뮤니티 탐지 등 관계 및 집단 기반 접근법이 주로 제안되어 왔다[13]. 그러나 이들 방법은 데이터의 시간적 변동이나 모델 성능의 안정성과 같은 핵심 문제를 간과하는 경우가 많았다. 따라서 금융 거래 데이터의 사기 탐지 맥락에서 시간의 흐름을 명시적으로 반영할 수 있는 평가 방법론이 제공될 필요가 있다.

본 논문에서는 금융 거래의 시계열적 특성을 반영하기 위해 슬라이딩 윈도우(Sliding Window) 기법을 적용해 머신러닝 기반 금융 사기 탐지 모델의 성능을 평가하는 프레임워크를 제안한다. 제안하는 프레임워크는 데이터 전처리, 특징 선택, 슬라이딩 윈도우 생성, 모델 학습, 모델 평가의 다섯 단계로 구성된다. 전처리와 특징 선택 단계에서는 거래 로그를 정제하고 시계열·금액·행동 기반 파생 변수를 포함한 구조화된 특징 집합을 구축한다. 이후, 슬라이딩 윈도우 기법을 적용하여 분포 변화와 드리프트를 반영한 학습·평가 환경을 구성하고, 각 윈도우에서 대표적인 트리 기반 분류기를 재학습·검증함으로써 실시간 탐지 조건에서의 성능을 측정한다. 마지막으로, 다양한 성능 지표를 활용한 정량적 분석 및 누적 분할 학습 방식과의 비교를 통해 시간 인식 슬라이딩 윈도우 기법의 실효성을 검증한다.

본 논문의 나머지 구성은 다음과 같다. 2장에서는 제안하는 시간 인식 슬라이딩 윈도우 기반 머신러닝 평가 프레임워크를 제시하고, 3장에서는 사용된 데이터셋과 실험 환경을 설명한다. 4장에서는 실험 결과 및 분석을 제시하고, 마지막으로 5장에서 본 논문의 결론을 맺는다.


Ⅱ. 시간 인식 슬라이딩 윈도우 기반 머신러닝 평가 프레임워크

제안하는 시간 인식 슬라이딩 윈도우 기반 머신러닝 평가 프레임워크는 데이터 전처리(Data Preprocessing), 특징 선택(Feature Selection), 슬라이딩 윈도우 생성(Sliding Window Creation), 모델 학습(Model Training), 모델 평가(Model Evaluation)의 다섯 단계로 구성된다. 그림 1은 금융 사기 탐지 프레임워크의 전체적인 파이프라인을 보여준다.


Fig. 1. 
Pipeline of the time-aware sliding window-based machine learning evaluation framework

먼저, 데이터 전처리 단계에서는 금융 거래 데이터셋의 품질과 일관성을 확보하고, 머신러닝 기반 분석에 적합한 형태로 변환하기 위한 처리를 수행한다. 이를 위해, 데이터셋 내 타임스탬프를 표준화하여 모든 거래를 시간순으로 정렬하고, 정렬된 시간 정보를 활용해 다양한 시계열 특징을 생성할 수 있도록 한다. 이와 함께, 순차적 분할 및 슬라이딩 윈도우 기법 적용 시, 일관성 및 재현성 보장을 위해 안정적인 인덱스를 추가 생성한다. 또한, 정보 유출을 방지하기 위해 계좌번호나 거래 ID와 같은 식별자는 제거한다. 결측치의 경우, 특징유형에 따라 다르게 처리한다. 예를 들어, 입금액 및 출금액과 같은 특징은 0으로 대체하고, 통화 및 결제 방식과 같은 범주형 속성은 ‘Missing’이라는 별도의 범주값으로 할당한다.

이후 거래 데이터의 시간적 및 금액적 특성을 구체화하기 위해 파생 변수를 생성한다. 구체적으로, 시간 기반 파생 변수(Hour, DayOfWeek, Day, Month)는 주기적 패턴과 비정상적인 거래 시점을 포착하는 데 사용될 수 있으며, 금액 기반 파생 변수(AmountAbsolute, NetAmount)는 거래 금액의 규모와 방향성을 나타내는 데 활용될 수 있다. 또한, 행동 기반 파생 변수(TimeDelta, AmountDelta)는 동일 계좌 소유자의 거래 시간 간격 및 거래 금액의 단기적 불규칙성을 측정하는 데 사용될 수 있다. 파생 변수를 생성한 이후, 데이터 중복을 방지하기 위해 기존의 타임스탬프는 제거한다.

특징 선택 단계에서는 데이터셋에서 구조화된 특징 일부를 선별하여 모델 학습에 활용할 특징 집합을 구성한다. 특히, 불필요한 복잡성을 줄이기 위해 텍스트 기반 설명이나 비정형 필드는 제외하고, 송금 및 인출 활동의 본질적 특성을 반영할 수 있는 구조화된 금융 거래 특징을 선택한다. 선택된 주요 특징에는 시간, 금액, 행동 기반 파생 변수, 은행 코드, 입금액, 출금액, 결제 방식 등이 포함된다. 또한, 정보 유출 방지를 위해 거래 ID, 계좌번호와 같은 고유 식별자를 의도적으로 제외한다. 이러한 과정을 통해 구축된 특징 집합은 합법적인 거래와 사기 거래를 효과적으로 구별할 수 있는 충분한 정보를 제공하는 동시에, 데이터셋의 식별자에 의한 과적합 문제를 방지한다.

슬라이딩 윈도우 생성 단계는 본 연구의 핵심 방법론으로, 시계열 순으로 정렬된 거래 데이터에서 연속적인 학습 및 평가 구간인 시간 윈도우(Time Window)를 생성하는 과정이다. 데이터셋의 전체 시간 범위를 고려하여 학습 및 평가에 활용할 시간 윈도우의 크기를 결정한 뒤, 각 윈도우가 일정 부분 중첩되도록 이동 간격을 설정한다. 이를 통해 슬라이딩 윈도우 기법은 기존의 고정된 학습 및 검증 방식과 달리, 시간 흐름에 따른 데이터의 역동성을 반영하고 변화하는 데이터 분포에서의 모델 학습 및 성능 평가를 연속적으로 수행할 수 있게 된다. 그림 2는 슬라이딩 윈도우와 누적 윈도우(Accumulative Window)의 예시를 보여준다.


Fig. 2. 
Example of sliding and accumulative windows

모델 학습 단계에서는 전처리 과정을 거쳐 구축된 특징 집합을 입력값으로 하여 모델을 학습시킨다. 슬라이딩 윈도우 기법을 적용하여 시간 윈도우를 사전에 정의된 간격만큼 이동시키며 학습을 반복적으로 수행한다. 이를 통해 모델은 변화하는 데이터 분포의 변화를 지속적으로 반영하면서 점진적으로 학습한다.

모델 평가 단계에서는 각 시간 윈도우에서 학습된 모델을 바로 다음의 평가 구간에 적용하여 모델의 성능을 측정한다. 이를 위해, 슬라이딩 윈도우 기반 전진 분석(Walk-Forward Analysis) 방법을 사용한다. 구체적으로, 기준 시점 이전의 시간 윈도우에서 학습된 모델을 활용해, 다음 시간 윈도우의 데이터를 평가한다. 이후 동일한 절차를 반복함으로써, 시간 흐름에 따라 변화하는 데이터 분포를 반영한 연속적 성능 검증을 수행한다.


Ⅲ. 실 험
3-1 데이터셋

본 논문에서는 Kaggle에 공개된 IBM Transactions for Anti-Money Laundering(AML) 데이터셋을 사용하였다[14]. 해당 합성 데이터셋은 개인, 기업, 은행이 존재하는 가상의 세계를 기반으로 함에 따라 서로 간의 금융 거래 내역을 포함한다. 또한, 이 데이터셋은 여섯 가지 버전으로 제공되며, 사기 거래 비율이 상대적으로 높은 그룹(HI)과 사기 거래 비율이 낮은 그룹(LI)으로 구분된다. 각 그룹은 소규모(Small), 중규모(Medium), 대규모(Large)로 세분되며, 거래 건수는 수백만 건에서 수억 건에 이른다. 실험에서는 LI-Small_Trans 및 HI-Small_Trans 거래 데이터셋을 사용하였다. 표 1은 AML 데이터셋의 예시를 보여준다.

Table 1. 
Example of AML dataset
Feature Description Example
Timestamp Year/Month/Day Hour:Minute 2022/08/01 00:17
From Bank Numeric code for bank where transaction originates 03196
Account Hexadecimal code for account where transaction originates 800107150
To Bank Numeric code for bank where transaction ends 02776
Account Hexadecimal code for account where transaction ends 84DCA3150
Amount Received Monetary amount received in From account 1880.23
Receiving Currency Currency such as dollars, euros, etc of From account US Dollar
Amount Paid Monetary amount paid 13284.41
Payment Currency Currency such as dollars, euros, etc of From account US Dollar
Payment Format How transaction was conducted
(e.g., cheque, ACH, wire, credit cards, etc.)
Credit Card

3-2 실험 환경

본 논문에서 모든 실험은 Intel Core i7-14700K CPU(3.40 GHz)와 64GB RAM을 탑재한 Windows 11(64-bit) PC에서 수행되었다. Python 3.10을 기반으로 하였으며, 데이터 처리를 위해 Pandas와 NumPy를 사용하였다. 모델 학습 및 평가를 위해 Scikit-learn v1.3.1, LightGBM v4.2.0, CatBoost v1.2.3, XGBoost v2.0.3을 활용하였다. 제안한 프레임워크의 성능을 평가하기 위해, 데이터셋을 시간순으로 정렬한 뒤 75:25의 비율로 나누어 학습 및 평가하는 모델을 베이스라인으로 설정하고, Random Forest[15], LightGBM[16], CatBoost[17], XGBoost[18]를 비교 모델로 설정하였다. 또한, 클래스 불균형 문제를 해결하기 위해, 모든 모델의 학습 과정에서 클래스 가중치를 적용하였다. 표 2는 모델들의 하이퍼파라미터를 보여준다.

Table 2. 
Hyperparameters for models
Hyperparameter Random Forest LightGBM CatBoost XGBoost
Iterations 800 1500 1200 1200
Learning Rate - 0.05 0.05 0.05
Max Depth None - 6 6
Leaf Size 3 31 - -
Row Sampling - 0.8 - 0.8
Column Sampling - 0.8 - 0.8
Objective/Loss - binary Logloss binary:logistic
Class Imbalance balanced balanced {0:1,1=neg/pos} neg/pos
Early Stopping - 100 100 100
Tree/Booster - gbdt - hist
Seed 42 42 42 42

모델의 성능 평가 지표로 Accuracy, Precision, Recall, F1-score, Receiver Operating Characteristic-Area Under Curve(ROC-AUC), Precision Recall-Area Under Curve(PR-AUC)를 사용하였다. 참고로, ROC-AUC의 경우, 성능 평가를 위해 일반적으로 사용되는 지표이지만 심각한 클래스 불균형 상황에서는 지나치게 낙관적인 결과를 제공할 수도 있다. 이에 따라, 소수 클래스에 대한 모델 성능을 직접적으로 반영하는 PR-AUC를 성능 지표로 함께 활용하였다.


Ⅳ. 실험 결과

그림 3그림 4는 LI-Small_Trans 및 HI-Small_Trans 데이터셋에 대해 Random Forest, LightGBM, CatBoost, XGBoost를 적용하여 슬라이딩 윈도우 기반 성능 평가를 수행한 결과를 보여준다.


Fig. 3. 
Sliding window evaluation results - LI-Small_Trans


Fig. 4. 
Sliding window evaluation results – HI-Small_Trans

Accuracy 측면에서 두 데이터셋 각각에서 모델들의 평균적인 성능은 0.84 및 0.88 이상으로 높게 나타났다. 특히, 이는 사기 거래에 비해 정상 거래가 압도적으로 많은 클래스 불균형의 결과로, 실제 사기 거래를 탐지하지 못하더라도 높은 수치가 도출될 수 있음을 의미한다. 이에 따라, Accuracy 지표만으로는 금융 사기 탐지 성능을 충분히 평가하기 어렵다. 또한, 슬라이딩 윈도우 기법을 적용해 성능을 평가하는 과정에서 9월 11-13일 기간부터 사기 거래의 비율이 증가하자, LightGBM과 XGBoost의 정확도가 급격히 떨어지는 경향을 보였다. 이는 두 모델이 시간 흐름에 따른 컨셉 드리프트(Concept Drift)에 대응하지 못해 다수의 사기 거래를 탐지하지 못한 결과로 해석할 수 있다. 반면, 동일 시점 이후 Random Forest와 CatBoost는 새로운 데이터에 대해 빠르게 적응하며 0.93 이상의 정확도를 유지하며 상대적으로 우수한 성능을 보였다.

Precision 측면에서는 두 데이터셋에서 모두 9월 11-13일 기간 이전까지 전반적으로 모든 모델의 정밀도가 상당히 낮게 나타났다. 이는 데이터셋 내 초기 구간에서 사기 거래 건수가 상대적으로 적어, 모델들이 탐지 과정에서 다수의 오탐(False Positive)을 발생시킨 결과로 해석할 수 있다. 상대적으로 HI-Small_Trans 데이터셋이 LI-Small_Trans에 비해 더 높은 정밀도를 나타냈는데, 이는 HI-Small_Trans 데이터셋 내 포함된 사기 거래의 비율이 더 높아 초기에 불필요한 오탐을 줄이는 데 기여했음을 시사한다. 모델별 비교 결과, 초기에는 LightGBM과 XGBoost가 비교적 높은 정밀도를 달성하였는데, 이는 두 모델이 보수적인 탐지 전략을 채택해 매우 제한적으로 사기 거래를 식별했기 때문이다. 반면, Random Forest와 CatBoost의 경우, 적극적으로 사기 거래를 탐지하려는 경향으로 인해 초반 정밀도가 0.01 내외로 아주 낮은 경향을 보였다. 그러나 시간 경과에 따라 두 모델의 정밀도는 뚜렷하게 향상되었으며, 특히 9월 11-13일 기간 이후로는 정밀도가 급격하게 상승하여 최종적으로는 모든 모델이 0.90 이상의 성능을 보였다.

Recall의 경우, 두 데이터셋 모두에서 모델 간 차이가 두드러지게 나타났다. 특히, CatBoost는 초기 구간부터 0.95 내외의 높은 재현율을 보이며, 최종적으로는 두 데이터셋 모두에서 재현율 100%에 도달하였다. Random Forest의 경우에도, 초기에 평균적으로 0.80 이상의 재현율을 달성하며 슬라이딩 윈도우 기법의 적용을 통해 점진적으로 성능을 개선하여 최종적으로 CatBoost와 동일하게 재현율 100%에 도달하였다. 반면, LightGBM과 XGBoost는 전반적으로 보수적인사기 거래 탐지 전략을 유지하여 초기에는 상대적으로 낮은 재현율을 기록하였다. 그러나, HI-Small_Trans 데이터셋에서는 시간의 경과에 따라 LightGBM과 XGBoost의 성능이 점차 개선되어 각각 최대 0.42 및 0.62의 재현율을 달성하였다. 이러한 결과는 슬라이딩 윈도우를 통한 학습이 Random Forest와 CatBoost의 적응적 성능 향상에 긍정적인 영향을 주었으나, LightGBM과 XGBoost는 사기 거래의 비율이 현저히 적은 LI-Small_Trans 데이터셋에서 컨셉 드리프트에 적절히 대응하지 못해 슬라이딩 윈도우 기법을 적용했음에도 불구하고 성능 개선이 제한적이었음을 시사한다.

F1 Score는 Precision과 Recall의 조화 평균으로, 두 지표가 동시에 일정 수준 이상으로 개선될 때 향상되므로, 성능 개선의 실질적 의미를 나타내는 지표로 사용된다. F1 Score의 경우, LI-Small_Trans 대비 HI-Small_Trans 데이터셋에서 평균적으로 약 두 배 이상 높은 성능을 보였다. 이는 HI-Small_Trans 데이터셋이 상대적으로 많은 사기 거래를 포함하고 있어, 모델들이 보다 균형 있는 정밀도와 재현율을 얻을 수 있었기 때문이다. 또한, 초기에는 LightGBM과 XGBoost가 다른 모델 대비 상대적으로 높은 F1 Score를 보였는데, 이는 보수적인 탐지 전략을 통해 제한된 수의 사기 거래만을 식별함으로써 Precision을 확보한 결과라고 볼 수 있다. 그러나, 9월 11-13일 기간 이후부터는 Random Forest와 CatBoost는 오탐을 줄여 Precision을 개선하면서도 Recall을 안정적으로 유지함에 따라 LightGBM과 XGBoost 대비 더 높은 F1 Score를 달성하였다. 그 결과, Random Forest와 CatBoost의 F1 Score는 9월 11-13일 기간 이후 급격하게 상승하여 두 데이터셋 모두에서 평균 0.98 이상으로 균형 잡힌 성능을 보였다.

ROC-AUC는 클래스 불균형에 덜 민감한 지표로, 두 데이터셋 모두에서 전반적으로 높은 성능을 달성했으나 HI-Small_Trans 데이터셋에서 다소 우위가 관찰되었다. 모델별로 살펴보면, CatBoost와 XGBoost가 가장 우수한 ROC-AUC를 유지하며 안정적인 분별력을 보였고, Random Forest와 LightGBM도 근소한 차이로 뒤따랐다. 또한, 시간의 흐름에 따라 대부분의 모델에서 ROC-AUC는 안정적으로 높은 수준을 유지하거나 오히려 소폭 향상되었다. 특히, ROC-AUC는 다양한 임계값에서의 전체적인 분류 성능을 평가함에 따라, 슬라이딩 윈도우 기법의 적용에도 큰 변동 없이 안정적인 결과를 보이는 것이 특징이다. 다만 본 연구에 사용된 데이터셋은 정상 거래가 압도적으로 많은 불균형 데이터셋이므로, ROC-AUC만으로는 실제 사기 거래 탐지 성능을 충분히 나타내기 어렵다. 이에 따라, 극심한 클래스 불균형 데이터셋의 경우, PR-AUC와 같은 보완 지표의 활용이 필수적으로 요구된다.

PR-AUC는 불균형 데이터셋에서 모델의 탐지 성능을 평가할 때 특히 신뢰도가 높고 유용한 지표로, Precision과 Recall 간의 조화를 임계값 전반에서 종합적으로 반영한다. 이는 ROC-AUC가 다수 클래스에 의해 과대평가될 수 있는 한계를 보완함으로써 소수 사건인 사기 거래에 대한 탐지 성능을 더욱 정확히 측정할 수 있도록 한다. HI-Small_Trans 데이터셋에서 모델들은 LI-Small_Trans에 비해 비교적 높은 PR-AUC를 달성했는데, 이는 HI-Small_Trans 데이터셋 내 상대적으로 많은 사기 거래가 포함되어 있어 모델들이 초기부터 양성과 음성을 보다 효과적으로 구분할 수 있었기 때문이다. 특히, LI-Small_Trans 데이터셋의 경우, 초기에 PR-AUC가 0.10 내외의 값을 보이며 사기 거래의 탐지가 거의 이루어지지 못했다. 그러나, 9월 11-13일 기간 이후부터는 양성 비율이 증가하고 사기 패턴이 뚜렷해지면서 양성과 음성의 분류가 강화되었고, 슬라이딩 윈도우 기법 적용을 통한 재학습을 통해 모델이 새로운 거래 패턴에 적응하면서 Precision과 Recall이 동시에 개선되었음을 알 수 있다.

전반적인 실험 결과를 종합해보면, 베이스라인 모델 대비 슬라이딩 윈도우 기법을 적용했을 때 모델들의 성능이 시간의 경과에 따라 꾸준히 개선되었음을 확인할 수 있었다. 특히, LI-Small_Trans처럼 초기 성능이 낮았던 데이터셋에서도 슬라이딩 윈도우 기반 재학습을 통해 정밀도와 재현율이 동시에 향상되는 것을 확인할 수 있었다. HI-Small_Trans의 경우, 이미 높은 성능을 더욱 안정적으로 유지하거나 소폭 개선이 이루어졌다. 또한, Random Forest와 CatBoost는 컨셉 드리프트가 발생해도 최신 데이터에 빠르게 적응하며 최종적으로는 다른 모델 대비 모든 지표에서 상대적으로 균형 잡힌 우수한 성능을 달성하였다. 반면, LightGBM과 XGBoost는 상대적으로 보수적인 탐지 전략을 택해 양성 탐지를 제한적으로 수행함에 따라, 컨셉 드리프트 발생 이후에도 최신 데이터에 대한 적응이 원활히 이루어지지 못해 슬라이딩 윈도우 기법의 이점을 충분히 살리지 못하는 한계를 보였다. 결과적으로, 본 연구에서는 고정된 학습 및 검증 기법을 사용하는 것보다 슬라이딩 윈도우에 기반한 지속적인 학습 및 검증 기법이 금융 사기 거래 탐지 환경에서 훨씬 현실적이며, 데이터 분포 변화에 따른 성능 저하를 완화하고, 오히려 성능 향상을 이끌어낼 수 있는 효과적인 전략임을 보여준다.


Ⅴ. 결 론

본 논문에서는 금융 거래 데이터의 시계열적 특성을 반영하기 위해 시간 인식 슬라이딩 윈도우 기반 머신러닝 평가 프레임워크를 제안하였다. 제안한 프레임워크는 데이터 전처리, 특징 선택, 슬라이딩 윈도우 생성, 모델 학습 및 평가의 일련의 과정을 통해 시간에 따른 데이터 분포 변화와 컨셉 드리프트를 고려한 성능 측정을 가능하게 한다.

실험 결과, 제안한 프레임워크를 통해 고정된 학습 및 검증 기법을 사용하는 베이스라인 모델 대비 슬라이딩 윈도우 기법을 적용한 모델이 전반적으로 우수한 성능을 달성함을 확인할 수 있었다. 특히 Random Forest와 CatBoost는 컨셉 드리프트 발생 이후에도 최신 데이터에 빠르게 적응하여 모든 지표에서 균형 잡힌 성능을 달성한 반면, LightGBM과 XGBoost는 보수적인 탐지 전략으로 인해 슬라이딩 윈도우 학습의 이점을 충분히 활용하지 못하는 한계를 드러냈다. 또한 극심한 클래스 불균형 상황에서는 ROC-AUC만으로는 탐지 성능을 정확히 평가하기 어려우며, 소수 클래스의 탐지 능력을 보다 정밀하게 반영하는 PR-AUC와 같은 보완 지표의 활용이 필수적임을 확인하였다.

제안하는 프레임워크는 머신러닝 모델의 시간적 안정성 및 분포 변화에 대한 민감도를 정밀하게 나타내며, 금융 사기 탐지 성능을 정확하게 평가할 수 있도록 한다. 또한, 제안하는 프레임워크는 타임스탬프, 레이블, 범주 및 수치형 특징을 시나리오 및 데이터 특성에 맞게 사용함으로써 다양한 데이터셋에 동일한 절차로 적용이 가능하다. 이에 따라, 제안하는 프레임워크 적용 시, 도메인에 특화된 특징 및 슬라이딩 윈도우 길이와 이동 간격만을 데이터 특성에 맞추어 조정할 경우, 그 밖의 모델 학습 및 검증 절차는 동일하게 진행된다.

결과적으로, 본 연구는 슬라이딩 윈도우 기반의 지속적인 재학습 및 평가가 시간 흐름에 따라 변화될 수 있는 금융 사기의 탐지 측면에서 더욱 효과적인 전략임을 보여준다. 이는 특히 보이스피싱과 같은 불법 송금 거래뿐만 아니라 다양한 유형의 금융 사기 탐지의 신뢰성을 높이고 피해를 최소화하는 데 실질적인 기여를 할 수 있음을 시사한다.


Acknowledgments

이 논문은 2025년도 경찰청의 재원으로 과학치안진흥센터 사이버범죄 수사단서 통합분석 및 추론시스템 개발 사업의 지원을 받아 수행된 연구임(No. RS-2025-02218280).


References
1. C. Lee, B. Kim, and H. Kim, “The Silence of the Phishers: Early-Stage Voice Phishing Detection with Runtime Permission Requests,” Computer and Security, Vol. 152, 104364, May 2025.
2. L. H. Aros, L. X. B. Molano, F. Gutierrez-Portela, J. J. M. Hernandez, and M. S. R. Barrero, “Financial Fraud Detection through the Application of Machine Learning Techniques: A Literature Review,” Humanities and Social Sciences Communications, Vol. 11, 1130, 2024.
3. S. Yu, Y. Kwon, M. Kim, and K. Lee, “Korean Voice Phishing Detection Applying NER With Key Tags and Sentence-Level N-Gram,” IEEE Access, Vol. 12, pp. 52951-52962, April 2024.
4. H. Park, J. Lee, S. Han, and H. Byun, “Enhanced Voice Phishing Detection Using an LLM-Based Framework for Data Augmentation and Classification,” IEEE Access, Vol. 13, pp. 152530-152545, August 2025.
5. J. Nicholls, A. Kuppa, and N.-A. Le-Khac, “Financial Cybercrime: A Comprehensive Survey of Deep Learning Approaches to Tackle the Evolving Financial Crime Landscape,” IEEE Access, Vol. 9, pp. 163965-163986, December 2021.
6. M. Kim, S. Hong, and J. Jung, “The Shadow of Digital Society: Why the Elderly Are Vulnerable to Online Phishing—A Case Study from South Korea,” Security Journal, Vol. 38, 48, June 2025.
7. K. Singh and P. Best, “Anti-Money Laundering: Using Data Visualization to Identify Suspicious Activity,” International Journal of Accounting Information Systems, Vol. 34, September 2019.
8. L. S. Goecks, A. L. Korzenowski, P. Gonçalves Terra Neto, D. L. de Souza, and T. Mareth, “Anti-Money Laundering and Financial Fraud Detection: A Systematic Literature Review,” Intelligent Systems in Accounting, Finance and Management, Vol. 29, No. 2, pp. 71-85, 2022.
9. M. M. Ali and N. F. Mohd Zaharon, “Phishing—A Cyber Fraud: The Types, Implications and Governance,” International Journal of Educational Reform, Vol. 33, No. 1, pp. 101-121, March 2022.
10. M. K. M. Boussougou, P. Hamandawana, and D.-J. Park, “Enhancing Voice Phishing Detection Using Multilingual Back-Translation and SMOTE: An Empirical Study,” IEEE Access, Vol. 13, pp. 37946-37965, February 2025.
11. N. M. Labib, M. A. Rizka, and A. E. M. Shokry, “Survey of Machine Learning Approaches of Anti-money Laundering Techniques to Counter Terrorism Finance,” in Proceeding of Internet of Things—Applications and Future, Singapore, 2020, pp. 73-87.
12. C. Cretu-Adatte, R. Zbinden, L. Brunoni, H. Bunning, J. W. Azi, and O. Beaudet-Labrecque, “How Do Ivorian Cyberfraudsters Manage Their Criminal Proceeds?,” European Journal on Criminal Policy and Research, Vol. 30, pp. 359-378, August 2024.
13. B. Dumitrescu, A. Băltoiu, and Ş. Budulan, “Anomaly Detection in Graphs of Bank Transactions for Anti Money Laundering Applications,” IEEE Access, Vol. 10, pp. 47699-47714, April 2022.
14. Kaggle. IBM Transactions for Anti Money Laundering (AML) [Internet]. Available: https://www.kaggle.com/datasets/ealtman2019/ibm-transactions-for-anti-money-laundering-aml/code
15. L. Breiman, Random Forests, Machine Learning, Vol. 45, pp. 5-32, 2001.
16. G. Ke, Q. Meng, T. Finley, T. Wang, W. Chen, W. Ma, ... and T.-Y. Liu, “LightGBM: A Highly Efficient Gradient Boosting Decision Tree,” in Proceeding of the 31st International Conference on Neural Information Processing Systems, Long Beach: CA, pp. 3149-3157, 2017.
17. T. Chen and C. Guestrin, “XGBoost: A Scalable Tree Boosting System,” in Proceeding of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco: CA, pp. 785-794, August 2016.
18. L. Prokhorenkova, G. Gusev, A. Vorobev, A. V. Dorogush, and A. Gulin, “CatBoost: Unbiased Boosting with Categorical Features,” in Proceeding of the 32nd International Conference on Neural Information Processing Systems, Montréal: Canada, pp. 6639-6649, 2018.

저자소개

이솔비(Sol-Bee Lee)

2018년:한림대학교 융합소프트웨어학과(공학사)

2024년:한림대학교 융합소프트웨어학과(공학박사)

2018년~2019년: 한국전자기술연구원 위촉연구원

2024년~현 재: 한림대학교 스마트컴퓨팅연구소 연구교수

※관심분야:사물인터넷, 무선센서네트워크, 무선전력전송, 해상무선통신, 차량 네트워크, 머신러닝, 블록체인

강인혁(Inhyeok Kang)

2023년:한림대학교 소프트웨어학부(공학사)

2025년:한림대학교 융합소프트웨어학과(공학석사)

2025년~현 재: 한림대학교 융합소프트웨어학과 박사과정

※관심분야:사물인터넷, 무선센서네트워크, 해상무선통신, 머신러닝, 차량 네트워크, 블록체인

권정혁(Jung-Hyok Kwon)

2010년:숭실대학교 정보통신전자공학부(공학사)

2012년:고려대학교 전기전자전파공학과(공학석사)

2019년:한림대학교 융합소프트웨어학과(공학박사)

2013년~2015년: LIG넥스원 SW연구센터 선임연구원

2019년~현 재: 한림대학교 스마트컴퓨팅연구소 연구교수

※관심분야:사물인터넷, 무선센서네트워크, 무선전력전송, 해상무선통신, 차량 네트워크, 머신러닝, 블록체인

김지온(Ji-On Kim)

2001년:국립경찰대학(행정학사)

2019년:고려대학교 법무대학원(법학석사)

2024년:연세대학교 일반대학원(사회학박사)

2014년~2017년: 경찰청 수사국 분석반장

2017년~2018년: 경찰수사연수원 융합수사학과장

2018년~2024년: 경찰대학 경찰학과 교수

2024년~현 재: 한림대학교 융합과학수사학과 부교수

※관심분야:수사정보분석, 데이터 포렌식, 범죄수사학

김의직(Eui-Jik Kim)

2004년:고려대학교 전기전자전파공학부(공학사)

2006년:고려대학교 전자컴퓨터공학과(공학석사)

2013년:고려대학교 전기전자전파공학과(공학박사)

2006년~2009년: 삼성전자 DMC연구소 선임연구원

2009년~2013년: KT 융합기술원 선임연구원

2013년~현 재: 한림대학교 소프트웨어학부 교수

※관심분야:사물인터넷, 무선센서네트워크, 무선전력전송, 해상무선통신, 차량 네트워크, 머신러닝, 블록체인