[ Article ]

Journal of Digital Contents Society - Vol. 26, No. 8, pp.2191-2199

ISSN: 1598-2009 (Print) 2287-738X (Online)

Print publication date 31 Aug 2025

Received 17 Jul 2025 Revised 20 Aug 2025 Accepted 22 Aug 2025

DOI: https://doi.org/10.9728/dcs.2025.26.8.2191

대표 링크 기반 총차량 주행거리 예측 프레임워크 개발 및 시뮬레이션 기반 사전 검증

양충헌¹^{, *} ; 문재필²

1한국건설기술연구원 도로교통연구본부 연구위원
2한국건설기술연구원 도로교통연구본부 수석연구원

Development of Representative Link-Based Framework for Estimating Total Vehicle Travel Distance: Simulation-Based Preliminary Validation

Choongheon Yang¹^{, *} ; Jaepil Moon²

1Research Associate, Department of Highway and Transportation Research, Korea Institute of Civil Engineering and Building Technology, Goyang 10223, Korea
2Senior Researcher, Department of Highway and Transportation Research, Korea Institute of Civil Engineering and Building Technology, Goyang 10223, Korea

Correspondence to: ^*Choongheon Yang Tel: +82-31-910-0184 E-mail: chyang@kict.re.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 도시 교통흐름과 반복적인 경로 이용 특성을 반영하여 총차량 주행거리를 추정할 수 있는 구조화된 예측 프레임워크를 제안한다. 분석 대상 지역은 부천시이며, 국가교통조사 데이터베이스를 통해 주요 출발지-도착지 쌍을 선정하였다. 실제 도로망을 반영하여 복수의 경로 샘플을 무작위로 생성하고, 이를 바탕으로 시뮬레이션 기반의 차량 궤적 데이터를 구축하였다. 경로 일관성과 중첩도를 기준으로 대표 링크를 추출하고, 이를 인공신경망, 랜덤포레스트 등 기계학습 예측 모형의 입력 변수로 활용하였다. 분석 결과, 대표 링크의 신뢰도가 높을수록 총 주행거리 예측 정확도 또한 향상되는 경향이 확인되었다. 본 프레임워크는 실제 궤적 데이터 확보가 어려운 상황에서 활용 가능한 사전 검증 도구로서 의미를 가지며, 향후 실증 데이터 기반의 확장적 연구로 이어질 수 있다.

Abstract

This study proposes a structured prediction framework to accurately estimate total vehicle travel distances by incorporating urban traffic-flow characteristics and recurrent route-usage patterns. Using the Korea Transport Database, major origin–destination (OD) pairs within Bucheon City were selected based on administrative trip data. For each OD pair, multiple route samples were randomly generated to simulate diverse driving behaviors under realistic road-network conditions. The framework extracts representative links using path consistency and overlap indices, which serve as key input features for machine-learning models such as artificial neural networks and random forest. Simulation-based validation demonstrates that higher reliability of representative links significantly improves the prediction accuracy of total travel distance. This framework offers a practical and scalable approach to vehicle kilometer traveled estimation, is particularly useful in cases where real-world trajectory data are scarce or unavailable, and can serve as a preliminary diagnostic tool for carbon-emission modeling and transportation planning.

Keywords:

Representative Link, Machine Learning, Simulation, Prediction Framework, Travel Distance

키워드:

대표 링크, 기계학습, 시뮬레이션, 예측 프레임워크, 주행거리

Ⅰ. 서 론

정확한 차량 주행거리 데이터는 교통 부문에서의 온실가스 배출량 산정, 에너지 소비 예측, 차량 효율성 평가 및 교통 정책 수립 등에 핵심적인 기초 자료로 활용된다[1]. 그러나 전국 단위 개별 차량의 실측 주행거리 데이터를 수집하는 것은 기술적인 것뿐만 아니라 비용적인 측면에서 한계가 있다. 이러한 한계를 극복하기 위해 차량 주행거리를 추정할 수 있는 다양한 방법들이 제안되어 왔다. 최근에는 전통적인 통계적 회귀모형(Regression)과 기계학습 기법(Machine Learning)을 결합한 하이브리드 모형이 주목받고 있다[2],[3].

그러나 기존 연구는 대부분 차량 속성이나 단일 데이터소스에 기반해 주행거리를 추정함으로써, 실제 교통흐름의 공간적 구조나 반복적인 경로 사용 특성을 충분히 반영하지 못했다[4]. 이러한 점은 특히 도시 내에서 반복적으로 활용되는 특정 도로구간의 대표성이 고려되지 않으면, 차량 주행거리 예측의 정확도 및 일반화 가능성이 낮아질 수 있다.

이에 본 연구는 도시 내 주요 교통흐름을 반영하는 대표 도로 링크 (Representative road links) 개념을 도입하고, 이를 기반으로 구조적 예측 프레임워크를 제안하였다. 본 프레임워크는 차량 등록 정보, 검사기록, 차량의 내비게이션 경로 정보 등 이기종 데이터를 통합하고, 차량의 출발지–도착지(OD) 기반 경로 샘플링과 대표 링크 추출 알고리즘을 통해 입력 변수를 구성함으로써, 정밀한 주행거리 추정을 수행한다. 시뮬레이션 기반 가상 데이터를 활용한 예측 모형을 설계하고, Artificial Neural Network(ANN) 및 Random Forest(RF) 등 다양한 예측 모형의 성능을 비교 분석하였다. 또한, 선정된 대표 링크에 대한 신뢰도와 예측 성능 간의 정량적 관계를 평가함으로써 공간 기반 입력 구조의 정합성과 실무적 적용 가능성을 함께 검토하였다. 본 연구는 실측 궤적 기반 데이터 확보가 어려운 상황을 고려하여, 시뮬레이션 데이터를 활용한 사전 검증적 접근 방법을 선택하고 수행하였다. 향후 민간 기업과의 협업을 통해 차량의 실측 차량 주행 궤적 데이터를 바탕으로 본 연구에서 제안된 프레임워크의 적용성과 예측 정밀도를 보다 정밀히 평가할 계획이다.

본 논문은 총 5장으로 구성된다. 2장에서는 기존 연구 및 이론적 배경을 고찰하고 본 연구와의 차별성을 도출하였다. 3장에서는 대표 링크 기반 예측 프레임워크의 개념과 구조, 시뮬레이션 기반 실증 절차를 제안하였다. 4장에서는 누적 주행거리 예측 결과와 알고리즘에 따라 선정된 대표 링크의 신뢰도와의 관계를 정량적으로 분석하였다. 마지막 5장에서는 연구의 시사점과 제약점 그리고 향후 연구 방향을 제시하였다.

Ⅱ. 문헌 고찰

2-1 기존 문헌 고찰

차량 주행거리는 교통량 산정, 연료 소모 예측, 온실가스 배출량 산정 등 다양한 분야에서 핵심적인 요소로 간주된다. Nazari와 Mohammadian은 VMT(Vehicle-Miles Traveled)를 추정하기 위한 통계 기반 회귀모형을 제안하며, 지역별 이질성을 고려한 모델링의 필요성을 강조하였다[5].

Ramezani와 Nourinejad는 희소 GPS 데이터를 활용해 네트워크 기반 차량 주행거리를 추정하는 기법을 제안하였으며, 경로 보간(Path interpolation)의 정확도에 따른 오차 민감성을 지적하였다[6].

한편, 링크 기반 접근법으로는 Hunter 등이 제안한 PIF(Path inference filter) 방식이 대표적이며, 이는 GPS 궤적이 불완전하거나 누락된 경우에도 경로를 정확히 추정할 수 있도록 설계되었다[7]. 국내에서는 차량의 궤적 데이터 샘플로부터 대표 경로 집합을 도출하는 알고리즘을 개발하였다. 또한, 평규 링크 사용률 (Average Link Usage Ratio, ALUR), 경로 간 중복률(Overlap Ratio, OR), 그리고 링크 통과율(Link Passing Ratio, LPR) 등의 지표를 활용해 대표 경로의 신뢰도를 평가하였다. 이들 지표는 이후 다양한 차량 주행거리 추정 연구의 기반으로 활용되고 있다[7],[8]. 최근에는 기계학습 기반 접근이 활성화되고 있으며, RF와 ANN을 결합한 하이브리드 예측 모형을 통해 차량 주행거리의 실시간 추정 가능성을 검토하였다[9]. Deep Travel 프레임워크를 활용하여 시간 의존적인(Time-dependent) 도시 교통 패턴을 예측하였고[10], LightPath 모형을 통해 GPS 경로 데이터로부터 빠르고 정확한 경로 선택을 지원하였다. 이러한 연구들은 경로 예측 정확도를 높이기 위한 다양한 모형 구조와 하이퍼 파라미터 튜닝 기법의 중요성을 시사한다[11].

대표 링크 기반 연구에서 운행 이력 기반의 대표 경로 선정 절차를 통계적 기준으로 정량화하였으며[12], Liu와 Zhao는 링크 기반 세분화와 프로브 차량 데이터를 결합한 VMT 추정 방법론을 제시하였다[13]. 또한 Dey와 Hasan은 통계 회귀와 기계학습 기법을 통합한 하이브리드 구조를 통해 차량 주행거리 예측 성능을 개선하고자 하였다[14].

이와 같은 기존 연구들은 본 논문이 제안하는 대표 링크 기반 예측 프레임워크와 구조적으로 유사하거나 핵심 개념을 공유하고 있으며, 본 연구는 이들을 기반으로 한 단계 확장된 구조 설계를 통해 실제 적용 가능성과 정량적 신뢰도 확보에 기여하고자 한다.

2-2 기존 연구의 시사점 및 본 연구와의 차별성

기존의 차량 주행거리 추정 관련 연구들은 크게 ① 교통량 기반 추정, ② 차량 궤적 데이터 기반 경로 추정, ③ 기계학습 기반의 예측 모델링으로 구분된다. 이 중 통계 기반의 VMT 추정 모형은 간결성과 적용 용이성을 강점으로 하나, 공간적 상세성이 결여되어 세부 지역 단위 적용에 제약이 따른다. 한편, 차량의 궤적 데이터를 활용한 연구들은 GPS 오차, 데이터 희소성, 불완전한 OD 매칭 등의 한계 때문에 실제 거리와의 정합성이 낮은 경우가 많았다[15]. 특히, 복잡한 도심 내에서는 반복적 통과 링크의 신뢰도에 따라 예측 정밀도가 크게 달라지는 구조적 문제를 지닌다[16].

기계학습 기반 접근은 이러한 비선형성과 복잡성을 일부 보완할 수 있으나, 실제 데이터를 전수 확보하지 못하는 한계로 인해 학습 안정성과 일반화 가능성이 낮은 경우가 많았다.

대표 링크 개념을 기반으로 한 일부 연구는 차량의 반복 경로 특성에 착안하여 거리 예측 정밀도를 높이는 시도를 하였으나, 경로 대표성 기준이나 링크 필터링 기준이 체계적으로 정립되어 있지 않은 점에서 개선의 여지가 존재한다.

본 연구는 기존 연구와는 다른 다음과 같은 차별성을 가진다.

① OD 기반의 경로 샘플링을 통해 대표 링크를 식별하고, 이를 기반으로 예측 모형 학습 및 검증 절차를 구조화하였다.

② ALUR 및 OR 등 대표성을 평가할 수 있는 정량 지표를 도입하여 공간적 신뢰성을 확보하였다.

③ 단순회귀와 기계학습 모델을 비교 분석하여 프레임워크 구조의 확장성과 적용 유연성을 검토하였다.

이러한 구조적 접근은 향후 실제 차량의 궤적 기반 VMT 추정 체계로 발전시키기 위한 실증적 기반으로 작용할 수 있다. 본 연구에서 설계한 시뮬레이션 기반 OD 정보는 국가교통조사 데이터베이스 KTDB(Korea transport database)에서 제공하는 도시 교통량, 차량 등록 현황, 이동 패턴 등의 통계 자료를 기반으로 하였다. 이는 한국교통연구원이 구축·운영하는 공공 교통 데이터베이스로, 전국 단위의 교통 수요 및 이동 특성을 분석하는 데 활용된다.

Ⅲ. 대표 링크 기반 예측 프레임워크의 설계 및 실증

3-1 프레임워크 개념 및 구조

본 연구는 도시 내 교통흐름의 공간적 특성과 반복 경로 사용 패턴을 반영하여 차량 주행거리를 정밀하게 예측하기 위한 구조화된 예측 프레임워크를 제안한다. 제안된 프레임워크는 시뮬레이션 기반의 가상 차량 주행 궤적 데이터를 활용하여 설계되었으며, 네 개의 주요 모듈로 구성하였다.

각 모듈은 이기종 데이터를 효과적으로 통합하고, 공간 기반 경로 정보와 차량 특성을 학습 구조에 반영함으로써 기계학습 기반 예측 모형의 성능을 극대화하는 것을 목표로 한다.

첫째, 데이터 통합 모듈은 차량 등록 정보(예: 차종, 연식, 배기량), 정기 검사 이력, 가상의 내비게이션 경로 샘플 데이터를 통합하여 입력 변수의 기반을 구성한다. 이러한 정보는 차량의 물리적 특성과 운행 이력, 경로 선택 패턴을 반영하는 핵심 요소로 기능한다.

둘째, OD 기반 경로 샘플링 프로세스에서는 OD pair 단위로 복수의 경로 패턴을 무작위 생성하고, 각 경로 간 중첩률과 경유 링크 다양성을 고려하여 주행거리와 경로 구조의 변화를 반영한다. 이로써 동일 OD에서도 다양한 주행 경로가 반영된 집단적 경로 선택 성향의 데이터 세트를 구성할 수 있다.

셋째, 대표 링크 추출 알고리즘은 각 OD pair에 대해 다수의 경로 샘플에서 공통으로 통과하는 핵심 링크들을 식별하고, 해당 링크들의 사용 비율과 경로 간 중첩률을 정량 지표로 활용하여 대표 링크를 정의한다. 이를 통해 예측 입력에 포함되는 경로 정보의 일관성과 대표성을 확보할 수 있다.

넷째, 예측 모형 학습 모듈은 앞선 과정에서 생성된 입력 변수(차량 속성, OD 정보, 대표 링크 통과 여부, 경로 구조 지표 등)를 기반으로 다양한 예측 기법(ANN, RF 등)을 학습시킨다. 이 과정을 통해 차량 단위의 연간 주행거리를 정밀하게 예측하며, 실제 측정 데이터가 부재한 상황에서도 높은 정합도의 결과를 도출할 수 있도록 한다.

제안된 프레임워크는 기존 연구에서 간과되었던 경로 선택의 공간적 다양성과 반복성을 정량적으로 반영하고자 하였다. 특히, 대표 링크 지표가 높을수록 예측 성능이 유의하게 향상되는 결과는 입력 변수 구조의 설계가 예측 정확도에 중요한 영향을 미친다는 점을 시사한다. 이는 기존의 단일 경로 기반 혹은 차량 속성 중심 모형에 비해 학습의 안정성과 일반화 가능성에서 우수한 성능을 확보할 수 있음을 보여주는 기술적 기여라 할 수 있다.

그림 1은 제안한 프레임워크 전체의 흐름을 시각적으로 요약한 것이다. 특히, 실제 차량 주행 궤적 데이터 확보의 한계를 고려하여, 시뮬레이션 기반 가상 차량군을 활용한 사전 타당성 검증을 통해 구조적 예측 프레임워크의 적용 가능성과 실용성을 선행 평가하였다.

Fig. 1.

Structure of the proposed prediction model

3-2 시뮬레이션 기반 데이터 구성

실제 차량 주행거리 데이터를 대규모로 수집하는 데에는 기술적·비용적 제약이 존재한다. 이에 본 연구는 시뮬레이션 기반의 가상 궤적 데이터를 생성하여 제안된 예측 프레임워크의 구조적 유효성을 검토하였다. 분석 대상 지역은 부천시로 설정하였으며, OD 정보는 KTDB에서 제공하는 행정동 단위 OD 통행량 자료를 활용하였다. 우선, 전체 OD 통행쌍 중 대표성을 갖는 약 100개의 OD pair를 1차 선정하였다. 이 과정에서 동일 OD라도 다양한 경로를 선택할 수 있는 실제 운행 특성을 반영하기 위해 각 OD pair별 복수의 경로 패턴을 무작위로 생성하였다. 경로 설정 시에는 경로 간 중첩률(40~90%), 경유 링크 다양성, 총 주행거리 차이 등을 고려하여 현실적인 경로 선택 분포를 확보하였다. 이후 대표성 있는 20개의 OD pair를 최종 선정하였는데, 이는 ① 거리대 다양성(5~25km), ② 주요 중심지 포함 여부, ③ 경로 수 및 구조적 다양성 등을 기준으로 하였다. 이를 통해 평균 경로 수는 약 11.3개로 산정되었으며, 경로 간 중복률(OR)과 통과율(ALUR)의 범위가 넓은 구간이 포함되도록 구성하였다. 선정된 OD는 부천–영등포, 부천–광명, 부천–강서, 부천–금천 등 수도권 주요 생활권 간 연결을 반영하였으며, 특정 OD로 편중되지 않도록 설계하였다.

경로 샘플을 바탕으로 총 5,000대의 가상 차량군을 생성하였다. 차량은 OD별 통행량 비율에 따라 분할 배정했으며, 동일 차량이 하루 1~2회 반복 주행을 수행하는 것으로 설정하여 경로 선택의 반복성과 변동성을 동시에 반영하였다. 각 차량은 OD pair, 선택된 경로 시퀀스, 누적 주행거리, 차량 속성 정보를 포함한 궤적 데이터를 가진다. 경로는 국가표준 도로망(KTDB)의 링크 ID를 기반으로 구성되었으며, 개별 링크의 거리 정보를 활용해 전체 주행거리를 산출하였다. 차량 속성은 실제 등록 차량 통계를 참조하여 차종(승용, 승합, 화물), 차량 연식, 연료 유형을 무작위로 할당하였다. 최종 데이터셋은 대표 링크 통과 여부, OD 특성, 차량 속성 등 예측 입력 변수를 포함하며, 내비게이션 주행거리를 모사한 값을 종속 변수로 제공한다. 전체 샘플 중 70%는 학습용, 30%는 검증용으로 구분하여 모형 성능 평가에 활용하였다.

모형 성능 평가는 R²와 RMSE를 기준으로 수행되었다. ANN과 RF 모형 모두 하이퍼 파라미터를 최적화하기 위해 Grid Search 기법을 활용하였다. 두 예측 모형은 동일한 학습 데이터와 입력 변수들을 사용하여 학습되었으며, ANN의 경우 숨겨진 층(hidden layer)을 두 개 두었고, 각각 64개와 32개의 노드를 사용하였다. 활성 함수로는 ReLU를, 학습 알고리즘으로는 Adam 옵티마이저를 적용하였다. RF 모형은 총 100개의 결정트리로 구성되었으며, 각 트리의 분기는 Gini 지수를 기준으로 결정하도록 설정하였다.

회귀모형은 일반적인 방법인 단순 선형 회귀(Ordinary Least Squares, OLS)를 사용하여 구성하였다. 모든 예측 모형은 Python 언어의 Scikit-learn과 Keras 라이브러리를 활용해 구현하였으며, 전체 데이터 중 80%는 학습용으로, 나머지 20%는 테스트용으로 활용하여 모델 성능을 평가하였다. 또한 대표 링크 기준 예측값과 전체 경로 기반 예측값 간의 정합도도 함께 비교 분석하였다.

표 1은 사용된 시뮬레이션 기반 차량의 주행 궤적 데이터의 주요 구성 항목을 요약한 것이다.

Table 1.

Summary of simulated vehicle trajectory data used for predicting modeling

3-3 대표 링크 추출 방안

도시 내 차량의 주행 경로를 대표하는 대표 링크는 기존 연구에서 제안된 세 가지 지표, LPR, ALUR, OR을 기반으로 결정된다[7]. LPR은 식 (1)과 같이 특정 OD pair(출발지 i → 도착지 j)를 가진 차량 중에서 링크 l 을 통과한 비율을 나타낸다.

ϕ l i j = x l i j T i j

(1)

여기서, $x l i j$ 는 링크l를 통과하는 OD pair i→j 차량 수를 나타내고, T^ij는 링크l를 통과한 OD pair i→j 차량 수를 나타낸다.

$ϕ a i j$ 값이 결정되면, 이를 기반으로 경로 p 상의 LUR을 계산하여 경로의 대표성을 측정하는 지표를 계산한다. 이때, $ϕ p i j$ 값이 큰 궤적을 대표 경로로 선정한다. 즉, 해당 경로가 얼마나 대표적인지를 나타내는 지표이다. 마지막 지표는 식 (2)와 같이 경로간 중복률(R₀) 계산을 통한 경로 군집화(Clustering)로 대표성 높은 경로부터 정렬 후, R₀이 임계값 이상이면 동일 그룹으로 분류한다.

R 0 = max O L P a t h 1, O L P a t h 2

(2)

여기서, OL은 중복 길이는 나타내고, Path 1과 Path 2는 각각 경로 1과 2의 길이를 나타낸다. 중복률 계산 시 양쪽 경로의 길이를 기준으로 비교하여 가장 큰 값을 사용한다.

3-4 예측 모형별 성능 분석 및 대표 링크 지표와의 정량적 관계

표 2는 5개 주요 OD pair에 대한 경로 지표(ALUR, OR)와 예측 성능(R²)을 비교한 결과를 보여준다. OD 2는 ALUR 0.92, OR 0.98로 가장 높은 값을 기록하였으며, 예측 성능(R²) 또한 0.85로 상위 수준을 유지하여, 대표 링크의 일관성과 중첩성이 높을수록 예측 정확도가 우수함을 의미한다. OD 4 역시 ALUR 0.91, OR 0.94, R² 0.84로 전반적으로 높은 수치를 보이며, 안정적인 경로 구조와 예측 성능 간의 연관성을 보여준다. 반면, OD 5는 ALUR 0.67, OR 0.63, R² 0.78로 모든 지표에서 가장 낮은 값을 보여, 대표 링크로서의 신뢰도와 예측 정합성이 상대적으로 떨어질 수 있음을 보여준다.

Table 2.

Comparison of path indicators and prediction performance

전체적으로 경로 일관성과 중첩률이 높을수록 주행거리 예측 정확도 또한 개선되는 경향이 확인되며, 이는 대표 링크 기반 프레임워크의 구조적 타당성을 뒷받침한다.

본 연구는 단순한 성능 비교를 넘어서, 대표 링크 기반 입력 구조의 신뢰도와 예측 성능 간의 관계를 검토하였다. 표 3은 시뮬레이션 기반 OD 샘플을 대상으로 Linear Regression, ANN, RF 등 세 가지 예측 모형에 대한 성능을 비교한 결과이다. 예측 성능은 결정계수 R²와 RMSE로 평가되었다. 전반적으로 RF 모형이 모든 OD pair에서 가장 높은 R²와 가장 낮은 RMSE 값을 기록하여, 주행거리 예측에 있어 우수한 성능을 보였다. 예를 들어 OD 2의 경우 RF 모형은 R² 0.85, RMSE 6.2로 가장 높은 예측 정확도를 보였으며, ANN 모형도 R² 0.79, RMSE 7.1로 안정적인 성능을 나타냈다. 반면 Linear Regression은 모든 OD pair에서 가장 낮은 R² 값(OD 3 기준 0.61)과 가장 높은 RMSE(OD 1 기준 13.4)를 보이며 상대적으로 열악한 성능을 보였다. 특히 OD 4의 경우 RF 모형은 R² 0.87, RMSE = 6.7로 모든 샘플 중 가장 뛰어난 결과를 보여, 구조적 입력 변수 구성 및 대표 링크 기반 특성이 예측 모형 성능에 긍정적으로 작용했음을 의미한다. 이러한 결과는 복잡한 경로 구조와 다양한 입력 특성을 효과적으로 반영할 수 있는 기계학습 기반 모형의 유용성을 입증하며, 본 프레임워크의 실무적 적용 가능성을 뒷받침한다.

Table 3.

Performance comparison by prediction model (simulation-based OD sample)

3-5 시사점 및 구조의 확장성

본 연구는 현실적으로 실측 차량 주행 궤적 데이터 확보가 어려운 상황에서, 가상의 시뮬레이션 차량 궤적 데이터를 활용한 구조적 프레임워크를 제안하였다. 특히 대표 링크 기반의 입력 구조는 향후 실제 차량의 궤적 기반 데이터와 결합할 경우, 보다 확장성 있고 일반화 가능한 모형으로 발전할 수 있는 가능성이 있음을 의미한다. 예측 정확도를 좌우하는 경로 중첩률과 링크 활용도 등의 정량 지표는 모형 설계 초기 단계에서 입력 변수의 선택 기준으로 활용될 수 있다. 또한, 프레임워크 구조가 다양한 도시 및 지역 교통 환경에 적응할 수 있도록 확장할 수 있는 형태로 설계되었다는 측면에서 교통계획, 온실가스 선정, 에너지 소비 분석 등 다양한 응용 분야로의 적용 가능성이 높다.

Ⅳ. 총차량 주행거리 예측 결과 및 분석

본 연구의 최종 목적은 대표 링크 기반 예측 프레임워크를 통해 개별 차량의 주행거리 예측 정확도를 높이는 동시에, 이를 전체 차량군의 누적 주행거리 예측으로 확장 가능한지를 검토하는 데 있다. 이는 단순한 예측 성능 향상뿐만 아니라 교통 부문 온실가스 배출량 산정이나 교통 수요 관리 등 실무적 활용도를 높이는 핵심 요소로 작용한다.

여기에서는 시뮬레이션 기반으로 생성된 차량군(총 5,000대)의 OD 경로 및 대표 링크 통과 여부를 기반으로, 각 차량의 예측 주행거리 값을 산출하였다. 이후 전체 차량군에 대한 누적 주행거리를 계산하고, 이는 실제 누적 거릿값(시뮬레이션 상 Ground Truth)과 비교되었다.

4-1 누적 주행거리 예측 정확도 평가

표 4는 전체 5,000대 차량의 누적 주행거리에 대한 예측 정확도를 세 가지 모형을 통해 비교한 결과이다. 성능 평가지표로는 MAE, RMSE, 그리고 R²가 사용되었다. 모든 지표에서 ANN이 가장 뛰어난 예측 성능을 보였다. ANN의 MAE는 61.7km, RMSE는 78.1km로, 가장 낮은 오차 수준을 나타냈으며, R² 또한 0.84로 가장 높게 나타났다. 이는 ANN이 다차원적 입력 변수 간의 비선형 관계를 효과적으로 학습하여 주행거리 예측에 있어 높은 정합도를 확보할 수 있음을 의미한다. 반면 Linear regression은 MAE가 112.4km, RMSE는 140.8km로 가장 높은 오차를 보였고, R² 또한 0.68로 낮아, 구조적 입력 특성과 경로 기반 변수를 반영하기에 한계가 있었던 것으로 판단된다. RF모형은 ANN보다는 다소 낮았지만, R² 0.82, RMSE = 83.5km 수준으로 비교적 우수한 성능을 유지하였다.

Table 4.

Cumulative kilometer prediction accuracy evaluation results

이러한 결과는 대표 링크 기반 구조적 입력 변수와 기계학습 기반 모형의 결합이 누적 주행거리 예측에 효과적이라는 점을 실증적으로 보여주며, 향후 실제 차량 궤적 데이터 기반 확장 가능성을 높여준다.

4-2 대표 링크 신뢰도와 총주행거리 정합도의 관계

표 5는 각 OD pair별로 대표 링크의 신뢰성을 나타내는 지표(ALUR, OR)와 전체 주행거리(VKT) 예측 정확도 간의 관계를 분석한 결과이다. 예측 성능은 RF, ANN 기반 모형의 R²로 평가하였으며, 마지막 열은 ALUR과 OR의 평균값으로 계산된 통합 신뢰도 지표와 예측 정확도의 상관성을 나타낸다. OD 1과 OD 4는 각각 대표 링크 신뢰도가 가장 높았으며, 이들 OD pair는 RF 기반 예측 정확도(R²) 0.93과 0.90으로 가장 우수하게 나타났다. 이는 대표 링크의 일관성과 반복성이 전체 주행거리 예측 정확도에 긍정적인 영향을 미친다는 것을 의미한다.

Table 5.

Representative link reliability versus total VKT accuracy

반면 OD 3은 ALUR 0.59, OR 0.55로 가장 낮은 신뢰도를 보였으며, 예측 정확도 또한 RF 0.68, ANN 0.65 수준으로 가장 낮게 나타났다. 특히 통합 지표(ALUR+OR)와 예측 정확도 간의 관계는 대체로 정(+)의 방향성을 보이며, 대표 링크의 신뢰성이 확보될수록 전체 주행거리 예측의 정합도 역시 향상됨을 시사한다.

이러한 결과는 대표 링크 기반 접근이 예측 성능 개선에 기여할 수 있음을 정량적으로 뒷받침하며, 대표 링크의 구성과 검증이 차량 주행거리 예측 프레임워크의 핵심 요소로 작동함을 보여준다.

그림 2는 대표 링크 신뢰도 지표와 전체 차량 주행거리의 예측 정확도간의 관계를 시각화한 산점도이다. X축은 대표 링크 신뢰도, Y축은 예측 정확도를 나타내며, 예측 모형으로 구분되어 표시되었다. 그래프 상에서 ALUR+OR 값이 높은 경우일수록 전반적으로 R² 값도 높게 분포하는 경향이 관찰된다. 특히 RF 모형은 ANN보다 예측 정확도가 전반적으로 높으며, 대표 링크의 신뢰도가 0.85 이상인 경우 R² 값이 0.90에 근접하거나 이를 초과하는 것으로 나타났다. 이는 대표 링크의 일관성과 반복성이 확보될수록 전체 주행거리 예측의 정합도가 높아진다는 정량적 증거로 판단된다.

Fig. 2.

Relationship between representative link reliability and total VKT accuracy

또한, ANN 모형은 RF 모형에 비해 다소 예측 정확도 분산이 크며, 동일한 대표 링크 신뢰도에서도 상대적으로 낮은 R² 값을 보이는 경우가 관찰된다. 이는 ANN 모형이 링크 신뢰도 외의 입력 변수 변화에 더 민감하게 반응하는 특성이 있음을 의미한다. 제안된 프레임워크의 타당성을 평가하기 위해, 대표 링크 신뢰도 지표(ALUR, OR 등)와 총 주행거리(VKT) 예측 정확도(R²)간의 관계를 검토하였다. 그림 2에 나타난 바와 같이, 시뮬레이션 기반 OD pair 샘플링 결과 대표 링크 활용도가 높을수록 주행거리 추정 정확도가 개선되는 경향이 확인되었다. 이는 공간적 경로 일관성이 모델의 신뢰성과 정합성을 강화하는 핵심 요인임을 보여준다.

4-3 결과 해석 및 실용적 시사점

본 연구에서는 대표 링크 기반 예측 프레임워크를 통해 차량 단위의 총 주행거리를 정밀하게 추정하고자 하였다. 실험 결과, 대표 링크 지표(ALUR, OR 등)를 포함한 입력 구조가 예측 모형의 성능 향상에 기여함이 확인되었다. 이러한 예측 성능은 온실가스 배출량 산정, 도로 이용 효율 분석, 정책 맞춤형 보험 상품 개발 등 실무 분야에서 적용할 수 있음을 나타낸다. 특히, 단일 OD pair 내에서 복수 경로가 선택되는 실제 운행 특성을 반영하여 구축한 대표 링크 구조는, 경로 반복성과 일관성 정보를 효과적으로 요약함으로써 예측의 안정성과 일반화 가능성을 동시에 확보하였다. 또한, 대표 링크 신뢰도가 높은 OD pair의 경우 예측 성능이 유의미하게 향상되었으며, 이는 경로 중첩률이 높은 OD 구간에서 예측 모형이 보다 안정적인 학습을 수행할 수 있음을 의미한다. 따라서 대표 링크 지표는 단순한 공간적 요약 변수를 넘어서, 예측 구조의 학습 품질을 결정짓는 핵심 인자로 기능함을 알 수 있다.

다만, 본 연구는 시뮬레이션 기반의 가상 차량 주행 궤적 데이터를 활용한 제한적 분석이라는 한계를 지닌다. 실제 차량의 운행 이력 및 도로 상황이 반영되지 않은 환경에서의 성능 검증 결과이므로, 향후 실 도로 기반 주행 궤적 데이터를 활용한 실증적 확장 연구가 필요하다. 특히, 도시 유형, 혼잡 수준, 시간대, 계절성 등 다양한 외생 요인이 예측 정확도에 미치는 영향을 확인함으로써, 본 프레임워크의 실효성과 적용 범위를 보다 정밀하게 규명할 수 있을 것으로 판단된다.

4-4 기존 연구 대비 성능 비교 결과

본 연구는 기존 연구들이 활용한 단순 속성 기반 또는 전체 경로 기반 입력 구조와의 성능 차이를 정량적으로 비교하였다. 이를 위 동일한 5,000대 시뮬레이션 차량 데이터를 학습용(70%)과 검증용(30%)으로 분할하여, ANN 기반으로 모든 모델을 훈련하였다. 각 모델은 동일한 OD pair와 차량 속성 데이터를 입력으로 사용하였으며, 하이퍼파라미터는 Grid Search로 최적화하였고, 그 결과는 표 6과 같다.

Table 6.

Comparison of prediction performance between existing models and the proposed framework

실험 결과, 대표 링크 기반 입력 구조를 적용한 제안 모형은 RMSE 78.1km, R² 0.84로 가장 우수한 예측 성능을 기록하였으며, 기존 속성 기반 접근(R²=0.68) 대비 약 24% 향상된 수치로 나타났다. 이는 ALUR 및 OR과 같은 공간 기반 경로 반복성 지표를 예측 입력에 통합함으로써, 예측의 정합도와 일반화 가능성을 동시에 향상했다는 점을 실증적으로 보여준다. 특히, 본 프레임워크는 실측 차량 궤적 데이터가 확보되지 않은 상황에서도 시뮬레이션 기반 가상 데이터를 활용하여 높은 예측 정확도를 유지하였으며, 기존 속성 기반 또는 전체 경로 거리 기반 모델보다 성능이 우수하였다. 이러한 결과는 본 연구의 프레임워크가 기존 연구 대비 구조적 확장성과 정량적 우수성을 동시에 확보하고 있으며, VKT 추정 목적의 사전 진단 도구로서 실효성이 높다는 것을 뒷받침한다.

V. 결론 및 향후 연구

본 연구는 이기종 교통 데이터를 통합하고 대표 링크 기반의 입력 구조를 활용하여 차량 주행거리를 예측하는 프레임워크를 제안하였다. 국가 교통 조사 OD 자료와 시뮬레이션 기반 궤적 데이터를 활용하여 제안된 구조의 유효성을 검증한 결과, ANN과 RF는 단순 회귀 모형과 비교하면 일관되게 우수한 성능을 보였다. 또한 ALUR와 OR과 같은 경로 반복성 지표가 모델의 정확도 향상에 기여함을 정량적으로 확인함으로써, 단순 속성 기반 접근보다 도로망 구조와 경로 일관성을 반영하는 방법론이 주행거리 추정에 더 적합함을 입증하였다. 다만 본 연구는 시뮬레이션 데이터에 의존하였기 때문에 실제 주행 환경의 시·공간적 변동성, 교통 혼잡, 계절성 등의 요인을 충분히 반영하지 못한 한계를 지닌다. 향후 연구는 다음과 같은 세 가지를 보완할 계획이다.

첫째, T-map 등 GPS 기반의 실제 궤적 데이터를 활용한 실증 검증을 통해 모델의 일반화 가능성을 확보한다. 또한 분석 대상을 다양한 도시와 도로망으로 확장함으로써 정책 적용 범위를 넓힌다.

둘째, 대표 링크 추출 과정에 교통 혼잡도, 시간대별·계절별 요인뿐 아니라 경로 다양성 요인(detour/circuity factor)을 반영하여, 현실 도로 환경에서의 경로 선택 특성을 보다 충실히 모사 한다.

셋째, 방법론적으로는 ANN과 RF외에 XGBoost와 LightGBM을 적용하여 대규모·고차원 입력 데이터의 학습 효율을 개선하고, GNN(Graph Neural Network)을 통해 도로망의 위상과 구조적 특성을 학습함으로써 주행거리 예측의 정확성과 해석 가능성을 높이기 위한 시도를 한다.

이러한 고도화된 분석은 교통 혼잡 예측, 실시간 우회 경로 추천 등 구체적인 실무 문제 해결에도 직접적으로 기여할 수 있을 것으로 기대된다.

본 연구의 성과는 학문적인 의의뿐 아니라 정책적 파급 효과도 크다. 예측된 주행거리 정보는 온실가스 배출량 산정, 교통·에너지 정책 수립, 도로망 개선 우선순위 결정 등 다양한 영역에서 활용할 수 있다. 특히 정확한 주행거리 추정은 국가 교통 부문의 탄소 감축 목표 달성, 도시 교통 혼잡 완화, 대기환경 관리 등 주요 사회 현안을 지원하는 정량적 근거로 기능할 수 있다.

결론적으로, 본 연구는 대표 링크 기반 주행거리 추정 프레임워크의 가능성과 유효성을 보여주었으며, 향후 실제 궤적 데이터와 최신 알고리즘을 결합함으로써 더욱 견고하고 실무 친화적인 예측 체계로 진화할 수 있을 것으로 기대된다.

Acknowledgments

본 연구는 2025년도 국토교통부/국토교통과학기술진흥원의 지원에 따라 이루어진 연구(과제 번호 RS-2025-00245781 탄소중립 수송부문 감축 전략 고도화 기술개발 3차년도)로서, 관계 부처에 감사드립니다.

References

Intergovernmental Panel on Climate Change (IPCC), 2019 Refinement to the 2006 IPCC Guidelines for National Greenhouse Gas Inventories, IPCC, Switzerland, Technical Report, 2019. https://www.ipcc-nggip.iges.or.jp/public/2019rf/
T. Wang, Y. Fu, X. Cheng, L. Li, Z. He, and Y. Xiao, “Vehicle Trajectory Prediction Algorithm Based on Hybrid Prediction Model with Multiple Influencing Factors,” Sensors, Vol. 25, No. 4, 1024, 2025. [https://doi.org/10.3390/s25041024]
A. Kumar and S. Peeta, “Entropy Weighted Average Method for the Determination of a Single Representative Path Flow Solution for the Static User Equilibrium Traffic Assignment Problem,” Transportation Research Part B: Methodologies, Vol. 71, pp. 231-229, January 2015. [https://doi.org/10.1016/j.trb.2014.11.002]
H. Liu and P. Zhao, “Estimation of VMT Using Probe Vehicle Data and Link-Based Network Segmentation,” Journal of Transport Geography, Vol. 98, 103281, 2022.
F. Nazari and A. Mohammadian, “Modeling Vehicle‑Miles of Travel Accounting for Latent Heterogeneity,” Transport Policy, Vol. 133, pp. 45-53, 2023. [https://doi.org/10.1016/j.tranpol.2023.01.005]
H. Ramezani and M. Nourinejad, “Network‑Based Vehicle Mileage Estimation from Sparse GPS Data,” Transportation Research Part A: Policy and Practice, Vol. 169, pp. 68-82, 2023.
H. Kim, D. Nam, and S. H. Cheon, “Determination of Representative Path Set from Vehicle Trajectory Samples,” Journal of Computing in Civil Engineering, Vol. 30, No. 4, 2015. [https://doi.org/10.1061/(ASCE)CP.1943-5487.0000528]
J. Fan, C. Fu, K. Stewart, and L. Zhang, “Using Big GPS Trajectory Data Analytics for Vehicle Miles Traveled Estimation,” Transportation Research Part C: Emerging Technologies, Vol. 103, pp. 298-307, 2019. [https://doi.org/10.1016/j.trc.2019.04.019]
T. Hunter, P. Abbeel, and A. Bayen, “The Path Inference Filter: Model-Based Low-Latency Map Matching of Probe Vehicle Data,” IEEE Transactions on Intelligent Transportation Systems, Vol. 15, No. 2, pp. 507-529, April 2014. [https://doi.org/10.1109/TITS.2013.2282352]
F. Alrukaibi, R. Alsaleh, and T. Sayed, “Applying Machine Learning and Statistical Approaches for Travel Time Estimation,” Sustainability, Vol. 11, No. 14, 3822, 2019. [https://doi.org/10.3390/su11143822]
H. Zhang, H. Wu, W. Sun, and B. Zheng, “DeepTravel: A Neural Network Based Travel Time Estimation Model with Auxiliary Supervision,” arXiv:1802.02147, , 2018. [https://doi.org/10.48550/arXiv.1802.02147]
J. U. R. Chughtai, I. U. Haq, O. Shafiq, and M. Muneeb, “Travel Time Prediction Using Hybridized Deep Feature Space and Machine Learning Based Heterogeneous Ensemble,” IEEE Access, Vol. 10, pp. 98127-98139, 2022. [https://doi.org/10.1109/ACCESS.2022.3206384]
S. B. Yang, J. Hu, C. Guo, B. Yang, and C. Jensen, “LightPath: Lightweight and Scalable Path Representation Learning,” in Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Long Beach: CA, pp. 2999-3010, 2022. [https://doi.org/10.1145/3580305.3599415]
N. Jayasuriya and D. Sumanathilaka, “A Systematic Decade Review of Trip Route Planning with Travel Time Estimation Based on User Preferences and Behavior,” arXiv:2503.23486, , 2025. [https://doi.org/10.48550/arXiv.2503.23486]
T. Hunter, P. Abbeel, R. Herring, and A. Bayen, “Path and Travel Time Inference from GPS Probe Vehicle Data,” Neural Information Proceesing Systems Foundation (NIPS), 2009.
A. Faisal, T. Yigitcanlar, M. Kamruzzaman, and G. Currie, “Understanding Autonomous Vehicles: A Systematic Literature Review on Capability, Impact, Planning and Policy,” Journal of Transport and Land Use, Vol. 12, No. 1, pp. 45-72, 2019. [https://doi.org/10.5198/jtlu.2019.1405]

저자소개

양충헌(Choongheon Yang)

2000년：명지대학교 교통공학 학사

2002년：명지대학교 교통공학 석사

2008년：Ph.D. in Civil Engineering at Univ. of California, Irvine

2009년～현 재: 한국건설기술연구원 도로교통연구본부 연구위원

※관심분야：도로안전, 도로관리, 지하도로

문재필(Jaepil Moon)

1992년：단국대학교 토목공학 학사

1997년：단국대학교 교통공학 석사

2007년：Ph.D. in Civil Engineering at North Carolina State Univ., Raleigh

2009년～현 재: 한국건설기술연구원 도로교통연구본부 수석연구원

※관심분야：도로안전, 교통운영, 도로교통 데이터 분석

Category	Description
City area	Bucheon city
OD Pair Definition	About 100 major OD pairs selected based on administrative district-level OD data from the KTDB
Number of Vehicles	5,000 simulated vehicles
Route Sampling	Multiple routes randomly assigned per OD, considering link overlap and route diversity
Link Information	Route details converted to KTDB road network link ID sequences, with each link’s length information included
Vehicle Attributes	Vehicle type, year, and fuel type randomly assigned based on real registration distribution
Prediction Target	Actual travel distance per trip (km), estimated by navigation-based methods
Validation Metric	R² and RMSE (Root Mean Square Error)

Model Type	Representative link based input	RMSE (km)	R²
Attribute-based regression	X	140.8	0.68
OD+route length	X	124.1	0.72
With links, no representatives	∆	102.7	0.77
Proposed	○	78.1	0.84

OD pair	ALUR	OR	RF R²
OD 1	0.88	0.87	0.82
OD 2	0.92	0.89	0.85
OD 3	0.62	0.58	0.76
OD 4	0.91	0.86	0.87
OD 5	0.67	0.63	0.78

OD pair	Model	R²	RMSE
OD 1	Linear	0.64	12.3
	ANN	0.78	8.9
	RF	0.82	7.5
OD 2	Linear	0.66	10.2
	ANN	0.79	7.1
	RF	0.85	6.2
OD 3	Linear	0.61	13.4
	ANN	0.74	9.7
	RF	0.76	9.1
OD 4	Linear	0.68	11.0
	ANN	0.81	8.2
	RF	0.87	6.7
OD 5	Linear	0.62	12.8
	ANN	0.75	9.2
	RF	0.78	8.6

Model	MAE (km)	RMSE(km)	R²
Linear regression	112.4	140.8	0.68
RF	65.2	83.5	0.82
ANN	61.7	78.1	0.84