Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 7, pp.1801-1809
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Jul 2025
Received 25 Jun 2025 Revised 21 Jul 2025 Accepted 25 Jul 2025
DOI: https://doi.org/10.9728/dcs.2025.26.7.1801

자동화된 게임 테스트에서 탐색 강화: 강화 학습 에이전트의 정체 극복

장태현1 ; 이예진2 ; 김현석3, *
1동아대학교 컴퓨터공학과 석사과정
2동아대학교 AI학과 학사과정
3동아대학교 컴퓨터공학과 조교수
Overcoming Exploration Stagnation in Reinforcement Learning-Based Automated Game Testing
Tae-Hyeon Jang1 ; Yeajin Lee2 ; Hyunseok Kim3, *
1Master’s Course, Dvision of Computer and AI, Dong-A University, Busan 49315, Korea
2Undergraduate Program, Dvision of Computer and AI, Dong-A University, Busan 49315, Korea
3Professor, Dvision of Computer and AI, Dong-A University, Busan 49315, Korea

Correspondence to: *Hyunseok Kim Tel: +82-51-200-7928 E-mail: hertzkim@dau.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

현대 게임의 복잡성이 증가함에 따라, 품질 보증 인력에 의한 수작업 기반 테스트는 높은 비용과 제한적인 탐색 커버리지 문제가 있다. 이를 해결하기 위해 강화학습을 활용한 자동화된 게임 테스트 방식이 연구되고 있지만, 기존 강화학습 방식은 에이전트가 빠르게 최적 경로에 수렴하면서 새로운 탐험을 소홀히 하게 되는 탐험 정체(Exploration Stagnation) 문제가 발생한다. 따라서, 본 연구에서는 탐험 정체 시점에 탐험 전략을 일시적으로 조절하는 동적 탐험 조절 기법을 제안한다. 제안 기법은 최근 평균 리워드 변화율이 임곗값 이하일 경우, softmax 온도 또는 ε 값을 증가시키는 방식으로 동작한다. 본 논문에서는 제안한 방법을 softmax기반 CartPole과 ε-greedy Deep Q-Network(DQN) 기반 MsPacman 환경에서 평가하였으며, 도달하기 어려운 영역에 삽입된 버그에 대해 기존 방식 및 무작위 탐험보다 우수한 탐지 성능을 보였다.

Abstract

As modern games become increasingly complex, manual quality assurance testing grows more costly and struggles ensure comprehensive exploratory coverage. To address these challenges, reinforcement learning (RL)-based automated game testing has been explored. However, traditional RL methods often suffer from exploration stagnation, where agents prematurely converge to suboptimal paths and fail to investigate less-visited areas. To overcome this, we propose a novel Dynamic Exploration Adjustment Technique (DEAT), which adaptively adjusts exploration strategies when stagnation is detected. Specifically, DEAT increases the softmax temperature or ε-value if the recent average reward change rate falls below a pre-defined threshold. We evaluate the proposed method in two environments: a softmax-based CartPole and an ε-greedy Deep Q-Network-based Ms. Pac-Man. Experimental results demonstrate that DEAT achieves superior bug-detection performance in challenging and hard-to-reach areas, outperforming both baseline methods and random exploration.

Keywords:

Reinforcement Learning, Game Testing, Exploration Control, Bug Detection, Exploration Strategy

키워드:

강화학습, 게임 테스트, 탐험성 조절, 버그 탐지, 탐험 전략

Ⅰ. 서 론

본 논문은 게임 테스트 자동화를 위한 강화학습 기반 탐색 전략 조절 기법을 제안한다. 특히, 학습 과정에서 에이전트가 탐험 정체(Exploration Stagnation)에 빠져 버그가 존재하는 영역에 도달하지 못하는 문제를 완화하고, 이를 통해 테스트 커버리지를 효과적으로 확장하는 것을 목표로 한다. 강화학습(Reinforcement Learning, RL)을 활용한 게임 테스트 자동화는 반복 학습 과정에서 에이전트의 정책이 초기 성공 경로에 빠르게 수렴하는 특성으로 인해, 새로운 상태 공간에 대한 탐험 기회가 제한되는 문제가 있다[1],[2]. 특히, 정적 탐험 전략을 사용하는 기존 강화학습 방법은 학습 초기에 높은 보상을 받을 수 있는 지역 최적 경로에 정체되어, 게임 후반의 동적 품질 저하를 발생하는 버그를 발견하기 어려울 수 있다[3]. 대표적인 기존 강화학습 기반 게임 테스트 자동화 기법으로 Tufano가 제안한 RL-based Load Testing for Games(RELINE) [4] 시스템이 있다. RELINE 시스템은 학습된 에이전트가 FPS(Frame Per Second) 하락하는 버그 지점을 식별할 수 있음을 보여주었다. 하지만 대부분의 동일한 상태의 버그를 발견하는데 정체되어, 동적으로 변하는 버그를 발견하기 위한 탐험 정체가 있는 근본적인 한계를 가지고 있다.

따라서, 본 논문에서는 에이전트가 탐험할 수 있는 테스트 커버리지가 정체되는 문제를 해결하기 위해, 동적 탐험 전략 조절 기법의 새로운 강화학습 기반 게임 테스트 자동화 구조를 제안한다. 구체적으로, 평균 보상값 변화를 기반으로 에이전트 탐험 능력을 동적으로 조절하도록 학습되어, 정체된 시점에서 일시적으로 무작위성을 증가시켜 보다 넓은 상태 공간을 커버하도록 유도한다. 또한, 제안된 방법을 통해 기존 방식보다 도달하기 어려운 넓은 탐험 영역을 효과적으로 탐지할 수 있음을 softmax 기반 CartPole과 ε-greedy Deep Q-Network(DQN) 기반 MsPacman 환경에서 정량적으로 평가한다.

본 논문의 구성은 2장에서 게임 테스트 자동화의 최근 연구 동향과 기존 강화학습 기반 테스트 기법의 한계점을 고찰하고, 탐험 능력 조절 기법에 대한 기술적 배경을 정리한다. 또한, 3장에서 본 논문에서 제안하는 동적 탐험 능력 조절 방식인 Boosting Exploration in Automated Game Testing(BEAGT)의 구조와 동작 원리를 설명하고, CartPole 및 MsPacman 환경에 적용한 버그 삽입 시나리오 및 실험 환경을 설명한다. 이후, 4장에서는 실제 실험을 통해 기존 방식 및 무작위 방식과의 비교를 실행하며, 제안 기법의 효과를 정량적으로 평가하고 고찰한다. 마지막으로 5장에서 본 연구의 결론을 정리하고 향후 연구 방향에 대해 논의한다.


Ⅱ. 강화학습 게임 테스트와 탐험 전략

2-1 게임 테스트 자동화 개요

최근 게임 산업 규모가 빠르게 성장함에 따라[5] 게임 개발에 요구되는 자원과 시간이 점점 증가하고 있다[6]. 특히, 버그나 성능 저하와 같은 문제를 사전에 방지하기 위한 테스트 비용 또한 급증하는 추세이며[7], 품질 보증(Quality Assurance, QA)의 중요성도 커지고 있다. 기존 수작업 기반의 QA 방식은 인력 의존도, 보안 위험, 반복성 부족 등 다양한 한계점을 지니며, 많은 인력을 투입하더라도 모든 결함을 사전에 식별하기 어려운 것이 현실이다[8],[9]. 대표적인 사례로 대규모 QA 과정을 거쳤음에도 불구하고 '사이버펑크 2077'[10]은 출시 직후 수많은 버그와 성능 문제로 인해 큰 논란을 일으켰으며, 일시적으로 판매가 중단되기까지 했다. 이처럼 게임 환경의 복잡성이 증가함에 따라 전통적인 수작업 기반 또는 스크립트 기반의 테스트 방식은 탐험 범위의 제한성과 유지보수의 어려움으로 인해 한계를 드러내고 있으며[11], 이를 극복하기 위해 강화학습을 활용한 자동화 게임 테스트에 관한 연구가 활발히 진행되고 있다[12].

2-2 강화학습 기반 게임 테스트 자동화

강화학습은 에이전트가 환경과 상호작용을 하며 보상을 극대화하는 방향으로 학습하는 방법론이다. 일반적으로 환경(environment), 에이전트(agent), 보상 함수(reward), 정책(policy)으로 구성되며, 게임과 같은 복잡한 환경에서도 매우 자연스럽게 적용할 수 있다[13],[14]. 특히, 게임 테스트에 RL을 적용하면, 테스트 대상이 되는 게임을 강화학습 대상 환경으로 설정할 수 있다. 여기서 에이전트는 게임을 플레이하면서 버그를 발견하는 QA 인력과 같은 역할을 하게 되며, 게임 컨트롤과 같은 다양한 행동을 시도할 수 있다. 여기서 게임상에 있는 버그를 발견하게 되면 높은 점수를 받도록 보상 함수[4],[15]를 설계하면, 에이전트는 보상을 높이는 쪽으로(즉, 더 많은 게임의 버그를 발견하는 방향으로) 게임을 플레이하는 정책을 학습하게 된다.

RL 기반 게임 자동화 테스트는 에이전트가 보상 함수에 따라 게임 환경을 자율적으로 탐험하며, 예기치 못한 버그나 성능 저하 지점을 식별할 수 있다는 점에서 높은 확장성과 유연성을 제공한다. 특히, Wuji[16]는 진화형 강화학습 알고리즘을 통해 온라인 전투 게임 내의 충돌 오류나 진행 불가 상태를 자동 탐지하는 시스템을 구현하였다. 또한, GBGallery[17]는 다양한 게임 테스트 벤치마크와 프레임워크를 통해 RL 기반 탐험 기법의 적용 가능성과 Wuji를 비롯한 다양한 알고리즘에 대해 일반화 성능을 비교 분석하였다.

하지만, 기존 정적 탐험 기반 강화학습 게임 테스트 방식은 게임의 상태 공간이 지나치게 넓은 경우, 버그 위치를 탐험하지 못하여 보상이 정체될 수 있으며, 이는 정책 학습을 매우 느리게 만드는 문제가 있다. 따라서, 이를 극복하기 위해 강화학습의 탐험 전략을 조정하는 방법이 필요하다.

2-3 탐험 전략 조절에 대한 기존 접근

강화학습의 핵심 과제 중 하나는 탐사(Exploitation)와 탐험(Exploration)의 균형을 조절하는 것이다. 에이전트는 보상이 높은 행동을 반복 탐사함으로써 점차 안정적인 정책을 형성하게 되지만, 새로운 상태 공간에 대한 탐험 기회가 점점 줄어들게 되는 현상이 발생한다. 이 문제는 특히 보상의 분포가 불균형하거나 오류가 특정 상태에서 발생하는 불안정한 환경에서 더욱 심각하게 나타난다. 따라서, 이러한 문제를 완화하기 위해 다양한 확률 기반 탐험-탐색 균형 전략이 제안되었다. 대표적으로 ε-greedy[18]는 일정 확률로 무작위 행동을 수행해 새로운 정책에 대한 탐험을 유도하며, Boltzmann exploration[19]은 가치에 따라 확률적으로 행동을 선택하는 방식을 취한다. 또한, Entropy regularization[20]은 에이전트의 행동 다양성을 확보하기 위해 정책의 불확실성을 유지하는 방식이다. 하지만 이러한 학습 방법은 대부분 정적 파라미터를 기반으로 동작하기 때문에, 학습이 진행될수록 탐험 계수가 고정되거나 감소하게 되며, 이는 에이전트가 학습 초기에 습득한 경로에만 수렴하고, 새로운 상태로의 진입이 점점 차단되는 현상을 만들게 된다[21].

탐험성을 강화하기 위한 또 다른 대표적 접근으로는 내재적 보상(intrinsic reward) 기반 설계가 있다. 이 범주에는 curiosity-driven exploration이나 prediction error 기반 보상 방식이 포함되며, 외부 보상이 주어지지 않는 환경에서도 자율적인 탐험을 가능하게 해준다. 예를 들어, Pathak et al.[22]은 에이전트가 스스로 예측한 결과와 실제 관측값 사이의 차이를 바탕으로 보상을 부여하는 구조를 제안함으로써, 복잡한 시각 환경에서도 새로운 상태에 진입하도록 유도하였다. 이러한 방식은 외부 보상이 희소하거나 정의되기 어려운 상황에서 유용하지만, 별도의 예측 모델이나 보상 모듈이 필요하다는 점, 그리고 실제 게임 테스트 상황처럼 외부 이벤트(예: 버그 발생)에 대한 직접적인 피드백이 부족할 수 있다는 한계를 지닌다.

따라서, 강화학습 기반 게임 테스트 환경에서는 상태 공간 커버리지 확보와 비정상 상황 탐지를 위한 보다 실용적인 탐험 강화 전략이 필요하다. 이를 위해 최근에는 특정 상태에 도달하도록 RL 정책을 유도하거나, 성능 저하나 오류 발생 구간에 보상을 집중시키는 방식의 연구들도 진행되고 있으며, 이는 게임 테스트를 수작업 기반에서 학습 기반의 동적 자동화 프로세스로 전환하는 핵심 기술로 주목받고 있다.

최근, RL 기법을 FPS 하락과 같은 성능 저하 지점 탐지에 적용한 RELINE 시스템이 제안되었다[4]. Tufano et al.은 게임 내 실시간 성능 로그를 기반으로 보상을 부여하는 RELINE 구조를 통해, 에이전트가 성능 저하 구간에 도달하도록 유도하도록 하였다. 특히, RELINE 시스템은 RL 기반 에이전트를 활용하여 게임 내의 성능 저하 구간(FPS 하락, 렌더링 지연, softlock 등)을 자동으로 식별하는 자동화 테스트 프레임워크이다. 이는 RL을 게임 테스트에 실질적으로 활용한 대표적 사례이지만 기술적 한계가 있다. 구체적으로, RELINE은 실시간 성능 측정 결과를 기반으로 보상을 부여하고, 에이전트는 반복 학습을 통해 해당 문제 구간에 도달하도록 학습된다. 이는 softmax 기반 확률적 정책과 DQN 기반 Q-value 예측 구조를 함께 사용하여 게임 시나리오 전반에서 효과적으로 성능 저하 구간을 탐지할 수 있도록 설계되었다. 하지만, 고정된 탐험 계수(softmax의 temperature 또는 DQN의 ε)를 사용하는 정적 탐험 전략에 기반하고 있는 한계가 있어, 학습 초반에는 일정 수준의 탐험을 보장하지만, 일정 에피소드 이후 정책이 특정 경로로 빠르게 수렴하게 되는 문제가 있다. 또한, 새로운 상태나 미탐험 영역으로의 접근이 거의 발생하지 않는 탐험 정체(exploration stagnation) 문제가 있다. 실제 RELINE의 실험에서 학습 및 테스트 환경이 동일하게 설정된 관계로 특정 성능 저하 지점에 대한 탐지는 성공적이었으나, 학습되지 않은 예외 상황이나 복잡한 환경 변화에 대한 일반화 성능은 명확히 검증되지 않은 한계가 있었다. 이는, RELINE이 강화학습을 게임 테스트에 성공적으로 적용한 초기 사례에 해당하지만, 정적 탐험 방식의 한계로 인해 테스트 커버리지 확대나 예외 상태 탐지 성능 측면에서는 한계를 갖게 되었다.

따라서, 본 연구에서는 에이전트의 학습 진행 상황을 기반으로 탐험 계수를 동적으로 조절하는 기법을 제안한다. 특히 최근 평균 리워드 변화 폭이 일정 수준 이하로 정체되는 구간을 감지하고 탐험 계수(softmax의 temperature 또는 ε-greedy의 ε)를 일시적으로 증가시킴으로써, 정책 수렴 상태에서 벗어나 새로운 상태 공간으로의 탐험을 유도한다. 이러한 구조는 기존 정적 탐험 방식 및 RELINE 시스템과의 차별성을 가지며, 3장에서 비교 실험을 통해 더욱 넓은 상태 공간 탐험과 버그 탐지 성능의 우수성을 입증한다.


Ⅲ. 동적 탐험 조절 기법과 실험 시나리오

3-1 BEAGT: 성능 정체 기반 탐험 조절 아키텍처

앞서 설명한 바와 같이, 기존 강화학습 기반 게임 테스트 방식은 일정 시간 이후 특정 경로에 수렴하여 새로운 상태 공간으로의 탐험이 제한되는 문제가 존재한다. 본 연구에서는 이러한 탐험 정체 현상을 완화하고 더 넓은 테스트 커버리지를 확보하기 위해, 최근 평균 리워드 변화 추이를 기반으로 탐험 성능을 동적으로 조절하는 Boosting Exploration in Automated Game Testing(BEAGT) 아키텍처를 제안한다. 제안하는 구조는 비디오 게임 내에서 상태 및 보상 정보를 실시간으로 수집하고, 이를 기반으로 학습된 정책이 다양한 게임 상황에서의 버그 발생 여부 또는 성능 저하 현상을 자동으로 탐지할 수 있도록 설계된다. 특히 학습이 정체되는 구간을 탐지할 수 있도록 Recent Reward 평가 모듈을 통해 일정 시간 동안의 평균 리워드를 기록하고, 해당 값이 일정 수준 이상 변화하지 않을 경우, Exploration Controller가 탐험 계수를 증가시켜 에이전트가 더욱 넓은 상태 공간을 탐험할 수 있도록 유도한다. 전체 아키텍처는 그림 1과 같이 구성된다. 게임 환경으로부터 입력된 상태 정보와 리워드 정보는 Reward Function에 의해 처리되며, 이 과정에서 추출된 리워드는 Recent Reward 모듈에 저장된다. Exploration Controller는 최근 리워드의 정체 여부를 판단하고, 필요한 경우 RL-model의 탐험 계수(control parameter)를 동적으로 수정 하여 탐험 전략을 수정한다. 이렇게 훈련된 모델은 게임 환경에 컨트롤 행동을 수행하고, 다시 리워드를 받는 방식으로 동작한다. 제안하는 아키텍처는 강화학습의 기본 구조를 바탕으로, 탐험 능력을 동적으로 조절할 수 있는 모듈을 덧붙여 구성하였다.

Fig. 1.

Architecture of boosting exploration in automated game testing based on recent reward trends

본 논문에서 제안한 탐험 성능 조절 기능은 일정 구간 동안 학습 성과(평균 리워드)의 변화 폭을 분석하여 작동되며, 전체 흐름은 그림 2에 제시되어 있다. 제안한 알고리즘은 최근 N 회의 성능 지표를 기록한 후, 첫 번째 값을 기준으로 이후 변화율을 계산한다. 모든 변화율이 사전 정의된 임곗값 이하일 경우, 에이전트의 탐험 계수를 증가시켜 일시적으로 무작위성을 높이고 새로운 상태 공간 탐험을 유도한다. 반대로 성능 변화가 충분히 클 경우에는 탐험 계수를 초깃값으로 복원하여, 안정적인 수렴을 유도한다. 이러한 조건 기반 조절 메커니즘은 탐험 능력과 안정성 사이의 균형을 자동으로 맞춰주며, 에이전트가 특정 경로에 정체되지 않고 넓은 테스트 커버리지를 확보하도록 돕는다. 본 실험에서 조절되는 탐험 계수는 게임 환경 정책 형태에 따라 softmax 기반에서는 온도(temperature), ε-greedy 기반에서는 ε로 설정된다.

Fig. 2.

Adaptive control of exploration based on performance stagnation

3-2 CartPole 환경에서의 BEAGT 적용 시나리오

CartPole 환경은 수레에 세워진 막대가 쓰러지지 않도록 좌우로 움직이며 균형을 유지하는 게임이다. 상태는 막대의 각도 및 각속도, 수레의 위치 및 속도로 구성되며, 행동은 ‘왼쪽으로 이동’ 또는 ‘오른쪽으로 이동’의 이산적 선택지를 가진다.

본 실험에서는 OpenAI Gym의 "CartPole-v0" 환경을 사용하되, 에피소드 최대 길이를 1,000스텝으로 조정하여 비교적 긴 시간 동안 탐험이 가능하도록 설정하였다. CartPole 환경에서는 일반적으로 수레가 막대를 얼마나 오랫동안 균형 있게 유지하는지를 기준으로 보상을 설계한다. 본 연구에서도 기존 연구와 동일하게, 막대가 쓰러지지 않는 동안 타임 스텝마다 +1의 보상을 부여하는 구조를 유지하였다. 강화학습 탐험 성능 평가를 목적으로 그림 3과 같이 파란색 구역을 통해서 학습하고, 빨간 구역을 통해 테스트를 진행할 수 있도록 인위적으로 버그를 삽입하는 시나리오로 설정하였다. 버그 조건은 수레가 특정 x 좌표에 도달했을 때 버그 카운트가 증가하도록 정의되며(BUG 1: -1.0 < x < -0.95, BUG 2: -0.55 < x < -0.50, BUG 3: +0.50 < x < +0.55, BUG 4: +0.95 < x < +1.0), 이 위치는 일반적인 학습 정책으로는 도달하기 쉽지 않은 영역으로 설정된다. 즉, 발견해야 할 버그는 학습을 통해 최적화된 균형 유지 행동만으로는 자연스럽게 발견하기 어려운 영역에 자리 잡고 있으며, 정적인 탐험 능력으로는 도달하지 못하는 상태로 설계된다. 따라서, 이러한 설계를 통해 에이전트가 학습 과정에서 얼마나 넓은 상태 공간을 실제로 탐험하고 있는지를 정량적으로 확인할 수 있도록 하였다. 또한, 일정한 성능 정체 구간을 탐지하기 위해 최근 5개의 에피소드 평균 보상이 3% 이내의 차이를 보일 경우, 탐험 온도를 일시적으로 증가시켜 탐험 능력을 보완하는 기법을 적용하였다. 이를 통해 에이전트가 보상에 안주하지 않고 탐험하지 않은 영역으로의 접근을 유도하도록 하였다. 버그 카운트의 증가 여부는 테스트 결과의 지표로 활용되며, 제안하는 탐험 전략 조절 기법이 적용된 모델과 적용되지 않은 모델 간의 차이를 비교 분석하는 데 사용된다.

Fig. 3.

Training (blue) and test-only (red) bug regions in CartPole

3-3 MsPacman 환경에서의 BEAGT 적용 시나리오

MsPacman 환경은 시각 정보 기반의 복잡한 상태 공간을 가지며, 고전적인 아케이드 게임으로 강화학습 분야에서 다양하게 활용되고 있다. 게임 플레이어는 미로 형태의 맵을 탐험하며 점수를 획득하고 유령을 피하는 방식으로, 다양한 방향성과 장애물이 결합해 있어 탐험 전략의 다양성과 일반화 성능을 평가하기에 적합하다.

본 실험에서는 “MsPacmanNoFrameskip-v4” 환경을 사용하며, 프레임 스킵 없이 스텝마다 화면을 처리하는 구조로 설정하였다. 해당 환경에서는 점수와 관련된 행동(예: 코인 수집, 유령 회피 등)에 대해 다양한 보상 구조가 가능하지만, 본 연구에서는 기존 비교 대상과의 테스트 일관성을 유지하기 위해, 코인을 수집할 때마다 +1의 보상을 부여하는 단순화된 보상 구조를 채택하였다. 버그 조건은 위치 기반으로 삽입하였다. 버그는 맵의 좌우 외곽에 있는 골목길에 설정되었으며, 리워드 구조상 탐험 성능이 충분하지 않으면 도달하기 어려운 경로로 설계되었다. 각 위치는 그림 4와 같이 빨간색 화살표 지점을 통해서 학습하고, 흰색 화살표 지점을 통해서 테스트를 진행하였다. 이와 같은 설정은 에이전트가 학습된 경로를 넘어 새로운 상태 공간으로의 탐험을 수행할 수 있는지를 평가하기 위한 구조이다. 특히 MsPacman의 특성상 골목 끝에 도달하면 반대편 골목으로 이동하기 때문에, 본 실험에서는 단순한 위치 도달이 아닌, 해당 위치에서 특정 방향을 바라보는 조건이 동시에 만족할 때만 버그로 판정되도록 구성하였다. 이를 통해 무작정 이동하는 것이 아니라, 명확한 목적성을 가지고 해당 상태에 도달했는지를 평가할 수 있도록 하였다. 또한, 학습이 일정 수준에서 정체되는 상황을 고려하여, 최근 10개의 평균 보상이 3% 이내의 차이를 보일 경우 탐험 온도(ε)를 일시적으로 증가시키는 메커니즘을 적용하였다. 이때 ε 값은 최소 0.01씩 증가하도록 하며, 최대 ε 값은 0.3으로 제한하여 지나치게 무작위적인 행동을 방지하였다. 이러한 조절은 에이전트가 보상 기반 정책에 안주하지 않고, 미탐험 영역으로의 접근을 유도하기 위한 목적을 가진다.

Fig. 4.

Training (red) and test-only (white) bug regions in MsPacman


Ⅳ. 실험 결과 및 고찰

4-1 CartPole 실험 결과 및 고찰

표 1은 CartPole 환경에서 각각 제안 방식(BEAGT), 기존 방식(RELINE), 무작위(random) 방식에 따른 버그 탐지 결과를 비교한 것이다. 각 방식은 동일한 환경과 조건에서 1,000회의 학습을 수행한 후, 학습이 완료된 정책을 고정한 상태로 1,000회의 테스트 에피소드를 10회 반복하여 결과를 수집하였다. 버그 도달 횟수에 따라 에이전트의 탐험 성능을 정량화하였으며, ‘0개’는 버그를 전혀 탐지하지 못한 경우, ‘1개~4개’는 탐지한 버그의 개수에 따라 집계하였다.

Bug detection results in the CartPole environment

기존 RELINE 방식은 softmax 기반의 정책을 사용하지만, 탐험 온도(temperature)를 고정된 값으로 설정한 구조로 설계되어 있다. 이에 따라 학습이 진행됨에 따라 정책은 점차 특정 행동 확률로 수렴하게 되고, 새로운 상태 공간으로의 접근 가능성은 감소하게 된다. 실제 실험에서도 기존 방식은 2개 또는 3개의 버그 탐지에서 대부분의 탐지 성능을 보였고, 4개를 모두 탐지한 경우는 평균적으로 85.7회로 제한적이었다. 반면 본 논문에서 제안한 방식은 동일한 정책 구조를 유지하면서도, 최근 5개 에피소드의 평균 보상이 3% 이내로 정체될 때 탐험 온도를 일시적으로 증가시키는 방식으로 동작한다. 이러한 동적 탐험 전략 조절 기법은 학습이 일정 경로로 수렴하는 상황에서도 일시적으로 탐험 범위를 넓히도록 유도함으로써, 미탐험 상태 공간에 대한 접근 가능성을 확보할 수 있게 한다. 그 결과, 4개 버그를 모두 탐지한 시도가 평균 184.2회로 기존 대비 2배 이상 증가하였다.

이러한 차이는 reward function 설계의 구조적 차이에서 비롯된다. RELINE은 특정 상태에 도달하면 정적으로 보상을 부여하는 방식이지만, BEAGT는 보상 정체 상황을 기반으로 탐험성을 강화함으로써 더 유연하고 넓은 상태 공간 탐험을 유도할 수 있다. 또한, 그림 5에서 보이듯이 평균 리워드 수렴 곡선은 두 방식 모두 유사한 수준에서 수렴하고 있으며, 이는 BEAGT가 탐험 성능을 향상하면서도 전반적인 학습 안정성은 유지함을 의미한다.

Fig. 5.

Comparison of average reward trends in the CartPole environment

Fig. 6.

Comparison of bug detection rates in the CartPole environment

즉, BEAGT는 단순한 무작위성 증가가 아닌 성능 정체 구간에서의 조건부 탐험 전략 조절을 통해 버그 탐지 성능, 탐험 커버리지, 정책 안정성의 균형을 동시에 달성한 방식으로, 기존 정적 탐험 구조 대비 명확한 정량적·정성적 우위를 입증하였다.

4-2 MsPacman 실험 결과 및 고찰

표 2는 MsPacman 환경에서 각각 제안 방식(BEAGT), 기존 방식(RELINE), 무작위(random) 방식에 따른 버그 탐지 결과를 비교한 것이다. MsPacman은 시각 정보 기반의 복잡한 맵 구조를 가지며, 버그는 리워드 구조상 도달이 어려운 좌우 외곽 골목에 자리 잡고 있다. 따라서 효과적인 탐험 전략이 없이는 해당 영역에 도달하기 어렵다.

Bug detection results in the MsPacman environment

본 실험에서는 세 방식 모두 1,000회의 테스트 에피소드를 10회 실행한 결과를 기반으로 버그 탐지 성능을 정량적으로 비교하였다. 기존 방식은 원래 설계된 구조상 2,000회 학습 중 마지막 1,000회 데이터를 평가용으로 사용하는 방식이었으나, 이는 탐험 성능과 테스트 조건이 명확히 분리되지 않아 공정한 비교가 어려웠다. 따라서 본 연구에서는 비교의 일관성을 위해 기존 방식도 총 10,000회 학습 후, 학습이 완료된 정책을 고정한 상태에서 별도로 1,000회의 테스트 에피소드를 수행하도록 수정하였다. 또한 제안 방식에서는 ε 조절 메커니즘의 효과를 극대화하기 위해 일부 하이퍼파라미터(예: ε의 최솟값 등)를 기존과 다르게 조정하여 탐험 능력과 안정성 간의 균형을 강화하였다.

기존 방식에서는 에이전트가 대부분 훈련된 경로에만 집중하여 외곽 골목까지 도달하는 경우가 적었으며, 이는 ε-greedy 정책이 초반 수렴 이후 탐험 능력을 유지하지 못하는 한계를 보여준다. 무작위(Random) 방식은 초기에는 넓은 상태 공간을 탐험하지만, 정책적 방향성이 전혀 없으므로 대부분의 시도에서 버그 위치에 도달하지 못하고, 오히려 아무런 버그도 탐지하지 못한 경우가 비율이 전체의 약 97.8%이다. 이는 무작위 방식이 탐험 커버리지는 넓을 수 있지만, 목적성 없는 행동으로 인해 실제 탐지 성과는 낮다는 점을 시사한다. 반면 제안한 방식은 ε 값을 정체 구간에서 일시적으로 상승시키는 탐험 온도 조절 기법을 통해, 평균적으로 1개 또는 2개의 버그를 탐지한 횟수가 기존 방식 대비 유의미하게 증가하였다. 이는 단순한 무작위 탐험과 달리, 전략적으로 강화된 탐험성이 실제 탐지 성능으로 이어졌음을 의미한다. 특히, random 방식과의 비교를 통해 단순 탐험성 확보만으로는 충분하지 않으며, 적절한 타이밍과 조건 하에서의 탐험성 조절이 효과적인 테스트 커버리지 확보에 핵심적임을 확인하였다.

반면, 그림 7에서와 같이, 학습 과정에서의 평균 리워드 기록에서는 기존 방식(RELINE)이 제안 방식보다 다소 높은 값을 기록하였음을 알 수 있다. 이는 ε-greedy 구조의 정적인 정책이 학습 후반부로 갈수록 특정 경로에 빠르게 수렴하고, 안정적인 리워드 수집 경로를 지속적으로 반복 수행하게 되었기 때문으로 해석할 수 있다. 즉, 기존 방식은 게임 내에서 이미 보상이 잘 주어지는 루트를 반복적으로 학습하며 전체 평균 리워드를 끌어올렸으나, 이는 새로운 상태나 예외적인 경로에 대한 탐험 성능과는 반드시 비례하지 않는다. 실제로 버그 탐지율에 있어서는 제안 방식이 기존 방식보다 우수한 결과를 보였으며, 특히 미탐험 상태에 존재하는 버그를 더 자주 탐지하였다. 이는 정체된 학습 구간에서 ε 값을 일시적으로 증가시키는 방식이 평균 리워드 측에서는 다소 손해가 있더라도 수렴된 경로를 벗어나 새로운 상태 공간으로의 진입을 유도했기 때문이다. 반면, 기존 방식은 높은 리워드를 유지하되 탐험 범위가 제한되어 있어, 게임 전반의 리워드 수집 성능은 좋지만, 테스트 커버리지 측면에서는 부족함을 보였다.

Fig. 7.

Comparison of average reward trends in the MsPacman environment

4-3 제안 방법의 우수성에 대한 고찰

본 논문에서 제안한 방법과 기존 연구와의 비교 결과를 통해 복잡한 게임 환경일수록 단순한 수렴 속도나 리워드 총합보다, 보상 설계와 탐험 구조가 더 중요한 성능 요소가 될 수 있음을 알 수 있다. 즉, 높은 평균 리워드는 탐험 성능의 대체 지표가 아니며, 버그 탐지나 상태 커버리지와 같은 목적에서는 의도적인 탐험 조절 기법이 더욱 효과적일 수 있다. CartPole 환경에서는 softmax 기반 정책에 온도 조절 기법을 도입하여 기존 방식 대비 버그 탐지율이 크게 향상되었으며, MsPacman 환경에서는 ε-greedy 기반 DQN 구조에서 ε 값을 동적으로 증가시키는 방식으로 복잡한 시각 환경에서도 높은 탐험 커버리지를 달성하였다.

Fig. 8.

Comparison of bug detection rates in the MsPacman environment

한편, 기존의 curiosity-driven exploration이나 intrinsic motivation 기반 기법들은 외부 보상이 희소하거나 없는 환경에서 자율적인 탐험을 유도하는 데 효과적이지만, 예측 오류 기반 보상의 간접성, 추가 모델 학습 필요성, 테스트 목적과의 직접적 연계 부족 등의 한계가 존재한다. 반면, 본 논문에서 제안한 방식은 에이전트의 실제 학습 성과에 따라 탐험 계수를 조절함으로써, 별도의 예측 모듈 없이도 실시간 탐험성 강화와 안정성 유지 간의 균형을 달성할 수 있다.

또한, 기존 방법들은 학습 초기에는 탐험 범위를 보장하지만, 일정 에피소드 이후에는 정책이 특정 경로에 수렴하면서 탐험이 급격히 제한되는 문제가 있다. 본 연구는 이러한 한계에 주목하여, 학습 과정 중 실시간으로 탐험성의 회복을 유도하는 동적 조절 구조를 설계하였으며, 이는 정적인 탐험 전략과 차별되는 핵심적인 기여점이라 할 수 있다.


Ⅴ. 결 론

현대 게임 환경의 복잡성이 증가함에 따라, 강화학습 기반 자동화 테스트가 게임 QA 분야에서 중요한 대안으로 부상하고 있다. 그러나 기존 강화학습 기법은 반복 학습 과정에서 탐험 능력이 정체되는 문제가 있다. 이에 본 연구에서는 강화학습 기반 게임 테스트 환경에서 반복 학습으로 인한 탐험 정체 문제를 해결하기 위해, 최근 평균 보상 변화율을 기반으로 탐험 전략을 동적으로 조절하는 아키텍처를 제안하였다. 제안 기법은 학습이 정체된 상태를 감지하여, softmax 기반 정책에서는 온도를, ε-greedy 기반 정책에서는 탐험 계수(ε)를 일시적으로 증가시키는 방식으로 동작한다. CartPole(softmax 기반)과 MsPacman(ε-greedy DQN 기반) 환경에서의 실험 결과, 제안 기법은 기존 DQN 정책이나 무작위 탐험 방식에 비해 도달하기 어려운 영역에 삽입된 버그 탐지 성능이 우수함을 확인하였다. 그러나 MsPacman 환경 분석 결과, 버그 탐지율에서는 제안 기법이 DQN 대비 우위를 보였으나, 탐험 커버리지 측면에서는 DQN이 상대적으로 더 넓은 영역을 탐색하는 경향이 나타났다. 이는 제안 방식이 조건부로 탐험성을 강화하는 구조이기 때문에, 특정 목표 지점 탐지에는 효과적이나 상태 공간 전체를 균등하게 커버하는 데에는 한계가 있을 수 있음을 시사한다. 이러한 한계를 보완하기 위해, 향후 연구에서는 상태 기반 중요도(weighted state coverage)나 다중 탐험 계층(multi-phase exploration) 등 복합적인 탐험 조절 기법에 관한 추가 연구가 필요하다. 또한 본 연구의 실험은 상대적으로 단순한 강화학습 환경에 국한되었으므로, 상용화된 복잡한 게임 환경이나 대규모 3D 시뮬레이션 환경에서의 적용 가능성과 확장성을 실증적으로 검토할 필요가 있다. 아울러, 본 연구는 softmax 기반 정책과 DQN 기반 ε-greedy 구조에 집중하였으나, 향후에는 SAC(Soft Actor-Critic), PPO(Proximal Policy Optimization) 등 다양한 최신 정책 학습 기법에 대해서도 제안한 탐험 조절 아키텍처의 적용 가능성을 평가할 예정이다. 이를 통해 본 기법을 보다 보편화된 탐험 제어 프레임워크로 발전시킬 수 있을 것으로 기대한다.

Acknowledgments

이 논문은 2025년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구 결과임(No. RS-2025-02306070, 발생가능한 복합재난 신속 예측 및 연속적인 재난 예방을 위한 디지털 혁신요소기술 개발)

References

  • B. C. Stadie, S. Levine, and P. Abbeel, “Incentivizing Exploration in Reinforcement Learning with Deep Predictive Models,” arXiv:1507.00814, , July 2015. [https://doi.org/10.48550/arXiv.1507.00814]
  • P. Ladosz, L. Weng, M. Kim, and H. Oh, “Exploration in Deep Reinforcement Learning: A Survey,” Information Fusion, Vol. 85, pp. 1-22, May 2022. [https://doi.org/10.1016/j.inffus.2022.03.003]
  • J. Bergdahl, C. Gordillo, K. Tollmar, and L. Gisslén, “Augmenting Automated Game Testing with Deep Reinforcement Learning,” in Proceedings of the 2020 IEEE Conference on Games (CoG), Osaka: Japan, pp. 600-603, 2020. [https://doi.org/10.1109/CoG47356.2020.9231552]
  • R. Tufano, S. Scalabrino, L. Pasxarella, E. Aghjani, R. Oliveto, and G. Bavota, “Using reinforcement learning for load testing of video games,” in Proceedings of the 44th International Conference on Software Engineering, Pittsburgh: PA, pp. 2303-2314, 2022. [https://doi.org/10.1145/3510003.3510625]
  • Korea Creative Content Agency, Global Game Industry Trend (GGIT), KOCCA, Naju, February 2025.
  • J. Munro, C. Boldyreff, and A. Capiluppi, “Architectural Studies of Games Engines — The Quake Series,” in Proceedings of the 2009 International IEEE Consumer Electronics Society's Games Innovations Conference, London: UK, pp. 246-255, August 2009. [https://doi.org/10.1109/ICEGIC.2009.5293600]
  • K.-H. Eun and D.-L. Lee, “A Case Study of a Testing Duties of On-Line Games,” Journal of Digital Convergence, Vol. 10, No. 1, pp. 435-443, January 2012. [https://doi.org/10.14400/JDPM.2012.10.1.435]
  • This is Game. A Saturated Market and Rising Development Costs: The Myth of Endless Growth is the Real Problem [Internet]. Available: https://www.thisisgame.com/articles/193994, .
  • D. Lin, C.-P. Bezemer, and A. E. Hassan, “Studying the Urgent Updates of Popular Games on the Steam Platform,” Empirical Software Engineering, Vol. 22, pp. 2095-2126, December 2016. [https://doi.org/10.1007/s10664-016-9480-2]
  • KPE News. Cyberpunk 2077 goes from Hottest Anticipated Title to Refund Nightmare on Console Stores [Internet]. Available: http://kpenews.com/View.aspx?No=1389133, .
  • C. Politowski, F. Petrillo, and Y.-G. Guéhéneuc, “A Survey of Video Game Testing,” in Proceedings of the 2021 IEEE/ACM International Conference on Automation of Software Test, Madrid: Spain, pp. 90-99, May 2021. [https://doi.org/10.48550/arXiv.2103.06431]
  • A. Albaghajati and M. Ahmed, “Video Game Automated Testing Approaches: An Assessment Framework,” IEEE Transactions on Games, Vol. 15, No. 1, pp. 81-94, 2023. [https://doi.org/10.1109/TG.2020.3032796]
  • J. Kim and T. Woo, “The Study on Path Optimization and User Guideline Generation in Racing Games Using Reinforcement Learning,” Journal of Digital Contents Society, Vol. 26, No. 1, pp. 203-210, 2025. [https://doi.org/10.9728/dcs.2025.26.1.203]
  • H. Uhm, J. Kim, S. Ji, and H. Choi, “Development of a Simulator for Autonomous Parking Research Based on Reinforcement Learning,” Journal of Digital Contents Society, Vol. 21, No. 2, pp. 381-386, February 2020. [https://doi.org/10.9728/dcs.2020.21.2.381]
  • S.-C. Park, D. Y. Kim, and W. J. Lee, “UnityPGTA: A Unity Platformer Game Testing Automation Tool Using Reinforcement Learning,” Journal of KIISE, Vol. 51, No. 2, pp. 149-156, February 2024. [https://doi.org/10.5626/JOK.2024.51.2.149]
  • Y. Zheng, X. Xie, T. Su, L. Ma, J. Hao, Z. Meng, ... and C. Fan, “Wuji: Automatic Online Combat Game Testing Using Evolutionary Deep Reinforcement Learning,” in Proceedings of the 34th IEEE/ACM International Conference on Automated Software Engineering, San Diego: CA, pp. 772-784, November 2019. [https://doi.org/10.1109/ASE.2019.00077]
  • Z. Li, Y. Wu, L. Ma, X. Xie, Y. Chen, and C. Fan, “GBGallery: A Benchmark and Framework for Game Testing,” Empirical Software Engineering, Vol. 27, No. 6, pp. 1-27, Dec. 2022. [https://doi.org/10.1007/s10664-022-10158-x]
  • C. Dann, Y. Mansour, M. Mohri, A. Sekhari, and K. Sridharan, “Guarantees for Epsilon-Greedy Reinforcement Learning with Function Approximation,” in Proceedings of the 39th International Conference on Machine Learning, Baltimore: MD, pp. 4666-4689, 2022. [https://doi.org/10.48550/arXiv.2206.09421]
  • N. Cesa-Bianchi, C. Gentile, G. Lugosi, and G. Neu, “Boltzmann Exploration Done Right,” in Proceedings of the 31st Conference on Neural Information Processing Systems, Long Beach: CA, pp. 1-10, 2017. [https://doi.org/10.48550/arXiv.1705.10257]
  • X. Guo, R. Xu, and T. Zariphopoulou, “Entropy Regularization for Mean Field Games with Learning,” Mathematics of Operations Research, Vol. 47, No. 4, pp. 2547-3399, November 2022. [https://doi.org/10.1287/moor.2021.1238]
  • A. S. Mignon and R. L. A. Rocha, “An Adaptive Implementation of ε-Greedy in Reinforcement Learning,” Procedia Computer Science, vol. 109, pp. 1146-1151, 2017. [https://doi.org/10.1016/j.procs.2017.05.431]
  • D. Pathak, P. Agrawal, A. A. Efros, and T. Darrell, “Curiosity-Driven Exploration by Self-Supervised Prediction,” in Proceedings of the 34th International Conference on Machine Learning, Sydney: Australia, pp. 2778-2787, 2017. [https://doi.org/10.48550/arXiv.1705.05363]

저자소개

장태현(Tae-Hyeon Jang)

2025년:동아대학교 컴퓨터공학과 (공학사)

2025년~현 재: 동아대학교 컴퓨터공학과 석사과정

※관심분야:강화학습, 인공지능, 게임

이예진(Yeajin Lee)

2021년~현 재: 동아대학교 AI학과 학사과정

※관심분야:강화학습, 로봇, 인공지능

김현석(Hyunseok Kim)

2001년:동아대학교 전자공학과 (공학학사)

2005년:한국과학기술원 대학원 (공학석사)

2014년:한국과학기술원 대학원 (공학박사)

2001년~2003년 삼성전자 연구원

2005년~2009년: LG전자 선임연구원

2011년~2022년: 한국전자통신연구원 책임연구원

2022년~현 재: 동아대학교 컴퓨터공학과 조교수

※관심분야:강화학습, 로봇, 인공지능, 군집지능

Fig. 1.

Fig. 1.
Architecture of boosting exploration in automated game testing based on recent reward trends

Fig. 2.

Fig. 2.
Adaptive control of exploration based on performance stagnation

Fig. 3.

Fig. 3.
Training (blue) and test-only (red) bug regions in CartPole

Fig. 4.

Fig. 4.
Training (red) and test-only (white) bug regions in MsPacman

Fig. 5.

Fig. 5.
Comparison of average reward trends in the CartPole environment

Fig. 6.

Fig. 6.
Comparison of bug detection rates in the CartPole environment

Fig. 7.

Fig. 7.
Comparison of average reward trends in the MsPacman environment

Fig. 8.

Fig. 8.
Comparison of bug detection rates in the MsPacman environment

Table 1.

Bug detection results in the CartPole environment

Method 0 Bugs 1 Bugs 2 Bugs 3 Bugs 4 Bugs
BEAGT 0 0 440.5 375.3 184.2
RELINE 0 123.1 445.2 346 85.7
Random 986.1 11.8 2.1 0 0

Table. 2.

Bug detection results in the MsPacman environment

Method 0 Bugs 1 Bugs 2 Bugs
BEAGT 296.7 492.7 200.6
RELINE 553.7 348.3 98
Random 978.3 20.7 1