[ Article ]

Journal of Digital Contents Society - Vol. 26, No. 12, pp.3533-3539

ISSN: 1598-2009 (Print) 2287-738X (Online)

Print publication date 31 Dec 2025

Received 07 Nov 2025 Revised 10 Dec 2025 Accepted 19 Dec 2025

DOI: https://doi.org/10.9728/dcs.2025.26.12.3533

단일 에이전트 PPO와 다중 에이전트 Self-Play의 Pong 게임환경 학습성능 비교연구

송현철^*

남서울대학교 가상증강현실융합학과 조교수

A Comparative Study on Learning Performance in Pong Game Environments: Single-Agent PPO Versus Multi-Agent Self-Play

Hyun Chul Song^*

Professor, Department of Virtual Reality and Augmented Reality, Nam-Seoul University, Cheonan 31020, Korea

Correspondence to: ^*Hyun Chul Song Tel: +82-41-580-2703 E-mail: hcsong@nsu.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 강화학습 알고리즘인 Proximal Policy Optimization(PPO)과 Self-Play를 활용하여 Pong 게임에서 단일 에이전트 및 다중 에이전트 환경에 대한 학습 성능을 비교 분석하였다. 단식 게임에서는 PPO를 적용하여 안정적이고 효율적인 학습 과정을 통해 에이전트가 최적의 정책을 학습하도록 설계하였다. 다중 에이전트 게임에서는 Self-Play를 통해 팀 간 경쟁과 팀 내 협력 전략을 학습하게 하였으며, 상대의 전략에 적응하는 학습 결과를 도출하였다. 실험 결과, PPO는 단순한 단일 에이전트 환경에서 높은 학습 효율성과 성능을 보였으나, 복잡한 상호작용이 요구되는 다중 에이전트 환경에서는 Self-Play가 더 뛰어난 성능을 나타냈다. 본 연구는 강화학습 기법의 선택이 환경의 특성에 따라 학습 성능에 큰 영향을 미친다는 점을 시사하며, 다양한 환경에서의 정책 일반화를 위한 기초 자료를 제공한다.

Abstract

This study compared and analyzed learning performance at the Pong game in singles and doubles environments using the reinforcement learning algorithms proximal policy optimization (PPO) and self-play. During the singles game, PPO was applied to design an agent that learns optimal policies through a stable, efficient learning process. During the doubles game, self-play enabled the learning of inter-team competition and intra-team cooperation strategies, yielding learning results that showed adaptability to opponents' strategies. Experimental results showed that although PPO demonstrated high learning efficiency and performance in the simple singles environment, self-play exhibited superior performance in the doubles environment, which requires complex interactions. This study suggests that the choice of reinforcement learning technique significantly impacts learning performance depending on the environmental characteristics. It also provides foundational data for policy generalization to diverse environments.

Keywords:

Proximal Policy Optimization (PPO), Self-Play, Reinforcement Learning, MLAgents, Multi-Agent Cooperation

키워드:

인공지능게임, 강화학습, 근사 정책 최적화, 자기-대전, 다중에이전트

Ⅰ. 서 론

강화학습은 에이전트가 환경과의 상호작용을 통해 최적의 의사결정 정책을 학습하는 기계학습의 한 분야이다. 에이전트는 주어진 환경에서 상태를 관찰하고, 행동을 선택하며, 이에 따른 보상을 받는 과정을 반복하며 학습을 수행한다[1]. 특히 심층 강화학습은 심층 신경망을 활용하여 복잡한 환경에서도 효과적인 정책 학습이 가능하다는 것을 입증하였다[2]. 최근의 강화학습 연구는 정책 최적화 기법의 안정성과 효율성 향상에 주목하고 있다. Proximal Policy Optimization(PPO)과 같은 알고리즘은 기존의 정책 최적화 방법의 한계를 극복하며 실용적인 성능을 달성하였다[3]. 또한 Self-Play와 같은 경쟁적 학습 기법의 도입으로 더욱 강건한 정책 학습이 가능해졌으며, 이는 게임 AI와 로봇 제어 등 다양한 분야에서 인상적인 성과를 보여주고 있다[4].

Pong은 단순한 구조와 직관적인 게임 규칙을 가진 환경으로, 강화학습 알고리즘의 성능을 평가하는 벤치마크로 널리 활용되고 있다. 기존 연구는 PPO 또는 Self-Play를 개별적으로 다루는 경우가 대부분이며, 동일한 게임 환경에서 두 기법을 직접 비교하여 단일 에이전트–다중 에이전트 구조 차이에 따른 학습 성능을 분석한 사례는 제한적이었다. 특히 Self-Play 기반 학습은 경쟁적 환경에서 우수한 성능을 보이지만, 환경의 복잡도나 보상 설계에 따라 성능 편차가 크게 발생한다는 한계가 존재한다[4],[6],[13]. 따라서 동일한 실험 조건에서 PPO와 Self-Play의 학습 진행 과정과 수렴 특성을 비교하는 것은, 강화학습 알고리즘 선택에 대한 실증적 근거를 제공한다는 점에서 의미가 크다.

본 연구는 이러한 배경과 기존 연구의 한계를 극복하고자 한다. 구체적으로, 단일 에이전트 환경인 Pong 단식 게임에 PPO 알고리즘을 적용하여 안정적인 단독 플레이 정책 학습의 특성을 분석한다. 이와 대비하여, Pong 다중 에이전트 게임이라는 다중 에이전트 및 경쟁적 환경에 Self-Play 기법을 도입하여 에이전트 간 상호작용이 학습 동역학과 전략 획득에 미치는 영향을 정량적으로 분석한다. 본 연구는 강화학습 알고리즘을 단순 비교하는 수준을 넘어, 환경 구조가 알고리즘의 학습 동역학을 어떻게 변화시키는지를 분석한다는 점에서 차별성이 있다. 단식 환경에서는 안정성과 빠른 수렴 속도가 중요하지만, 다중 에이전트 환경에서는 상대 전략 변화에 대한 적응과 협력 전략의 학습이 요구된다. 이러한 차이를 정량적으로 검증함으로써, 본 연구는 강화학습 모델 선택이 문제의 구조적 특성에 따라 달라져야 함을 실증적으로 보여주며, 연구 결과는 향후 멀티에이전트 시스템, 실시간 전략 시뮬레이션, 협력 로봇 제어와 같은 실제 환경에서의 정책 일반화 연구에 기여할 수 있다.

Fig. 1.

Pong game environment setup for Unity MLAgetns reinforcement learning

Ⅱ. 관련 연구

2-1 Proximal Policy Optimization

강화학습(Reinforcement Learning, RL)은 에이전트가 환경과의 상호작용을 통해 최적 정책을 학습하는 기계학습의 한 분야이다. Proximal Policy Optimization(PPO)은 OpenAI에서 제안된 강화학습 알고리즘으로, 기존 신뢰영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 한계점을 개선한 알고리즘이다[3]. PPO는 구현의 용이성과 안정적인 학습 성능을 바탕으로 게임 AI, 로봇 제어, 금융 예측 등 다양한 도메인에서 활용되고 있다.

PPO 알고리즘은 다음과 같은 세 가지 주요 특징을 갖는다. 첫째, 정책 업데이트 과정에서의 안정성 확보이다. 기존 TRPO에서 사용되던 복잡한 제약 조건을 클리핑(clipping) 기법으로 대체함으로써 학습의 안정성을 향상시켰다. 둘째, 알고리즘의 구조가 단순화되었다. TRPO 대비 계산 복잡도가 낮고 구현이 간소화되어 실제 응용에 적합한 특성을 보인다. 셋째, 높은 샘플 효율성을 제공한다. 수집된 샘플 데이터의 반복적 재활용을 통해 학습 효율을 최적화할 수 있다.

손실 함수는 다음과 같은 세 가지 핵심 구성 요소의 합으로 이루어지며, 이는 학습의 안정성, 정확성, 탐험을 달성하도록 설계되어다. PPO는 정책(Policy)과 가치 함수(Value Function)를 동시에 학습하는 액터-크리틱(Actor-Critic) 구조를 채택하고 있으므로, 최종 손실 함수는 세 가지 주요 구성 요소의 합으로 정의된다.

L C L I P + V F + S θ = E^t L t C L I P θ - c 1 L t V F θ + c 2 S π θ s t

(1)

L^CLIP(θ)항은 PPO의 핵심 요소로, 정책 업데이트의 안정성 확보를 목표로 한다. 이 손실 함수는 기존 정책(π_old)과 새로운 정책(π_θ) 간의 차이가 일정 수준 이상으로 커지는 것을 방지한다. 구체적으로, 에이전트가 환경과의 상호작용을 통해 얻은 이점 추정치( $A t^$ )에 따라 정책을 업데이트하는 과정에서, 두 정책의 확률비율(r_t(θ))에 ϵ 값 기반의 클리핑(Clipping) 기법을 적용한다. 이 메커니즘을 통해 정책이 안전한 '근접(Proximal)' 영역 내에서 점진적으로 업데이트되도록 유도하며, 이는 정책의 급격한 변화를 막아 학습의 안정적인 수렴에 결정적인 역할을 한다. 가치함수손실(c₁L^CLIP(θ))에서 c₁L^VF(θ)항은 가치 함수의 예측 정확도 향상을 목표로 한다. 여기서 L^VF(θ)는 가치 함수(V_θ(s))의 제곱 오차 손실(Squared-Error Loss)을 의미한다. 가치 함수는 액터-크리틱 구조에서 크리틱(Critic)의 역할을 수행하며, 현재 정책 하에서 특정 상태(s)에서 얻을 것으로 예상되는 미래 누적 보상( $V^t$ )을 예측한다. 이 손실 항은 예측된 가치와 실제 관측된 목표 가치 사이의 오차를 최소화하도록 가중치를 업데이트하며, 학습의 효율성을 높이는 데 기여한다. 계수 c₁은 이 가치 함수 손실의 비중을 결정하는 하이퍼파라미터이며, 정책 학습(L^CLIP)과 가치 함수 학습(L^VF) 간의 균형을 조절하는 데 사용된다. c₂S(θ)항은 정책의 탐험(Exploration)을 장려하고 지역 최적점(Local Optima)에 빠지는 것을 방지하는 역할을 한다. 여기서 S는 정책 π_θ의 엔트로피(Entropy)를 의미하는데, 엔트로피는 확률 분포의 무작위성을 측정하는 척도이다. 손실 함수를 최소화하는 방향으로 학습이 진행되므로, 이 엔트로피 항은 전체 손실 함수에 더해지는(보너스) 형태로 사용된다. 즉, 이 항을 최대화하는 방향으로 학습을 유도하여 정책이 다양한 행동을 시도할 확률을 높이고 환경에 대한 더 넓은 이해를 돕는다. 계수 c₂는 탐험의 정도를 조절하는 하이퍼파라미터이며, 학습 초기나 특정 단계에서 정책의 무작위성을 제어하는 데 활용된다.종합적으로, PPO의 손실 함수는 세 가지 구성 요소를 계수 c₁과 c₂를 통해 효과적으로 결합함으로써, 안정성을 유지하면서도 정확한 가치 예측을 기반으로 충분한 탐험을 수행하는 효율적인 강화학습 정책을 구현한다.

2-2 Self-Play

Self-Play는 강화학습 연구에서 가장 주목받는 학습 프레임워크 중 하나로, 에이전트가 동일한 학습 알고리즘을 사용하는 상대 에이전트와 반복적으로 경쟁하거나 협력하면서 전략을 정교하게 발전시키는 방식이다[5]. 이러한 구조는 환경의 복잡성과 관계없이 에이전트가 끊임없이 새로운 전략을 경험할 수 있도록 하며, 상대 전략의 변화가 곧 환경 변화로 작동하는 내생적 학습 환경(endogenous learning environment)을 제공한다. 이는 정적인 환경에서 정책을 학습하는 기존 방식과 비교할 때 더 높은 일반화 성능을 보이며, 복잡한 전략적 상호작용을 요구하는 환경에서 특히 강력한 성능을 발휘한다.

Self-Play의 강점은 크게 세 가지로 정리된다. 첫째, 에이전트는 상대의 전략 변화에 연속적으로 적응하면서 안정적이면서도 빠른 전략 개선을 이룬다. 둘째, 에이전트 스스로 다양한 시뮬레이션 환경을 생성하며, 임의적 변동성이 높은 환경에서도 일반화된 정책 학습이 가능하다. 셋째, 단일 에이전트 환경의 편향에 얽매이지 않는다는 점에서 실제 경쟁적 또는 협력적 구조를 갖는 환경에 대한 높은 적응력을 획득할 수 있다. 이러한 특성 덕분에 Self-Play는 바둑, 체스, 쇼기와 같은 복합 전략 게임에서 인간을 압도한 AlphaGo, AlphaZero[6],[7], 그리고 팀 기반 멀티플레이어 게임 도메인에서 인상적 성능을 보인 OpenAI Five[5] 등 여러 대표적 성공 사례를 남겼다.

특히 PPO(Proximal Policy Optimization)와 Self-Play의 결합은 강화학습 분야에서 실용성과 성능을 동시에 만족시키는 강력한 조합으로 평가된다. PPO는 정책 업데이트의 변동성을 억제해 학습 안정성을 보장하면서도 샘플 효율성을 확보할 수 있는 장점을 제공한다. 여기에 Self-Play 기반 경쟁적 상호작용을 더할 경우 정책 개선 속도가 가속화되며, 복잡한 전략적 변수가 개입되는 환경에서도 강건한 정책을 학습할 수 있다. 또한 다양한 상대 전략과 반복적으로 대결하는 과정은 모델이 환경 특성에 과적합되지 않고, 실제 경쟁 환경에서 일반화 가능한 정책을 생성하도록 돕는다. 로봇 축구 도메인에서 PPO 기반 Self-Play 학습이 협력·경쟁 전략을 동시에 발달시키는 데 성공한 연구 사례는 대규모 물리 환경에서도 이 결합 방식이 효과적임을 보여준다[8].

그러나 PPO와 Self-Play의 결합이 언제나 최적의 결과를 보장하는 것은 아니다. 대규모 경쟁적 시뮬레이션 환경에서는 막대한 계산 자원이 요구되며, 특정 전략에 대한 과적합이나 모방적 수렴(mode collapse)이 발생할 가능성도 존재한다. 또한 환경 설계와 보상 함수의 세부 변화가 학습 안정성과 성능에 큰 영향을 미친다는 점에서, Self-Play 시스템의 설계는 깊은 실험적 검증을 필요로 한다. 이 때문에 최근 연구는 자원 효율성 개선, 경쟁적 편향 제거, 환경 독립적 정책 학습을 핵심 과제로 제시하며, 보다 일반화 가능한 Self-Play 구조 탐색으로 연구 방향이 확장되고 있다.

최근 강화학습 연구에서 또 하나의 중요한 흐름은 강화학습과 트랜스포머 모델의 결합이다. 트랜스포머는 시퀀스 모델링에서 탁월한 성능을 보이는 모델로, 장기 의존성(long-term dependency) 학습에서 기존 RNN 기반 모델의 한계를 극복한다. Decision Transformer는 강화학습 문제를 시퀀스 조건부 생성 문제로 재구성하여, 과거 궤적(trajectory)을 기반으로 미래 행동을 직접 예측하는 패러다임을 제시하였다[9]. 이는 강화학습의 정책 최적화 알고리즘을 명시적으로 사용하지 않으면서도 높은 성능을 달성하는 새로운 접근이었다. Trajectory Transformer는 상태와 행동 궤적을 이산 토큰화하여 트랜스포머로 계획을 수행하는 방법을 제안하며, 장기 계획 문제에서 특히 뛰어난 성능을 보였다[10].

Fig. 2.

Cumulative reward and episode duration through PPO training of a single agent

또한 범용 인공지능(Generalist Agent)을 지향하는 Gato는 단일 에이전트 트랜스포머 모델이 조작, 시각 인식, 텍스트 이해 등 서로 다른 특성을 가진 여러 작업을 동시에 수행할 수 있음을 보여주었으며[11], 이는 멀티모달 입력이 결합된 강화학습 환경에서의 확장 가능성을 보여준다. 로봇 제어 분야에서 RT-1은 시각적 입력과 행동 명령을 통합적으로 모델링하는 구조를 제안하여 실제 로봇 시스템 제어에서 트랜스포머 기반 정책의 실용성을 입증하였다[12]. 이러한 흐름은 강화학습이 단순한 정책 최적화 기법을 넘어 대규모 시퀀스 모델링 및 멀티모달 추론과 결합하며, 향후 Self-Play나 PPO 기반 학습 구조에 새로운 가능성을 열어줄 것으로 보인다.

종합하면, PPO·Self-Play·Transformer 기반 시퀀스 모델링의 발전은 강화학습 연구의 중심축이 점차 정책 안정성, 상호작용 기반 전략 확장성, 장기 의존성 모델링 능력이라는 세 가지 핵심 가치로 수렴하고 있음을 보여준다. 본 연구가 Pong 단일·다중 에이전트 환경에서 PPO와 Self-Play의 성능을 비교 분석하는 것은 이러한 학습 동역학의 차이를 실험적으로 검증하고, 알고리즘 선택이 환경 구조에 따라 어떻게 달라져야 하는지에 대한 실질적 기준을 제공한다는 점에서 큰 의의를 가진다. 나아가 본 분석은 멀티에이전트 시스템, 로봇 협력 제어, 실시간 전략 시뮬레이션 등의 고차원 환경에서 강화학습 알고리즘을 선택하고 설계하는 데 중요한 기초 자료가 될 것이다.

Ⅲ. 연구내용

3-1 실험환경구성

본 연구의 강화학습 실험은 Intel Xeon Silver 4210 CPU(2.20 GHz, 듀얼 프로세서), 128 GB RAM을 탑재한 64비트 x64 기반 시스템에서 수행되었으며, NVIDIA TITAN RTX(24 GB) GPU 2장을 병렬 구성하여 학습 연산을 가속화했다. 실험 환경은 Unity 2022 엔진과 ML-Agents Toolkit(v2.1.0-exp.1)**을 기반으로 구성되었고, Python API(v0.27.0)와 C#–Python Communicator(v1.5.0)를 연동하여 단일·다중 에이전트 강화학습 시뮬레이션을 안정적으로 수행했다. 단일 에이전트(single-player)과 다중 에이전트(double-player) 환경 모두 동일한 2D 물리 시뮬레이션 엔진을 기반으로 구성하였으며, 각 에이전트는 패들(paddle)을 상하로 이동시켜 공을 반사하거나 득점을 시도한다. 공의 속도, 반사각, 패들 이동 범위 등 핵심 변수는 실제 Pong 규칙을 준수하며, 불확실성을 부여하기 위해 공의 초기 발사 방향에 ±5도 이내의 난수 편차를 적용하였다. 이는 알고리즘의 일반화 학습을 유도하기 위한 설계이다.

정량적인 학습 유도를 위해 다단계 보상 체계(reward shaping)를 적용하였다.

◆ 득점 성공 시: +1.0
◆ 실점 시: −1.0
◆ 공을 패들로 성공적으로 타격할 때마다: +0.1
◆ 불필요한 이동에 대해, 이동거리 × −0.001 페널티

이 보상 설계는 에이전트가 무의미하게 움직이는 것이 아니라, 최소한의 움직임으로 최적의 타격 위치를 찾도록 유도한다. 각 에피소드는 한 쪽 에이전트가 5점을 먼저 획득할 때 종료되도록 설정하여, 학습 샘플 수 확보와 수렴 안정성을 균형 있게 고려하였다.

게임 GUI 요소는 학습 과정에 반영되지 않도록 비활성화하고, 상태 관찰은 (공의 위치, 패들의 위치, 공의 속도 벡터)를 포함한 정량 벡터 상태(observation vector) 방식으로 입력하였다. 입력 차원은 단일 에이전트 환경 6차원, 다중 에이전트 환경 10차원으로 구성하여 CNN 기반의 픽셀 입력 대비 학습 속도를 약 4.2배 단축하였다. 이는 본 연구에서 알고리즘 성능 비교가 핵심 목표이므로, 시각 특징 추출로 인한 불확실성을 제거하고 정책 학습에 집중할 수 있도록 하기 위함이다.

Fig. 3.

Cumulative reward and episode duration through self-play training of double agents

3-2 학습 방법

단일 에이전트 환경에서는 Proximal Policy Optimization(PPO) 알고리즘을 사용하여 에이전트의 정책을 학습시켰다. 학습 안정성을 위해 다음과 같은 하이퍼파라미터를 설정하였다.

◆ Learning rate: 3 × 10⁻⁴
◆ Discount factor (γ): 0.99
◆ GAE(Generalized Advantage Estimation) λ: 0.95
◆ Batch size: 2048
◆ Epoch: 3
◆ PPO clip ratio: 0.2

PPO 모델은 정책 함수와 가치 함수 파라미터를 공유하는 Actor–Critic 구조로 구성되었다. 손실 함수는 정책 손실(Policy surrogate), 가치 함수 오차(Value loss), 엔트로피 보너스(Entropy bonus)를 조합하여 정의하였다. 이러한 설정은 탐색과 수렴의 균형을 유지하며 학습의 불안정성을 최소화하기 위한 목적을 가진다.

다중 에이전트 환경에서는 PPO에 Self-Play 메커니즘을 결합하였다. 초기 정책은 무작위(random) 상태에서 시작하며, 1000 에피소드마다 Best-Response 방식의 정책 업데이트를 진행한다. 현재 정책은 이전 세대의 정책과 대결하며 스스로 전략을 최적화하며, 대결 기록에 따라 다음 학습에 반영된다. 이를 통해 에이전트는 전략 다양성을 확보하고 상대의 성향에 적응하는 학습 특성을 갖는다.

Self-Play 학습에서 발생할 수 있는 전략 고착(policy collapse)을 방지하기 위해, 이전 세대 정책을 확률적으로 샘플링하여 다양한 상대 전략을 유지하였다. 또한 탐색을 강화하기 위해 엔트로피 계수를 0.01로 설정하여 정책의 확률 분포가 특정 행동에 과도하게 집중되지 않도록 하였다. 그 결과 Self-Play 에이전트는 20,000 에피소드 이후 협력적 공간 분배 전략과 위치 선점 전략을 스스로 학습하였다.

Ⅳ. 실험 결과

4-1 단일 에이전트 게임 성능

단일 에이전트 게임 환경에서 PPO 기반으로 학습된 에이전트는 총 100,000 에피소드의 학습을 수행한 후 안정적인 성능 수준에 도달하였다. 최종 학습된 모델은 평균 득점률 75%와 평균 타격 성공률 90%를 기록하였으며, 평균 에피소드 유지시간은 약 45초로 수렴하였다. 이는 에이전트가 무의미한 움직임을 최소화하고, 공의 궤적을 예측하여 최적의 반응 타이밍을 학습하였음을 의미한다.

또한 학습 초기에는 행동 정책의 탐색이 빈번하여 누적 보상 변화 폭이 크게 나타났으나, 학습이 진행됨에 따라 정책 업데이트가 안정화되었고 보상 곡선 또한 단조 증가 형태로 수렴하는 경향을 보였다. 이는 PPO 알고리즘이 가진 정책 클리핑 기반의 업데이트 메커니즘이 급격한 정책 변화로 인한 성능 저하를 효과적으로 방지했기 때문으로 볼 수 있다.

4-2 다중 에이전트 게임 성능

다중 에이전트 게임 환경에서는 PPO와 Self-Play를 결합하여 학습을 수행하였으며, 20,000 에피소드의 학습이 진행된 이후 에이전트의 행동 패턴에서 명확하고 구조적인 전략적 변화가 나타났다. 초기 단계에서는 단순한 공 반사와 반응적 움직임이 주로 관찰되었으나, 학습이 진행될수록 에이전트는 상대 팀의 위치, 공의 속도 및 궤적, 반사 각도 등의 정보를 통합적으로 고려하며 의도적 공간 분배 전략(spatial distribution strategy)을 형성하였다. 이는 다중 에이전트 환경에서 두 에이전트가 동일한 공간으로 과도하게 몰리는 현상이 감소하고, 공의 궤적을 기준으로 자연스럽게 상·하 방향으로 역할을 분담하는 자발적 역할 분화(role assignment) 형태로 나타났다. 이러한 행동은 별도의 규칙이나 보상 설계 없이 Self-Play만으로 형성된 점에서 학습 알고리즘의 내재적 상보성에 대한 중요한 증거가 된다.

Self-Play의 핵심 효과는 매 학습 세대마다 대전 상대가 지난 세대의 정책을 기반으로 지속적으로 변화한다는 점에 있다. 이는 에이전트가 특정 전략에 과도하게 최적화되는 현상을 방지하고, 상대 전략의 진화를 추적하기 위한 적응형 정책(adaptive policy)의 강화를 유도한다. 실험 결과, 단일 에이전트 환경에서 PPO를 적용했을 때보다 훨씬 적은 학습 횟수로 행동 다양성과 정책의 일반화 능력이 향상되었으며, 이는 다중 에이전트 상호작용이 학습 공간을 풍부하게 확장시켜 정책 최적화 과정에 긍정적인 영향을 미친다는 점을 시사한다.

또한 학습 곡선에서는 총 보상의 꾸준한 증가와 더불어 에피소드 유지시간이 점진적으로 감소하는 패턴이 관찰되었다. 이는 에이전트가 단순히 공을 치는 단기적 반응 행동을 넘어서, 최소 이동을 통한 효율적 대응 전략(minimal movement strategy)을 학습했음을 의미한다. 즉, 불필요한 이동을 줄이고 특정 타이밍과 위치에서 높은 성공 확률을 갖는 반사 각도를 선택하는 경향이 강화되었다. 이는 멀티에이전트 구조에서 Self-Play가 전략적 판단, 예측적 움직임, 협력적 배치 등 복합적 의사결정 능력을 촉진한다는 것을 보여준다.

종합하면, 다중 에이전트 환경에서의 PPO–Self-Play 결합은 단순한 반응적 행동을 넘어 협력성(cooperativity), 전략적 다양성(strategic diversity), 정책의 일반화 능력(policy generalization)을 동시에 향상시키는 효과를 나타냈다. 이는 Self-Play가 경쟁적 상황뿐 아니라 협력적·전략적 의사결정이 요구되는 환경에서도 정책 발전을 가속화하는 중요한 학습 메커니즘임을 실증적으로 보여주는 결과이다. 나아가 이러한 구조는 더 복잡한 다중 에이전트 시뮬레이션, 팀 기반 게임 AI, 협력 로봇 제어 분야로의 확장 가능성을 제시한다는 점에서 의미가 크다.

Ⅴ. 결 론

본 연구에서는 Unity ML-Agents를 활용하여 Pong 게임 환경에서 단일 에이전트 및 다중 에이전트 구조의 학습 성능을 체계적으로 분석하였다. 단일 에이전트 환경에서는 PPO 알고리즘이 높은 안정성과 일관된 수렴 특성을 보이며 비교적 빠르게 최적 정책에 도달하였다. 반면, 다중 에이전트 환경에서는 PPO와 Self-Play를 결합하여 학습을 수행하였고, 이 과정에서 단일 환경에서는 관찰되지 않았던 협력적 행동 양식과 역할 분화가 자발적으로 형성되었다. 특히 두 에이전트가 공의 이동 방향, 상대 패들의 위치, 공격·수비 간 우선순위를 고려하여 공간을 효율적으로 분배하는 전략을 스스로 학습한 점은 멀티에이전트 강화학습이 단순 반응 기반 정책을 넘어 전략적 상호작용을 학습할 수 있음을 보여주는 중요한 결과로 평가된다.

또한 Self-Play의 적응적 학습 구조는 매 세대마다 상대 전략이 동적으로 변화하는 환경을 제공함으로써, 특정 패턴에 대한 정책 과적합을 억제하고 일반화 능력을 강화하는 효과를 나타냈다. 학습 곡선 분석에서도 누적 보상의 상승과 더불어 에피소드 유지 시간이 점진적으로 단축되었으며, 이는 에이전트가 단순 반사 행동을 넘어서 최소 이동 기반의 효율적 대응 전략을 습득했음을 시사한다. 이와 같은 결과는 경쟁·협력이 공존하는 복잡한 의사결정 문제에서 Self-Play 기반 PPO 구조가 강력한 학습 프레임워크가 될 수 있음을 실증적으로 뒷받침한다.

향후 연구에서는 보다 복잡한 환경—예를 들어 지속적 제어 기반의 3D 공간, 비대칭 정보 구조, 팀 기반 전략 시뮬레이션—에서 본 연구의 알고리즘적 결합이 어떤 방식으로 일반화되는지 검증할 필요가 있다. 더불어 멀티에이전트 시스템의 확장성과 안정성을 향상시키기 위해 보상 설계, 탐색 전략, 정책 공유 구조 등을 최적화하는 연구가 병행되어야 한다. 본 연구의 접근법은 게임 AI 개발뿐 아니라, 실제 물리 환경에서의 다중 로봇 협력, 자율 주행 드론 편대 제어, 분산 제어 시스템 등 다양한 도메인에서 활용될 수 있는 기반 프레임워크로 확장될 가능성이 크다. 따라서 본 연구는 강화학습 기반 멀티에이전트 시스템의 실용적 적용과 이론적 발전 모두에 의미 있는 기여를 제공한다.

Acknowledgments

본 연구는 2025년도 과학기술정보통신부 고성능 컴퓨팅 지원사업에 의하여 이루어진 연구로서, 관계부처에 감사드립니다.

References

R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, Cambridge, MA: MIT Press, 2018.
V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, ... and D. Hassabis, “Human-Level Control through Deep Reinforcement Learning,” Nature, Vol. 518, pp. 529-533, February 2015. [https://doi.org/10.1038/nature14236]
J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, “Proximal Policy Optimization Algorithms,” arXiv:1707.06347, , 2017. [https://doi.org/10.48550/arXiv.1707.06347]
D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, ... and D. Hassabis, “Mastering the Game of Go without Human Knowledge,” Nature, Vol. 550, pp. 354-359, 2017. [https://doi.org/10.1038/nature24270]
G. Tesauro, “Temporal Difference Learning and TD-Gammon,” Communications of the ACM, Vol. 38, No. 3, pp. 58-68, 1995. [https://doi.org/10.1145/203330.203343]
D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez, ... and D. Hassabis, “A General Reinforcement Learning Algorithm That Masters Chess, Shogi, and Go through Self-Play,” Science, Vol. 362, No. 6419, pp. 1140-1144, 2018. [https://doi.org/10.1126/science.aar6404]
D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, ... and D. Hassabis, “Mastering the Game of Go with Deep Neural Networks and Tree Search,” Nature, Vol. 529, pp. 484-489, 2016. [https://doi.org/10.1038/nature16961]
H. Kitano et al., “RoboCup: A Challenge Problem for AI,” AI Magazine, Vol. 18, No. 1, p. 73, 1997. [https://doi.org/10.1007/3-540-64473-3_46]
L. Chen, K. Lu, A. Rajeswaran, K. Lee, A. Grover, M. Laskin, ... and I. Mordatch, “Decision Transformer: Reinforcement Learning via Sequence Modeling,” Advances in Neural Information Processing Systems, Vol. 34, pp. 15084-15097, 2021.
M. Janner, Q. Li, and S. Levine, “Offline Reinforcement Learning as One Big Sequence Modeling Problem,” Advances in Neural Information Processing Systems, Vol. 34, pp. 1273-1286, 2021.
S. Reed, K. Zolna, E. Parisotto, S. G. Colmenarejo, A. Novikov, G. Barth-Maron, ... and N. de Freitas, “A Generalist Agent,” arXiv:2205.06175, , 2022. [https://doi.org/10.48550/arXiv.2205.06175]
A. Brohan, N. Brown, J. Carbajal, Y. Chebotar, J. Dabis, C. Finn, ... and B. Zitkovich, “RT-1: Robotics Transformer for Real-World Control at Scale,” arXiv:2212.06817, , 2022. [https://doi.org/10.48550/arXiv.2212.06817]
C. Berner, G. Brockman, B. Chan, V. Cheung, P. Dębiak, C. Dennison, ... and S. Zhang, “Dota 2 with Large Scale Deep Reinforcement Learning,” arXiv:1912.06680, , 2019. [https://doi.org/10.48550/arXiv.1912.06680]

송현철(Hyun Chul Song)

2005년：중앙대학교 컴퓨터공학과 대학원 (공학석사)

2019년：중앙대학교 소프트웨어학과 대학원 (공학박사-컴퓨터공학과)

2009년～2012년: 박사과정 전문연구요원

2014년～2017년: 남서울대학교 멀티미디어학과 외래교수

2018년～2020년: 남서울대학교 가상현실대학원 연구교수

2020년～현 재: 남서울대학교 가상현실학과 교수

※관심분야：컴퓨터비전(Computer Vision), 인공지능(AI), 딥러닝(Deep Learning), 가상증강현실(VRAR) 등