Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 7, pp.1971-1980
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Jul 2025
Received 29 Jun 2025 Revised 22 Jul 2025 Accepted 25 Jul 2025
DOI: https://doi.org/10.9728/dcs.2025.26.7.1971

협력 확산 모델 기반의 역방향 절차적 PBR 재질 그래프 생성 및 제어 기법 연구

강석민*
국민대학교 영상디자인학과 강사
Generating and Controlling Inverse-Procedural PBR Material Graphs via Collaborative Diffusion Models
Sukmin Kang*
Instructor, Department of Entertainment Design, Kookmin University, Seoul 02707, Korea

Correspondence to: *Sukmin Kang E-mail: sukminkang@kookmin.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

최신 생성형 AI 기술은 고품질의 정적 에셋을 생성하거나 편집 가능한 절차적 자산을 만드는 두 방향으로 발전했으나, 두 결과물은 상호 호환되지 않아 전문 3D 워크플로우에 통합되기 어려운 한계가 있다. 본 연구는 이 간극을 해소하고자 텍스트와 이미지 입력만으로 Unreal Engine 등에서 즉시 편집 가능한 절차적 물리 기반 렌더링 재질 그래프를 직접 생성하는 프레임워크인 절차적 스타일 확산(PSD; procedural style diffusion)을 제안한다. 본 프레임워크는 조건부 확산 모델을 통해 그래프 토큰 시퀀스를 예측하고, 사전 훈련된 이미지 모델과의 피드백 루프를 형성하는 협력적 제어 메커니즘을 통해 시각적 충실도와 구조적 타당성을 동시에 확보하는 방법론을 사용한다. 정량적 및 정성적 평가 결과, 제안 방식은 기존 수작업 대비 평균 78%의 작업 시간을 단축하고, 다른 AI 기반 모델 대비 더 높은 시각적 품질을 달성하며 실용적 가치를 입증했다. 본 연구는 AI의 자동화와 아티스트의 편집 제어권을 결합하여 새로운 디지털 콘텐츠 제작 워크플로우를 제시한다.

Abstract

Generative AI has advanced rapidly in producing high-fidelity static assets and editable procedural assets; however, these capabilities are largely incompatible—limiting their integration into professional 3D workflows. This study addresses this gap by introducing procedural style diffusion (PSD), a novel framework that generates editable, procedural physically based rendering material graphs directly from text and image prompts. These graphs are compatible with engines such as Unreal Engine. PSD employs a conditional diffusion model to predict graph token sequences, guided by a collaborative control loop that integrates feedback from a pre-trained image model. This approach ensures both visual fidelity and structural validity of the outputs. Quantitative and qualitative evaluations show that PSD reduces material creation time by 78% compared to manual workflows and outperforms existing AI baselines in visual quality. By uniting AI-driven automation with artist-centric procedural control, PSD establishes a new paradigm for accelerating and enriching creative workflows in 3D content production.

Keywords:

Generative AI, Diffusion Models, Procedural Generation, PBR Materials, UE5 Substrate Material System

키워드:

생성형 AI, 확산 모델, 절차적 생성, PBR 재질, 언리얼엔진5 Substrate Material System

Ⅰ. 서 론

디지털 콘텐츠 산업이 게임, 영화, 가상현실 등 다양한 분야로 확장됨에 따라, 사용자가 몰입할 수 있는 가상 세계를 구축하는 것이 중요해졌다. 이러한 가상 세계의 사실감과 디테일을 결정하는 핵심 요소가 바로 3D 에셋이다. 3D 에셋이란 캐릭터, 배경, 소품 등 3D 공간을 구성하는 모든 디지털 자산을 의미하며, 특히 물체의 표면 질감을 표현하는 재질(material)은 최종 결과물의 품질을 좌우한다. 최근 고품질의 3D 에셋에 대한 수요가 폭발적으로 증가하며, 이를 효율적으로 제작하기 위한 기술적 변혁이 요구되고 있다. 그 중심에 생성형 인공지능, 특히 확산 모델(diffusion models)이 자리하며 콘텐츠 제작의 패러다임을 근본적으로 바꾸고 있다[1],[2].

현재 AI 기반 3D 에셋 제작 기술은 두 가지 상이한 흐름으로 발전하고 있다. 첫째는 MeshGen, PacTure, Step1X-3D 등의 연구와 같이 텍스트나 이미지로부터 매우 사실적인 3D 모델과 PBR (physically based rendering) 텍스처 맵을 생성하여 고품질의 정적 에셋을 만드는 데 초점을 맞추는 흐름이다[3]-[5]. 이 모델들은 강력한 2D 이미지 생성 모델의 능력을 3D로 확장하여, 최종적으로 렌더링된 구워진(baked) 형태의 텍스처를 출력한다. 둘째는 사용자의 제어 가능성과 편집 용이성을 극대화하는 절차적 생성(PCG; procedural content generation) 흐름이다. DI-PCG (diffusion based efficient inverse procedural content generation)나 MatFormer와 같은 역절차적 모델링 연구는 입력 이미지를 분석하여 Adobe Substance나 Unreal Engine 등에서 편집 가능한 절차적 노드 그래프를 재구성한다[6],[7]. 이는 해상도에 구애받지 않는 비파괴적 워크플로우를 통해 아티스트에게 높은 편집 자유도를 제공한다.

그러나 이 두 연구 흐름 사이에는 뚜렷한 단절이 존재한다. 고품질 생성 모델이 출력하는 정적 텍스처 맵은 전문 워크플로우가 요구하는 편집 가능한 노드 그래프와 근본적으로 호환되지 않는다. 이로 인해 아티스트는 AI가 생성한 결과물을 그대로 사용하거나, 이를 참고하여 처음부터 수작업으로 재질을 재구성해야 하는 비효율적인 딜레마에 빠지게 되며, 이는 AI 자동화의 이점을 크게 반감시키는 병목 현상으로 작용한다.

본 연구는 이러한 문제의식에서 출발한다. 만약 아티스트가 AI의 강력한 생성 능력을 활용하여 시각적으로 뛰어난 결과물의 초안을 얻는 동시에, 그 결과물을 자신의 의도에 맞게 언제든지 수정할 수 있는 편집 가능성까지 확보할 수 있다면 어떨까? 이는 단순히 두 기술의 장점을 합치는 것을 넘어서, 아티스트가 AI를 시각적 탐색을 위한 파트너로 활용하는 새로운 제작 패러다임을 열 수 있음을 의미한다. 따라서 본 연구는 고품질의 시각적 결과와 절차적 제어 가능성을 동시에 달성하는 새로운 프레임워크의 개발이 필요하다고 판단하였다. 이러한 목적을 달성하기 위해, 본 논문은 절차적 스타일 확산(PSD; procedural style diffusion)이라는 새로운 프레임워크를 제안한다. 이를 위해 본 연구는 다음과 같은 연구 문제를 설정하였다.

  • • 연구 문제 1: 텍스트와 이미지 입력을 조건으로 하여, 전문 3D 워크플로우와 호환되는 편집 가능한 절차적 PBR 재질 그래프를 생성하는 확산 모델의 아키텍처는 어떻게 설계할 수 있는가?
  • • 연구 문제 2: 위 모델을 훈련시키기 위한 대규모 이미지, 그래프의 쌍 데이터셋을 프로그래밍 방식으로 구축하는 효과적인 방법론은 무엇인가?
  • • 연구 문제 3: 제안하는 프레임워크는 기존 AI 모델 및 수작업 방식과 비교하여 시각적 품질, 편집 용이성, 작업 효율성 측면에서 실용적 이점을 입증할 수 있는가?

본 연구는 PBR 재질 그래프 생성에 초점을 맞추지만, 제안된 프레임워크는 향후 형상, 조명 등 다른 절차적 디지털 에셋 생성으로 확장될 가능성을 탐색한다.


Ⅱ. 선행 연구 고찰

2-1 기존 연구의 한계와 본 연구의 차별성

PBR 재질 생성을 위한 기존 생성형 AI 연구들은 표 1에서 요약된 바와 같이, 시각적 품질과 편집 가능성이라는 두 가지 핵심 요소 사이에서 상충 관계를 보여왔다. 본 연구는 이 두 가지 상반된 장점을 통합하여 기존 연구의 한계를 극복하는 새로운 프레임워크를 제안하는 데 그 차별성이 있다.

Contributions of this study in comparison with prior research

2-2 생성형 AI 기반 3D 에셋 제작

생성형 AI를 이용한 3D 에셋 제작 연구는 크게 다음의 두 가지 접근법으로 나뉜다.

1) 고품질 정적 텍스처 생성

최근 3D 에셋 생성 연구는 2D 이미지 생성에서 큰 성공을 거둔 생성형 인공지능 확산 모델을 3D 영역으로 확장하는 데 집중하고 있다. 이 접근법은 대규모 2D 이미지 데이터셋으로 사전 훈련된 모델의 생성 능력을 활용하여 높은 시각적 충실도를 달성한다. MeshGen과 PacTure는 텍스트나 단일 이미지로부터 3D 모델을 만들고, 여러 시점의 렌더링 이미지를 기반으로 PBR 텍스처 맵을 합성하는 파이프라인을 제안했다. 이 과정의 핵심 기술 중 하나는 단일 렌더링 이미지에서 알베도, 거칠기 등 복잡한 재질 속성을 분해하는 PBR 분해기(PBR decomposer)이다. Step1X-3D는 여기서 더 나아가 대규모 데이터셋을 기반으로 형상 생성과 텍스처 합성을 분리하는 2단계 아키텍처를 통해 품질을 더욱 향상시켰다. 이러한 연구들은 즉시 사용 가능한 수준의 에셋 생성을 목표로 하지만, 결과물이 수정하기가 어려운 정적 텍스처 맵이라는 본질적 한계를 공유한다.

2) 역방향 절차적 모델링

정적 텍스처 생성의 한계를 극복하기 위해 역방향 절차적 모델링은 최종 결과물 대신 콘텐츠를 생성하는 규칙이나 매개변수를 생성하는 데 초점을 맞춘다. 이는 사용자가 생성된 결과물을 자유롭게 편집하고 수정할 수 있는 비파괴적 워크플로우를 가능하게 한다. MatFormer는 트랜스포머 모델을 사용하여 재질 그래프를 노드, 연결, 매개변수의 토큰 시퀀스로 변환하고 이를 순차적으로 생성하는 방식을 제안했다[8]. DI-PCG는 확산 모델을 사용하여 이미지 조건을 기반으로 절차적 콘텐츠 생성 프로그램의 매개변수 자체를 직접 생성하는 방법을 선보였다. 이러한 접근법들은 높은 제어 가능성을 제공하지만, 기반이 되는 절차적 엔진의 표현력에 의해 결과물의 시각적 충실도가 제한될 수 있으며, 현실 세계의 복잡한 질감을 완벽하게 표현하는 데 어려움이 있다.

2-3 절차적 재질 워크플로우

현대 하이엔드 3D 그래픽스 파이프라인은 절차적 워크플로우의 중요성을 강조하고 있다. 대표적인 예는 Epic Games의 Unreal Engine 5에 도입된 Substrate 재질 프레임워크이다. Substrate는 기존의 고정된 셰이딩 모델에서 벗어나, 재질을 물리적 속성을 가진 물질의 슬랩(slabs of matter)이라는 개념으로 정의한다[9]. 아티스트는 이러한 슬랩들을 노드 그래프 형태로 자유롭게 조합하고 레이어링하여 금속 위의 액체나 먼지 쌓인 유리와 같은 복잡한 재질을 물리적으로 정확하게 표현할 수 있다. 이러한 워크플로우는 아티스트에게 전례 없는 절차적 자유도를 부여하지만, 동시에 재질 그래프의 복잡성을 증가시킨다. 따라서 AI가 이러한 복잡한 절차적 그래프 생성을 보조할 수 있다면 생산성을 획기적으로 향상시킬 수 있다.

2-4 협력적 제어 및 스타일 기반 생성

최근 생성 모델 연구에서는 여러 모델이 협력하여 시너지를 창출하는 접근법이 주목받고 있다. Holo-Gen은 PBR 이미지 생성을 위해 사전 훈련된 RGB 이미지 생성 모델과 새로운 PBR 생성 모델을 병렬로 연결하는 협력적 제어(collaborative control) 패러다임을 제안했다[10]. PBR 모델이 생성 작업을 수행하는 동안 RGB 모델이 사실성을 검증하며 피드백을 제공하는 이 방식은 본 연구의 협력 메커니즘에 중요한 영감을 주었다. 또한, StyleGAN과 같은 모델이 보여준 스타일 전이(style transfer) 능력은 특정 이미지의 미학적 특징을 추출하여 생성 과정에 반영하는 스타일 조건화의 가능성을 보여준다[11]. 본 연구는 이러한 스타일 기반 제어 개념을 절차적 그래프 생성 도메인으로 확장하고자 한다.


Ⅲ. 절차적 스타일 확산 프레임워크

3-1 프레임워크 개요 및 구조

본 연구는 고품질 생성과 절차적 제어 사이의 단절을 해소하기 위해 절차적 스타일 확산 프레임워크를 제안한다. 이 프레임워크는 텍스트 프롬프트와 스타일 참조 이미지를 입력받아, Unreal Engine의 Substrate와 같은 전문 도구에서 즉시 편집 가능한 절차적 PBR 재질 그래프를 직접 생성하는 것을 목표로 한다. 전체 구조는 데이터셋 구축, 모델 아키텍처 설계, 그리고 협력적 제어 메커니즘의 세 부분으로 구성된다.

Fig. 1.

Overview of the proposed procedural style diffusion framework

3-2 데이터셋 구축 방법론

제안 모델을 훈련시키기 위해서는 렌더링된 이미지, 절차적 그래프 쌍으로 구성된 대규모 데이터셋이 필수적이다. 기존에 이러한 데이터셋이 부재하므로, 본 연구에서는 Python 스크립트를 활용하여 반자동화된 데이터 구축 방법을 제안한다. 이 과정은 그림 2에 제시된 흐름도와 같이 크게 3단계로 구성된다.

Fig. 2.

Flowchart of the synthetic dataset construction process

첫째, 그래프 자동 생성 단계에서는 Unreal Engine의 Python 스크립팅 기능을 활용하여 수십만 개의 다양하고 복잡한 Substrate 재질 그래프를 무작위로 생성한다. 이 과정은 그림 3과 같이 연구자가 Rusted metal과 같은 특정 키워드를 입력하면, 스크립트가 해당 테마 내에서 다양한 변형을 가진 그래프 후보군을 자동으로 생성하는 방식으로 이루어진다.

Fig. 3.

Example of material graph generation and selection via text input

둘째, 데이터 큐레이션 및 변환 단계에서는 생성된 후보군 중에서 연구자 또는 아티스트가 시각적으로 의미 있거나 품질이 높은 결과물을 직접 선별한다. 선택된 각 재질 그래프는 MatFormer와 유사하게 노드, 연결, 파라미터 값을 나타내는 고유 토큰들의 시퀀스로 변환된다. 이 토큰 시퀀스는 확산 모델의 학습 및 생성 대상이 된다.

셋째, 이미지 렌더링 및 데이터 쌍 구성 단계에서는 최종 선택된 그래프를 표준화된 조명 환경에서 렌더링하여 대응하는 고품질 이미지를 생성한다. 이 과정을 통해 그림 4와 같이 하나의 절차적 그래프와 그에 상응하는 렌더링 결과물이 하나의 데이터 쌍으로 완성되어 최종 훈련 데이터셋에 추가된다[12].

Fig. 4.

Generation results for rusted metal text prompt and its procedural material graph and rendering example

이러한 데이터셋 구축의 전체적인 논리적 흐름을 명확하게 기술하고 재현성을 높이기 위해, 본 연구에서는 특정 프로그래밍 언어의 문법에 종속되지 않고 알고리즘의 핵심 구조를 설명하는 의사 코드(pseudo-code)를 제시한다. 의사 코드는 실제 코드는 아니지만 단계별 절차, 반복, 조건 등을 체계적으로 표현하여 다른 연구자들이 본 연구의 방법론을 쉽게 이해하고 재현할 수 있도록 돕는다. 데이터셋 구축을 위한 구체적인 알고리즘은 그림 5에 상세히 기술되어 있다.

Fig. 5.

Pseudo-code for automated synthetic dataset generation

3-3 협력적 제어 메커니즘

본 모델의 설계는 기반이 되는 아키텍처의 정의와 스타일 조건화와 더불어 본 연구의 핵심인 그래프 확산 모델과 이미지 확산 모델의 협력적 제어 메커니즘의 구현으로 구체화된다.

1) 모델 아키텍처

PSD 모델은 텍스트와 이미지를 조건으로 받는 조건부 확산 모델을 기반으로 하며, 이미지 생성 분야에서 뛰어난 성능을 보인 DiT (diffusion transformer) 아키텍처를 채택한다[13]. 본 모델의 차별점은 노이즈 제거(denoising)의 대상이 이미지가 아니라 3-2절에서 정의한 절차적 재질 그래프의 토큰 시퀀스라는 점이다. 모델은 확산 과정의 각 단계에서 손상된 그래프 토큰 시퀀스로부터 원본 시퀀스를 예측하도록 훈련되며, 이때 텍스트 프롬프트는 트랜스포머의 cross-attention 메커니즘을 통해[14], 스타일 참조 이미지는 별도의 이미지 인코더를 통해 추출된 특징 벡터 형태로 모델에 조건으로 주입된다[15].

2) 스타일 조건화 및 협력적 제어

본 프레임워크 개발의 주요 특징은 스타일 조건화(style conditioning)와 협력적 제어 메커니즘의 결합에 있다. 스타일 조건화는 CLIP과 같은 사전 훈련된 비전 인코더를 통해 참조 이미지의 색상, 패턴, 질감과 같은 미학적 특징을 추출하고, 이를 확산 모델에 주입하여 생성될 그래프의 전반적인 스타일을 제어하는 방식이다. 더 나아가, 협력적 제어는 본 연구에서 제안하는 그래프 확산 모델과 Stable Diffusion과 같이 사전 훈련된 이미지 확산 모델이 상호작용하는 메커니즘이다. 그래프 확산 모델이 그래프 토큰을 생성하면, 이미지 확산 모델이 해당 그래프의 예상 렌더링을 생성하여 목표 스타일과의 시각적 오차를 계산한다. 이 오차는 다시 그래프 확산 모델에 피드백으로 제공되어 생성 방향을 조절함으로써, 최종 결과물이 구조적 타당성과 시각적 충실도를 동시에 만족하도록 보장한다.

Fig. 6.

Collaborative control mechanism between the graph diffusion model and the image diffusion model


Ⅳ. 실험 및 평가

4-1 정량적 평가 지표 및 실험 환경

PSD 모델의 성능을 정량적으로 평가하기 위해 다음과 같은 평가 지표를 사용하였다. 생성된 재질의 시각적 품질을 평가하기 위해 FID (fréchet inception distance)를, 텍스트 및 스타일 이미지와 같은 입력된 조건과의 의미론적 일치도를 측정하기 위해 CLIP Score를 사용하였다. FID는 생성된 이미지와 실제 이미지 집합 간의 특징 분포 거리를 측정하는 지표로, 점수가 낮을수록 시각적 품질이 높음을 의미한다[16]. CLIP Score는 대규모 언어-이미지 모델인 CLIP을 이용하여 생성된 이미지와 입력 조건 간의 유사도를 측정하며, 점수가 높을수록 의미적으로 더 일치함을 나타낸다[17].

본 연구에서 제안하는 모델의 훈련 및 평가를 위한 실험은 다음과 같은 환경에서 수행되었다.

  • • 하드웨어: NVIDIA 4090 GPU.
  • • 소프트웨어: Python, PyTorch, Substrate 기능이 활성화된 Unreal Engine 5.3 이상의 버전.
  • • 데이터셋: 본 연구의 절차적 그래프 데이터셋 구축 방법론에 따라 제작된 약 50만 개의 이미지와 Substrate 그래프 쌍으로 구성된 합성 데이터셋.

4-2 정량적 평가

본 연구에서 제안하는 PSD 모델의 성능을 두 가지 베이스라인 모델과 비교 평가하였다. 베이스라인 1 (BL1; baseline 1)은 Stable Diffusion으로 텍스처를 생성 후 PBR 맵으로 변환하는 파이프라인이며, 베이스라인 2 (BL2; baseline 2)는 MatFormer와 같이 이미지만으로 절차적 그래프를 생성하는 모델이다. 평가는 시각적 유사도와 편집 용이성 두 가지 측면에서 이루어졌다.

표 2의 결과는 PSD 모델이 시각적 유사도 측면에서 두 베이스라인 모델을 상회함을 보여준다. FID 점수는 가장 낮고 CLIP Score는 가장 높아, 목표 스타일과 의미적으로 가장 일치하는 결과물을 생성했다. 특히 BL2에 비해 명확하게 개선된 시각적 품질을 달성했는데, 이는 협력적 제어 메커니즘이 효과적으로 작동했음을 시사한다. 편집 용이성 측면에서 BL1은 구워진 텍스처이므로 그래프 구조가 존재하지 않는다. 제안 모델은 BL2보다 더 풍부하고 많은 수의 노드와 파라미터를 가진 그래프를 생성하여, 아티스트가 수정하고 제어할 수 있는 여지를 더 많이 제공함을 확인할 수 있다.

Quantitative performance comparison of the PSD model and baseline models

4-3 정성적 평가: 사용자 연구

PSD 시스템의 실질적 가치를 평가하고 정량적 분석 결과를 보완하기 위해 전문 3D 아티스트를 대상으로 사용자 연구를 수행했다. 본 연구는 참가자의 전문성과 경험이 결과의 신뢰도에 미치는 영향을 고려하여, 표 3과 같이 게임 및 VFX 산업에서 평균 7.4년의 경력을 가진 시니어급 아티스트 10명을 대상으로 진행하였다.

Demographic information of the participants

전체적인 평가 절차는 그림 7에 상세히 기술된 바와 같다. 참가자들은 ‘사이버펑크 스타일의 빛나는 회로 기판 재질’이라는 동일한 과제를 (A) 본 연구에서 제안하는 PSD 시스템과 (B) 기존 방식인 Substance Designer에서의 수작업, 두 가지 조건에서 수행하였다. 각 조건의 순서는 학습 효과로 인한 편향을 최소화하기 위해 역균형 (counterbalanced) 설계로 진행되었다.

Fig. 7.

Process of the user based qualitative evaluation

과제 수행 후, 각 조건에서의 과업 성과와 사용자 경험을 종합적으로 측정하였다. 과업 성과 지표로는 각 조건에서의 작업 완료 시간과 과제 요구사항 충족도를 기준으로 평가된 결과물 품질을 5점 척도로 측정하였다. 이와 함께 사용자 경험을 평가하기 위해 표준화된 설문 도구를 사용하였다. PSD 시스템의 전반적인 사용성은 IBM에서 개발한 PSSUQ (post-study system usability questionnaire) 7점 척도를 이용하여 시스템 유용성, 정보 품질, 인터페이스 품질을 종합적으로 평가하였고[18], AI 기반 협업 도구에서 중요한 요소인 사용자의 신뢰도를 측정하기 위해 TAI (trust scale for the AI context) 척도를 활용하였다[19]. 이 척도는 AI의 예측 가능성, 신뢰성, 그리고 사용자와의 상호작용 측면을 종합적으로 평가하여, 본 연구와 같이 사용자와 AI가 긴밀히 협업하는 시스템을 평가하는 데 적합하다. 마지막으로, 각 방식이 아티스트의 아이디어 탐색과 표현에 얼마나 기여했는지를 5점 척도의 창의적 자유도로 평가하였다.

연구 결과, 그림 8에서 볼 수 있듯이 PSD 시스템은 모든 지표에서 기존 방식 대비 높은 평가를 기록했다. 특히 평균 과제 완료 시간(t(9) = -8.54, p < .001)과 창의적 자유도(t(9) = 4.65, p < .01) 항목에서 두 조건 간에 통계적으로 유의미한 차이가 확인되었다. 결과물 품질 또한 PSD 시스템이 기존 방식보다 소폭 높은 점수를 기록했으나, 통계적으로 유의미한 수준은 아니었다(t(9) = 1.00, p = .343). PSSUQ와 TAI 점수 모두 높은 수준으로 측정되어 PSD 시스템 자체의 완성도와 사용성을 입증하였다.

Fig. 8.

User evaluation comparison between the PSD System and the conventional methodNote: Asterisks indicate a statistically significant difference between the two conditions; *p < .01, **p < .001

두 조건에서 도출된 최종 결과물의 시각적 품질 차이는 그림 9에서 확인할 수 있다. PSD 시스템을 사용한 결과물 (A)은 수작업 결과물 (B)과 비교하여 동등하거나 더 높은 수준의 디테일과 완성도를 보여주었으며, 특히 초기 아이디어 탐색 단계에서 더 다양한 시도를 가능하게 했다. PSD 시스템이 생성한 결과물 (A)의 다층적이고 비선형적인 그래프 구조는 그림 10에서 더욱 상세하게 확인할 수 있다.

Fig. 9.

Comparison of final rendered results

Fig. 10.

Example of the graph structure for the circuit board material generated by the PSD system

참가자들을 대상으로 한 심층 인터뷰 결과는 표 4에 요약되어 있다. 인터뷰 결과, 아티스트들은 PSD 시스템이 단순한 시간 단축에서 더 나아가, 초기 아이디어 탐색 과정을 가속하고 예상치 못한 결과물을 제안함으로써 창의적 영감을 주는 협업 파트너로서 기능할 수 있다는 점을 긍정적으로 평가하였다.

Summary of key opinions from user in-depth interviews


Ⅴ. 결론 및 향후 연구

5-1 결론

본 연구는 생성형 AI 기술을 전문 3D 콘텐츠 제작 워크플로우에 실질적으로 통합하기 위한 새로운 접근법으로 절차적 스타일 확산, PSD 프레임워크를 제안하고 구현하였다. 본 연구는 텍스트와 스타일 이미지로부터 전문 워크플로우와 직접 호환되는 절차적 PBR 재질 그래프를 생성하는 실용적인 프레임워크를 제시함으로써, 기존 생성 기술의 양대 갈래였던 고품질 정적 에셋 생성과 절차적 제어 사이의 실질적인 단절의 문제를 해결하고자 하였다.

본 연구의 가장 큰 학술적 기여는 그래프 토큰 시퀀스를 직접 생성하는 확산 모델과 시각적 결과물을 검증하는 이미지 모델이 상호작용하는 협력적 제어 메커니즘을 제안하고 그 가능성을 확인했다는 점에 있다. 이는 MatFormer와 같은 기존의 역절차적 모델링 연구가 주로 구조적 타당성에만 집중했던 것과 달리, 본 연구는 생성될 그래프의 최종 렌더링 결과까지 고려하여 시각적 충실도를 극대화했다는 점에서 차별화된다. 또한, MeshGen을 비롯한 고품질 정적 에셋 생성 연구와 비교했을 때, 본 연구의 결과물은 아티스트가 언제든지 수정하고 제어할 수 있는 절차적 형태라는 점에서 실용적 우위를 가진다.

정량적 평가에서는 제안 모델 PSD가 기존 베이스라인 모델에 비해 낮은 FID (18.52)와 높은 CLIP Score (0.89)를 달성하여 시각적 품질과 의미적 일치도 측면에서 우수성을 입증하였다. 정성적 평가에서는 전문 3D 아티스트들을 대상으로 수행한 실험 결과, 작업 시간 단축 (78%) 및 창의적 자유도에서 통계적으로 유의미한 향상을 나타냈다 (p < 0.01). 본 연구는 이와 같이 AI를 활용한 작업 절차의 자동화를 포함하여 아티스트의 3D 콘텐츠 제작에 있어 AI가 새로운 협업 도구로서 기능할 수 있는 패러다임을 제시한다.

5-2 연구의 한계점 및 향후 연구 방향

본 연구는 몇 가지 한계점을 가지며, 이는 향후 연구를 위한 중요한 방향을 제시한다. 첫째, 제안된 모델의 성능은 훈련에 사용된 합성 데이터셋의 품질과 다양성에 크게 의존한다. 그러므로 향후에는 더욱 정교하고 광범위한 절차적 그래프 생성 알고리즘을 개발하여 데이터셋의 질을 높일 필요가 있다. 둘째, 현재 제안된 PSD 모델은 재질 생성의 실험 수행에 국한되어 있으나, 이 프레임워크를 형상 (geometry)과 조명, 애니메이션 등 디지털콘텐츠의 다양한 유형의 절차적 에셋 생성으로 확장하는 연구가 가능하다. 마지막으로, 아티스트의 편집 과정을 보상 신호로 활용하는 강화학습을 도입하여, 시스템이 상호작용을 통해 특정 아티스트의 스타일과 선호를 학습하는 진정한 의미의 협업 에이전트로 발전시킬 수 있을 것으로 기대된다.

References

  • G. Franceschelli and M. Musolesi, “Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges,” Journal of Artificial Intelligence Research, Vol. 79, pp. 417-446, February 2024. [https://doi.org/10.1613/jair.1.15278]
  • R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans: LA, pp. 10674-10685, June 2022. [https://doi.org/10.1109/CVPR52688.2022.01042]
  • Z. Chen, Y. Wang, W. Sun, F. Wang, Y. Chen, and H. Liu, “MeshGen: Generating PBR Textured Mesh with Render‑Enhanced Auto‑Encoder and Generative Data Augmentation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 5835-5848, June 2025. [https://doi.org/10.48550/arXiv.2505.04656]
  • F. Fei, J. Tang, F.-P. Tian, B. Shi, and P. Tan, “PacTure: Efficient PBR Texture Generation on Packed Views with Visual Autoregressive Models,” arXiv:2505.22394, , May 2025. [https://doi.org/10.48550/arXiv.2505.22394]
  • W. Li, X. Zhang, Z. Sun, D. Qi, H. Li, W. Cheng, ... and P. Tan, “Step1X‑3D: Towards High‑Fidelity and Controllable Generation of Textured 3D Assets,” arXiv:2505.07747, , May 2025. [https://doi.org/10.48550/arXiv.2505.07747]
  • W. Zhao, Y.‑P. Cao, J. Xu, Y. Dong, and Y. Shan, “DI‑PCG: Diffusion‑Based Efficient Inverse Procedural Content Generation for High‑quality 3D Asset Creation,” arXiv:2412.15200, , December 2024. [https://doi.org/10.48550/arXiv.2412.15200]
  • B. Li, R. Wu, A. Solar‑Lezama, C. Zheng, L. Shi, B. Bickel, and W. Matusik, “VLMaterial: Procedural Material Generation with Large Vision‑Language Models,” arXiv:2501.18623, , February 2025. [https://doi.org/10.48550/arXiv.2501.18623]
  • P. Guerrero, M. Hašan, K. Sunkavalli, R. Měch, T. Boubekeur, and N. J. Mitra, “MatFormer: A Generative Model for Procedural Materials,” ACM Transactions on Graphics, Vol. 41, No. 4, PP. 1-12. 46, July 2022. [https://doi.org/10.1145/3528223.3530173]
  • Epic Games, Substrate Materials Overview [Internet]. Available: https://dev.epicgames.com/documentation/en-us/unreal-engine/overview-of-substrate-materials-in-unreal-engine, .
  • S. Vainer, M. Boss, M. Parger, K. Kutsy, D. De Nigris, C. Rowles, ... and S. Donné, “Collaborative Control for Geometry‑Conditioned PBR Image Generation,” in Proceedings of Computer Vision – ECCV 2024 Workshops, Milan: Italy, pp. 339-357 2024. [https://doi.org/10.48550/arXiv.2402.05919]
  • N. Klingler, StyleGAN Explained: Revolutionizing AI Image Generation [Internet]. Available: https://viso.ai/deep-learning/stylegan, .
  • Evidently AI. How to Create LLM Test Datasets with Synthetic Data [Internet]. Available: https://www.evidentlyai.com/llm-guide/llm-test-dataset-synthetic-data, .
  • W. Peebles, and S. Xie, “Scalable Diffusion Models with Transformers,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 4195-4205, 2023. [https://doi.org/10.48550/arXiv.2212.09748]
  • A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, ... and I. Polosukhin, “Attention Is All You Need,” Advances in Neural Information Processing Systems, 2017. [https://doi.org/10.48550/arXiv.1706.03762]
  • A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, ... and I. Sutskever, “Learning Transferable Visual Models from Natural Language Supervision,” in Proceedings of the 38th International Conference on Machine Learning, pp. 8748-8763, 2021. [https://doi.org/10.48550/arXiv.2103.00020]
  • M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter, “GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium,” Advances in Neural Information Processing Systems, 2017. [https://doi.org/10.48550/arXiv.1706.08500]
  • K. Lall and A. Lall, “Validating Image Captioning Models Using Text-to-Image Algorithms via Generative AI,” in 2025 International Conference on Computational, Communication and Information Technology, Indore: India, pp. 281-286, 2025. [https://doi.org/10.1109/ICCCIT62592.2025.10928102]
  • J. R. Lewis, “IBM Computer Usability Satisfaction Questionnaires: Psychometric Evaluation and Instructions for Use,” International Journal of Human-Computer Interaction, Vol. 7, No. 1, pp. 57-78, 1995. [https://doi.org/10.1080/10447319509526110]
  • N. Scharowski, S. A. C. Perrig, L. F. Aeschbach, N. von Felten, K. Opwis, P. Wintersberger, and F. Brühlmann, “To Trust or Distrust Trust Measures: Validating Questionnaires for Trust in AI,” arXiv:2403.00582, , 2024. [https://doi.org/10.48550/arXiv.2403.00582]

저자소개

강석민(Sukmin Kang)

2019년:캘리포니아 예술학교 대학원 (석사-아트 앤 테크놀러지)

2025년:서울대학교 대학원 (박사-디자인)

2020년~현 재: 국민대학교 영상디자인학과 강사

※관심분야:영상 콘텐츠(Entertainment Contents), 인터랙티브 미디어(Interactive Media)

Fig. 1.

Fig. 1.
Overview of the proposed procedural style diffusion framework

Fig. 2.

Fig. 2.
Flowchart of the synthetic dataset construction process

Fig. 3.

Fig. 3.
Example of material graph generation and selection via text input

Fig. 4.

Fig. 4.
Generation results for rusted metal text prompt and its procedural material graph and rendering example

Fig. 5.

Fig. 5.
Pseudo-code for automated synthetic dataset generation

Fig. 6.

Fig. 6.
Collaborative control mechanism between the graph diffusion model and the image diffusion model

Fig. 7.

Fig. 7.
Process of the user based qualitative evaluation

Fig. 8.

Fig. 8.
User evaluation comparison between the PSD System and the conventional methodNote: Asterisks indicate a statistically significant difference between the two conditions; *p < .01, **p < .001

Fig. 9.

Fig. 9.
Comparison of final rendered results

Fig. 10.

Fig. 10.
Example of the graph structure for the circuit board material generated by the PSD system

Table 1.

Contributions of this study in comparison with prior research

Research Stream Advantages Limitations Improvements in This Study
High-Fidelity Static Asset Generation MeshGen, PacTure Excellent visual quality Limited procedural editability Enables procedural editing of high-fidelity assets
Inverse Procedural Modeling MatFormer, DI-PCG High editability & control Limited visual fidelity & complexity Ensures high visual fidelity through collaborative control

Table 2.

Quantitative performance comparison of the PSD model and baseline models

Evaluation Metric PSD BL1 BL2 Description
Visual Similarity FID 18.52 25.41 42.19 Lower is better
CLIP Score 0.89 0.81 0.72 Higher is better
Editability Average Node Count 28.5 N/A 21.2 Graph complexity and expressiveness
Average Connection Count 35.1 N/A 25.8 Complexity of node interactions
Core Parameter Count 15.3 N/A 9.7 Number of user-controllable attributes

Table 3.

Demographic information of the participants

Participants ID Primary Field Years of Experience
P1 Game Environment Art 8
P2 VFX Texture Art 12
P3 Game Character Art 5
P4 Architectural Visualization 10
P5 Game Environment Art 6
P6 Product Visualization 9
P7 VFX Look Development 11
P8 Game Hard-surface Art 4
P9 Technical Art 5
P10 Game Environment Art 4
Average 7.4 years 

Table 4.

Summary of key opinions from user in-depth interviews

Group Key Opinions
Propsed System
(PSD)
- "Could get a high quality draft so quickly that the idea sketching process was almost skipped."
- "It went beyond simply following prompts, suggesting unexpected and interesting node combinations that provided new inspiration."
- "The process of directly modifying and fine-tuning the generated graph was very intuitive and efficient."
Conventional Method
(Manual)
- "It takes too much time to perfectly replicate the subtle textures of the reference image."
- "There's a lot of trial and error in the early stages, and the repetitive work feels tedious."
- "It's often daunting to figure out where to start when trying a completely new style."