
배 검은별무늬병 탐지를 위한 3D 렌더링과 VLM 편집 기반 합성데이터 생성 연구
Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
초록
배 과수의 검은별무늬병은 초기 증상이 미세하고 환경적 변이가 크기 때문에 자동화된 탐지가 어려운 주요 병해 중 하나다. 본 연구에서는 3D 저작도구 기반 렌더링과 Vision-Language Model(VLM) 기반 이미지 편집을 결합한 이중 합성데이터 생성 프레임워크를 제안한다. 제안된 파이프라인은 실제 과수원 환경을 모사하여 나무에 달린 배를 대상으로 사실적인 병반 패턴과 다양한 주변 조건을 포함한 합성 이미지를 생성한다. YOLOv8 검출기를 이용한 실험에서 세 가지 데이터셋(Blender 기반 합성 데이터, VLM 기반 합성 데이터, 혼합 데이터셋)을 비교하였다. VLM 기반 합성 데이터셋이 가장 높은 성능(mAP: 0.750)을 보였으며, 혼합 데이터셋에서의 결과(mAP: 0.723) 또한 확인할 수 있었다. 이러한 결과는 전통적인 데이터 수집의 한계를 보완하고, 농업 병해 탐지 과제에서 강인성을 높이는 데 있어 합성 데이터의 활용 가능성을 보여준다.
Abstract
Black spot disease in pear fruits presents a major challenge for automated detection due to the subtle and variable nature of early symptoms. This study proposes a dual-source synthetic data generation framework that integrates three dimensional (3D) physically based rendering with Vision-Language model (VLM)–based image editing to improve object detection under orchard conditions. The pipeline produced photorealistic fruit-on-tree images with realistic lesion patterns in diverse environments. Using a YOLOv8 detector, we evaluated three datasets: Blender-generated, VLM-generated, and mixed. The VLM-based dataset achieved the highest mean average precision (mAP) (0.750). The mixed dataset also performed strongly (mAP: 0.723), showing complementary effects. These results demonstrate the potential of VLM-guided synthetic data to overcome the limitations of traditional data collection, thereby enhancing robustness in agricultural disease detection.
Keywords:
Scab Detection, Synthetic Data Generation, Vision-Language Model (VLM), 3D Rendering, Object Detection키워드:
배 검은별무늬병 탐지, 합성데이터 생성, 시각-언어 모델(VLM), 3D 렌더링, 객체 탐지Ⅰ. 서 론
배 과실에 발생하는 검은별무늬병(Scab)은 그림 1에서 보이듯이 배 재배 과정에서 치명적인 병해 중 하나로, 과실 표면에 병반, 균열, 기형 등을 유발하여 상품성을 크게 떨어뜨린다[1]. 특히 조기에 감염될 경우 과실이 정상적인 생육을 하지 못해 상품 가치가 급격히 저하되며, 이는 농가의 경제적 손실로 직결된다. 검은별무늬병은 발병 시기와 진행 단계에 따라 그 양상이 달라지며, 특히 어린 과실기에 나타나는 초기 증상은 매우 미세하고 경계가 불분명하여 육안으로 식별하기 어렵다. 또한 병반의 크기, 형태, 색상은 시기별·환경별로 불규칙하게 변하기 때문에 일관된 진단이 어렵고, 자동화된 탐지 시스템 개발에도 어려움으로 작용한다[1],[2].
최근 인공지능과 컴퓨터 비전 기술이 농업 병해 탐지 분야에 활발히 도입되면서, 다양한 과수의 병해를 자동으로 판별하려는 연구가 진행되고 있다[3]. 그러나 기존 연구들은 실제 촬영된 병징 이미지 데이터에 의존하고 있으며, 데이터 수집 과정에서 많은 시간적, 비용적 문제가 발생한다. 실제 농장에서 대규모 병해 이미지를 확보하는 일은 계절성, 기상 조건, 병해 확산의 불확실성 등으로 인하여 제한적이다.
또한 병해 발생은 특정 시기와 환경에 국한되기 때문에 다양한 상태의 병징 데이터를 의도적으로 수집하기 어렵다. 드론이나 고정형 카메라를 활용한 자동화된 영상 수집 방식도 초기 병징 탐지에는 민감도가 낮으며, 그림자나 빛 반사에 의한 오탐지 문제가 발생한다. 더불어 고해상도 영상 확보를 위해서는 전문 인력, 반복적인 촬영, 수작업 라벨링 과정이 필요하여 많은 시간과 비용이 소모된다. 특히 과실의 꼭지 주변이나 표면 굴곡부에 발생하는 병징은 단일 시점 이미지로 탐지하기 어려워, 다각도의 데이터 확보가 필수적이라는 한계가 있다.
이러한 제약을 극복하기 위해 합성 데이터(synthetic data) 활용이 하나의 대안으로 주목받고 있다. 합성 데이터는 실제 촬영이 어려운 조건을 가상 환경에서 구현하여 다양한 상태의 이미지를 확보할 수 있는 장점을 가진다. 기존 연구에서는 3D 모델링이나 GAN 기반 합성을 통해 과수 병해 데이터를 증강하는 시도가 이루어졌으나, 병해의 불규칙한 양상과 실제 과수원 환경의 복잡성을 충분히 반영하지 못하는 한계가 존재했다.
본 연구에서는 이러한 문제를 해결하기 위해 ① 3D 저작 도구 기반 렌더링을 활용하여 배 과실과 병징을 자유롭게 구성하고, ② Vision-Language Model(VLM) 기반 이미지 생성을 통해 사실적이고 다양한 병반 패턴을 반영하는 이중 합성데이터 생성 프레임워크를 제안한다. 제안된 파이프라인은 실제 과수원 환경을 모사하며, 병기별·환경별로 다양한 조건에서 학습 가능한 고품질 합성 데이터셋을 구축하는 것을 목표로 한다.
본 연구의 접근은 기존 병해 탐지 연구에서 지적된 데이터 부족 문제를 효과적으로 보완 할 수 있으며, 나아가 실제 촬영 데이터와의 비교를 통해 합성 데이터의 일반화 가능성과 실효성을 검증하여 향후 농업 병해 진단 시스템의 신뢰성, 확장성을 동시에 확보할 수 있을 것으로 기대된다.
Ⅱ. 관련 연구
2-1 머신러닝, 딥러닝 기반 과수 병해 탐지에 관한 연구
과수 병해 탐지 및 품질 분류 분야에서는 딥러닝 기반 영상 인식 기술이 꾸준히 발전하였다. 특히, 합성곱 신경망(convolutional neural network; CNN) 은 복잡한 배경이나 조명 변화에도 견고한 특징 학습 능력을 보여주며, 과수 품질 판별과 병해 탐지에 널리 활용되고 있다.CNN 기반 모델을 이용하여 사과 품질을 정밀하게 분류하였으며, 기존의 전통적 영상처리 기법(HOG, GLCM, SVM 등)보다 높은 정밀도(95.33%)를 달성하였다. 해당 연구에서는 일반적인 조명 변화와 배경 교란 환경에서도 안정적인 분류가 가능함을 확인하였으며, 데이터 증강을 통해 모델의 일반화 성능을 향상시켰다[4].
경량 합성곱 신경망(lightweight CNN) 구조를 활용하여 사과 품종을 분류한 연구에서는 14종의 사과 품종을 대상으로 MobileNet, ResNet50, EfficientNetB0 등 다양한 최신 구조와 비교 실험을 수행하였다. 제안된 모델은 데이터 증강을 통해 7,159장의 이미지를 학습에 활용하였다. 그 결과, 테스트 정확도 99.59%를 달성하며 기존 구조 대비 높은 효율성과 정확도를 보였다[5].
배 품종 분류에 대해서 머신러닝 기법과 딥러닝 기법을 비교한 연구가 진행되었다. 해당 연구에서는 Century, Sweat, Xiangli 등 외형적으로 유사한 배 품종을 대상으로 K-최근접 이웃(k-nearest neighbour), 서포트 벡터 머신(support vector machine), 결정 트리(decision tree), 랜덤 포레스트(random forest) 등의 알고리즘을 활용하여 분류 성능을 평가하였다. 또한 딥러닝 기반 Inception-v3 모델을 기반으로 학습하여 높은 정확도 94.00%를 달성하였다[6].
이러한 연구들은 농업 병해 탐지의 가능성을 입증하지만, 실제 농장에서 데이터 수집의 제약이라는 공통된 한계를 갖는다[4]-[6].
2-2 합성데이터 활용 관련 연구
실제 농장 환경에서 시기별·환경별 병징 이미지를 확보하기 어렵다는 문제를 극복하기 위해 합성 데이터를 활용한 연구가 활발히 진행되고 있다.
조건부 생성적 적대 신경망(conditional generative adversarial network; CGAN)을 활용하여 과실 결함 이미지를 합성한 연구에서는 실제 결함(bruise, rot, cut 등)을 재현하기 위한 조건 변수로 색상·형태 등 입력으로 사용하였다. 생성된 합성 이미지는 원본 데이터의 시각적 특성과 통계적 분포를 유지하면서도 다양한 결함 형태를 표현하였으며, 이를 분류 모델 학습에 적용한 결과 기존 CNN 대비 평균 정확도가 약 9.8% 향상되었다[7]. 이러한 결과는 CGAN 기반 합성이 실제 과실 결함 데이터의 부족 문제를 완화하고, 모델의 일반화 성능을 개선할 수 있음을 보여준다.
합성 데이터를 활용해 기하학적 구조 복원을 시도한 연구로는 키위 과실 모델링 연구가 있다. 이 연구에서는 CGAN을 이용해 키위 과실의 3차원 형상 데이터를 복원하는 모델을 학습하였고, 생성된 3D 형상과 실제 측정된 과실 기하 구조 간의 차이를 평가하여 유의미한 복원 성능을 입증하였다[8].
포도 및 토마토 잎 병해 탐지 분야에서 확산모델(Diffusion model)을 활용한 합성 이미지는 기존 GAN 기반 합성보다 시각적 사실성과 세부 질감 표현이 우수함이 입증되었다. 해당 연구에서는 확산모델을 이용해 병반의 모양, 크기, 색상 변이를 조절하며 다양한 병징 패턴을 생성하였고, 생성된 이미지를 이용해 학습한 모델은 실제 데이터 기반 모델 대비 평균 정확도가 약 7.5% 향상되었다[9]. 추가적으로 포도 이상 탐지를 위해 합성 샘플 자동 생성 파이프라인을 제안하여 이상 탐지 성능을 개선한 연구도 있다[10]. 그러나 기존 합성데이터 활용은 병해의 불규칙성과 다양한 환경적 변화를 충분히 반영하기에는 한계가 있다[7]-[10].
또한 절차적 생성(procedural generation) 기법을 활용한 합성 데이터 구축 연구도 주목받는다. 예를 들어, 고추 재배 환경을 대상으로 한 합성 데이터셋을 절차적 알고리즘 기반으로 자동 생성한 연구에서는 식물 구조, 조명 조건, 카메라 시점 등을 통제 가능한 방식으로 다양화하여 로봇 응용 환경에서의 이미지 데이터를 생성했다[11].
최근에는 비전-언어 모델(vision-language model; VLM)과 3D 합성 기법을 각각 활용하여 농업 이미지 데이터의 한계를 보완하려는 시도가 이루어지고 있다. 객체 탐지 분야에서 실시간성과 정확성을 동시에 확보할 수 있는 YOLO 계열 모델이 주목받고 있으며, 사과 과수 이미지를 대상으로 합성 데이터를 YOLOv10 및 YOLOv11 모델에 적용하여 탐지 성능을 개선한 연구가 있다. 해당 연구에서는 실제 및 합성 데이터를 결합한 하이브리드 학습 전략을 통해 모델의 일반화 성능을 향상시켰으며, 특히 다양한 조명·배경 조건에서의 탐지 정확도를 기존 모델 대비 약 6.3% 향상시켰다[12].
과실 품질 분류 연구에서는 VLM을 활용한 멀티모달 기반 이미지–언어 융합 네트워크가 최근 제안되었으며, 해당 연구는 이미지와 텍스트 설명을 결합한 모델이 단일 이미지 기반 모델 대비 품질 분류 성능을 유의미하게 개선함을 보여주었다[13].
다양한 스타일로 재현된 과실 이미지를 제공하는 fruit-SALAD 데이터셋은 스타일 정렬 기반 합성 이미지 벤치마크로, 10개의 과일 종류와 10개의 스타일 조합을 통해 표현 다양성과 시각적 정합성을 강조한 구조화된 합성 이미지 집합을 제공한다[14].
2-3 본 연구의 차별성
기존의 과수 병해 탐지 연구들은 주로 합성곱 신경망과 같은 딥러닝 모델을 중심으로 발전해 왔으며[1]-[3], 다양한 과실 품종 및 병해 탐지에서 우수한 분류 성능을 보여주었다. 그러나 이러한 접근은 실제 농장 환경에서 나타나는 조명 변화, 복잡한 배경, 병징의 비정형적 형태 등 다양한 요인을 충분히 반영하지 못하는 한계를 가진다. 이를 보완하기 위해 최근에는 조건부 생성적 적대 신경망(CGAN), 확산모델(Diffusion Model), 절차적 합성(Procedural Synthesis) 등을 활용한 합성 데이터 기반 연구가 활발히 이루어지고 있다[3]-[7]. 하지만 이러한 연구들은 대부분 단일 합성 방식에 의존하고 있어, 데이터의 시각적 다양성과 실제 환경에 대한 적응력 측면에서 여전히 제약이 존재한다. 본 연구에서는 이러한 한계를 해결하기 위해 3D 저작 도구와 VLM을 결합한 복합 합성 데이터 생성 방식을 제안한다.
먼저, Blender를 활용하여 배 과실의 형태, 색상, 표면 질감 및 병징 위치를 정밀하게 구현하고, 조명·시점·배경을 절차적으로 조정하여 구조적으로 일관된 3D 합성 이미지를 생성하였다. 이 과정에서 구축된 데이터는 학습용 이미지로서뿐 아니라, VLM 기반 이미지 편집의 참조 자료로도 활용된다.
이후, VLM을 활용하여 텍스트 조건(prompt)에 따라 병징의 형태, 크기, 색상 및 주변 환경을 다양하게 변형하였다. 예를 들어 “표면 상단의 갈색 부패 반점”과 같은 언어적 입력을 통해 실제 환경에서 관찰되는 병징 특성을 반영한 이미지 생성을 수행하였다. 이러한 접근은 기존의 단순한 픽셀 단위 합성 기법과 달리, 언어 조건에 따른 의미적 제어가 가능하다는 점에서 합성 데이터의 표현력과 다양성을 동시에 확보할 수 있다.
따라서 본 연구는 3D 절차적 합성을 통한 구조적 정밀성과 VLM 기반 편집을 통한 의미적 다양성을 결합하여, 병징의 형태적 변이와 시각적 사실성을 모두 확보하였다. 이를 통해 데이터 불균형 문제를 완화하고, 다양한 환경 조건에서도 일반화 가능한 병해 탐지 모델 구축의 가능성을 제시한다. 본 연구의 접근은 기존의 단일 합성 기반 연구와 차별화되며, 향후 농업 분야에서의 병해 진단 및 품질 관리 자동화에 기여할 수 있다.
Ⅲ. 배 검은별무늬병 합성데이터 생성
배 과실 검은별무늬병의 조기 탐지를 위한 합성 데이터셋을 구축하기 위해 그림 2와 같이 본 연구의 파이프라인을 제안한다. 첫째, Blender의 PBR(Physically Based Rendering) 머티리얼 시스템과 텍스처 페인팅(Texture Painting) 기능을 병행하여 과실 및 병징의 표면 질감을 사실적으로 구현하였다. 이후 자동 렌더링 및 라벨링 파이프라인을 개발하여 대규모 데이터를 생성하고 YOLO 학습 형식에 적합한 주석을 확보한다. 둘째, VLM을 활용하여 3D 합성 이미지를 기반으로 사실성과 다양성을 보강하는 편집 데이터셋을 구축한다. 마지막으로 구축한 데이터셋을 토대로 객체 탐지 모델을 학습 시켜 실제 농장에서 확보하기 어려운 다양한 시기·환경·증상별 데이터 변이를 반영하고자 하였다.
3-1 3D 저작 도구를 활용한 합성 데이터 생성
본 연구에서 초기 3D 합성 데이터는 Blender Cycles 렌더링 엔진을 활용하여 제작하였다. 그림 3은 3D 렌더링 기반 합성데이터 생성 과정을 보여준다. 우선 배 과실의 기초 모델은 상용 3D 에셋을 기반으로 하였으며, 실측된 배 과실의 평균 크기(중과 기준 지름 약 90–100 mm)를 참고하여 전체 비율을 보정하였다. 이후 Blender 내에서 모델의 형태와 곡률을 조정하여 실제 배의 외형적 특징을 반영하였다. 이를 통해 실물 크기와 형태적 사실성을 동시에 확보하였다. 과실의 색상은 Blender의 Shader Node를 통해 RGB Curves 값을 조정하여 실제 배의 색감에 근접하도록 수정하였다.
병징 표현을 위해 그림 3와 같이 총 4종의 병반 텍스처를 구축하였다. 이는 국립원예특작과학원과 농사로 농업기술포털에서의 실제 병해 사진을 기반으로 하여 병반 부위를 분리하고, 포토샵 기반 전처리를 거쳐 텍스처로 변환하여 제작하였다. 각 텍스처는 크기, 색상(암갈색–흑색), 질감(균열 동반 여부)에 따라 분류되었으며, Blender의 Texture Paint 기능을 활용하여 과실 표면에 무작위적으로 배치되었다. 동일 과실 모델에 여러 텍스처를 적용하여 병징이 불규칙적으로 분포하는 실제 감염된 현상을 모사하였다.
환경 요소는 실제 과수원의 시각적 조건을 최대한 반영하였다. 배 나무는 3–5 m 간격으로 배치하였으며, 밀집도는 실제 농업 보고서를 참조하여 설계하였다. 조명은 Blender의 Sun Light와 HDRI(High Dynamic Range Image) 기반 Environment Lighting을 조합하여 구현하였으며, 환경 조건은 표 1과 같이 1. 맑은 날, 2. 흐린 날, 3. 안개 낀 날, 4. 흐린+안개 복합 조건 등 4가지 시나리오로 설계하였다. 특히 안개 효과는 Volumetric Fog를 이용해 병징 가시성이 저하되는 환경을 재현하였다.
이러한 설정을 통해 병징의 위치, 크기, 조명 조건, 환경 요인을 체계적으로 통제할 수 있었으며, 결과적으로 실제 농장에서 확보하기 어려운 다양한 조건의 데이터를 안정적으로 생성하였다.
3-2 자동 렌더링 및 라벨 생성
효율적인 데이터셋 구축을 위해 Blender Python API를 기반으로 자동 렌더링 및 주석 생성 파이프라인을 설계하였다. 전체 과정은 (1) 카메라 뷰포인트 무작위화, (2) 객체 복제 및 분산 배치, (3) YOLO 학습용 라벨 자동화의 세 단계로 구성된다.
첫째, 카메라 뷰포인트 무작위화 단계에서는 렌즈 초점거리(35–50 mm), 카메라–과실 간 거리(0.3–1.0 m), 카메라의 방위각·고도각을 무작위로 설정하였다. 이를 통해 동일한 병징이 다양한 크기와 시각에서 나타나는 데이터를 확보하였다. 특히 카메라 시선은 Quaternion 변환을 통해 항상 과실 중심을 향하도록 정렬하였다. 이는 카메라 위치 벡터 𝑝와 대상 중심 𝑐 간 방향 벡터 𝑑=𝑐−𝑝 를 기준으로 forward 벡터를 −𝑍 축과 일치시키고 up 벡터를 𝑌축에 맞추는 방식으로 계산된다. 이때 회전은 다음과 같이 Quaternion 𝑞로 정의된다.
| (1) |
여기서 𝑓는 forward 벡터, 𝑢는 up 벡터를 의미하며, 해당 변환을 통해 과실 중심이 항상 화면의 중앙부에 위치하도록 보정하였다.
둘째, 객체 복제 및 분산 배치 단계에서는 Blender의 Particle System을 활용하여 한 장면(Scene)에 다수의 배 모델을 배치하였다. Particle System으로 생성된 객체는 독립적인 메시(mesh)로 변환되며, 각 객체에는 무작위 위치, 회전, 크기 파라미터가 부여되어 실제 과수원의 변동성을 반영하였다.
셋째, 셋째, YOLO 학습용 라벨 자동화 단계에서는 3D 메시의 버텍스를 2D 화면 좌표계로 투영하여 Bounding box 좌표를 계산하였다. 객체 𝑂𝑖의 정규화된 Bounding box는 다음과 같이 정의된다.
| (2) |
여기서 𝑥𝑐,𝑦𝑐는 중심 좌표, 𝑤, ℎ는 박스의 너비와 높이이며, 𝑊, 𝐻는 이미지의 전체 해상도이다. 본 연구에서는 YOLO 형식 (𝑥𝑐𝑒𝑛𝑡𝑒𝑟,𝑦𝑐𝑒𝑛𝑡𝑒𝑟, width, height)에 따라 라벨을 저장하였다.
자동 생성된 라벨은 이후 사용자 피드백 과정을 통해 정제되었다. 병반이 과실 경계와 겹쳐 Bounding box가 과도하게 확장된 경우는 수작업으로 교정하였으며, 최종적으로 약 500장의 합성 이미지와 정확한 Bounding box 주석을 포함한 데이터셋을 확보하였다.
3-3 Vision-Language Model(VLM)을 활용한 합성 데이터
본 연구에서는 그림 5와 같이 Vision-Language Model(VLM)의 이미지 편집 기능을 활용하여 데이터를 확장하였다. 구체적으로 GPT-Image-1의 Edit API와 Gemini 2.5 Flash Image 모델을 이용하여 3D 합성 이미지를 입력으로 제공하고, 텍스트 프롬프트를 추가하여 병징 특성과 환경 조건을 다양화하였다.
편집 과정에서 3D 합성 이미지는 단순 학습용 데이터셋을 넘어, 그림 5와 같이 VLM의 레퍼런스(reference) 이미지로도 활용되었다. 즉, Blender로 구축한 고품질 이미지를 기반으로 VLM이 병반의 모양, 색상, 조도 반응 등을 재구성하였다. 이 과정에서 프롬프트는 실제 검은별무늬병의 특성을 반영하였다. 예를 들어, “dark, sunken lesions of 3–15 mm,” “fungal black patches with cracks,” “water droplets highlighting lesions”과 같은 지시문을 사용하여 증상을 다양하게 표현하였다.
환경 조건 역시 프롬프트 카테고리별로 구분하여 설계하였다. 맑은 날 조건에서는 강한 햇빛과 뚜렷한 그림자를 강조하여 병반의 대비를 높였으며, 흐린 날 조건에서는 확산광을 통해 경계가 불분명한 병반을 드러냈다. 비 오는 날 조건에서는 빗방울, 젖은 표면 반사 등을 추가하여 습한 환경에서의 병징 가시성을 모사하였다. 각 조건은 3개의 프롬프트 ID 범위로 구분되었으며, 표 2와 같이 총 9개의 세부 시나리오를 설계하였다.
최종적으로 약 500장의 VLM 기반 합성 이미지를 생성하였으며, 이는 3D 렌더링 데이터셋과 상호 보완적인 역할을 수행하였다. 모든 VLM 생성 이미지는 수작업으로 Bounding box를 검수하여 탐지 모델 학습에 직접 활용할 수 있도록 구성하였다. 그림 6은 VLM을 통해 생성된 합성 데이터 결과이다.
Ⅳ. 실험 결과
본 연구에서는 제안한 합성 데이터셋의 효과성을 검증하기 위해 실제 데이터와 합성 데이터를 활용한 다양한 학습 시나리오를 설계하였다. 비교 대상은 (1) Blender 기반 합성 데이터셋, (2) Vision-Language Model(VLM) 기반 합성 데이터셋, (3) Blender와 VLM 데이터를 혼합한 데이터셋의 세 가지 구성이며, 모든 경우 동일한 탐지 모델 구조를 적용하였다.
4-1 실제 데이터 수집
실제 데이터셋은 AI-Hub에서 제공하는 배 과실 이미지 1,000장을 기반으로 구축하였다. 데이터에는 건강한 배와 검은별무늬병에 감염된 배가 모두 포함되어 있으며, 촬영 환경은 자연 과수원 조건에서 이루어졌다. 각 이미지는 주로 단일 과실이 중심에 위치하도록 구성되어, 정밀한 Bounding box 주석 작업이 가능하였다.
데이터셋은 학습용(80%)과 평가용(20%)으로 분할되었으며, 합성 데이터셋 또한 동일한 비율로 나누어 공정성을 확보하였다. 특히 합성 데이터셋은 Blender 기반 500장, VLM 기반 500장으로 각각 구성되었으며, 혼합 데이터셋은 이를 균등하게 결합하여 총 1,000장을 포함하도록 하였다.
4-2 정량적 평가
합성 데이터셋 기반 학습 성능을 정량적으로 비교하기 위해 YOLOv8n을 사전학습된 백본으로 사용하고, 동일한 학습 하이퍼파라미터(epoch 50, batch size 32, learning rate 0.001) 조건에서 파인튜닝을 수행하였다. 표 3은 실제(real) 데이터셋과 세 가지 유형의 합성 데이터셋(Blender, VLM, Mixed)을 이용하여 학습한 모델의 정밀도(Precision), 재현율(Recall), 평균정밀도(mAP)를 비교한 결과를 나타낸다.
실험 결과, VLM 기반 합성 데이터셋을 활용한 경우 정밀도 0.755, 재현율 0.701, mAP 0.750으로 가장 높은 성능을 기록하였다. 이는 VLM 기반 이미지 편집 과정이 실제 환경에서 관찰되는 병징의 형태적 불규칙성과 조명 변화, 다양한 배경 조건 등을 효과적으로 반영한 결과로 해석된다.
한편, 실제(real) 데이터셋 기반 학습은 정밀도 0.72, 재현율 0.71, mAP 0.73을 기록하였다.
주목할 점은, VLM 데이터셋의 성능이 실제 데이터보다 mAP 기준 2.0% 높게 나타났다는 점으로, 이는 제안된 합성 데이터 생성 기법이 실제 데이터의 역할을 충분히 보완하거나 대체할 수 있는 가능성을 보여준다.
반면, Blender 기반 데이터셋은 정밀도 0.539, mAP 0.512로 가장 낮은 성능을 나타냈으며, 이는 3D 렌더링만으로는 병징의 세밀한 시각적 변이와 복잡한 표면 질감을 충분히 재현하는 데 한계가 있음을 시사한다.
그러나 Blender와 VLM 데이터를 혼합한 Mixed 데이터셋은 mAP 0.723으로 Blender 단독 대비 크게 개선된 성능을 보였다. 이는 VLM 편집이 Blender 기반 렌더링 데이터의 시각적 다양성을 보완함으로써 두 방식이 상호 보완적으로 작용한 결과로 판단된다.
4-3 정성적 평가
정량적 지표와 더불어, 합성 데이터셋 기반 모델들의 실제 탐지 결과를 정성적으로 비교하였다. 그림 7은 Blender 데이터 기반 모델, VLM 데이터 기반 모델, 그리고 Mixed 데이터 기반 모델을 대상으로 합성 및 실제 테스트 데이터에 대한 탐지 결과를 제시한다.
Blender 데이터 기반 모델은 합성 데이터에서는 병징을 일정 수준 탐지했으나, 실제 테스트 데이터에서는 정상 과실을 병해로 잘못 탐지하는 오류가 발생하였다. 이는 Blender 기반 합성 데이터가 실제 환경의 시각적 변이를 충분히 반영하지 못했기 때문으로 해석된다.
반면, VLM 데이터 기반 모델은 합성 및 실제 데이터 모두에서 가장 안정적인 탐지 성능을 보였다. 합성 데이터에서는 병반의 크기와 위치를 정확히 예측하였으며, 실제 데이터에서도 강건한 탐지 결과를 나타냈다. 이는 VLM 편집 과정을 통해 실제 병징의 불규칙성과 시각적 다양성이 효과적으로 반영된 결과로 볼 수 있다.
혼합 데이터(Mixed) 기반 모델은 두 데이터셋의 장점을 일정 부분 결합하여 비교적 균형 잡힌 탐지 결과를 보였다. 합성 데이터에서는 병반의 위치와 크기를 Blender보다 안정적으로 탐지하였고, 실제 데이터에서도 Blender 모델보다 우수한 성능을 기록하였다. 그러나 세부적인 탐지 정밀도 측면에서는 VLM 모델에 비해 부족한 결과를 보였다.
이러한 정성적 분석은 정량적 결과와 일관성을 보이며, 특히 VLM 기반 합성 데이터의 효과가 실제 데이터 일반화 가능성을 보여준다. 따라서 VLM 기반 합성 데이터셋은 실제 병해 탐지 모델 학습에 있어 중요한 데이터로 활용될 수 있음을 확인할 수 있다.
추가적으로 모델이 실제 환경에서 병징 영역을 어떻게 인식하고 있는지를 분석하기 위해, 가장 우수한 성능을 보인 VLM 데이터 기반 학습 모델을 대상으로 실제 테스트 이미지에 대해 EigenCAM을 활용하여 시각화 분석을 진행하였다. 그림 8은 정상 과실과 병징 과실 각각에 대한 모델의 활성화 영역을 나타낸 결과이다.
(a)와 같은 정상 과실의 경우 과실 외곽이나 배경 영역에 대한 활성화가 거의 나타나지 않았으며, 이는 모델이 병징이 없는 영역에 불필요하게 반응하지 않음을 의미한다. 병징이 존재하는 (b) 이미지에서는 병반이 위치한 과실 표면에 강한 활성화가 집중되었고, 병반의 형태적 경계를 따라 주의 영역이 더 붉게 형성되는 경향을 보였다.
또한 상대적으로 빛을 받지 못하는 이미지에서도 병징 부위에 대한 활성화가 안정적으로 유지되었으며, 이는 VLM 합성 데이터로 학습된 모델이 실제 환경의 시각적 변이를 효과적으로 일반화하고 있음을 보여준다. 특히 병반의 크기나 위치가 다양한 사례에서도 유사한 주의 분포가 관찰되어, 제안된 학습 데이터의 다양성이 모델의 인식 일관성 향상에 기여하였음을 확인하였다. 데이터를 잘 얻지 못하는 환경을 위해 본 연구에서 제안한 합성 데이터셋 구축이 실제 병징의 형태적·질감적 특징을 파악하는데 효과적임을 확인 할 수 있다.
추가적으로, 제안된 모델의 일반화 가능성을 검증하기 위해 해외 지역에서 촬영된 배 과실 이미지를 대상으로 추론 및 EigenCAM 기반 시각화 분석을 수행하였다. 그림 9는 서양 배에 대한 RGB 원본 이미지, 탐지 결과, 그리고 활성화 영역(activation map)을 각각 비교한 예시를 나타낸다.
본 연구의 모델은 학습에 사용되지 않은 도메인인 서양 배에서도 병징 중심부와 경계부에 안정적으로 주의를 집중하며, 실제 병반 영역을 일관되게 탐지하는 경향을 보였다. 이는 제안된 합성 데이터 기반 학습이 특정 지역 데이터에 편향되지 않고, 다양한 품종·조명·배경 조건에서도 강건한 특징 표현을 학습했음을 보여준다.
Ⅴ. 결 론
본 연구에서는 배 과실 병해 탐지를 위한 합성 데이터 생성 프레임워크를 제안하였다. 제안된 방법은 3D 렌더링을 통한 고품질 합성 이미지 생성과 더불어, Vision-Language Model(VLM)을 활용한 이미지 합성을 병행함으로써 실제 환경에서 발생할 수 있는 다양한 병징 패턴과 배경 조건을 효과적으로 반영하였다.
실험 결과, VLM 기반 합성 데이터는 Blender 기반 합성 데이터에 비해 정밀도(Precision), 재현율(Recall), 평균정밀도(mAP) 등 주요 성능 지표에서 더 우수한 성능을 보였다. 이는 VLM 편집 과정에서 실제 병징의 불규칙성, 조명 변화, 과실의 가림(occlusion) 등 현실적인 요인이 반영되었기 때문으로 해석된다. 또한 Blender와 VLM 기반 데이터를 혼합하여 학습할 경우 두 데이터셋의 상호보완적 특성이 작용하여 전체적인 탐지 성능이 향상되는 경향을 확인하였다.
정성적 분석 결과에서도, VLM 기반 합성 데이터로 학습된 모델이 실제 테스트 이미지에서 보다 강건한 탐지 성능을 유지함을 확인하였다. 이는 본 연구의 합성 데이터 생성 기법이 실제 현장 데이터가 부족한 상황에서도 높은 일반화 성능을 확보할 수 있음을 시사한다. 특히 본 연구의 접근은 과실 병해뿐만 아니라 잎과 같은 식물 부위의 병징 탐지에도 확장 가능성이 크다. 잎은 조명, 방향, 중첩 등 외부 요인의 영향을 크게 받기 때문에, 본 연구의 프레임워크를 적용할 경우 다양한 환경 변화에 대응할 수 있는 보다 강건한 병해 탐지 모델 개발이 가능하다.
향후 연구에서는 제안된 합성 데이터 생성 프레임워크를 다양한 과수 품종과 병해 유형뿐만 아니라 잎 질병 탐지 영역으로 확장하여 그 범용성과 적용성을 검증할 예정이다. 또한 심사 의견을 반영하여, 조명 변화가 병해 탐지 결과에 미치는 영향을 보다 체계적으로 분석하고, 실제 농업 환경에서 발생하는 다양한 광원 조건을 합성 과정에 더욱 정교하게 반영할 계획이다.
아울러, 합성 데이터와 실제 데이터를 효과적으로 융합하기 위한 도메인 적응(domain adaptation) 및 반지도 학습(semi-supervised learning) 기반의 학습 전략을 병행한다면, 보다 안정적이고 실용적인 농업용 인공지능 모델 개발이 가능할 것으로 기대된다.
Acknowledgments
이 논문은 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원-정보통신방송혁신인재양성사업의 지원을 받아 수행된 연구임(IITP-2025-RS-2023-00266605)
References
- FarmHannong. 2024 Pear Cultivation Technical Information [Internet]. Available: https://www.farmhannong.com/files/promotion/2024/2/202402051117057190.pdf, .
-
E. D. Choi, J. Song, and H.-J. Seo, “Characteristics and Control of Pear Scab (Venturia nashicola): A Review,” Research in Plant Disease, Vol. 29, No. 2, pp. 101-107, March 2023.
[https://doi.org/10.5423/RPD.2023.29.2.101]
-
K. Won, E. D. Choi, K. Kim, H. W. Jung, I. S. Shin, S. Hong, C. Segonzac, and Y. J. Kim, “An Alternative Method to Evaluate Resistance to Pear Scab (Venturia nashicola),” The Plant Pathology Journal, Vol. 39, No. 2, pp. 228-233, March 2023.
[https://doi.org/10.5423/PPJ.NT.01.2023.0006]
-
Y. Li, X. Feng, Y. Liu, and X. Han, “Apple Quality Identification and Classification by Image Processing Based on Convolutional Neural Networks,” Scientific Reports, Vol. 11, 16618, August 2021.
[https://doi.org/10.1038/s41598-021-96103-2]
-
U. Shruthi, K. S. Narmadha, E. Meghana, D. N. Meghana, K. P. Lakana, and M. P. Bhuvan, “Apple Varieties Classification Using Light Weight CNN Model,” in Proceedings of 2022 4th International Conference on Circuits, Control, Communication and Computing (I4C), Bangalore, India, December 2022.
[https://doi.org/10.1109/I4C57141.2022.10057703]
-
A. Pratondo and A. Novianty, “Pear Classification Using Machine Learning,” in Proceedings of 2022 IEEE 10th Conference on Systems, Process & Control (ICSPC), Malacca, Malaysia, December 2022.
[https://doi.org/10.1109/ICSPC55597.2022.10001782]
-
J. J. Bird, C. M. Barnes, L. J. Manso, A. Ekárt, and D. R. Faria, “Fruit Quality and Defect Image Classification with Conditional GAN Data Augmentation,” Scientia Horticulturae, Vol. 293, 110684, February 2022.
[https://doi.org/10.1016/j.scienta.2021.110684]
-
J. R. Olatunji, G. P. Redding, C. L. Rowe, and A. R. East, “Reconstruction of Kiwifruit Fruit Geometry Using a CGAN Trained on a Synthetic Dataset,” Computers and Electronics in Agriculture, Vol. 177, 105699, October 2020.
[https://doi.org/10.1016/j.compag.2020.105699]
-
A. Muhammad, Z. Salman, K. Lee, and D. Han, “Harnessing the Power of Diffusion Models for Plant Disease Image Augmentation,” Frontiers in Plant Science, Vol. 14, 1280496, November 2023.
[https://doi.org/10.3389/fpls.2023.1280496]
-
I. M. Motoi, V. Belli, A. Carpinto, D. Nardi, and T. A. Ciarfuglia, “Synthetic Data Generation for Anomaly Detection on Table Grapes,” Smart Agricultural Technology, Vol. 10, 100787, March 2025.
[https://doi.org/10.1016/j.atech.2025.100787]
-
J. Vuletić, M. Polić, and M. Orsag, “Procedural Generation of Synthetic Dataset for Robotic Applications in Sweet Pepper Cultivation,” in Proceedings of 2022 International Conference on Smart Systems and Technologies (SST), Osijek, Croatia, October 2022.
[https://doi.org/10.1109/SST55530.2022.9954643]
-
R. Sapkota and M. Karkee, “Improved YOLOv12 with LLM-Generated Synthetic Data for Enhanced Apple Detection and Benchmarking against YOLOv11 and YOLOv10,” arXiv:2503.00057, , February 2025.
[https://doi.org/10.48550/arXiv.2503.00057]
-
J. Duan, L. Lai, Z. Yang, Z. Luo, and H. Yuan, “Multi-Feature Language-Image Model for Fruit Quality Image Classification,” Computers and Electronics in Agriculture, Vol. 227, Part 1, 109462, December 2024.
[https://doi.org/10.1016/j.compag.2024.109462]
-
T. Ohm, A. Karjus, M. V. Tamm, and M. Schich, “Fruit-SALAD: A Style Aligned Artwork Dataset to Reveal Similarity Perception in Image Embeddings,” Scientific Data, Vol. 12, 254, February 2025.
[https://doi.org/10.1038/s41597-025-04529-4]
2024년:중앙대학교 (공학석사-영상학과)
2023년~2025년: 중앙대학교 첨단영상대학원 영상학과 석사과정
2025년~현 재: 중앙대학교 응용예술공학과 박사과정
※관심분야:확장 현실(eXtended Reality), 멀티 모달(Multi Modal), 시각-언어 모델 (VLM), 생성 모델(Generative Model)
2018년:중앙대학교 (미술학사-한국화과, 게임콘텐츠·애니메이션과)
2018년~2025년: 중앙대학교 한국화과. 게임콘텐츠 애니메이션 학과 학사과정
2025년~현 재: 중앙대학교 응용예술공학과 석사과정
※관심분야:정서 게임 컴퓨팅(Affective Game Computing) 등
2024년:중앙대학교 (공학학사-컴퓨터예술학부)
2020년~2024년: 중앙대학교 컴퓨터예술학부 학사과정
2024년~현 재: 중앙대학교 응용예술공학과 석사과정
※관심분야:웹 개발(Web Development), 거대 언어 모델(LLM), 데이터 시각화(Data Visualization) 등
1998년:중앙대학교 (공학학사-컴퓨터공학과)
2000년:중앙대학교 (공학석사-영상공학과)
2010년:중앙대학교 (공학박사-영상공학과)
2013년~2016년: 한국전자통신연구원, 선임연구원
2016년~2019년: 성결대학교 미디어소프트웨어학부 조교수
2019년~현 재: 중앙대학교 예술공학대학 정교수
※관심분야:컴퓨터 그래픽스(Computer Graphics), 비사실적 렌더링(NPR), 확장 현실(eXtended Reality) 등









