Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 8, pp.2213-2223
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Aug 2025
Received 30 Jun 2025 Revised 30 Jul 2025 Accepted 01 Aug 2025
DOI: https://doi.org/10.9728/dcs.2025.26.8.2213

CPEL을 활용한 Stable Diffusion, DALL·E, MidJourney 비교 연구: 고급 초콜릿 브랜드 광고 캠페인 이미지 제작 사례를 중심으로

강지영*
이화여자대학교 커뮤니케이션·미디어학부 교수
Comparative Analysis of Stable Diffusion, DALL·E, and MidJourney Based on Common Prompt Engineering Language: Focused on Premium Chocolate Brand Advertising Image Creation
Jiyoung Kang*
Professor, Division of Communication & Media, Ewha Womans University, Seoul 03760, Korea

Correspondence to: *Jiyoung Kang Tel: +82-2-3277-2266 E-mail: kangjiyoung@ewha.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 생성형 인공지능 이미지 생성 도구인 Stable Diffusion, DALL·E, MidJourney의 프롬프트 엔지니어링 방식을 비교하고, 플랫폼 간 프롬프트 불일치 문제를 해결하기 위한 표준화 프레임워크인 CPEL(Common Prompt Engineering Language)을 제안한다. CPEL은 각 모델의 고유한 입력 구조와 출력 특성을 반영하여 최소한의 수정으로 고품질 이미지를 생성할 수 있도록 설계되었다. 본 연구는 고급 초콜릿 브랜드 광고 이미지 제작 사례를 통해 CPEL의 효과를 검증하였다. 실험 결과, CPEL 기반 프롬프트는 명확성, 시각적 디테일, 감성 표현 측면에서 기존 프롬프트보다 우수한 성과를 보였다. 또한 각 모델은 서로 다른 시각적 강점을 나타냈으며, 맞춤형 프롬프트 전략의 중요성이 강조되었다. 이러한 결과는 CPEL이 생성형 AI 기반 콘텐츠 제작 환경에서 실용적이고 확장 가능한 표준으로 기능할 수 있음을 시사한다.

Abstract

This study compares the prompt engineering mechanisms of generative Artificial Intelligence (AI) image tools—Stable Diffusion, DALL·E, and MidJourney—and proposes a standardized framework called the Common Prompt Engineering Language (CPEL) to resolve prompt inconsistency across platforms. CPEL incorporates the unique input structure and output traits of each model, allowing users to create high-quality images with minimal modifications. Its effectiveness was evaluated through a case study involving advertising image generation for a premium chocolate brand. The results showed that CPEL-based prompts outperformed native prompts in terms of clarity, visual detail, and emotional expression. Additionally, each model displayed distinct visual strengths, highlighting the importance of tailored prompt strategies. These findings suggest that CPEL is a practical and scalable solution for prompt standardization in generative AI, offering valuable benefits for creative industries such as advertising, branding, and content production.

Keywords:

Generative Artificial Intelligence, Prompt Engineering, Common Prompt Engineering Language, Image Generation, Advertising Content

키워드:

생성형 인공지능, 프롬프트 엔지니어링, 이미지 생성, 광고 콘텐츠

Ⅰ. 서 론

1-1 연구 배경

생성형 인공지능(Generative AI)은 텍스트, 이미지, 영상 등 창작의 다양한 영역에서 새로운 가치를 창출하며, 예술과 산업 전반에 걸쳐 혁신적 변화를 이끌고 있다. 특히 AI로 생성된 이미지가 예술 작품으로 인정받고 경매에서 높은 가격에 판매된 사례들은 생성형 인공지능 기술의 잠재력을 입증한다. 예를 들어, Obvious 팀이 개발한 “Portrait of Edmond de Belamy”는 2018년 크리스티(Christie’s) 경매에서 약 43만 달러에 낙찰되며 AI가 예술적 도구로 주목받는 계기가 되었으며[1], 비플(Beeple)의 “Everydays: The First 5000 Days”는 2021년 크리스티 경매에서 6,930만 달러에 판매되어 디지털 아트의 새로운 가능성을 제시하였다[2].

최근에는 인공지능 기술의 발달과 함께 생성형 AI의 활용이 예술 영역을 넘어 산업 전반으로 확대되고 있다. 광고 제작, 뉴스 이미지 생성, 게임 디자인, 영화 특수효과 등 다양한 분야에서 생성형 AI는 창작 효율성과 비주얼 완성도를 동시에 향상시키는 역할을 하고 있다. 예컨대 DALL-E와 MidJourney는 소셜 미디어 광고 캠페인에서 맞춤형 비주얼 자료 제작에 활용되며 그 창의성과 속도 면에서 주목받고 있다[3]. 또한 로이터(Reuters)와 뉴욕타임스(The New York Times)는 AI 기반 이미지 생성 툴을 활용해 뉴스 시각 자료를 빠르게 제작하고 있으며, 이를 통해 제작 시간 단축과 독자 경험 향상이라는 효과를 얻고 있다[4]. 국내에서도 조선일보와 한겨레신문 등 주요 언론이 AI로 생성된 이미지를 뉴스 콘텐츠에 활용하고 있어, 생성형 AI의 실질적 응용 가능성을 확인할 수 있다[5].

그러나 생성형 AI의 활용 가능성이 빠르게 확장되고 있음에도 불구하고, 이를 효과적으로 운용하기 위한 체계적인 연구는 여전히 미흡한 실정이다. 첫째, 기존 연구는 개별 도구의 기능 분석에 국한되는 경향이 있으며[6], 다양한 모델 간의 차이점이나 공통점을 비교하거나 통합적으로 접근한 연구는 드물다. 둘째, 생성형 AI 도구에서 일관된 품질의 결과물을 얻기 위해 요구되는 프롬프트 작성 방식은 각기 다르며, 이를 조정하거나 통합할 수 있는 표준화된 가이드라인은 부재하다[7],[8]. 그 결과 사용자는 반복적인 시행착오를 겪게 되며, AI 도구의 활용 효율성도 제한된다. 셋째, 생성형 AI가 광고, 예술, 언론 등 다양한 산업에서 적용되고 있음에도 불구하고[9],[10], 산업별 특성이나 콘텐츠 요구에 맞는 프롬프트 최적화 방안에 대한 연구는 부족하다. 이러한 한계는 생성형 AI의 잠재력을 충분히 활용하지 못하게 하며, 기술의 확산과 창작 과정의 효율성 제고에도 걸림돌이 되고 있다.

1-2 연구 목적

본 연구의 목적은 Stable Diffusion, DALL-E, MidJourney 등 주요 생성형 AI 기반 이미지 제작 도구에서 사용되는 프롬프트의 특성을 체계적으로 분석하고, 이를 기반으로 통합적이며 유연한 프롬프트 설계 방법을 제안하는 것이다. 이를 통해 다양한 AI 도구를 효율적으로 활용할 수 있는 일관된 사용자 경험을 제공함과 동시에, 각 도구의 고유한 강점을 최대로 활용할 수 있는 창작 환경을 구축하는 데 기여하고자 한다.

우선, 본 연구는 세 가지 주요 생성형 AI 도구의 프롬프트 작성 방식을 비교·분석하여, 도구 간의 공통점과 차별화된 강점을 파악하였다. 이를 바탕으로 공통 프롬프트 엔지니어링 언어(CPEL, Common Prompt Engineering Language)를 설계하고, 이를 통해 각 모델의 특성과 기능에 최적화된 프롬프트 작성 절차를 제안한다. 이러한 과정은 사용자가 다양한 AI 도구 간의 전환을 더 유연하게 수행할 수 있도록 지원하며, 각 모델의 장점을 극대화할 수 있는 기반을 제공한다.

또한, 고급 초콜릿 브랜드 광고 캠페인 이미지 제작 사례를 통해 CPEL의 실효성을 검증하였다. 이 사례에서는 동일한 공통 프롬프트를 기반으로 세 가지 AI 도구를 활용하여 이미지를 생성하고, 그 결과물을 전문가 평가와 소비자 반응을 통해 비교 분석하였다. 그 결과 Stable Diffusion은 사실적 디테일과 고해상도로 품질을 강조하였으며, DALL-E는 창의적이고 상징적인 이미지를, MidJourney는 감각적이고 몽환적인 비주얼을 통해 정서적 연결을 강화하였다.

궁극적으로 본 연구는 CPEL을 통해 생성형 AI 도구의 접근성과 일관성을 높이고, 사용자 학습 부담을 줄이며, 창작 과정에서 생산성과 만족도를 향상시키는 것을 목표로 한다. 이는 AI 기반 창작 활동의 확장성과 기술의 산업적 응용 가능성을 실증적으로 입증하고, 향후 생성형 AI 활용의 전략적 방향성을 제시하는 기초 자료가 될 것이다.


Ⅱ. 주요 생성형 AI 도구 및 기술 개요

최근 생성형 인공지능(Generative AI)의 발전과 함께, 텍스트 입력을 바탕으로 이미지를 자동 생성하는 텍스트-이미지 변환 기술이 빠르게 확산되고 있다. 이 기술은 주로 트랜스포머(Transformer), 확산 모델(Diffusion Model), CLIP 임베딩 등의 딥러닝 아키텍처를 기반으로 하며, 사용자의 자연어 텍스트를 고차원 표현 공간에서 분석하여 창의적이고 고해상도의 시각 자료를 생성한다[11]-[13]. 이러한 생성형 AI는 단순한 콘텐츠 자동화를 넘어, 광고, 예술, 뉴스, 게임 등 다양한 디지털 콘텐츠 산업에서 시각 창작의 접근성과 효율성을 동시에 향상시키고 있다[14].

이러한 흐름 속에서 주목받고 있는 대표적인 텍스트-이미지 생성 도구로는 Stable Diffusion, DALL·E, MidJourney가 있으며, 이들은 공통적으로 자연어를 시각화한다는 기능적 유사성을 가지지만, 기술 기반, 프롬프트 해석 방식, 생성 스타일, 플랫폼 구조에서 명확한 차이를 보인다.

2-1 Stable Diffusion

Stable Diffusion은 Stability AI가 개발한 오픈소스 기반 텍스트-이미지 생성 모델로, Latent Diffusion Model (LDM) 구조와 CLIP(Contrastive Language–Image Pretraining) 임베딩을 활용한다. 이 모델은 고해상도 이미지 생성에 특화되어 있으며, 텍스트 프롬프트를 통해 구도, 색상, 조명, 스타일 등의 세부 요소를 정밀하게 제어할 수 있다. 시드(seed) 값 조절을 통해 동일한 프롬프트에서 다양한 결과물을 생성할 수 있으며, 오픈소스 특성상 커스터마이징과 재학습이 자유로워 창작 실험 및 연구 개발에 폭넓게 활용되고 있다[15].

2-2 DALL·E

DALL·E는 OpenAI가 개발한 생성형 AI로, 트랜스포머 기반 아키텍처를 사용하여 텍스트와 이미지 간의 복합적 의미 관계를 정밀하게 학습한다. “an armchair shaped like an avocado”와 같은 상징적이거나 비현실적인 요청도 높은 시각적 충실도로 반영하는 점에서 창의적 이미지 생성에 최적화되어 있다. 최신 버전인 DALL·E 2는 이미지 내 특정 영역을 수정하거나 확장할 수 있는 Inpainting 기능을 제공하며, 직관적인 프롬프트 반응성과 높은 접근성 덕분에 교육, 마케팅, 스토리텔링 콘텐츠 제작에 널리 활용되고 있다[16].

2-3 MidJourney

MidJourney는 MidJourney Inc.에서 개발한 예술 중심의 생성형 AI 도구로, 감성적이고 몽환적인 스타일의 이미지 생성에 강점을 가진다. 기술적으로는 확산 모델 계열에 속하지만, 자체적인 미학적 필터링 및 후처리 알고리즘을 통해 프롬프트를 예술적으로 재해석한다. 예를 들어, “in the style of Impressionism”이나 “a surreal forest with glowing lights”와 같은 표현이 포함되었을 때, 색채와 조명, 질감 등이 시각적으로 독창적인 방식으로 구현된다. 플랫폼은 Discord 기반 커뮤니티 인터페이스를 중심으로 구성되어 있어, 실시간 피드백과 반복 생성, 버전 비교 등 사용자-AI 간 협업 환경을 제공한다[17].

이처럼 세 도구는 모두 강력한 이미지 생성 성능을 바탕으로 비전문가도 직관적으로 사용할 수 있는 콘텐츠 제작 도구로 자리잡았으며, 프롬프트 엔지니어링의 적용 효과를 비교하고 공통 설계 원리를 도출하는 데 있어 이상적인 연구 대상이 된다.

Comparative overview of major text-to-image generative AI tools

표 1과 같이, 세 모델은 모두 프롬프트 기반 이미지 생성을 수행하지만, 표현력, 프롬프트 엔지니어링 전략, 사용성 측면에서 각기 다른 장점과 한계를 보인다. 이에 따라 사용자는 목적에 맞는 도구를 선택해야 하며, 동시에 도구 간 프롬프트 설계 방식의 차이로 인해 학습 비용이 높아지는 문제가 존재한다. 본 연구는 이에 대한 대안으로 통합형 프롬프트 설계 언어(CPEL: Common Prompt Engineering Language)를 제안하고자 한다.

2-4 생성형 AI의 원리와 주요 기술

1) 프롬프트 엔지니어링의 정의

프롬프트 엔지니어링은 생성형 인공지능(Generative AI) 모델에서 사용자의 텍스트 입력(프롬프트)을 구조화하고 최적화하여 AI가 의도에 부합하는 결과물을 생성하도록 유도하는 기술이다. 생성형 AI는 입력된 텍스트를 고차원 표현 공간(latent space)에서 해석하고, 그 결과로 텍스트, 이미지, 음성 등 다양한 형식의 콘텐츠를 생성한다. 이 과정에서 프롬프트의 구체성, 문맥성, 표현 구조는 생성 결과의 품질과 스타일을 결정짓는 핵심 요소로 작용한다[18],[19].

프롬프트 엔지니어링은 단순한 명령어 입력을 넘어, AI와 인간 간 협업을 매개하는 창작 인터페이스로 기능한다. 사용자는 구조화된 텍스트를 통해 자신의 의도를 명확히 전달하고, AI는 이를 기반으로 반복적인 생성과 피드백을 통해 점진적으로 결과를 개선해 나간다. 특히 Stable Diffusion, DALL·E, MidJourney와 같은 텍스트-이미지 생성 모델에서는 프롬프트를 통해 스타일, 색감, 조명, 디테일 등 주요 시각 요소를 정밀하게 조정할 수 있기 때문에, 프롬프트 설계의 중요성이 더욱 강조된다[20].

최근 연구에서는 프롬프트 엔지니어링을 하나의 비형식적 창작 기술로 정의하며, 이는 단순한 도구 조작 능력을 넘어, 사용자가 스타일 어휘와 표현 전략을 학습해 나가야 하는 새로운 형태의 디지털 문해력으로 간주한다[15]. 이에 따라 프롬프트 엔지니어링은 예술, 디자인, 마케팅, 교육 등 다양한 분야에서 생성형 AI 활용의 진입 장벽을 낮추고, 창작의 접근성과 생산성을 동시에 향상시키는 핵심 기술로 부상하고 있다.

2) Stable Diffusion, DALL-E, MidJourney 프롬프트 엔지니어링의 공통점

Stable Diffusion, DALL·E, MidJourney는 텍스트 입력을 기반으로 이미지를 생성하는 대표적인 생성형 AI 모델로, 프롬프트 엔지니어링이 결과물의 품질과 스타일을 결정하는 핵심 요소로 작용한다. 세 모델은 각각 고유한 생성 방식과 표현 특성을 지니고 있지만, 공통적으로 구체적인 프롬프트를 통해 이미지의 디테일과 표현 수준을 정밀하게 제어할 수 있으며, 스타일, 색감, 조명 등의 속성 조정도 가능하다. 또한 이들 모델은 고차원 표현 공간에서 텍스트와 이미지 간 연관성을 학습하여, 단순한 변환을 넘어 창의적이고 예술적인 결과물을 생성한다는 점에서도 유사성을 보인다. 특히 반복적인 입력 수정과 테스트를 통해 사용자가 원하는 이미지를 점진적으로 완성해 나가는 과정은 인간과 AI 간의 협력적 창작 구조를 가능하게 하며, 이는 생성형 AI가 창의적 도구로 활용될 수 있는 잠재력을 보여준다.

3) Stable Diffusion, DALL-E, MidJourney 프롬프트 엔지니어링의 차이점

위와 같이 Stable Diffusion, DALL-E, MidJourney는 모두 프롬프트를 기반으로 이미지를 생성하며, 프롬프트 설계 과정에서 공통된 원칙을 공유하지만, 아래 표 2와 같이 프롬프트 작성 방식과 결과물의 특성에서 뚜렷한 차이를 보인다.

Prompt writing approaches and output characteristics by tool

Stable Diffusion은 프롬프트의 구체성을 바탕으로 사실적이고 실용적인 이미지를 생성하며, 오픈소스 기반으로 커스터마이징과 재학습이 가능해 연구와 실험에 적합하다. 반면, DALL-E는 창의적이고 비현실적인 조합을 처리하는 데 강점이 있으며, 고해상도 이미지 생성과 편집 기능을 통해 사용자의 요구를 반영할 수 있다. MidJourney는 감각적이고 예술적인 스타일의 이미지 생성에 특화되어 있으며, 사용자의 프롬프트를 창의적이고 몽환적으로 재해석하는 데 강점이 있다.

이러한 모델별 차이로 인해 사용자들은 각 모델의 특성에 맞춘 프롬프트 작성 방식을 습득해야 하며, 학습 시간과 노력이 필요하다. 즉, 사용자가 특정 모델의 프롬프트 작성법을 별도로 학습해야 한다는 점에서 학습 시간과 노력이 소요된다는 한계가 있다는 것이다. 각 모델이 고유한 강점과 스타일을 가지고 있지만, 사용자 경험 측면에서 통일된 프롬프트 작성법이 부재하기 때문에 각 모델의 특성에 맞는 프롬프트 작성 방식에 대한 추가적인 학습이 필수적이었다.


Ⅲ. 공통 프롬프트 엔지니어링 언어(CPEL)의 설계

Stable Diffusion, DALL-E, MidJourney와 같은 주요 텍스트-이미지 생성형 AI 도구는 각기 다른 프롬프트 작성 방식을 요구하며, 이는 사용자 경험과 학습 곡선에 큰 영향을 미친다. 사용자는 모델별로 상이한 프롬프트 규칙을 익혀야 하므로 학습 부담이 가중되고, 창작 과정의 효율성이 저하되는 문제가 발생한다. 이러한 한계를 극복하기 위해 본 연구는 공통 프롬프트 엔지니어링 언어(CPEL, Common Prompt Engineering Language)의 개념적 설계를 제안한다.

3-1 CPEL 설계 목표

1) 표준화

Stable Diffusion, DALL-E, MidJourney는 각각 고유한 프롬프트 작성 방식을 요구하므로, 사용자는 모델마다 별도의 학습을 필요로 한다. 이러한 문제를 해결하기 위해 CPEL은 세 모델 간 공통 요소를 기반으로 프롬프트 구조를 통합하여, 모델 간 전환 시 발생하는 학습 부담을 줄이는 것을 목표로 한다. 이를 통해 사용자는 동일한 프롬프트 형식을 활용하여 다양한 모델에서 최적의 결과를 생성할 수 있을 것이다.

2) 직관성

CPEL은 초보자부터 전문가까지 폭넓은 사용자층이 쉽게 이해하고 활용할 수 있도록 설계한다. 간결하면서도 유연한 텍스트 구조와 키워드 사용 방식을 통해, 사용자가 자신이 원하는 스타일, 색감, 조명, 디테일을 명확히 전달할 수 있는 도구를 제공한다. 특히, 일반적인 언어 패턴을 따르면서도 AI 모델의 특성을 반영한 키워드 가이드를 제공하여, 사용자 의도와 결과물 간의 격차를 최소화한다.

3) 확장성

CPEL은 Stable Diffusion, DALL-E, MidJourney를 포함한 현재의 주요 생성형 AI 모델뿐만 아니라, 향후 개발될 모델에도 적용 가능한 범용 언어로 설계된다. 이를 위해 CPEL은 모델의 고유 특성을 반영하되, 새로운 알고리즘과 데이터 처리 방식에도 쉽게 적응할 수 있도록 유연성을 가지도록 한다. 또한, 다양한 응용 분야(예술, 광고, 교육, 게임 디자인 등)에서 발생할 수 있는 특수한 요구 사항을 수용할 수 있는 확장성을 확보하여, CPEL이 생성형 AI 생태계의 중심 도구로 자리잡을 수 있도록 한다.

3-2 CPEL 설계 과정

1) 공통 요소 식별

CPEL의 설계는 다양한 생성형 AI 모델에 일관되게 적용 가능한 프롬프트 구조를 정의하는 것에서 출발한다. 특히 Stable Diffusion, DALL·E, MidJourney와 같은 주요 텍스트-이미지 생성 도구는 각기 다른 기술 기반과 프롬프트 해석 방식을 갖고 있으나, 생성 결과에 영향을 미치는 핵심 요소들은 구조적으로 유사하다. 이에 따라 본 연구는 각 모델에서 공통적으로 작동하는 시각적 표현 요소를 추출하고 이를 표준화된 프롬프트 구성 항목으로 정리하였다.

도출된 공통 요소는 총 다섯 가지로, 스타일(Style), 색감(Color Palette), 조명(Lighting), 구성(Composition), 디테일(Details)이다.

스타일은 이미지의 예술적 방향성을 규정하며, “impressionist”, “abstract”, “Baroque art”와 같은 키워드로 장르나 작가 스타일을 구체화할 수 있다. 색감은 전체적인 이미지의 분위기를 결정하며, “vibrant colors”나 “pastel tones”와 같이 감성적 반응을 유도한다. 조명은 밝기, 대비, 그림자 등 시각적 깊이에 영향을 주며, “cinematic lighting”, “dramatic shadows”와 같은 표현이 이에 해당한다. 구성은 시점, 배치, 공간의 균형과 관련되며, “centered composition”, “minimalist layout” 등으로 표현된다. 마지막으로 디테일은 해상도, 질감, 사실성 등을 포함하며, “photorealistic”, “highly detailed” 같은 키워드를 통해 표현 정밀도를 조절한다.

이러한 요소들은 다양한 모델 간 프롬프트 호환성을 높이는 동시에, 사용자가 일관된 템플릿을 기반으로 프롬프트를 설계할 수 있도록 지원한다. 아래 표 3은 각 요소의 기능과 대표 키워드를 요약한 것이다.

Common prompt elements for CPEL design

2) 모델별 고유 특성의 반영

Stable Diffusion, DALL·E, MidJourney는 모두 텍스트 기반 이미지 생성이라는 공통 기능을 수행하지만, 각 모델은 기술 아키텍처, 스타일 반영 방식, 출력 이미지의 특성에서 고유한 강점을 지닌다. 이에 따라 본 연구에서 제안하는 CPEL는 공통된 프롬프트 구조를 유지하면서도, 각 모델의 특징을 효과적으로 반영할 수 있도록 유연하게 설계되었다.

Stable Diffusion은 고해상도 및 세부 디테일 표현에 강점을 가지며, “photorealistic”, “high resolution” 등의 키워드에 민감하게 반응한다. DALL·E는 창의적 조합과 비정형적 명령어 해석에 뛰어나며, 자유로운 개념 구성을 지원한다. MidJourney는 예술적 감성과 감각적 스타일링에 특화되어 있어, “dreamlike”, “glowing” 등의 감성적 키워드가 효과적으로 작용한다. CPEL은 이러한 모델별 특성에 따라 동일한 프롬프트 구조를 기반으로 하되, 키워드 배열과 강조 항목을 유연하게 해석하여 각 도구에 최적화된 결과물을 도출할 수 있도록 구성된다. 이는 사용자에게 별도의 학습 없이도 다양한 AI 모델에서 목적에 맞는 이미지 생성이 가능하게 하며, 도구 간 전환의 장벽을 낮추는 데 기여할 수 있다.

3) 멀티모델 해석 엔진을 통한 모델별 최적화

CPEL의 실질적 작동을 구현하는 핵심 요소는 멀티모델 해석 엔진(Multi-Model Parsing Engine)이다. 이 엔진은 사용자가 입력한 표준화된 CPEL 프롬프트를 분석하고, 이를 Stable Diffusion, DALL·E, MidJourney의 고유한 프롬프트 형식에 맞게 변환 및 매핑하는 중간 계층으로 기능한다. 본 설계는 모델 간 프롬프트 호환성과 결과물 최적화를 동시에 달성하기 위한 구조적 해법을 제시하며 ① 프롬프트 분석, ② 컨텍스트 해석, ③ 모델별 매핑 및 변환, ④ 결과물 최적화의 네 단계의 처리 과정을 거친다.

• 프롬프트 분석(Prompt Analysis)

첫 단계에서는 사용자가 입력한 CPEL 프롬프트를 구조화된 요소(스타일, 색감, 조명 등)로 분해하여 키워드를 추출한다. 예를 들어, 아래 그림 1과 같은 CPEL 프롬프트를 기준으로, 해석 엔진은 각 항목을 정규화된 카테고리로 분리하며, 키워드를 사전 구축된 파싱 사전에 따라 벡터화한다. 이는 후속 모델별 매핑 과정의 기초 데이터가 된다.

Fig. 1.

CPEL prompt structure and keyword extraction process

• 컨텍스트 해석(Contextual Interpretation)

이 단계는 단순 키워드 분석을 넘어서, 각 구성 요소가 문맥적으로 어떻게 연결되는지를 이해한다. 예컨대 “glowing neon lights”는 단순한 조명 요소가 아니라, MidJourney에서는 감각적 분위기를 강조하는 키워드로, Stable Diffusion에서는 광원 배치와 밝기로 해석되어야 한다. 해석 엔진은 이에 따라 텍스트의 뉘앙스와 표현 목적을 모델별로 다르게 해석할 수 있는 컨텍스트 모델을 내장한다.

• 모델별 매핑 및 변환(Model-Specific Mapping)

분석된 CPEL 프롬프트는 각 모델의 요구사항에 맞춰 동적으로 변환된다. 예를 들어, Stable Diffusion은 “photorealistic, fine details, high resolution”을 명확히 포함하고, DALL·E는 형용사 중심의 설명형 프롬프트로 직관적 이미지 생성이 가능하도록 조정되며, MidJourney는 감성적 형용사와 예술적 스타일 키워드를 강조한 시각적 언어로 변환된다. 이 변환 과정은 사전 정의된 변환 룰셋과 모델별 템플릿 구조를 기반으로 수행되며, 결과적으로 하나의 프롬프트 입력으로 세 모델에서 각기 최적화된 출력을 가능하게 한다.

• 결과물 최적화(Output Optimization)

마지막으로, 생성된 이미지 결과물은 CPEL이 사전에 반영한 사용자 의도와 일치하는지 평가된다. 이 단계는 피드백 루프를 통해 프롬프트 재조정 권고, 모델 전환 추천, 속성 미세 조정 등의 기능을 제공함으로써 사용자가 원하는 최종 결과에 더 가까운 이미지를 얻을 수 있도록 지원한다. 장기적으로는 사용자 피드백 데이터를 반영하여 해석 엔진의 학습 성능을 개선하는 순환 구조를 구축할 수 있다.

4) 멀티모델 해석 엔진을 통한 모델별 최적화

CPEL 기반 프롬프트가 각 생성형 AI 모델에 적용된 이후에는, 생성된 이미지가 사용자 의도와 얼마나 부합하는지를 평가하고 결과물을 최적화하는 과정이 뒤따른다. 이 단계는 단순한 출력 확인을 넘어서, 생성 이미지가 프롬프트에 포함된 핵심 요소(예: 스타일, 색감, 조명, 디테일, 구도 등)를 시각적으로 충실히 반영했는지를 정량 및 정성적으로 검토하는 것을 포함한다. 또한, Stable Diffusion의 사실성, DALL·E의 창의성, MidJourney의 감성적 스타일 등 각 모델의 고유 특성에 따라 평가 항목을 차별화하여 적용할 수 있다.

이후에는 사용자 피드백을 기반으로 프롬프트 해석 로직을 개선하는 피드백 루프가 작동한다. 반복적인 평가와 수정 과정을 통해 시스템은 자동으로 보정 키워드를 제안하거나, 프롬프트 구성 방식을 최적화하여 향후 유사 입력에 대한 대응력을 높일 수 있다. 이러한 순환 구조는 CPEL이 고정된 언어 규칙을 넘어, 사용자 중심의 실시간 반응성과 적응성을 갖춘 프롬프트 시스템으로 발전하는 기반이 된다.


Ⅳ. CPEL을 활용한 광고 이미지 제작 사례

본 연구는 CPEL의 실용성과 적용 가능성을 평가하기 위해, 고급 초콜릿 브랜드 광고 캠페인 이미지 제작 사례를 활용하여 Stable Diffusion, DALL·E, MidJourney 세 가지 생성형 AI 도구에 동일한 CPEL 프롬프트를 적용한 비교 분석을 수행하였다. 광고 콘텐츠는 브랜드 메시지 전달과 시각적 감성 표현이 핵심적인 실무 영역으로, AI 기반 이미지 도출의 실질적 활용성을 검증하기에 적합한 테스트베드이다.

광고 분야에서 AI 생성 콘텐츠는 소비자 참여도와 구매 행동에 긍정적인 영향을 미친다는 실증 연구가 다수 보고되고 있다[21],[22]. 본 사례 분석은 통일된 CPEL 프롬프트를 통해 각 모델의 해석 특성과 시각적 결과를 비교함으로써, CPEL의 멀티모델 최적화 기능과 실무 활용 가능성을 검증하고자 하였다.

4-1 통일된 프롬프트 작성

본 연구에서 제시하는 광고 주제는 고급 초콜릿 브랜드의 이미지를 소비자에게 효과적으로 전달하기 위한 것으로, 브랜드의 고급스러움, 창의성, 감각적 매력을 강조하는 데 초점을 두고자 하였다. 이를 위해 CPEL을 활용하여 표준화된 프롬프트를 작성하였으며 이 프롬프트는 주제, 스타일, 색감, 조명, 디테일의 다섯 가지 공통 프롬프트 요소로 구성하였다. 아래는 통일된 프롬프트의 예이다.

"a luxurious chocolate truffle placed on a marble table in a surreal forest, photorealistic, dreamlike and ethereal, vibrant colors, glowing highlights, intricate textures."

아래 표 4는 고급 초콜릿 브랜드의 광고 이미지 제작을 위해 작성된 CPEL 프롬프트의 구성 요소를 상세히 설명한다. 이 표는 각 요소가 프롬프트에서 수행하는 역할과 목표를 명확히 설명하고 있다.

CPEL prompt components

4-2 Stable Diffusion: 사실적 디테일과 고해상도 이미지

Stable Diffusion은 고해상도 이미지 생성과 세밀한 디테일 표현에 특화된 모델로, 광고 이미지 제작에서 제품의 고급감과 신뢰성을 시각적으로 전달하는 데 효과적이다. 본 사례에서는 고급 초콜릿 브랜드 광고 캠페인을 위해 작성된 CPEL 기반 통일 프롬프트를 Stable Diffusion에 최적화된 형태로 변환하였으며, 이 과정에서 질감과 조명을 정교하게 조정하여 시각적 완성도를 높이고자 하였다. 아래 표 5는 이러한 변환 과정을 구체적으로 보여준다.

Prompt transformed for stable diffusion

이러한 변환을 통해 프롬프트는 단순한 개념어에서 구체적이고 조정 가능한 형태로 확장되었으며, 이미지에는 초콜릿의 부드러운 표면 질감과 대리석 테이블의 은은한 반사광이 효과적으로 표현되었다. 결과적으로 그림 2에 제시된 이미지와 같이 브랜드의 프리미엄 이미지를 시각적으로 강화할 수 있는 고품질 비주얼이 생성되었으며, 이는 제품 카탈로그, 웹사이트, 디지털 광고 등 실무 채널에 바로 활용 가능한 수준의 결과물이다.

Fig. 2.

Image generated with CPEL for stable diffusion

4-3 DALL-E: 창의적이고 상징적인 광고 이미지 제작

DALL·E는 비현실적이고 상징적인 조합을 시각적으로 구현하는 데 뛰어난 생성형 AI 도구로, 본 사례에서는 CPEL 기반 공통 프롬프트를 DALL·E의 특성에 맞게 창의적으로 확장하였다. 특히 고급 초콜릿 브랜드 캠페인이라는 맥락에 따라, 제품의 조형적 상징성과 감각적인 색감 표현을 극대화하는 방향으로 프롬프트를 변환하였다. 표 6은 이에 따른 변환 사례를 보여준다.

Prompt transformed for DALL-E

DALL·E의 변환된 프롬프트는 초콜릿 트러플을 꽃 모양으로 형상화하고, 숲 배경을 환상적인 분위기로 재해석함으로써 제품을 하나의 상징적 오브제로 전환하는 효과를 유도하였다. 또한 파스텔 핑크와 그린의 조화로운 색조는 브랜드 메시지를 감성적으로 전달하며, 기존의 현실적 광고 이미지와 차별화된 시각적 아이덴티티를 부여하였다.

그림 3의 결과물은 이러한 요소들이 시각적으로 조화를 이루며 구현된 사례로, 소비자의 시선을 사로잡는 창의적인 광고 비주얼로서의 가능성을 보여준다. 이는 제품의 기능적 측면을 넘어, 브랜드의 상징성과 독창적 아이덴티티를 효과적으로 전달하는 데 기여할 수 있다.

Fig. 3.

Image generated with CPEL for DALL-E

4-4 MidJourney: 감각적이고 몽환적인 광고 이미지 제작

MidJourney는 감성적이고 예술적인 스타일 구현에 특화된 생성형 AI 모델로, 본 연구에서는 CPEL 기반의 통일된 프롬프트를 MidJourney의 시각적 성향에 맞게 변환하여 몽환적이고 상징적인 광고 비주얼을 생성하였다. 특히 제품을 단순히 사실적으로 표현하기보다, 브랜드의 감각적 정체성과 정서적 메시지를 강화하는 방향으로 프롬프트를 확장하였다. 표 7은 해당 변환 과정을 구체적으로 보여준다.

Prompt transformed for midjourney

MidJourney에 최적화된 이 프롬프트는 초콜릿 트러플을 신비로운 숲 속에 떠다니는 오브제로 재해석하며, 부드러운 파스텔 톤과 빛나는 조명 효과를 통해 이미지에 감성적 깊이와 예술적 질감을 더했다.

그림 4의 결과물은 이러한 요소들이 조화를 이루며 구현된 예로, 해당 초콜릿 브랜드의 고급스러움과 감각적 이미지를 효과적으로 전달한다. 특히 이 이미지는 디지털 광고, 소셜 미디어 콘텐츠, 영상 캠페인 등에서 브랜드 정체성을 강화하는 핵심 비주얼로 활용될 수 있으며, MidJourney의 예술적 생성 방식은 단순한 시각적 표현을 넘어 소비자와의 정서적 연결을 형성하는 데 강력한 도구로 작용할 수 있다.

Fig. 4.

Image Generated with CPEL for DALL-E

4-5 Stable Diffusion, DALL-E, MidJourney 결과물의 종합 분석

본 연구는 CPEL을 기반으로 고급 초콜릿 브랜드 광고 캠페인을 위한 통합 프롬프트를 생성하고, 이를 세 가지 대표적인 생성형 AI 모델에 적용하였다. 그 결과물은 정량적 정확성 평가와 정성적 만족도 평가를 통해 비교·분석되었으며, 평가 기준은 CPEL에서 정의한 프롬프트 구성 요소와 모델별 시각적 표현 특성을 바탕으로 설정하였다.

1) 정량적 정확성 평가

전문가 20인(광고 디자이너, 마케터, 콘텐츠 기획자 등)으로 구성된 평가단은 각 모델의 결과물을 5점 척도(1점: 매우 낮음 ~ 5점: 매우 우수함)로 평가하였다(표 8). 평가지표는 Style, Color Palette, Lighting, Details, Composition의 5개 항목으로 구성되었다.

Accuracy evaluation results of CPEL-based images (expert average scores, out of 5)

2) 정성적 만족도 평가

표 9의 정성적 평가는 동일한 전문가 20인이 이미지에 대한 브랜드 부합성, 감성적 매력, 창의성 및 시선 유도력 등의 항목에 대해 서술형 의견을 제시하고, 내용 분석을 통해 주제별로 요약한 것이다.

Qualitative evaluation of CPEL-based images


Ⅵ. 결 론

본 연구는 텍스트-이미지 생성형 인공지능 도구인 Stable Diffusion, DALL·E, MidJourney의 프롬프트 구조와 시각적 결과물을 비교 분석하고, 이를 기반으로 모델 간 호환성과 창작 효율성을 높이기 위한 통합형 프롬프트 설계 언어인 CPEL(Common Prompt Engineering Language)을 개념적으로 제안하였다. 기존 생성형 AI 모델들이 각기 다른 프롬프트 형식을 요구함에 따라 발생하는 사용자 학습 부담, 결과 예측의 불확실성, 모델 간 상호 운용성 부족 등의 문제에 대응하고자, CPEL은 공통 요소 기반의 표준화된 프롬프트 구조와 모델별 최적화 전략을 동시에 제공하는 프레임워크로 설계되었다.

CPEL의 실질적 적용 가능성은 고급 초콜릿 브랜드의 광고 캠페인 이미지 제작 사례를 통해 검증되었다. 동일한 CPEL 기반 입력을 바탕으로 생성된 이미지들은 각 모델의 고유한 시각적 특성을 반영하여 상이한 광고 목적에 적합한 결과물을 도출하였다. Stable Diffusion은 사실성과 고해상도 표현을 통해 제품의 신뢰성과 품질을 강조하였고, DALL·E는 창의적 조합과 상징적 연출을 통해 브랜드의 독창성을 효과적으로 시각화하였다. MidJourney는 감성적이고 예술적인 비주얼을 통해 소비자와의 정서적 연결을 강화하며, 감각적 이미지 표현에 탁월한 성과를 보였다. 이를 통해 CPEL이 단일 프롬프트 구조 하에서도 모델 간 차별화된 표현력을 유도하며, 다중 AI 도구의 협력적 활용을 가능하게 하는 실질적 메커니즘임을 입증하였다.

그럼에도 불구하고 본 연구는 몇 가지 한계를 가진다. 첫째, 분석 대상이 Stable Diffusion, DALL·E, MidJourney 세 모델에 한정되어 있어, CPEL의 범용성을 평가하기에는 적용 범위가 제한적이다. 둘째, 사례 분석이 특정 산업 영역에 국한되어 있어, 타 산업으로의 일반화 가능성을 충분히 검토하지 못하였다. 셋째, 본 연구는 개념 설계 및 사례 중심의 탐색적 접근에 집중하였기 때문에, CPEL이 실제 사용자 학습 부담을 줄이고 활용성을 제고하는지를 실증적으로 검증하지 못한 점에서 사용자 경험 기반 평가의 필요성이 제기된다.

향후 연구에서는 이러한 한계를 보완하여, 다양한 산업 도메인에서의 CPEL 확장 적용 가능성을 검토하고, 일반 사용자 및 콘텐츠 제작 전문가를 포함한 정량·정성 기반의 사용자 실험을 통해 CPEL의 효과성과 직관성을 실증적으로 평가할 필요가 있다. 더 나아가, AI 모델 간 데이터 표현 구조의 차이를 자동으로 변환하고 조정할 수 있는 멀티모델 변환 알고리즘, 사용자 피드백 기반 프롬프트 추천 시스템, 그리고 CPEL 자동화 인터페이스 구축 등을 통해 CPEL의 기술적 실현성과 사용자 접근성을 더욱 향상시키는 것이 요구된다.

결론적으로, 본 연구는 CPEL이라는 통합 프롬프트 언어를 통해 생성형 AI의 모델 간 협업 가능성을 확장하고, 창의적 콘텐츠 제작 환경의 생산성과 예측 가능성을 제고할 수 있는 새로운 방향성을 제시하였다. CPEL은 단순한 입력 포맷을 넘어 프롬프트 설계의 패러다임 전환을 촉진하는 메타 언어로 기능할 수 있으며, 이는 생성형 AI 기술이 광고를 포함한 다양한 창의 산업에서 실질적 도구로 자리 잡는 데 기여할 수 있다. 본 연구는 AI 기술의 진화가 창의적 표현의 방식과 구조를 어떻게 재편할 수 있는지를 보여주는 사례로서, 향후 관련 연구 및 산업적 응용의 기초 자료로 활용될 수 있을 것이다.

References

  • Christie’s. “Is Artificial Intelligence Set to Become Art’s Next Medium?,” Christie’s Auction House [Internet]. Available: https://www.christies.com/en/lot/lot-6166184, .
  • Christie’s. “Results: Beeple’s Purely Digital NFT-Based Work of Art Achieves $69.3 Million at Christie’s [Internet]. Available: https://press.christies.com/results-beeples-purely-digital-nft-based-work-of-art-achieves-693-million-at-christies-1, .
  • R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models”, in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10684-10695, 2022 [https://doi.org/10.1109/CVPR52688.2022.01042]
  • Reuters. How AI Helps Power Trusted News at Reuters [Internet]. Available: https://www.reutersagency.com/en/media-center/how-ai-helps-power-trusted-news-at-reuters/, .
  • Chosun Ilbo. Example of Using AI-Generated Images in News Content [Internet]. Available: https://archive.chosun.com/sabo/sabo_ReadBody_s.jsp?Y=2024&M=01&D=13&ID=202401130102, .
  • V. Liu and L. B. Chilton, “Design Guidelines for Prompt Engineering in Text-to-Image Generative Models,” in Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems, New Orleans: LA, 384, pp. 1-23, 2022. [https://doi.org/10.1145/3491102.3501825]
  • R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans: LA, pp. 10674-10685, 2022. [https://doi.org/10.1109/CVPR52688.2022.01042]
  • J. Ho, A. Jain, and P. Abbeel, “Denoising Diffusion Probabilistic Models”, in Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver: Canada, pp. 6840-6851, 2020. https://proceedings.neurips.cc/paper/2020/file/4c5bcfec8584af0d967f1ab10179ca4b-Paper.pdf
  • N. Diakopoulos and S. Nishal, “Envisioning the Applications and Implications of Generative AI for News Media”, arXiv:2402.18835, , 2024. https://arxiv.org/abs/2402.18835
  • Matellio. How Generative AI in Advertising is Transforming the Media Industry? [Internet]. Available: https://www.matellio.com/blog/generative-ai-in-advertising/, .
  • Trackit. 7 Generative AI Use Cases for Media and Entertainment [Internet]. Available: https://trackit.io/7-generative-ai-use-cases-for-media-and-entertainment/, .
  • A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, ... and I. Polosukhin, “Attention Is All You Need,” arXiv:1706.03762, , 2017. [https://doi.org/10.48550/arXiv.1706.03762]
  • J. Ho, A. Jain, and P. Abbeel, “Denoising Diffusion Probabilistic Models,” arXiv:2006.11239, , 2020. [https://doi.org/10.48550/arXiv.2006.11239]
  • A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, ... and I. Sutskever, “Learning Transferable Visual Models from Natural Language Supervision,” arXiv:2103.00020, 2021. [https://doi.org/10.48550/arXiv.2103.00020]
  • J. Y. Kang, “Generative AI in Film Production: Analyzing the Active Role of AI in Creative and Decision-Making Processes,” Journal of Digital Contents Society, Vol. 25, No. 10, pp. 3041-3052, 2024. [https://doi.org/10.9728/dcs.2024.25.10.3041]
  • Stability AI. Stable Diffusion Launch Announcement [Internet]. Available: https://stability.ai/blog/stable-diffusion-announcement
  • OpenAI. DALL·E 2 [Internet]. Available: https://openai.com/dall-e-2
  • MidJourney. User Guide and Prompt Showcase [Internet]. Available: https://docs.midjourney.com
  • H. Patel and S. Parmar, “Prompt Engineering for Large Language Model,” ResearchGate, March 2024. [https://doi.org/10.13140/RG.2.2.11549.93923]
  • S. Vatsal and H. Dubey, “A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks,” arXiv:2407.12994, , 2024. [https://doi.org/10.48550/arXiv.2407.12994]
  • A. Ashraf, S. Muneer, and H. U. Hassan, “The Impact of AI-Generated Advertising Content on Consumer Buying Behavior and Consumer Engagement,” Bulletin of Business and Economics, Vol. 13, No. 2, pp. 1152-1157, 2024. [https://doi.org/10.61506/01.00476]
  • Axios. IBM tests Adobe’s Firefly for Personalized Marketing at Scale [Internet]. Available: https://www.axios.com/2024/03/06/ibm-tests-adobes-firefly-for-personalized-marketing-at-scale, .

저자소개

강지영(Jiyoung Kang)

2004년:Pratt Institute 컴퓨터 그래픽스 (학사)

2006년:New York University, 인터랙티브 텔레커뮤니케이션 (석사)

2013년:한국과학기술원(공학박사-인터랙션 디자인)

2022년~현 재: 이화여자대학교 커뮤니케이션·미디어학부 교수

※관심분야:가상현실(VR), 증강현실(AR), 인터랙션 디자인 등

Fig. 1.

Fig. 1.
CPEL prompt structure and keyword extraction process

Fig. 2.

Fig. 2.
Image generated with CPEL for stable diffusion

Fig. 3.

Fig. 3.
Image generated with CPEL for DALL-E

Fig. 4.

Fig. 4.
Image Generated with CPEL for DALL-E

Table 1.

Comparative overview of major text-to-image generative AI tools

Feature Stable Diffusion DALL·E MidJourney
Developer Stability AI OpenAI MidJourney, Inc.
Core Architecture Latent Diffusion Model (LDM) + CLIP Transformer + CLIP Custom Diffusion-Based Architecture
Strengths High controllability, open-source customization Creative interpretation of abstract prompts, inpainting capabilities Strong aesthetic rendering, surreal and artistic visual style
Prompt Behavior Detailed prompt tuning (style, lighting, seed control) Conceptual and symbolic prompt interpretation Artistic reinterpretation of prompt with rich textures and mood
Output Style Photorealistic, technically precise, adjustable Imaginative, semi-realistic, often symbolic Abstract, dreamy, highly stylized
Interface &Platform Local execution or web apps, open community development Web interface, integrated with ChatGPT &API Operated via Discord with real-time interactions
Use Cases Scientific visualization, product mockups, custom pipelines Marketing, education, editorial illustration Art, creative branding, emotion-driven storytelling

Table 2.

Prompt writing approaches and output characteristics by tool

Feature Stable Diffusion DALL·E MidJourney
Image Style Capable of producing various styles; excels in realistic and functional imagery Generates realistic images with creative and detailed depictions Produces sensory, artistic, and dreamlike visuals
Prompt Interpretation Faithfully reflects user input and structured prompts Strong in handling creative and surreal combinations Specialized in abstract and emotionally evocative styles
Platform &Usability Open-source platform; supports free use and extensive customization Commercial platform; provides high-resolution output and inpainting tools Discord-based interface; encourages community-driven collaboration

Table 3.

Common prompt elements for CPEL design

Element Description Example Keywords
Style Defines the artistic direction or visual genre of the image. impressionist, abstract, Baroque art
Color Palette Determines the overall mood and tone of the image through color selection. vibrant colors, pastel tones, monochromatic
Lighting Controls the contrast, brightness, and shadow to create atmosphere. cinematic lighting, dramatic shadows, soft illumination
Composition Arranges spatial balance and visual structure in the image layout. centered composition, minimalist, symmetrical layout
Details Specifies resolution, texture, and realism to enhance image precision. highly detailed, photorealistic, intricate textures

Table 4.

CPEL prompt components

Component Description Prompt Example
1. Theme Defines the central subject of the image to convey the brand message. Highlights the luxury and creativity of the chocolate truffle setting. "a luxurious chocolate truffle placed on a marble table in a surreal forest"
2. Style Determines the overall visual direction of the image. Balances realistic detail with a refined, atmospheric tone. "photorealistic, dreamlike and ethereal"
3. Color Palette Sets the overall color and mood of the image. Combines deep chocolate browns with vibrant hues to enhance appeal. "vibrant colors"
4. Lighting Establishes depth and ambiance, enhancing the luxury and texture of the product with soft, subtle lighting. "glowing highlights"
5. Details Defines the image's precision and texture to vividly express the chocolate surface and marble patterns. "intricate textures"

Table 5.

Prompt transformed for stable diffusion

Original Prompt Transformed Prompt Description
"a luxurious chocolate truffle" "a photorealistic chocolate truffle with fine textures and smooth surfaces" Enhances realism by emphasizing fine textures and smooth surfaces of the truffle.
"glowing highlights" "realistic lighting with subtle reflections" Adds soft, subtle lighting to highlight reflections on the chocolate and marble table.

Table 6.

Prompt transformed for DALL-E

Original prompt Transformed prompt Description
“a surreal forest” “a chocolate truffle shaped like a blooming flower in a whimsical forest” Creatively transforms the truffle into a flower shape to create a surreal and symbolic scene.
“vibrant colors” “playful and dynamic tones of pink and green” Highlights a vivid and eye-catching image using playful and energetic color tones.

Table 7.

Prompt transformed for midjourney

Original Prompt Transformed Prompt Description
“a luxurious chocolate truffle in a surreal forest” “a glowing chocolate truffle floating in a mystical forest with ethereal lighting“” Transforms the truffle into a floating object in a mystical forest to create a dreamy and magical atmosphere.
“dreamlike and ethereal” “soft pastel tones with luminous highlights” Enhances the emotional and artistic quality of the image using soft pastel tones and glowing highlights.

Table 8.

Accuracy evaluation results of CPEL-based images (expert average scores, out of 5)

Model Style Color Palette Lighting Details Composition
Stable diffusion 4.3 4.4 4.5 4.8 4.4
DALL·E 4.7 4.6 4.1 4.2 4.3
MidJourney 4.9 4.5 4.3 4.4 4.7

Table 9.

Qualitative evaluation of CPEL-based images

Evaluation criterion Summary of expert feedback
Brand alignment Stable Diffusion effectively conveyed premium quality and realism; DALL·E excelled in storytelling and symbolism; MidJourney was strong in emotional identity expression.
Emotional appeal MidJourney received the highest engagement. Many noted it provided a “dreamlike and emotionally rich visual experience.”
Creativity &visual impact DALL·E’s transformation of the truffle into a flower shape was highly praised. Experts repeatedly commented it had “strong visual competitiveness as a concept.”