
ChatGPT 4.0 기반 창작동화의 서사적 완성도 평가: 인간 창작자 작품과 비교 연구
Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
초록
본 연구는 생성형 AI(ChatGPT 4.0)가 창작한 동화와 인간 작가가 창작한 동화를 비교하여 서사적 일관성(Narrative Coherence)을 정량적·정성적으로 분석하였다. 동일한 주제를 기반으로 작성된 두 동화를 아동문학 및 교육 전문가 12인이 블라인드 평가하였으며, 서사적 완성도 측면에서 7가지 핵심 요소(서사적 설정, 등장인물 구성, 감정의 표현과 이해, 의미 부여 및 전달, 서사적 갈등의 전개와 해소, 서사의 일관성, 결말과 해결)를 중심으로 평가하였다. 분석 결과, AI 동화는 플롯의 논리성과 구조적 명료성 면에서 인간 작가와 유사한 평가를 받았으나, 감정 표현, 인물의 심리 묘사, 몰입 유도 측면에서는 상대적으로 낮은 점수를 보였다. 이는 생성형 AI가 정보 중심적 구조 설계에는 강점을 지니나, 문화적 맥락과 정서적 공감 구현에는 한계가 있음을 시사한다. 본 연구는 AI가 초기 서사 구성과 논리적 설계에서 인간 작가의 창의성과 결합한 협력적 창작(co-creation) 가능성을 제시한다.
Abstract
This study compares children’s stories created by ChatGPT 4.0 and those written by a human author to evaluate their narrative coherence through both quantitative and qualitative approaches. A panel of 12 experts conducted blind evaluations of the stories using seven narrative elements: introduction, character development, emotional and mental states, background integration, event-response structure, overall cohesion, and conclusion. The results show that AI-generated stories performed comparably to human-written ones in terms of structural clarity and logical plot sequencing. However, they received lower scores for emotional expressiveness, nuanced character portrayal, and narrative immersion. These findings suggest that whereas generative AI is promising for outlining, sequencing, and drafting narratives, it cannot effectively capture cultural nuance and emotional depth. This study supports the role of AI as a co-creative partner in educational storytelling.
Keywords:
Generative AI, Digital Storytelling, AI-Human Collaboration, Children's Creative Content, Creative Writing키워드:
생성형 AI, 디지털스토리텔링, AI-인간 협업, 아동 창작 콘텐츠, 창의적 글쓰기Ⅰ. 서 론
인공지능(AI, Artificial Intelligence)의 발전은 콘텐츠 제작의 효율성을 향상하며, 창의성이 요구되는 예술 및 글쓰기 분야에서도 중요한 역할을 수행하고 있다[1]. 특히, 대규모 언어 모델을 기반으로 하는 생성형 AI(Generative AI)은 인간과 유사한 수준의 언어를 생성할 수 있는 능력으로 창작 도구로써의 활용 가능성을 보여주고 있다[2]. 이러한 기술은 방대한 양의 데이터를 학습하고, 사용자의 의도를 분석하여 문맥에 맞는 창의적인 텍스트를 생성하는 데 사용된다[1].
생성형 AI가 콘텐츠 산업의 생산성과 효율성을 높이는 긍정적 효과를 지니는 한편, 윤리적·사회적 부작용에 대한 우려도 제기되고 있다[3]. 특히, AI는 인간의 정서적 경험이나 복잡한 감정의 흐름, 캐릭터 간 관계성을 온전히 이해하거나 재현하지 못한다는 한계가 존재한다[4]. 이는 기존데이터를 기반으로 반복 패턴을 생성하는 방식의 구조적 특성에서 비롯되며, 결과적으로 콘텐츠의 독창성과 감정적 몰입도에 제약을 가할 수 있다[5].
그러나 최근 연구에서는 AI가 글쓰기 과정에서 인간과 협업(co-creation)하여 아이디어를 제안하고, 이야기 구조를 설계하며, 창의성을 촉진하는 보조적 역할 수행이 가능함을 시사하고 있다[2]. 특히 교육 현장에서는 AI가 학생들의 이야기 구성, 초안 작성, 수정피드백 등의 단계에서 의미 있는 도구로 활용될 수 있으며, 창의적 글쓰기 교육의 질을 향상하는 매개체로의 기능 가능성이 제기되고 있다[6].
이에 본 연구는 ChatGPT 4.0이 생성한 동화와 인간 창작자가 작성한 동화의 서사적 완성도(narrative coherence)를 비교하여, 생성형 AI의 창작 역량과 한계를 분석하고, 교육적 글쓰기에서의 실질적 활용 가능성을 탐색하고자 한다. 본 연구는 동일한 창작 주제를 기반으로 생성형 AI 및 인간 작가에 의해 작성된 창작동화를 비교 대상으로 하며, 전문가 12인의 블라인드 평가를 통해 Narrative Scoring Scheme(NSS) 기반의 서사적 설정, 등장인물 구성, 감정의 표현과 이해, 의미 부여 및 전달, 서사적 갈등의 전개와 해소, 서사의 일관성, 결말과 해결 7가지 요소를 평가한다.
이러한 비교 분석을 통해, 본 연구는 생성형 AI가 인간의 창의성을 보완하고, 창작 교육 환경에서 어떻게 효과적으로 활용될 수 있는지를 실증적으로 규명하고자 한다. 또한, 서사적 완성도 평가를 위한 루브릭 개발 및 AI-인간 협업 기반 스토리텔링 모델 설계에 기초자료를 제공함으로써, 생성형 AI의 교육적 활용 가능성에 대한 실질적 시사점을 제시한다.
Ⅱ. 선행 연구
2-1 인공지능 기반 콘텐츠 창작 연구 동향
최근 생성형 AI 기반 콘텐츠 창작 기술은 급격한 발전을 이루며 다양한 분야에서 활용되고 있다. AI는 자연어처리(Natural Language Processing, NLP) 및 기계학습(Machine Learning, ML) 기술을 활용하여 인간과 유사한 수준의 콘텐츠를 생성할 수 있으며, 글쓰기, 이미지 생성, 비디오 제작 등 다양한 형태로 적용되고 있다. 이러한 생성형 AI 기반 콘텐츠 창작 기술은 생산성 향상과 콘텐츠 개인화를 통한 사용자경험 개선에 기여하는 것으로 평가된다[7].
특히, 생성형 AI 기반 글쓰기 연구는 AI가 생성한 콘텐츠의 서사적 구조, 문체적 특징, 감정적 연결성, 서사적 갈등의 전개와 해소 등을 평가하여 창작 역량과 한계를 규명하는 것을 주요 목적으로 한다. AI는 글쓰기 과정에서 인간과 협업하여 창의성을 증진하고, 글쓰기의 효율성을 향상하는 데 기여할 수 있다.
또한, 최근 교육 분야에서는 생성형 AI가 학습자의 아이디어 생성, 초안 작성, 피드백 제공 등 글쓰기의 다양한 단계에서 실질적인 보조 도구로 활용될 수 있음을 시사하는 연구들이 보고되고 있다[2],[6]. 이러한 결과는 AI를 활용한 글쓰기 과정이 인간 창작자의 창의성을 보완하고, 새로운 아이디어를 제안하는 역할 수행이 가능함을 뒷받침한다[7],[8].
이와 같은 연구는 AI가 창작 과정에서 인간과 어떤 방식으로 협력할 수 있는지를 분석하고, AI의 창작 도구로서의 활용 가능성과 한계를 규명하는 데 중요한 시사점을 제공한다.
2-2 GPT-3 및 GPT-4의 기술적 발전과 창작 능력 비교
GPT-3와 GPT-4는 최근 자연어처리(Natural Language Processing, NLP) 분야에서 가장 주목받는 대규모 사전 학습 언어모델로, 각각의 기술적 진보와 창작 능력은 생성형 AI 기반 콘텐츠 창작연구에 있어 핵심적인 비교 대상이 되고 있다[9],[10].
GPT-3는 1,750억 개의 매개변수(parameters)를 기반으로 설계된 대규모 언어모델로, 인간 수준에 근접한 자연어 생성 능력을 보이며, 질의응답, 문장 완성, 요약 등 다양한 언어처리 작업에서 안정적인 성능을 발휘한다[9]. 특히 few-shot, one-shot, zero-shot 학습환경에서도 빠르게 문맥을 이해하고 결과를 생성할 수 있어, 비전문 사용자도 손쉽게 활용할 수 있는 장점이 있다. 그러나 생성된 텍스트에서 논리적 비약, 반복 표현, 문맥 불일치와 같은 문제가 발생하기도 하며, 이는 창의적 글쓰기나 복잡한 플롯 설계에 있어 GPT-3의 한계로 지적된다[11].
반면, GPT-4는 GPT-3의 한계를 보완하고, 더욱 정교한 언어 생성, 향상된 추론 능력, 긴 문맥 처리에 적합한 구조를 갖춘 모델로 평가된다[9]. GPT-4는 수천 단어에 이르는 긴 입력을 안정적으로 처리할 수 있어 기술문서 요약, 논증형 글쓰기, 단계적 대화 등에서 활용도가 높으며, 자연스러운 흐름과 의미 연결성을 유지한 채 문장을 전개하는 능력이 향상되었다. 특히 멀티모달(Multimodal) 기능을 갖추고 있어, 텍스트뿐만 아니라 이미지를 함께 분석하거나 생성하는 작업에서도 적용 가능성이 확대되고 있다[12],[13].
최근에는 GPT-4 기반 생성형 도구가 교육용 스토리텔링 플랫폼에 적용된 사례가 보고되었으며, 학습자의 창의성 증진, 감정적 몰입 유도, 이야기 구성력 향상에 잠재력을 보여주고 있다[14]. 이런한 도구는 단순 텍스트 생성에서 나아가, 교육적 창작 도구로써의 실질적 활용 가능성을 보여주는 대표적 사례라 할 수 있다.
창작 능력 비교 측면에서도 GPT-4는 GPT-3에 비해 서사 구조의 일관성 유지, 플롯 구성의 정교함, 캐릭터 간 관계 형성에서 우수한 평가를 받고 있다[10]. GPT-4는 단일 아이디어 수준의 글쓰기를 넘어서, 복잡한 스토리라인 전개와 정서적 흐름 설계까지 수행할 수 있는 능력을 보이며, 이는 향후 AI 기반 창작지원시스템 개발에 있어 중요한 기초자료로 활용될 수 있다[12],[13].
2-3 인간 창작자의 서사 구조 및 내러티브 기법
인간 창작자의 서사구조와 내러티브 기법은 이야기의 구성 방식과 정서적 전달력을 결정짓는 핵심 요소로, 독자의 감정적 연결 형성과 서사 몰입을 유도하는 데 중추적 역할을 한다[15]-[17]. 특히 서사구조(narrative structure)는 이야기를 조직하는 기본적 틀로 기능하며, 일반적으로 전개(Exposition) → 상승작용(Rising Action) → 절정(Climax) → 하강 작용(Falling Action) → 결말(Resolution)로 이어지는 클래식 5단계 구조를 따른다[18]. 이는 시간의 흐름과 인물 간 갈등의 고조 및 해소를 체계적으로 설계함으로써, 독자에게 명료하고 긴장감 있는 이야기 흐름을 제공한다[17].
내러티브 기법(narrative techniques)은 이야기에 감정적 깊이와 표현의 생동감을 더하는 장치로, 배경 설정(setting), 예고 기법(foreshadowing), 감각적 이미지(sensory imagery) 등 다양한 전략이 활용된다[15]. 이들은 이야기의 분위기를 형성하고, 등장인물의 정서와 사건의 맥락을 구체화하며, 독자의 정서적 몰입을 자연스럽게 유도한다. 또한 이러한 기법은 단순한 정보 전달을 넘어, 이야기와 독자 간의 정서적 상호작용을 강화하고, 이야기의 예술성과 교육적 함의를 심화시키는 데 기여한다[19],[20].
최근에는 이와 같은 서사 구조와 내러티브 기법이 교육용 창작물에서도 적극적으로 활용되고 있으며, 특히 학습자의 감정 이입, 공감 능력 향상, 이야기 기반 학습 몰입을 촉진하는 중요한 요소로 주목받고 있다[6],[16]. 내러티브 기반 학습에서 이러한 요소는 단순한 학습 효과를 넘어, 서사적 참여를 통한 의미 구성, 가치 판단, 정체성 성찰과 같은 고차적 인지 작용을 유도하는 데 유효하게 작용한다[15],[21].
인간 창작자들은 이처럼 구조적 서사 설계와 정서 중심의 내러티브 기법을 전략적으로 결합함으로써, 독자와의 감정적 유대감을 심화시키고, 이야기의 몰입도와 예술적 완성도를 극대화하는 서사적 효과를 구현해 낸다[15].
2-4 인공지능 창작물 평가 선행연구
AI가 생성한 콘텐츠의 품질을 평가하는 연구는 주로 정확성(accuracy), 독창성(novelty), 유용성(usefulness), 지속가능성(sustainability) 등 다양한 평가지표를 중심으로 이루어지고 있으며, 이를 통해 생성형 AI의 창작 역량이 인간 창작자와 비교하여 어느 정도의 수준에 도달했는지를 정량적으로 분석하고 있다.
특히 GPT-4와 같은 대규모 언어모델이 생성한 아이디어를 인간 전문가의 평가와 비교하는 연구에서는 AI의 자가 평가(self-assessment)와 인간 평가자 간의 판단 일치(consistency)도 주요 분석 대상이 된다. 생성형 AI는 유용성이나 실행 가능성 측면에서 인간 전문가의 평가와 높은 일치도를 보였으나, 독창성 항목에서는 오히려 더 높은 점수를 부여하는 경향이 나타났다[22]. 이는 AI가 기존데이터 간의 참신한 조합을 기준으로 창의성을 판단하는 반면, 인간은 문화적 맥락이나 문학적 깊이, 사회적인 미해석을 중시하는 경향이 있기 때문이다.
이러한 평가 기준의 차이는 AI의 평가 기준이 인간과 본질적으로 다를 수 있음을 시사하며, AI 단독 평가의 결과가 때로는 과도하게 낙관적일 수 있다는 비판도 제기되고 있다[23]. 이들은 생성형 AI가 교육적 평가나 창작평가에서 사용될 때, 그 결과물이 윤리적, 사회·문화적 맥락을 충분히 반영하지 못할 가능성에 대해 경고한 바 있다.
따라서 AI의 창작 결과에 대한 평가는 단순히 점수화된 정량적 유사성에만 의존하기보다는 창의성, 감정선, 의미성 등 정성적 기준을 포함한 인간중심의 하이브리드 평가 체계의 도입이 필수적이라는 관점이 점차 주목받고 있다. 향후, 창작물평가에서는 AI의 빠른 평가 자동화 장점과 인간의 직관적, 해석적 판단의 장점을 결합한 다층적 평가 시스템 구축이 요구된다.
Ⅲ. 연구방법
3-1 연구 설계 및 방법
본 연구는 ChatGPT 4.0이 생성한 동화와 인간 창작자가 작성한 동화를 비교하여, 서사적 완성도를 정량적으로 분석하는 비교 연구이다. 특히, 생성형 AI 기반 창작물의 서사적 설정, 감정 표현과 이해, 서사적 강등의 전개와 해소 등 7가지 요소를 평가함으로써, AI의 창작 역량과 한계를 규명하고, 향후 창의적 글쓰기에서의 생성형 AI의 도입 가능성을 탐색하고자 한다.
첫째, 본 연구에서는 공정한 비교를 위해 생성형 AI와 인간 작가 모두에게 공통의 창작 조건을 제시하였다. 창작 주제는‘반려견(닥스훈트)과 보호자의 이별’로 설정하였으며, 아동 독자에게 반려동물 양육과 관련된 정서적, 정보적 메시지를 전달하는 데 그 교육적 목적이 있다. 창작 가이드라인은 표 1과 같은 조건을 포함하였다.
이러한 기준은 아동문학 및 창의 글쓰기 교육에서 사용되는 가이드 작성 방식에 근거하였다[6].
둘째, ChatGPT 4.0에는 ‘그림형제 동화집’의 한국어 번역본 210편을 사전 제공하였고, OpenAI 프롬프트 환경에서 지시형 프롬프트(prompt-based generation) 방식으로 창작을 유도하였다. 예시는 다음과 같다:
“다음 주제에 맞춰 초등학생이 읽을 수 있는 동화를 작성하시오. 문체는 그림 형제의 동화 스타일을 따르며, 닥스훈트와 보호자의 이별을 중심으로 서사를 구성하시오.”
AI가 생성한 초안 중 조건에 부합하는 1편을 선정하여 평가 대상으로 활용하였다. ChatGPT의 반복 생성은 최대 3회까지 허용하였다.
셋째, 인간 작가는 반려동물 관련 어린이 동화를 3권 이상 출간한 경력을 가진 전문작가 1인으로 선정하였다. 해당 작가에게는 주제와 독자층만 제시한 채 문체, 플롯, 어휘 등에 대한 자율성을 보장하였으며, ChatGPT와 동일한 창작 분량(2,000–3,000자) 기준을 안내하였다.
넷째, 서사적 완성도에 대한 평가에는 아동문학창작 및 문해 교육 분야에 경험이 있는 전문가 12인을 대상으로 실시하였다. 이들은 모두 동화창작 및 교육콘텐츠 개발에 3년 이상의 경력을 보유하고 있으며, 문해력 교육, 아동 콘텐츠기획, 그림책 작가 등의 유관 영역 종사자다.
NSS 기반의 7가지 평가 문항은 다음 표 2와 같다.
설문은 온라인응답 방식으로 배포되었으며, 각 평가자는 생성형 AI에 의해 작성된 동화 ‘루디와의 약속’과 인간 창작자가 작성한 ‘헤어지는 연습’을 무작위 순서와 블라이드 조건으로 제시받았다. 평가대상이 인공지능 또는 인간 작가의 창작물이라는 사실은 사전에 고지하지 않았다.
평가 응답은 자발적 참여와 익명성을 보장받은 상태에서 수집되었으며, 각 평가자의 신원 보호를 위해 T1~T12로 구분된 익명 식별자(ID)를 부여하였다. 여기서 ‘T’는 Test Participant의 약자로, 각 평가자의 의견을 정성적으로 인용하거나 분석 결과를 연결할 때 식별 가능하면서도 개인정보가 노출되지 않도록 설계된 표기 방식을 적용하였다.
총 35개 문항에 대해 5점 Liker 척도(1=전혀 그렇지 않다, 5=매우 그렇다)를 기준으로 평가가 진행되었으며, 각 작품에 대해 문항별 12명의 유효 응답이 수집되었다. 이러한 응답 분포는 평가 결과의 일관성과 신뢰성 검토(ICC, Fleiss’ Kappa 등)에 기반하여 통계적으로 분석되었으며, 정량 비교와 정성 총평 분석에 모두 활용되었다.
또한 전문가 평가의 정성 응답은 대표적이고 주제별로 뚜렷한 의견을 중심으로 본문에 인용하였으며, 전문가 의견 중 T3~T5의 개별 서술 응답은 수집 자료에 포함되었으나, 논문의 평가 주제 흐름과 직접적으로 연계되지 않아 본문 서술에서는 제외하였다. 이러한 정량·정성 응답 분포는 평가 결과의 일관성과 신뢰성 검토(ICC, Fleiss’ Kappa 등)에 기반하여 분석되었으며, 서사적 완성도의 통합적 평가에 활용되었다.
3-2 인간 창작자 동화와 비교를 위한 평가 기준 설정
본 연구는 ChatGPT 4.0이 생성한 동화와 인간 창작자가 작성한 동화 간 서사적 완성도의 차이를 정량적으로 비교·분석하기 위해, 전문가 평가 기반의 설문 도구를 활용하였다. 평가 문항은 Kellas & Manusov가 제안한 NSS (Narrative Scoring Scheme)를 기반으로 구성되었으며, 이 체계는 이야기의 구조적 요건과 정서적 설득력을 진단할 수 있는 이론적 타당성을 갖춘 도구로 알려져 있다[23].
총 35개의 문항은 서사적 설정(Introduction), 등장인물 구성(Character Development), 감정의 표현과 이해(Mental/Emotional States), 의미 부여 및 전달(Referencing), 서사적 갈등의 전개와 해소(Conflict/Resolution & Event/Reaction), 서사의 일관성(Cohesion), 결말과 해결(Conclusion)의 7가지 평가 영역으로 구성하였다.
각 영역은 5개 문항으로 세분화되어 있다. 모든 항목은 5점 리커트 척도(1점=전혀 그렇지 않다, 5점=매우 그렇다)를 기준으로 전문가 12인의 블라인드 평가를 통해 측정되었다. 평가자들은 서사적 설정의 논리성, 등장인물의 구성과 감정 표현 및 표현 전달력, 서사적 갈등 전개와 해소 과정의 서사적 일관성 등을 종합적으로 판단하였다.
설문 응답의 통계분석은 IBM SPSS Statistics 28.0을 활용하였고, 유의수준 .05(p < .05)를 기준으로 해석하였다.
분석 절차는 다음과 같다. 첫째, 각 작품에 대해 문항별 평균과 표준편차를 산출하였고, 둘째, AI와 인간 동화 간의 평가 차이를 비교하기 위해 대응표본 t-검정을 실시하였다. 셋째, 평가 문항의 내적 일관성을 검토하기 위해 Cronbach’s α 계수를 산출하고자 하였으나, 일부 문항에서 응답이 특정 점수에 편중되어 분산이 부족했기 때문에 유의미한 신뢰도 계수 산출이 어려웠다. 유사한 이유로, Fleiss’ Kappa 계수를 통한 평가자 간 일치도 분석에서도 동일한 응답 반복으로 인해 계수 산출이 불가능하였다.
이러한 분석 결과는 일부 평가 항목이 평가자의 인식 차이를 충분히 구분하지 못했음을 시사하며, 향후 연구에서는 항목의 표현 방식 개선, 척도 세분화, 평가자 수 확충 등을 통해 평가도구의 민감도 및 통계적 타당성을 강화할 필요가 있다.
한편, 본 연구에서는 평가 항목의 타당성을 뒷받침하기 위한 지표로서 항목별 평균과 표준편차를 구체적으로 제시하였다. 예를 들어, Q1(스토리의 논리적 연결성)의 경우 AI 동화는 평균 3.75점(SD=0.83), 인간 동화는 평균 3.58점(SD=0.76)을 기록하였으며, Q15(감정 표현의 구체성)는 AI 2.75점(SD=0.83), 인간 3.42점(SD=0.76)으로 평가자 간 차이가 뚜렷하게 나타났다. 이는 평가 항목이 평가자들의 인식을 민감하게 포착하고 있음을 보여주며, 루브릭의 구성 타당도(content validity)를 정량적으로 지지하는 근거로 작용한다(표 3 참고).
평가자 일관성의 보완을 위해, 본 연구는 대응표본 t-검정 외에도 ICC(Intraclass Correlation Coefficient) 계수를 병행하여 결과의 통계적 유의성과 일관성을 추가적으로 검토하였다. 이러한 다층적 접근은 평가 도구의 신뢰성과 향후 평가 시스템 설계에 실질적인 기초 자료로 활용될 수 있다.
Ⅳ. 결 과
4-1 정량 평가 결과 분석
본 연구는 ChatGPT 4.0와 인간 창작자가 각각 집필한 동화의 서사적 완성도를 비교하기 위해, 총 12인의 전문 평가자를 대상으로 총 35개 항목으로 구성된 평가도구를 적용하여 정량 분석을 수행하였다. 각 항목은 서사적 설정, 등장인물 구성, 감정의 표현과 이해 등 7가지 서사 구성요소를 포함하며, 5점 Liker 척도를 기준으로 평가되었다.
본 연구는 생성형 AI와 인간 창작자의 동화 간 서사적 완성도 평가점수의 평균 차이를 검증하기 위해 대응표본 t-검정을 실시하였다. 개별항목별 통계·분석보다는 전체 평가 영역에 대한 평균 차이를 중심으로 비교하는 것이 연구 목적에 부합하므로, 본문에는 요약된 형태의 t-검정 결과를 제시한다(표 4 참고).
이는 두 창작 방식 간에 서사 구성 및 표현 기법에서 질적 차이가 존재하며, 전문가의 평가에 실질적 영향을 미쳤음을 시사한다. 본 연구에서는 평가자의 응답 일관성을 통계적으로 검증하고자 Cronbach’s α 및 평가자 간 Kappa 계수를 활용한 신뢰도 분석을 시도하였다. 그러나 평가 문항 수 7개, 평가자 수 12명이라는 제한이 있었다.
특히 평가 결과가 AI에 의해 생성된 동화와 인간 작가에 의해 작성된 동화, 각각에 대해 1문항 2 작품으로만 제공되는 구조적 제약으로 인해, 유의미한 계수 산출이 어려웠다. 이에 '문항 × 평가자 × 창작 유형'의 삼원 구조 데이터를 기반으로, 평가자 집단의 일관성과 창작 유형 간 차이에 대한 평균값 기반의 분산 비교 및 패턴 분석을 수행하였다.
이러한 구성은 정량적 신뢰도 계수 대신, 평가자 집단의 서사 인식 경향과 항목별 차이를 통계적으로 분석하는 데에 유효한 기반을 제공한다. 특히 각 평가 문항의 평균값, 표준편차, 그리고 AI·인간 집단 간의 항목별 독립표본 t-검정을 통해 평가자들의 인식 차이가 어느 정도 일관되게 나타났음을 확인할 수 있었다. 이는 전체적인 평가 일관성 확보와 더불어, 평가자 간 통합된 인식 기반에서 AI와 인간 창작물 간의 질적 차이를 비교 분석할 수 있는 근거로 작용한다.
특히 7가지 평가 요소별로 나타난 평가자 간 변동성은 항목별 표준편차를 통해 확인되었으며, 이는 특정 항목(예: 감정의 표현과 이해)에서 AI 동화의 약점이 집단적으로 일관되게 인식되었음을 보여준다. 따라서 본 연구의 데이터 구조와 분석 설계는 신뢰도 계수의 한계를 보완하면서도, 평가자 간 일관성과 창작 유형 간 차이에 대한 비교 가능성을 충분히 확보하였다는 점에서 방법론적 타당성을 갖는다.
그림 1은 AI 창작동화와 인간 창작동화 간 항목별 평균 점수 변화를 시각적으로 비교한 것으로, 각 항목에 대한 응답 경향의 차이를 직관적으로 확인할 수 있도록 지원한다.
4-2 인공지능 창작동화의 서사적 완성도 평가
본 절에서는 전문가 블라인드 평가에 기반한 7가지 평가 요인의 정량적 분석 결과를 제시하고, 요소별로 AI 동화와 인간 작가 동화의 점수 차이를 비교하였다.
생성형 AI에 의해 작성된 「루디와의 약속」은 전반적으로 문장의 간결성, 정보 전달력, 논리적 흐름 유지 측면에서 긍정적인 평가를 받았다. 특히 서사적 설정(도입, 전개, 결말의 연결성), 독자의 이해 용이성, 정서적 톤의 일관성 등에서 전문가들로부터 안정적인 점수를 획득하였다.
정량 평가 외에도 전문가 총평에서 반복적으로 나타난 의견은 다음과 같다. 다수 응답자는 “플롯이 잘 정리되어 있고, 전체적인 구성은 알차다”는 점을 긍정적으로 평가하였다(T6, T7, T8). 또한, “아이들이 읽기에 적합한 그림책 스타일이며, 간결하고 읽기 쉬운 점이 장점”이라는 의견도 있었다(T2).
한편, 교육적 메시지 전달력(Educational Value) 측면에서 AI 창작물은 정보의 명료성과 구조적 안정성에 기반한 기초적인 교육 효과를 갖춘 것으로 평가되었다. 일부 평가는 “정보와 메시지 전달이 명확하다”는 점에서 교육적 가치가 있다고 보았으며(T7), Q21(교육적 가치 제공 여부) 항목에서는 AI 동화가 인간 동화보다 높은 점수를 받기도 하였다. 이는 AI가 학습된 콘텐츠를 바탕으로 핵심 정보를 일관되게 제시하는 데 강점을 가지고 있음을 시사한다.
그러나 정성적 분석에서는 AI의 교육 메시지가 기계적 정보 제공 수준에 그치고, 정서적 공감이나 독자의 가치 판단을 유도하는 데에는 한계가 있다는 지적도 제기되었다(T3, T10). 이는 교육 메시지를 이야기 맥락 속에서 감정선이나 상징적 의미와 연결시키는 내러티브 기법이 부족하기 때문으로 해석된다.
반면, 이야기의 정서적 깊이 측면에서는 보다 명확한 한계가 드러났다. 몇몇 평가자는 “특별한 감동이나 교훈 포인트가 부족하고, 감정보다는 사건의 나열로 전개된다”고 지적하였다(T1, T11). “전통적인 문체가 요즘 트렌드에 맞지 않는다”라거나, “형용사의 사용이 어색하고, 문장의 뉘앙스가 일관되지 않는다”는 평가도 포함되었다(T11). 또한, 루디와 등장인물 간의 정서적 교감이나 갈등 전개가 전반적으로 “밋밋하고 극적 긴장감이 약하다”는 의견도 확인되었다.
특히 루디가 주인공과 떨어져 있는 동안 새로운 환경에서 적응하는 과정이 서사의 중심을 이루지만, “갈등 해소가 비교적 단조롭고, 강렬한 감정 변화를 끌어내기엔 부족했다”는 비판이 제기되었다(T10, T11). 일부 전문가들은 “이야기의 논리적 구조는 완결성을 갖추었으나, 감정적 몰입이나 창의적 서사 설계 측면에서는 인간 작가의 작품에 비해 아쉬움이 있다”는 평가를 남기기도 하였다.
이러한 평가는 AI 서사가 정보 전달 중심의 안정적 구조를 갖추고 있으나, 인물 간 감정 표현, 극적 전개, 교육적 메시지의 정서적 내재화 측면에서는 인간 창작자의 서사에 비해 몰입감과 설득력이 낮을 수 있음을 시사한다. 특히 감정선의 설계, 상징적 장치 활용, 장면 간 분위기 연결과 같은 섬세한 내러티브 기법은 현재 AI 창작물에서 보완이 필요한 핵심 영역으로 분석된다.
또한 항목별 평가 결과는 단일 평가자의 편향이나 개별 문항에 대한 일회성 반응이 아닌, 다수 전문가 집단의 정제된 평균값에 기반하고 있기에, 창작 유형 간 차이에 대한 집단적 판단 경향을 반영하고 있다. 이는 정성적 판단이 주를 이루는 내러티브 평가에서도 일정 수준 이상의 내적 타당성과 분석 기반의 일관성을 확보했다는 의미를 지닌다.
4-3 인공지능과 인간 창작자의 작품 비교 분석
앞선 정량 분석 결과를 바탕으로, 본 절에서는 AI와 인간 작가의 동화 본문을 중심으로 각 서사적 요소의 실제 구현 방식에 대한 정성적 비교를 수행하였다. 본 분석은 항목별 수치 해석보다는 작품의 내러티브 흐름과 감정 표현의 차이를 중심으로 이루어진다.
인간 창작자가 집필한 「헤어지는 연습」은 감정의 깊이, 캐릭터 간 상호작용, 그리고 플롯의 유기성 측면에서 AI 창작동화에 비해 상대적으로 높은 평가를 받았다. 전문가들은 이 작품이 “감정이입이 더 잘 된다”, “등장인물의 감정과 행동 묘사가 풍부하다”는 점에서 정서적 몰입감이 우수하다고 평가하였다(T9, T12). 특히 조연 인물인 ‘조’와 반려견 ‘닥터’ 간의 관계에서 반전 요소를 활용하여 이야기에 입체감과 서사적 확장을 제공한 점은 인상적으로 언급되었다.
정량 평가 결과에서도 이러한 경향은 명확히 드러난다. 특히, ‘감정의 표현과 이해’ 항목은 AI와 인간 창작물 간의 가장 뚜렷한 평균 점수 차이를 보여주었기 때문에, 이를 그림 2로 별도 제시하였다.
예를 들어, 감정 표현 관련 항목인 Q13(감정 변화의 설득력), Q14(몰입할 수 있는 장면), Q15(생동감 있는 감정 표현)에서 인간 작가의 동화는 각각 3.50점, 3.25점, 3.42점으로, AI가 생성한 「루디와의 약속」의 3.00점, 2.83점, 2.75점보다 전반적으로 높은 점수를 받았다.
이는 감정선 구현과 감성적 서사의 표현력에서 인간 창작자의 서사가 우위에 있음을 시사한다(표 5 참고).
반면, AI가 생성한 「루디와의 약속」은 서사적 설정, 서사의 일관성, 결말과 해결 등에서 안정적인 점수를 기록하였다. 특히 Q5(이해 용이성)과 Q26(사건·인물·배경의 통합), Q27(일관된 서사 스타일) 항목에서는 각각 4.33점, 3.83점, 3.83점으로 인간 작가의 동화보다 높은 평가를 받았다. 전문가 총평에서도 “전체 플롯이 잘 정리되어 있으며, 그림책 스타일로 어린이 독자에게 적합하다”(T2), “교육 메시지가 명확하게 전달된다”(T7)는 의견이 다수 확인되었다.
흥미로운 점은 두 텍스트 간 이야기 형태와 서사 목적의 차이이다. AI 창작물은 구조 중심의 정보 전달형 글쓰기, 즉 그림책 스타일의 이야기 구성에 가까운 반면, 인간 작가의 창작물은 정서적 상황과 관계 묘사에 초점을 둔 감성 중심 서사에 가깝다. 따라서 평가자들은 AI 창작물이 정보 중심 구성에서는 안정성과 일관성을 보이지만, 감정 표현과 극적 흐름의 설계에서는 상대적으로 평면적이고 진부하다는 인상을 받았다고 평가하였다(T1, T11).
또한 일부 평가자들은 “이야기 도입부에서 제시된 설정이 이야기 후반에서 제대로 활용되지 않았다”(T12), “갈등과 해결이 다소 단조롭다”(T10)고 지적하였다. 이는 AI가 패턴 기반 구성에는 강하지만, 문맥 속 서사 장치의 기능적 작동까지 설계하는 데에는 아직 제약이 있음을 시사한다.
결과적으로, 본 비교 분석은 생성형 AI 기반 창작물과 인간 창작물 간 서사적 특성의 차이를 정량·정성 통합 관점에서 규명한 것으로, 각 방식이 가진 고유한 강점과 약점이 상호보완적일 수 있음을 보여준다. 콘텐츠 창작이나 창의적인 글쓰기 훈련에서 생성형 AI는 기초 구성 및 플롯 설계 도우미, 인간은 정서 심화와 다양한 서사의 확장자로서 역할 분담이 가능하며, 이러한 조합은 향후 AI-인간 협업 기반의 하이브리드 창작 모델에 실질적 기초가 될 수 있다.
4-4 함의 및 시사점
본 연구는 GPT-4 기반 생성형 AI가 창작한 동화와 인간 작가가 창작한 동화를 비교 분석하여, 서사적 완성도(Narrative Coherence)의 측면에서 두 창작 방식의 특성과 차이를 정량적·정성적으로 고찰하였다. 특히 생성형 AI가 실제 교육 콘텐츠 창작에 어느 수준까지 기여할 수 있는지를 실증적으로 검토한 연구라는 점에서 학술적 의의가 있다.
분석 결과, 생성형 AI 창작물은 서사적 설정(Introduction), 서사의 일관성(Cohesion), 결말과 해결(Conclusion), 의미 부여 및 전달(Referencing) 등에서 구조적으로 안정적인 평가를 받았으며, 교육 메시지의 전달력과 논리적 구성력 측면에서도 긍정적인 가능성을 보여주었다.
이는 생성형 AI가 창의적 글쓰기 교육의 도입 단계, 또는 이야기 초안 구성 단계에서 보조 도구로써 효과적으로 활용될 수 있음을 시사한다. 특히 학습자의 플롯 설계, 반복 서사 구성, 주요 사건 전개 구조 설계 과정에서 AI는 구조적 부담을 줄이고 창작을 유도하는 유용한 지원 역할을 할 수 있다.
반면, 감정의 표현과 이해(Mental / Emotional States), 등장인물 구성(Character Development), 서사적 갈등의 전개와 해소(Conflict/Resolution & Event/Reaction) 측면에서는 인간 작가가 더 높은 평가를 받았다. 이는 감성적 공감, 맥락 해석, 문학적 깊이와 같은 고차원적 서사 요소가 여전히 인간 창작자의 섬세한 감각과 경험 기반 해석에 의존하고 있다는 점을 시사한다.
이러한 결과는 Williamson & Eynon이 강조한 “AI는 정서적 공감과 문화적 맥락 이해에 한계를 가진다”는 주장을 실증적으로 입증하며[22], Kellas & Manusov의 내러티브 평가틀(Narrative Scoring Scheme: NSS)이 강조한 정서적 이해와 구조적 균형의 중요성과도 일치한다[23].
또한 Holmes et al.이 제안한 “AI는 창작 구조를 설계하고, 인간은 정서를 보완하는 협업 모델”이 유효하다는 가설을 뒷받침한다[6]. 반면, Hubert et al.이 주장한 “AI는 인간보다 창의적이다”는 의견은 본 연구에서 감성 표현, 갈등 해소, 문학적 감흥 등 정성적 지표에서 AI가 낮은 평가를 받은 점과 배치된다[21].
따라서 AI를 단독 창작 주체로 간주하기보다는, 인간의 창의성과 결합된 보완적 협업 모델(Co-Creation)로 접근하는 것이 바람직하다. 이러한 관점은 창작자가 AI로부터 아이디어, 초안, 구조적 프롬프트 등을 제공받고, 이를 인간이 정서적으로 해석하고 조정하는 상호작용적 창작 구조를 통해 창의성이 증폭될 수 있다[6]. 본 연구는 이러한 협업 모델의 가능성을 실증적으로 보여주었으며, AI는 구조적 창작 요소를 담당하고, 인간은 감정적·맥락적 요소를 보완하는 역할 분담이 가능함을 확인하였다.
더불어 본 연구에서 활용한 NSS 기반 평가 루브릭은 생성형 AI 텍스트 평가에 있어 구조화된 기준 제공의 가능성을 보여주었으며, 향후 정량·정성 통합 평가 도구의 정교화, 자동화 시스템 구축, AI 수용성 기반의 교육 평가 연구 등과의 연계 가능성도 시사한다.
궁극적으로 본 연구는 생성형 AI가 인간의 창의성을 대체하는 존재가 아닌, 창작 과정의 협력적 조력자로서 기능할 수 있음을 제시하며, 이는 AI 리터러시 교육, 창의성 중심 교수법 개발, 디지털 스토리텔링 플랫폼 설계 등 다양한 교육 및 창작 실천 영역에서 실질적인 기초자료로 활용될 수 있다. 아울러, AI 생성물의 활용에 있어 윤리적·법적 고려, 창작물의 소유권, 교육적 수용성과 평가 기준의 정립 등에 대한 논의도 병행되어야 할 것이다.
Ⅴ. 결 론
본 연구는 GPT-4 기반 생성형 AI가 창작한 동화와 인간 작가가 창작한 동화를 비교·분석하여, 서사적 완성도(Narrative Coherence)의 측면에서 각 창작 방식의 서사적 강점과 한계를 정량적·정성적으로 고찰하였다.
분석 결과, 생성형 AI는 구조화된 정보 전달과 논리적 플롯 구성에서 일정 수준 이상의 평가를 받았으며, 특히 서사적 설정, 서사의 일관성 측면에서 안정적인 서사 구조를 구현할 수 있음을 확인하였다. 이는 AI가 창의적 글쓰기의 보조 도구로써의 활용 가능성을 보여주는 실증적 근거로 작용한다.
그러나 감정 표현의 섬세함, 인물 간 상호작용의 정서적 묘사, 갈등 전개와 해소 과정의 설득력 등 감성적·맥락적 서사 요소에서는 인간 작가의 창작물이 상대적으로 높은 평가를 받았다. 이러한 차이는 AI의 맥락 해석력 및 감정적 공감 능력의 한계에서 비롯된 것으로, 인간 창작자의 경험 기반 해석 능력이 여전히 중요한 서사 구성 자원임을 시사한다.
특히, AI는 그림 형제 동화집을 기반으로 특정 프롬프트에 따라 서사를 생성한 반면, 인간 작가는 문체, 어휘, 플롯 구성의 자율성을 부여받았다. 이러한 창작 조건의 비대칭성은 결과 해석에 중요한 영향을 미치며, 향후 연구에서는 프롬프트 환경, 표현 자유도, 주제 설정 범위 등 통제 요소를 명확히 하여 AI와 인간 창작 결과의 비교 타당성을 확보해야 할 필요가 있다. 이러한 함의는 AI와 인간의 상호보완적 협업 구조(Co-Creation Framework) 구축 가능성을 시사한다.
또한 본 연구에서 실험적으로 적용한 NSS(Narrative Scoring Scheme) 기반 정량·정성 통합 평가 루브릭은 생성형 AI 콘텐츠 평가의 기준 정립에 실질적 기여를 할 수 있으며, 향후 자동화된 내러티브 평가 시스템 개발, AI 리터러시 교육, 창의성 중심 교수법 설계 등 다양한 교육적 실천과도 연계될 수 있다.
끝으로, 본 연구는 단일 AI 모델과 1인의 인간 작가를 대상으로 한 비교 연구라는 점에서 일반화에 한계가 있으며, 향후 연구에서는 복수의 생성형 AI 시스템, 다양한 장르 및 창작 환경, 다수의 인간 작가군을 포함한 종합적 분석이 필요하다. 아울러 프롬프트 조건, 자유도, 주제 설정 등 창작 조건의 통제 요인을 정밀하게 설계함으로써, 생성형 AI와 인간 창작 결과 간 비교의 타당성을 더욱 높일 필요가 있다.
궁극적으로, 본 연구는 생성형 AI가 창작의 주체로 활용될 수 있는 잠재력을 검토함과 동시에, 그 한계를 인식하고 협업 중심의 창작 구조를 모색하는 출발점으로서 의미를 지닌다. 향후에는 창작물의 윤리적 소유권, 평가 기준, 교육적 수용성에 대한 논의가 병행되어야 할 것이며, 이는 생성형 AI 시대의 창의성 개념에 대한 재정립과 실천적 모델 구축을 위한 중요한 기반이 될 것이다.
References
-
J. I. Kim and H. S. Park, “The Typology of AI Creations in the Field of Design, Copyright Issues, and Educational Implications,” Journal of Basic Design & Art, Vol. 25, No. 6, pp. 127-142, 2024.
[https://doi.org/10.47294/KSBDA.25.6.10]
-
J. O. Park, “University Students’ Perceptions of Image Generation AI: A Study,” Journal of Digital Contents Society, Vol. 25, No. 11, pp. 3199-3208, 2024.
[https://doi.org/10.9728/dcs.2024.25.11.3199]
-
J. S. Bang and B. C. Cho, “Policy Proposals in Response to Changes in the Authoring and Distribution Environment of Contents by Generative Artificial Intelligence,” Journal of Broadcast Engineering, Vol. 28, No. 4, pp. 400-409, 2023.
[https://doi.org/10.5909/JBE.2023.28.4.400]
- A. I. in Screen Trade. The Perils of AI: Navigating the Risks in Storytelling [Internet]. Available: https://AIinscreentrade.com/2025/02/11/, .
- MIT Technology Review. AI Can Make You More Creative But It Has Limits [Internet]. Available: https://www.technologyreview.com/2024/07/12/1094892/ai-can-make-you-more-creative-but-it-has-limits/, .
-
W. Holmes, M. Bialik, and C. Fadel, Artificial Intelligence in Education: Promises and Implications for Teaching and Learning, Center for Curriculum Redesign, 2023.
[https://doi.org/10.58863/20.500.12424/4276068]
-
R. Ota, S. S. Ray, and S. S. Alli, “Exploring the Impact of Artificial Intelligence on Content Creation: A Comprehensive Study,” International Journal of Research Publication and Reviews, Vol. 5, No. 7, pp. 597-604, 2024.
[https://doi.org/10.55248/gengpi.5.0724.1620]
-
J. Huston, “Human-AI Collaboration in Writing: A Multidimensional Framework for Creative and Intellectual Authorship,” International Journal of Changes in Education, pp. 1-10, 2025.
[https://doi.org/10.47852/bonviewIJCE52024908]
-
A. Serbanescu and F. Nack, “Human-AI System Co-Creativity for Bulding Narrative Word,” In D. De Sainz Molestina, L. Galluzzo, F. Rizzo, & D. Spallazzo (Eds.), IASDR 2023: Life-Changing Design, pp. 1-15, 2023.
[https://doi.org/10.21606/iasdr.2023.293]
- Milvus. What Is GPT-4’s Performance Compared to GPT-3? [Internet]. Available: https://milvus.io/ai-quick-reference/what-is-gpt4s-performance-compared-to-gpt3, .
- Grammarly. GPT-3 vs. GPT-4: What’s the Difference? [Internet]. Available: https://www.grammarly.com/blog/ai/gpt-3-vs-gpt-4/, .
- Fireflies.AI. Fireflies AI Summary Tool Overview [Internet]. Available: https://fireflies.ai/blog/, .
- Acorn Labs. GPT-3 vs. GPT-4: 10 Key Differences & How to Choose [Internet]. Available: https://www.acorn.io/resources/learning-center/gpt3-vs-gpt4/, .
-
A. Kabeer, R. A. Bhat, S. Antony, and I. A. Tramboo, “Enhancing Creative Writing Skills in Secondary School Students through Prompt Engineering and Artificial Intelligence,” Forum for Linguistic Studies, Vol. 7, No. 3, pp. 800-815, 2025.
[https://doi.org/10.30564/fls.v7i3.8511]
- S. Shaikh, “The Use of Storytelling as a Teaching Strategy in Primary School Literacy Instruction,” International Journal of Trend in Scientific Research and Development, Vol. 8, No. 4, pp. 373-377, 2024.
- E. Sen, “Children’s Literature as a Pedagogical Tool: A Narrative Inquiry,” International Online Journal of Education and Teaching, Vol. 8, No. 3, pp. 2028-2048, 2021.
-
S. Wang and H. Zhan, “Enhancing Teaching and Learning with Digital Storytelling,” International Journal of Information and Communication Technology Education, Vol. 6, No. 2, pp. 76-87, 2010.
[https://doi.org/10.4018/jicte.2010040107]
- Writer.com. The 5 Elements of Dramatic Structure: Understanding Freytag’s Pyramid [Internet]. Available: https://writers.com/freytags-pyramid, .
-
G. Makridis, A. Oikonomou, and V. Koukos, “FairyLand AI: Personalized Fairy Tales Utilizing ChatGPT and DALLE-3,” arXiv:2407.09467, , 2024.
[https://doi.org/10.48550/arXiv.2407.09467]
- J. Ahmed, Creating Emotional Engagement in Digital Storytelling: Reading Interactive Narratives as Empathetic Encounters, Master’s Thesis, University of Graz, Graz, Austria, 2023.
-
N. Bouizegarene, M. J. D. Ramstead, A. Constant, K. J. Friston, and L. J. Kirmayer, “Narrative as Active Inference: An Integrative Account of Cognitive and Social Functions in Adaptation,” Frontiers in Psychology, Vol. 15, 1345480, 2024.
[https://doi.org/10.3389/fpsyg.2024.1345480]
-
K. F. Hubert, K. N. Awa, and D. L. Zabelina, “The Current State of Artificial Intelligence Generative Language Models Is More Creative than Humans on Divergent Thinking Tasks,” Scientific Reports, Vol. 14, 3440, 2024.
[https://doi.org/10.1038/s41598-024-53303-w]
-
B. Williamson and R. Eynon, “Historical Threads, Missing Links, and Future Directions in AI in Education,” Learning, Media and Technology, Vol. 45, No. 3, pp. 223-235, 2020.
[https://doi.org/10.1080/17439884.2020.1798995]
저자소개
2014년:이화여자대학교 디자인대학원(디자인석사-UX디자인)
2022년:이화여자대학교 일반대학원(디자인박사-영상디자인)
2011년~2015년: 에이온스튜디오
2015년~2023년: ㈜시온네트웍
2020년~2024년: 이화여자대학교 조형예술대학 디자인학부 겸임교수
2024년~2025년: ㈜다인리더스
2025년~현 재: 청운대학교 멀티미디어학과 조교수
※관심분야:사용자경험(User Experience), 행위 유도성(Affordance), 디지털 치료제(Digital Therapeutics), 메타버스(Metaverse), 실감미디어(Sensory Media), 디지털콘텐츠(Digital Contents), 생성형 AI(Generative AI) 등


