Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 10, pp.2951-2960
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Oct 2025
Received 25 Aug 2025 Revised 22 Sep 2025 Accepted 24 Sep 2025
DOI: https://doi.org/10.9728/dcs.2025.26.10.2951

생성형 AI 시나리오의 주제어 및 서사적 특성 분석: TF-IDF와 의미망 시각화를 중심으로

황효현1, * ; 이창배2
1청운대학교 멀티미디어학과 조교수
2(주)다인리더스 콘텐츠사업부 상무이사
Analysis of Themes and Narrative Characteristics in Generative AI Scenarios: Focusing on TF-IDF and Semantic Network Visualization
Hyo-Hyon Hwang1, * ; Chang-Bae Lee2
1Assistant Professor, Department of Multimedia, Chungwoon University, Incheon 22100, Korea
2Managing Director of Content Business Division, Dain Leaders Corp., Seoul 04793, Korea

Correspondence to: *Hyo-Hyon Hwang Tel: +82-32-770-8202 E-mail: hyo3@chungwoon.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 생성형 인공지능(ChatGPT-4)이 창작한 단편 애니메이션 시나리오 5편을 대상으로, TF-IDF 핵심어 추출, 의미망 시각화, 클러스터링 분석을 통해 내러티브의 일관성, 완성도, 다양성을 검증하였다. 분석 결과, 주요 상징어가 반복적으로 등장하며 주제 축을 형성하였고, 의미망 분석을 통해 논리적 일관성과 주제 확장이 확인되었다. 특히 장면 단위 클러스터링은 공통 내러티브 패턴을 도출하여 AI 서사의 구조적 안정성을 뒷받침하였다. 이러한 결과는 AI 서사가 인간 창작과 유사한 안정성과 창의성을 구현할 수 있음을 보여주며, 교육·산업적 활용 가능성을 제시한다. 향후 연구에서는 다양한 언어와 장르를 대상으로 정서적 흐름과 문화적 수용성을 종합적으로 검증할 필요가 있다.

Abstract

This study investigates the user experience (UX) in five leading Steam games by applying affordance theory across five elements: control, feedback, environment, task, and social. Human experts and a generative artificial intelligence (AI) model independently labeled game reviews, store descriptions, and gameplay transcripts using a five-point coding scheme, following collaboratively refined guidelines. The resulting labels were compared quantitatively; agreement was measured using Cohen’s κ, and accuracy was based on F1-scores. The generative AI model achieved high accuracy in explicit affordance dimensions such as control and feedback; however, agreement was lower in contextual elements, particularly regarding environment and social signals. These findings highlight the utility of generative AI for scalable UX analysis and clarify its boundaries in interpreting complex genre features and nuanced user data, thereby offering directions for future research on human–AI collaboration.

Keywords:

Generative AI, AI Scenario Writing, Narrative Analysis, Semantic Network Visualization, TF-IDF Analysis

키워드:

생성형 인공지능, 인공지능 시나리오 작성, 네러티브 분석, 의미망 시각화, TF-IDF 분석

Ⅰ. 서 론

서사는 인간 경험을 이해하고 사회적 정체성을 형성하는 근본적 도구로, 다양한 학문에서 중요한 연구 대상으로 다루어진다[1]. 특히, 이야기(narrative)는 언어적, 사회적, 심리적 상호작용의 맥락에서 삶의 사건들을 조직하며, 개인이 세계를 해석하고 자신을 타인과 구별 짓는 데 중요한 역할을 한다[2]. 이러한 서사의 중요성은 수십 년간의 내러티브 연구와 최근 인공지능 기반 창작 시나리오 분석에 이르기까지 일관되게 강조됐다[3].

서사 분석의 대표적 모델로는 Labov와 Waletzky의 서사 구조 모델이 있다. 이처럼 서사 구조 모델을 기반으로 하는 구조적 접근은 이야기의 논리성과 완결성을 평가하는 데 탁월하며, 창의적 글쓰기 지도 및 내러티브 과제 구성에서도 핵심적 준거로 활용된다[2],[4]. 최근 연구에 따르면, 내러티브 완성도의 평가와 향상을 위해서는 이야기 각 요소의 기능을 분명히 구분하고, 등장인물 심리와 사건의 인과력, 그리고 주제적 심화가 유기적으로 결합해야 한다고 제안된다[2],[3].

또한, 인공지능(AI)의 도입은 창작 글쓰기의 경계를 확장한다. AI는 인간 저자와의 협업을 통해 플롯 설계, 구조화, 초안 생성 등에서 높은 효율성을 보이지만, 정서적 깊이와 문화적 맥락 표현에서는 한계가 관찰된다[5]. 최근의 비교 연구에서는 AI 기반 생성 텍스트가 논리적 일관성이나 구조적 명확성에서는 강점을 보였으나, 인간 저작물이 정서 표현 및 내러티브 몰입, 미세한 캐릭터 심리에 있어 더 우수하다는 결과가 보고되었다[4],[6].

이런 맥락에서 현대 서사 연구는 기술적 완결성과 감정적·문화적 공감 능력 간 균형을 모색하고 있으며, AI와 인간의 협업 모델 개발과 관련 윤리적 쟁점도 활발히 논의되고 있다[1],[3]. 더불어 AI-인간 내러티브 협업 과정에서 창의성, 책임성, 저작권, 문화 다양성 등 사회적·윤리적 쟁점도 함께 부각되고 있다[7],[8].

결과적으로, 내러티브 구조에 대한 이론적 모델을 바탕으로 한 서사 분석은 창의적 글쓰기 교육, 디지털 콘텐츠 개발, 그리고 AI 기반 창작 지원 등 다양한 분야에서 그 중요성이 증대되고 있다[8],[9]. 이러한 접근은 단순히 이야기의 외형적 완결성을 넘어, 내러티브를 통한 개인의 정체성 형성, 사회적 의미 구성, 그리고 새로운 창작 환경에서의 인간-기계 협력의 의미를 규명하는 데 크게 이바지한다[1],[2].

이에 본 연구는 생성형 AI가 창작한 단편 애니메이션 시나리오가 내러티브의 주제 일관성, 구조적 완성도, 창의적 다양성 측면에서 어떠한 특성을 보이는지 계량적·시각적 텍스트 분석을 통해 실증적으로 규명하는 데 그 목적이 있다.

이를 위하여, ChatGPT 기반으로 생성된 국문 시나리오 5편을 데이터로 선정하였다. 이를 영문으로 재각색하고, 각각의 시나리오는 5개의 장면으로 구성되어 있으며, 장면별로 TF-IDF 기반 핵심어를 추출하였다. 이를 의미망 분석 및 네트워크 시각화를 통해 주요 주제어의 연결구조와 내러티브 특성을 비교·분석하는 방법론을 적용하였다. 이러한 데이터 기반 텍스트 분석은 단순 빈도 산출뿐 아니라, 창의적 플롯 구성·서사적 확장성 평가에도 현실적으로 활용될 수 있다는 장점이 있다.


Ⅱ. 이론적 배경

2-1 생성형 AI와 내러티브 연구 동향

서사는 인간이 세계를 해석하고, 자신의 경험을 조직하며, 사회적 정체성을 구성하는 데 핵심적인 역할을 해왔다[2].

Labov와 Waletzky의 고전적 내러티브 구조 이론은 이야기의 시작(orientation), 전개(complicating action), 평가(evaluation), 결말(result), 여운(coda) 등 기본 요소를 체계적으로 제시함으로써, 일상적 대화부터 문학적 텍스트에 이르기까지 서사 분석의 표준적 준거로 자리매김했다[8],[9]. 이후 Bruner, Georgakopoulou 등은 내러티브를 정체성 형성, 사회적 상호작용, 문화적 맥락 분석의 주요 이론 틀로 확장하였다[2].

최근에는 생성형 인공지능(Generative AI)의 발전과 함께, AI가 자동으로 생성하는 내러티브의 분석과 평가가 새로운 연구 흐름으로 부상하고 있다[9]. Hwang은 생성형 AI와 인간 저자가 창작한 동화의 내러티브 완성도와 논리성, 감정적 표현을 비교·평가하였으며, 이 연구를 통해 AI 시나리오는 구조적 정확성, 논리적 일관성에서 강점을 보이나, 인간이 창작한 이야기보다 감정의 깊이나 문화적 맥락 전달에서 한계를 보인다고 보고하였다[3],[9].

또한 Denia는 AI가 만들어내는 내러티브가 미디어, 사회, 대중의 인식에 미치는 영향, 그리고 협업 및 윤리 문제 등 복합적 논의의 중요성을 강조하였다[1].

이처럼 현대 서사 연구는 생성형 AI가 생산하는 내러티브의 주제적, 구조적 특성은 물론, 인간 창작과의 차이, 창의적 교육 및 평가, 사회문화적 함의까지 아우르며 다층적 전개를 보이고 있다[3],[4]. 디지털 환경과 인공지능의 발전은 내러티브 연구와 실제 창작 패러다임 모두에 변화를 촉진하고 있다[2].

2-2 키워드 추출(TF-IDF)과 의미망 분석 개요

내러티브와 시나리오 분석에서 텍스트 마이닝 기법은 방대한 데이터 내 잠재적 주제 구조와 핵심 의미요소를 정량적으로 파악하는 데 중요한 역할을 한다[10],[11]. 대표적 방법인 TF-IDF(Term Frequency-Inverse Document Frequency)는 각 문서(시나리오, 장면 등) 내에서 특정 단어가 얼마나 자주 등장하는지(빈도)와, 이 단어가 전체 문서 집합 중 얼마나 특이하게 사용되는지(역문서 빈도)를 합산하여, 해당 단어(키워드)의 상대적 중요도를 산출한다. 이러한 TF-IDF 기반 키워드 추출은 장면별로 중심적 주제어나 개념을 객관적으로 도출하는 데 널리 활용되고 있다[11],[12].

한편, 임베딩 기반 기법(Word2Vec, FastText, BERT 등)을 활용하면 각 단어 또는 문장, 장 전체를 고차원 의미공간의 벡터로 변환할 수 있다. 이러한 벡터 표현은 표면적 빈도를 넘어 단어·문장 간 의미 유사성, 다의어 맥락 구분, 대규모 클러스터링 및 시각화 등 고급 내러티브 분석에 활용된다[11],[13].

Mikolov et al.은 Word2Vec 모델을 통해 단어 간의 의미적 유사성을 벡터 연산으로 파악할 수 있음을 보였고, 이 기법은 추출된 키워드 간 유의미한 의미망 구축, 장면별 서사적 패턴 비교, AI 생성 텍스트와 인간 텍스트 간 특성 차이 구명 등에 유용하다[11].

도출된 핵심 키워드를 토대로 의미망(Semantic Network) 분석을 수행하면, 키워드 간의 동시 공출현(co-occurrence) 관계 및 연결망 구조를 시각적으로 확인하고, 문서 전체의 주제적 일관성, 반복성, 다양성, 그리고 중심어의 분포 패턴을 효과적으로 진단할 수 있다[10]. 의미망 내 각 키워드의 중심성(Centrality), 연결 밀도(Density) 등 네트워크 지표를 활용하면, 내러티브가 형성하는 의미의 확산-집중 구조, 특정 주제의 반복·비 반복성, 등장 개념 간의 위계와 상호 관계를 정량적으로 평가할 수 있다[14],[15].

특히 최근 연구에서는 TF-IDF와 의미망 분석을 결합해 생성형 AI가 작성한 시나리오 및 인간 창작 내러티브의 주제 구조 차이, 서사적 일관성 및 창의성 지표, 교육적 적용 가능성까지 종합적으로 분석하는 사례가 확대되고 있다[13], [15]. 이러한 데이터 기반 분석은 전통적 정성 평가를 보완하며, 내러티브 연구의 방법론적 확장과 현장 적용에 이바지하고 있다.

2-3 시각화 기반 내러티브 분석 사례

내러티브 연구에서 시각화는 방대한 텍스트 분석 결과의 패턴, 구조, 특징을 한눈에 파악할 수 있게 해주는 핵심적 도구이다[13]. TF-IDF 기반으로 추출한 장면별 키워드 분포는 히트맵(heat map)으로 시각화하여 각 장면의 주제적 집중도, 주제어의 등장·반복 양상, 시나리오 간 유사성과 차이를 직관적으로 보여줄 수 있다[16]. 히트맵은 주요 키워드가 어느 지점에서 두드러지게 나타나는지, 혹은 다양한 주제가 균형 있게 펼쳐지는지 등 내러티브의 흐름과 변화를 시각적으로 진단하는 데 효과적이다[16],[17].

특히 임베딩 기반 접근에서는, 단어 또는 문장 간 의미적 거리를 2D/3D 매핑(예: t-SNE, PCA, UMAP)과 결합해 시나리오 전체의 의미 지형도(semantic landscape)를 시각화할 수 있으며, 내러티브 내 주제 전개 흐름이나 의미적 클러스터 구조도 파악이 용이하다[11]. 의미망(semantic network) 분석 결과는 네트워크 그래프(network diagram)로 구현된다. 이 그래프는 키워드 간의 연결성과 중심성 관계, 네트워크 내에서의 핵심 허브와 주변 주제어들의 분포, 그리고 주제어끼리의 클러스터(군집) 구조 등을 한눈에 파악하게 한다. 네트워크 시각화는 내러티브가 중심 주제를 반복적으로 심화하는지, 또는 다양한 의미 요소가 동시에 상호작용하며 새로운 연결을 만들어내는지 등 서사의 구조적 패턴과 창의성을 분석하는 데 매우 유용하다[14],[15].

최근 생성형 AI와 인간 저작 시나리오 데이터를 동일한 방법으로 시각화하여, 두 집단 내러티브의 서사적 일관성, 주제 다양성, 구조적 특징 등을 비교·분석하는 사례가 늘고 있다[3]. 이러한 시각화 사례는 내러티브 연구 현장에서는 물론, 창의성 교육 및 디지털 스토리텔링 훈련, 내러티브 평가 척도 개발 등 응용 영역에서도 그 실효성을 인정받고 있음을 의미한다[14].

이처럼 시각화 기반 내러티브 분석은 복잡한 텍스트 데이터를 의미 있고 해석이 가능한 지식으로 전환에 필수적이며, 텍스트마이닝과 현대 서사 연구의 실질적 융합을 촉진한다[13],[17].


Ⅲ. 연구방법

3-1 데이터 수집 및 전처리

본 연구의 데이터는 ChatGPT(GPT-4 기반 생성형 AI)를 활용하여 창작된 국문 단편 애니메이션 시나리오 5편으로 구성된다. 각 시나리오는 5개의 장면(Scene)으로 이루어져 있으며, 총 25개의 장면 텍스트가 분석 대상 자료로 수집되었다. 시나리오 생성은 사전에 마련된 AI 시나리오 창작 조건에 따라 진행되었다(표 1 참고).

Scenario creation conditions

이때, 수집된 시나리오는 우선 영어로 번역 후 형태소 분석, 불용어 제거, 토큰화 등의 전처리를 통해 텍스트를 정제하였다. 이후 시나리오 분석을 위해 Oh가 제시한 언어 데이터 전처리 과정을 참고하여, 본 연구에 맞게 수정하여 진행하였다[10].

첫째, 데이터의 품질 향상 및 분석의 타당성 확보를 위해 표준 불용어 사전(영어 불용어 리스트, 조사·접속사·부사 등 기능어 중심)을 반영하여 불용어를 제거하였다. 둘째, 형태소 분석기(KoNLPy, mecab 등)를 활용해 단어를 형태소 단위로 분해한 뒤, 각 어휘를 표제어(lemma) 형태로 변환하였다. 어간 추출은 조사의 변형, 복합어·파생어의 통합 등 실질적 의미 중심의 분석을 위함이다. 셋째, 모든 언어 데이터는 영문 번역·역 번역(2인 전문가 교차 검토) 후 원문과 비교하여 번역 누락·왜곡을 최소화하였다[18]. 최종적으로, 본 연구의 텍스트 분석 및 모든 정량적 처리는 영어로 일관되게 수행되었으며, 이와 같은 처리 절차와 세부 원칙은 데이터의 신뢰성, 재현성, 분석 목적상의 객관성을 확보하고자 설계되었음을 명시한다.

이상의 전처리 방식은 단어 빈도 추출, 의미망 분석 등 텍스트 데이터 마이닝 분야의 표준적 절차로, 데이터 노이즈 감소·분석 신뢰도 향상·해석적 일관성 증진에 효과적임이 실증 연구 및 이론적 합의에서 확인된다[14],[15].

본 연구에서 분석에 활용된 시나리오는 5편, 각각의 제목과 줄거리는 표 2에 제시하였다. 다만 본문에서 반복적으로 긴 제목을 사용하는 것은 가독성을 저해하므로, 이후 분석에서는 각 시나리오에 ID(A, B, C, D, E)를 부여하여 표기하였다. 예를 들어, ‘A Small Seed’는 시나리오 A, ‘Moonlight Post Office’는 시나리오 B로 표기하였다.

Scenario titles, summaries, and ID codes (A-E) generated by ChatGPT

더불어 본 연구에서 시나리오를 영어로 번역하여 도입한 이유는 다음과 같다[11],[16].

첫째, 언어적 안정성과 신뢰성 확보: TF-IDF 기반 키워드 추출, 의미망 분석 등 주요 자연어처리 기법은 영어 기반 오픈소스 도구에서 높은 정확성과 신뢰도를 보여주며, 국문 처리 대비 더 표준화된 결과를 제공한다. 둘째, 국제적 비교 가능성 및 재현성 강화: 영문 데이터는 기존의 국제 연구와 직접 비교가 가능하며, 연구 결과의 재현성을 높이는 데 이바지한다. 셋째, 정보 손실 최소화: 번역 과정에서 발생할 수 있는 정보 왜곡을 방지하기 위해, 원문과 번역문을 병행 검수하는 절차를 거쳤다.

최종적으로, 본 연구의 텍스트 분석 및 모든 정량적 처리는 영어로 번역된 시나리오 데이터를 기반으로 수행되었으며, 이는 데이터 처리와 결과 해석의 안정성을 최우선으로 고려한 연구 설계상의 결정임을 명시한다.

3-2 의미망 구축, 시각화 및 서사 평가 지표

본 절에서는 전처리된 시나리오 데이터를 토대로 의미망(co-occurrence network) 구축, 시각화, 그리고 내러티브 평가 지표를 적용하는 구체적 분석 절차를 상세히 제시한다.

1) 의미망(co-occurrence network) 구축

우선 각 시나리오와 장면 텍스트에서 동시 출현하는 단어(공출현어)를 추출하여, 키워드 간의 연관 관계를 나타내는 네트워크를 형성하였다. 이 네트워크 분석에는 연결 중심성(degree centrality), 매개 중심성(betweenness centrality) 등 주요 중심성 지표를 활용하여, 서사 전개에서 핵심 의미를 담당하는 ‘허브’ 단어와 주변 단어의 구조적 위치 및 역할을 파악하였다. 이를 통해 각 시나리오 내 주제 핵심어들이 전체 의미망 속에서 어떻게 연계·조직되는지, 스토리의 주요 주제 축이 어떻게 형성되는지 명확히 분석할 수 있다[14],[15].

2) 시각화 및 클러스터링 분석

구축된 의미망 데이터는 히트맵(heat map), 네트워크 그래프(network diagram), 그리고 클러스터링(clustering) 분석 기법을 통해 다양한 시각화로 표현하였다[2],[11].

히트맵 시각화는 각 장면에서 추출된 키워드의 등장 양상과 유사도를 색상의 농도와 분포로 표현함으로써, 이야기 전개의 과정에서 주제가 어디에 집중되고, 어떻게 변주되는지를 한눈에 이해할 수 있도록 돕는다[2]. 이어서 네트워크 그래프는 키워드 사이의 연관 구조, 중심에 위치하는 핵심어와 주변 역할을 하는 단어들의 결합 양상을 시각적으로 드러낸다[15]. 이러한 구조적 표현을 통해 내러티브의 논리적 흐름과 주요 개념 사이의 관계 맥락이 더욱 명확하게 해석된다[11].

더불어 각 분석 단계에서 더 나아가, 클러스터링 기법을 적용하면 의미상으로 가까운 키워드들이 자연스럽게 하나의 그룹으로 묶인다[15]. 이로써 시나리오 내에서 주제별 서사 단위와 중요한 사건 간의 관계를 구조적으로 파악할 수 있고, 이야기가 지니는 다층적 패턴과 주제적 특성 역시 직관적으로 해석할 수 있게 된다[14].

이처럼 시각적 분석을 유기적으로 통합함으로써, 단순한 데이터 결과 이상의 이야기 구조와 창의성 패턴을 풍부하게 탐색할 수 있다.

3) 창의성 및 서사성 평가 지표 적용

본 연구에서 창의성 및 서사성 평가 지표로 적용한 ‘다양성, 일관성, 집중도’는 AI 내러티브의 객관적 구조 분석과 평가에 관해 선행 연구에서 인정받은 근거 있는 지표들이다[3],[14].

실무적으론 TF-IDF, 네트워크 중심성 등 정량 분석과 클러스터 및 의미망 기반 구조 해석은 내러티브 창의성, 스토리텔링 논리성, 주제 집약도 등 다양한 분야의 서사 분석에서 기준적 도구로 활용됐다. 이를 통해 본 논문의 평가 지표는 임의적 기준이 아니라, 기존 연구에서 검증된 개념 및 수치적 평가 결과에 근거한 합리적이며, 신뢰성 높은 분석 프레임임이 분명히 뒷받침된다[10],[14],[15].

먼저, 다양성은 시나리오 내에서 나타나는 키워드의 분포 폭과 군집의 수를 기준으로 산출하였다. 이를 통해 각 이야기가 얼마나 풍부하고 다층적으로 전개되는지 판단할 수 있었다. 다음으로, 일관성은 장면별로 추출된 핵심 키워드의 연속적 연결성과 네트워크 내 강한 결합 구조를 중심으로 검토하였다. 논리적 흐름과 주제의 유지 정도를 측정함으로써, 이야기의 구조적 안정성과 통일성을 평가하였다.

더불어 집중도는 주요 키워드가 네트워크 내에서 차지하는 중심성과 반복 빈도, 그리고 허브 역할을 토대로 산출하였다. 이를 통해 어떤 주제나 의미가 이야기에서 두드러지게 강조되고 있는지 구체적으로 파악하였다.

이와 같은 평가 지표의 적용은, 수치와 그래프에 머물지 않고 생성형 AI 시나리오의 내러티브가 실제로 얼마나 창의적이고 논리적으로 구성되어 있는지 입체적으로 해석할 수 있는 근거를 제공하였다.


Ⅳ. 분석 결과

4-1 장면별 TF-IDF 핵심 주제어 도출 결과

각 시나리오 및 장면의 전처리 텍스트에 대해 TF-IDF 분석한 결과, 장면별로 내러티브의 맥락과 감정이 분명히 드러나는 핵심 키워드가 도출되었다(표 3 참고).

Top TF-IDF keywords by scenario and scene

시나리오 A에서는 ‘gray’, ‘city’, ‘seed’, ‘sprout’, ‘flowerpot’, ‘small’, ‘garden’과 같이 성장·환경·변화와 직접적으로 연관된 어휘가 높은 TF-IDF 값을 지속적으로 나타내며, ‘성장과 돌봄’이라는 주제성을 분명히 드러냈다. 시나리오 B에서는 ‘office’, ‘post’, ‘moonlight’, ‘letters’, ‘envelopes’, ‘alley’, ‘dawn’, ‘silent’와 같은 어휘가 상위에 위치하여, 우체국과 달빛이라는 공간적 상징과 감각적 코드가 뚜렷하게 나타났다.

시나리오 C에서는 ‘hourglass’, ‘grains’, ‘sand’, ‘determined’, ‘promise’, ‘flowing’, ‘broken’, ‘fulfillment’ 등의 어휘가 핵심으로 두드러져, 시간성·약속·인내를 강조하는 확장성이 확인됐다. 이러한 결과는 각 시나리오가 특정 상징적 의미와 감정 어휘를 효과적으로 부각하고 있음을 보여준다.

시나리오 D에서는 ‘fields’, ‘step’, ‘boundless’, ‘wind’, ‘storm’, ‘clouds’, ‘horizon’, ‘meadow’, ‘sunset’이 주요하게 도출되어, 공간의 확장성과 역동적 자연 상징이 서사의 중심을 형성하였다. 반면 시나리오 E에서는 ‘people’, ‘pointing’, ‘sky’, ‘brush’, ‘changing’, ‘towers’, ‘rest’, ‘orchestral’이 상위에 위치하여, 집단적 감정, 변화, 예술적 상징(붓과 하늘)이 중심 주제로 나타났다.

특히 감정 변화나 전환점이 포함된 장면에서는 hope, courage, sadness, smile과 같은 감정 관련 핵심어가 높은 TF-IDF 값을 보여주었는데, 이는 생성형 AI가 내러티브 전개의 흐름과 감정적 클라이맥스를 효과적으로 포착하고 있음을 시사한다.

따라서 시나리오별 TF-IDF 상위어는 내러티브의 논리와 감정의 중심축을 형성함과 동시에, 시각적 상징과 서사 전개상의 차별화 포인트(공간·시간·자연·예술적 상징 등)를 뚜렷하게 반영한다. 결과적으로 각 시나리오는 주제적 독립성을 유지하면서도, 장면별 클라이맥스와 전환점에서 핵심 메시지를 명확하게 드러내고 있음을 확인할 수 있다.

4-2 시나리오별·장면별 의미망(Semantic Network) 구조

본 절에서는 4-1절의 TF-IDF 기반 핵심어 도출 결과를 바탕으로, 각 시나리오 및 장면별 주요 키워드를 활용해 구성한 의미망(semantic network) 구조를 분석하였다.

그림 1은 각 시나리오의 상위 핵심어 간의 네트워크 구조를 시각적으로 보여주고 있으며, 이를 통해 내러티브의 주제적 집중, 확장, 그리고 서사 일관성의 특징을 보다 명확히 확인할 수 있다. 이는 4-1절에서 확인한 TF-IDF 상위 키워드들이 실제로 시나리오 내 장면별로 어떻게 상호 연결되어 내러티브 구조와 감정의 흐름을 형성하는지에 대한 논리적·심층적으로 일관성을 가지고 재현됨을 보여줌으로써, 실증적 근거를 제공한다. 더불어 시나리오별로 상위 핵심어들은 각 장면 내에서 공동 등장하며, 이들 간의 완전 연결(fully connected network)이 주요 서사 축을 견고히 한다. 이는 각 작품의 주요 모티프와 내러티브 전개의 논리적 일관성이 의미 구조상에서도 강화됨을 보여준다.

Fig. 1.

Semantic networks of AI-generated scenarios

즉, 서사별 중심 키워드들이 시각적으로도 네트워크의 허브를 형성하고, 장면 전개에 따라 연결망이 확산 또는 집중되는 특성을 뚜렷이 드러낸다. 이러한 자료 기반의 구조적 해석은 AI 생성 내러티브의 창의성, 주제적 명확성, 그리고 구조적 완성도를 객관적으로 검증하며, 4-1절 중심어 분석 결과의 신뢰성과 해석의 일관성을 한층 높여준다.

또한 의미망 분석 결과, 시나리오별로 도출된 클러스터는 각기 독립적 주제 영역과 상징적 중심성을 드러냈다. A 시나리오의 ‘seed–sprout–garden’은 성장과 돌봄의 사회적 은유로, B 시나리오의 ‘letters–moonlight–post office’는 기억·전달·기다림이라는 사회적 관계성을 상징한다. C 시나리오의 모래시계는 시간과 인내를 통한 약속의 공동체적 의미를, D 시나리오의 바람과 폭풍은 자유·극복의 집단적 서사를, E 시나리오의 하늘과 붓은 예술·공유를 통한 집단 정체성 형성을 함축한다(그림 2 참고).

Fig. 2.

Word cloud visualization by scenario

이러한 결과는 Denia가 제시한 AI Narratives Model의 관점과도 일치한다[1]. 즉, AI가 생성한 내러티브는 단순히 텍스트 내부의 구조를 넘어, 사회적 인식과 문화적 의미 구성의 자원으로 기능하며, 각 클러스터는 상징적 중심성을 통해 독자·청중과의 사회적 상호작용을 가능하게 한다. 따라서 클러스터별 해석은 내러티브 구조적 차원뿐 아니라 사회적·상징적 수용성을 평가하는 근거로 확장될 수 있다.

4-3 AI 시나리오 간 주제 일관성·반복성·다양성 비교

본 절에서는 앞선 4-1절(장면별 핵심 키워드 도출)과 4-2절(의미망 구조 시각화) 결과를 종합하여, AI가 생성한 각 시나리오의 내러티브적 주제 일관성, 반복성, 다양성 특성을 비교·분석하였다.

1) 주제 일관성(Coherence)

각 시나리오의 의미망 네트워크에서는 작품마다 주요 핵심어가 네트워크 중심(hub)으로 명확히 드러났다(그림 1 참고). 예컨대, A Small Seed에서는 seed, sprout, Promise in the Hourglass에서는 hourglass, sand, The Child Who Paints the Sky에서는 sky, brush 등이 서사의 전 과정에서 지속적으로 중심 노드로 기능하였다.

이러한 구조적 중심 허브는 4-1절의 TF-IDF 상위 키워드 결과와 일치하며, 시나리오별 워드클라우드 시각화에서도 seed, hourglass, sky와 같은 핵심어가 중심에 크게 배치되어, 주제 일관성 측면에서 높은 논리성과 일관된 목표 지향성을 보인다는 실증적 근거가 된다. 또한 장면 간 키워드 네트워크의 결합이 강하게 나타나, 주제가 단절되거나 불연속적으로 전개되는 사례는 관찰되지 않았다.

2) 반복성(Repetitiveness) 및 집중도(Focus)

의미망 시각화에서 다수 시나리오(A, C, E)는 주요 핵심어가 여러 장면에서 반복적으로 등장하였으며, 장면 내 키워드들이 허브를 중심으로 완전 연결(fully connected network)을 형성하는 패턴을 보였다. 이는 내러티브상 중요한 상징·주제가 반복적으로 드러나며, 이야기가 종결될 때까지 중심 주제가 유지됨을 의미한다.

그러나 일부 시나리오(B, D)에서는 핵심어가 과도하게 집중되어 의미망 전체가 특정 키워드에 지나치게 수렴하는 경향이 나타났다. 이는 워드클라우드에서도 특정 단어가 과도하게 두드러지는 형태로, 시각적으로 드러난다. 즉, 반복성의 장점(서사 집약과 명확성)과 동시에, 의미 확장의 다층성이 제한될 수 있음을 시사한다.

3) 다양성(Diversity)

시나리오별 네트워크에서는 확산적 구조(방사형, 클러스터 분화 등)가 확인되었으며, 특정 시나리오는 주제의 다층성을 뚜렷하게 드러냈다. 예를 들어, The Child Who Resembled the Wind와 The Child Who Paints the Sky는 meadow, clouds, breeze, painting, stars, orchestral 등의 허브에서 다양한 정서·상징이 주변부로 확산하며, 주제의 다층화와 감정 변화의 폭이 넓게 나타났다. 이는 워드클라우드에서도 주요 허브 외 주변부 단어들이 폭넓게 시각화되어, 정서적 다양성과 서사 확장성을 한눈에 확인할 수 있다.

이는 4-1절 TF-IDF 분석에서 확인된 키워드 분산도 및 의미 클러스터 다양성과도 부합한다. 일부 시나리오에서는 내러티브의 창의적 확장성과 정서적 변화가 인간 창작 못지않게 풍부하게 구현되었다.

장면 간 코사인 유사도 분석 결과는 그림 3과 같이 제시하였다. 히트맵에서 진한 색으로 표시된 동일 시나리오 내부 장면들은 높은 유사도를 보여주었으며, 이는 시나리오 내부의 주제 일관성이 강하게 유지됨을 입증한다. 반대로 옅은 색으로 나타난 서로 다른 시나리오 간 장면들은 상대적으로 낮은 유사도를 보여, 각 시나리오가 독립적인 주제성과 차별성을 보존하고 있음을 시사한다.

Fig. 3.

Scene similarity heat map based on cosine distance

특히 시나리오 A와 B, C와 E와 같이 일부 서사가 유사한 상징어(hope, sky, child 등)를 공유하는 경우, 부분적으로 중간 강도의 유사도가 나타나 생성형 AI가 특정 보편적 내러티브 모티프를 반복적으로 활용하는 경향이 확인되었다. 이는 앞선 TF-IDF 및 의미망 분석 결과에서 지적된 주제 반복성과 일관되며, 동시에 각 시나리오의 주요 허브 키워드가 독립적으로 작동하는 점에서 주제 다양성 역시 확보되고 있음을 보여준다.

즉, AI가 생성한 시나리오는 반복성과 일관성 면에서 기존 창작 서사와 유사한 구조적 안정성과 내러티브 완성도를 보였으며, 일부 작품은 키워드·의미 군의 분화와 클러스터 확산, 감정적 전환을 통해 높은 서사적 다양성을 구현하였다. 이러한 결과는 4-1절의 TF-IDF 통계 분석 및 4-2절의 의미망 시각화와 논리적으로 일관되며, AI 내러티브가 주제의 집중성과 확장성을 동시에 달성할 수 있음을 입증하는 실증적 근거를 제공한다.

4-4 분석 결과

본 절에서는 4장 각 절에서 수행된 정량적‧정성적 분석 결과를 종합하여, AI 생성 시나리오의 내러티브 구조와 주제적 특성, 그리고 서사적 완성도에 대한 총괄적 시사점을 제시한다.

첫째, 장면별 TF-IDF 분석에서는 시나리오마다 반복적·집중적으로 출현하는 핵심 주제어가 뚜렷하게 도출되었다. ‘seed’, ‘hourglass’, ‘sky’, ‘wind’ 등과 같은 핵심어들은 각 작품 전반에 걸쳐 일관되게 작동하며, 서사의 주제 축을 견인하였다. 이는 생성형 AI가 내러티브에서도 중심 상징과 감정의 흐름을 논리적으로 구축할 수 있음을 보여준다.

둘째, 의미망 네트워크 시각화에서는 이러한 핵심어들이 네트워크 중심(hub)으로 집결하여 주변 키워드와의 촘촘한 결합 구조를 형성하였다. 이 결과는 주제적 반복이 단순히 빈번한 등장에 그치지 않고, 내러티브의 논리적 일관성과 감정적 변화를 구조적으로 뒷받침하는 서사적 조직력으로 기능함을 입증한다[14],[15].

셋째, 시나리오 간 비교·분석에서는 일관성·반복성·다양성의 패턴이 도출되었다. 분석 결과, 생성형 AI는 단일 주제에 집중하여 응집된 서사를 형성하는 집약형 내러티브뿐 아니라, 다수 감정과 상징을 확산적으로 조직하는 확산형 내러티브도 구현할 수 있음을 확인하였다. 동일 시나리오 내부 장면 간 코사인 유사도가 높게 나타난 것은 주제 일관성을 의미하며, 의미망 클러스터의 다양성은 서사의 확장성을 보여주었다. 이는 AI 내러티브가 구조적 안정성과 창의적 확장성을 동시에 달성할 수 있음을 실증적으로 보여준다.

마지막으로, 히트맵 및 네트워크 그래프 등 시각화 결과는 정량적 분석을 보완하며, AI 시나리오가 전통적 창작 문학과 유사하게 반복적 핵심 상징의 중심성, 논리적 구축력, 장면 간 주제 연계 및 감정 흐름의 측면에서 높은 설득력을 갖추고 있음을 증명하였다[5],[15].

더불어, 시나리오별 워드클라우드 시각화는 각 서사의 주제적 핵심어가 어떻게 직관적으로 강조되는지를 보여줌으로써, 정량적 지표와 네트워크 분석에서 확인된 중심성과 일관성을 시각적으로 뒷받침하였다. 다만, 일부 시나리오에서는 특정 주제어에 대한 과도한 집중이나 주변부 의미의 제한적 확장과 같은 한계도 함께 관찰되었다.

종합하면, 생성형 AI가 작성한 내러티브 시나리오는 정량적 키워드 분석과 정성적 의미망 해석, 그리고 시각화 기반 비교·분석을 통해 구조적 일관성, 주제적 명확성, 감정적 다양성 등 서사의 주요 요건을 폭넓게 충족하는 것으로 나타났다. 이러한 결과는 향후 AI 창작 서사 연구의 실증적 근거로서 학문적·교육적·실무적 활용 가능성을 뒷받침한다[14],[15].


Ⅴ. 결론 및 제언

본 연구는 생성형 인공지능(ChatGPT, GPT-4 기반)이 작성한 단편 애니메이션 시나리오를 대상으로, TF-IDF 기반 키워드 분석과 의미망(semantic network) 시각화를 결합하여 내러티브의 주제적 특성과 서사적 완성도를 다각적으로 검증하고자 하였다. 이러한 목적은 기존 AI 내러티브 연구의 구조적 한계와 창의성 문제를 계량적·시각화 기반으로, 실증적인 재검증을 진행하고 실제 교육·산업 현장에 적용이 가능한 평가 틀을 마련하기 위함이다.

첫째, 장면별 TF-IDF 분석에서는 시나리오별로 반복적이고 집중적으로 사용되는 중심 주제어가 뚜렷하게 확인되었다. 이러한 핵심어는 내러티브의 일관성 형성과 이야기의 구조적 축을 견인하는 역할을 하였다.

둘째, 의미망 분석 및 네트워크 구조의 시각화에서는 앞서 도출된 주요 키워드들이 네트워크상에서 중심 허브로 작동하며, 주변 단어들과의 조밀한 관계망을 통해 서사의 조직력과 완결성, 그리고 논리적 연결성을 강화하고 있음을 보여주었다.

셋째, 시나리오 간 비교·분석에서는 일관성, 반복성, 다양성이 동시에 나타났으며, 이는 생성형 AI가 주제 집약형(단일 상징·주제 중심)과 확산형(다층 상징·정서 중심) 내러티브를 모두 구현할 수 있음을 시사한다.

이러한 분석 결과는 기존 연구에서 반복적으로 제기된 AI 서사 생성의 근본적 한계—서사의 일관성 부족, 상징 및 주제 확장성 미흡—을 일정 부분 극복했음을 뒷받침한다.

즉, 본 연구는 통계적 언어모델에 기반을 둔 AI 내러티브가 의미적 일관성과 상징적 다양성을 동시에 성취할 수 있음을 실증적으로 증명함으로써 학문적·실용적으로 중요한 이바지 하였다.

분석 방법과 결과는 기존 이론적 서사 구조 연구뿐만 아니라, AI 창작물이 실제로 내러티브로서 인정받을 수 있다는 실증적 근거를 보탰다.

특히 본 연구는 AI 생성 시나리오의 교육 및 실제 콘텐츠 창작 현장 적용 가능성을 명확히 보여주었으며, 학습자의 창의적 글쓰기 촉진, 서사 탐구 및 토론 자료, 아이디어 발산형 스토리보드, 창작 과정상 피드백용 시각화 분석 등으로 실천적 활용도가 높다.

더불어, 시나리오별 워드클라우드 시각화는 각 내러티브의 주제어를 직관적으로 드러내어 TF-IDF 통계와 의미망 분석의 결과를 시각적으로 보완하며, 교육적·실무적 적용 가능성을 향상하였다. 이러한 활용은 단순히 AI의 자동 생성 결과를 분석하는 것을 넘어, 인간–AI 협업 창작(Human-AI Collaboration)의 가능성을 뒷받침하며, Huston이 제시한 창작과 지적 저작권의 다차원적 프레임워크와도 연결된다.

또한, 시각화 기반 의미망 분석은 AI와 인간 협업 창작 모델에서 창의성 평가 및 지도, 내러티브 구조 진단, 디지털 스토리텔링 교육, 콘텐츠 산업 실무 자동화 등 연구 및 실무 양면의 확장 가능성을 제시한다.

그러나 본 연구에는 한계점이 존재한다. 첫째, 분석 대상 시나리오가 5편에 한정되어 표본의 대표성과 결과의 일반화 가능성에 제한이 있다. 둘째, TF-IDF와 공출한 네트워크 기반 분석이 단어 중심 통계적 접근에 치우쳐 맥락이나 장기적 플롯 전개, 정서·심리적 디테일 일부를 간과할 수 있다는 점, 셋째, 국문 시나리오를 영문으로 번역한 데이터 기반 분석이 이루어져, 번역 과정에서 문화적 맥락 및 미묘한 정서·상징의 손실 가능성이 있으며 이는 결과 해석과 국제적 비교의 한계로 작용할 수 있다. 넷째, 전문가 집단 혹은 독자 대상의 정성적 평가가 병행되지 않아, 내러티브의 예술적·감응적 완성도 검증이 미흡하다.

더불어 워드클라우드와 같은 시각화 기법은 핵심어의 강조 효과를 직관적으로 보여주는 장점이 있으나, 키워드 간 의미적 맥락이나 서사적 전환을 충분히 포착하지 못하는 한계가 있다. 향후 연구에서는 이러한 시각적 분석을 정성적 맥락 평가와 병행할 필요가 있다.

이 외에도 한계를 보완하기 위해, 향후 연구에서는 대규모 AI 및 인간 창작 텍스트 코퍼스의 비교·분석을 통해 내러티브의 구조적 특성과 차이를 정밀하게 규명하고, 심층적인 감성 및 맥락 기반 분석 기법을 개발하여 이야기의 정서적 흐름과 의미망을 더욱 체계적으로 평가할 필요가 있다. 또한 전문가와 독자 집단을 대상으로 수용성과 몰입도를 전면적으로 평가하며, 생성형 AI 내러티브의 윤리적·문화적·사회적 기반에 대한 통합적 분석이 요구된다.

종합적으로 본 연구는 생성형 AI 시나리오가 주제적 일관성, 구조적 안정성, 창의적 확장성을 동시에 구현할 수 있음을 실증적으로 확인하였다. 이는 AI 내러티브 연구의 새로운 지평을 제시할 뿐 아니라, 실제 교육 및 콘텐츠 산업에서 AI 창작 지원 도구의 활용 가능성을 뒷받침하는 근거가 된다. 본 연구의 방법론과 실증 결과는 앞으로 인간과 AI의 협력적 내러티브 창작 모델 개발, 창의성 기반 디지털 스토리텔링 교육의 확장, 창작 실무에의 AI 활용 고도화, 내러티브 평가 자동화 도구 개발 등 다양한 분야에 실질적 기초 자료가 될 것으로 기대된다.

References

  • E. Denia, “AI Narratives Model: Social Perception of Artificial Intelligence,” Technovation, Vol. 146, 103266, pp. 1-20, 2025. [https://doi.org/10.1016/j.technovation.2025.103266]
  • A. Georgakopoulou, Small Stories, Interaction and Identities, Amsterdam, Netherlands: John Benjamins Publishing Company, 2007. [https://doi.org/10.1075/sin.8]
  • H. H. Hwang, “A Comparative Study on the Narrative Coherence of AI-Generated and Human-Written Children’s Stories: From the Perspective of Technical Completeness and Cultural Reception,” The Journal of Digital Contents Society, Vol. 26, No. 7, pp. 1731-1740, July 2025a. [https://doi.org/10.9728/dcs.2025.26.7.1731]
  • H. H. Hwang, “ChatGPT 4.0 Analysis of Narrative Coherence in Children’s Stories Created by ChatGPT 4.0: Comparative Study with Human Authors,” The Journal of Digital Contents Society, Vol. 26, No. 7, pp. 1731-1740, July 2025b. [https://doi.org/10.9728/dcs.2025.26.7.1731]
  • AI in Screen Trade. The Human Touch: Why AI Can’t Replicate True Emotional Depth [Internet]. Available: https://aiinscreentrade.com/2025/01/28/the-human-touch-why-ai-cant-replicate-true-emotional-depth/, .
  • Digital Content Next. AI Can Produce Content. But Can It Tell a Good Story? [Internet]. Available: https://digitalcontentnext.org/blog/2024/11/19/ai-can-produce-content-but-can-it-tell-a-good-story/, .
  • D. Agarwal, M. Naaman, and A. Vashistha, “AI Suggestions Homogenize Writing toward Western Styles and Diminish Cultural Nuances,” in Proceedings of the CHI Conference on Human Factors in Computing Systems (CHI ’25), Yokohama: Japan, pp. 1-21, 2025. [https://doi.org/10.1145/3706598.3713564]
  • M. Lambrou, Story Patterns in Oral Narratives: A Variationist Critique of Labov and Waletzky’s model of Narrative Schemas, Ph.D. Dissertation, Middlesex University, London, UK, 2005.
  • A. R. Sheikh, N. A. Awan, and F. R. Sheikh, “The Application of Labov’s Sociolinguistic Model of Narrative Analysis to a Short Story the Lottery by Shirley Jackson,” Pakistan Journal of Society, Education and Language, Vol. 8, No. 1, pp. 283-295, 2021.
  • S. Oh, “Real-Time TF-IDF Clustering Using Simhash and DBSCAN,” Ph.D. Dissertation, Department of Computer Science and Engineering, Harvard University, Cambridge, MA, 2020.
  • T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient Estimation of Word Representations in Vector Space,” arXiv:1301.3781, , 2013. [https://doi.org/10.48550/arXiv.1301.3781]
  • H.-J. Kang, “A Study on Analysis of Intelligent Video Surveillance Systems for Societal Security,” The Journal of Digital Contents Society, Vol. 17, No. 4, pp. 273-278, June 2016. [https://doi.org/10.9728/dcs.2016.17.4.273]
  • OpenAI, J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, ... and B. Zoph, “GPT-4 Technical Report,” arXiv:2303.08774, , 2023. [https://doi.org/10.48550/arXiv.2303.08774]
  • S. Jenner, D. Raidos, E. Anderson, S. Fleetwood, B. Ainsworth, K. Fox, ... and M. Barker, “Using Large Language Models for Narrative Analysis: A Novel Application of Generative AI,” Methods in Psychology, Vol. 12, 100183, 2025. [https://doi.org/10.1016/j.metip.2025.100183]
  • J. G. Cromley, J. F. Mirabelli, and A. J. Kunze, “Three Applications of Semantic Network Analysis to Individual Student Think-Aloud Data,” Contemporary Educational Psychology, Vol. 79, 102241, 2024. [https://doi.org/10.1016/j.cedpsych.2024.102318]
  • AB180 Blog. What Is a Heat Map? Visualize User Behavior Data at a Glance [Internet]. Available: https://blog.ab180.co/posts/what-is-heatmaps, .
  • J. Benchimol, S. Kazinnik, and Y. Saadon, “Text Mining Methodologies with R: An Application to Central Bank Speeches,” Machine Learning with Applications, Vol. 8, 100286, 2022. [https://doi.org/10.1016/j.mlwa.2022.100286]

저자소개

황효현(Hyo-Hyon Hwang)

2014년:이화여자대학교 디자인대학원(디자인석사-UX디자인)

2022년:이화여자대학교 일반대학원(디자인박사-영상디자인)

2011년~2015년: 에이온스튜디오

2015년~2023년: ㈜시온네트웍

2020년~2024년: 이화여자대학교 조형예술대학 디자인학부 겸임교수

2024년~2025년: ㈜다인리더스

2025년~현 재: 청운대학교 멀티미디어학과

※관심분야:사용자경험(User Experience), 행위 유도성(Affordance), 디지털 치료제(Digital Therapeutics), 메타버스(Metaverse) 생성형 인공지능(Generative Artificial Intelligence)등

이창배(Chang-Bae Lee)

2004년:수원대학교(공학학사-정보통신)

2018년:숭실대학교 경영대학원(경영석사-콘텐츠경영)

2011년~2015년: 에이온스튜디오

2015년~2023년: ㈜시온네트웍

2021년~2023년: 경희대학교 디지털 콘텐츠학과 겸임교수

2024년~현 재: ㈜다인리더스

※관심분야:인공지능(Artificial Intelligence), 디지털 치료제(Digital Therapeutics), 메타버스(Metaverse), 디지털 콘텐츠(Digital Contents) 등

Fig. 1.

Fig. 1.
Semantic networks of AI-generated scenarios

Fig. 2.

Fig. 2.
Word cloud visualization by scenario

Fig. 3.

Fig. 3.
Scene similarity heat map based on cosine distance

Table 1.

Scenario creation conditions

Category Decription
Target Audience Children aged 7 and above
Content Educational and emotionally moving story
Lengt Short animation within 5 minutes
Creation Method Free creation (homage and parody not allowed)
(Format Narration-centered script reflecting animation scenario features (directions, dialogues, camera work, sound effects, etc.)

Table 2.

Scenario titles, summaries, and ID codes (A-E) generated by ChatGPT

ID Scenario Title Summary
A A Small Seed In the crevice where no one pays attention, a small life quietly sprouted.
B Moonlight Post Office There exists a post office that only opens under the moonlight, delivering unsent letters.
C Promise in the Hourglass Time flows, grain by grain.
D The Child Who Paints the Sky There was once a child who dreamed of painting the sky with colors
E The Child Who Resembled the Wind The child was always like the wind—free and boundless.

Table 3.

Top TF-IDF keywords by scenario and scene

ID Sc no. Top TF-IDF
A 1 ('gray', 0.32), ('city', 0.32), ('seed', 0.2836), ('concrete', 0.16), ('traffic', 0.16)
2 ('sprout', 0.4248), ('seed', 0.2832), ('day', 0.2832), ('small', 0.2211), ('droplets', 0.1598)
3 ('flowerpot', 0.4088), ('wind', 0.3374), ('shaking', 0.2725), ('friends', 0.2725), ('gust', 0.1538)
4 ('sprout', 0.587), ('wounds', 0.1656), ('fallen', 0.1656), ('puts', 0.1656), ('warmth', 0.1656)
5 ('small', 0.3664), ('garden', 0.3531), ('change', 0.1765), ('began', 0.1765), ('seeds', 0.1765)
B 1 ('office', 0.4115), ('post', 0.4115), ('moonlight', 0.3018), ('alley', 0.3018), ('night', 0.2209)
2 ('envelopes', 0.3968), ('letters', 0.2948), ('midnight', 0.1984), ('begin', 0.1984), ('open', 0.1984)
3 ('boy', 0.3266), ('letters', 0.3013), ('glowing', 0.2805), ('messages', 0.2027), ('away', 0.2027)
4 ('letters', 0.4525), ('stars', 0.3271), ('sky', 0.2347), ('chest', 0.203), ('watches', 0.203)
5 ('alley', 0.3384), ('office', 0.3076), ('post', 0.3076), ('faintly', 0.2837), ('brightening', 0.1909)
C 1 ('grain', 0.4887), ('sand', 0.4097), ('trickling', 0.3676), ('hourglass', 0.2731), ('grains', 0.1838)
2 ('hourglass', 0.3766), ('determined', 0.2534), ('protect', 0.2534), ('precious', 0.2534), ('heartbeat', 0.2534)
3 ('rain', 0.5078), ('breathing', 0.2101), ('urgency', 0.2101), ('quick', 0.2101), ('flowing', 0.2101)
4 ('toy', 0.5583), ('broken', 0.3722), ('sitting', 0.1861), ('clinking', 0.1861), ('repairing', 0.1861)
5 ('hourglass', 0.348), ('new', 0.2342), ('completely', 0.2342), ('beginning', 0.2342), ('fulfilled', 0.2342)
D 1 ('grass', 0.4816), ('freely', 0.2408), ('step', 0.2408), ('boundless', 0.2408), ('bends', 0.2408)
2 ('breeze', 0.4222), ('wind', 0.2613), ('catching', 0.2382), ('flow', 0.2382), ('spreads', 0.2382)
3 ('strong', 0.3983), ('facing', 0.353), ('storm', 0.353), ('wind', 0.3277), ('frame', 0.1991)
4 ('storm', 0.406), ('clouds', 0.3691), ('light', 0.2513), ('breaking', 0.2291), ('arms', 0.2291)
5 ('horizon', 0.4916), ('wind', 0.2697), ('merging', 0.2458), ('golden', 0.2458), ('resembled', 0.2458)
E 1 [('sky', 0.4207), ('brush', 0.3909), ('stars', 0.3909), ('raises', 0.2426), ('dips', 0.2426)]
2 ('stroke', 0.4037), ('brush', 0.3252), ('sky', 0.2334), ('changing', 0.2019), ('gradually', 0.2019)
3 ('people', 0.4382), ('pointing', 0.2191), ('cheerful', 0.2191), ('watch', 0.2191), ('point', 0.2191)
4 ('brush', 0.498), ('morning', 0.332), ('approaches', 0.2061), ('rest', 0.2061), ('lowers', 0.2061)
5 ('painted', 0.4163), ('sky', 0.361), ('morning', 0.3354), ('light', 0.2284), ('orchestral', 0.2082)