Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 8, pp.2063-2072
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Aug 2025
Received 08 Jul 2025 Revised 30 Jul 2025 Accepted 05 Aug 2025
DOI: https://doi.org/10.9728/dcs.2025.26.8.2063

Voice AI 기반 오디오북의 부모 수용성 비교 연구

강유진1 ; 최성호2, * ; 원종서2 ; 김향미3
1성균관대학교 디자인학과 시각디자인전공 학사과정
2연세대학교 기술경영학협동과정 기술경영학박사
3AI컨설턴트, LG AI연구원
Comparative Study on Parental Acceptance of Voice AI-Based Audio Books
You-Jin Kang1 ; Sung-Ho Choi2, * ; Jong-Seo Won2 ; Hyang-Mi Kim3
1Bachelor’s Course, Department of Visual Communication Design, Sungkyunkwan University, Seoul 03063, Korea
2Ph.D in Business Administration, Management of Technology, Yonsei University, Seoul 03722, Korea
3AI Consultant, LG AI Research, Seoul 07789, Korea

Correspondence to: *Sung-Ho Choi E-mail: turnwing@naver.com

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 AI 기반 오디오북에 대한 부모의 수용성을 TTS와 Voice AI 내레이션을 비교하여 분석하였다. UTAUT 모형을 활용해 성과기대, 노력기대, 사회적 영향, 촉진조건에 미치는 영향을 살펴보았다. 73명의 부모를 대상으로 한 2단계 실험 결과, 부모의 목소리를 모사하는 것이 컨셉인 Voice AI 콘텐츠는 기존 TTS보다 성과기대, 사회적 영향, 행동의도에서 유의미하게 더 높게 나타났다. 반면, 노력기대와 촉진조건에서는 뚜렷한 차이가 확인되지 않았다. 정성적 피드백에 따르면, Voice AI는 자녀에게 정서적 몰입을 유도하며 더 큰 감정적 연결감을 형성했다. 본 연구는 개인화된 AI 음성이 정서적 반응을 강화할 수 있는 잠재력을 지니며, 유아용 디지털 미디어 설계 시 자녀와 부모 모두에게 공감되는 경험을 제공할 수 있음을 시사한다.

Abstract

This study explored parental acceptance of AI-powered audio books by comparing TTS and Voice AI narration. Using the UTAUT model, it examined the effect of different narrations on performance expectancy, effort expectancy, social influence, and facilitating conditions. A two-stage experiment involving 73 observations revealed that Voice AI content that closely mimicked parent voice led to significantly higher performance expectancy, social influence, and behavioral intention compared with standard TTS. However, no major differences were noted in effort expectancy and facilitating conditions. Qualitative feedback emphasized that Voice AI narration fostered greater emotional immersion, making children feel more emotionally connected and engaged. The findings underscore the potential of personalized AI voices in enhancing emotional engagement and highlight their value in designing early childhood digital media experiences that resonate with both children and parents.

Keywords:

Audio Storybook, Voice AI, UTAUT, Machine Voice, Behavioral Intention

키워드:

오디오북, 보이스AI, 통합기술수용모델, 기계목소리, 행동의도

Ⅰ. 서 론

1-1 연구의 필요성

우리나라 맞벌이 가구 수는 해마다 증가하며 가족 구조에 점진적인 변화를 가져오고 있다. 특히 부모의 근무 시간이 길어질수록 아이와 함께 보내는 시간이 줄어들며, 이는 자녀의 정서 발달과 사회적 상호작용에 직간접적인 영향을 미친다[1]. 이와 같은 상황 속에서 영유아를 위한 디지털 콘텐츠는 부모의 부재를 일정 부분 보완할 수 있는 매개체로 기능성을 제시하고 있다[2].

최근 콘텐츠 생성에는 딥러닝 기반 AI의 활용의 가능성이 대두되고 있다. 특히 시각, 청각적 콘텐츠의 AI활용은 디지털 콘텐츠가 갖는 부자연스러운을 해소하여 아이를 위한 콘텐츠를 접함에 있어서도 정서적 상호작용을 긍정적으로 유도하기에 이점이 있을 것으로 보인다. 특히 딥러닝 기반 음성합성 기술의 발달은 이러한 한계를 보완할 수 있는 새로운 가능성을 제시하고 있다. 특히 사용자의 목소리를 학습해 유사한 음색을 생성할 수 있는 Voice AI 기술은 부모가 아이에게 직접 동화를 읽어주는 듯한 경험을 줄 수 있다는 점에서 주목된다. 본 연구는 이러한 기술을 기반으로 부모의 목소리를 학습한 AI 음성을 활용한 오디오북 콘텐츠 ‘척척북스’를 제작하고, 이를 통해 부모의 부재 시에도 자녀가 정서적 유대감을 경험할 수 있는 콘텐츠 가능성을 탐색하고자 한다. 선행연구에 따르면 부모의 목소리와 같은 비언어적 자극은 영유아의 안정감, 애착 형성에 긍정적 영향을 미치며[3],[4], 이는 이후 언어 발달이나 사회적 관계 형성의 기초가 된다[5]. 특히 초기 아동기에는 낯선 음성보다는 익숙한 목소리를 통해 더 높은 몰입과 반응이 나타나는 경향이 보고되고 있으며[6], 이는 맞춤형 AI 콘텐츠가 줄 수 있는 감정적 요인에 대한 실증적 근거가 된다.

본 연구에서 살펴보고자 하는 오디오북에 대한 부모의 행동의도에 미치는 요인들을 밝혀보고자 한다. 오디오북은 자녀가 콘텐츠를 접하지만 특히 영유가이게는 주로 부모가 콘텐츠를 선택하게 된다. 따라서 부모가 AI 콘텐츠를 선택하게 되는 행동요인에 대한 분석이 필수적이지만, 이론적 그리고 실증적 분석은 부족한 실정이다. 또한, 기술 자체에 대한 수용 여부나 태도에 초점을 맞춘 기존 연구들과 달리, 실제 콘텐츠를 접한 부모들이 어떤 감정적 반응과 해석을 보이는지에 대한 심층적 논의는 미비하다. 더불어 행동의도는 통합기술수용이론(UTAUT; Unified Theory of Acceptance and Use of Technology)에서 제시되는 개념으로 기술에 영향을 미치는 요인을 분석하는 모형으로 행동의도는 행동의 요인을 파악하는 주요 요인이다. 본 연구는 TTS와 AI기반 Voice 오디오북의 기술수용성을 분석함에 따라 서로 다른 오디오북의 음성기술이용에 따른 기술수용성 변화를 확인해보고자 한다.

이에 본 연구는 기계음 기반 오디오북과 Voice AI 기반 콘텐츠를 비교하여, 부모가 영유아 교육에 있어서 AI를 활용하고자 하는 수용도의 차이를 중심으로 부모의 인식과 반응을 분석하고자 한다. 특히 단순히 기술 수용도를 수치화하는 것을 넘어, 각 프로토타입을 영상으로 직접 제작하고 실험을 통해 체험한 부모들의 실험 후 설문조사를 통계적으로 분석함과 동시에 추가 정성의견을 받는 두 단계의 실험을 진행한다. 이를 통해 기술수용성의 측면에서 Voice AI의 유아용 디지털 콘텐츠 활용 효과를 실증적으로 밝히는 것을 연구의 목적으로 한다. 이를 통해 향후 AI 기반 유아용 콘텐츠 개발 시 설계와 AI활용의 가능성과 효과를 보였다는 점에서 의의가 있다. 연구에서는 국내외 인공지능 수용 연구에서 널리 이용되는 통합기술수용이론(UTAUT; Unified Theory of Acceptance and Use of Technology)을 이용한 연구모형을 활용하였다[6].

1-2 연구의 목적

본 연구는 인공지능(AI) 기술이 적용된 오디오북 콘텐츠에 대한 부모의 인식과 행동의도 영향을 미치는 요인들에 미치는 영향을 밝힘으로써 수용 효과를 실증적으로 분석하는 데 그 목적이 있다. 특히 최근 주목받고 있는 딥러닝 기반 음성합성 기술인 Voice AI를 활용하여, 부모의 목소리를 모사한 AI 음성과 기존의 기계음 기반 콘텐츠 간의 정서적 수용도 및 기술 수용도의 차이를 비교하고자 한다. 기존의 디지털 동화 콘텐츠는 주로 정보 전달이나 교육적 효과에 초점을 맞추는 경향이 있었으나, 부모의 음색을 반영할 수 있는 AI 기술은 영유아에게 보다 강력한 정서적 유대감을 형성할 수 있는 가능성을 제공한다. 실제로 선행연구에서는 익숙한 음성이 영유아의 안정감, 애착 형성, 몰입 등에 긍정적 영향을 미친다고 보고되고 있으며[6], 이는 맞춤형 AI 음성이 정서적 반응에 유의미한 영향을 줄 수 있음을 시사한다. 따라서 본 연구는 AI 기반 동화 콘텐츠의 기술적 차이가 부모의 정서적 반응 및 교육적 수용도에 어떤 영향을 미치는지를 탐색하고, 정서적 매개로서의 디지털 콘텐츠의 가능성을 실증적으로 검토하고자 한다.


Ⅱ. 본 론

2-1 오디오북과 오디오북의 교육적 활용

오디오북은 음성 기반의 매체로서, 텍스트 정보를 청각적으로 제공함으로써 학습자의 상상력과 언어 습득을 촉진하는 데 효과적인 도구로 평가받고 있다. 특히 유아 대상 오디오북은 언어 노출의 기회를 확장하고, 이야기를 듣는 과정에서 감정 이입과 몰입 경험을 유도함으로써 정서 발달에도 긍정적 영향을 미친다. 이와 같은 특성은 오디오북이 시각적 자극에 의존하지 않으면서도 정서적 교감을 유도할 수 있는 학습 매체로 활용될 수 있음을 시사한다. 한편 오디오북은 디지털 동화책의 청각 자극에 시각적 요소와 인터랙티브한 기능이 결합된 형태로, 최근 다양한 교육 환경에서 주목받고 있다. 디지털 동화 콘텐츠는 유아에게 익숙한 이야기 구조를 기반으로 시청각 자극을 동시에 제공하여 몰입감을 높이고, 언어 표현 능력과 어휘 습득을 촉진하는 데 효과가 있는 것으로 보고되고 있다[7]. 특히 반복 청취가 가능한 음성 기반 콘텐츠는 유아의 흥미와 집중을 유도하며, 정보 전달을 넘어 정서적 반응을 유발하는 데도 긍정적 역할을 한다.

2-2 기존 서비스 사례와 차별성

현재 상용화된 오디오북 서비스 중 일부는 유아용 동화 콘텐츠를 제공하고 있으나, 대부분은 전문 성우의 목소리 혹은 기계음 기반 음성 합성에 의존하고 있다. 예를 들어, 그림 1과 같은 Amazon의 Alexa Story Time 기능이나 그림 2와 같은 Google의 Read Along 앱은 간단한 TTS 기반 스토리텔링 기능을 제공하지만, 정서적 교감을 고려한 설계는 부족한 실정이다. 국내에서도 카카오 i 오디오북 등에서 유아 콘텐츠를 운영하고 있으나, 콘텐츠는 대부분 고정형 음성으로 제공되며, 부모의 개입이나 맞춤형 음성은 적용되지 않는다.

Fig. 1.

Amazon Alexa Storytime

Fig. 2.

Google Read Along

이와 달리 본 연구는 부모의 목소리를 AI로 학습한 콘텐츠를 통해, 사용자 개인화와 정서적 연결감을 동시적으로 확보할 수 있는 가능성을 검토한다는 점에서 차별적인 의의를 지닌다. 특히 기존 연구들이 기술 수용성이나 기능적 효용성에 초점을 맞추었다면, 본 연구는 콘텐츠에 대한 감정적 반응과 몰입 경험을 중심으로 한 정서 기반의 사용자 인식을 분석함으로써, AI 음성 기술의 교육적 적용에 새로운 관점을 제시하고자 한다.

2-3 AI 음성 기술의 발달과 교육 콘텐츠와의 융합과 그 효과

기존 TTS(Text-to-Speech) 기술은 단순히 문자를 음성 콘텐츠로 변환시켜주는 기술로 감정표현과 억양 조절이 제한적인 기술로 여겨졌다. 하지만 AI기술 발달로 변화된 음성 콘첸츠 기술은 기존의 기계적이고 일률적인 음성에서 벗어나 감정 표현과 억양 조절이 가능한 수준으로 진화하고 있다. Tacotron, WaveNet, Voice AI 등과 같은 신경망 기반 합성 기술은 단순한 문자-음성 변환을 넘어 특정 화자의 음색과 말투를 정밀하게 재현할 수 있으며, 이는 교육 콘텐츠 제작에서도 맞춤형 접근을 가능하게 한다. 특히 부모의 음성을 학습하여 생성하는 기술은 자녀에게 익숙하고 친숙한 정서 자극을 제공함으로써, 학습 몰입도를 높일 수 있는 가능성을 지닌다. AI 기반 음성 콘텐츠에 대한 연구는 아직 초기 단계에 있으나, 최근 몇몇 연구에서는 음성의 감정 표현 여부, 음색의 자연스러움, 그리고 청취자의 인지적·정서적 반응 간의 관계를 실증적으로 분석하고 있다. 일반적으로 기계적 음성과 비교할 때, 감정 표현이 가능한 음성 또는 화자의 실제 목소리에 가까운 자연스러운 음성은 청취자의 인지적 수용성, 몰입도, 그리고 신뢰 형성에 있어 더욱 긍정적인 영향을 미치는 것으로 나타났다[8]. 특히, 설명형 화체 에이전트를 활용한 실험에서는 TTS 음성의 정서적 억양 조절이 가능할 때 사용자 경험의 만족도, 동기 유발, 신뢰 수준이 유의미하게 향상된다는 결과가 보고되었다.

2-4 통합기술수용이론과 AI음성기술의 효과

통합기술수용이론(UTAUT)은 Venkatesh et al.[9]의 연구를 통해 제시되었으며, 이 이론은 기술과 관련된 기술수용모델, 합리적 행위 이론을 포함한 8가지 주요 기술 관련 이론을 통합하여 구축한 연구모델이다. 이 연구 모델을 기술수용과 관련된 핵심요인을 규명하고 소비자의 행동의도를 파악하는데 효과적인 모델로 평가된다. 본 연구에서는 Voice AI 연구 특성에 맞추어 Voice AI 활용의 행동의도에 영향을 미치는 것으로 제시되었던 변수들로 선정하였다. 이들은 성과기대(Performance Expectancy), 노력기대(Effort Expectancy), 사회적 영향(Social Influence), 그리고 촉진조건(Facilitating Conditions)이다. 행동의도는 Venkatesh et al.[9]의 연구에서 구체적인 정의를 하지 않았지만 설문 문항을 종합적으로 고려하였을 때 본 연구의 맥락에서는 오디오북을 이용하려는 의도의 정도로 볼 수 있다. 따라서 오디오북을 이용하려는 의도에 영향을 주는 변수들을 살펴봄으로써 AI동화책의 사용하려는 의도가 왜 변화하는가를 살펴볼 수 있다. 그 결과 서비스 이용자가 아님에도 선택하는 입장의 부모의 관점에서 이용을 하는 요인 변수들에 미치는 영향을 밝힘으로써 보다 본 실험의 맥락에 적절한 모델을 갖추었다고 할 수 있겠다. 또한, 본 연구는 주로 기능적 변인의 요인을 살폈던 UTAUT 모델에서 기능적 변인에 대한 인식으로써 정서적 요인인 정서적 교감이 영향을 살펴보고자 한다[10],[11].

먼저 성과 기대는 Voice AI 활용이 오디오북의 성과를 향상시키는데 도움을 줄 것이라고 믿는 정도로 정의된다. Voice AI 활용은 보다 사람에 가까운 음성 콘텐츠를 제공함으로써 TTS를 이용한 오디오북과 비교하여 정서적 교감에 도움이 된다. 이는 청취자의 인지적 수용, 몰입 그리고 신뢰형성에 도움이 될 것이다. 이에 따라 첫 번째 가설을 제시한다.

가설 1: Voice AI를 이용한 오디오북 이용자는 TTS를 이용한 오디오북 이용자보다 성과기대가 더 높을 것이다.

본 연구에서 살펴보고자 하는 두 번째 가설은 노력기대로 이는 이용자가 기술을 사용하기 위한 노력의 용이한 정도를 의미하며 이는 기술 사용 초기 단계에서 극복하는 것이 중요하다[12]. Voice AI 이용에 따른 정서적 교감은 TTS를 이용한 오디오북보다 신뢰형성에 영향을 미쳐 성과기대가 더 높을 것으로 예상한다.

가설 2: Voice AI를 이용한 오디오북 이용자는 TTS를 이용한 오디오북 이용자보다 노력기대가 더 높을 것이다.

세 번째로는 사회적 영향에 미치는 영향을 살펴보고자 한다. 사회적 영향은 특정 기술의 사용에 대해 이용자와 가까운 인물들의 긍정적지지 정도를 의미한다[9]. AI의 디지털 콘텐츠 활용은 디지털동화책을 넘어 최근 가장 대두되는 기술 활용으로, 이 기술의 활용은 TTS 기술 활용보다 사회적 영향에 긍정적인 영향을 미칠 것으로 예상한다.

가설 3: Voice AI를 이용한 오디오북 이용자는 TTS를 이용한 오디오북 이용자보다 사회적 영향이 더 높을 것이다.

마지막으로는 촉진조건에 미치는 영향을 살펴보고자 한다. 촉진조건은 촉진조건은 이용자가 기술 사용에 필요한 기반 갖춰져 있다고 인식하는 정도를 의미한다[9]. 최근 AI 활용의 증가는 AI 관련 기술이 각 분야에서 사용화 가능한 수준에 이르렀음을 의미한다. 이에 따라 오디오북 활용은 기술의 정도가 활용 기반이 갖추어져 있다고 인식하기 쉬울 것이다. 이에 따라 다음과 같은 네 번째 가설을 제시한다.

가설 4: Voice AI를 이용한 오디오북 이용자는 TTS를 이용한 오디오북 이용자보다 촉진조건이 더 높을 것이다.


Ⅲ. 연구 방법

3-1 실험 설계

연구에서 살펴보고자 하는 부모의 기술수용성의 차이를 검증하는 변수는 Venkatesh et al.[9]의 연구를 기반으로 한다. 본 연구는 통합기술수용모델(UTAUT)을 제시하며, 연구에서 제시되는 모델은 성과기대(performance expectancy), 노력기대(effort expectancy), 사회적영향(social influence), 촉진조건(facilitating conditions)의 네 가지 핵심 구성요인으로서 행동의도를 예측한다. 더불어 본 연구 모델은 다수의 연구에서 활용되며 기술수용의도를 파악하는 모델로 이용되었다[13],[14].

본 연구에서는 네 가지 핵심 구성요인을 측정하기 위해 기존 UTAUT모델을 제시한 논문의 저자가 공저한 Venkatesh et al.[15]의 연구에서 제시된 질문 중 본 연구와의 유사성을 고려하여 성과기대(performance expectancy), 노력기대(effort expectancy), 사회적영향(social influence), 촉진조건(facilitating conditions), 행동의도(Behavioral Intention) 각 5가지 변수에 대한 질문을 추출하고 맥락에 맞게 변경하였으며, 각 질문은 표 1과 같다.

Measurement tools and measurement items

피 실험자의 설문에 대항 응답의 정확성을 확인하기 위해 촉진조건 측정을 위한 4번째 문항을 역문항으로 구성하였으며 답변의 일관성을 고려하여 부정확하다고 판단되거나 답변을 하지 않은 항목이 확인되는 경우 분석 대상에서 제외하였다.

본 연구에서는 두 가지 단계의 동화책 영상을 시청한 이후, 설문을 통해 기술 수용도를 측정하는데 이는 기기나 콘텐츠를 접하는 환경의 영향을 최소화하기 위함으로 동일한 설문 대상에게 2단계의 실험을 진행하였다. 1단계는 기계 음성이 포함된 오디오북, 2단계는 Voice AI 기술로 부모 음성을 구현한 동화책으로 구성되었다.

연구의 실험을 위해서는 척척북스라는 가상 오디오북 서비스를 사용하였다. 이 서비스는 제시한 오디오와 이미지를 활용한 오디오북 서비스로, 본 연구에서 이용된 오디오북은 영유아의 칫솔질 이라는 친숙한 주제를 기반으로 제작하였다. 콘텐츠 주제는 부모의 입장에서 친숙하고 기본적인 양육과 연결된 콘텐츠를 제공한다는 점에서 실험에 보다 몰입할 수 있을 것으로 예상하여 해당 콘텐츠를 선정하였다. 더불어 단순 설문 외에도 추가적인 피실험자들의 의견을 받지 위해 일부 서술형 응답을 받았다.

3-2 실험 콘텐츠 구성

본 연구는 ‘척척북스’라는 가상의 AI 디지털 콘텐츠 제작 플랫폼을 활용하였다. AI 음성 기술이 적용된 오디오북 콘텐츠에 대한 부모의 인식과 수용도를 비교하기 위하여, 총 2단계로 구성된 실험용 프로토타입 영상을 제작하였다. 각 단계는 음성 기술의 적용 방식에 따라 구분되며, 이를 기반으로 온라인 설문을 실시하였다. 디지털동화책의 내용 구성이나 이미지 차이 등 콘텐츠 구성에 따른 영향의 차이를 통제하기 위해 모든 콘텐츠 흐름과 이미지는 동일하게 구성하였으며, 소리만 기계 합성 음성과 Voice AI 합성 음성을 활용한 콘텐츠를 각각 생성하였다.

Fig. 3.

"Chuckchuck Books" service screen

설문은 Google Forms 플랫폼을 활용하여 진행되었으며, 실험 자극물 영상 시청 후 각 단계에 대한 평가 문항에 응답하는 방식으로 구성되었다. 1단계 프로토타입(이하 실험 1)은 현재 상용화되어 있는 디지털 동화 콘텐츠와 유사한 형태로, 기계 합성 음성을 기반으로 제작되었다. 사용된 음성은 TTS 기술을 통해 생성된 표준 여성 음성으로, 이야기 전체에 걸쳐 일관된 억양과 속도를 유지하는 일반적인 기계음으로 구성되었다. 이 단계는 기존 디지털 학습 콘텐츠와의 비교 기준으로 기능하며, 감정 표현이나 음색의 개인화 요소가 포함되지 않은 상태를 반영한다.

2단계 프로토타입(이하 실험 2)은 부모의 음색을 기반으로 한 Voice AI 합성 음성을 활용하여 제작되었다. 실험에 사용된 Voice AI 생성을 위해 네이버 클로바 더빙 프로그램을 사용하였다. 클로바 더빙은 텍스트에 AI를 활용한 Voice AI를 제공하여 동일하게 글자를 읽는 방식에서 TTS 기술을 활용한 것인지, 아니면 AI를 활용한 Voice AI를 사용하는 것인지를 비교할 수 있다는 측면에서 적합한 플랫폼으로 판단하였다. 해당 서비스는 사전 녹음된 부모의 목소리를 바탕으로 유사한 음색의 음성을 생성하는 기술을 기반으로 하며, 실험의 목적에 부합하는 수준의 개인화된 정서적 음성 자극을 제공한다.

선택된 음성은 제공되는 보이스 중 개인 유저가 본인의 목소리를 Voice AI화 하여 제작된 여성 청년의 목소리를 나타내는 ‘히애’캐릭터의 목소리와 아빠목소리는 부드럽고 젊은 아빠 캐릭터인 ‘수아아빠’캐릭터의 목소리이다. 모든 음성 자극은 동일한 동화 내용과 길이를 기준으로 구성되어, 음성 방식에 따른 몰입 경험의 차이를 비교할 수 있도록 하였다. 실험에 사용된 Voice AI와 TTS가 적절히 이용되었는지를 확인하기 위해 PESQ나 MOS와 같은 음성 품질의 정량된 평가를 진행함이 바람직히다. 다만, 일반적으로 음성 품질 검사 목적으로 진행된다는 점, 그리고 추가 분석으로 진행한 정성분석에서 유의한 차이가 있음을 의미하는 다수의 피실험자의 의견을 바탕으로 해당 분석을 실시하지 않았다.

참여자에게는 두 개의 프로토타입 영상이 동일한 조건 하에서 제시되었으며, 각 영상 이전에 생성형 스토리와 생성형 이미지로 동화책을 만드는 과정을 동일하므로 영상이 아닌 상황으로 제시를 하여 동영상에 더 몰입할 수 있게 제공했다. 그 후 각 영상 시청에 대한 평가 항목에 응답하도록 설계되었다. 영상을 시청하기 전에는 실제 부모와 자녀 간의 일상적인 독서 상황을 반영한 구체적인 시나리오와 함께 제공되었으며, 참여자가 콘텐츠의 몰입도와 현실감을 느낄 수 있도록 내러티브적 맥락을 강화하였다. 또한, 음성 자극의 효과를 성별에 따라 더 정밀하게 평가하기 위해, 남녀 버전의 콘텐츠를 별도로 제작하고 성별에 맞는 자극물을 제시하였다. 이와 같이 본 연구의 실험 콘텐츠는 기술 구현의 현실성과 응답자의 정서적 반응 유도를 고려하여 설계되었으며, AI 기반 음성 기술의 교육 콘텐츠 적용 효과를를 실증적으로 검토하기 위한 기초 자료로 활용되었다.

3-3 표본

사전 실험 결과 연구에 사용된 설문의 신뢰성이 타당하다고 볼 수 있음에 따라, 연구에 적합한 피실험자를 모집하였다. 본 연구는 자녀를 가진 부모의 기술수용의도를 파악하고자 한다. 이에 따라 본 연구의 분석 대상은 만 0세에서 6세 사이의 자녀를 현재 양육 중인 부모를 실험 대상으로 설정하였다. 자녀가 있거나 육아 경험이 있는 부모를 대상으로 하는 이유는 부모의 Voice AI 사용에 따른 부모의 기술수용도 변화를 살펴보고자 하는 연구 목적에 맞추기 위함이다. 통상 오디오북은 어린 자녀를 대상으로 만들어지며, 서점가에서 판매되는 버튼형 오디오북의 경우 우아용 책으로 분류되어있다. 하지만, 자녀가 영유아기를 지난 이후에도 오디오북에 대한 이해도는 지속적으로 이어질 수 있으며, 본 실험에서 자녀 연령을 0~만6세, 그리고 그 이상인 경우를 구분하여 기술수용도 차이를 분석해본 결과 유의한 차이가 없는 것으로 확인되었다.

만 7세를 기준으로 추가분석을 진행한 이유는 초등학교 입학에 따른 오디오북에 대한 학부모의 기술수용도의 변화를 확인하기 위함이다. 더불어, 어린이집에서 유치원으로의 커리큘럼 변화가 오는 0~만3세와 그 이상의 자녀를 둔 부모를 비교분석한 결과에서도 동일하게 차이가 없는 것으로 확인 되었다. 만 4세를 기점으로 한 추가 분석은 유치원 입학에 따른 자녀의 커리큘럼 변화가 부모의 오디오북에 대한 기술수용성에 영향을 미치는가를 확인하기 위함이다. 이에 따라 표본은 자녀를 가진 모든 부모를 대상으로 설정하였다. 연구 참여자는 육아 관련 온라인 커뮤니티, 블로그, 육아 카페를 통해 모집하여 구글 독스를 통해 실험용 콘텐츠를 접하며 설문에 응하도록 구성되었다. 동일한 집단이 주로 모이는 커뮤니티를 대상으로 함에 따라, 연구 대상이 아닌 특정 관심사를 가진 집단의 영향으로 인한 편견(Bias)의 영향을 최소화 하고자 하였으며, 2단계 실험을 진행함에 따라 콘텐츠를 접하는 기기나 인터넷 환경 등 실험 환경이 변함에 따른 영향을 최소화하도록 하였다. 설문 결과 최종적으로 여성 40명, 남성 34명이 연구에 참여하였으며, 답변을 하지 않은 항목이 포함된 표본을 제외하여 으로 총 73명의 설문 응답에 대한 분석을 진행하였다. Voice AI 기반 콘텐츠(Group 2)와 TTS 기반 콘텐츠(Group 1)에 대한 각 수용 요인의 평균 차이를 비교한 결과는 표 2에 제시하였다.

Results of T-test on parental acceptance factors between TTS and voice AI-based audio storybooks

3-4 분석

Voice AI를 활용한 오디오북 콘텐츠와 TTS기술을 활용한 오디오북 간의 학부모 기술수용성 차이를 분석하기 위해 각각의 단계에 대한 실험 집단을 구분하고 T-검정을 실시하였다. 각 변수에 대한 분석은 통계패키지인 Stata 11.0을 활용하였다.

3-5 자료 분석

먼저 사전 실험과 마찬가지로 본 실험 결과의 4개의 변수 별 설문 항목의 신뢰성 분석을 진행하였다. 각 변수에 대한 크론바흐 알파(Cronbach’s alpha)값을 추정해 본 결과 노력 기대(Effort Expectancy)변수가 최저로 0.83, 사회적 영향(Social Influence) 변수가 최고 값인 0.94로 나타났다. 모두 0.8 이상인 값이 추출되어 일반적인 신뢰성의 기준 값인 0.7보다 높은 값을 나타내었다[16]. 따라서 본 연구에서 사용한 설문의 신뢰성은 타당하다고 볼 수 있다 .

본 연구에서 살펴보고자 하는 5가지 변수에 대한 콘텐츠 경험에 따른 집단 별 각각 변수의 기초 통계량은 표 2와 같으며, 이 값의 차이의 유의성을 판단하는 T검정 결과는 표 2와 같다.

먼저, 가설 1 ‘Voice AI를 이용한 오디오북에 대한 성과기대는 TTS 보이스를 이용한 오디오북보다 높을 것이다’를 검증하기 위해 서로 다른 목소리 콘텐츠를 제공하는 오디오북에 대한 성과기대를 살펴보았으며, 분석 결과는 표 2의 첫번째 변수인 ‘성과기대(Performance Expectancy)’와 같다. 분석 결과, Voice AI 목소리를 이용한 오디오북에 노출된 경우에 TTS 기반 오디오북을 접한 경우보다 성과기대가 0.94 더 높은 것으로 나타났다. 이 평균의 차이의 유의성을 확인하기 위해 T검정을 통해 유의확률을 추정하였다. 표 2의 T 검정 결과에 따르면 T값은 5.5, 유의확률은 0.000(p<0.05)으로 매우 유의한 것으로 나타났다. 이에 따라 가설 1은 지지되었다.

다음으로 가설 2 ‘Voice AI를 이용한 오디오북에 대한 노력기대는 TTS 보이스를 이용한 오디오북보다 높을 것이다’를 검증하기 위해 노력기대 변수의 평균값을 추정해보았다. 분석 결과, Voice AI 오디오북을 접한 경우가 TTS 오디오북을 접한 경우보다 0.08더 높은 것으로 확인되었다. 가설1과 동일하게, 이 차이가 유의한지 검정해 보기 위해 T검정을 실시하였다. 그 결과 T값은 0.58, 유의확률이 0.27(p>0.05)로 유의하지 않은 것을 확인하며 Voice AI를 접한 경우와 TTS 보이스 오디오북을 접한경우의 노력기대의 차이가 있다고 볼 수 없다. 이에 따라 가설 2는 기각되었다.

3번 가설은 ‘Voice AI를 이용한 오디오북에 대한 사회적 영향은 TTS 보이스를 이용한 오디오북보다 높을 것이다.’이다. 이를 검증하기 위해 노력기대 변수의 평균값을 추정해보았다. 분석 결과, Voice AI를 접한 경우가 TTS 오디오북을 접한 경우보다 0.95 더 높은 결과를 보인 것을 확인하였다. 동일하게, 이 차이의 유의성을 검정해 보았다. T 분석을 통해 값을 검정한 결과 유의확률이 0.000(p<0.05), T값은 5.5로 매우유의한 것을 확인하였다. 이에 따라 가설 3 또한 지지되었다.

다음으로는 가설 4 ‘Voice AI를 이용한 오디오북에 대한 촉직 조건은 TTS 보이스를 이용한 오디오북보다 높을 것이다.’를 검증하기 위해 촉진조건 변수의 평균값을 추정해보았다. 분석 결과, Voice AI 오디오북을 접한 경우가 TTS 오디오북을 접한 경우보다 0.03 더 높은 것으로 확인되었다. 앞선 가설들과 동일하게, 이 차이가 유의한지 검정해 보기 위해 T검정을 실시하였다. 분석 결과 T값은 0.33, 유의확률이 0.37(p>0.05)로 평균값의 차이는 유의하지 않은 것을 확인하였다. 이에 따라 가설 4는 기각되었다.

마지막으로 5번 가설인 ‘Voice AI를 이용한 오디오북에 대한 사용의도는 TTS 보이스를 이용한 오디오북보다 높을 것이다’이다. 가설 검증하기 위해 사용의도 변수의 평균값을 추정해보았다. 분석 결과, Voice AI를 접한 경우가 3.14 TTS 오디오북을 접한 경우가 2.45로 Voice AI를 접한 경우가 0.69 더 높은 결과를 보인 것으로 나타났다. 이 평균의 차이의 유의성을 검정하기 위해 T 분석을 실시하였다. 그 결과 유의확률이 0.000(p<0.05), T값은 3.9로 매우유의한 것을 확인하였다. 이에 따라 마지막 가설 또한 지지되었다.

3-6 추가 분석

앞선 분석과 더불어 궁극적으로 행동의도에 영향을 미쳤는지 그리고 이용자들이 느끼는 효과를 복합적으로 분석하기 위해 정성분석을 실시하였다. 먼저 본 연구를 실시하며 행동의도를 아래 표 3에서 제시된 4가지 질문을 통한 결과를 5점 Likert scale의 평균 값으로 추출하였고, 동일하게 T-test를 진행하였다. 앞선 변수 추출과 동일하게 설문에서 사용된 문항은 선행연구를 기반으로 본 연구의 맥락에 맞게 변형하였다. 분석 결과 Voice AI를 사용한 경우가 TTS목소리를 사용한 경우보다 행동의도가 0.68 더 높은 것으로 확인되었으며, T값의 유의수준을 확인한 결과 그 차이가 유의한 것으로 확인되었다. 이에 따라 앞서 분석한 성과기대와 사회적 영향의 효과로 인해 행동의도가 더 높어졌다고 볼 수 있다.

Survey items for measuring behavioral intention

또한 정량 분석 결과인 표 4를 보았을 때, 2단계(Voice AI 기반) 콘텐츠가 1단계(기계음 기반)보다 전반적으로 더 높은 수용도를 보인 것으로 나타났다. 이러한 차이를 보다 정밀하게 해석하기 위해 단계별 콘텐츠를 시청한 이후, 참여자들에게 자율적으로 정성 의견을 작성하도록 요청하였고, 해당 응답들을 정성적 관점으로 분석하고자 하였다. 해당 응답은 1단계 52건, 2단계 36건으로 구성되었다.

T-test results for behavioral intention between voice AI-based and TTS-based digital storybooks

1단계 콘텐츠에 대한 다수의 응답은 음성의 기계적 특성과 감정 표현의 부족에 기인한 낮은 몰입도를 지적하고 있었다. “기계 톤이라 아이가 흥미를 금방 잃었다”, “로봇이 읽어주는 것 같아 어색하다”, “감정이 느껴지지 않아 교감이 어렵다” 등의 반응은, 정보 전달 측면에서는 가능하지만 정서적 몰입을 유도하는 데에는 한계가 있음을 보여준다. 특히 “정서 없이 말만 읽는 느낌”, “일방적인 시청”과 같은 표현은, 부모 입장에서 콘텐츠가 자녀와의 상호작용을 대신할 수 없다는 인식을 드러낸다. 반면, 2단계 콘텐츠는 보다 자연스러운 음성과 감정 전달로 인해 긍정적인 평가를 받았다. “엄마 목소리처럼 들려서 친근했다”, “감정이 담겨 있어 몰입이 쉬웠다”, “아이 반응이 달라졌다”는 응답이 반복되었으며, 일부는 “실제로 읽어주는 것 같은 느낌”, “정서적으로 안정감을 준다”는 의견도 나타났다. 이는 Voice AI 기술이 부모 음성을 모사하는 수준을 넘어, 청각적 친숙성과 정서적 안정감을 제공하는 요소로 기능했음을 시사한다. 이러한 응답 패턴은 단순히 콘텐츠의 기술적 정교함 차이가 아닌, 부모가 콘텐츠를 통해 자녀와 정서적으로 연결될 수 있는가에 대한 기대와 평가가 수용도에 영향을 미쳤음을 의미한다. 이는 기존 TTS기반 음선 콘텐츠가 감정 표현이나 억양 조절의 한계로 감성적인 교감이 부족했던 반면, Voice AI 음성의 감성적 교감으로 인한 정서적 안정으로 콘텐츠에 대한 기술수용성이 높아졌다고 볼 수 있다. 특히 음성 기반 콘텐츠의 경우, 학습이나 정보 전달 효과뿐만 아니라 감정 표현 가능성, 이야기 전달의 리듬과 억양, 심리적 거리감 등이 수용 의사 결정에 중요한 요인으로 작용한다는 점에서 기존의 기술 수용 모델로는 포착하기 어려운 해석 지점을 제시한다. 이러한 정성 분석은 키워드를 기반으로 한 내용분석(coding)이나 주제화(thematic analysis)가 진행됨이 일반적이나, 본 연구에서 살펴보고자 하는 핵심 요인외에 추가 분석인 부분으로 추가 분석은 실지하지 않았다.

이러한 한계에서 불구하고 이러한 결과는 정량적 차이를 넘어, 실사용자의 감정적 반응과 맥락적 판단이 AI 기반 콘텐츠 수용에 있어 핵심 역할을 수행함을 보여주며, 향후 유아용 콘텐츠 설계 시 감정 표현 가능성과 정서적 반응성을 중심으로 한 설계 요소의 중요성을 강조한다.


Ⅴ. 결 론

본 연구는 최근 떠오르는 AI에 대한 온라인 콘텐츠로의 활용에 있어 오디오북 분야에 Voice AI 활용에 대한 효용을 기술수용모델을 활용하여 기술 수용 관점에서 살펴보았다. 특히 일반적으로 오디오북에 사용되는 TTS방식의 대안으로 Voice AI 활용에 따른 효용을 살펴보고자 하였다. 최근 AI 활용도가 높아짐에 따라 콘텐츠의 일부로 AI의 활용은 실무적 그리고 이론적으로도 많은 분석이 진행되고 있다(참고문헌추가). 하지만 디지털동화책 콘텐츠에의 적용에 따라 어떻게 오디오북 분야에서 콘텐츠의 확대가 늘어날 것으로 예상되는지를 실증적으로 분석한 연구는 미비한 상황이다. 본 연구에서는 실제 프로토타입을 생성하고 실험을 진행함으로써 부모의 수용성에 미치는 원인을 살폈다는 점에서 그 의의가 있다.

연구에서는 성과기대, 노력기대, 사회적 영향력, 촉진조건의 네 가지 변수의 차이를 살펴보았으며 가설 1번 그리고 3번과 관련된 성과기대와 사회적 영향력이 유의하게 Voice AI를 활용한 경우가 더 높은 것으로 확인되었다. 이는 Voice AI가 기존 TTS 기반 오디오북 대비 감정적 교감을 더 높여 동화책을 접함에 따른 성과기대가 높고 사회적 영향력이 증가된 결과로 해석된다.

반면 노력기대외 촉진조건은 그 차이가 유의하지 않은 것으로 나타났다. 노력기대는 사용자의 노력이 용이한 정도를 의미하지만 사실 일방향적으로 소리와 영상을 접하는 오디오북의 특성상 유의한 차이가 나지 않은 것으로 보인다. 이는 오디오북 콘텐츠에 인터렉션의 요소가 가미되었을 때로 후속 실험을 진행하여 가설에서 제시되었던 감정적 교감의 효과에 따른 영향을 살펴볼 수 있을 것으로 기대한다. 따라서 오디오북의 구조에 따른 조절효과를 살펴보는 것을 후속연구로 삼을 수 있겠다.

가설 5번인 촉진조건에 미치는 영향 또한 기각되었는데, 이는 Voice AI가 최신 기술로 오히려 기술에 대한 사용 기반은 생성단계로 더 모자라다고 느꼈을 가능성이 있었을 것으로 예상된다.

본 연구의 결과는 이론적 그리고 실무적 시사점을 제시한다. 먼저 이론적으로 단순이 AI를 이용하는 이용자 관점이 아니라 이를 주로 이용하지 않는 입장에서도 그 행동의도에 영향에 영향을 미치는 요인변수들에 미치는 영향을 밝혔다는 점에서 AI 오디오북을 직접 이용하지 않는 입장에서도 어떠한 요인으로 선택을 할 수 있는지 그 요인에 대해 이론적 그리고 실증적으로 보여다는 점에서 시사점이 있다. 특히 기술수용성을 살피는 UTAUT모델을 활용하여 영향을 미치지 않는 요인까지 함께 살펴볼 수 있었다. 더불어 UTAUT모델 연구에 있어서도 기존에 살펴보지 못했던 TTS기반 그리고 AI기반 Voice AI 콘텐츠의 영향을 실험으로 비교분석하였다는 점에서 그 의의가 있다.

실무적으로 본 연구는 AI 오디오북에서 소비자들이 어떠한 요인으로 해당 콘텐츠를 선택하는지에 대한 분석을 제시함으로써 콘텐츠와 마케팅 설계에 대한 시사점을 제시한다.

이러한 시사점에도 불구하고 본 연구는 몇 가지 한계점 또한 존재한다. 첫 째, 아이들을 대상으로 하는 콘텐츠의 특성 상 아이들이 느끼는 효과를 직접적으로 측정하지 않았다는 점에서 한계가 있다. 둘 째, 본 연구는 실험을 설계 하였음에도 온라인으로 랜덤 샘플링을 함, 그리고 각자 온라인으로 콘텐츠를 접하는 환경을 기반으로 함에 따라 외부 환경의 요인을 완전히 통제하지 않았다는 점에서 한계가 있다. 셋 째, 본 연구는 정서적 요인이 각 변수에 영향을 미쳤음을 이론적으로 고찰하공 있지만, 이에 대한 정량적인 분석을 진행하지 않았다는 점에서 그 한계가 있다. 마지막으로 부모의 음성을 모방하는 AI의 기술수용성 연구라는 점에서 이를 고려하여 측정하는 부분이 부족하였다.

이러한 불구하고 본 연구는 그 외 환경적 요인을 통제하고 콘텐츠의 구성에서 목소리 외 요인들을 통일하여 외부 요인의 영향을 최소하 하였다.

후속 연구는 앞선 한계점을 극복하는 동시에 기술수용모델에서 제시되는 변수 외 기술 수용에 미치는 추가적인 요인들을 살펴보는 방향으로 진행할 수 있겠다. 이 연구가 AI콘텐츠 활용의 가능성과 효과를 밝히는 연구에 기여하길 기대한다.

References

  • S. Y. Shin, S. M. Lee, and H. J. Park, “A Study on the Work-Life Balance and Support Measures for Dual-Income Couples: Focusing on In-Depth Interviews,” Journal of the Korea Wellness Society, Vol. 19, No. 4, pp. 47-55, 2024. [https://doi.org/10.21097/ksw.2024.11.19.4.47]
  • T. E. Kim, “A Study on the Production of Children’s Storybooks Using Augmented Reality Technology,” The Journal of Digital Contents Society, Vol. 18, No. 3, pp. 435-442, 2017. [https://doi.org/10.9728/dcs.2017.18.3.435]
  • R. Feldman, “Parent-Infant Synchrony and the Construction of Shared Timing: Physiological Precursors, Developmental Outcomes, and Risk Conditions,” Journal of Child Psychology and Psychiatry, Vol. 48, No. 3-4, pp. 329-354, 2007. [https://doi.org/10.1111/j.1469-7610.2006.01701.x]
  • C. Trevarthen, “The Concept and Foundations of Infant Intersubjectivity,” in Intersubjective Communication and Emotion in Early Ontogeny, Cambridge, UK: Cambridge University Press, pp. 15-46, 1998.
  • Y. Lee and Y. M. Na, “The Relationship Between Infant Attachment, Mother-Infant Interaction, and Peer Interaction,” Journal of Korean Child Studies, Vol. 20, No. 3, pp. 19-32, 1999.
  • E. S. Na, “A Study on the Characteristics of Immersive Behavior in Young Children,” Journal of Korean Childcare and Education, Vol. 8, No. 4, pp. 67-90, 2008.
  • J. H. Jin and J. K. Min, “A Study on the Continuous Usage Intention of AI Image Generation Tool Users Using the Extended UTAUT Model: Focusing on Comparison of DALL·E 3, Midjourney, and Stable Diffusion,” The Journal of Digital Contents Society, Vol. 25, No. 12, pp. 3593-3610, 2024. [https://doi.org/10.9728/dcs.2024.25.12.3593]
  • N. Sautchuk-Patricio and P. Henning, “Addressing Trust Concerns in Educational Environments: Developing an Explainable Embodied Conversational Agent,” in Proceedings of the 16th International Conference on Education and New Learning Technologies, Palma: Spain, pp. 3033-3039, July 2024. [https://doi.org/10.21125/edulearn.2024.0805]
  • V. Venkatesh, M. G. Morris, G. B. Davis, and F. D. Davis, “User Acceptance of Information Technology: Toward a Unified View,” MIS Quarterly, Vol. 27, No. 3, pp. 425-478, 2003. [https://doi.org/10.2307/30036540]
  • S. J. Suh, S. K. Lee, and J. S. Chun, “The Intersection of Functionality and Emotion: A Study on the Adoption of Generative AI Based on User Motivation Types,” Trans-, Vol. 18, pp. 1-52, 2025. [https://doi.org/10.23086/trans.2025.18.01]
  • K. Hildebrandt, T. Ortmann, and L. Putzar, “Acceptance, Usability, and Emotions - An Extension of the UTAUT Designed for AI Virtual Assistants in the Context of Housing Modernization,” in Proceedings of the 18th ACM International Conference on PErvasive Technologies Related to Assistive Environments, pp. 575-582, July 2025. [https://doi.org/10.1145/3733155.3734906]
  • J.-E. Lee, “Chinese Consumers Behavior Research on ChatGPT Service Using the Extended Unified Theory of Acceptance and Use of Technology,” The Journal of Global Convergence Research, Vol. 3, No. 1, pp. 73-87, June 2024. [https://doi.org/10.57199/jgcr.2024.3.1.73]
  • N. D. Oye, N. A. Iahad, and N. A. Rahim, “The History of UTAUT Model and Its Impact on ICT Acceptance and Usage by Academicians,” Education and Information Technologies, Vol. 19, pp. 251-270, 2014. [https://doi.org/10.1007/s10639-012-9189-9]
  • C. C. Chang, “Exploring the Determinants of E-Learning Systems Continuance Intention in Academic Libraries,” Library Management, Vol. 34, No. 1-2, pp. 40-55, 2013. [https://doi.org/10.1108/01435121311298261]
  • V. Venkatesh, J. Y. L. Thong, and X. Xu, “Consumer Acceptance and Use of Information Technology: Extending the Unified Theory of Acceptance and Use of Technology,” MIS Quarterly, Vol. 36, No. 1, pp. 157-178, March 2012. [https://doi.org/10.2307/41410412]
  • J. S. Won and S. H. Choi, “The Effects of AR(Augmented Reality) Contents on Users Learning : A Case Study of Car manual Using Digital Contents,” The Journal of Digital Contents Society, Vol. 18, No. 1, pp. 17-23, 2017. [https://doi.org/10.9728/dcs.2017.18.1.17]

저자소개

강유진(You-Jin Kang)

2020년:성균관대학교 디자인학과(디자인학학사)

2020년~현 재: 성균관대학교 디자인학과 시각디자인전공 학사과정

※관심분야:UX, 서비스디자인, HCI, AI

최성호(Sung-Ho Choi)

2004년:연세대학교 생활디자인학과(이학사)

2009년:연세대학교 대학원 경영학(매니지먼트)

2016년:연세대학교 기술경영학 협동과정 경영학박사

2006년~현 재: 맑은바다목장 대표

※관심분야:ICT 서비스 기획/개발, 인터넷 산업, 조직이론, 전략경영 등

원종서(Jong-Seo Won)

2004년:홍익대학교 기계시스템디자인공학과

2016년:연세대학교 기술경영학 협동과정 경영학박사

2019년~현 재: KT AI Future Lab AI Biz Synergy팀

※관심분야:AI 기술사업화, AI 마케팅, AI 생태계, AI 서비스 기획 등

김향미(Hyang-Mi Kim)

2012년:고려대학교 경영학과 박사

2025년:한양대학교 디지털의료융합학과 박사수료

2013년~2019년: KT

2019년~2020년: LG전자

2020년~현 재: LG AI 연구원

※관심분야:AI, 빅데이터, 통계

Fig. 1.

Fig. 1.
Amazon Alexa Storytime

Fig. 2.

Fig. 2.
Google Read Along

Fig. 3.

Fig. 3.
"Chuckchuck Books" service screen

Table 1.

Measurement tools and measurement items

Measurement Tools Measurement Items
Performance Expectation PE1: I think using a digital fairy tale book with machine voices will improve my child's reading experience.
PE2: Digital fairy tale books with machine voices will help increase our child's immersion and interest in the story.
PE3: I believe that digital fairy tales with machine voices will provide a more beneficial experience for my child than traditional fairy tales.
PE4: Using a digital fairy tale book with machine voices, we expect richer interaction in the story time with the child.
Effort Expectancy EE1: Digital fairy tale books with machine voices are expected to be easy to use and intuitive.
EE2: I think the process of applying machine voices to fairy tales is simple and not complicated.
EE3: I think I can use this digital fairy tale book without any special technical knowledge.
EE4: I feel like I can follow it without a lot of time to use a digital fairy tale book with machine voices.
Social Influence SI1: I think important people around me, such as family and friends, will support my use of digital fairy tales with machine voices.
SI2: If other parents around me use a digital children's book with machine voices, I'll feel like I want to try it, too.
SI3: Many parents feel that they are in a positive mood for using new technologies such as digital fairy tales with machine voices in their children's education.
SI4: My kid will also want to see a digital fairy tale book with machine voices, so I think it's likely I'll use it.
Facilitating Conditions FC1: I have the necessary devices (e.g. smartphone or tablet) and internet environment to use digital fairy tales with machine voices.
FC2: I feel like I have enough knowledge or information to use a digital fairy tale book with machine voices.
FC3: Support is in place (e.g. customer support or ambient help) to get help even if you encounter problems while using a digital fairy tale book with machine voices.
FC4: I don't think the digital fairy tale book with machine voices is ready to be introduced into our family's daily lives. (R)

Table 2.

Results of T-test on parental acceptance factors between TTS and voice AI-based audio storybooks

IV Group 1 Mean Group 2 Mean Diff t p
pe 2.7644 3.6884 -0.9418 -5.53 0.00
ee 3.9041 3.9829 -0.0788 -0.58 0.55
si 2.7945 3.7466 -0.9521 -5.50 0.00
fc 3.8219 3.8596 -0.0377 -0.33 0.74

Table 3.

Survey items for measuring behavioral intention

Measurement Tools Measurement Items
Behavior Intention BI1: I have no intention of using a digital fairy tale book with machine voices in the future. (R)
BI2: Even if I have a chance, I'm not going to use digital fairy tale books with machine voices for my child often. (R)
BI3: I'm planning to use a digital fairy tale book with machine voices in the near future.
BI4: Overall, I'm keen to try out digital fairy tales with machine voices

Table 4.

T-test results for behavioral intention between voice AI-based and TTS-based digital storybooks

IV Group 1 Mean Group 2 Mean Diff t p
bi 2.4549 3.1424 -0.6875 -3.97 0.00