Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 7, pp.1853-1863
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Jul 2025
Received 28 Jun 2025 Revised 21 Jul 2025 Accepted 21 Jul 2025
DOI: https://doi.org/10.9728/dcs.2025.26.7.1853

AI 아나운서와 인간 아나운서의 준언어적 구성요소 비교 분석

임경희1 ; 유경한2, *
1전북대학교 공공정책대학원 석사
2전북대학교 미디어커뮤니케이션학과 교수
Comparative Analysis of Paralinguistic Components of AI and Human Announcers
Kyung-hee Lim1 ; Kyung Han You2, *
1Master, Graduate School of Public Policy, Jeonbuk National University, Jeonju 54896, Korea
2Associate professor, Department of Media and Communication Studies, Jeonbuk National University, Jeonju 54896, Korea

Correspondence to: *Kyung Han You E-mail: kuy114@jbnu.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 AI 아나운서와 인간 아나운서의 준언어적 구성요소를 실증적으로 비교 분석하였다. 조수빈 아나운서의 육성과 동일 아나운서를 학습한 AI 음성을 활용하여 경성뉴스와 연성뉴스 각 2건씩 총 4건을 분석하였다. 프랏(Praat) 프로그램을 활용하여 분석 대상 뉴스를 400개 어절로 구분한 후에 음도, 속도, 강도, 쉼을 측정하여 t-검정을 실시했다. 연구 결과, 네 가지 준언어적 구성요소 모두에서 통계적으로 유의미한 차이가 나타났다. AI 아나운서는 높은 음도(237.242Hz)와 강도(75.892dB)를, 인간 아나운서는 빠른 속도(0.599초)와 긴 쉼(0.507초)을 보였다. 뉴스 유형별로는 경성뉴스에서 모든 요소가, 연성뉴스에서는 쉼을 제외한 세 요소에서 차이가 발견되었다. 이러한 결과는 AI 아나운서 기술 개선과 인간-AI 공존 방안 모색에 학술적, 실무적 시사점을 제공한다.

Abstract

In this study, we empirically compared paralinguistic components of artificial intelligence (AI) and human announcers. We analyzed four news items using live recordings by announcer Cho Su-bin and AI voice synthesis trained on the same announcer. Using Praat, we measured pitch, pace, power, and pause for 400 word segments and conducted t-tests. The results showed statistically significant differences in all four paralinguistic components. AI announcers demonstrated higher pitch (237.242 Hz) and power (75.892 dB), while human announcers showed faster pace (0.599 s) and longer pauses (0.507 s). Analysis by news type revealed significant differences in all elements for hard news and differences in three elements for soft news, excluding pause. AI announcers have advantages in dynamic delivery but limitations in contextual naturalness. Implications and limitations were also examined.

Keywords:

AI Announcer, Human Announcer, Paralinguistic Components, Speech Analysis, News Announcing

키워드:

AI 아나운서, 인간 아나운서, 준언어적 구성요소, 음성 분석, 뉴스 아나운싱

Ⅰ. 서 론

뉴스 콘텐츠는 힘 있는 발성과 정확한 발음, 안정된 톤과 음색, 그리고 단정한 모습으로 시·청취자에게 이를 전하는 아나운서의 역할이 매우 중요하다. 그러나 최근 인공지능과 심층학습 기술의 급속한 발전으로 인해 AI 아나운서가 인간과 유사한 목소리로 뉴스를 전달하는 일이 가능해졌다. AI 기업들은 방송사와 함께 AI 아나운서를 개발해 콘텐츠 제작 역량을 강화하고 있다[1]. AI 아나운서의 음성은 알고리즘으로 심층 학습한 프로그램을 활용한 TTS(Text-to-Speech) 방식으로 뉴스 텍스트를 입력하면 실제 아나운서와 유사한 음성으로 변환된다. 여기에 인간의 목소리뿐 아니라 입 모양, 표정 등 안면 변화까지 기계학습을 통해 구현함으로써 실제 아나운서와 흡사한 가상 아나운서의 외형을 구현할 수 있다[2].

이러한 AI 아나운서 제작 기술은 글로벌 차원에서 빠르게 확산되고 있다. 중국에서는 국영방송사 신화통신이 검색 포털 써우거우(SOGOU)와 합작해 2018년 세계 최초 AI 아나운서를 개발했다[3]. 신화통신의 실제 남성 아나운서 ‘장자오(Zhang Zhou)’의 목소리와 얼굴을 모델로 제작된 최초 AI 아나운서는 실제 장자오 기존 앵커의 방송 영상을 학습 데이터로 활용하여 음성 패턴, 입 모양 변화, 표정 등을 머신러닝 알고리즘으로 분석해 개발되었다. 2019년에는 실제 뉴스 앵커를 복제한 AI 여성 앵커 ‘신샤오멍’이 신화통신에 출연했으며[4], 2024년에는 저장성 항저우 TV에서 춘절 연휴 기간 동안 남녀 메인 앵커 ‘위천’과 ‘치위’를 모델로 한 AI 앵커가 뉴스를 진행한 바 있다. 이는 중국 방송사에서 저녁 메인 뉴스를 AI 앵커가 진행을 맡은 첫 사례로 중국 전역의 주목을 받았다[5]. 일본의 경우에도 2018년 태풍 ‘제비’ 상륙 당시 FM 와카야마가 야간 재난방송을 AI 아나운서로 대체해 주목을 받았고, NHK는 자사 방송기술연구소를 통해 제작한 가상 캐릭터인 AI 아나운서 ‘뉴스 요미코’를 ‘뉴스체크11’에 3D 캐릭터로 출연시켜 인간 아나운서와 대화하고 뉴스 아이템을 소개하는 등 다양한 시도를 보여주고 있다[6].

국내에서도 이러한 글로벌 트렌드에 발맞추어 AI 아나운서 도입이 본격화되었다. 인공지능 전문 스타트업인 ‘머니브레인’이 2019년 인간의 목소리와 얼굴을 합성하여 국내 최초 뉴스앵커 ‘안지예’를 개발한 것을 시작으로, 2020년 7월 LG 헬로비전은 실제 모델 ‘김현욱’ 아나운서의 목소리를 영상과 합성하고 심층학습시켜 AI 아나운서를 개발했다[7]. 이후 2020년 11월 MBN에서 김주하 AI 앵커, 2021년 3월 LG헬로비전이 AI 이지애 아나운서[6], YTN은 2021년 4월부터 변상욱을 모델로 한 AI 뉴스 진행자를 활용하는 등 방송사마다 앞다퉈 AI 기술을 도입했다[8]. 2023년 9월에는 YTN에서 임직원 여러 명의 얼굴을 합성해 제작한 남녀 AI 앵커 ‘버츄얼 휴먼’ Y-GO(애칭 고니), Y-ON(애칭 온이)을 공개하기도 했다[9].

이와 같은 AI 아나운서의 확산은 그 장점과 효용성에 기인한다. 과학기술정보통신부와 한국방송통신전파진흥원(KCA)의 2024년 조사에 따르면, 방송 콘텐츠 제작 과정별 AI 활용률은 기획 11.1%, 제작 9.4%, 서비스 6.9%로 나타나 방송산업에서 AI 기술 도입이 본격화되고 있음을 알 수 있다[10]. 방송사에서는 AI 아나운서를 도입함으로써 시간 제약 없이 실시간 뉴스를 진행할 수 있어 재난, 자연재해와 같은 긴급 상황에서 인간 아나운서보다 더 신속하게 시청취자에게 소식을 전할 수 있다. 또한 AI 아나운서는 사전 준비할 필요 없이 바로 투입될 수 있기 때문에 방송사 입장에서는 스튜디오, 카메라, 조명 등의 방송 장비들이 필요하지 않아 시간과 비용을 절감할 수 있다[11]. 더불어 AI 아나운서는 코드와 명령어로 제어가 가능하므로, 생방송 뉴스 진행에서 오독이나 버벅거림 없이 아나운싱할 수 있다는 기술적 장점도 있다[12].

그러나 AI 기술의 발전이 진전되고 있음에도 불구하고, AI 아나운서가 일반 뉴스 시청자나 대중들에게 쉽게 수용될 수 있을지에 대해서는 여전히 논쟁적이다. 특히 AI 아나운서의 생김새와 제스처, 또 목소리를 통해 들리는 호흡과 발음, 톤, 발화 속도나 억양, 쉼의 간격 등이 뉴스 보도의 중요한 요소인 신뢰와 투명성을 저해하는 것은 아닌지 검증해볼 필요가 있다[11]. 이를 위해서는 AI와 인간 아나운서와의 아니운싱이 갖는 기술적 차이점을 정확히 분석하고 이해해야 한다. 따라서 본 연구는 AI 아나운서와 인간 아나운서의 아나운싱에서 나타나는 준언어적 구성요소를 실증적으로 비교 분석함으로써, AI 아나운서의 효과적인 활용 방안과 기술적 완성도 향상을 위한 학술적, 실무적 시사점을 도출하고자 한다.


Ⅱ. 이론적 논의

2-1 커뮤니케이션과 음성언어의 특성

커뮤니케이션은 보통 글과 말, 즉 문자언어와 음성언어로 전달된다. 문자가 인간의 사고에 끼친 영향에 대해 연구했던 Ong은 문자를 알지 못했던 1차 구술문화에서 인간의 사고방식은 문자 문화를 영위하는 인간의 사고방식과는 근본적인 차이가 있음을 주장한다[13].

말소리에는 모음과 자음 등의 분절 단위 이외에도 이들 위에 중첩되어 나타나는 음성적 특징이 존재하는데, 이를 운율적 특성(Prosodic Feature)이라고 정의한다[14]. 박경희에 따르면, 음성 언어는 음악과 유사한 특성을 가지고 있으며, 특히 방송에서 사용되는 언어는 일정한 템포와 음량, 음고, 음장 등의 운율적 요소들이 결합하여 억양 패턴을 만들어내므로 수용자에게 리듬감을 제공한다[15].

뉴스 원고를 읽을 때, 청자들에게 내용을 잘 전달하기 위해서는 강조되는 단어 앞에서 잠깐 쉼(pause)을 주거나, 강조할 부분의 세기를 크게 하면 전달력을 높일 수 있다. 강조할 부분을 또박또박 발음하고, 포인트 단어 앞에서 반 호흡 혹은 한 호흡 쉬어주는 읽기 방법이 있다. 뉴스 전달에 있어서 완급 조절은 매우 중요하다. 일반적으로 중요한 포인트에선 ‘완(緩)’을, 중요하지 않은 부분에선 ‘급(急)’ 처리를 하게 된다[16].

이렇듯 운율적 특성은 뉴스 원고 내용을 악보를 보듯이 말의 리듬이 생기게 해준다. 중요한 부분은 좀 더 또렷하게 천천히 읽고, 덜 중요한 부분은 흘리듯이 약간 빠르게 읽어야 한다. 이때 말의 리듬이라는 것은 개인의 특이한 억양이나, 톤 등의 패턴을 계속 같은 방식으로 발화하는 ‘조(調)’와는 다르다. 조(調) 역시 넓은 의미에서 운율과 리듬으로 볼 수 있지만, 전달자만의 특별한 읽기 습관에 해당하므로, 청자들에게 부자연스럽게 들릴 수 있고, 어색한 뉴스 아나운싱이 될 수도 있다. 자연스러우면서도 역동적인 뉴스의 흐름을 위해서는, 문장의 끝부분인 어미의 음높이는 내려서 처리해주어야 한다. 어미처리의 억양에는 상승조와 평탄조, 하강조가 있으며, 이들 억양의 변화가 조화를 이룰 때 자연스러운 뉴스 전개와 청취 만족도가 높아진다[17].

운율적 자질은 화자가 지닌 발화 스타일의 고유성을 드러내는 주요 지표이며 동시에 메시지 전달 효율성에 영향을 미치는 결정적 요인이다[18]. 따라서 정보 전달 시 음성의 운율 요소, 호흡법과 구두법, 억양 조절 등의 표현 기법이 핵심적 역할을 한다[14]. 본 연구는 이러한 준언어적 요소에 주목하여 커뮤니케이터가 메시지를 전달하는 과정에서 음성 요소를 어떻게 활용해야 효율적으로 전달할 수 있는지를 실증 분석하기 위해 AI 아나운서의 정형화된 음성 요소 활용 패턴과 인간 아나운서의 맥락화된 음성 요소 활용 패턴을 비교 분석하고자 한다.

2-2 커뮤니케이션의 언어학적 구성 요소

구어적 화법에 필수적인 네 가지 요소로는 일반적으로 언어적(Linguistic), 준언어적(Paralinguistic), 그리고 비언어적(Nonlinguistic) 요소와 언어 외적 요소가 있다[19]. 이 중 어휘, 발화, 메시지 등은 언어적 요소이고, 발화 속도, 어조, 발음, 억양, 강세, 강도 등은 준언어적 요소, 그리고 몸짓, 표정, 시선, 자세, 신체접촉 등은 비언어적 요소에 해당한다. 한편, 언어 외적 요소에는 주변 공간에 대한 관계를 나타내는 근접학, 시·공간, 사회적 범주 등이 포함된다.

발음, 화속, 음량, 공명, 어투, 억양, 강도, 음높이 등의 준언어적 특성은 인간의 섬세한 정서를 표현하므로, 일반적으로 언어적 내용보다 더 신뢰할 만한 정보를 제공한다[20]. 발음 방식, 말하기 속도, 목소리 강도, 음조, 억양 구조, 강조점 등은 언어 성분과 매우 긴밀한 연관성을 보이는데, 이들은 흔히 ‘준언어적 구성요소’ 또는 ‘부언어적 구성요소’라 불리며, 언어 표현 시 언어적 내용과 동시적으로 구현된다[19]. 이러한 공식적 언어 외에 인간의 다양한 유사언어(Paralanguage)를 ‘준언어(準言語)’라고 하며, 이를 부(附)언어, 준(準)언어, 음성언어라고 지칭한다[20]. 이 외에도 호흡, 발성, 발음, 고저장단, 음도, 속도, 강도, 쉼, 그리고 허사(space filler) 등이 준언어적 요소에 포함되기도 한다[21].

이러한 준언어 또는 음성언어는 수사학적 관점에서도 매우 중요하다. 미국의 사회심리학자인 Mehrabian은 커뮤니케이션에서 음성적 요소가 38%, 시각적 요소(표정)가 35%, 행동적 태도가 20%의 영향력을 보이는 반면, 실제 언어 내용의 비중은 단 7%에 그친다는 연구결과를 제시하여 목소리의 중요성을 강조했다[22]. 일반적으로 사람들의 말소리는 개인의 성격 혹은 감정 상태를 반영하고, 개인의 고유한 발성의 특징을 드러낸다. 특히 상대를 설득할 때는 목소리라는 준언어적(Paralinguistic) 요소를 상황과 환경에 맞게 조절하여 효과적으로 활용한다[23],[24]. 권순복은 전달하려는 메시지에 따라 속도와 음도를 조절하거나 강도에 변화를 주는 등 아나운싱 기법으로서 준언어적 요소를 활용한 메시지 전달이 중요하다고 강조한다[25]. 이러한 연구들은 준언어적 요소들 중에서도 특히 음성언어가 정보전달과정에서 중요한 영향을 미친다는 것을 보여준다[26],[27]. 이처럼 아나운싱에서는 준언어적 요소들이 다른 사람들에게 메시지를 전달하고 설득하는 데 매우 중요한 요소가 된다.

목소리에는 단일한 준언어적 특성만이 아닌 복수의 요소들이 내재되어 있으며, 이러한 다양한 준언어적 구성요소들이 조합되어 형성되므로, 같은 메시지라 하더라도 어떤 음성으로 어떻게 표현하는지가 뉴스의 수준을 가늠할 수 있는 기본이 된다[28]. 따라서 본 연구는 음성언어의 준언어적 요소를 중심으로, 인간 아나운서의 목소리와 동일한 목소리를 학습한 AI 아나운서의 음성 데이터를 수집하여 인간과 AI 아나운서의 준언어학적 요소들의 차이를 비교, 분석함으로써 유의미한 시사점을 도출하고자 한다.

2-3 준언어적 요소의 하위 구성 요소

음성언어의 준언어적인 요소들 중 가장 많이 사용되는 요소는 음도이며, 그다음으로 속도가 많이 사용된다[29]. 이는 음도와 속도가 가장 객관적인 척도로 실험측정이 가능한 요소이기 때문이다. 다음으로 강도, 쉼, 억양, 발성, 발화의 품질 등으로 나타났으며, 이들 요인은 음도와 속도보다는 측정의 어려움이 있고, 척도를 객관적으로 나타내는 데 어려움이 있기 때문이다. 김은경과 송기인은 호흡이나 발성, 발음과 같은 기본적인 음성언어의 준언어적 구성 요소 외에도 목소리를 조절하는 데 관여된 주요 요소로서 4P(Pitch, Pace, Power, Pause)를 제시했다[21]. 본 연구에서는 인간 아나운서와 AI 아나운서의 뉴스 아나운싱을 비교하기 위해서 준언어적인 구성 요소 중에서 기존 연구에서 제시된 4P, 음도(Pitch), 속도(Pace), 강도(Power), 쉼(Pause)에 초점을 맞춰 분석하고자 한다.

1) 음도(Pitch)

음의 높이와 음의 변화폭인 음도는 목소리의 높낮이 또는 목소리의 높이나 깊이다. 즉, 발화음의 주파수 특성을 의미하며, 높거나 낮은 톤으로 메시지를 표현하는 것으로서 음악의 계이름과 같은 기능을 수행한다[21]. Steinberg는 계속 변화하는 말소리에 수반되는 높낮이를 ‘억양’(intonation)이라고 규정했다[30]. 특정 언어의 억양은 의미를 지니고 있어 같은 문장이라도 음높이의 변화에 따라 뜻이 달라지며, 또한 억양은 체계를 갖고 있기 때문에 의미에 차이를 유발하는 억양의 유형은 제한된 범위에서 각기 독특한 기능과 관련을 맺고 있다고 볼 수 있다[14],[18]. 한편, 음성 신호는 특정 구간에서 비슷한 패턴이 지속적으로 되풀이되는 특성을 보이며, 이와 같은 순환적 주기는 음성 파동의 특성을 규정하는 핵심 요소로서, 음성 정보의 기본 주기인 음도(Pitch)로 정의된다. 성별에 따른 적절한 음도 정상 역치는 남성의 경우 평균 100∼130Hz, 여성은 190∼230Hz이고, 30-40대 남성 아나운서의 음도 평균값은 158.6 Hz(표준편차 ±11.9), 여성 아나운서의 음도 평균값은 250.7 Hz(표준편차 ±17.3)로 보고되고 있다[31],[32].

2) 속도(Pace)

속도는 읽는 속도, 구체적으로 시간당 발화 음절 수를 의미하며, 여기에는 발화가 지속되는 시간과 발화하지 않고 쉬는 시간이 모두 포함된다[33]. 뉴스의 경우, 읽는 속도가 너무 빠르거나 너무 느리지 않아야 메시지 전달에 효과적이다. 페이스는 호흡으로 조절하는데 호흡을 어떻게 하느냐에 따라 평상시보다 빨리 읽을 수도 있고, 어떤 경우에는 평소보다 더 느리게 읽을 수도 있다. MacLachlan은 청자들이 느린 말 속도의 화자보다 빠른 말 속도의 화자의 말에 더 동의하며, 이해 측면에서 보더라도 말의 속도가 50% 증가시 이해 수준은 5% 정도, 속도가 100% 증가시 이해 수준은 10%만 낮아지므로 속도 증가에 따른 청자의 이해도 차이는 미미하다고 주장함으로써, 말의 속도는 논리적 이해력보다는 화자의 신뢰도와 더 밀접한 관련이 있다고 제시했다[34]. 실제 말의 속도를 각 분야별로 측정하여, 이를 토대로 분야별 말의 권장 속도(분당 음성으로 표현하는 자음과 모음으로 이루어진 음절 수)를 제시한 연구에 따르면, 뉴스는 350∼370음절, 진행 등 의식은 300음절, 프레젠테이션은 300음절, 스포츠 중계는 600음절, DJ는 340음절, 내레이션은 300음절, 연설은 278음절이 권장 속도로 제시되었다[35].

3) 강도(Power)

목소리 강도는 음성의 크기와 세기, 즉 힘의 강약을 말한다. 입을 크게 벌려 소리를 힘을 주어 크게 내면 좀 더 힘 있는 소리가 나는데 이때 생기와 활력을 느낄 수 있고, 너무 큰 소리는 청자들에게 불편감을 줄 수도 있다. 또 목소리 세기가 약하면 부드러움이나 편안함을 느끼게 할 수도 있고, 약한 이미지를 만들 수도 있다. 발화 강도는 화자의 커뮤니케이션 역량과도 밀접한 관련이 있다. 즉, 지나치게 큰 소리는 소음으로 인식되지만, 적정 크기의 음성은 메시지를 의도대로 효과적으로 전달할 수 있다. 또한, 발화 강도가 높을 때는 역동적이고 자신감 있는 인상을 심어주지만, 공격적이거나 과시적인 인상을 줄 수도 있으며, 반대로 목소리의 힘이 약하면 무기력하고, 나약하고, 열등한 이미지를 줄 수 있다[28]. 목소리 크기는 소리의 전달 범위를 좌우하며, 적정 음량은 청취자 규모와 음향 장비 활용 여부에 의해 결정되므로 언어적 요소 가운데 가장 역동적이면서 유연한 변화가 필요하다[36].

4) 쉼(Pause)

쉼이란 말을 하는 과정에서 중간에 수 초간, 때로는 그 이상의 시간을 쉬었다가 말하는 것이다[37]. 이홍재는 여러 전달 요소 중에서도 청자의 이해도에 가장 큰 영향을 미치는 요인으로 휴지(休止)를 꼽으면서, 휴지가 메시지 수용 과정에서 내용을 이해하고 수용하는 데 시간적 여유를 제공함으로써 청자의 이해도를 높여주는 준언어(Paralanguage) 요인이라고 강조한다[20]. 또한 한 단어는 붙여서 읽는 것이 맞지만 단어, 구문, 구절, 문장, 그리고 각 음성 구성요소들 사이에는 적절한 시간적 간격이 요구된다[33]. 이와 같이 쉼을 적절하게 사용하는 것은 말하기에서 중요한 요소가 된다.

Campione & Veronis는 스피치가 0.15초의 짧은 쉼, 0.50초의 중간 쉼, 1.50초의 긴 쉼으로 구성된다고 밝혔다[38]. 이처럼 적절한 쉼 횟수와 지속시간의 다양성은 스피치를 활기 있게 하고 효율성을 높여준다[39]. 본 연구에서는 선행연구를 참고하여 0.15초 이상의 무음 구간의 길이(초)를 쉼(Pause)으로 측정하였다.

2-4 뉴스 유형의 구분: 경성뉴스와 연성뉴스

경성뉴스(hard news)와 연성뉴스(soft news)는 미디어 분야 연구자들이 오랫동안 적용해왔던 구분 방식으로서, 일반적으로 정보의 중요성과 사회적 영향성이 들어있는 뉴스를 경성뉴스로 규정하였고, 개인적인 내용이면서 오락과 흥미를 담고 있는 뉴스를 연성뉴스로 구분한다[40],[41].

경성뉴스는 비교적 강한 톤과 음도가 필요한 데 비해, 연성뉴스는 조금은 부드러운 음도가 요구된다. 강도의 경우, 연성뉴스는 부드럽고 리드미컬하게 전달하는 것이 필요하지만, 경성뉴스는 좀 더 힘있게 강도를 높여주면 효과적일 수 있다. 쉼의 경우, 경성뉴스보다 연성뉴스에서 쉼 간격과 횟수를 늘릴 수 있다. 하지만 준언어적 구성요소인 음도, 속도, 강도, 쉼 등은 앞서 언급한 바와 같이, 경성뉴스와 연성뉴스의 아나운싱 기법의 차이가 정확히 구분되는 것은 아니므로, 정해진 기준은 없고, 어색하지 않게 뉴스의 자연스러운 흐름과 분위기를 이어 나가는 것이 중요하다.

연성뉴스의 대표성을 띤다고 할 수 있는 날씨 프로그램의 경우 대부분 1분 내외의 멘트로 전해지고 정보적인 성격이 강하기 때문에, 기상캐스터의 언어 전문성, 어휘설명력, 발음, 손동작 등의 언어적, 준언어적 요소와 함께 자막이나 그래프와 같은 CG 및 기상캐스터의 외모 및 옷차림 등의 비언어적 요소가 시너지 효과를 만들어낸다[42]. 다만, 뉴스 유형에 따른 상대적 차이를 비교하면 뉴스유형별 준언어적 구성 요소의 상대적 특징을 파악할 수 있으므로, 본 연구에서는 경성뉴스와 연성뉴스 간 네 가지 준언어적 구성 요소의 차이를 분석하고자 한다.


Ⅲ. 연구문제

앞서 검토한 이론적 배경을 바탕으로, 본 연구에서는 AI 아나운서와 인간 아나운서의 준언어적 구성요소를 비교 분석하고, 뉴스 유형에 따른 차이를 살펴보고자 한다. 우선 인간과 AI 아나운서의 아나운싱에서 준언어학적 요소인 음도, 속도, 강도, 쉼의 차이가 있는지, 다음으로 뉴스 유형에 따라 AI와 인간 아나운서 간 준언어적 요소에 차이가 있는지 분석하기 위해 다음과 같이 두 가지 연구문제를 제시하였다.

  • 연구문제 1. 인간 아나운서와 AI 아나운서 음성에 준언어적 구성 요소(음도, 속도, 강도, 쉼)의 차이가 있는가?
  • 연구문제 2. 뉴스 유형(연성뉴스 vs 경성뉴스)에 따라 인간 아나운서와 AI 아나운서의 준언어적 구성 요소(음도, 속도, 강도, 쉼)에 차이가 있는가?

Ⅳ. 연구방법

4-1 분석 텍스트의 선정

본 연구에서는 음성 변환에 필요한 언론보도 텍스트로 환경 관련 뉴스 보도 중에서 정부의 탄소중립 관련 탈석탄 정책 및 초미세먼지 저감 대책 관련 뉴스 두 건을 경성뉴스로, 설악산 오색케이블카 착공 및 청소년 환경보호 필통 만들기 관련 뉴스 두 건을 연성뉴스로 선정하였다. 각 뉴스는 건당 1분 07초에서 1분 15초 분량이었다. 선정된 뉴스는 각각 경성뉴스 1번(탈석탄 정책 제안)과 2번(환경부의 초미세먼지 저감 대책 발표), 연성뉴스 1번(설악산 오색케이블카 착공)과 2번(환경보호에 기부도 하는 청소년들의 ‘업사이클링 필통’ 만들기)으로 코딩했다. 음성 변환을 위해 선정한 경성뉴스와 연성뉴스의 세부 내용은 표 1과 같다.

News selected for analysis

4-2 아나운싱 음성 파일

본 연구는 인간 아나운서와 AI 아나운서의 준언어적 구성 요소를 비교 분석하는 것이 목적이므로, 실제 아나운서의 음성을 심층 학습한 AI 아나운서의 텍스트 음성 변환 서비스가 제공되는 동일 인물 아나운서 모델을 선정하는 것이 무엇보다 중요하다고 할 수 있다. 본 연구에서는 실제 육성을 확보할 수 있으면서 AI 아나운서 음성도 확보 가능한 아나운서로서 프리랜서 방송인 조수빈 아나운서(전 KBS 아나운서, 현재 조선TV 시사/교양 프로그램 ‘강적들’ 진행)를 섭외했다.

조수빈 아나운서에게 4건의 경성뉴스와 연성뉴스 아나운싱을 의뢰하였고, 2024년 3월 25일 스튜디오 녹음을 통해 음성파일을 확보했다. 인간 아나운서의 육성 녹음은 다른 외부 소음이 차단된 스튜디오에서 실시되었다. 이후 클로바 더빙 사이트(clovadubbing.naver.com)에서 동일한 내용의 경성뉴스와 연성뉴스 파일을 조수빈 아나운서의 TTS 서비스를 활용해 생성했다. 클로바 더빙 서비스에서는 학습 모델의 구체적인 성능 지표는 공개하지 않았지만, 이 기술이 NeuVis(Neural Voice Synthesis) 엔진을 사용하여 소량의 데이터로 소량의 한국어 데이터로 새로운 화자와 감정을 반영할 수 있는 음성 합성 기술로 소개하고 있어 한국어 기반 TTS로 비교 실험하기에는 무리가 없다고 판단된다. 음성파일은 오디오 편집 프로그램인 어도비 오디션 3.0 버전을 통해 44100 Sample Rate, Stereo Channels, 16-bit Resolution 형식으로 저장하였다.

4-3 표본의 구성

1) 분석단위

4개의 뉴스 분석 단위는 어절로 설정했다. 어절은 문장을 구성하는 각 마디를 의미하며, 문장 성분의 최소단위이자 띄어쓰기 단위이므로, 단어와 띄어쓰기 간 음도와 강도, 속도와 쉼 등 준언어적 구성 요소를 분석할 수 있는 최소 단위가 된다. 분석 대상 뉴스 보도의 어절 수는 100개 내외로써, 뉴스마다 어절 수에 다소 차이가 있어, 정확한 비교 분석을 위해 각 뉴스당 100개의 어절까지만 분석 대상으로 설정하였다.

다음으로, 총 400개의 어절 각각의 준언어적 구성 요소의 수치를 산출하였다. 변인들에 사용된 단위를 보면, 먼저 음도는 진동수나 주파수의 표준 단위인 Hz(헤르츠, Hertz) 값을, 속도는 어절을 발음한 길이를 측정하므로 시간(단위: second) 값을, 강도는 소리의 세기이므로 소음 측정 단위인 dB(데시벨, Decibel) 수치를, 마지막으로 쉼은 길이로 비교하므로 시간(단위: second) 값을 사용하여 수치를 측정하였다.

2) 분석도구 및 샘플

음성파일 분석은 음성전문분석기 프랏(Praat) 6.4.07 버전을 사용했다. 프랏은 파일 불러오기(Read from file)와 보기 및 편집(View & Edit), 웨이브폼(Waveform) 기능을 통해 음성파일의 변환 및 구간 설정이 가능하다. 불러온 파일은 20초 분량씩 뉴스 발화 구간을 구분한 다음, 음도의 범위를 최저 70, 최고 500Hz 범위로 설정하였다.

4-4 통계 분석

AI 아나운서와 인간 아나운서의 어절 당 준언어적 구성 요소의 차이를 비교하기 위해 통계 패키지 자모비(Jamovi)를 활용하여 대응표본 t-검정(Paired Samples t-test)를 실시하였다.


Ⅴ. 연구결과

5-1 AI와 인간 아나운서 간 준언어적 구성요소의 차이

먼저, 연구문제 1과 관련하여 인간 아나운서와 AI 아나운서의 준언어적 구성요소(음도, 속도, 강도, 쉼)의 차이를 분석하기 위해 대응표본 t-검정을 실시했다. 분석 결과, 인간 아나운서와 AI 아나운서 간에는 네 가지 준언어적 구성요소 모두 통계적으로 유의미한 차이가 관찰되었다(음도: t=9.14, p<.001, 속도: t=-4.94, p<.001, 강도: t=-8.25, p<.001, 쉼: t=4.61, p<.001)(표 2 참조).

Differences in paralinguistic components between AI and human announcers

1) 음도(Pitch)의 차이

구체적으로, AI 아나운서의 음도 평균(M)은 237.242Hz, 표준편차(SD)는 39.704였고, 인간 아나운서의 음도 평균은 225.638Hz, 표준편차는 41.277로 나타나 AI 아나운서가 인간 아나운서보다 음도가 더 높은 경향이 있음을 확인할 수 있었다(t=9.14, p<.001). 음도가 높다는 것은 음의 높낮이 폭이 크다는 것과 억양(Intonation)이 메시지의 내용에 따라 달라진다는 것을 의미하는 것으로서, 일반적으로 AI 아나운서보다 인간 아나운서의 음도가 높을 것이라고 예상할 수 있다. 그러나 예상과 달리, AI 아나운서보다 인간 아나운서의 음도가 낮게 나타났는데, 이는 학습된 AI 아나운서에 비해 인간 아나운서들은 실제 뉴스 아나운싱 과정에서 일상 대화 때와는 다른 방송이라는 경직된 환경에 처하게 되므로, 음의 진폭을 고르게 해 자연스러운 음색을 유지하려는 의도로 풀이된다.

또 인간 아나운서의 음도가 AI 아나운서에 비해 낮은 이유는 다음과 같이 해석할 수 있다. 인간은 뉴스 첫 문장의 첫머리나 다른 단락의 처음은 대부분 상승조로 높은 음도와 큰 강도로 시작을 하고 문장이 끝나는 어미 처리는 하강조로 끝내기도 하지만, 문장의 길이가 긴 문장일 경우는 호흡이 짧아지면서 중간 부분이나 문장의 끝부분에서는 음도가 다소 약해질 수도 있다[43]. 반면, AI 아나운서의 경우는 심층 학습된 데이터 값대로 발화하므로 전혀 호흡과 힘의 문제가 관여되지 않는다. 따라서 인간 아나운서에 비해 AI 아나운서의 음도가 높게 관찰된 것으로 보인다.

2) 속도(Pace)의 차이

다음으로, AI 아나운서와 인간 아나운서의 아나운싱 속도 역시 유의미한 차이를 보였다. 인간 아나운서의 속도 평균(M)은 0.599초(SD=0.228)로, AI 아나운서의 평균 0.624초(SD=0.238)보다 빠른 것으로 나타났다. 선행연구에서는 화자의 말이 빠르면 청자의 이해도가 낮아지는 정도는 미미한 데 비해 긍정적 반응을 얻는 설득 효과는 높아진다고 알려져 있다[34]. 뉴스 전달 시 350∼370 음절을 권장 속도로 보고 있으며, 너무 빠르거나 너무 느리지 않은 것이 좋고, 느린 속도보다는 빠른 속도가 청자의 동의를 얻는 데 더 유리하다고 보고되고 있다.[35] 이를 근거로 해석하면, 인간 아나운서가 AI 아나운서보다 뉴스 아나운싱 속도가 더 빠른 이유는 다른 메시지를 전달할 때보다 조금 빠르게 읽는 것이 뉴스 메시지를 효과적으로 전달하는 데 더 효과적이라고 판단하기 때문으로 보인다.

3) 강도(Power)의 차이

AI 아나운서와 인간 아나운서의 음성 강도 비교 분석을 수행한 결과, 인간 아나운서는 평균 75.044dB(표준편차=3.024), AI 아나운서는 평균 75.892dB(표준편차=2.759)의 강도값을 기록하여 AI 아나운서가 약간 높은 수치를 나타냈다.

AI 아나운서의 음성 강도가 상대적으로 높게 측정되는 현상에는 발성 메커니즘의 차이가 관여한다. 인간 아나운서는 뉴스 읽기 과정에서 문장 시작 시 강한 강도로 발화한 후 문장 진행에 따라 단계적으로 강도를 감소시키는 자연스러운 발성 곡선을 그리는 반면, AI 아나운서는 기계학습된 강도 매개변수에 기반하여 발성하므로 어절이나 문장 단위에서 강도 변화의 폭이 제한적이며, 개별 어휘도 맥락적 필요와 무관하게 균일한 강도로 발음되는 특징을 보인다.

강도는 단순한 음성 크기 개념을 넘어서 음성 전달 거리나 청취자 규모 등 제반 상황 요인에 따른 적응적 조절이 필요한 변인이므로, 준언어적 구성요소 중 환경적 변화에 가장 변화가 큰 요소로 간주된다. 더 나아가 강도는 화자의 정서적 태도나 메시지에 대한 확신도를 표현하는 핵심적 수단이므로, 적절한 강도 조절은 효과적인 의사소통의 전제조건이 된다.

분석 결과, 인간 아나운서의 평균 강도가 AI 아나운서보다 0.85dB 낮았음에도 불구하고 표준편차는 약 0.3 높았다. 이는 AI 아나운서가 비교적 일정한 강도를 지속하는 데 비해, 인간 아나운서는 더욱 폭넓은 스펙트럼의 강도를 구사하고 있음을 의미한다. 즉, 인간 아나운서가 AI에 비해 음성 강도를 더욱 역동적으로 조절하며 운용한다는 것이다.

4) 쉼(Pause)의 차이

쉼은 끊어 읽기의 핵심 구성요소로서, 기존 연구에 의하면 메시지 전달 요소 중 수용자의 내용 이해에 가장 직접적으로 영향을 미친다. 쉼은 어휘 간, 구문과 절 간에 나타나는 시간적 공백을 통해 메시지 수신자에게 내용 파악과 의미 구성을 위한 데 필요한 인지적 처리 시간을 제공한다. 단, 모든 언어 단위에 쉼이 획일적으로 적용되는 것은 아니며, 경직된 규칙에 따라 결정되지 않는다.

본 연구에서는 선행 연구의 측정 기준을 적용하여 0.15초 이상의 단기간 쉼의 출현 빈도와 평균값을 도출하였다. 분석 결과, 인간 아나운서에서 총 64회의 쉼이 식별되었으며, 평균 지속시간은 0.507초(표준편차=0.187)로 조사되었다. 반면 AI 아나운서는 68회의 쉼을 보였으나 평균 지속시간은 0.437초(표준편차=0.175)로 상대적으로 짧았다.

종합적으로 분석하면, 쉼의 출현 빈도는 AI 아나운서가 인간 아나운서를 조금 더 많았지만, 개별 쉼의 지속시간은 인간 아나운서가 더 많은 것으로 확인되었다.

5-2 뉴스 유형에 따른 준언어적 구성요소의 차이

다음으로, 연구문제 2에 대한 해답을 구하기 위해, 뉴스 유형을 경성뉴스와 연성뉴스 두 유형으로 구분한 다음, 인간 아나운서와 AI 아나운서의 준언어적 구성요소(음도, 속도, 강도, 쉼)에 차이가 있는지를 대응표본 t-검정을 실시하여 비교했다.

1) 경성뉴스

경성뉴스를 대상으로 대응표본 t-검정 결과, 인간 아나운서와 AI 아나운서의 준언어적 구성요소는 모두 통계적으로 유의미한 차이가 있는 것으로 관찰되었다(표 3 참조). 먼저, 경성뉴스에서 인간 아나운서의 음도(Pitch) 평균은 222.425Hz (SD=37.877)이었고, AI 아나운서의 음도 평균은 236.412Hz (SD=38.224)으로, AI 아나운서의 음도가 더 높았다(t=-7.98, p<.001).

Differences in paralinguistic components by news type

둘째, 인간 아나운서와 AI 아나운서의 속도 역시 통계적으로 유의미한 차이가 관찰되었다. 인간 아나운서의 속도 평균은 0.601초(SD=0.231)로서, AI 아나운서의 속도 평균 0.623초(SD=0.236)보다 다소 빠른 것으로 조사되었다(t=-3.24, p<.01). 셋째, 두 아나운서 간 강도의 차이도 통계적으로 유의미했다(t=-6.83, p<.001). 인간 아나운서의 강도 평균은 74.851dB(SD=3.225)로서, AI 아나운서의 강도 평균 75.857dB(SD=2.749)보다 다소 낮았으나, 표준편차는 오히려 상대적으로 크게 나타나, 음성 크기는 AI가 크지만, 변화 폭은 인간 아나운서가 컸다. 넷째, 인간 아나운서와 AI 아나운서의 쉼의 차이도 통계적으로 유의미하게 조사되었다(t=6.83, p<.001). 인간 아나운서의 쉼은 평균 0.502초(SD=0.175)로서, AI 아나운서의 평균 0.404초(SD=0.172)보다 조금 더 길게 쉬는 것을 알 수 있었다.

종합하면, 경성뉴스에서 인간과 AI 아나운서의 준언어적 구성요소의 차이는 모든 요소에서 통계적으로 유의미하게 나타났고, 이는 전체 뉴스에서의 차이와 유사한 패턴을 보였다.

2) 연성뉴스

다음으로, 연성뉴스를 대상으로 대응표본 t-검정 결과, 인간 아나운서와 AI 아나운서의 준언어적 구성요소는 쉼을 제외한 세 가지 요소(음도, 속도, 강도)에서 통계적으로 유의미한 차이가 발견되었다(표 3 참조).

먼저, 연성뉴스에서 인간 아나운서의 음도(Pitch) 평균은 228.851Hz(SD=44.279)이었고, AI 아나운서의 음도 평균은 238.071Hz(SD=41.211)으로, AI 아나운서의 음도가 더 높았다(t=-5.05, p<.001). 경성뉴스에 비해 연성뉴스의 인간 아나운서 음도가 평균적으로 더 높게 나타났지만, 통계적으로 유의미한 차이는 아니었다.

둘째, 인간 아나운서의 속도 평균은 0.598초(SD=0.226)로, AI 아나운서의 속도 평균 0.624초(SD=0.241)보다 조금 빨랐다(t=-3.73, p<.001). 경성뉴스와 연성뉴스 간의 속도 차이는 AI 아나운서와 인간 아나운서 모두 발견되지 않아, 속도는 뉴스 유형과 무관하게 일관된 속도를 유지하는 것을 확인했다.

셋째, 인간 아나운서는 평균 75.236dB (SD=2.804)의 강도를 보인 데 비해, AI 아나운서의 강도는 평균 75.927dB (SD=2.775)로 나타나, AI가 인간 아나운서에 비해 강도가 더 큰 것으로 조사되었다. 그러나, 경성뉴스에 비해 인간 아나운서의 강도 크기는 다소 커진 반면, 강도의 폭은 오히려 좁아졌다.

넷째, 경성뉴스와 달리, 연성뉴스에서 AI 아나운서와 인간 아나운서의 쉼의 차이는 통계적으로 유의미하지 않았다(t=1.75, p=.092, n.s.). 인간 아나운서의 쉼의 길이가 AI 아나운서에 비해 다소 길었지만, 인간 아나운서의 쉼의 길이는 상대적으로 차이가 없는데 비해, AI 아나운서의 쉼의 길이는 경성뉴스에 비해, 연성뉴스에서 훨씬 증가하였다.

종합하면, 연성뉴스에서는 준언어적 구성요소 가운데 음도, 속도, 강도에는 경성뉴스와 유사하게 AI 아나운서와 인간 아나운서의 차이가 발견되었지만, 쉼의 차이는 발견되지 않았다. 이는 경성뉴스가 청자들의 공감보다는 이해도를 높여야 하는 이슈를 다루므로 인간 아나운서가 쉼의 길이에 변화를 주면서 청자의 이해를 높이는 전략을 적극적으로 활용하는 반면, 연성뉴스에서는 청자의 이해보다는 공감에 관한 이슈가 많아 쉼의 길이나 빈도에 변화를 주는 데 상대적으로 주의를 덜 기울이기 때문이라고 추론할 수 있다.

5-3 준언어적 구성요소 별 심층 분석

뉴스 유형별 인간 아나운서와 AI 아나운서의 준언어적 구성요소가 다른 이유에 대해 추가 설명하기 위해, 전문 아나운서의 평가를 통해 아나운싱의 기술적 측면에 초점을 맞춰 개별 사례의 특징을 분석했다. 주요 분석 결과는 다음과 같다.

1) 개별 음도 사례

AI 아나운서의 음도를 보면 문장 내에서 자연스러운 흐름을 타지 못하고 갑자기 음도가 높아지거나 낮아져 어색하게 들리는 부분이 발견되었다. 예를 들어, 경성뉴스(뉴스 1)에서 “경제적 문제를 야기할 뿐만 아니라 대기오염의 주요 원인으로 작용하고 있어”의 문장에서 ‘대기오염의’ 음도 값이 인간 아나운서는 234.4Hz인 반면, AI 아나운서가 아나운싱한 피치값은 289.6Hz로 큰 차이를 보여준다. 특히, ‘앞두고’(인간 251.2/AI 190.2), ‘참여한’(인간 207.9/AI 307.3), ‘폐쇄의’(인간 267.6/AI 344.5) 등 듣기에 어색한 부분이 발견되었다.

‘사업을 추진한 지난 1982년 이후 41년 만인데요.’에서 이 문장의 다음 문장이 바로 이어져 있을 때, ‘41년 만인데요’의 억양을 통상 올려야 하는데, 낮춰 읽어 즉 상승조의 억양이 아니라 하강조의 억양으로 표현해서 듣기에 어색함이 뚜렷했다. 이 문장은 보기에는 마침의 의미가 있지만, '인데요'라는 어휘가 다음 문장과 바로 이어져 설명을 요구하는 부분이기에, ‘41년 만인데요’는 상승조의 억양으로 표현하는 것이 자연스럽지만, 맥락적 추론의 영역은 아직 AI 아나운서가 충분히 학습이 이뤄지지 않은 것으로 보인다.

2) 강도의 범위

강도의 경우에도 인간 아나운서는 최고 81.98dB, 최저 65.14dB의 범위를 갖고, AI 아나운서의 최고 82.12dB, 최저 67.99dB의 범위를 갖는 것으로 조사되었다. 인간 아나운서의 폭은 16.84dB, AI 아나운서는 14.13dB이었다. 이는 강도 역시 인간 아나운서가 AI 아나운서보다 다소 약하지만, 강도의 폭은 더 넓게 변화를 주었다는 것을 알 수 있다.

3) 속도 비교

인간 아나운서의 아나운싱 속도가 AI 아나운서의 속도보다 빠른 것으로 나타났는데, 이는 숙련된 전문 아나운서의 아나운싱이 데이터를 기반으로 학습된 AI 아나운서의 아나운싱 속도보다 더욱 빨랐을 것으로 추정할 수 있다. 이를 설명하기 위해, 선행연구[53]를 참고하여 어절을 기준으로 측정한 속도를 분당 음절수(Syllables per Minute: SPM)를 알아보았다. 4개 경성뉴스와 연성뉴스의 첫 문장을 시작으로 20초 동안의 음절 수를 측정하여 3을 곱해 60초로 환산한 1분당 음절 수(SPM)를 구했다(표 4 참조).

Number of syllables per minute(SPM) by news type

분당 글자 수(WPM: Word Per Minute)를 기준으로 일반인의 발화 속도를 측정하면, 96wpm은 느린 속도, 108wpm은 보통 속도, 그리고 124wpm은 빠른 속도로 규정되며[54], 보통 사람들의 발화 속도는 분당 120~180개 글자 정도로 파악된다[18]. 이 연구에서는 전체적으로 인간 아나운서의 SPM과 WPM이 AI 아나운서보다 다소 높았는데, 이는 음절 수가 아나운싱 하는 주체나 뉴스 형태, 뉴스 분량에 따라 차이가 있다는 것을 의미한다고 볼 수 있다. 박경희에 따르면, 개인적 발화 차이를 감안하더라도 대체로 350음절 내외에서 차분하게 내용 전달이 잘되며, 370음절 내외에서 리듬감과 유창하다는 느낌을 준다. AI와 인간 아나운서의 음절은 모두 이 범위 안에 속해 있어 내용 전달의 효과는 유사한 것으로 추론할 수 있다.

4) 끊어 읽기 오류 사례

인간 아나운서와 AI 아나운서의 발음이 다른 구간과 AI가 끊어 읽기를 잘못한 사례도 관찰되었다. 특히, 아나운싱 과정에서 끊어 읽기가 잘못되면 뜻 자체가 달라진다. 인간 아나운서와 AI 아나운서의 발음이 다른 구간 및 AI 아나운서가 끊어 읽기를 잘못한 사례는 표 5와 같다. 예를 들어, AI 아나운서는, [4번까지]를 [사 번까지]로 읽는 등 모든 숫자 읽기를 동일하게 그대로 읽고 있어 한국어 숫자 읽기 학습이 제대로 되지 않았음을 알 수 있었다. 또한, [‘주의’ 단계]를 [주에 단계]로 읽는 것과 같이 작은따옴표(‘ ’)를 인식하지 못하는 모습도 보였고, [전국 23개 중·고등학교 학생..]의 경우 [전국 23개중, 고등학교 학생..]으로 읽어 문맥을 정확히 이해하지 못하는 모습도 일부 관찰되었다.

Examples of differences in pause and pronunciation between AI and human announcer


Ⅵ. 결 론

본 연구는 인간 아나운서와 AI 아나운서의 준언어적 요소 차이를 분석한 결과, 네 가지 구성요소(음도, 속도, 강도, 쉼) 모두에서 통계적으로 유의미한 차이를 확인했다. AI 아나운서는 인간 아나운서보다 높은 음도와 강도를 보였으며, 인간 아나운서는 더 빠른 속도와 긴 쉼을 나타냈다. 예상과 달리 AI 아나운서가 상대적으로 높은 음도와 강도를 보인 것은 크고 힘 있는 목소리는 활력을 주고 전달력을 향상시켜 청취자에게 매력을 느끼게 한다는 점에서 AI 아나운서의 기술력 향상과 함께 청자로부터 신뢰와 호감을 얻을 가능성을 시사한다.

또한, 뉴스 장르별 분석 결과에서도 몇 가지 흥미로운 점이 발견되었다. 경성뉴스에서는 네 가지 준언어적 요소에서 통계적으로 유의미한 차이가 발견되었으나, 연성뉴스에서는 쉼(pause)의 차이가 관찰되지 않았다. 뉴스 장르에 따른 차별화된 발화 패턴은 아나운서의 발화 전략의 차이 때문일 것으로 예상된다.

예를 들어, 경성뉴스의 경우, 중요도와 시의성이 높은 주제를 다루므로, 복잡한 정보를 효과적으로 전달하기 위한 전략으로서 쉼의 길이와 패턴을 의도적으로 조절해가면서 청자의 이해를 높이고자 한다. 앞서 언급한 대로, 쉼은 청자의 인지적 처리 과정에 시간을 제공하는 효과가 있기 때문에, 쉼을 조절함으로써 청자로 하여금 체계적으로 정보를 처리할 수 있게끔 돕는다. 이에 반해, 연성뉴스는 이해도를 높이는 것보다는 정서적 공감을 형성하는 데 목적이 있으므로, 쉼의 변화보다는 음도나 강도 같은 다른 요소들이 상대적으로 더 중요해진다.

그리고 연성뉴스에서 AI 아나운서의 쉼이 경성뉴스에 비해 뚜렷하게 증가하는 것을 보이는데, 이는 뉴스 아나운싱 과정에 뉴스의 장르적 특성이 반영된 것으로 볼 수 있다. 뉴스 유형에 따라 쉼의 길이를 조절한다는 것은 AI 아나운서가 상당한 수준의 학습을 거듭하고 있다는 것을 의미한다. 그렇지만, 여전히 AI 아나운서의 음도와 강도는 문맥에서 벗어나 부자연스러운 흐름을 보이는 경우가 적지 않다. 특히, 인간 아나운서가 문장의 완급 조절과 다양한 준언어적 요소를 유연하게 활용하는 것과 달리, AI 아나운서의 경우 음도와 강도의 갑작스러운 변화로 인해 부정확한 발성이 반복해서 관찰된다. 이는 아직 완벽한 문맥과 상황을 파악하여 발화하기 위해서는 더 많은 학습이 필요하다는 것을 시사한다.

본 연구는 동일 인물(조수빈 아나운서)의 육성 녹음과 해당 아나운서를 학습한 AI 결과물을 수량화하여 비교 분석함으로써 AI와 인간 아나운서의 준어어적 요소를 실증했다는 점에서 학술적 의의가 있다. 향후 연구에서는 성별, 연령별로 각기 다른 아나운서들의 준언어적 요소를 비교하고, 뉴스 유형도 다양하게 수집하여 충분한 표본을 확보함으로써 분석 결과를 일반화할 필요가 있다. 그리고 수용자의 인간과 AI의 준언어적 요소의 수용 과정의 차이, 그리고 이러한 차이에 관한 사회적 맥락을 분석하는 것도 필요하다. 또한 뉴스 유형을 더 세분화하여 연예, 오락, 스포츠 등 세부 유형별 특징을 정교하게 파악하는 연구도 요구된다. AI 기술의 지속적 진화 속에서 AI 아나운서 기술을 최적으로 활용하면서 인간은 창의성 중심으로 발전해 나가야 한다. 공존의 관점에서 AI 아나운서 도입이 인간의 삶의 질 향상과 AI 방송환경에 대한 이해를 높이는 데 도움이 되기를 기대한다.

Acknowledgments

본 연구는 제1저자의 석사학위논문을 토대로 재구성하였습니다. 학위논문 작성에 도움을 주신 심사위원께 감사드립니다.

References

  • K. W. Kook, “Application Cases of Artificial Intelligence Technology by Industry Sector,” Weekly Technology Trends of Institute for Information & Communications Technology Planning & Evaluation, No. 1888, pp. 15-27, 2019.
  • H. Y. Shin, Verification of AI Announcer News Acceptance Model and Effect Study by News Type, Ph.D. Dissertation, Sungkyunkwan University, Seoul, 2022.
  • J. M. Hong. [4th Industrial Revolution] Not Human? World's First 'AI Announcer' Debuts in China [Internet]. Available: http://www.dtoday.co.kr/news/articleView.html?idxno=285005, .
  • E. H. Jung. Video of AI Female Anchor Released by Xinhua News Agency.. 'More Advanced Technology than Japan' [Internet]. Available: https://www.joongang.co.kr/article/23400964, .
  • G. H. Lee. Will News Anchors Disappear?... Chinese AI Announcer Hosts Main News 'Surprise' [Internet]. Available: https://www.ajunews.com/view/20240214110307784, .
  • J. K. Keum. Following Kim Ju-ha, Lee Ji-ae AI Announcer Appears [Internet]. Available: https://www.mediatoday.co.kr/news/articleView.html?idxno=212335, .
  • H. Y. Jung. Korea's First 'AI Announcer' Successfully Debuts... Money Brain at 'LG HelloVision' [Internet]. Available: https://www.aitimes.kr/news/articleView.html?idxno=17452, .
  • Y. J. Chae. AI Announcer's First Appearance... LG HelloVision and Others Heat Up 'AI Announcer Market Competition' [Internet]. Available: https://www.metroseoul.co.kr/article/20210425500129, .
  • G. E. Kim. YTN Unveils Male and Female AI Anchors 'Y-GO and Y-ON' [Internet]. Available: https://www.journalist.or.kr/m/m_article.html?no=54327, .
  • Ministry of Science and ICT & Korea Communications Agency, 2024 Survey on AI Technology Utilization in Broadcasting Industry, Sejong, 2024.
  • H. Y. Shin and S. H. Kwon, “An Evaluation of Determinants to Viewer Acceptance of Artificial Intelligence-based News Anchor,” The Journal of the Korea Contents Association, Vol. 21, No. 4, pp. 205-219, 2021.
  • Y. Zhao. From Lab to Screen, How Does 'Sogou AI Synthetic Anchor' Approach Real People? [Internet]. Available: https://tech.ifeng.com/c/7l29zEZlDS7, .
  • W. J. Ong, Orality and Literacy, K. W. Lee and M. J. Lim trans. Seoul: Moonye Publishing, 1995.
  • K. H. Park, A Study on the Effect of Paralanguage on Broadcasting Message Delivery, Master’s Thesis, Sungkyunkwan University, Seoul, 2004.
  • K. H. Park, The Best Announcing, Seoul: Prunsys, 2011.
  • CBS Announcer Department, CBS Announcer Guide, Seoul: CBS Announcer Department, 2019.
  • KBS Korean Language Research Group, Becoming an Announcer and Broadcaster, Seoul: Korea Broadcasting Publishing, 2005.
  • K. H. Park, An Experimental Study on Effect of Reading Rate in News Delivery on Recognition of Recipients, Ph.D. Dissertation, Sungkyunkwan University, Seoul, 2008.
  • D. Y. Lee, “The Education of Oral Language and Culture Creation,” Jounal of Elementary Korean Education, Vol. 20, pp. 23-42, 2002.
  • J. L. Lim, A Study on Sermon Communication and Nonverbal Communication, Master’s Thesis, Presbyterian Theological Seminary, Seoul, 2000.
  • H. J. Lee, An Experimental Study on the Communication Ability of the Pastoral Sermon : The Effects of Paralinguistic and Nonverbal Delivery Factors, Ph.D. Dissertation, Kwangwoon University, Seoul, 2007.
  • E. K. Kim and K. I. Song, Speech Techniques for Emotion and Trust, Seoul: Communication Books, 2014.
  • A. Mehrabian, “Some Referents and Measures of Nonverbal Behavior,” Behavior Research Methods & Instrumentation, Vol. 1, pp. 203-207, 1968. [https://doi.org/10.3758/BF03208096]
  • S. B. Kwon, “A Study of Paralinguistic Construction Elements and Vocal Characteristics Using Speech Sound,” Cogito, Vol. 97, pp. 7-33, 2022. [https://doi.org/10.48115/cogito.2022.06.97.7]
  • S. B. Kwon, “A Characteristic Study of Voice Attractiveness by Preceding Study Analysis,” Journal of Speech-Language & Hearing Disorders, Vol. 18, No. 4, pp. 105-122, 2009. [https://doi.org/10.15724/jslhd.2009.18.4.007]
  • S. B. Kwon, “Paralinguistic Elements of Voice in Communication: A Literature Review,” Journal of Speech-Language & Hearing Disorders, Vol. 21, No. 2, pp. 1-22, 2012. [https://doi.org/10.15724/jslhd.2012.21.2.001]
  • A. Mehrabian and M. Williams, “Nonverbal Concomitants of Perceived and Intended Persuasiveness,” Journal of Personality and Social Psychology, Vol. 13, No. 1, pp. 37-58, 1969. [https://doi.org/10.1037/h0027993]
  • D. Ross-Swain, The Voice Advantage, San Diego, CA: Singular Publishing, 1991.
  • B. M. Ha, The Effect of Paralinguistic Elements on Voice Image, Master’s Thesis, Department of Speech-Language Pathology, Catholic University of Pusan, Busan, 2017.
  • D. Steinberg, An Introduction to Psycholinguistics, K. J. Park Trans. Seoul: Hanshin Publishing, 1993.
  • K. H. Kim, S. Y. Kim, and J. Y. Yoo, “A Study of the Pitch, Pitch Range, and Speech Rate of TV Announcers,” Journal of Speech-Language & Hearing Disorders, Vol. 30, No. 3, pp. 75-80, 2021. [https://doi.org/10.15724/jslhd.2021.30.3.075]
  • H. J. Lee and S. J. Kim, “Age and Sex Differences in Acoustic Parameter of Middle Age and Elderly Adult Voice,” Malsori, Vol. 60, pp. 13-28, 2006.
  • R. H. Park and S. H. Lee, “The Impact of Voice Construction on Communication,” Journal of Speech, Media and Communication Research, Vol. 11, pp. 293-327, 2009.
  • V. MacLachlan, “Superovulation in Women,” Journal of Obstetrics and Gynaecology, Vol. 25, pp. 44-54, 1995.
  • S. J. Kim, “Characteristics of Korean Broadcasting Language,” in International Network of Korean Language and Culture, pp. 41-55, January 2005.
  • Y. S. Jang, A Study on Speech Components of Sports Casters and Positioning Strategy According to Channel Brand Image and Media Acceptance Intention, Ph.D. Dissertation, Kyung Hee University, Yongin, 2018.
  • C. H. Kim and Y. S. Kim, “Research about Effective Delivery and Utilization of Nonverbal Factors,” Presbyterian Theological Quarterly, Vol. 85, No. 2, pp. 149-175, 2018.
  • E. Campione and J. Véronis, “A Large-Scale Multilingual Study of Silent Pause Duration,” Speech Prosody, 2002. [https://doi.org/10.21437/SpeechProsody.2002-35]
  • S. M. Lee, “A Study on Characteristics of Paralinguistic Expression of Radio Popular Entertainment Program Hosts,” Journal of Speech Communication, Vol. 1, pp. 145-199, 1999.
  • J. M. Han and J. A. Seol, “Tabloidization of Prime-Time Television News in Korea,” Korean Journal of Broadcasting and Telecommunication Studies, Vol. 15, No. 3, pp. 333-366, 2001.
  • C. Reinemann, J. Stanyer, S. Scherr, and G. Legnante, “Hard and Soft News: A Review of Concepts, Operationalizations and Key Findings,” Journalism, Vol. 13, No. 2, pp. 221-239, 2012. [https://doi.org/10.1177/1464884911427803]
  • Y. M. Kim, “The Effect of Language and Nonverbal Factors of TV weather-caster on the Reliability of Weather Programs,” Journal of Communication Science, Vol. 18, No. 4, pp. 72-96, 2018. [https://doi.org/10.14696/jcs.2018.12.18.4.72]
  • J. C. Yoo, “Comparisons of Paralanguage Features between a Human Announcer and Text-to-Speech(TTS) Devices during the Out-Loud Reading of News Sentences,” Journal of Speech Communication, Vol. 41, pp. 49-83, 2018. [https://doi.org/10.18625/jsc.2018..41.49]

저자소개

임경희(Kyung-hee Lim)

2024년:전북대학교 공공정책대학원 (미디어PR학석사)

2013년~2017년: TBN전북방송 음악프로그램 MC

2013년~2024년: 전북CBS 보도제작국 편성팀 프리랜서 아나운서

2024년~현 재: 전북CBS 선교제작국 아나운서

※관심분야:뉴스 아나운싱, AI 아나운서, 낭독 기법 등

유경한(Kyung Han You)

2006년:연세대학교 커뮤니케이션대학원 (영상학석사)

2014년:펜실베이니아주립대학교 대학원 (언론학박사)

2015년~2019년: 한국외국어대학교 미네르바교양대학 조교수

2019년~현 재: 전북대학교 미디어커뮤니케이션학과 부교수

※관심분야:지능정보사회론(Intelligent Information Society), 알고리즘 미디어, 과학·환경·헬스 커뮤니케이션 등

Table 1.

News selected for analysis

Item Title Source Human AI
Hard news 1 Climate Groups: "Reduce Coal Power... National Assembly Should Lead Coal Phase-Out" KBS (24/03/07) 1 min 8 sec 1 min 10 sec
2 Ministry of Environment Announces 'Ultra-Fine Dust Reduction Measures'... "Actively Recommend Flexible Work for Vulnerable Groups" MBC (24/02/27) 1 min 12 sec 1 min 14 sec
Soft News 1 41 Years Until First Shovel... Seoraksan Osaek Cable Car Construction Begins MBN (23/11/21) 1 min 14 sec 1 min 15 sec
2 From Environmental Protection to Donations... Youth Create 'Special Pencil Cases' YTN (23/11/04) 1 min 7 sec 1 min 12 sec

Table 2.

Differences in paralinguistic components between AI and human announcers

Component n News in Total
M(SD) t-value
*p<.05, **p<.01, ***p<.001
Pitch Human 400 237.242 (39.704) 9.14***
AI 400 225.638 (41.277)
Pace Human 400 0.599 (0.228) -4.94***
AI 400 0.624 (0.238)
Power Human 400 75.044 (3.024) -8.25***
AI 400 75.892 (2.759)
Pause Human 52 0.507 (0.187) 4.61***
AI 52 0.437 (0.175)

Table 3.

Differences in paralinguistic components by news type

Component n Hard News Soft News
M(SD) t-value M(SD) t-value
*p<.05, **p<.01, ***p<.001
Pitch Human 200 222.425
(37.877)
-7.98*** 228.851
(44.279)
-5.05***
AI 200 236.412
(38.224)
238.071
(41.211)
Pace Human 200 0.601
(0.231)
-3.24** 0.598
(0.226)
-3.73***
AI 200 0.623
(0.236)
0.624
(0.241)
Power Human 200 74.851
(3.225)
-6.83*** 75.236
(2.804)
-4.84***
AI 200 75.857
(2.749)
75.927
(2.775)
Pause Human 25 0.502
(0.175)
6.83*** 0.5129
(0.2)
1.75
AI 25 0.404
(0.172)
0.467
(0.176)

Table 4.

Number of syllables per minute(SPM) by news type

Hard News Soft News
1 2 Mean 1 2 Mean
Human 330
(336)
339
(320)
335
(328)
324
(309)
351
(331)
338
(320)
AI 309
(330)
342
(313)
326
(322)
318
(304)

Table 5.

Examples of differences in pause and pronunciation between AI and human announcer

Item Korean Word Human Announcer AI Announcer
* The original words are written in Korean to identify different pronunciation between human and AI
Hard News 1 61기 yeosunhan gi yuksibal gi
20기 seumu gi isip gi
2 53대 swinseok dae osipsam dae
825명 palbaekseumuldaseot myeong palbaegisibo myeong
대합실 등 daehapsil deung daehapsil tteung
4번까지 ne beonkkaji sa beonkkaji
‘주의’ 단계 jui dangye jue dangye
15기 yeoldaseot gi sibo gi
Soft News 1 28기 seumulyeodeol gi isipal gi
저감 조치도 jeogam jochido jeokam jochido
2 전국 23개 중 · 고등학교 학생 3천 명이 jeon-guk 23gae jung-godeunghakgyo haksaeng 3cheon myeongi jeon-guk 23gaejung, godeunghakgyo haksaeng 3cheon myeongi