
생성형 AI 기반 XR 환경의 차세대 버튜버 방송 서비스 생태계 제안
Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
초록
본 연구는 팬과의 소통 방식이 확장되고 있는 버튜버 시장에 생성형 AI와 XR 기술을 적용하여 상호작용을 강화한 방송 서비스를 제안하는 것을 목표로 한다. 이를 위해 방송 제작 프로세스를 2D와 3D로 구분해 분석하고, 실시간 스트리밍 플랫폼 4종과 국내 사용자 수 1위 서드파티 플랫폼의 기능 4종, 구독자 수 상위 2인의 방송 각각 2편, 생성형 AI 도입 사례, 현실과 가상 이미지를 결합한 팬 경험 사례를 분석하였다. 이를 바탕으로 버튜버 방송 시청자 39명을 대상으로 설문조사를 하고, 버튜버 5명을 대상으로 심층 인터뷰를 진행하였다. 이후 방송 과정을 6단계로 구성하여 유저 저니 맵을 제작하였다. 마지막으로, 생성형 AI 툴 8종을 활용하여 서비스 프로토타입을 구현하였다. 이에 생성형 AI를 활용해 버추얼 모델 제작과 모션캡처 과정을 경량화한 방안을 제시하고, XR 기반으로 팬들과 실시간 1:1 상호작용이 가능한 몰입감 높은 버튜버 방송 서비스를 제안한 점에서 본 연구의 의의가 있다.
Abstract
This study proposes an advanced V-Tuber broadcasting service that enhances real-time interaction with fans by incorporating generative artificial intelligence (AI) and extended reality (XR) technologies, in response to evolving communication methods in the V-Tuber market. The research categorizes production workflows into 2D and 3D and analyzes them, by examining four real-time streaming platforms, four core features of Korea’s most-used third-party platforms, and two broadcasts from each of the top two creators by subscriber count, in addition to generative AI use cases and fan experiences combining virtual and real imagery. A survey was conducted with 39 V-Tuber viewers, along with in-depth interviews with five V-Tuber creators. A five-stage broadcasting process was then mapped into a user journey. Finally, using eight generative AI tools, a prototype of the proposed service was developed. By streamlining virtual model creation and motion capture with generative AI, this study presents a meaningful approach in proposing an immersive, XR-based V-Tuber broadcasting service that enables real-time one-on-one fan interaction.
Keywords:
V-Tuber, One-person Media, Broadcast Ecosystem, Generative AI, Extended Reality키워드:
버추얼 유튜버, 1인 미디어, 방송 생태계, 생성형 AIⅠ. 서 론
1-1 연구 배경 및 목적
버추얼 유튜버(Virtual Youtuber)의 축약 표현인 버튜버(V-Tuber)는 해외에서 브이튜버(VTuber), 버추얼 스트리머(Virtual Streamer), 또는 버추얼 BJ(Virtual BJ)라고도 불린다. 버튜버는 모션 캡처(Motion Capture)와 더빙(Dubbing) 기술을 통해 2D 또는 3D 가상 아바타의 입과 신체에 실재감 있게 움직임을 부여하여 유튜브에서 라이브 스트리밍 방송 활동을 하는 가상의 캐릭터를 의미한다. 일본의 키즈나 아이(Kizuna A.I.)뿐 아니라 한국, 미국 및 그 외 나라에서도 여러 버튜버가 유튜브 안팎에서 활발하게 활동 중이다. 한국의 버추얼 유튜버 아뽀키(APOKI)는 2019년 서울국제만화애니메이션페스티벌의 홍보대사에 위촉되었으며, 미국의 릴 미쿠엘라(Lil Miquela)는 2018년 주간지 TIME이 선정한 인터넷에서 가장 영향력 있는 인물 25인에 선정되기도 하였다[1]. 더불어 뉴로사마(Neuro-sama)[2]와 같이 생성형 AI를 활용한 버튜버 접목에까지 이르고 있어 버튜버 시장이 향후 새로운 기술 접목과 함께 더 확장될 전망이다.
하지만, 현재의 버튜버 서비스는 버튜버와 시청자가 능동적으로 소통하며 콘텐츠를 경험하기에는 제약이 많은 상태이다. 특히 버튜버와 시청자 사이의 양방향 인터랙션이 약하고 주로 텍스트 채팅에 의존하다 보니, 방송 중 수많은 실시간 채팅으로 인한 소통 효율성이 떨어지는 한계가 존재한다. 또한, 현 2D와 3D 버추얼 모델 제작에는 Live 2D, 모션 캡처와 같은 고가의 장비와 기술이 사용될 뿐 아니라, 모델링과 애니메이션 작업에 많은 시간과 전문 인력 투입이 필요하여 비용과 시간 측면의 제작 효율성이 떨어진다. 가령, 2D 버추얼 모델 디자이너인 구랭이의 제작 내용을 사례로 현행 작업 방식을 분석해보면 2D 버추얼 모델 제작을 위해서는 일러스트 제작 시에 레이어를 부분별로 나누어야 하고 리깅 툴인 Live 2D를 활용해 일일이 움직임의 방향과 정도를 조절해야 하는 번거로움이 있다[3]. 해당 작업의 평균 수주 기간이 몇 주에서 몇 달에 이르기 때문에 비용이 상당히 증가한다. 이러한 제약 요건으로 현 서비스들은 캐릭터를 포함한 콘텐츠 연출과 배경이 고정된 형태로 유지되는 경우가 많다.
따라서 본 연구는 이러한 제작 환경과 버튜버와 시청자 간의 소통 한계를 개선하고자 버추얼 모델과 방송 콘텐츠를 최근 생성형 AI를 통해 생성하고, 실재감을 강화하기 위해 확장 현실 기반 XR(eXtended Reality) 플랫폼을 활용하여 실시간 버튜버 방송의 몰입감과 상호작용성을 개선하는데 1차 목적이 있다. 또한, 생성형 AI 기반 XR 환경의 차세대 버튜버 방송 서비스 제안을 통해 새로운 개념의 차세대 버튜버 방송의 생태계 조성을 시도해 보는 데 본 연구의 최종 목적이 있다.
1-2 연구 범위 및 방법
본 연구는 생성형 AI 기반 차세대 XR 플랫폼 버튜버 방송 서비스 생태계 제안을 위한 디자인 프로토타입 제안 연구로 그 과정에 포함된 콘셉트 기획에서 실제 프로토타입 제작까지를 주요 연구 범위로 한다. 다만 기술 구현 측면에서 제안 서비스의 구현 가능성을 검토하나 실제 프로그래밍이 반영된 구현까지는 본 연구 범위에 포함하지 않는다. 연구 방법은 다음과 같다. 첫째, 관련 연구분석을 통해 버튜버의 개념과 시장 상황을 분석한다. 또한, 선행 버튜버 방송 플랫폼 사례를 분석하여 생성형 AI 기반의 방송 플랫폼의 필요성과 효용성을 검증한 후 기존 버튜버 방송 제작 구조와 기능의 한계를 도출한다. 둘째, 관련 연구와 버튜버 및 버튜버 방송 시청자를 대상으로 한 설문조사와 심층 인터뷰를 진행하고 그 인사이트를 바탕으로 새로운 버튜버 방송 플랫폼 서비스를 As-Is To-Be로 연계 매핑한다. 셋째, 생성형 AI 접목을 통해 실시간 상호작용이 가능한 생성형 AI 기반 차세대 버튜버 방송 서비스의 디자인 프로토타입을 제작한다. 마지막으로 제작된 프로토타입 기반 전시를 통해 UT 차원의 의견 수렴을 진행한 후 최종 본 연구의 핵심 결과, 한계점, 발전 방향을 제시한다.
Ⅱ. 관련 연구 및 사례 분석
2-1 버튜버의 정의와 배경
버튜버는 가상을 뜻하는 ‘버추얼(Virtual)’과 유튜브와 같은 플랫폼에서 영상물을 창작하는 개인을 일컫는 ‘유튜버(youtuber)’의 합성어이다[4]. 버튜버는 자신을 대표하는 2D 및 3D 가상 아바타로, 카메라를 활용한 모션 캡처기술과 더빙을 활용해 실제 인물이 가상의 캐릭터에 콘셉트를 적용해 연기하는 라이브 스트리밍 방송 콘텐츠를 제공한다. 이에 따라 버튜버는 라이브 스트리밍 기반 SNS 플랫폼에 특화되어 그 범위를 넓혀가고 있다[5].
언어, 성별, 나이의 제한 없이 성장 중인 버튜버 시장은 1인 미디어 방송의 등장과 함께 더 성장하고 있다. 표현 방식 측면에서 2D 버튜버는 3D 버튜버보다 제작 기간이 짧고 방송 환경 조성에 드는 비용이 적다는 장점이 있어, 더욱 활발하게 시장이 형성되어 있다[6]. 또한, 버튜버는 가상 아이돌 역할을 하므로 유튜브 광고 수익 외에도 상품 판매, 이벤트 참가 등 여러 수익 모델에 활용되고 있으며, 이를 통해 문화 교류도 이루어지고 있다[7]. 대표 일본 버튜버 전문 회사인 ‘애니컬러’는 2022년 매출 141억 원, 영업이익 41억을 기록하면서 지속 성장을 하고 있고[7] 국내 일부 기업들은 버튜버를 젊은 세대 소비자와의 커뮤니케이션 채널로 적극적으로 활용하고 있다[5]. 고객층이 겹치는 웹툰, 웹 소설 시장도 버튜버의 관심이 많은데 ‘카카오페이지’는 2024년 국내 인기 버튜버 그룹 ‘이세계 아이돌’의 웹툰 펀딩을 통해 88억 원을 모금하며 버튜버의 IP 활용 성장을 이끌고 있다.
2-2 선행 버튜버 사례 연구 분석
그림 1은 선행 버튜버 모델 제작 프로세스를 분석한 내용으로 선행 연구 유미의 ‘버추얼 프로덕션 기술의 대중화에 따른 버튜버 확산 연구’를 참고하여 분석 대상 및 분석 도구를 선정하였다[5]. 분석 대상은 버추얼 프로덕션 제작 단계별 이미지와 해당 제작 방식을 분석할 수 있는 사례로 선정하였고, 분석 도구는 제작 과정별 단계, 대표 사용 프로그램, 특징, 제작 비용과 소요 시간으로 선정하였다.
그림 1의 1은 2D 버추얼 모델 제작 과정으로, 1-1과 1-2는 일러스트레이션 및 리깅(Rigging) 외주 플랫폼 아트머그(Artmug)에 등록된 2D 버추얼 모델 디자이너 구랭이의 2D 버추얼 모델 제작 내용[3]을 분석한 것이다. 1-1은 버튜버의 외관을 구성하는 일러스트 제작 단계로 사용 프로그램은 ‘Clip Studio’이며 이 툴은 2D 버튜버 외관을 그리는 데 사용되고 있다. 예시와 같이 2D 버튜버의 일러스트 제작의 경우 세부 파츠를 개별 분리하여 작업해야 하므로 일반 디지털 일러스트보다 시간과 비용이 많이 소요된다[6]. 아트머그 ‘Live 2D’ 카테고리의 인기 작가 중 일러스트 작가에 해당하는 10인을 조사한 결과, 평균 작업 소요 기간은 62일이다. 1-2는 제작된 2D 일러스트에 움직임을 부여하는 리깅 작업으로, 2D 리깅에 가장 많이 사용되는 ‘Live 2D’ 프로그램 화면이다. 2D 리깅에는 일러스트의 각 파츠에 그물망 구조를 씌워서 변형점을 만들고, 움직임의 방향과 정도에 맞추어 개별 변형하는 툴인 퍼펫(Puppet) 도구를 활용하므로 상당한 시간이 소요된다. 아트머그 ‘Live 2D’ 카테고리의 인기 작가 중 리깅 작가에 해당하는 15인을 조사한 결과, 평균 소요 기간은 50일이 걸렸다. 1-3과 1-4는 버튜버 메리마의 2D 버추얼 모델 조작을 위한 하드웨어와 소프트웨어 세팅 사례[8]로 1-3은 방송에 필요한 데스크톱, 마이크, 웹캠 장비이다. 1-4는 버추얼 모델을 조종하는 페이셜 캡처(Facial Capture) 소프트웨어 세팅 과정으로 ‘VTube Studio’ 프로그램을 활용하고, 세팅 시간은 30분 소요된다. 이처럼 2D 버추얼 모델의 특징은 장비와 프로그램 구성이 비교적 단순해 3D 모델보다 접근성이 좋지만 움직임은 실시간 방송은 버추얼 모델의 상반신만 화면에 노출하는 방식이 일반적이다[6].
2는 3D 버추얼 모델 제작 과정으로 2-1과 2-2는 3D 버추얼 모델 디자이너 김사바의 3D 버추얼 모델 제작 예시[9]이다. 2-1은 3D 모델링 과정이며 ‘Blender’ 프로그램을 버튜버의 3D 모델링에 사용하고 있다. 2-2는 제작된 3D 모델에 뼈대를 심어 움직임을 부여하는 리깅 단계로 Blender를 사용하고 있다. 아트머그 ‘버추얼 3D’ 카테고리의 인기 작가 10인을 조사한 결과 3D 모델링과 리깅에 드는 총소요 기간은 47일이다. 이처럼 3D 모델링은 숙련도가 요구되어 헤어, 의상, 소품 등을 추가할 시 금액과 시간은 급격히 상승하므로 전업 버튜버에게도 부담이 크다. 이에 무료 배포 모델을 활용하기도 하지만, 외관 선택 폭이 제한되는 한계가 있다. 2-3과 2-4는 3D 버튜버 Codemiko의 3D 버추얼 모델 조작을 위한 하드웨어와 소프트웨어 세팅 사례[10]로 2-3처럼 모션트래커(Motion Tracker), 모션 캡처 슈트(Motion Capture Suit), 아이폰과 같은 장비가 사용되며, 저가 장비일수록 표정 변화 정도의 표현만 가능한 한계가 있다. 2-4는 모션 캡처 소프트웨어 세팅 과정[11]으로, MVN Link의 전용 소프트웨어인 ‘MVN Animate’ 프로그램을 활용한 작업 화면이다. 세팅을 위한 튜토리얼 영상만 약 6시간이다.
이처럼 3D 버튜버는 장비, 모델 제작, 모션 캡처 과정에서 높은 비용과 기술력이 요구되어 기업 단위 제작과 운영이 일반적이다[5]. 이에 3D 제작 방식은 하드웨어와 소프트웨어 세팅에 전문 기술력이 필요하여 외주를 맡기고, 실시간 콘텐츠 진행 시 화면 전환 등의 관리가 필요한 경우엔 버튜버 외 추가 인력이 필요하다. 이상 버추얼 모델 제작 방식을 분석한 결과, 2D와 3D 버추얼 모델 모두 정교한 동작 구현을 위해 높은 전문 지식, 노동력, 시간이 필요하다는 한계가 있다. 따라서 외주 제작이 일반적이지만, 이 과정에서도 상당한 시간과 비용이 소요되며, 제작자와 버튜버가 소통하며 여러 번 수정이 필요하다. 또한, 시청자층을 효과적으로 공략하려면 버튜버의 세계관 구축과 니즈 분석이 필수적이어서 개인이 이를 충분히 파악하고 외관을 구체적으로 요청하기는 어렵다. 특히 2D 모델은 동작 표현에 제약이 크며, 3D 모델링과 방송 환경 구성에는 더욱 많은 시간이 요구된다. 따라서 대부분의 버튜버는 상반신 표현인 한계성은 있지만, 상대적으로 접근성이 좋은 2D 모델을 활용해 방송을 진행하고 있다.
그림 2는 버튜버 방송 플랫폼과 시청자가 버튜버에게 후원하는 과정인 도네이션(Donation)을 보조하는 서드 파티 플랫폼(Third party platform)을 분석한 내용이다. 버튜버 방송 플랫폼 사례는 2024년에 Stream Chart에서 공개한 ‘버튜버 방송 플랫폼 통계’에서 시청 시간 합계가 많은 상위 4개의 플랫폼을 분석 대상으로 선정하였다. 분석 도구는 플랫폼별 특징, 번역 기능, 채팅 작성 제한 기능, 도네이션 방식으로 정하였다. 그림 2의 1은 4개 대표 버튜버 방송 플랫폼인 유튜브, 트위치, 숲(Soop), 치지직을 분석한 내용이다. 플랫폼별 특징을 살펴보면, 유튜브는 실시간 방송과 편집 영상을 모두 제공하며, 트위치는 게임 콘텐츠 중심의 방송에 최적화되어 있다. 숲은 도네이션 문화가 보다 활발하고, 치지직은 네이버 기반 서비스로 커뮤니티 접근성이 좋다.
번역 기능으로 유튜브는 자동 자막 번역을 제공하며, 트위치는 외부 플러그인으로 채팅 번역이 가능하다. 반면 숲과 치지직은 번역 기능이 없어, 시청자와 버튜버의 언어가 다를 경우 소통에 제약이 따른다. 또한, 시청자와 버튜버는 채팅을 통해 소통하지만, 채팅 속도가 지나치게 빨라질 경우 이를 제어할 수 있는 ‘채팅 작성 제한 기능’이 필요하다. 유튜브와 트위치는 제한 시간 설정 기능을 제공하지만, 숲과 치지직은 해당 기능이 없어 채팅창이 일시적으로 멈추는 오류가 발생하기도 한다. 즉, 이 기능이 있으면 시청자가 원하는 순간에 채팅을 자유롭게 보내기 어렵고, 없으면 과도한 채팅으로 인해 시스템 오류가 생길 수 있다. 채팅은 버튜버와 시청자 모두에게 동일한 형식으로 표시되며 빠르게 흘러가기 때문에, 시청자들은 보다 눈에 띄고 직접적인 도네이션을 활용해 버튜버와의 상호작용을 시도한다. 도네이션 방식은 4개 플랫폼 모두 후원 금액과 시청자가 작성한 글을 함께 보내는 방식을 사용하고 있다. 추가로 숲은 영상을 보내는 기능이 있으며, 치지직은 영상과 TTS(Text To Speech) 전송 기능이 있다. 하지만 버튜버 방송 플랫폼의 기본 도네이션은 기능이 제한적이므로 버튜버들은 서드파티 플랫폼을 활용해 시청자의 도네이션을 보조하고 있다.
그림 2의 2는 도네이션 서드파티 플랫폼의 실제 사용 화면과 절차를 구조화하여, 해당 기능을 분석한 것이다. 도네이션을 보조하는 서드 파티 플랫폼은 국내 사용자 수 1위인 Toonation의 기능을 중심으로 분석하였다. 2-1[12]은 TTS 도네이션 기능을 이용해 작성한 글을 원하는 음성으로 버튜버에게 보내는 과정의 장면이다. 2-2[13]의 퀘스트 도네이션은 시청자가 버튜버에게 퀘스트를 보낸 후 버튜버가 퀘스트를 달성할 경우 도네이션을 받을 수 있다. 2-3[14]의 비디오 도네이션은 영상 링크를 보내면 버튜버의 방송에 영상이 자동으로 재생되는 방식의 서비스다. 2-4[15]의 드로잉 도네이션은 직접 그린 그림이 버튜버의 방송 화면에 제시된다. 이처럼 시청자는 차별화된 도네이션을 통해 버튜버의 호응을 얻고자 하며, 특히 직접 그린 그림이 반영되는 드로잉 도네이션으로 능동적 참여를 시도한다. 그러나 이 방식은 드로잉 실력이 요구되어 접근성이 낮고, 완성된 이미지가 방송 흐름과 관계없이 삽입되어 시청자 간 소통 불균형이나 콘텐츠 몰입도 저하를 야기한다. 또한, 그림을 버튜버 모델이나 배경에 자연스럽게 반영하는 데 기술적 한계가 존재한다. 이러한 이유로 대부분의 버튜버는 채팅 작성 제한과 방송 진행에 영향이 적은 글 도네이션을 중심으로 방송을 운영한다.
그림 3은 현행 버튜버의 방송 사례를 분석한 내용으로 분석 대상은 2025년 4월 기준 유튜브 구독자 상위 2개 버튜버 채널 고세구[16]과 마왕[17]이다. 해당 버튜버의 방송 일정 공지, 조회 수 기준 최상위 및 최하위 영상을 분석하였다. 분석 도구는 방송 주기, 공지 장소, 조회 수, 3D 배경 여부, 콘텐츠 유형, 인사이트의 총 6개이다. 1-1은 고세구의 라이브 방송 일정 공지를 분석한 내용이다. 고세구의 라이브 방송은 비정기적으로 진행되며, 주로 네이버 카페를 통해 하루 전 공지된다. 이로 인해 시청자는 실시간 소통을 위해 공지 시간에 맞춰 접속해야 한다. 더불어, 방송 종료 후 녹화 영상을 시청할 경우 실시간 상호작용이 불가능한 한계가 있다. 또한, 불규칙한 방송 일정과 부족한 알림 시스템으로 시청자와 버튜버 간 소통에 어려움이 있다. 1-2는 고세구의 조회 수 최상 하위 방송을 분석한 것이다. A는 고세구의 조회 수 최상위 영상인 ‘팬서비스 COVER’ 방송이다. 이 방송은 3D로 제작된 배경 세트를 활용해 공간감을 강조하고, 다양한 카메라 각도로 버튜버를 보여주는 연출을 통해 높은 몰입감을 제공한다. 콘텐츠는 노래와 춤으로 구성되었으며, 버튜버 모델의 역동적인 움직임이 시청자의 흥미를 유도한다. 반면, B는 조회 수 최하위를 기록한 ‘엘든링 플레이’ 방송이다. 이 방송은 3D 배경 없이 게임 플레이 화면에 버튜버 모델을 증강하는 형태로 구성되어 있으며, 버튜버 모델은 화면 하단 구석에 고정된 형태로 상반신만 보인다. 카메라 시점 변화가 없어 전체적으로 단조로운 느낌을 주고 있고, 버튜버 모델 크기가 작아 버튜버의 표정이나 움직임을 확인하기 어렵다. 콘텐츠는 게임과 시청자 소통으로 구성되어 있으나, 동일 게임 방송 카테고리의 타 영상들 대비 연출 방식이 조회 수 저하의 원인으로 보인다. 다만, 상위 조회 수 방송처럼 역동적인 카메라 시점과 3D 배경 활용을 위해서는 상당한 제작 시간과 비용이 소요되므로, 대다수 방송은 B처럼 간단한 화면 구성으로 진행된다. 이상을 통해 볼 때 3D 배경과 역동적인 화면 연출이 콘텐츠의 매력도와 조회 수에 영향을 미치는 점을 알 수 있다.
2의 2-1은 버튜버 마왕의 라이브 방송 일정 공지를 분석한 내용이다. 마왕은 상대적으로 규칙적인 방송 일정을 운영하고 있다. 화요일을 제외한 모든 요일에 방송이 진행되었으며, 일정은 네이버 카페와 숲을 통해 공지되었다. 일정이 명확히 정해져 있어 시청자들이 사전에 계획을 세우기 쉬운 장점이 있다. 하지만 주 6회 빈번한 방송으로 시청자들이 모든 방송을 챙겨보기에 부담이 될 수 있다. 2-2는 마왕의 조회 수 최상 하위 방송영상을 분석한 것이다. C는 조회 수 최상위 영상인 '마왕과의 하루'이다. 해당 영상은 3D 배경과 VR 기술이 활용되었고, 콘텐츠는 마왕과 방에서 게임을 하거나 배를 타고 풍경을 감상하는 것처럼 ‘1:1 데이트’ 롤플레잉 형식이었다. 이 외에도 높은 조회 수를 기록한 영상들은 대부분 360도 환경을 통해 마왕과 함께 있는 듯한 몰입감을 제공하며, 이러한 체험 요소가 조회 수 증가에 영향을 주고 있다. 반면, D는 조회 수 최하위를 기록한 ‘파라소셜 플레이’ 방송이다. 이 방송은 고세구의 조회 수 최하위 영상과 같은 형식이다. 이를 통해 볼 때 버튜버와 시청자 간 1:1 상호작용에 대한 니즈와 3D 배경을 통한 역동적 연출의 중요성에 대해 인사이트로 확인할 수 있다.
사례 분석 결과로 불규칙한 방송 일정, 미흡한 알림 시스템, 그리고 버튜버 중심의 실시간 방송 구조가 시청자와의 실시간 소통에 어려움을 초래한다는 점을 확인할 수 있었다. 본 연구는 이의 해결 방안으로 생성형 AI를 활용하여 생성한 AI 버튜버를 도입하여 시청자가 원하는 시간에 1:1로 소통할 수 있고, 3D 배경과 역동적 카메라 연출이 가능하게 하여 XR 기반의 몰입감 있는 AI 버튜버 방송 환경을 제공하고자 한다.
그림 4는 생성형 AI가 적용된 버튜버 사례를 보여준다. 생성형 AI 기술이 발전하면서 버튜버 모델 제작 시간이 줄었고, 기존 인간이 모션 캡처로 진행한 버튜버와는 다른 형태의 콘텐츠 제작 가능성을 열고 있다. 이런 이유로 버튜버 시장에서도 생성형 AI를 점점 더 도입하는 추세다. 그림 4의 1은 2D 버튜버 모델을 제작하는 라이브 2D 툴에 도입된 생성형 AI 사례[18]이다. 본문 2-2의 1)에서 언급했듯, 기존의 버튜버 2D 모델 제작 과정에서는 9개 방향을 바라보는 얼굴을 각각 따로 제작해야 했고, 그때마다 이목구비를 일일이 수정해야 했기 때문에 많은 시간이 소요되었다. 그러나 5.0 버전 업데이트로 생성형 AI 기능이 도입되면서, 이목구비 레이어만 등록하면 9개 방향의 얼굴이 자동 생성되어 제작 시간이 크게 줄어들었다. 다만 아직 초기 단계로 얼굴 회전 범위가 좁고, 눈동자의 반사광 등 섬세한 요소는 반영되지 않아 수작업이 필요하다. 또한, 이 기능은 기존 이미지의 방향만 변경하는 수준이며 얼굴에만 적용된다.
2는 버튜버 뉴로사마[2]로, 기존 모델 제작 방식으로 만들어진 가상 이미지에 대형 언어 모델인 (LLM;Large Language Models)과 음성 합성(TTS;Text-to-Speech)을 결합한 사례이다[19]. 기존 버튜버들은 실존 인물을 모션캡처해 방송했으나, 뉴로사마는 AI가 댓글에 반응하며, 라이브 방송을 진행한다. 해당 버튜버는 데뷔 6개월 만에 31만 명의 구독자를 기록하며 큰 인기를 끌었다[20]. 하지만 채팅 반응은 음성과 표정에만 적용되며 외관 변경은 불가능하다. 또한, 외형은 기존 방식으로 제작되어 수정에 시간과 비용이 들고, 자유 변형에도 한계가 있다. 이처럼 아직 버튜버 시장에서는 생성형 AI의 도입이 소극적인 수준에 머물러 있으나, 향후 이미지·영상 생성형 AI를 통해 모델의 유연한 변형이 가능할 것으로 전망된다. 이에 본 연구는 생성형 AI 도입을 통해 시청자가 버튜버의 외형을 직접 생성·변경하고, 개인 맞춤형 콘텐츠를 제공하는 방송 서비스를 제안하고자 한다.
그림 5는 현실 공간과 가상 이미지가 결합된 버튜버 사례이다. 버튜버 팬들 사이에서는 그래픽 화면을 통해 버튜버를 바라보는 것 이상의 생생한 경험을 원하고, 실제로 만나고 상호작용을 하고자 하는 니즈가 존재한다. 그림 5의 1은 버튜버 ‘아야츠노 유니’의 국내 오프라인 콘서트 현장 사진이다. 현장 예매 고객을 포함한 약 3,500명의 관람객이 공연에 참석했다[21]. 해당 콘서트는 대형 스크린을 통해 실시간으로 노래와 춤을 선보였으며 동일 인물을 좋아하는 팬들이 모여 노래에 맞춰 응원하는 팬 문화인 ‘떼창’을 하거나 한 공간에서 버튜버를 만날 수 있는 점이 팬들과의 친밀감을 높여 인기의 요인이 되었다. 또한, 버튜버 콘서트는 실제 공간에서 구현하기 어려운 무대 연출이나 시각 효과들이 가상 스크린을 통해 그래픽으로 표현될 수 있는 장점이 있다. 그림 5의 2는 국내 버튜버이자 버추얼 아이돌로 활동하는 그룹 ‘플레이브’의 팝업 스토어에 배치된 프로토 홀로그램이다[22]. 이 기기의 카메라 앞에서 포즈를 취하면 미리 녹화된 버튜버의 그래픽이 증강된다. 이를 통해 팬들은 버튜버와 사진을 찍고 소장할 수 있다. 이러한 오프라인 팝업 스토어는 온라인과 오프라인을 연결하는 매개체로, 한 달간 총 70억 원 이상의 매출을 기록했다. 이는 통상 패션 팝업 스토어의 한 달 매출인 10억 원과 비교해도 매우 높은 수치다[23]. 이처럼 팬들은 버튜버와의 상호작용을 그래픽 화면을 넘어 실제 공간에서도 경험하고 싶어 한다는 것을 확인할 수 있다.
2-3 사례 종합 분석
관련 사례를 종합 분석한 결과는 다음과 같다. 첫째, 2D와 3D 모델 제작은 동작 구현에 높은 비용과 전문성이 요구된다. 2D 모델은 장비와 프로그램이 단순하지만, 표현의 한계로 콘텐츠의 다양성을 담기 어렵다. 3D 모델은 몰입감은 제공하지만, 고가의 장비와 전문 기술이 필요해 효율적이고 유연한 제작 방식의 개선이 필요하다. 또한, 실시간 모델 변형을 위해서는 추가 기술 발전이 필요하다. 둘째, 버튜버와 시청자의 상호작용은 주로 텍스트 채팅과 후원 기능에 의존하는데, 이는 실시간 반응을 반영하는 데 한계가 있다. AI 기반의 실시간 반응 시스템이나 음성 인식 기술을 활용한 상호작용 방식 개선이 필요하다. 셋째, 생성형 AI 기술은 콘텐츠 제작 과정에서 비용과 시간을 줄이는 데 기여하지만, 실시간 모델 변형이나 맞춤형 상호작용을 구현하는 데에는 여전히 발전이 요구된다. 넷째, 현실과 가상을 결합한 팬 경험은 팬덤 문화를 강화하고 새로운 소비 형태를 창출한다. 하지만 오프라인 활동에는 공간적, 시간적 한계가 있으므로, XR 플랫폼을 활용하면 가상 환경에서 팬들과의 실시간 상호작용을 확장할 가능성이 열려있다. 이러한 종합 분석을 바탕으로 본 연구는 버튜버 제작 및 상호작용 경험 개선을 위해 생성형 AI 기술과 XR 경험을 융합하여 버튜버 모델과 콘텐츠 변형의 재미를 반영하여 버튜버와 팬들 간의 몰입감 있는 소통을 제공하는 차세대 버튜버 방송 생태계 서비스를 제안하고자 한다.
Ⅲ. 생성형 AI 기반 XR 버튜버 방송 플랫폼 기획
3-1 설문조사를 통한 니즈 및 페인(Pain) 포인트 도출
그림 6은 버튜버 온라인 콘텐츠 소비에 관한 설문 분석 결과이다. 그림 6의 1은 설문 방법과 피험자 구성의 정리 내용으로 본 조사는 2024년 5월 17일부터 19일까지 3일간 구글 폼을 통해 온라인으로 실시되었다. 조사 대상은 버튜버 콘텐츠를 최소 한 번 이상 시청한 경험이 있는 총 39명의 시청자로 구성하였으며, 성별은 남성 22명, 여성 17명이다. 연령대는 20대가 21명으로 가장 많고, 10대 15명, 30대 3명으로 구성되었다.
그림 6의 2는 설문 조사 결과로, 2-1과 같이 버튜버의 라이브 방송과 녹화 방송 중 어느 방식을 더 선호하는지의 질문에 응답자의 69.2%가 라이브 방식을 더 선호한다고 답했다. 라이브 방송 선호 이유는 실시간 쌍방향 소통이었으며, 녹화 방송 선호 응답자의 이유는 짧게 편집된 영상으로 제공되어 버튜버의 일정에 구애받지 않고 접근성이 좋기 때문이었다. 2-2는 복수 응답이 가능한 버튜버와의 주요 소통 방식에 대한 질문으로 답변으로는 실시간 채팅이 76.9%로 가장 많았고, 이어서 댓글 59%, SNS 33.3%, 도네이션이 17.9% 순으로 나타났다. 해당 문항을 선택한 이유로는 실시간 채팅은 즉각적 소통이 가능한 점에서 선호되지만, 많은 사용자가 동시에 채팅을 보내다 보니 스크롤 속도가 빨라 메시지를 읽기 어려운 한계가 있었다. 또한, 국적이 다른 팬과 버튜버 사이 실시간 채팅에서는 통역 기능의 부재로 인해 버튜버가 채팅 내용을 이해하지 못하는 한계가 있었다. 도네이션의 경우 실시간 방송 화면에 자신의 메시지를 강조해 즉각적인 반응을 유도할 수 있는 기능이나, 도네이션을 사용할 때마다 일정 금액 이상의 비용이 필요해 실제 이용률은 낮았다. 2-3은 버튜버 방송에 생성형 AI 기술이 도입되는 것에 대해 어떻게 생각하는지에 대한 질문으로 응답 결과는 보통 43.6%, 긍정적 23%, 매우 긍정적 17.9%, 부정적 10.2%, 매우 부정적 5.1% 순으로 나타났다. 답변 중 ‘보통’이 가장 높은 비율을 차지했으나, 부정적 의견보다는 긍정적 의견의 답변 경향이 높았다. 긍정한 이유로는 기술적·금전적 제약 완화를 통한 대규모 콘텐츠 제작 가능성을 언급하였다. 또한, 버튜버의 건강 문제, 개인 일정으로 방송 중단 시에도 AI 기술을 통해 팬과의 지속적 소통이 가능하다는 점을 기대하였다. 반면, AI 버튜버 도입을 반대한 이유로 AI 버튜버가 실제 버튜버를 대신해 방송을 진행할 경우 실제 버튜버가 발언하지 않은 내용에 대한 책임 소재가 모호해질 수 있다는 우려도 있었다. 2-4의 XR 환경에서 버튜버 콘텐츠를 시청하거나 참여할 수 있다면 이를 즐겨 사용할 것인지에 관한 질문에 대한 답변으로 그렇다 38.5%, 매우 그렇다 33.3%, 보통이다 23.1%, 그렇지 않다 5.1%, 전혀 그렇지 않다 0% 순으로 나타났다. 과반수 이상의 응답자가 XR 방송 환경에 대해 긍정적인 반응을 보였다. 긍정 응답자들은 XR 기술을 활용하여 버튜버를 자신의 공간으로 불러오는 참신한 경험과 화면 크기 제약 없이 더욱 몰입할 수 있는 방송 환경에 대한 기대감을 밝혔다.
설문 조사 결과, 버튜버 온라인 콘텐츠 시청자들에게 실시간 소통이 중요한 니즈로, 소통 수단인 채팅에서는 메시지 전달 속도와 같은 부분에서 불편함을 느끼기도 하는 것으로 나타났다. 또한, 생성형 AI 및 XR 기술 도입에 대해서는 전반적으로 긍정적인 반응을 보였으나, AI가 방송할 경우 실제 버튜버와 구별할 수 있는 장치 마련이 필요하다는 견해도 있었다. 본 설문 조사의 피험자 39명은 결과를 일반화하기에 적은 수라는 한계가 있다. 따라서 일부 버튜버 시청자에게 위와 같은 경향이 있음에 대한 의견 수렴 후 좀 더 구체적 사용자 조사를 위해 전문가인 버튜버 대상 심층 인터뷰를 진행하였다.
그림 7은 방송 제작 및 팬 소통의 어려운 점, 생성형 AI와 XR 도입 필요성을 파악하기 위해 실제 버튜버를 대상으로 심층 인터뷰를 진행한 결과이다. 선행 서비스 프로토타입 영상을 실험도구로 사용하여 1인당 약 30분 소요되는 주관식 질문지를 활용해 비대면 심층 인터뷰를 진행하였다.
그림 7의 1은 심층 인터뷰에 참여한 5명 피험자의 인적 통계학적 구성 정리 내용이다. 연령대는 20~30대이며, 성별은 여성 3명, 남성 2명이다. 직업은 버튜버와 프리랜서를 병행하는 피험자가 4명, 직장인 병행 1명이었고, 사용 버튜버 모델 유형은 2D·3D 병행 2명, 2D 2명, 3D 1명으로 구성되었다. 그림 7의 2는 심층 인터뷰 분석 결과로, 2-1에서는 버추얼 모델 제작 비용 및 어려움을 다루었다. 가장 큰 비용을 사용한 버튜버 A는 제작에 1,000만 원 이상이 들었으며, 가장 적은 비용을 사용한 E도 150만 원 이상을 지출한 것으로 나타났으며 이후 추가 제작 비용이 더 들었다고 응답하였다. 인터뷰 결과, 버튜버 5인 평균 제작비는 600만 원 수준으로 나타났다. 가장 큰 어려움은 금전적 부담을 꼽았으며, 자금이 있더라도 버추얼 일러스트와 리깅 작업자에 대한 정보 부족으로 어려움을 겪었다. 2-2는 팬들과 소통하기 어려운 이유에 관한 질문이다. 버튜버 D는 다양한 플랫폼에 분산된 팬들의 반응이 주요 원인이라고 언급하였다. 라이브 방송 중에는 실시간 채팅을 통해 즉각적인 소통이 가능하지만, 방송 종료 후에는 팬카페, SNS, 유튜브 녹화 방송 댓글과 같이 여러 플랫폼에 팬들이 흩어져 있어 원활한 소통이 어렵다. 이러한 답변을 종합하면, 라이브 방송 이후의 팬 소통을 위한 통합 플랫폼에 대한 니즈가 확인되었다. 2-3은 버튜버 방송에 생성형 AI 기술을 도입하는 것에 관한 질문으로, 긍정적인 의견이 많았다. 버튜버 C는 버튜버 모델이나 배경을 AI로 생성하는 것 외에도, 생성형 AI가 본인을 대신하여 방송을 진행하는 콘텐츠를 제작하고 싶다고 답하였다. 반면, AI 버튜버가 도입되어도 버튜버 뒤 실제 사람과 소통하는 시청자 니즈는 계속 존재할 것이라고 덧붙였다. AI 버튜버가 버튜버 뒷사람을 완전히 대체하기보다는 방송 종료 후 빈 시간을 보조하는 역할로 활용되길 기대하였다. 2-4는 XR 환경에서의 버튜버 콘텐츠 제작 및 방송 활용 의향에 관한 질문으로, 버튜버 전원이 긍정적 응답을 하였다. 특히 버튜버 B는 시청자의 실제 공간에 나타나는 경험과 휴대전화나 컴퓨터 인터페이스를 벗어난 자유로운 인터페이스, 상호작용이 가능한 3D 요소에 기대감이 크다고 언급하였다.
3-2 서비스 디자인
그림 8은 버튜버, 시청자, 모델 제작자의 여정을 분석한 유저 저니 맵(User Journey Map)으로, 버추얼모델 제작요청, 모델 제작, 스트리밍 시작, 실시간 소통, 도네이션, 방송 종료의 여섯 단계로 구성된다. 단계별로 버튜버와 시청자, 모델 제작자가 느끼는 감정 양상을 정리하였다. 그림은 상단부터 터치 포인트(Touch Point)이고, 그 아래로는 버튜버, 시청자, 모델 제작자의 사용자 경험기반 이모셔널 그래프(Emotional Graph), 페인포인트, 니즈 순이다. 이를 통해 기존 버튜버 방송 생태계에서 보완이 필요한 지점을 파악하였다.
1은 버추얼 모델 제작 요청 단계이다. 이때 버튜버는 복잡한 의뢰 절차와 높은 비용으로 요청을 주저한다. 제작자는 신청자의 요구 파악에 어려움을 겪는다. 제작 기간이 길어지면 버튜버는 스트레스를, 제작자는 작업 과정의 비효율로 인한 시간 소모와 수정 제약을 겪는다. 3은 스트리밍을 시작하는 단계이다. 2장 사례조사에 따르면 라이브 스트리밍은 주로 버튜버 일정에 맞춰 공지되어 참여가 어려운 경우가 많다. 이로 인해 적은 시청자와 방송이 이루어지는 문제가 발생할 수 있으며, 실시간 소통을 위해서는 시청자 일정까지 고려한 유연한 방송 시간 조정이 필요하다. 4는 실시간 소통 단계로 빠르게 지나가는 채팅창에서 버튜버가 모든 메시지에 반응하기는 어려운 편이다. 이로 인해 시청자는 자신의 메시지가 무시되었다고 느낄 수 있으며 실시간으로 방송하더라도 소통이 단방향적으로 느껴질 가능성이 있다. 5는 도네이션 단계이다. 도네이션은 팬과의 유대감을 강화하지만, 방송 흐름을 끊기도 한다. 또한, 돈을 후원하는 것에 부담을 느끼는 시청자는 방송에 적극적으로 참여하지 못하기도 한다. 따라서 후원 여부와 관계없이 즐겁게 소통할 수 있는 개인화된 리액션 설계의 필요성이 있다. 6은 방송 종료 단계로 버튜버는 방송을 종료하며 심리적 안정을 느낄 수 있지만, 시청자는 아쉬움을 느낀다. 이처럼 버튜버와 시청자 간 감정적 여운이 다르게 남는 경우가 많았다. 분석 결과, 버튜버와 모델 제작자, 시청자 간 감정 간극이 반복적으로 발생함을 확인할 수 있다. 이를 해소하려면 모델 제작 방식 개선, 시청자의 참여 가능 시간을 반영한 유연한 방송 일정, 콘텐츠 다양성을 위한 기술, 채팅 맥락별 분석 기반 개인화 피드백, 양방향 소통 활성화 플랫폼 설계의 필요성이 있다.
3-3 생성형 AI를 이용한 프로토타입 제작
그림 10은 생성형 AI와 3D 디자인 도구를 활용한 프로토타입 제작 전체 구조를 나타낸다. 총 4단계로, 텍스트 기획부터 3D 모델링, 모션 적용, 최종 콘텐츠 통합까지의 과정을 포함한다. 각 단계는 사용된 생성형 AI, 생성 소요 시간, 그리고 그에 따른 보조 툴로 구분된다. 1은 기획 및 일러스트 제작 단계로, 사용된 생성형 AI는 ChatGPT, Stable Diffusion, KREA이며, 이를 통해 디자인 스타일을 구상한다. 기존에는 레퍼런스 수집부터 스케치 작업까지 숙련자의 손을 거쳐야 했고, 평균 62일이 소요되었다. 반면, 본 단계에서는 텍스트 프롬프트만으로 약 15분 만에 원하는 외형의 시안 이미지를 높은 완성도로 생성할 수 있어, 작업 속도뿐 아니라 초기 구상 과정의 부담 역시 줄였다. 2는 모델 제작 단계로, 사용된 생성형 AI는 TRIPO이며, 3D 모델과 배경을 프롬프트 기반으로 생성한다. 기존 3D 모델 제작 방식은 Blender와 같은 전문 프로그램을 통해 모델링, 텍스처링, 배경 구성 등 모든 과정을 직접 다뤄야 했고, 평균 47일이 소요되었다. 반면, 본 단계에서는 1에서 생성된 시안 이미지를 기반으로 Image-to-3D 기술로 약 10분 만에 결과물을 얻을 수 있으며, 별도의 숙련된 작업 없이도 전체 모델링 과정을 간단히 수행할 수 있게 되었다. 3은 모션 제작 단계로, 사용된 생성형 AI는 MOVE, HeyGen, D-ID이며, 이를 활용해 신체 움직임, 표정, 다국어 음성을 생성하고 모델에 반영한다. 기존 3D 모델 모션 제작은 모션 캡처 슈트, 모션 트래커, 전용 소프트웨어 등 복잡한 장비와 프로그램 세팅이 필수이며, 세밀한 조정 작업이 반복됐다. 2D 모델 역시 Live2D 프로그램을 활용해 프레임 단위로 움직임을 조정하는 작업으로, 평균 50일이 소요되는 과정이다. 반면, 본 단계에서는 2에서 생성된 3D 모델을 토대로, 모션 캡처 장비 없이 약 30분 이내에 손쉽게 제스처와 표정을 구현할 수 있어, 제작 부담이 완화되었다. 4는 음악 제작 단계로, 사용된 생성형 AI는 Suno이며, 영상에 삽입될 음악을 생성한다. 기존 음악 제작은 작곡가가 멜로디를 만들고, 편곡과 악기 배치를 조율하는 과정을 거치며, 많은 시간과 수정이 필요했다. 반면 본 방식에서는 Suno에 원하는 콘셉트를 나타내는 키워드를 텍스트 프롬프트로 입력하는 것만으로 약 3분 만에 영상에 어울리는 음악을 완성할 수 있었다.
기존 작업 방식의 소요 시간은 2장에서 제시한 사례 조사를 바탕으로 산출하였으며, 본 연구에서 제안한 모델 제작 방식은 버추얼 모델 제작 경험이 없는 20대 여성 대학생 3인으로 구성된 연구팀이 직접 테스트를 진행하여 제작 시간을 측정하였다. 그 결과, 텍스트 입력과 최소한의 툴 학습만으로 단기간에 버추얼 모델 1종 제작에 성공하였으며, 기존 방식 대비 작업 난이도와 소요 시간을 크게 단축할 수 있음을 확인하였다. 이는 생성형 AI 기반 제작 구조가 지닌 실질적 장점을 보여주는 사례라 할 수 있다. 다만, 작업자의 숙련도와 작업 환경 등 다양한 요인에 따라 소요 시간이 달라질 가능성이 있으며, 또한 연구팀 3인만을 대상으로 한 결과이므로 프로토타입 제작 소요 시간은 주관적인 시간이며 객관적인 수치로 활용하기 어렵다는 한계가 있다. 따라서 본 연구에서는 해당 시간을 기존 방식과 본 연구에서 제안한 방식 간의 차이를 설명하기 위한 참고 데이터로만 활용하였다. 본 연구에서 실제 제작한 모델 예시는 그림 11에 제시하였다.
그림 11은 생성형 AI를 활용한 버추얼 모델 제작의 핵심 프로세스를 나타낸 것이다. 1-1은 Stable Diffusion을 활용해 텍스트 프롬프트와 LoRA 모델을 기반으로 여러 형태의 캐릭터 이미지를 생성한다. 생성 과정에서는 디테일 수준, 이미지 크기, 결괏값 등을 조절하여 원하는 스타일의 결과물을 얻을 수 있다. 1-2는 KREA를 통해 이미지의 세부 디테일을 보강하고, 스타일을 정제하는 작업이다. 생성된 이미지를 기반으로 오버드로잉(Over Drawing)하거나, 새로운 텍스트 프롬프트를 입력해 수정할 수 있으며, 강도 조절을 통해 보정 수준을 세밀하게 설정할 수 있다. 1-3은 TRIPO를 사용해 보정된 이미지를 프롬프트로 입력하여 3D 모델을 생성한 결과이다. 이 과정은 기존 2D 이미지의 3D 변환으로, AI를 활용한 버추얼 모델 제작의 핵심 단계 중 하나이다. 2는 3D 모델을 제작하는 두 가지 방식을 비교한 것으로 2-1 방식은 생성 속도가 빠르다는 장점이 있으나, 모델의 디테일이 부족하다. 반면, 2-2의 방식은 각 요소를 별도로 생성하고 이를 조합해야 하여 제작이 복잡하고 시간이 오래 걸리지만, 완성도가 높고 세밀한 조정이 가능하다. 버추얼 모델은 시청자와의 상호작용, 콘텐츠 몰입도, 브랜드 이미지에 직결되므로, 외형의 정교함과 세밀한 표현력은 필수이다. 그 측면에서 본 서비스는 완성도 높은 캐릭터 구현을 위해 2-2 방식을 선택하였다.
3-4 대표 인터페이스 디자인 프로토타입
XR은 현실에 가상 정보를 겹쳐 보여주는 증강현실(AR), 완전한 가상 세계를 제공하는 가상현실(VR), 그리고 이 둘을 결합한 혼합현실(MR)을 통합한 개념으로, 현실과 가상의 경계를 확장하여 초실감형 경험을 제공하는 기술이다[24]. 그림 12의 1은 본 연구에서 제안한 XR 기반 서비스의 환경을 도식화한 것이다. AR 환경에서는 현실 공간 위에 버튜버의 실시간 방송과 채팅을 증강하며, 시청자가 방송 콘텐츠에 직접 참여하고자 하면 VR 또는 MR 환경으로 전환된다. VR 환경은 현실을 완전히 차단한 가상 공간 속에서 방송 콘텐츠를 체험할 수 있도록 설계되었으며, 체험이 아닌 시청을 원할 경우 AR 혹은 MR 환경으로 몰입 수준을 조절할 수 있다. 셋째, MR 환경은 현실의 사물 인식과 방송 콘텐츠의 실시간 상호작용을 통해 사용자 주변의 물리적 공간과 가상이 유기적으로 연결되는 경험을 제공한다. 이처럼 세 환경은 단절된 사용자의 목적에 따라 유기적으로 전환되도록 설계되었다. XR 환경을 버튜버 서비스에 도입할 경우 2와 같은 장점을 기대할 수 있다. 방송 화면을 360도로 회전시켜 각 사용자가 원하는 구도에서 입체적으로 콘텐츠를 감상할 수 있다. 또한, 방송 화면의 크기를 자유롭게 조절할 수 있어, 캐릭터의 세밀한 표현까지 생생하게 감상할 수 있다. 이는 기존 PC 및 모바일 기반 서비스에서 제한된 스크린 내에서 채팅과 방송을 동시에 볼 때 발생하는 한계를 효과적으로 보완한다. 더하여, 캐릭터를 현실 공간에 정밀하게 배치함으로써 팬과의 감정 교류와 몰입감을 높이는 1:1 소통 콘텐츠로의 활용 가능성도 보여준다.
글로벌 팬층을 보유한 버튜버의 경우, 언어 장벽은 시청자와의 실시간 소통을 가로막는 요인이 된다. 기존에는 언어별 편집과 자막 삽입이 수동으로 이루어져 제작 부담이 컸고, 실시간 방송에서는 즉각적인 다국어 대응이 어려웠다. 이에 본 서비스는 Bigioi와 Corcoran의 자동 더빙 시스템 구조도[25]를 참고하여, 실시간 음성과 영상 변환을 통해 언어와 관계없이 선택한 언어로 방송을 시청할 수 있도록 기획되었다. 그림 13은 본 서비스의 실시간 언어 변환 프로세스 설명이다. A 구간은 사용자가 방송 중 좌우 스와이프 동작을 통해 언어를 선택하는 인터페이스를 나타낸다. 사용자가 언어를 선택하면, 음성과 영상이 해당 언어에 맞게 조정된다. 음성 변환 과정은 다음과 같다. 입력된 음성은 생성형 AI 도구 HeyGen을 활용해 자동 번역과 음성 합성 과정을 거쳐 목표 언어의 음성으로 변환되며, 이에 맞춰 3D 얼굴 애니메이션이 실시간으로 조정된다. 이때 입 모양과 표정은 생성된 발음에 동기화되어 출력되며, 자막 없이도 언어 특성에 맞게 전달된다. 본 서비스는 언어별 편집의 부담을 줄이는 동시에, 다양한 언어권의 팬들이 실시간으로 동일한 콘텐츠를 즐길 수 있도록 설계되었다.
기존 실시간 방송에서는 채팅이 동시에 다수 유입돼, 버튜버가 팬 메시지를 즉시 반영하기 어려웠다. 본 서비스는 슬라이더 기반의 주제별 채팅 요약 기능을 도입해 이를 해결하고, 요약된 메시지를 바탕으로 3D 아이템을 생성·적용함으로써 실시간 상호작용성을 강화한다.
그림 14는 채팅 요약부터 3D 아이템 생성 및 적용까지의 단계를 정리한 내용이다. 1은 실시간 채팅 요약 과정 설명이다. A에서는 시청자가 입력한 채팅을 주제별로 분류하고, 슬라이더를 핀치인(pinch-in) 동작으로 조절해 요약 수준을 설정한다. 슬라이더 조절 시 유사 주제가 통합되며, B처럼 같은 주제별 요약 반응이 생성된다. 이 과정은 D. Blei의 연구[26]에 기술된 ‘토픽 모델링(topic modeling)’ 기반으로 한다. 참여 인원이 많았던 채팅은 3D 아이템 제작 프롬프트로 활용된다. 2는 요약된 채팅을 바탕으로 3D 아이템을 생성해 버튜버 모델에 적용하는 과정이다. 이때 본 서비스는 생성형 AI 도구로는 TRIPO를 활용한다. A는 “편한 옷 입어요”와 같은 댓글 요약을 텍스트 프롬프트로 이미지와 3D 모델로 생성한다. 이는 H. H. Lee의 연구[27]를 바탕으로 이미지 기반 3D 재구성을 거쳐 최종 3D 아이템을 완성한다. B 구간에서는 생성된 아이템을 드래그 앤 드롭해 모델에 적용하며, C에서 아이템이 자연스럽게 반영된 모델을 확인할 수 있다.
기존 다수의 채팅을 실시간으로 해석하는 과정이 수동으로 이루어져, 팬들 의견을 반영하는 것이 지연되거나 일부 피드백이 누락 되었으나, 본 서비스는 팬들의 여러 피드백을 요약 기능을 통해 버튜버에게 정리해 전달하고, 3D 아이템으로 의견을 실시간 반영해 몰입감 있는 참여형 방송을 조성한다.
기존 버튜버 방송은 배경 제작의 시간과 비용 부담으로 인해, 고정된 화면으로 진행되는 경우가 많았다. 이에 본 서비스는 그림 15와 같이 생성형 AI를 통해 실시간 방송 중 시청자의 의견을 반영하고, 버튜버 모델과 배경을 전환하며 콘텐츠를 진행할 수 있도록 하였다. A는 Text-to-3D 방식을 활용해, 버튜버가 등록한 콘텐츠 주제에 맞춰 투표용 아이콘을 생성하는 과정이다. B는 시청자들의 투표 결과를 실시간으로 보여주는 인터페이스 화면이며 C는 해당 결과를 바탕으로 생성된 3D 배경 이미지이다. 이를 통해 시청자가 원하는 콘텐츠를 360도 배경 속에서 생생하게 경험할 수 있다. 2는 도네이션을 통해 버튜버 모델을 실시간으로 변화시키는 과정이다. A 구간에서는 Image-to-3D 방식으로 현실 물체를 인식해 3D 모델로 변환하여 아이템으로 등록하고, B 구간에서는 등록 아이템을 커스터마이징할 수 있다. 변형이 끝나면 C와 같이 도네이션 금액을 설정한 후 드래그 앤 드롭 방식으로 버튜버 모델에 적용한다. 이에 시청자는 드로잉 실력이나 모델링 지식 없이도 버튜버 콘텐츠에 직접 참여할 수 있으며, 보다 유연하고 다채롭게 변화하는 방송을 경험할 수 있다.
2장에서 현실과 가상그래픽이 결합된 팬 경험 사례와 버튜버 ‘마왕’ 사례를 통해 실시간 1:1 소통에 대한 니즈를 확인하였다. 이에 본 서비스는 그림 16의 1과 같이 시청자의 현실 공간에 기존 방송을 바탕으로 작동하는 AI 버튜버를 소환해 실시간으로 1:1 상호작용을 하는 콘텐츠를 기획하였다. A는 사용자가 버튜버를 선택하고 XR 기기로 현실 공간에 소환하는 단계로, 버튜버는 공간 정보에 맞춰 배치된다. 이때 AI버튜버가 콘텐츠를 대리 진행함을 나타내는 아이콘이 버튜버 머리 위에 표시된다. B는 사용자와 AI 버튜버 간 실시간 소통 단계로, 하이파이브나 질의응답 등이 가능하다. 이때 사용자의 음성은 텍스트 프롬프트로 활용되며, 버튜버의 기존 방송을 학습해 음성과 제스처를 생성한다. C는 버튜버가 미리 등록한 콘텐츠를 사용자 공간에서 재생하여, 현실 공간에서 나만을 위한 공연을 보는 듯한 경험을 제공한다. 이는 2장 뉴로사마 AI 방송 사례를 반영하였다. 2는 참여형 팬 콘텐츠 서비스에 대한 설명이다. A는 팬이 버튜버 콘텐츠에 참여하는 원리로, 팬의 아바타를 Move AI[28] AI 모션 캡처기술을 반영하여 움직일 수 있도록 하였다. B는 댄스 배틀 팬 콘텐츠에 참여하는 과정으로, 팬이 실제로 몸을 움직여 AI 버튜버와 춤을 추면 결과가 점수화되어 순위에 반영된다. 본 서비스는 텍스트 중심 팬 콘텐츠와 달리, 버튜버와 실시간 상호작용을 통해 팬이 적극적 방식으로 소통할 수 있도록 시도하였다.
Ⅳ. 프로토타입 기반 전시를 통한 현장 의견 수렴
그림 17은 오프라인 전시에서 제안 서비스의 사용성을 확인하고 수렴한 개선 의견을 정리한 이미지이다. 1은 오프라인 전시 현장의 사진이다. 2는 인터뷰 방식 및 대상과 수렴한 의견을 정리한 표이다. 피험자는 총 50명으로, 연령대는 20대 41명, 30대 6명, 10대 3명 순이며, 성비는 여성이 39명, 남성이 11명이었다. 의견 수집에 동의한 관람객을 대상으로 문항에 따라 인터뷰하여 피드백을 수렴하였다. 먼저 상용화된 라이브 2D 기반 버추얼 모델 생성 방식을 체험하게 한 뒤, 본 서비스로 제작된 3D 버튜버의 특징을 소개하는 프로모션 영상을 시청하는 순서로 진행되었다. 사전 설명을 통해 버튜버 개념, 기존 기술의 한계, 제안 서비스의 개선 방향을 이해하도록 구성하였다. 2-1은 기존 버튜버 방식 체험 후 느낀 점에 관한 질문이다. 피험자는 “나를 따라하는 것이 재미있다.”는 긍정 반응과 함께, “표정만 바뀌는 정도여서 아쉽다.”, “180도까지만 표현되는 점이 아쉽다”는 의견이 나왔다. 반면, 2-2에서 다룬 본 서비스 영상 시청 후 감상에는 “하반신까지 자유롭게 움직이고 하이파이브도 가능해 보여 몰입감이 다르다.”, “360도로 캐릭터를 볼 수 있어 현실감이 느껴진다.”, “원하는 시점에 실시간 소통을 할 수 있어서 매력적이다.”, “내 공간 안에 캐릭터를 불러온다는 개념이 신선하다.”와 같은 반응을 보였다. 특히 2-3의 기존 버튜버 방식과 본 서비스의 비교 질문에서는 “기존에는 내 댓글이 다른 사용자 반응에 묻혀버렸는데, 이 서비스는 1:1 소통이 가능하다는 점이 인상 깊다.”라는 의견에서 차별화된 커뮤니케이션 구조에 대한 기대를 확인할 수 있었다. 또한 2-4의 본 서비스의 차별성 관련 문항에는 “XR 환경이 대중화된다면 상용 서비스로도 경쟁력이 있을 것 같다.”라는 피드백을 통해 향후 새로운 버튜버 생태계로의 확장 가능성에 대한 인사이트도 수렴하였다.
Ⅴ. 결 론
실시간 상호작용을 중심으로 성장한 버튜버 시장은, 버튜버 기획사 ‘애니컬러’가 141억 원 매출을 기록하며 상업적 가능성을 입증하였다. 그러나 버튜버 ‘Codemiko’ 사례처럼, 버튜버 방송 콘텐츠 제작에는 고가 장비와 복잡한 세팅, 소프트웨어 숙련도가 요구되어 진입 장벽이 높다. 이를 해결하고자 AI가 도입되고 있으나, 보조 수단에 머물거나, AI 버튜버 ‘뉴로사마’처럼 인간 역할의 일부만 대체하는 수준에 그쳐 활용도는 여전히 제한적이다. 이에 본 연구는 많은 전문지식이나 고비용 없이 쉽게 버추얼 모델을 제작하고, 생동감 있는 버튜버를 경험할 수 있도록 생성형 AI를 접목한 XR 환경의 차세대 버튜버 방송 서비스 생태계를 제안하고자 시작되었다.
본 연구가 도출한 결과는 다음과 같다. 첫째, 버튜버의 개념과 국내외 시장을 분석한 결과, 버튜버는 지역과 문화의 한계를 넘어 확장 가능한 디지털 IP로서 상업적 잠재력이 크고 여러 콘텐츠 영역으로 확장되고 있다. 둘째, 버튜버 방송 제작 프로세스를 2D와 3D 형식으로 나누어 4단계로 분석하고, 외주 플랫폼 아트머그에서 일러스트 작가 10인과 리깅 작가 15인을 분석한 결과, 모델 제작 및 리깅 과정에서 높은 금액과 많은 시간, 전문 노동력이 필요함을 확인하였다. 또한, 버튜버 방송 플랫폼 4종과 국내 사용자 수 1위 서드파티 플랫폼의 주요 기능 4가지를 분석한 결과, 도네이션 기능은 차별화된 소통 수단으로 활용되지만 방송 흐름을 방해하거나, 드로잉 도네이션의 경우 그림 실력에 따른 부담이 발생하는 문제가 있었다. 더불어 버튜버 2인의 방송 각 2편을 통해 버튜버와 시청자 간 1:1 개인 맞춤형 소통 니즈가 있음을 확인하였다. 셋째, AI를 접목한 버튜버 조사 결과, 생성형 AI가 모델 제작의 진입 장벽을 낮췄지만 아직은 제한적으로 활용되고 있었다. 또한 국내 사례로 3,500명 규모의 콘서트를 연 ‘아야츠노 유니’와 70억 원 매출을 기록한 ‘플레이브’ 팝업스토어를 통해 현실 공간에서 버튜버와 상호작용하려는 수요가 높음을 확인하였다. 넷째, 사례 분석에서 발견한 페인포인트와 니즈 분석을 위해 시청자 39명 대상 설문조사와 별도 현업 버튜버 5명에게 심층 인터뷰를 진행하여 AI 및 XR 기술 반영에 대한 공통된 긍정 답변, 그리고 방송 외 시간 소통에 대한 니즈, 시청자의 공간 기반 방송 경험에 대한 기대감이 있음을 파악하였다. 다섯째, 도출한 페인포인트 개선과 서비스 구현 가능성 실험을 위해 Stable Diffusion, TRIPO, MOVE 등 8종의 생성형 AI를 연계 활용하였으며, 3D 툴인 Blender와 연동해 프로토타입을 제작하였다. 이에 결과물의 완성도를 높이고 제작 시간과 비용 절감 가능성을 확인하였다. 제작한 프로토타입은 실시간 버튜버 음성 언어 변경, 실시간 채팅 요약과 아이템 활용, 실시간 버튜버 모델 및 배경 전환, 버튜버와의 상호작용과 이를 통한 콘텐츠로 구성된다. 마지막으로 오프라인 전시로 핵심 가치 사용성에 대한 50명 대상 답변을 경청하였다.
본 연구는 디자인 단계까지의 프로토타입 제안 연구로, 버튜버 모델 생성 및 인터랙션 영상 구현까지 진행하였다. 다만, 본 연구는 XR 기기 실 개발 및 구현 전 단계의 프로토타입 제작에 한정되었으므로, 상용화를 위한 실제 구현에는 추가적인 개발과 사용자 테스트가 필요하다는 한계가 있다. 또한, 프로토타입 제작 구조에서 제작 소요 시간은 작업자의 숙련도 및 작업 환경에 따라 다소 주관적일 수 있는 한계가 있다. 더불어 생성형 AI 기반 XR 환경은 버튜버 모델과 배경을 자유롭게 변경하고, 버튜버와 시청자 간 1:1 소통이 가능하다는 점의 장점이 있으나 실제 XR 기반 라이브 방송 환경 구현을 위해서는 기술 검증이 필요하다. 선행 연구 대비 본 연구의 차별점은 많은 시간과 전문성이 요구되던 버튜버 모델 제작 및 리깅 과정에 3D 생성형 AI를 반영하여 구현 가능성을 실험하고 기존 방식보다 제작 기간과 방법의 단순화 방안을 제시한 점, 플랫폼 조사 및 설문을 통해 시청자의 소통 니즈를 분석하고 AI가 그간 캐릭터 뒤에 숨어있는 사람 역할을 대체할 수 있음을 제시한 점, 기존 제작상의 제약으로 한정되었던 버튜버 콘텐츠와 시청자 참여 방식을 넘어 새로운 형식의 버튜버 방송 생태계를 제안한 점에 있다. 본 연구는 빠르게 변화하는 버튜버 방송 플랫폼 시장 환경 속에서 생성형 AI와 XR을 접목한 새로운 제안 연구로서 후속 연구에 도움이 되길 바란다.
Acknowledgments
이 논문은 2024학년도 홍익대학교 디자인컨버전스학부 졸업 전시 작품을 바탕으로 추가 연구를 진행하였습니다.
References
-
C. Y. Kim and H. W. Han, “A Study on Subjectivity of Virtual YouTuber,” Humanities Contents, No. 58, pp. 187-209, September 2020.
[https://doi.org/10.18658/humancon.2020.09.187]
- Neuro-sama. YouTube Channel [Internet]. Available: https://www.youtube.com/@Neurosama, .
- 9raeng2. Creating a VTuber Model in 4 Hours: Live2D Model Production Process and Tips [Internet]. Available: https://youtu.be/L0OjnWTDOWM?si=VU0IfWbvHaRnL9pz, .
-
U. G. Ryu, “Virtual Yutuber’s Posthuman Corporeality - Focusing on Bodies and Voices Mediated Digitally -,” Cartoon and Animation Studies, No. 72, pp. 347-391, September 2023.
[https://doi.org/10.7230/KOSCAS.2023.72.347]
-
M. You, “A Study of the Spread of Virtual YouTubers according to the Popularization of Virtual Production Technology,” Journal of Korean Society of Media and Arts, Vol. 21, No. 6, pp. 5-20, October 2023.
[https://doi.org/10.14728/KCP.2023.21.06.005]
-
Y. W. Park, and J. P. Jeong, “2D Virtual YouTuber Application Case and Production Study : Focusing on 2D virtual Youtubers,” Journal of the Moving Image Technology Associon of Korea, Vol. 1, No. 40, pp. 81-97, December 2022.
[https://doi.org/10.34269/mitak.2022.1.40.005]
-
C. W. Lee, “Analysis of the Effects of of Virtual YouTuber Attributes on Content Enjoyment and Viewer Satisfaction,” A Journal of Brand Design Association of Korea, Vol. 21, No. 2, pp. 117-126, June 2023. http://dx.doi-org.libproxy.hongik.ac.kr/10.18852/bdak.2023.21.2.117
[https://doi.org/10.18852/bdak.2023.21.2.117]
- MerryMa. How a 120K YouTuber Does Virtual Streaming [Internet]. Available: https://youtu.be/A7k3mp7UawI?si=wc_tNHXdzsnh26QL, .
- Coloso. Kim Saba, 3D Virtual Modeler [Internet]. Available: https://coloso.co.kr/products/dictionary-kimsaba, .
- CodeMiko Bytes. How to Be CodeMiko [Internet]. Available: https://www.youtube.com/watch?v=bbE3aBbrV44, .
- Xsens | Movella. Vtuber setup by The Technician behind CodeMiko [Internet]. Available: https://www.youtube.com/watch?v=8eTmHGv0z8o, .
- Toonation, “How to Donate via Text-to-Speech” [Internet]. Available: https://help.toon.at/hc/ko/articles/360009271634
- Toonation. [Donator] Quest Donation Function Manual [Internet]. Available: https://help.toon.at/hc/en-us/articles/900004434603--Donator-Quest-Donation-Function-Manual, .
- Rewatch Eris. 23/8/30 Yeongdo Learning Experience Day [Internet]. Available: https://youtu.be/MXv2D3Tkxwg?si=zriFBdvd8OijbUtm, .
- SilverSky. Go Se-gu's Reaction Video to Toonation's Drawing [Internet]. Available: https://youtu.be/j7iQXeBkafU?si=9fEEZ2Rd_qSKrND9, .
- GoSegu. YouTube Channel [Internet]. Available: https://www.youtube.com/@gosegu, .
- MaWangVR. YouTube Channel [Internet]. Available: https://www.youtube.com/@MaWangVR, .
- Live2D Cubism. 5.0.00 Update Information [Internet]. Available: https://www.live2d.com/ko/cubism/update/update_5_0_00/, .
- Global Economics. The Era of Game AI Is Fast Approaching. Will Broadcasting and Commentary Be Possible? [Internet]. Available: https://www.g-enews.com/ko-kr/news/article/news_all/202412201511141618c5fa75ef86_1/article.html, .
- Global Economics. GenAI·VR⋯ Future Technology Grows Together with V-Tubers [Internet]. Available: https://www.g-enews.com/ko-kr/news/article/news_all/20230507203950324c5fa75ef86_1/article.html, .
- Global Economic. “Hello, Korea University”⋯Stellive's 'YUNI' Successfully Holds Her First Offline Concert [Internet]. Available: https://www.g-enews.com/ko-kr/news/article/news_all/202412212308065640c5fa75ef86_1/article.html, .
- Protohologram. The Hyundai × PlayV Pop-up Proto-Hologram [Internet]. Available: https://blog.naver.com/shop78/223371732168?trackingCode=blog_bloghome_searchlist, .
- IT Chosun. Hyundai Department Store Reports over 7 Billion KRW in Sales from Virtual Idol Pop-Up Featuring PLAVE and Isegye Idol [Internet]. Available: https://it.chosun.com/news/articleView.html?idxno=2023092112019, .
-
L. Tian, W. Mu, and H. Yang, “Research on Improving Immersion in Music Performances Using XR (Extended Reality),” Journal of the Korea Contents Association, Vol. 25, No. 6, pp. 181-194, June 2025.
[https://doi.org/10.5392/JKCA.2025.25.06.181]
-
D. Bigioi and P. Corcoran, “Multilingual Video Dubbing—A Technology Review and Current Challenges,” Frontiers in Signal Processing, Vol. 3, 1230755, September 2023.
[https://doi.org/10.3389/frsip.2023.1230755]
-
D. Blei, L. Carin, and D. Dunson, “Probabilistic Topic Models,” IEEE Signal Processing Magazine, Vol. 27, No. 6, pp. 55-65, November 2010.
[https://doi.org/10.1109/MSP.2010.938079]
-
H. Lee, M. Savva, and A. X. Chang, “Text-to-3D Shape Generation,” Computer Graphics Forum, Vol. 43, No. 2, e15061, 2024.
[https://doi.org/10.1111/cgf.15061]
- Move AI. Meet our Tech R&D Team - Discussing How AI Is Driving Markerless MoCap at Siggraph [Internet]. Available: https://www.youtube.com/watch?v=0374-8sD8QM, .
저자소개
2020년~현 재: 홍익대학교 디자인컨버전스학부 재학
※관심분야:UXUI Design, Game uxui, 3D Design
2023년~현 재: 홍익대학교 디자인컨버전스학부 재학
※관심분야:Interface Design, UX Design
2020년~현 재: 홍익대학교 디자인컨버전스학부 재학
※관심분야:UX Design, Interaction Design 등
1998년:홍익대학교 대학원 (미술학석사)
2007년:Rhode Island School of Design, USA (MFA, 미술학 석사)
2017년:서울대학교 대학원 (Doctor of Design, 디자인학 박사)
2001년~2004년: 엔씨소프트
2007년~2009년: Tellart, Interaction Design Consultancy, USA
2019년~2019년: Visiting Scholar, Duke University, USA
2009년~현 재: 홍익대학교 디자인컨버전스학부 교수
※관심분야:Information Design, Interface Design, UX Design, Generative AI, Meaning Making 등
















