Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 8, pp.2303-2312
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Aug 2025
Received 30 Jul 2025 Revised 20 Aug 2025 Accepted 20 Aug 2025
DOI: https://doi.org/10.9728/dcs.2025.26.8.2303

텍스트 마이닝을 활용한 온라인 강의 리뷰의 감성·주제 분석과 마케팅 전략 도출에 관한 연구

김현아1 ; 하은아2, *
1경기대학교 교양학부 조교수
2경기대학교 교양학부 부교수
Sentiment and Topic Analysis of Online Course Reviews Using Text Mining to Inform Marketing Strategy Development
Hyun-Ah Kim1 ; Euna Ha2, *
1Assistant Professor, Department of General Studies, Kyonggi University, Suwon 16227, Korea
2Associate Professor, Department of General Studies, Kyonggi University, Suwon 16227, Korea

Correspondence to: *Euna Ha Tel: +82-31-249-1473 E-mail: donut9@kgu.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구논문은 약 41만 건의 MOOC 강의 리뷰를 대상으로 감성 분석(VADER)과 토픽 모델링(LDA)을 적용한 통합 분석 프레임워크를 제안한다. 감성 점수와 토픽 비중을 결합한 중요도–만족도 분석(IPA)을 통해 학습자의 기대와 실제 경험 간의 차이를 체계적으로 도출하였다. 분석 결과, MOOC 리뷰는 전반적으로 긍정적 경향을 보였으나, ‘강사의 전달력’, ‘가격’, ‘자막 오류’ 등 일부 핵심 요소는 낮은 감성 점수와 높은 중요도로 인해 개선 우선 영역으로, 반면 ‘강의 구성’은 유지 강화, ‘UI/UX’ 및 ‘수료증’은 차별화 운영 대상으로 분류되었다. 이러한 전략은 비정형 리뷰 데이터를 정량화된 운영 지표로 전환함으로써 MOOC 플랫폼의 콘텐츠 기획, 학습자 중심 설계, 운영 전략 수립 등에 실질적인 의사결정 지원을 제공한다. 본 연구논문은 MOOC 기반 교육 데이터 마이닝의 이론적 확장뿐 아니라 학습자 만족도 및 교육 효과 제고를 위한 실증적 시사점을 함께 제시한다.

Abstract

This research proposes an analytical framework that applies sentiment analysis (VADER) and topic modeling (LDA) to approximately 410,000 MOOC course reviews to capture learners’ emotional responses and thematic interests. Importance–Performance Analysis matrix, combining sentiment scores and topic proportions, was used to reveal gaps between learners’ expectations and experiences. Findings depict that “instructor communication,” “pricing,” and “subtitle issues” are emphasized but poorly rated, accordingly requiring intervention, while “course structure,” “UI/UX,” and “certification systems” performed well as strategic assets. The framework links learner feedback with actionable insights, offering a structured method for interpreting large-scale unstructured data. The results advance educational data mining in MOOC contexts and can be used to inform strategies to improve instruction satisfaction, engagement, and quality through optimized platform operations, content development, and learner-centered design.

Keywords:

Text Mining, Sentiment Analysis, Topic Modeling, MOOC Reviews, Importance-Performance Analysis

키워드:

텍스트 마이닝, 감성 분석, 토픽 모델링, MOOC 리뷰, 중요도-만족도 분석

Ⅰ. 서 론

1-1 연구 배경

Massive Open Online Course (MOOC)는 2010년대 초반부터 급격히 확산되어 한 코스에 수만 명의 수강생이 참여하는 새로운 교육 형태로 자리잡았다[1]. 이렇게 대규모 수강자가 참여하는 MOOC 환경에서 모든 학습자의 피드백을 일일이 분석하는 것은 현실적으로 어렵기 때문에, 전체적인 학습 경험을 정확히 파악하는 데에 한계가 있다는 지적이 제기되어 왔다[1],[2]. 실제로 수강생들이 남기는 리뷰, 포럼 글 등 비정형 텍스트 데이터에는 강의에 대한 만족도와 우려 사항 등 중요한 정보가 풍부하게 담겨 있지만, 그 양과 형태가 방대하여 전통적인 수작업으로 의미를 체계적으로 추출하기에는 한계가 있다[3]. 그럼에도 불구하고 수강생 피드백은 강의 설계와 운영 개선을 위한 필수적인 정보원으로 인정받고 있으며, 학습자들이 직접 작성한 MOOC 리뷰는 현재 플랫폼에서 잘 작동하는 부분과 개선이 필요한 부분을 이해하는 데 핵심적인 단서를 제공한다[2],[3]. 따라서 대규모 텍스트로부터 유의미한 인사이트를 얻기 위해 자동화된 텍스트 마이닝 기법을 활용하는 연구가 대두되고 있다.

1-2 연구 목적

본 연구논문의 궁극적인 목적은 MOOC 플랫폼에서 수집한 대규모 수강생 리뷰 데이터를 심층 분석함으로써 실제 학습 경험에 대한 정량적 통찰을 확보하고, 이를 바탕으로 플랫폼 운영 및 운영 전략 수립에 기여할 수 있는 방법론을 제시하는 데에 있다. 구체적으로, 본 연구논문에서는 다음과 같은 세 가지 목표를 수행하였다. 첫째, 각 리뷰에 함축된 수강생의 정서적 만족도와 시계열∙집단별 경향성을 파악하는 것이다[7]. 둘째, 리뷰 내에 자주 언급되는 숨은 주제들을 추출하고[9], 이를 통해 수강생들이 중요하게 생각하는 핵심 관심사를 구조화하는 것이다. 셋째, 수강생의 기대와 경험 사이의 간극을 시각화하고 해석하고자 하였다. 어떤 토픽이 상대적으로 중요하지만 만족도는 낮은지, 반대로 만족도는 높지만 중요도는 낮은지 등을 한눈에 파악해 이를 토대로 플랫폼 운영상의 개선 우선순위와 운영 전략 방향을 도출하는 것이 목적이다. 본 연구논문에서 제안한 분석 체계를 통해 얻은 결과는 MOOC 플랫폼의 다양한 실무 영역에서 활용될 수 있는 가치 있는 시사점을 제공한다. 예를 들어, 수강생들이 중요시하는 요소 중 만족도가 저조한 분야는 마케팅 자원 배분의 우선순위로 삼아 개선함으로써 투자 효율을 높일 수 있다. 또한 콘텐츠 전략 기획 측면에서 어떤 주제가 향후 강의 개발이나 보완에 주력해야 할 핵심 영역인지를 식별할 수 있고, 강의 품질 개선을 위해 구체적으로 어느 부분의 학습 지원이나 피드백을 강화해야 하는지 방향을 제시받을 수 있다. 아울러 이러한 정량적 피드백 분석은 개인화 추천시스템 고도화나 수강생 행동 모델링 연구에도 활용되어, 수강생 이탈률을 낮추고 참여도를 높이기 위한 과학적 근거를 제공하는 등 MOOC 생태계 전반에 걸쳐 긍정적 파급효과를 가져올 것으로 기대된다.

1-3 연구 방법 및 범위

본 연구는 MOOC 수강생 리뷰 데이터를 텍스트 마이닝 기법으로 분석하여 학습자 경험을 만족도–중요도 차원에서 해석하였다. 우선 감성 분석에는 사전 기반 접근으로 안정적 성능을 보이는 VADER를 적용하였다. 이는 교육 리뷰 분석에서 설문 피드백과 유사한 만족도 경향을 보여 MOOC 연구에 적합함이 입증된 바 있다[6]-[8]. 이어 비정형 텍스트의 주제 구조를 추출하기 위해 LDA 기반 토픽 모델링을 활용하여 반복적으로 등장하는 핵심 주제를 도출하였다[9]. 마지막으로 산출된 감성 점수(만족도)와 토픽 중요도(언급 빈도 및 가중치)를 결합하여 IPA 매트릭스를 구성하였다. IPA는 중요도와 만족도를 비교해 개선 우선순위를 제시하는 기법으로, 교육 서비스 분석과 마케팅 전략 연구에서 실효성이 입증되었다[4],[5],[10]. 본 연구는 특정 MOOC 플랫폼 리뷰를 대상으로 하며, 결과는 플랫폼 운영, 강의 콘텐츠 전략, 학습자 지원 강화에 활용 가능하다. 또한 개인화 추천 및 학습자 행동 모델링 연구에도 기여할 수 있다.


Ⅱ. 관련 연구

2-1 감성 분석과 토픽 모델링의 통합 분석에 관한 선행연구 동향

최근 자연어처리(NLP)의 발전으로 비정형 텍스트에서 의미를 추출하는 통합 분석 기법이 활발히 연구되고 있다. 특히 감성 분석과 토픽 모델링을 결합한 접근은 주제별 정서적 경향을 정량화할 수 있어 학계와 산업에서 주목받는다[4]-[6]. 감성 분석은 문서나 문장 단위의 정서를 수치화하는 기법으로, 사전 기반(TextBlob, SentiWordNet, VADER 등) 또는 지도학습 기반 모델이 활용된다[11]. VADER는 소셜미디어 텍스트 분석에 최적화되어 비교적 신뢰도 높은 감성 점수를 제공한다. 한편 LDA(Latent Dirichlet Allocation)는 비지도 학습 기반 토픽 모델링 기법으로, 문서를 여러 주제의 확률 분포로 설명한다[12]. 교육·정책·의료·마케팅 등 다양한 분야에서 활용되며, 인간의 사전 지식 없이도 잠재 주제 구조를 추론할 수 있다[13]. 통합 분석 절차는 데이터 정제 후 감성 점수를 산출하고, LDA로 추출한 주제별 문서들의 감성 분포를 해석하는 방식이다. 이를 통해 특정 주제가 긍정·부정적으로 인식되는지를 시각화할 수 있다[6],[11]. 실제로 주식 게시판 데이터를 분석한 연구에서는 ‘실적 발표’, ‘금리 인상’과 같은 이슈가 부정적 감정과 연계됨을 확인해 주가 예측에 활용하였다[14]. 최근에는 감성 결과를 토픽 모델링에 반영하여 긍정/부정 중심 토픽을 재구성하거나, 특정 감정에 한정해 토픽 구조를 재해석하는 연구도 진행 중이다[15]. 이는 단순 주제 탐색을 넘어 주제-감정 연관성을 정밀하게 해석하는 데 기여한다. 이러한 통합 분석은 마케팅, 정책, 서비스 개선뿐 아니라 MOOC와 같은 대규모 교육 환경에서 학습자 피드백을 정량·정성적으로 동시에 분석할 수 있는 강력한 전략 도구로 자리 잡고 있다[4],[6],[13],[14].

2-2 본 연구논문의 차별성과 기여도

감성 분석과 토픽 모델링의 통합은 다양한 분야에서 활용이 확대되고 있으나, MOOC와 같이 대규모 학습자 피드백이 생성되는 교육 환경에서는 적용 사례와 전략적 해석 연구가 여전히 부족하다. 본 연구는 기존 선행연구와 달리 다음과 같은 차별성을 가진다. 첫째, Coursera 강좌 리뷰 데이터를 직접 수집하여 VADER 기반 감성 분석과 LDA 기반 토픽 모델링을 적용함으로써, 자연발생적 리뷰를 활용한 데이터 중심 분석을 수행하였다. 이는 설문조사나 정성적 해석에 의존한 기존 연구와 구별되며, 실제 학습 경험을 반영한다는 점에서 의의가 크다. 둘째, 감성 점수와 토픽 중요도를 통합한 중요도-만족도 분석(IPA)을 도입하여, 학습자에게 중요한 주제가 동시에 만족 또는 불만족의 대상이 되는지를 시각화하였다. 이를 통해 플랫폼 운영자가 서비스 개선과 자원 배분의 우선순위를 설정할 수 있는 전략적 근거를 제시하였다. 셋째, 제안된 분석 체계는 콘텐츠 기획, 강사 피드백 관리, 마케팅 메시지 설계 등 교육 서비스 전반에서 실질적 의사결정 지원 도구로 활용 가능하다. 또한 향후 추천 시스템 고도화 및 개인 맞춤형 콘텐츠 설계에 있어 리뷰 데이터의 구조화된 활용을 가능하게 하는 기반 연구로 기능한다. 결과적으로 본 연구는 감성–주제 통합을 전략 프레임워크로 확장함으로써 이론적·방법론적·실무적 측면에서 의미 있는 기여를 하며, 다양한 플랫폼과 도메인에서 후속 연구의 기반을 제공한다.

Key terminology and operational definitions used in the study


Ⅲ. 연구 설계 및 분석 방법

3-1 데이터 수집 및 전처리

본 연구는 온라인 강의 리뷰에 대한 텍스트 마이닝 분석을 위해 Coursera 등에서 총 1,454,711건의 리뷰를 수집하였다. langdetect로 언어를 판별한 결과 영어(89.4%)가 압도적이었으며, 스페인어(7.6%), 포르투갈어(1.0%), 프랑스어(0.8%) 등 30여 개 언어가 확인되었다. 감성 사전 기반 분석 도구(VADER 등)의 적용 일관성을 위해 영어 리뷰만을 분석에 포함하였다. 또한 리뷰 품질을 확보하기 위해 30단어 미만의 단문은 제외하였다. 단문은 맥락 파악과 감성 분류가 불완전할 가능성이 크며, 실제로 불용어 제거·토큰화 이후에도 분석에 부적합한 경우가 많았다. 이 기준 적용 결과 전체 리뷰의 71.8%에 해당하는 1,044,280건이 제외되고, 최종적으로 410,431건이 분석 대상이 되었다.

전처리 과정에서는 리뷰를 모두 소문자로 변환하고 문장부호·특수문자·숫자를 제거하였다. 이어 토큰화를 통해 핵심 단어를 분리하고, NLTK 사전 기반 불용어를 제거하였다. 어형 처리는 의미 보존을 위해 어간 추출 대신 표제어 추출(lemmatization)을 적용하였다. 또한 문장 단위로 분리하여 감성 점수 산출과 토픽 할당의 정확성을 높였다. 이는 긍·부정 문장이 혼재된 리뷰에서도 정밀한 감성 분석을 가능하게 했다. 마지막으로 LDA 학습을 위해 각 리뷰에 대해 TF-IDF 벡터화를 수행하였다. 이러한 절차는 단순 정제를 넘어 분석 가능성과 해석 신뢰도를 높이기 위한 설계로, 감성 분석과 토픽 모델링 모두 단어 수준 문맥 구조에 크게 의존하므로 정밀한 전처리가 이후 분석의 핵심 기반으로 작용하였다.

이와 함께, 데이터 정제의 타당성을 수치적으로 제시하기 위해 리뷰 본문 길이, 사용 언어, 작성 시기 분포에 대한 추가 통계를 산출하였다. 먼저 원시 데이터 기준 리뷰 길이의 기술통계량은 평균 약 133단어, 중앙값 86단어로 나타났으며, 최대 길이는 7,837단어에 달하였다. 전체 분포에서 1사분위수(Q1)는 36단어, 3사분위수(Q3)는 172단어였으며, 이는 리뷰 간 길이의 변동성이 상당히 크다는 점을 시사한다(표 2). 이에 따라 단어 수 기준 필터링을 적용한 정제 기준이 정량적으로 정당함을 확인할 수 있었다.

Descriptive statistics of review length (by word count)

아울러 리뷰 작성 시기의 분포를 살펴본 결과, 2020년 3월 이후부터 리뷰 수가 급증하였으며, 특히 2020년 4~6월에는 월별 7만~10만 건 이상의 리뷰가 집중적으로 작성되었다. 이는 COVID-19 팬데믹 상황에서 온라인 학습 수요가 급증한 시점과 맞물리는 현상으로 해석된다. 분석에 포함된 리뷰 수는 2019년 11월부터 본격적으로 증가세를 보였으며, 해당 분포는 후속 분석에서 시기별 사용자 행동 변화와도 연관지어 해석될 수 있다.

3-2 감성 분석

감성 분석(Sentiment Analysis)은 사용자가 작성한 리뷰의 정서적 반응을 정량화하여, 긍정 또는 부정의 성향을 수치적으로 파악하는 기법이다. 본 연구논문에서는 영어 리뷰에 대한 분석의 신뢰도를 확보하기 위해, 소셜 미디어 및 리뷰 데이터에 특화된 감성 분석 도구인 VADER 모델을 사용하였다. VADER는 긍정·부정·중립 어휘 사전에 기반하여 각 문장의 감성 강도를 계산하며, 특히 비정형 텍스트에서 우수한 성능을 보이는 것으로 알려져 있다.

분석 대상은 전처리를 거친 영어 리뷰 약 41만 건이며, 각 리뷰는 다음과 같은 절차를 통해 분석되었다. 먼저 모든 리뷰 텍스트를 소문자로 변환하고 문장 단위로 분할한 후, 각 문장에 대해 VADER 분석기를 적용하여 감성 점수 중 하나인 compound score를 산출하였다. 이 점수는 -1.0(매우 부정적)에서 +1.0(매우 긍정적)까지의 연속형 값으로, 0을 기준으로 긍정(>0), 부정(<0), 중립(≈0)으로 해석된다. 리뷰 단위에서는 문장별 compound score의 평균값을 사용하여 전체 리뷰의 대표 감성 점수를 계산하였다.

산출된 감성 점수는 후속 분석에서 만족도 지표(X축)로 활용되며, 이와 함께 보다 연속적인 평점 추정을 위한 부드러운 매핑(smooth mapping) 절차도 수행하였다. 구체적으로는 감성 점수를 로지스틱 함수 y^=41+e-5x에 적용하여, [1, 5] 범위의 연속형 추정 평점(smooth_rating)으로 변환하였다. 이 매핑 값은 명시적 평점이 없는 리뷰에 대해서도 유사 평점으로 활용될 수 있으며, 감성 점수와 실제 평점 간의 관계 분석, 또는 준지도학습(pseudo-labeling) 기법의 기반 지표로도 활용 가능하다.

전처리 이후 전체 리뷰에 대한 감성 점수 분포는 그림 1에 제시된 바와 같이 강한 우측 치우침(skewed right) 형태를 보인다. 이는 전체적으로 긍정적 감성이 높은 리뷰가 다수를 차지함을 시사한다. Compound score가 0.7 이상인 리뷰가 가장 높은 빈도를 기록하였으며, 반면 -0.5 이하의 강한 부정 리뷰는 극소수에 불과하였다.

Fig. 1.

Pipeline for MOOC review analysis

또한, 그림 2에서는 평점별 리뷰 감성 점수 분포를 boxplot 형태로 비교하였다. 전반적으로 평점이 높을수록 compound score 또한 상승하는 경향을 보였으며, 특히 평점 4~5점의 경우 대부분의 리뷰가 0.5 이상의 긍정 점수를 기록하였다. 반면, 평점 1점 리뷰는 감성 점수 평균이 -0.13으로 가장 낮았으며, 상자 수염의 길이도 길어 부정적 정서의 변동성이 큰 것으로 나타났다. 이러한 상관관계는 리뷰 내 언어적 표현이 사용자 만족도를 비교적 정확하게 반영하고 있음을 시사한다.

Fig. 2.

Distribution of compound sentiment scores across all course reviews

실제 각 평점에 대한 감성 점수 평균값은 표 3과 같다.

Average sentiment scores by rating level

한편, 부정적 감성이 강한 리뷰(감성 점수 < –0.5)를 별도로 분석한 결과, 다음과 같은 단어들이 높은 빈도로 출현하였다:

  • • course, que, curso, en, el, la, para, los, muy, es
  • • good, time, videos, difficult, assignments, price, boring

이 중 상당수는 스페인어 계열의 중립 혹은 부정적 어휘로, 자동 언어 판별 정확도의 한계 및 혼용 사용 가능성을 시사한다. 영어 단어 기준으로는 ‘difficult’, ‘assignments’, ‘boring’, ‘price’, ‘good’ 등이 부정 리뷰 내 주요 키워드로 나타났으며, 이는 강의 난이도나 실습 과제, 가격 만족도에 대한 불만 요소를 반영하는 것으로 해석된다.

아울러, 감성 점수와 평점 간의 정량적 관계를 확인하기 위하여 Pearson 및 Spearman 상관분석을 수행한 결과, 각각 0.341, 0.246의 양의 상관관계를 보였다. 이는 리뷰에 포함된 언어적 감성이 실제 수치화된 평점과 일정 수준 이상의 관련성을 지니고 있음을 의미하며, 감성 분석 결과가 평점의 대략적인 방향성과 일치함을 시사한다. 또한, 감성 점수를 통해 평점을 예측한 경우의 평균 절대 오차(MAE: Mean Absolute Error)는 0.599로 나타나, 리뷰 텍스트만을 기반으로 한 평점 예측이 다소 어려울 수 있음을 보여준다. 이러한 결과는 감성 점수가 만족도의 직접적 대리변수로 활용될 수 있으나, 그 해석에는 주의가 필요하다는 점을 시사한다. 특히 리뷰에 담긴 텍스트 감성이 높더라도, 강의 구성이나 가격 등 비언어적 요소가 평점에 영향을 미치는 경우도 존재함을 고려해야 한다.

3-3 토픽 모델링

토픽 모델링(Topic Modeling)은 대규모 텍스트 데이터에서 주제 구조를 자동으로 추론하는 비지도 학습 기법으로, 본 연구논문에서는 리뷰 내 주요 관심사를 파악하기 위해 LDA 모델을 활용하였다. LDA는 각 문서(리뷰)가 여러 개의 토픽에 걸쳐 구성될 수 있다는 전제하에, 문서는 토픽의 확률 분포로, 토픽은 단어의 확률 분포로 표현되는 이중 계층 베이지안 모델이다. 이 구조는 강의 리뷰와 같이 하나의 텍스트에 다양한 측면(예: 강의 내용, 강사, 가격 등)이 복합적으로 등장하는 상황에서 효과적으로 작동한다.

분석에는 약 41만 건의 전처리된 영어 리뷰가 사용되었으며, 전처리 과정에서는 소문자화(lowercasing), 토큰화(tokenization), 불용어 제거(stopword removal), 알파벳 이외 문자 제거 및 어간 추출(stemming)이 수행되었다. 전처리된 텍스트는 CountVectorizer를 통해 단어-문서 행렬 형태로 변환되었으며, 이 벡터화된 입력을 바탕으로 Scikit-learn의 LatentDirichletAllocation 클래스에서 LDA 모델을 학습하였다. 최종적으로는 7개의 토픽(n=7)을 도출하였으며, 이는 Coherence Score와 해석 가능성을 기준으로 결정되었다. 토픽 수 후보군(k = 5~15)에 대해 LDA 모델을 반복 학습한 후, 각 모델의 c_v 기반 Coherence Score를 비교 분석하였다. 그 결과, 점수 상승이 완만해지는 지점(elbow point) 근처에서 주제 간 중복 없이 명확히 구분되는 k = 7이 가장 적절하다고 판단하였다. 해당 토픽들은 실제 MOOC 리뷰의 맥락에서도 의미 있는 주제를 포착하고 있었다.

LDA 모델 학습 결과는 다음의 두 가지 핵심 행렬로 구성된다. 첫째, components_ 속성은 토픽-단어 분포 행렬(topic-word distribution matrix)로, 각 토픽을 구성하는 단어들의 상대적 중요도(확률값)를 포함한다. 이 행렬을 기반으로 각 토픽에 대해 상위 단어를 추출하고, 이를 바탕으로 토픽의 의미를 해석하였다. 둘째, transform() 메서드를 통해 얻어진 문서-토픽 분포 행렬(document-topic distribution matrix)은 각 리뷰가 개별 토픽에 속할 확률 분포를 나타낸다. 이 행렬의 크기는 N×k이며, N은 전체 리뷰 수, k는 설정된 토픽의 개수를 의미한다. 각 행은 하나의 리뷰에 해당하고, 각 열은 특정 토픽에 대한 소속 확률로 구성된다. 각 리뷰의 확률값은 0과 1 사이의 연속값이며, 행 단위로 정규화되어 전체 토픽에 대한 확률의 총합이 1이 되도록 구성된다. 이를 통해 리뷰가 어떤 주제에 상대적으로 더 밀접하게 연관되어 있는지를 정량적으로 파악할 수 있으며, 나아가 전체 리뷰 집합에 대한 평균 확률을 계산함으로써 각 토픽의 상대적 중요도를 산출하였다. 본 연구논문에서는 이 중요도를 기반으로 IPA 매트릭스 상의 전략적 우선순위를 도출하였다.

본 연구논문에서는 이 문서-토픽 분포 행렬을 기반으로 각 토픽의 전체 중요도(비중)를 계산하였다. 구체적으로, 리뷰 전체에서 각 토픽이 얼마나 자주 등장하는지를 파악하기 위해, 행렬의 각 열(각 토픽)에 대해 평균값을 계산하였다. 예를 들어, Topic 1의 중요도는 전체 리뷰에서 Topic 1이 차지한 평균 기여도를 의미하며, 다음과 같은 수식으로 계산된다:

Importancek=1Ni=1Nθik(1) 

θik는 i번째 리뷰가 k번째 토픽에 속할 확률이며, N은 전체 리뷰 수이다. 이 과정을 통해 각 토픽의 중요도를 퍼센트(%) 단위로 표현할 수 있으며, 결과적으로 “강사의 전달력” 토픽은 전체 리뷰에서 약 21.5%의 평균 비중을 보여, 사용자들이 가장 많이 언급한 관심사로 해석된다.

이러한 중요도 값은 단순한 키워드 빈도와는 달리, 리뷰 전반에 걸친 잠재적인 의미 구조의 분포를 반영하는 값이며, 감성 점수와 결합하여 각 토픽의 전략적 해석(예: 개선 우선, 유지 강화 등)에 직접 활용된다.

각 토픽의 내용은 다음과 같이 해석된다. Topic 1은 과제 및 프로그래밍 중심 강좌에 대한 전반적 인상을 다루고 있으며, “assignments”, “programming”, “videos” 등의 키워드가 다수 포함되어 실습 중심 수업에 대한 의견을 반영한다. Topic 2는 “data”, “science”, “courses” 등의 용어로 구성되어 있으며, 데이터 사이언스 계열 강좌에서의 학습 경험과 강의 시간 및 흐름에 관한 내용을 중심으로 한다.

Topic 3은 스페인어 기반 리뷰로 구성된 별개의 주제로, “curso”, “muy”, “excelente” 등의 키워드를 통해 긍정적 평가와 함께 지역적·언어적 특이성을 반영한다. 스페인어 리뷰는 전처리 단계에서 제외되었으나, 벡터화 이전 단계에서 필터링이 완전히 반영되지 않았거나, 일부 스페인어 단어가 영어 리뷰에 혼합되어 있는 경우 LDA 모델에 영향을 미쳤을 가능성이 있다. 또한 CountVectorizer는 단어 기반으로 작동하기 때문에, 스페인어 단어가 영어 리뷰 내 포함되어 있으면 토픽 구성에 반영될 수 있다. 그 결과 Topic 3은 스페인어 단어로 구성된 별도의 군집으로 형성된 것이다. Topic 4는 머신러닝/딥러닝 강좌를 중심으로 형성된 주제로, “machine”, “deep”, “neural”, “andrew”와 같은 키워드에서 Coursera의 대표 강좌(Machine Learning by Andrew Ng)와의 직접적 연관성이 나타난다.

Topic 5는 전반적인 학습 경험과 지식 습득에 대한 긍정적 평가가 중심이며, Topic 6은 “easy”, “clear”, “simple”, “follow” 등의 키워드를 통해 이해 용이성과 관련된 피드백을 대표한다. 마지막으로 Topic 7은 “thank”, “professor”, “excellent” 등 감사 표현 중심의 키워드로 구성되어, 강의 품질에 대한 정서적 호감과 강사에 대한 긍정적 반응을 반영한다.

이와 같이 도출된 7개 토픽은 각기 다른 관심 영역과 수강자 반응을 내포하고 있으며, 후속 감성 분석 결과와 연계하여 전략적 시사점을 도출하는 데 기반이 되었다. 각 토픽은 중요도-만족도 매트릭스(IPA) 분석에서 Y축 요소인 ‘중요도’ 산출의 기준 단위로도 활용되었다.

3-4 중요도-만족도 매트릭스(IPA)

IPA(Importance–Performance Analysis)는 각 항목에 대해 “얼마나 중요한가(importance)”와 “얼마나 잘 수행되었는가(performance)”를 이원적으로 비교 분석하는 기법이다. 본 연구논문에서는 토픽 모델링 결과로 도출된 주요 주제들에 대해, 중요도는 리뷰에서 해당 토픽이 차지하는 비중으로, 만족도는 감성 분석에서의 평균 compound score로 각각 정의하였다.

분석구현 방식은 다음과 같다:

  • • 각 리뷰의 LDA 토픽 분포에서 가장 높은 비중을 가진 토픽을 해당 리뷰의 주요 주제로 할당하였다.
  • • 각 토픽별로 할당된 리뷰 비율(%)을 계산하여 중요도 지표로 사용하였다.
  • • 각 토픽에 속한 리뷰들의 감성 점수 평균(compound score)을 계산하여 만족도 지표로 사용하였다.
  • • 이 두 지표를 기준으로 X축(만족도), Y축(중요도) 평면에 토픽을 매핑하였다.
  • • 전체 평균을 기준으로 4사분면으로 나누고, 각 사분면의 전략적 시사점을 도출하였다.

그림 3은 본 연구논문에서 도출한 주요 토픽들에 대해 중요도(리뷰 비중)와 만족도(감성 점수)를 이차원 평면상에 시각화한 결과로, 중요도–만족도 매트릭스(IPA Matrix)를 구성한다. 시각화에서 가로축은 각 토픽에 해당하는 리뷰들의 평균 감성 점수(compound score)를 기반으로 하며, 이는 만족도의 대리 지표로 사용되었다. 세로축은 전체 리뷰 중 해당 토픽에 속한 비율(%)을 계산하여 중요도를 나타낸다. 교차선을 기준으로 4개의 사분면이 형성되며, 각 사분면은 토픽의 상대적 전략 위치를 직관적으로 구분한다.

Fig. 3.

Relationship between star ratings and compound sentiment scores

우선 오른쪽 상단 사분면(1사분면)은 높은 중요도와 높은 만족도를 동시에 보이는 핵심 토픽들로 구성된다. 이 영역에는 ‘감사의 표현’ 및 ‘추천/학습 경험’ 관련 토픽이 위치하며, 이들은 전체 리뷰에서 자주 언급되었을 뿐만 아니라, 감성 점수도 평균 0.8 이상으로 매우 높았다. 이는 수강생들이 해당 주제에서 긍정적 정서를 강하게 드러냈다는 것을 의미하며, 해당 영역의 콘텐츠는 현재 수요와 기대를 모두 충족하고 있으므로 지속적인 유지 및 강화 전략이 적절하다.

Fig. 4.

Importance-satisfaction matrix of review topics based on LDA and sentiment analysis

반면 왼쪽 하단 사분면(3사분면)은 상대적으로 리뷰에서 거의 언급되지 않았고 감성 점수도 낮은 주제들이 포함된다. 대표적으로 ‘스페인어 강의’ 관련 토픽이 여기에 해당되며, 중요도와 만족도 모두 낮아 전략적 개입 우선순위는 낮은 편이다. 해당 주제는 플랫폼 내에서 특정 언어권 사용자를 위한 강의로 국한되며, 주요 이용자 기반과는 다소 거리가 있는 것으로 해석된다.

한편, 오른쪽 하단 사분면(2사분면)에는 만족도는 높은 편이나 리뷰에서 자주 언급되지는 않은 주제들이 분포한다. ‘이해 용이성’, ‘딥러닝’ 등은 감성 점수 기준으로 긍정적인 평가를 받았으나 전체 리뷰에서 차지하는 비중은 낮았다. 이는 개별 강의나 교수자에 대한 강한 호감을 기반으로 한 높은 만족도일 가능성이 있으며, 해당 강의들이 지닌 강점을 적극적으로 알릴 경우 플랫폼 전체 만족도 향상에 기여할 수 있다.

마지막으로, 왼쪽 상단 사분면(4사분면)은 중요도는 높으나 상대적으로 만족도가 낮은 주제로 구성된다. 대표적으로 ‘프로그래밍 과제 중심’, ‘데이터 과학’ 관련 토픽이 이 영역에 위치하며, 이들은 전체 리뷰에서 자주 언급되었음에도 불구하고 감성 점수가 평균 0.4~0.5 수준에 머물렀다. 이는 수강자들이 실제 수강 과정에서 해당 주제들에 대해 일정 수준의 불만을 갖고 있음을 의미하며, 학습 난이도 조정, 과제 부담 완화, 교수법 개선 등 구체적인 콘텐츠 수정이 필요하다는 실질적 시사점을 제공한다.

이와 같은 IPA 매트릭스는 토픽 모델링과 감성 분석을 통합함으로써, 수강생이 중요하게 인식하는 주제 중 만족도가 떨어지는 영역을 정량적으로 식별할 수 있도록 해주며, 플랫폼 운영자 및 콘텐츠 설계자에게 구체적인 전략 방향성을 제공한다.


Ⅳ. 운영 전략 도출

4-1 전략 구획 및 전체적 시사점

본 장에서는 리뷰 기반 감성 분석 및 토픽 모델링 결과를 바탕으로 MOOC 플랫폼에서 활용 가능한 구체적 운영 전략을 제안한다. 앞서 3장에서 수행된 정량 분석은 수강생 리뷰에 내재된 정서와 주제를 구조화함으로써, 강의 만족도에 영향을 주는 핵심 요소들을 도출하고 이들을 IPA 매트릭스 상에서 분류하였다. 이제 이 결과를 실질적인 운영 시사점으로 전환하고, 각 전략 영역별로 맞춤형 대응 방안을 설계하고자 한다.

전체 리뷰(약 41만 건)의 평균 감성 점수는 +0.26으로 비교적 긍정적인 편이나, 부정적 리뷰의 비중이 21%에 달하여 개선이 필요한 영역이 존재함을 시사한다. 이를 기반으로 감성 점수(만족도)와 토픽 중요도(리뷰 내 언급 비율)를 이원화하여 IPA 분석을 수행하였으며, 그 결과는 네 가지 전략 영역으로 분류되었다:

  • • 유지 강화 영역 (높은 중요도, 높은 만족도)
  • • 개선 우선 영역 (높은 중요도, 낮은 만족도)
  • • 차별화 운영 영역 (낮은 중요도, 높은 만족도)
  • • 저관심 관리 영역 (낮은 중요도, 낮은 만족도)

각 토픽의 감성 점수와 중요도는 토픽 분포 행렬의 평균값을 기반으로 산출되었으며, 이 분석을 통해 수강자들이 플랫폼에서 가장 민감하게 반응하는 요인이 무엇인지 파악할 수 있었다. 예를 들어, ‘강사의 전달력’은 전체 리뷰 중 21.5%에서 언급된 주제(Topic 5, 7 중심)이며, 감성 점수는 +0.09에 불과하여 개선 우선 영역에 해당한다. 반면, ‘UI/UX’나 ‘수료증 시스템’은 언급 비율은 낮지만 감성 점수가 높아 차별화 운영의 소재로 활용할 수 있다.

Topic-wise importance and representative keywords (LDA results)

아래 표 5는 각 전략 영역별로 토픽과 대응 전략을 정리한 것이다.

Strategic directions by topic importance and satisfaction

4-2 전략별 운영 실행 방향

앞서 제시된 네 가지 전략 영역을 바탕으로, 보다 구체적이고 실행 가능한 운영 방향을 다음과 같이 제안한다.

(1) 유지 강화 및 차별화 전략: ‘강의 구성’은 감성 점수 +0.42, 중요도 18.3%로 긍정적 평가가 높으며, 이는 현재 인기 강의 포맷과 콘텐츠 흐름에 대한 만족도를 반영한다. 이에 따라 모범 사례 큐레이션이나 베스트 강의 포맷의 가시화, 이를 활용한 브랜드 신뢰도 강화 전략이 유효하다. ‘UI/UX’, ‘수료증 시스템’은 각각 중요도는 낮지만 감성 점수가 높아(+0.35~+0.41), 차별적 강점으로 포지셔닝할 수 있다. 특히 수료증은 ‘certification’, ‘career’, ‘resume’ 등 실용적 단어와 함께 언급되어 경력 연계성 강조가 효과적이다. UI/UX는 플랫폼 전반의 사용 편의성과 직결되므로 시각적 디자인 캠페인, 직관적 인터페이스 홍보 등이 유용한 전략이 될 수 있다.

(2) 개선 우선 영역: 강화가격, 강사의 전달력, 자막 오류 등은 리뷰 내에서 높은 빈도로 언급된 항목이며, 감성 점수는 각각 –0.22, +0.09, –0.33으로 전반적으로 부정적인 반응이 두드러진다. 이는 사용자 경험의 핵심 지점에서 불만이 누적되고 있음을 시사한다. 가격과 관련된 리뷰에서는 “value”,“overpriced” 등의 단어가 빈번하게 공출현하며, 이는 비용 대비 효용에 대한 불만족을 반영한다. 따라서 할인 정책의 투명성 확보, 콘텐츠 패키징 할인 등의 전략이 요구된다. 강사의 전달력은 명시적 키워드로 표현되기보다는 ‘thank’, ‘well’, ‘professor’ 등의 맥락에서 간접적으로 드러나며, 해당 강사의 설명 방식, 속도, 억양 등에 대한 만족 여부가 중요한 변수로 작용함을 유추할 수 있다. 이 경우 교수자 대상 커뮤니케이션 워크숍, 강의 시연 영상 품질 향상, 자막 싱크 및 청각 보조 장치 연동 등도 함께 고려되어야 한다. 자막 오류 역시 ‘language’, ‘translation’, ‘error’ 등의 키워드로 드러나며, 품질 점검과 번역 정밀도 향상 시스템 도입이 필요하다.

(3) 저관심 관리 영역: '실습 과제' 관련 항목은 리뷰 내 언급 비중은 낮고 감성 점수도 낮은(–0.18) 영역이지만, 이는 단순한 무관심보다는 정보 부족이나 피드백 부재로 인한 소외 가능성을 내포한다. 실습 과제에 대한 명확한 정보 제공, 난이도 조절 옵션 도입, 자동 피드백 시스템 등은 사용자의 참여도와 만족도를 동시에 제고할 수 있는 여지를 제공한다.

본 장에서는 리뷰 기반 정량분석 결과를 다층적으로 해석하여 네 가지 전략 영역을 중심으로 운영 실행 방향을 설계하였다. 이는 MOOC 플랫폼 운영자가 수강자의 실제 반응 데이터를 기반으로 타겟 전략을 수립할 수 있도록 돕는 실용적 로드맵으로 기능할 것이다.


Ⅴ. 결 론

본 연구논문은 대규모 MOOC 리뷰 데이터를 기반으로 수강생의 실제 학습 경험에 대한 정량적 통찰을 확보하고, 이를 바탕으로 플랫폼 운영 및 운영 전략 수립에 실질적으로 기여할 수 있는 분석 체계를 제안하였다. 구체적으로는 VADER 감성 분석을 통해 정서적 만족도를 수치화하고, LDA 기반 토픽 모델링을 통해 리뷰 내 언급된 주요 주제의 구조를 추출하였다. 이어서 감성 점수와 토픽 중요도를 결합한 IPA 매트릭스를 구성함으로써, 수강자의 기대와 현실 사이의 간극을 해석하고 운영 시사점을 도출하였다.

분석 결과, 전체 리뷰의 평균 감성 점수는 +0.26으로 비교적 긍정적인 반응이 우세하였지만, 약 21%에 달하는 부정적 리뷰는 일부 서비스 품질 요소에 대한 불만을 시사하였다. 토픽 모델링을 통해 도출된 7개 핵심 토픽 중 ‘강사의 전달력’, ‘가격’, ‘자막 오류’는 높은 중요도에도 불구하고 감성 점수가 낮아 개선 우선 영역으로 분류되었다. 반면, ‘강의 구성’은 중요도와 감성 점수 모두 높아 유지 강화 영역에 해당하며, ‘UI/UX’, ‘수료증 인증’은 상대적으로 언급 빈도는 낮지만 만족도가 높아 차별화 운영 영역으로 파악되었다. 이러한 분류는 운영 자원의 효율적 분배, 콘텐츠 전략 기획, 서비스 개선 방향 설정 등 다양한 실무적 응용 가능성을 제시한다.

본 연구논문의 주요 기여점은 다음과 같다. 첫째, 기존의 단순 평점 기반 분석에서 나아가 리뷰 텍스트의 정서적·주제적 맥락을 동시 분석함으로써, 수강자 경험을 보다 입체적으로 해석하였다. 둘째, 감성 분석과 토픽 모델링의 결합을 통해 단순 키워드 빈도 분석을 넘어 의미 있는 전략 구획을 도출하고, 이를 마케팅 실행 방향과 직접 연결함으로써 실용성과 해석 가능성을 높였다. 셋째, 약 41만 건이라는 방대한 리뷰 데이터를 활용함으로써 통계적 안정성과 일반화를 확보하였다.

그러나 본 연구논문에도 몇 가지 한계점이 존재한다. 첫째, 감성 분석에서 VADER를 사용하였지만 이는 영어 기반에 최적화된 도구로, 비영어 리뷰(예: 스페인어, 프랑스어 등)에 대한 감성 해석은 한계가 있다. 이는 3장에서 확인된 Topic 3(스페인어 기반 리뷰)의 의미 해석에 제약을 초래하였다. 둘째, LDA 모델의 경우 bag-of-words 기반으로 문맥을 충분히 반영하지 못하며, 복합적인 의미 구조를 단순한 단어 분포로 환원하는 한계가 있다. 특히 ‘강사의 전달력’과 같은 추상적 품질 요소는 단어 빈도만으로 충분히 포착되기 어렵다. 셋째, 토픽 중요도 산출 시 문서-토픽 분포의 단순 평균을 사용하였으나, 이는 리뷰 길이나 강도(intensity)에 따른 가중치를 고려하지 못하는 문제가 있다.

후속 연구에서는 이러한 한계를 보완하기 위한 방향으로 다음과 같은 제안을 할 수 있다. 우선 멀티언어 감성 분석 도구(BERT 기반 multilingual sentiment classifier 등)의 도입을 통해 비영어권 리뷰에 대한 분석 정확도를 제고할 필요가 있다. 또한 문맥 정보를 더 풍부하게 반영할 수 있는 토픽 모델링 기법(BERTopic, Top2Vec 등)을 활용함으로써 추상적 품질 요소에 대한 해석력을 향상시킬 수 있다. 마지막으로, 사용자 세분화(국가, 연령, 직군 등)를 반영한 클러스터 기반 분석을 통해 타겟 운영 전략을 보다 정교화할 수 있을 것이다.

종합하면, 본 연구논문은 리뷰 기반 정량 분석을 운영 전략 도출의 기초 데이터로 전환하는 하나의 모델을 제시한 것으로, MOOC 플랫폼뿐 아니라 다양한 디지털 콘텐츠 산업에서 확장 가능한 분석 프레임워크를 제공한다는 점에서 이론적·실무적으로 모두 의미 있는 시사점을 갖는다.

References

  • Y. Bae and W. C. Jun, “A Study on Analysis of Current Status and Improvement Suggestions for Massive Open Online Courses,” Journal of the Korea Institute of Information and Communication Engineering, Vol. 18, No. 12, pp. 3005-3012, 2014. [https://doi.org/10.6109/jkiice.2014.18.12.3005]
  • D. H. Yang, “A Critical Review on the Inherent Problems of MOOC,” Journal of the Korea Convergence Society, Vol. 6, No. 6, pp. 293-299, 2015. [https://doi.org/10.15207/JKCS.2015.6.6.293]
  • A. Ani and E. T. Khor, “Development and Evaluation of Predictive Models for Predicting Students Performance in MOOCs,” Education and Information Technologies, Vol. 29, No. 11, pp. 13905-13928, 2024. [https://doi.org/10.1007/s10639-023-12398-w]
  • N. Z. Dina, R. T. Yunardi, and A. A. Firdaus, “Utilizing Text Mining and Feature-Sentiment-Pairs to Support Data-Driven Design Automation Massive Open Online Course,” International Journal of Emerging Technologies in Learning (iJET), Vol. 16, No. 1, pp. 134-151, 2021. [https://doi.org/10.3991/ijet.v16i01.17095]
  • M. M. Terras and J. Ramsay, “Massive Open Online Courses (MOOCs): Insights and Challenges from a Psychological Perspective,” British Journal of Educational Technology, Vol. 46, No. 3, pp. 472-487, 2015. [https://doi.org/10.1111/bjet.12274]
  • L. Wang, G. Hu, and T. Zhou, “Semantic Analysis of Learners’ Emotional Tendencies on Online MOOC Education,” Sustainability, Vol. 10, No. 6, 1921, 2018. [https://doi.org/10.3390/su10061921]
  • C. Hutto and E. Gilbert, “VADER: A Parsimonious Rule-Based Model for Sentiment Analysis of Social Media Text,” in Proceedings of International AAAI Conference on Web and Social Media, Vol. 8, No. 1, pp. 216-225, May 2014. [https://doi.org/10.1609/icwsm.v8i1.14550]
  • K. Lundqvist, T. Liyanagunawardena, and L. Starkey, “Evaluation of Student Feedback Within a MOOC Using Sentiment Analysis and Target Groups,” The International Review of Research in Open and Distributed Learning, Vol. 21, No. 3, pp. 140-156, 2020. [https://doi.org/10.19173/irrodl.v21i3.4783]
  • J. Sun and L. Yan, “Using Topic Modeling to Understand Comments in Student Evaluations of Teaching,” Discover Education, Vol. 2, No. 1, 25, 2023. [https://doi.org/10.1007/s44217-023-00051-0]
  • M. Shen, A. Cheng, and Y. Bi, “An Integrated Framework for Importance-Performance Analysis of Product Attributes and Validation from Online Reviews and Maintenance Records,” Design Science, Vol. 10, e19, 2024. [https://doi.org/10.1017/dsj.2024.15]
  • D. Nariman, “Sentiment Analysis of Hotel Reviews Using Lexicon-Based Methods: A Comparative Study of VADER and TextBlob,” in Proceedings of the 19th International Conference on Advances on Broadband and Wireless Computing, Communication and Applications, Cham, Switzerland: Springer Nature, pp. 263-274, November 2024. [https://doi.org/10.1007/978-3-031-76452-3_25]
  • X. Wu, T. Nguyen, and A. T. Luu, “A Survey on Neural Topic Models: Methods, Applications, and Challenges,” Artificial Intelligence Review, Vol. 57, 18, 2024. [https://doi.org/10.1007/s10462-023-10661-7]
  • D. M. Blei and J. D. Lafferty, “Dynamic Topic Models,” in Proceedings of the 23rd International Conference on Machine Learning, Pittsburgh: PA, pp. 113-120, 2006. [https://doi.org/10.1145/1143844.1143859]
  • J. Kim and K. Park, “A Study on Stock Message Board Analysis Using Sentiment Analysis and Topic Modeling,” in Proceedings of HCI Korea 2023, Gangwon, pp. 970-974, 2023.
  • B. S. Choi and N. G. Kim, “Topic Modeling with Deep Learning-based Sentiment Filters,” The Journal of Information Systems, Vol. 28, No. 4, pp. 271-291, 2019.

저자소개

김현아(Hyun-Ah Kim)

2003년:경기대학교 전자계산학과 (이학석사)

2009년:경기대학교 전자계산학과 (이학박사)

2018년~현 재: 경기대학교, 융합교양대학, 교양학부, 조교수

※관심분야:이러닝, BPM, 빅데이터, 데이터 마이닝, 머신러닝, 딥러닝 강화학습, IoT

하은아(Euna Ha)

2004년:서울대학교 대학원 (디자인학석사)

2014년:서울대학교 대학원 (디자인학박사)

2017년~현 재: 경기대학교 교양학부 부교수

※관심분야:이러닝, 데이터 시각화, 디자인 마케팅, 브랜드

Fig. 1.

Fig. 1.
Pipeline for MOOC review analysis

Fig. 2.

Fig. 2.
Distribution of compound sentiment scores across all course reviews

Fig. 3.

Fig. 3.
Relationship between star ratings and compound sentiment scores

Fig. 4.

Fig. 4.
Importance-satisfaction matrix of review topics based on LDA and sentiment analysis

Table 1.

Key terminology and operational definitions used in the study

Term Unified Definition Application in This Study
Sentiment Analysis Quantifies the emotional tone (positive/negative) in review text Sentiment scores range from –1 (very negative) to +1 (very positive)
Topic Automatically extracted themes or core issues from reviews Examples: pricing, course quality, assignments, subtitle issues
Importance Relative frequency of a key issue frequently mentioned or sensitively perceived by consumers Topic proportion in LDA or word centrality-based measures
Satisfaction Average sentiment score for a given topic Calculated as the mean sentiment score per topic
Strategy Formulation Prioritizing strategic response based on the combination of importance and satisfaction Implemented through Importance–Performance Analysis (IPA)

Table 2.

Descriptive statistics of review length (by word count)

Metric Mean Std. Dev. Min 25% Median 75% Max
Review Length
(word count)
132.6 160.8 1 36 86 172 7,837

Table 3.

Average sentiment scores by rating level

Rating Average sentiment score
1 –0.131
2 +0.044
3 +0.240
4 +0.482
5 +0.614

Table 4.

Topic-wise importance and representative keywords (LDA results)

Number Importance Keywords
Topic 1 17.58% course, good, assignments, programming, would, great, well, videos, could, really
Topic 2 11.78% course, data, time, science, one, courses, like, first, would, get
Topic 3 9.81% curso, que, muy, para, los, excelente, las, con, por, una
Topic 4 10.02% learning, course, machine, deep, andrew, great, life, learn, neural, understanding
Topic 5 21.56% course, good, great, lot, learn, really, learned, knowledge, new, recommend
Topic 6 8.46% easy, understand, course, follow, simple, clear, way, learn, great, language
Topic 7 20.78% course, thank, well, great, really, thanks, much, professor, amazing, excellent

Table 5.

Strategic directions by topic importance and satisfaction

Strategic area Related topics Sentiment score Importance (%) Operational suggestions
Priority for improvement Price, instructor communication, subtitle errors –0.22 to +0.09 13.1 to 21.5 Increase price transparency, enhance instructor communication, strengthen subtitle QA
Reinforcement area Course structure 0.42 18.3 Maintain effective course formats, curate best-practice content, standardize design
Differentiation area UI/UX, certificate system +0.35 to +0.41 6.5 to 11.2 Promote brand with UX campaigns, emphasize career value of certificates, highlight UI
Low-priority monitoring Programming assignments –0.18 9.7 Add optional tasks, improve practice guides, refine feedback system