Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 6, pp.1623-1632
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 30 Jun 2025
Received 23 Apr 2025 Revised 20 May 2025 Accepted 30 May 2025
DOI: https://doi.org/10.9728/dcs.2025.26.6.1623

온라인 강의 평점 및 수요자 예측을 위한 텍스트 기반 특성 분석: 다중 플랫폼 비교 접근

김현아*
경기대학교 교양학부 조교수
Text-Based Feature Analysis for Predicting Online Course Ratings and Enrollment: A Multi-Platform Comparative Approach
Hyun-Ah Kim*
Assistant Professor, Department of General Studies, Kyonggi University, Suwon 16227, Korea

Correspondence to: *Hyun-Ah Kim Tel: +82-31-249-1473 E-mail: hyuna486@kgu.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 Coursera, edX, Udemy 등 주요 온라인 교육 플랫폼에서 수집한 강의 데이터를 기반으로, 평점과 수강 등록 수를 예측하는 통합 모델을 제안한다. 강의 텍스트 정보(title, description, skills 등)를 TF-IDF 임베딩하고 콘텐츠 유사도를 보조 feature로 활용하였으며, 평점 누락 데이터를 보완하기 위해 pseudo-label 기반 준지도 학습을 도입하였다. 실험 결과, self-training 모델은 기존 모델 대비 RMSE, MAE, R²에서 향상된 성능을 보였고, Top-K 기준 Precision과 NDCG는 0.999 이상으로 추천 시스템 관점에서도 우수한 결과를 나타냈다. 수강자 수 예측에서는 회귀 설명력은 낮았지만 인기 강의 식별 정밀도는 높게 유지되었다. SHAP 분석 결과, 플랫폼 특성과 강의 수준, 길이 등이 평점에 영향을 미치는 주요 변수임이 확인되었다. 본 연구는 텍스트 유사도와 준지도 학습을 결합한 예측-추천 프레임워크의 실용성을 제시하며, 향후 콘텐츠 자동 평가 및 추천 시스템 고도화에 기여할 수 있다.

Abstract

An integrated prediction model using course data from major online platforms (e.g., Coursera, edX, Udemy) is proposed in this study to estimate course ratings and enrollment demand. Course description texts (e.g., title, description, skills) were vectorized using term frequency-inverse document frequency (TF-IDF), and content similarity was used as an auxiliary feature. To address missing rating values, a pseudo-label-based semi-supervised learning strategy was implemented. Experimental results showed that the self-training model significantly outperformed baseline methods (Random Forest, XGBoost) in terms of root mean square error (RMSE), mean absolute error (MAE), and the coefficient of determination (R²). In recommendation evaluations, Top-K metrics, such as Precision and normalized discounted cumulative gain (NDCG), reached 0.999 or higher, demonstrating the model’s excellent ranking capability. Although regression-based enrollment prediction showed limited explanatory power, the model effectively identified high-demand courses. The SHapley Additive exPlanations (SHAP) analysis revealed that platform type, course level, and content length were key predictive features. This study highlights the effectiveness of combining text similarity and semi-supervised learning, offering practical insights for scalable course evaluation and recommendation systems in online education platforms.

Keywords:

Text Mining, Rating Prediction, Natural Language Processing, Feature Analysis, Semi-Supervised Learning

키워드:

텍스트 마이닝, 평점 예측, 자연어처리, 특징 분석, 준지도 학습

Ⅰ. 서 론

정보통신기술의 발달과 팬데믹을 계기로 온라인 강의와 MOOC(Massive Open Online Courses)에 대한 수요가 급증하였다. Coursera, edX, Udemy, Skillshare 등 주요 플랫폼은 정규 교육과정의 대안으로 주목받고 있으며, 사용자 리뷰와 평점은 학습자 강의 선택의 핵심 지표로 기능한다[1],[2]. 그러나 기존 연구는 주로 단일 플랫폼과 정형 데이터에 초점을 맞춰 왔으며, 리뷰 텍스트와 같은 비정형 데이터는 단순 보조 지표로 취급되었다[3]. 특히 플랫폼 간 사용자 특성과 리뷰 양식의 차이를 반영한 비교 연구는 거의 없는 실정이다[4]. 예를 들어, Udemy는 간결하고 실용적인 리뷰가 많은 반면, Coursera나 edX는 구조적이고 학술적인 표현이 주를 이룬다[1]. 최근 NLP 기술의 발달은 감성 분석, BERT 임베딩 등을 통해 리뷰의 의미적 특성을 정량화하고 예측 정확도를 향상시킬 수 있는 가능성을 제시한다[5],[6]. 본 연구는 이러한 배경 아래 리뷰 기반 예측의 한계를 보완하고자 한다.

1-1 연구 배경

4차 산업혁명과 디지털 기술의 발전은 교육 생태계에 큰 변화를 일으켰으며, 인터넷과 모바일 기술은 비대면 학습 환경을 확산시켰다. HolonIQ에 따르면, 글로벌 온라인 교육 시장은 2020년 2,500억 달러에서 2025년 4,000억 달러로 성장할 전망이다[1],[7]. Coursera, edX, Udemy, Khan Academy 등 다양한 플랫폼이 등장하며, 각기 다른 콘텐츠 구성과 추천 알고리즘으로 차별화된 학습 경험을 제공하고 있다. 이러한 플랫폼 간 전략 차이는 교육 효과성과 만족도에 영향을 미친다[2],[8].

1-2 연구 목적

온라인 강의의 질과 학습자 만족도는 학업 성취도, 학습 지속 의사, 플랫폼 충성도에 영향을 미치며, 이를 예측할 수 있는 정성적 지표에 대한 관심이 높아지고 있다[8]. 리뷰, 평점, 수강 패턴 등은 콘텐츠 품질을 반영하는 주요 자원으로, 최근에는 자연어처리(NLP)와 기계학습 기법을 활용한 평점 예측 연구가 활발히 진행 중이다[9],[10]. 예를 들어, Coursera와 K-MOOC의 리뷰 데이터를 기반으로 감성 분석 및 텍스트 특성 분석을 통해 강의 품질과 만족도를 예측하는 시도가 있었다[11]-[14]. 본 연구는 Coursera, edX, K-MOOC 등 플랫폼 간의 리뷰 언어 특성과 설계 전략 차이를 반영한 텍스트 기반 평점 예측 모델을 제안하며, 교육 콘텐츠 개선과 추천 시스템 개발에 기여하고자 한다.


Ⅱ. 온라인 강의 수요 예측을 위한 핵심 이론 및 선행 연구 고찰

2-1 온라인 교육 수요 현황 및 예측

21세기 디지털 전환의 가속화는 고등교육과 평생학습 전반에서 온라인 학습의 수요를 비약적으로 증가시켰다. 특히 2020년 COVID-19 팬데믹은 전 세계 교육기관의 비대면 체제 전환을 촉진하며 MOOC(Massive Open Online Courses) 플랫폼 이용 확대에 직접적인 영향을 미쳤다. Coursera는 해당 연도에만 약 2,000만 명의 신규 학습자를 유치하였고, edX, Udemy, Skillshare 등도 수백만 명 단위의 사용자 기반을 확보하였다[7]. Global Market Insights에 따르면, 글로벌 e-Learning 시장은 2021년 약 3,150억 달러 규모였으며, 2028년까지 연평균 9.1%의 성장이 전망된다. 이러한 추세는 모바일 기기 보급, 클라우드 기반 콘텐츠 확대, AI 기반 추천 기술 도입 등 기술 발전과 맞물려 지속될 것으로 보인다. MOOC 수료율이 평균 10% 미만에 머무르고 있는 현실은 강의 선택과 콘텐츠 적합성의 문제를 반영하며, 이에 따라 리뷰와 평점을 기반으로 한 추천 시스템의 고도화가 주요 과제로 대두되고 있다[10].

2-2 텍스트 기반 추천 시스템

기존 추천 시스템은 협업 필터링과 콘텐츠 기반 필터링 방식에 기반하며, 구조화된 정보에 의존하는 한계와 콜드 스타트 문제를 지닌다. 이를 보완하기 위해 수강 후기나 설명 등 비정형 텍스트 데이터를 활용한 추천 연구가 활발히 진행되고 있다[5],[15]. 본 연구는 전통적인 범주형 메타데이터가 아닌, 리뷰에 담긴 감정·주제·표현 방식 등 주관적 요소를 NLP 기술로 정량화해 예측 모델에 적용하는 접근을 취한다. 실제로 감성 점수와 수강률 간 유의한 상관관계가 확인되었으며[4],[10], 긍정 표현은 높은 평점과 수료율과, 부정 표현은 낮은 만족도와 관련이 있다. 최근에는 BERT, GPT 등 사전학습 기반 언어모델이 문장 임베딩과 토픽 분석을 통해 텍스트의 맥락을 정밀하게 반영함으로써, 플랫폼 간 언어 스타일 차이도 정량적으로 분석할 수 있게 되었다[9],[16].

2-3 수강자 행동 및 콘텐츠 평가 영향 요인 분석

온라인 강의의 수강자 평점은 단순한 주관적 만족도를 넘어 강의의 실질적인 품질을 나타내는 핵심 지표로 기능한다. 강의 구성, 전달 방식, 난이도 적절성, 상호작용 요소 등 다양한 콘텐츠 요인이 평점에 영향을 미치며, 수강자 리뷰는 이러한 요인에 대한 인지적·정서적 평가가 집약된 형태로 나타난다. 최근 연구에 따르면, 리뷰 텍스트에서 감정 표현, 핵심 키워드, 주제를 분석함으로써 평점의 결정 요인을 정량화할 수 있음이 확인되었다. 예를 들어 Coursera 플랫폼의 대규모 리뷰를 대상으로 주제 모델링과 감성 분석을 실시한 결과, 평점은 단순한 감정 표현을 넘어 ‘기대 충족’, ‘콘텐츠의 최신성’, ‘실용성’ 등으로 구조화됨이 밝혀졌다[16]. 부정적 평점은 자막 오류, 강의 중복, 발음 문제 등 기술적 결함에 기인하는 경우가 많았다[17]. 또한 edX 강좌 분석에서는 ‘내용의 구조적 명확성’, ‘교수자의 전달력’이 수료율과 높은 상관을 보였다[1],[3]. 본 연구는 수강자의 학습 행동 로그보다는 리뷰 텍스트 분석을 중심에 두고, 후기의 감정 흐름과 표현 양상을 통해 수강자의 평가 패턴과 평점 형성 기제를 탐색하고자 한다.


Ⅲ. 분석 방법 및 실험 설계(Methodology and Experimental Design)

3-1 데이터셋 및 전처리(Datasets and Preprocessing)

각 온라인 교육 플랫폼은 제공하는 데이터 항목의 범위와 구조에서 차이를 보이며, 이는 통합 분석 시 정보 불균형의 원인이 될 수 있다. 본 연구에서는 다중 플랫폼 데이터를 일관되게 활용하기 위해, 가능한 공통 핵심 변수 중심으로 데이터를 정제하고, 결측 여부를 체계적으로 분석하였다. 주요 변수에는 강의 제목(title), 평점(rating), 강의 시간(duration), 가격(price), 수강자 수(enrollment) 등 수치형 및 범주형 변수뿐만 아니라, 강의 설명(description), 기술 태그(skills), 요약(summary) 등 텍스트 기반 항목도 포함되었다. 표 1은 플랫폼별 주요 변수의 결측 비율을 보여주며, Coursera는 대부분 항목이 충실히 제공된 반면, edX와 OpenCourseWare는 rating, enrollment, price 등이 누락된 경우가 많았다. Skillshare 등 일부 플랫폼은 텍스트 기반 정보가 거의 제공되지 않았다. 이에 따라 먼저 결측이 없는 데이터를 기반으로 예측 모델을 학습하고, baseline 분석을 수행하였다. 이후 강의의 title, description, skills, summary를 통합한 텍스트 필드(text_info)를 생성하고, TF-IDF 임베딩을 수행하였다. 나아가 상위 평점 강의들과의 유사도(tfidf_similarity_to_top)를 계산함으로써 모든 강의에 텍스트 기반 feature를 부여하였다. 이러한 feature는 평점(rating)이나 수강자 수(enrollment)가 결측된 강의에도 일관되게 적용 가능하므로, 준지도 학습 전략에서 중요한 역할을 한다. 실제로 결측 없는 샘플로 훈련한 예측 모델을 바탕으로 결측 강의에 대해 예측값을 생성하고, 이 중 신뢰도가 높은 상위 30%를 pseudo-label로 간주하여 학습에 포함하였다. 이와 같은 확장 학습 방식은 메타데이터가 불완전한 상태에서도 예측 가능성을 확보하고, 텍스트 기반 콘텐츠 유사성을 반영한 정교한 학습을 가능하게 하였다.

Missing data distribution by platform (top features only)

3-2 텍스트 마이닝 기반 피처 생성

본 절에서는 강의 설명 텍스트를 기반으로 한 수치형 변수의 생성 방식을 소개한다. 텍스트 정보를 수치화하기 위해 본 연구에서는 TF-IDF(Term Frequency–Inverse Document Frequency) 임베딩을 활용하였다. 이는 각 단어가 문서 내에서 얼마나 자주 등장하는지를 반영하면서, 전체 문서 집합에서 드문 단어일수록 더 높은 가중치를 부여하는 방식이다. 이렇게 생성된 TF-IDF 벡터는 각 강의의 텍스트적 특징을 고차원 공간상에서 표현할 수 있게 하며, 이후 cosine similarity(코사인 유사도)를 통해 다른 강의들과의 콘텐츠 유사도를 정량적으로 비교할 수 있다. 코사인 유사도는 두 벡터 간의 방향 유사도를 측정하며, 1에 가까울수록 내용적으로 유사한 강의임을 의미한다.

리뷰 텍스트에 대해서는 중복된 리뷰, 광고성 콘텐츠, 공백만 있는 텍스트 등은 사전 필터링을 통해 제거하였다. 또한, 특수문자 및 이모지, URL, 과도한 반복 문자 등의 노이즈는 정규표현식을 기반으로 정제하였으며, 단어 수가 3개 이하인 초단문 리뷰도 분석에서 제외하였다. 리뷰 데이터는 각 플랫폼의 공개된 리뷰 필드 또는 수집 가능한 텍스트 코퍼스(예: Coursera 리뷰 필드, Udemy description 등)를 통해 수집되었으며, 수집 시기는 2023년 1월부터 2024년 6월까지의 강의 기준으로 제한하였다.

Sample examples of course ratings and TF-IDF-based similarity

강의 콘텐츠의 내용적 특성을 반영하기 위해, title, description, skills, summary 항목을 통합하여 하나의 텍스트 필드(text_info)를 구성하였다. 이후 해당 필드에 대해 다음과 같은 텍스트 기반 특성을 생성하였다:

첫째 TF-IDF 임베딩은 전체 강의 텍스트에 대해 TF-IDF 벡터화를 수행하고, 주요 키워드 1,000개 기준으로 텍스트를 수치화하는 방식으로 구현되었다.

둘째 텍스트 유사도: 상위 평점 강의들과의 코사인 유사도를 계산하여 ‘tfidf_similarity_to_top’ 변수로 추가하였다. 예를 들어 표 3은 일부 샘플에 대해 ‘rating’과 ‘tfidf_similarity_to_top’ 간의 값을 나열한 것으로, 평점이 없는 샘플(예: index 4)에도 유사도 feature는 부여되어 있음을 보여준다. 이는 준지도 학습 적용의 기반이 된다. 해당 특성은 강의가 콘텐츠적으로 인기 강의와 얼마나 유사한지를 정량적으로 표현하며, 평점 또는 수강자 수가 없는 강의의 보조적 설명 변수로 활용된다.

Correlation between TF-IDF values of top 10 words and course ratings and enrollment

셋째, 텍스트 길이는 전체 ‘text_info’의 단어 수 및 문자 수를 측정하여 간단한 설명량 지표로 활용하였다.

이어서, 각 단어의 TF-IDF 값과 평점 및 수강자 수 간의 상관관계를 분석하여, 콘텐츠 구성 요소가 학습자 반응에 미치는 영향을 정량적으로 검토하였다.

TF-IDF 벡터와 강의 평점, 수강자 수 간의 단어별 상관관계를 분석한 결과, 콘텐츠에서 사용된 일부 핵심 단어들이 예측 타겟 변수와 유의미한 양의 상관을 보였다. 예를 들어, ‘learn’, ‘specialization’, ‘data’, ‘applied’ 등의 단어는 강의 평점 및 수강자 수 모두와 밀접하게 관련되어 있었으며, 특히 ‘specialization’과 ‘data’는 두 타겟 변수에 대해 공통적으로 높은 상관계수를 기록하였다. 이는 해당 단어들이 주로 실제 프로젝트 중심 강의, 직무 연계형 콘텐츠, 특정 기술 학습을 목표로 한 강의들에 집중적으로 사용된다는 점에서, 학습자의 실용적 기대에 부합하는 콘텐츠와 연결되기 때문으로 해석할 수 있다. 예를 들어 Coursera의 ‘Applied Data Science with Python’ 강의는 이러한 단어를 중심으로 구성된 설명을 포함하며, 실제로 평점 4.8, 수강자 수 20만 명 이상을 기록한 대표적 사례이다. 이는 특정 전문 주제나 실제 적용 중심의 키워드가 수강자의 긍정적 평가와 높은 관심을 동시에 유도한다는 해석이 가능하다.

또한, 리뷰의 길이(text_length)가 예측 정확도에 어떤 영향을 미치는지를 분석한 결과, 일정 길이 이상(예: 100단어 이상)의 리뷰는 예측 RMSE가 평균 0.02 낮아지는 경향을 보였다. 이는 텍스트의 정보 밀도가 높을수록 예측 모델이 유용한 신호를 더 많이 포착할 수 있음을 시사한다. 이는 향후 모델 설계 시, 단순 텍스트 임베딩 외에도 텍스트 복잡도나 구조적 정보(예: 문장 수, 어휘 다양성 등)를 함께 고려할 필요가 있음을 보여준다.

3-3 예측 모델링 (회귀, 분류)

예측 모델은 평점(rating)과 수강자 수(enrollment)를 종속변수로 설정한 회귀 문제로 구성되었다. 두 변수 모두 플랫폼에 따라 결측이 존재하기 때문에, 초기 학습은 결측이 없는 샘플(n = 1500)을 기준으로 수행되었으며, train/validation/test는 6:2:2 비율로 분할되었다. 모델 학습 시 random seed는 42로 고정하였다.

Fig. 1.

Conceptual framework of the proposed model

사용된 회귀 모델은 다음과 같다.

  • • 랜덤 포레스트(Random Forest): 결정 트리 300개(n_estimators=300)를 사용하며, max_depth=None, min_samples_split=5 등 기본값을 중심으로 구성되었다. 트리 기반 모델의 해석 용이성과 비선형 관계 표현 능력을 고려하였다.
  • • XGBoost: n_estimators=500, max_depth=6,

교차검증은 수행되지 않았으며, 대신 train/validation/test의 6:2:2 분할 구조와 random seed 고정(seed=42)을 통해 결과의 재현성과 안정성을 확보하였다. 후속 연구에서는 교차검증을 포함한 하이퍼파라미터 최적화 또는 딥러닝 기반 모델(BERT 등)의 추가 비교도 고려될 수 있다. 서는 교차검증을 포함한 하이퍼파라미터 최적화 또는 딥러닝 기반 모델(BERT 등)의 추가 비교도 고려될 수 있다.

입력 특성은 수치형, 범주형, TF-IDF 임베딩 기반 텍스트 feature를 모두 통합한 구조로 구성되었으며, 종속변수가 enrollment인 경우 로그 변환(log1p)을 적용하여 이상값의 영향을 줄였다.

구체적으로 사용된 입력 변수는 다음과 같다.

  • (1) 수치형 원 변수: price, duration, review_count
  • (2) 파생 변수: log_price, log_duration, log_review_count, rating_per_dollar, popularity_index
  • (3) 텍스트 기반 특성: TF-IDF 벡터화된 text_info (title, description, skills, summary 통합) 및 유사도 특성(tfidf_similarity_to_top)
  • (4) 기타 범주형 변수: platform, subject 등 플랫폼 및 강의 특성 정보.

이러한 다양한 형태의 feature들을 결합하여 회귀 모델의 입력으로 사용하였다.

추가적으로, 평점 또는 수강자 수가 결측된 샘플에 대해서는 baseline 모델의 예측 결과를 기반으로 pseudo-label을 생성하였다. 예측 확신도가 높은 상위 30% 구간의 샘플만 선별하여 추가 학습에 포함하였으며, 이로써 준지도 학습(Semi-Supervised Learning)을 통한 성능 향상을 실현하였다. 해당 방식은 self-training 기반으로 설계되었으며, weak-labeling을 최소화하기 위한 threshold 기반 필터링 절차가 포함되었다.

3-4 성능 평가 및 설명 가능성 분석

회귀 모델의 예측 성능은 RMSE(Root Mean Squared Error), MAE(Mean Absolute Error), R²(결정계수)를 기준으로 평가하였다. rating 및 enrollment 모두 연속형 변수로 처리되었으며, enrollment에 대해서는 로그 변환(log1p)을 적용한 후 모델을 학습하였다. 훈련 및 검증 데이터는 결측이 없는 샘플을 기준으로 분할되었고, 전체의 60%는 훈련, 20%는 검증, 나머지 20%는 테스트 세트로 활용하였다. 모델 성능 비교를 위해 Random Forest와 XGBoost를 각각 적용하였으며, 하이퍼파라미터는 교차검증 없이 기본값 중심으로 설정하였다. 예측 성능은 표 4와 같다.

Comparison of model performance: Random Forest and XGBoost

Random Forest는 변수 중요도 해석의 장점을 고려해 주요 해석 대상 모델로 선정되었으며, 성능 면에서도 다소 우수한 결과를 나타냈다. 반면, XGBoost는 초기 하이퍼파라미터 최적화 없이 적용된 탓에 상대적으로 높은 오차를 기록하였다. 한편, enrollment 예측의 경우 RMSE 값이 24,000 이상으로 나타났는데, 이는 수강자 수의 절대 규모가 매우 크고, 플랫폼 간 분산이 극단적으로 높은 데이터 특성에 기인한 것이다. 실제로 일부 강의는 수백 명 수준에 그치는 반면, 수십만 명의 수강자를 보유한 강의도 포함되어 있어, 단순 RMSE 지표는 예측의 상대적 정확도를 과소평가할 수 있다. 이러한 스케일 차이를 보정하기 위해 로그 변환(log1p)을 적용한 RMSE_log 지표를 병행 제시하였으며, 로그 스케일 기준에서는 Random Forest 모델이 0.76 수준의 안정된 오차를 기록하였다.

모델의 해석 가능성과 주요 영향을 미치는 변수 탐색을 위해, Random Forest 기반의 변수 중요도 분석과 Partial Dependence Plot(PDP) 시각화를 활용하였다. 이는 각 독립변수가 예측 결과에 미치는 상대적 영향력뿐만 아니라, 변수의 값 변화에 따라 모델의 예측이 어떻게 반응하는지를 구체적으로 파악할 수 있는 장점이 있다. 본 연구에서는 수치형 변수 외에도 다양한 파생 변수를 도입하여 예측력과 해석력을 동시에 확보하였다. 주요 파생 변수는 다음과 같다:

  • • log_price: 강의 가격에 로그 변환을 적용하여 이상값의 영향을 억제
  • • log_duration: 강의 총 시간에 대한 로그 변환값
  • • log_review_count: 리뷰 수에 대한 로그 변환값
  • • rating_per_dollar: 평점을 가격으로 나눈 값으로, 가격 대비 강의 질을 반영
  • • popularity_index: 평점 × 수강자 수로 정의한 인기 지표

이와 같은 파생 변수는 모델의 예측력 향상뿐 아니라, SHAP(SHapley Additive exPlanations) 기반 설명 가능성 분석에서도 핵심적인 역할을 하였다.

변수 중요도 분석 결과(표 5), 평점 예측 모델에서 가장 큰 기여를 한 변수는 rating_per_dollar로, 전체 중요도의 49.0%를 차지하였다. 이는 가격 대비 평점이 높은 강의가 모델 예측에서도 높은 평가를 받는다는 의미로, 실제 사용자 평가에서도 가성비 요인이 강하게 반영됨을 시사한다. 다음으로는 log_price가 중요 변수로 나타났으며, 절대 중요도 수치 3.504로 측정되었다. 가격 수준은 과도하게 낮거나 높을 경우 부정적 평가로 이어질 수 있으며, 해당 변수는 이를 조정하는 기준선 역할을 하는 것으로 보인다. platform_Online_uses, popularity_index, log_duration 등의 변수도 모델 성능에 영향을 주었으며, 특히 플랫폼 특성은 UI/UX 등 간접적 요인이 평점 형성에 작용할 수 있음을 시사한다.

Random Forest feature importance analysis

수강 등록 수 예측에서는 popularity_index(47.6%)와 tfidf_similarity_to_top(44.4%)이 핵심 변수로 도출되었으며, 상위 강의와의 유사성이 수요 증가에 영향을 미치는 것으로 분석되었다. 상위 5개 변수에 대한 Partial Dependence Plot(그림 2)은 변수 값 변화에 따른 예측값의 평균적 반응과 비선형 관계를 시각적으로 제시한다.

Fig. 2.

(a) Partial Dependence Plots (PDP) of rating_per_dollar for rating, (b) PDP of log_price for rating, (c ) PDP of platform_Online_uses for rating, (d) PDP of popularity_index for rating, (e) PDP of log_duration for rating, (f) PDP of popularity_index for enrollment, (g) PDP of tfidf_similarity_to_top for enrollment, (h) PDP of log_duration for enrollment, (i) PDP of rating_per_dollar for enrollment, (j) PDP of log_price for enrollment

평점 예측(Rating) PDP 해석:

  • • rating_per_dollar: 일정 수준까지 급격히 예측 평점이 상승하는 양의 기여도를 보이며, 이후 포화 현상이 나타난다. 이는 “가성비”가 일정 기준 이상이면 긍정적으로 평가되지만, 너무 높을 경우 한계효용이 감소함을 의미한다.
  • • log_price: 중간 수준의 가격에서 급격한 예측 평점 상승을 유도하며, 지나치게 낮은 가격은 오히려 부정적인 영향을 보였다. 이는 너무 저렴한 강의에 대한 신뢰도 하락 가능성을 시사한다.
  • • platform_Online_uses: 해당 플랫폼에 속하는 경우 예측 평점이 하락하는 음의 효과를 보이며, 이는 플랫폼 자체의 신뢰성이나 콘텐츠 품질이 모델에 반영되고 있음을 보여준다.
  • • popularity_index: 전체적으로 완만한 양의 영향을 보이며, 일정 수준 이상의 평점과 수강자 수를 가진 강의는 추가적으로 예측 평점도 높아지는 경향이 있다.
  • • log_duration: 학습 시간이 길어질수록 예측 평점은 약간 상승하는 경향이 있으나, 전반적으로 그 기여도는 크지 않았다. 이는 길이가 어느 정도 이상이 되면 추가적인 상승 효과는 제한된다는 것을 시사한다.

수강자 수 예측(Enrollment) PDP 해석:

  • • popularity_index: 평점과 수강자 수가 높을수록 예측 수강생 수가 비례적으로 증가하며, 매우 강한 양의 관계를 보인다. 이는 기존 인기 강의가 신규 수강자 유입에도 긍정적인 영향을 미친다는 점을 재확인시킨다.
  • • tfidf_similarity_to_top: 유사도 점수가 일정 수준 이상(약 0.0003 이상)일 때부터 수강자 수 예측이 급격히 상승하며, 콘텐츠 품질의 간접 지표로 활용 가능함을 시사한다.
  • • log_duration: PDP 곡선은 비교적 평탄하며, 시간 길이에 따른 수강자 수의 변화는 제한적인 영향을 보였다.
  • • rating_per_dollar: 예상과 달리 가성비가 높아질수록 수강자 수는 감소하는 방향으로 작용하는 경향이 일부 관측되었는데, 이는 "높은 평점 대비 저가"의 강의가 오히려 일부 사용자층에서는 품질 의심 요인이 될 수 있음을 시사한다.
  • • log_price: 대체로 가격이 높아질수록 수강자 수는 미세하게 감소하는 음의 관계를 보이며, 가격 민감성이 일정 수준 이상 존재함을 보여준다.

이 분석을 통해 예측 모델이 단순히 평균값에 수렴하는 것이 아니라, 변수의 범위에 따라 민감하게 반응하며, 실제 수강 결정이나 평가 행태를 구조적으로 반영하고 있다는 점을 입증할 수 있다.

3-5 준지도 학습 전략 (Semi-Supervised Learning)

Baseline 모델이 학습에 사용한 데이터는 결측이 없는 강의에 한정되었으나, 실제 플랫폼 데이터에서는 상당수의 강의가 평점 또는 수강자 수 정보가 결측된 상태로 존재한다. 이에 본 연구는 준지도 학습 전략을 통해 라벨이 없는 데이터를 추가로 활용함으로써 예측 성능의 향상을 도모하였다.

준지도 학습 모델에 대한 개념도는 그림 3과 같다.

Fig. 3.

Illustration of the semi-supervised learning framework

기본 회귀 모델은 종속변수가 존재하는 샘플만을 학습 대상으로 하며, 결측 샘플은 제외된다. 이로 인해 학습 데이터가 제한되고 플랫폼 간 정보 불균형이 발생할 수 있다. 이를 해결하기 위해 본 연구는 pseudo-labeling 기반 self-training 전략을 도입하였다. 먼저, 기존 XGBoost 모델로 결측 샘플의 예측값을 생성하고, 이 중 상위 30% 신뢰도 예측값만을 선별하여 학습에 활용하였다. 이는 과도한 예측 오류를 방지하기 위한 threshold 기반 필터링 전략으로, weak-labeling 문제를 최소화한다. 선별된 샘플은 실제 라벨처럼 활용되어 기존 데이터에 통합되었고, 결과적으로 표 6에서 보는 바와 같이 예측 모델의 일반화 성능을 향상시켰다.

Prediction performance of semi-supervised learning (rating and enrollment)

Pseudo-label 기반 self-training 전략을 적용한 결과, 기존 Random Forest 및 XGBoost baseline 모델 대비 예측 성능이 현저히 향상되었다. 검증 세트 기준 RMSE는 0.0631, MAE는 0.0385, 결정계수(R²)는 0.9951로 매우 높은 설명력을 보였고, 테스트 세트에서도 RMSE 0.0651, MAE 0.0389, R² 0.9948로 유사한 일반화 성능을 유지하였다. 이는 준지도 학습이 비레이블 데이터를 효과적으로 활용했음을 시사한다. 다만, 해당 성능은 pseudo-label이 포함된 확장 학습 데이터 기반이므로 실제 라벨 기반 결과와는 구분되어야 한다. 수강 등록 수 예측에서도 self-training 전략은 기존 모델의 RMSE(0.76~0.79)를 0.6767 수준으로 낮추고 R²도 0.67로 상승시켰다. 이는 신뢰도 상위 30% 예측값만 학습에 포함해 노이즈 전파를 최소화한 결과이다. 수강자 수의 분포는 long-tail 형태로 정규성이 낮고 분산이 커, 예측 정밀도는 평점보다 제한적이었다. 그림 4에 나타난 pseudo-label 기반 예측 평점은 평균 약 3.5를 중심으로 하는 종형 분포를 형성하며, 실제 라벨과의 통계적 정합성을 확보하고 있음을 보여준다. 이는 학습 안정성과 모델 신뢰도를 높이는 데 기여한 요소다.

Fig. 4.

Distribution of predicted ratings based on pseudo-labels

그림 5는 pseudo-label 기반 self-training에 사용된 수강자 수(enrollment)의 예측 분포를 log1p 스케일에서 시각화한 결과이다. 전반적으로 평균 약 7.5 근처를 중심으로 하는 정규분포 형태를 보이며, 극단적으로 낮거나 높은 예측값은 제한된 수만 포함되어 있음을 확인할 수 있다. 이는 pseudo-label 생성 시 신뢰도가 높은 상위 30% 예측값만을 선택한 결과이며, 모델이 중간 수강자 규모 강의에 대해 상대적으로 안정적인 예측을 수행하고 있음을 시사한다.

Fig. 5.

Distribution of predicted enrollment based on pseudo-labels

그러나 일부 고 enrollment 영역(log1p 기준 10 이상)은 여전히 샘플 수가 부족한 long-tail 영역으로 남아 있어, 해당 구간에 대한 예측력이 제한될 가능성이 있다. 이는 수강자 수 분포 자체의 비정규성에 기인한 것으로, 향후 해당 영역에 대한 추가 학습이나 데이터 증강 전략이 필요할 수 있다.

더 세밀한 성능 평가를 위해 예측된 평점을 기반으로 상위 K개의 강의를 추천한 후, 실제 고평점 강의와의 일치 여부를 Precision@K, Recall@K, MAP@K, NDCG@K 지표로 평가하였다. 결과는 표 7에 요약하였다.

Top-K recommendation performance metrics based on predicted ratings (using pseudo-label self-training model)

NDCG 지표 계산 시, 실제 평점에 따라 relevance 값을 다음과 같이 부여하였다. 평점이 4.8 이상인 강의는 relevance = 3, 4.5 이상 4.8 미만은 relevance = 2, 4.0 이상 4.5 미만은 relevance = 1, 4.0 미만 또는 결측은 relevance = 0으로 설정하였다. 이와 같은 방식은 강의 간 순위 정확도를 보다 정밀하게 반영하기 위해, 평점의 구간별 등급 차이를 고려하여 계층화한 방식이다.

평점 기반 회귀 모델에 대해 수행한 Top‑K 추천 품질 평가 결과, 전반적으로 매우 높은 수준의 정확도가 확인되었다. 특히 Precision@K, MAP@K는 모든 K값(200, 500, 1000)에서 1.0000을 기록하여, 상위 예측 강의들이 실제 고평점 강의와 완벽히 일치함을 보여준다.

Recall@K의 경우, K=200 및 K=500에서는 1.0000으로 모든 positive를 완전히 포착하였으나, K=1000에서는 0.5090으로 다소 낮게 나타났다. 이는 전체 고평점 강의의 수가 상대적으로 적고, 예측값이 상위권에 집중되면서 일부 강의가 추천 범위에 포함되지 못했기 때문으로 해석된다. 그럼에도 불구하고 NDCG@K는 모든 K값에서 0.9997 이상으로 유지되어, 추천 순위의 정렬 품질이 매우 높다는 점을 뒷받침한다. 이는 단순한 회귀 기반 평점 예측 모델이 추천 시스템 관점에서도 정확한 콘텐츠 선별력과 강력한 정렬 능력을 갖추고 있음을 시사하며, pseudo-label 기반 self-training을 통해 예측값의 신뢰도와 활용 가능성이 크게 향상되었음을 보여준다.

Top-K recommendation performance metrics based on predicted enrollment (using pseudo-label self-training model)

한편, 전체 enrollment 예측의 결정계수(R²)는 약 0.67 수준으로 제한적인 설명력을 보였으나, 추천 시스템 관점에서의 Top‑K 평가 결과는 상위권 강의 예측이 매우 정밀하게 수행되었음을 보여준다. 위 결과는 모델이 전체적인 수강자 수 분산을 완벽히 설명하지는 못하더라도, 수강자 수가 높은 인기 강의들을 정확히 선별하고 상위에 랭킹하는 데 매우 효과적임을 시사한다. 특히, Precision@1000이 98.8%를 유지하면서도 Recall@1000이 0.41에 그친 것은 전체 positive 수(예: 수강자 수 log1p ≥ 8.0)를 기준으로 할 때, 실제 고수강 강의가 매우 소수에 집중되어 있고 long-tail 분포가 심함을 반영한다. K=500 이하의 결과부터는 다시 좋은 성능을 보여준다. 결과적으로, 본 모델은 전 범위의 수치 예측 정확도보다는 실제 플랫폼에서 중요한 수요가 높은 수강 강의의 정렬 및 추천 측면에서 높은 실용성을 가지며, 추천 시스템에 직접 응용 가능한 가능성을 보여준다.

준지도 학습 과정에서 중요한 역할을 한 것은 텍스트 기반 특성이었다. 앞서 통합된 text_info 필드에 대해 수행된 TF-IDF 임베딩과 상위 평점 강의와의 유사도(tfidf_similarity_to_top)는, 종속변수가 결측된 샘플에서도 유효한 설명력을 가지는 feature로 작용하였다. 즉, 강의의 콘텐츠 정보 자체가 해당 강의의 품질이나 수요를 반영할 수 있는 근거가 되어, 종속변수가 없는 상태에서도 일정 수준 이상의 예측 가능성을 확보할 수 있었다. 이러한 준지도 학습 전략은 학습 가능한 데이터의 폭을 넓히는 동시에, 콘텐츠 기반 분석의 실제 효과성을 실증적으로 검증할 수 있다는 점에서 의미가 크다. 플랫폼 간 제공 정보의 차이를 보완하고, 실제 운영 환경에서의 예측 적용 가능성을 높이기 위한 기반이 될 수 있다.


Ⅳ. 논의 및 결론(Discussion and Conclusion)

본 연구는 Coursera, edX, Udemy 등에서 수집한 강의 데이터를 바탕으로, 평점과 수강 등록 수를 예측하는 통합 모델을 개발하였다. 강의 설명 텍스트를 TF-IDF로 임베딩하고 콘텐츠 간 유사도를 보조 feature로 활용하였으며, 평점 결측 문제를 해결하기 위해 pseudo-label 기반의 self-training 준지도 학습 전략을 도입하였다. 실험 결과, RMSE와 MAE가 기존 Random Forest 및 XGBoost 대비 유의하게 감소하고, 결정계수(R²)는 최대 0.99로 향상되는 등 정량 예측 성능이 크게 개선되었다. 특히 평점 예측 모델은 Top‑K 평가 기준(Top‑200, 500, 1000)에서 Precision, MAP, NDCG 모두 0.999~1.000, Recall도 거의 완전탐색 수준을 기록하여 추천 시스템으로서의 우수성을 입증하였다. 수강 등록 수 예측에서는 전체 설명력(R²)이 0.67로 제한적이었으나, 상위 1%~5% 수준의 인기 강의를 정확히 식별하는 데는 효과적이었다. 이는 수강자 수 분포가 long-tail 구조를 가지는 온라인 교육 환경의 특성과 관련이 있다. SHAP 분석에서는 플랫폼 유형, 강의 길이(log_duration), 난이도(level_Introductory) 등의 변수가 주요 feature로 도출되었으며, 지나치게 긴 강의나 단순히 수강자 수가 많은 강의는 만족도와 평점에 부정적 영향을 줄 수 있음이 확인되었다. 본 연구는 텍스트 기반 특성과 준지도 학습을 융합하여 예측 성능을 높이는 동시에, 강의 기획과 추천 시스템 설계에 실질적인 통찰을 제공한다.

Acknowledgments

본 연구는 2024학년도 경기대학교 학술연구비(일반연구과제) 지원에 의하여 수행되었음”

References

  • L. Breslow, D. E. Pritchard, J. DeBoer, G. S. Stump, A. D. Ho, and D. T. Seaton, “Studying Learning in the Worldwide Classroom Research into edX’s First MOOC,” Research & Practice in Assessment, Vol. 8, pp. 13-25, 2013.
  • C. Kulkarni, J. Cambre, Y. Kotturi, M. S. Bernstein, and S. R. Klemmer, “Talkabout: Making Distance Matter with Small Groups in Massive Classes,” in Design Thinking Research, Cham, Springer, pp. 67-92, 2016. [https://doi.org/10.1007/978-3-319-19641-1_6]
  • M. Wen, D. Yang, and C. Rose, “Sentiment Analysis in MOOC Discussion Forums: What Does It Tell Us?,” in Proceedings of Educational Data Mining 2014, 2014.
  • N. Altrabsheh, M. Cocea, and S. Fallahkhair, “Learning Sentiment from Students’ Feedback for Real-Time Interventions in Classrooms,” in Proceedings of Adaptive and Intelligent Systems Third International Conferences (ICAIS 2014), pp. 40-49, 2014. [https://doi.org/10.1007/978-3-319-11298-5_5]
  • L. Li, J. Johnson, W. Aarhus, and D. Shah, “Key Factors in MOOC Pedagogy Based on NLP Sentiment Analysis of Learner Reviews: What Makes a Hit,” Computers & Education, Vol. 176, 104354, 2022. [https://doi.org/10.1016/j.compedu.2021.104354]
  • M. J. Yoon, C. K. Cho, and Y. W. Seo, “Customer Rating Prediction Using Text Analysis of Online Reviews,” Journal of the Korean Production and Operations Management Society, Vol. 32, No. 1, pp. 89-103, 2021. [https://doi.org/10.32956/kopoms.2021.32.1.89]
  • G. Basilaia and D. Kvavadze, “Transition to Online Education in Schools during a SARS-CoV-2 Coronavirus (COVID-19) Pandemic in Georgia,” Pedagogical Research, Vol. 5, No. 4, em0060, 2020. [https://doi.org/10.29333/pr/7937]
  • D. Yang, T. Sinha, D. Adamson, and C. Rose, “Turn on, Tune in, Drop out: Anticipating Student Dropouts in Massive Open Online Courses,” in Proceedings of the 2013 NIPS Data-Driven Education Workshop, 2013.
  • O. Y. Han, “A Study on Components for Designing Personalized Education Systems Based on Generative AI,” Journal of the Korean Association of Computer Education, Vol. 26, No. 6, pp. 127-141, 2023.
  • A. Baqach and A. Battou, “A New Sentiment Analysis Model to Classify Students’ Reviews on MOOCs,” Education and Information Technologies, Vol. 29, No. 13, pp. 16813-16840, 2024.
  • A. K. Singh, S. Kumar, S. Bhushan, P. Kumar, and A. Vashishtha, “A Proportional Sentiment Analysis of MOOCs Course Reviews Using Supervised Learning Algorithms,” Ingénierie des Systèmes d'Information, Vol. 26, No. 5, 2021.
  • S. H. Seo and J. T. Kim, “Research Trends in Sentiment Analysis Based on Deep Learning,” Journal of Korea Multimedia Society, Vol. 20, No. 3, pp. 8-22, 2016.
  • Y. J. Lim and Y. J. Jung, “Analysis of Factors Impacting on the Retention of Continuous Learning in Credit Recognition K-MOOC,” Journal of Educational Innovation Research, Vol. 30, No. 4, pp. 175-195, 2020.
  • S.-H. Kwon, S.-Y. Kim, J.-H. Kim, E.-B. Kim, Y.-W. Jeong, N.-Y. Kwon, ... and S. Park, “An Online Lecture Concentration According to Online Learning Behavior, Learner Characteristics, Learning Satisfaction, and Teacher-student Interaction of University Students,” Nursing and Innovation, Vol. 25, No. 1, pp. 57-66, 2021. [https://doi.org/10.38083/jkns.25.1.202102.057]
  • S. B. Yoon, S. H. Yang, and H. Park, “LMS-Based Edutech Teaching and Learning Platform Model Design Study,” Journal of Digital Convergence, Vol. 19, No. 10, pp. 29-38, 2021.
  • S. I. Seo, A Case Study on the Learning Activities of MOOC Completers, Ph.D. Dissertation, Graduate School of Seoul National University, Seoul, 2016.
  • A. Onan, “Sentiment Analysis on Massive Open Online Course Evaluations: A Text Mining and Deep Learning Approach,” Computer Applications in Engineering Education, Vol. 29, No. 3, pp. 572-589, 2021. [https://doi.org/10.1002/cae.22253]

저자소개

김현아(Hyun-Ah Kim)

2003년:경기대학교 전자계산학과(이학석사)

2009년:경기대학교 전자계산학과(이학박사)

2018년~현 재: 경기대학교, 융합교양대학, 교양학부, 조교수

※관심분야:이러닝, BPM, 빅데이터, 데이터 마이닝, 머신러닝, 딥러닝 강화학습, IoT작권(DRM) 등

Fig. 1.

Fig. 1.
Conceptual framework of the proposed model

Fig. 2.

Fig. 2.
(a) Partial Dependence Plots (PDP) of rating_per_dollar for rating, (b) PDP of log_price for rating, (c ) PDP of platform_Online_uses for rating, (d) PDP of popularity_index for rating, (e) PDP of log_duration for rating, (f) PDP of popularity_index for enrollment, (g) PDP of tfidf_similarity_to_top for enrollment, (h) PDP of log_duration for enrollment, (i) PDP of rating_per_dollar for enrollment, (j) PDP of log_price for enrollment

Fig. 3.

Fig. 3.
Illustration of the semi-supervised learning framework

Fig. 4.

Fig. 4.
Distribution of predicted ratings based on pseudo-labels

Fig. 5.

Fig. 5.
Distribution of predicted enrollment based on pseudo-labels

Table 1.

Missing data distribution by platform (top features only)

Feature Coursera edX Havard/MIT OnlineCourses Skillshare Udemy
title
rating
duration
price
enrollment
description
skills
summary

Table 2.

Sample examples of course ratings and TF-IDF-based similarity

Course Rating tfidf_similarity_to_top Examples of Key Result Interpretations
1 4.7 0.065892
2 4.3 0.059887
3 4.8 0.045228 The course has a high rating but shows low similarity with top-rated courses.
4 4.7 0.056747
5 4.8 0.068209
6 4.7 0.069124
7 4.7 0.081681 The course has a high rating and shares strong content similarity with other top-rated courses.
8 4.7 0.072227
9 NaN 0.0703 The course has no rating but is similar to top-rated courses: favorable candidate for pseudo-labeling.

Table 3.

Correlation between TF-IDF values of top 10 words and course ratings and enrollment

Word rating correlation coefficient enrollment correlation coefficient
learn 0.1305 -
levelscurrent 0.1259 -
specialization 0.0901 0.216
data 0.084 0.2033
complete 0.0835 -
build 0.0833 -
applied 0.0829 0.1416
using 0.0823 -
skills 0.0821 -
master 0.0792 -
apply - 0.1861
able - 0.1857
including - 0.1628
learners - 0.1598
understand - 0.1568
program - 0.1449
provide - 0.1442

Table 4.

Comparison of model performance: Random Forest and XGBoost

Target Model RMSE MAE
rating RandomForest 0.1943 0.1135 0.8706
rating XGBoost 0.2102 0.1292 0.8486
enrollment RandomForest 24313.56 3340.678 0.5783
enrollment XGBoost 24717.89 3928.846 0.5641

Table 5.

Random Forest feature importance analysis

Top Rating feature Importance Enrollment feature Importance
1 rating_per_dollar 0.490 popularity_index 0.476
2 log_price 3.504 tfidf_similarity_to_top 0.444
3 platform_Online_uses 0.091 log_duration 0.025
4 popularity_index 0.056 rating_per_dollar 0.023
5 log_duration 0.013 log_price 0.014

Table 6.

Prediction performance of semi-supervised learning (rating and enrollment)

Feature Model RMSE (val) MAE (val) R² (val) RMSE (test) MAE (test) R² (test)
Rating Pseudo-label + Self-training 0.0631 0.0385 0.9951 0.0651 0.0389 0.9948
Enrollment Pseudo-label + Self-training 0.6767 0.3751 0.6650 0.6787 0.3711 0.6745

Table 7.

Top-K recommendation performance metrics based on predicted ratings (using pseudo-label self-training model)

K Precision@K Recall@K MAP@K NDCG@K
1000 1 0.5090 1 0.9997
500 1 1 1 0.9998
200 1 1 1 0.9998

Table 8.

Top-K recommendation performance metrics based on predicted enrollment (using pseudo-label self-training model)

K Precision@K Recall@K MAP@K NDCG@K
1000 0.9880 0.4146 0.9944 0.9980
500 0.9880 0.8283 0.9977 0.9970
200 1 1 1 0.9970