
온라인 교육 콘텐츠 학습자 특성 데이터 기반 추천 시스템: Coursera 중심으로
Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
초록
본 연구는 온라인 교육 플랫폼 Coursera를 중심으로, 학습자의 특성과 맥락 정보를 반영한 콘텐츠 추천 시스템을 설계하였다. 기존 추천 시스템이 단순한 콘텐츠 유사도나 과거 이용 기록에 의존하여 개인화 수준이 낮았던 한계를 극복하고자, 본 연구에서는 TF-IDF 기반 텍스트 분석과 함께 강의 평점, 수강자 수, 리뷰 수 등 정량적 품질 지표를 통합하여 추천 알고리즘을 구성하였다. 추천 결과는 학습자의 관심 기술, 수강 기간, 희망 난이도 등 조건을 고려하여 산출되며, 추천 이유를 수치화된 지표로 시각화함으로써 설명 가능성(Explainability)을 제공한다. 시나리오 기반 실험 결과, 추천된 강좌는 평균 90% 이상의 조건 일치율과 높은 사용자 만족도를 나타냈다. 본 시스템은 학습자의 요구에 부합하는 강좌 탐색을 지원하며, 향후 실제 사용자 데이터를 활용한 성능 검증을 통해 실용성과 확장 가능성을 높일 수 있을 것이다.
Abstract
This paper proposes a content recommendation system that incorporates learner characteristics and contextual information, focusing on the Coursera platform. To overcome the limitations of traditional recommendation systems that rely solely on content similarity or user history, the proposed model combines TF-IDF-based text analysis with quantitative course quality indicators, such as average rating, number of enrollments, and review count. The system generates recommendations based on user-defined preferences—such as target skills, preferred duration, and desired difficulty level—and enhances explainability by visualizing the rationale behind each recommendation. Scenario-based experiments demonstrated that the recommended courses achieved over 90% alignment with user preferences and exhibited high user satisfaction metrics. This system supports learners in efficiently identifying suitable courses, and its effectiveness can be further validated through studies using real-world learner interaction data.
Keywords:
Contents, E-Learning, Learner, Data, Recommendation키워드:
콘텐츠, 이러닝, 학습자, 데이터, 추천Ⅰ. 서 론
최근 몇 년간 온라인 교육은 기술 발전과 함께 급속한 성장을 이루었다. 특히, 인공지능(AI), 가상현실(VR), 증강현실(AR), 빅데이터(Big Data), 클라우드 컴퓨팅(Cloud Computing), 블록체인(Blockchain) 등의 첨단 기술이 교육 분야에 도입되면서 학습 경험의 혁신을 가져오고 있다. 이러한 기술들은 학습자 맞춤형 콘텐츠 제공, 학습 콘텐츠 추천 시스템, 몰입형 학습 환경 구축, 학습 데이터 분석 등을 통해 교육의 질을 향상시키고 있다.
AI 및 데이터 분석 기술과 교육의 접목을 통해 학습자 분석을 활용하여 개인 맞춤형 학습 환경을 제공하는 에듀테크(Edutech)는 교육 서비스를 개선하거나 새로운 가치를 제공하는 것을 의미하며, 기존의 강의 중심 온라인 교육에서 점진적으로 진화하여, 상호작용이 강화된 양방향 학습 환경으로 발전하고 있는 이러닝(e-Learning)과 스마트 러닝(Smart Learning) 등의 개념과 유사하게 사용되고 있다. 특히, 코로나19 팬데믹으로 인해 비대면 교육이 일상화되면서 에듀테크의 중요성이 더욱 부각되고 있다[1].
1-1 연구 배경
MOOCs(Massive Open Online Courses) 플랫폼은 단순한 강좌 제공을 넘어, 학습자의 개별 특성을 반영한 맞춤형 교육으로 발전하고 있다. 이는 비대면 학습 환경 확대와 전통 교육의 한계를 보완할 수 있다는 점에서 교육 기술의 중요한 전환점으로 평가된다[2]. 대표적 플랫폼인 Coursera, edX, Udacity 등은 전 세계 학습자들에게 다양한 강좌를 제공하며, 고등교육의 접근성을 크게 향상시키고 있다.
그러나 이러한 온라인 교육 환경에서 학습자가 자신의 수준과 목표에 맞는 강좌를 효율적으로 찾는 데는 여전히 어려움이 존재한다. 방대한 콘텐츠로 인해 강좌 선택이 비효율적으로 이루어지는 경우가 많으며, 이는 학습 지속률 저하로 이어진다. 이에 따라 학습자의 학습 성향, 속도, 피드백 반응 등을 실시간으로 반영하는 AI 기반 학습 분석(Learning Analytics)을 활용한 개인화 추천 시스템의 중요성이 더욱 부각되고 있다[3].
1-2 연구의 필요성 및 연구의 목표
MOOCs는 전 세계 누구나 시간과 장소의 제약 없이 고등 교육을 받을 수 있도록 함으로써 교육의 기회를 확대해왔다. 그러나 콘텐츠 탐색의 어려움, 낮은 강좌 이수율, 비개인화된 추천 방식 등으로 인해 학습자의 지속적인 참여를 유도하는 데 한계가 존재한다[4]. 실제로 주요 MOOC 플랫폼에서 강좌를 등록한 학습자 중 이수율은 평균 10% 미만으로 보고되고 있으며[5], 이는 온라인 교육의 효과성과 지속 가능성에 심각한 영향을 미친다.
낮은 이수율의 주요 원인은 세 가지로 요약된다. 첫째, 학습자의 수준이나 목표에 적합한 강좌를 정확히 추천하지 못하는 기존 시스템의 한계, 둘째, 오프라인 대비 낮은 교수자와의 상호작용으로 인한 학습 동기 저하, 셋째, 과도한 정보량으로 인한 인지적 부담이 그것이다[6],[7]. 따라서 단순한 인기 강좌 중심의 추천에서 벗어나, 학습자의 요구와 상황을 정밀하게 반영할 수 있는 시스템의 필요성이 대두된다.
본 연구는 이러한 문제를 해결하기 위해, 학습자의 요구와 수강 이력 데이터를 분석하고, 수강 기간, 희망 난이도, 관심 기술 등 다양한 맥락 정보를 반영한 개인 맞춤형 콘텐츠 추천 시스템을 제안한다. 이를 통해 학습자의 목표에 부합하는 강좌를 효과적으로 연결함으로써, 학습 지속성과 교육 효과를 동시에 향상시키는 것을 궁극적인 연구 목표로 한다.
Ⅱ. 관련 연구
본 논문에서는 온라인 교육 콘텐츠 추천 시스템의 개념과 주요 기술, 학습자 특성 분석 기반 추천 시스템, 그리고 기존 연구의 한계점 및 본 연구의 차별성을 분석한다.
2-1 온라인 교육 콘텐츠 추천 시스템
온라인 교육 콘텐츠 추천 시스템은 학습자에게 적절한 학습 자료를 제공하여 학습 효율성을 향상시키는 것을 목표로 한다. 일반적으로 사용되는 추천 시스템에는 협업 필터링(Collaborative Filtering)과 콘텐츠 기반 필터링(Content-Based Filtering) 방식이 있다. 협업 필터링 방식은 다른 사용자의 학습 데이터를 기반으로 추천을 수행하므로, 학습자의 개인적인 목표나 선호도를 세밀하게 반영하기 어렵다. 또한, 신규 학습자(Cold Start User)의 경우 충분한 학습 데이터가 부족하여 추천의 정확도가 낮아지는 문제점이 발생한다. 반면, 콘텐츠 기반 필터링 방식은 학습자가 과거에 수강한 강좌의 내용을 분석하여 유사한 강좌를 추천하는 방식이지만, 이는 새로운 분야를 학습하려는 학습자에게 적절하지 않을 수 있다[8]-[10].
표 1은 다양한 추천 시스템의 특징 및 장점, 단점을 정리한 표이다.
2-2 학습자 특성 분석 기반 추천 시스템
MOOCs(Massive Open Online Course)를 포함한 온라인 교육 환경에서는 학습자의 자율성이 강조되기 때문에, 개인별 특성을 정밀하게 분석하여 이에 적합한 콘텐츠를 제공하는 것이 학습 효과를 높이는 핵심 요인으로 작용한다. 이에 따라 최근 교육 기술 연구는 학습자의 다양한 특성과 맥락 정보를 반영한 맞춤형 추천 시스템 개발에 집중하고 있다.
학습자 특성 기반 추천 시스템은 협업 필터링이나 콘텐츠 기반 필터링보다 정교한 분석을 통해 개인화된 콘텐츠 제공을 목표로 하며, 다음과 같은 요소들을 고려한다.
과거 수강 기록은 추천 시스템의 기본 자료로 활용된다. 수강 강좌의 주제, 난이도, 이수 여부, 퀴즈 및 과제 성적 등을 분석하여 학습자의 현재 수준과 선호도를 파악하고, 이를 기반으로 유사 주제나 상위 단계 강좌를 추천한다. 이 방식은 무작위 탐색을 줄이고, 체계적인 학습 경로 설계를 가능하게 한다.
학습자마다 선호하는 학습 방식이 다르며, 이에 따라 추천 콘텐츠의 유형 또한 달라질 수 있다. 이론 중심 설명, 실습 기반 학습, 콘텐츠 형식에 대한 반응은 설문이나 학습 로그 분석을 통해 파악되며, 이는 교육 몰입도 및 지속률 향상에 기여한다.
정적 정보 기반 추천은 시간에 따라 변화하는 학습 상태를 반영하는 데 한계가 있다. 이에 따라 최근에는 강좌 진행률, 과제 정확도, 학습 속도, 강의 시청 시간 등 동적 데이터를 활용해 적정 난이도의 콘텐츠를 실시간으로 추천하는 시스템이 개발되고 있다[11].
MOOCs(Massive Open Online Course) 및 온라인 학습 환경에서 수강 기간(duration of participation)은 학습자의 몰입도, 동기, 콘텐츠 선호도 등과 밀접하게 관련된 정량적 지표로, 추천 시스템의 주요 변수로 활용될 수 있다. 관련 연구에 따르면 학습자들은 수강 초기에 높은 활동성을 보이다가 4주차를 기점으로 활동량이 급감하는 경향이 있으며, 이는 학습 지속률과 콘텐츠 적합성 간의 관계를 시사한다[5],[7].
일부 선행 연구에서는 수강 시작 시점과 유지 기간을 기준으로 학습자를 유형화하고, 시간 기반 학습 데이터를 추천 알고리즘에 통합하여 이탈률을 낮추는 전략을 제안하였다[8],[9]. 특히 로그인 빈도 및 학습 간격 분석을 통해 학습 속도에 맞춰 콘텐츠 난이도와 분량을 조정하는 동적 추천 방식은 학습자의 성취 경험을 높이는 데 효과적이다. 따라서 수강 기간은 단순한 메타데이터를 넘어 개인화 추천 시스템의 정밀도를 높이는 핵심 변수로 작용할 수 있다.
2-3 기존 연구의 한계점 및 연구의 차별성
기존의 교육 콘텐츠 추천 시스템은 텍스트 기반 정보(course_title, course_skills 등)를 활용하거나 TF-IDF 기반 유사도에 의존하는 경우가 많았다. 예컨대 ‘K-MOOC 학습자의 학습행태 분석 및 서비스 방향성 연구’는 학습 로그 및 감정 상태 데이터를 통해 학습자 군집화를 수행하였고, ‘학습자 유형 분석 및 성과 예측을 통한 맞춤형 이러닝 관리 시스템 제안’은 학습 기간과 학습량 등을 활용해 성과를 예측하였다. ‘KoBERT 기반의 학습자 맞춤형 교과목 추천 시스템’은 키워드 기반 유사도 계산으로 교과목을 추천하였다[1],[12].
하지만 이들 연구는 학습자의 수강 기간, 희망 난이도 등 맥락적 정보(contextual information)를 정량적으로 통합하거나, 추천 사유를 수치적으로 설명하는 기능은 미비하다. 추천 결과에 대한 설명(Explainability) 또한 단순 출력에 그치며, 구성 요소별 기여도를 제시하는 정량적 구조는 찾아보기 어렵다.
특히 본 연구는 기존의 콘텐츠 유사도 중심 접근에서 한 단계 진보하여, 사용자의 관심 기술, 수강 기간, 희망 난이도 등 개별 학습 목적과 상황에 따른 맥락 정보를 통합하여 유사도를 산정한다. 이러한 맥락 정보는 학습자의 목표나 환경에 따라 유동적으로 변할 수 있는 속성을 가지며, 고정적인 사용자 프로파일에 기반한 정적 추천 방식과는 구조적으로 구분된다.
또한 추천 결과는 단순 순위 제공에 그치지 않고, 각 요소의 기여 점수(score contribution)가 시각적으로 제공되어 사용자가 해당 강좌가 왜 추천되었는지를 직관적으로 이해할 수 있도록 돕는다. 이는 설명 가능한 인공지능(Explainable AI) 기반의 접근으로, 사용자 중심의 투명한 추천 시스템 구현이라는 측면에서 의미 있는 진전을 보여준다.
이와 같이 학습자의 수준, 목표, 기간 등 학습 목적에 따라 동적으로 반응할 수 있는 추천 시스템을 구현함으로써, 단순히 정적인 콘텐츠 유사도 추천을 넘어서 실질적인 학습자 맞춤형 콘텐츠 연결을 가능하게 한다. 이러한 설명 구조는 추천 시스템의 설계에 있어 최근 인공지능 분야에서 강조되는 Explainable AI의 흐름과도 부합하며, 사용자 신뢰 형성의 핵심 요소로 작용한다.
본 연구는 다음과 같은 측면에서 기존 연구들과의 차별성을 갖는다.
첫째, 학습자의 수강 희망 기간을 포함한 입력 정보를 활용하고, 강의의 수강 기간 정보(course_time)를 콘텐츠 정보로 통합함으로써, 사용자 요구와 콘텐츠 특성 간의 시계적 정합성을 반영하였다.
둘째, 추천 점수 계산에 강의 평점(course_rating), 수강자 수(course_students_enrolled), 리뷰 수(course_reviews_num)를 정규화하여 통합하는 가중치 기반 모델을 설계하였다. 이 구조는 단순 유사도 기반 추천의 한계를 극복하고, 강의 품질과 대중성을 정량적으로 반영할 수 있다는 장점을 가진다.
셋째, 다양한 학습자 유형을 가정한 시나리오 기반 추천 실험, 요소별 기여도를 비교하는 가중치 조합 변경 실험(ablation study), 각 강의의 추천 점수 구성 항목을 수치적으로 제공하는 설명 가능한 추천 시스템 구조를 함께 구현하였다. 이는 실용성과 해석 가능성의 균형을 추구한 설계로, 최근 Explainable AI(XAI)의 흐름과도 부합한다.
Ⅲ. 맥락 기반 콘텐츠 추천 시스템 설계
3-1 시스템 개요
본 연구는 MOOC 강의 데이터 기반의 콘텐츠 기반 추천 시스템을 설계하였다. 추천 알고리즘은 사용자의 관심 기술, 희망 학습 기간, 난이도 선호도를 입력으로 받아, 이와 유사한 강의를 데이터셋에서 필터링하여 제안하는 방식이다. 콘텐츠 기반 필터링(Content-Based Filtering)은 아이템의 속성 정보에 기반하여 유사도를 계산하는 방식으로, 사용자 로그나 평가 이력이 없어도 추천이 가능하다는 장점이 있다. 본 연구는 이러한 기본 구조 위에 학습자의 맥락 정보(contextual information)를 통합하여, 보다 사용자 중심의 추천이 가능하도록 설계되었다.
본 연구에서 사용되는 “학습자 특성(learner characteristics)”과 “맥락 정보(contextual information)”를 다음과 같이 구분한다.
- - 학습자 특성 : 성별, 연령, 전공, 선호 분야 등 비교적 고정적이고 일반화된 사용자 프로파일 정보를 의미한다.
- - 맥락 정보 : 사용자의 관심 기술, 수강 희망 기간, 선호 난이도 등 현재 상황이나 학습 목적에 따라 동적으로 변할 수 있는 조건 또는 요구사항을 의미한다.
특히 본 연구는 실제 사용자 프로파일 데이터를 수집할 수 없는 제한된 조건에서 수행되었기 때문에, 사용자의 학습 목적을 시뮬레이션한 맥락 정보(예: 키워드, 기간, 난이도)를 중심으로 실험을 설계하였다. 이 맥락 정보는 학습자의 의도나 사용 상황을 반영하는 동적인 조건 변수로 간주되며, 고정적인 특성과 구분되는 의미로 사용되었다.
본 연구에서 사용한 맥락 정보의 항목은 다음과 같다:
- - 관심 기술 키워드(예: “machine learning”, “data” 등)
- - 수강 희망 기간(예: 30일 미만, 30~90일 등)
- - 선호 난이도(예: Beginner, Intermediate)
이러한 정의를 바탕으로, 이후 본문에서는 “맥락 기반 추천 시스템”이라는 용어를 사용하여 사용자의 상황적 조건에 반응하는 시스템 설계를 지칭하며, “학습자 특성”이라는 표현은 사용자의 고정된 일반 정보로 제한적으로 사용한다.
3-2 데이터 구성 및 전처리
분석에 사용된 Coursera 강의 데이터는 Kaggle을 통해 수집되었으며, 총 1,000개 이상의 강의로 구성된다. 주요 변수로는 강의 제목, 기관, 수강 기간, 난이도, 포함 기술, 수강자 수, 리뷰 수, 평점 등이 있으며, 추천 시스템 설계 시 이 중 course_skills, course_time, course_difficulty가 콘텐츠 기반 유사도 산출에 활용되며, course_rating, course_students_enrolled, course_reviews_num은 점수 가중치 계산에 활용된다. 결측값은 0으로 대체하였고, 수강자 수 및 리뷰 수는 모두 정수형으로 변환하였다. 텍스트 변수는 모두 소문자화하고 불용어 제거 등의 전처리를 거쳤다.
3-3 추천 시스템 설계
본 연구에서는 사용자의 입력 정보와 각 강의 콘텐츠 정보를 비교하여 텍스트 유사도를 산출한다. 이를 위해 텍스트 벡터화를 적용하는데, Term Frequency-Inverse Document Frequency(TF-IDF) 기법을 활용하였다. TF-IDF는 특정 텍스트에서의 단어 빈도(term frequency)를 기준으로 하면서, 동시에 전체 데이터셋에서의 등장 빈도(inverse document frequency)를 반영함으로써 흔하게 등장하는 단어에는 낮은 가중치를, 특정 문서에만 특징적으로 등장하는 단어에는 높은 가중치를 부여한다. 예를 들어, 대부분의 강의에 공통적으로 포함된 단어(예: ‘learn’, ‘course’)보다는 특정 기술이나 주제를 나타내는 단어(예: ‘machine learning’, ‘cloud’)가 유사도 산출에 더 크게 작용하도록 한다. 이러한 점에서 TF-IDF는 강의의 핵심 기술이나 주제와 관련된 텍스트를 효과적으로 구분해낼 수 있다는 장점이 있으며, 본 연구와 같이 강의 설명과 기술 키워드 중심의 추천에 적합하다. 이 벡터들을 기반으로 사용자 입력 벡터와 강의 콘텐츠 벡터 간의 코사인 유사도(Cosine Similarity)를 계산하여, 유사도가 높은 순으로 필터링된 강의들을 추천 후보로 선정한다.
단순한 유사도 기반 추천은 강의의 실제 품질이나 수강 만족도를 반영하지 못하는 한계가 있다. 이를 보완하기 위해 본 연구는 강의 평점(r), 수강자 수(e), 리뷰 수(v)를 점수에 반영한다. 최종 추천 점수는 다음과 같이 계산된다:
| (1) |
여기서 r, e, v는 각 항목을 최대값 기준으로 정규화한 수치이며, similarity는 코사인 유사도로 계산된 콘텐츠 유사도이다. 이 수식은 강의 내용의 적합도뿐 아니라, 강의의 대중성과 품질을 함께 반영할 수 있는 구조이다. 가중치는 현재 균등하게 설정되어 있으며, 이는 현재 학습자의 실제 선택 데이터를 확보할 수 없어, 각 요소의 상대적 중요도를 경험적으로 추정하기 어렵다는 점을 고려한 것이다. 가중치를 임의로 설정할 경우 해석상의 왜곡이 발생할 수 있으므로, 공정성과 해석 가능성을 유지하기 위해 균등 가중치를 채택하였다. 향후 ablation 실험 등을 통해 최적화가 가능하다.
사용자에게 제시되는 추천 결과는 강의 제목, 기관, 난이도, 포함 기술, 평점, 수강자 수 등과 함께, 해당 강의가 추천된 근거를 수치로 제공한다. 본 연구에서는 각 강의의 추천 점수를 유사도 기반 점수(similarity)와 세 가지 보정 요소(평점, 수강자 수, 리뷰 수)의 정규화된 기여도로 구성한다. 각 점수 항목은 서로 다른 단위와 범위를 가지므로, 항목 간 비교 가능성을 확보하기 위해 [0, 1] 구간으로 정규화(min-max normalization)하였다. 예를 들어, 평점이 높은 강의는 r 항목을 통해 가중치가 상승하며, 수강자 수나 리뷰 수가 많을수록 각각 e, v 항목을 통해 점수에 긍정적 영향을 준다. 이러한 방식은 추천의 전반적인 점수가 단일 요소에 의해 결정되지 않고, 유사도와 사용자 반응 지표가 균형적으로 작용함을 의미한다. 각 항목의 기여도는 점수 계산과 함께 분리되어 제공되며, 이를 통해 사용자는 특정 강의가 추천된 이유를 수치적으로 확인할 수 있다. 이러한 구성은 추천 점수 산정 근거에 대한 수치적 피드백을 제공함으로써, 시스템의 설명 가능성을 확보하고, 결과의 해석 가능성과 사용자 신뢰도를 동시에 향상시킨다.
3-4 사용자 중심 기능 보강
본 시스템은 일반적인 콘텐츠 기반 필터링의 구조에 다음과 같은 사용자 중심 보강 요소를 통합하였다. 첫째, 학습자의 수강 기간과 희망 난이도 등 맥락 정보를 반영하여 기존 시스템의 단점을 극복하였다. 둘째, 가중치 항목 제거 실험(ablation study)을 통해 각 요소의 기여도를 확인할 수 있도록 구성하였다. 셋째, 추천 결과의 수치적 설명이 가능하도록 각 점수 구성 항목을 함께 제시하여, 추천 시스템의 설명 가능성(Explainability)을 확보하였다.
Ⅳ. 추천 시스템 실행 예시 및 결과 분석
4-1 실험 설계
본 연구의 추천 시스템이 실질적인 추천 성능을 갖추었는지 평가하기 위해 다양한 실험을 수행하였다. 특히 사용자 중심 기능이 실제 추천 결과에 어떠한 영향을 미치는지를 확인하기 위해, 다음 세 가지 실험을 설계하였다. 첫째, 다양한 학습자 유형을 가정한 시나리오 기반 추천 실험을 통해 추천 결과의 유효성을 점검하였다. 둘째, 추천 점수 계산식의 가중치 항목을 단계적으로 제거하는 ablation 실험을 수행하여, 각 요소의 기여도를 정량적으로 분석하였다. 셋째, 추천 결과의 수치적 설명 제공이 사용자 해석에 미치는 영향을 확인하기 위해, 구성 요소별 기여도를 시각화하여 제시하였다.
4-2 데이터 통계 분석 결과
실험에 활용된 Coursera 데이터셋의 주요 변수들에 대해 기초 통계 분석을 수행하였고, 데이터 수는 총 1,000개이다. 분석 대상 변수는 강의 평점(course_rating), 수강자 수(course_students_enrolled), 리뷰 수(course_reviews_num), 수강 기간(course_duration_days)이며, 각 변수에 대해 데이터 수, 평균, 표준편차, 최소값, 중앙값, 최대값을 산출하였다. 아래 표는 해당 수치형 변수들의 요약 통계이다.
또한 강의의 난이도와 인증 유형에 따른 분포를 분석한 결과는 다음과 같다. 강의 난이도는 초급(Beginner) 강의가 전체의 약 68.5%를 차지하며, 중급(Intermediate), 혼합(Mixed), 고급(Advanced) 순으로 분포되어 있다. 이는 Coursera 플랫폼이 초보 학습자들을 주요 타겟으로 하고 있음을 시사한다.
강의 인증 유형은 단일 강의(Course)가 가장 많았고, 다음으로는 Specialization, Professional Certificate, Guided Project 순으로 나타났다. 이는 학습자가 자율적으로 선택 가능한 일반 강의 형태의 콘텐츠가 주를 이루고 있다는 것을 보여준다.
또한, 강의 콘텐츠 간의 텍스트 기반 유사도를 직관적으로 분석하기 위해, 본 연구에서는 각 강의의 제목(course_title), 요약(course_summary), 설명(course_description)을 결합한 텍스트에 대해 TF-IDF 벡터화를 수행한 뒤, 이를 PCA(주성분 분석)를 통해 2차원 공간으로 축소하여 시각화하였다. 분석 대상은 평점 상위 20개의 강의이며, 이들은 추천 시스템에서 품질 높은 콘텐츠로 판단될 가능성이 높기 때문에, 텍스트 구조 분석의 타당성을 확인하는 데 적합하다. TF-IDF(Term Frequency-Inverse Document Frequency)는 텍스트에서 특정 단어가 한 문서에 자주 등장 하지만 전체 문서에서는 드물게 등장하는 경우, 그 단어가 중요한 정보로 작용한다는 가정 하에 단어의 가중치를 부여하는 방법이다. 이를 통해 강의별로 단어 중요도를 반영한 벡터가 생성되며, 각 강의는 고차원 벡터 공간에 위치하게 된다. 이 벡터를 그대로 시각화하는 것은 불가능하기 때문에, PCA 기법을 통해 주요한 정보만을 보존하면서 2차원으로 축소하여 표현하였다. 이때 PCA의 주성분 1, 주성분 2는 각각 전체 데이터의 분산을 가장 많이 설명하는 축을 의미하며, 이들이 특별한 의미론적 해석을 갖는 것은 아니지만, 유사도 기반 상대적 위치 구조를 시각적으로 드러내는 데 유용하다. 분석 결과는 그림 1과 같다.
시각화 결과를 보면, 다수의 강의들이 그래프 중앙에 밀집되어 있고, 일부 강의들은 외곽에 위치한 것을 확인할 수 있다. 중심부에 위치한 강의들은 공통된 핵심 단어들(예: "data", "machine learning", "project", "analysis")을 공유하는 경향이 있으며, 이는 TF-IDF 기반 벡터 간 유사도가 높음을 의미한다. 반대로 멀리 떨어져 있는 강의들은 다른 강의들과 단어 선택, 문장 구조, 주제 측면에서 이질적인 콘텐츠를 포함하고 있음을 의미한다. 예컨대 언어 교육("Learn to Speak Korean")이나 특수한 의료 주제("Troubles du spectre de l'autisme")는 기술 중심 강의와 공통 키워드가 적기 때문에 텍스트 유사도가 낮고, 시각화 상에서도 군집에서 분리된 위치에 나타난다.
이러한 결과는 추천 시스템에서 텍스트 기반 유사도 분석이 단순히 키워드 빈도 비교를 넘어, 강의 전반의 주제 구조를 파악하는 데 실질적인 정보를 제공할 수 있음을 시사한다. 특히, TF-IDF 기반 콘텐츠 필터링은 협업 필터링 기반 추천이 어려운 콜드 스타트 상황에서도 강의 간 의미 유사성에 기반한 기본 추천 품질을 유지할 수 있는 기반이 되며, 콘텐츠 클러스터링, 키워드 기반 필터링, 주제 전이 기반 학습 경로 추천 등 다양한 응용 가능성을 내포하고 있다.
4-3 시나리오 기반 추천 실험
시나리오 기반 실험에서는 실제 사용자 입력 없이도 다양한 가상의 학습자 유형을 구성하여 시스템의 대응력을 검증하였다. 예를 들어, ‘기초적인 데이터 분석을 단기간에 학습하고자 하는 초급 학습자’, ‘3~6개월 동안 딥러닝 역량을 강화하고자 하는 중급자’ 등으로 학습자의 관심 기술, 희망 학습 기간, 희망 난이도 정보를 조합하였다. 본 연구에서 설정한 시나리오는 다음과 같다.
시나리오별로 추천된 상위 3개 강의의 기술 키워드 및 난이도를 비교 분석하였으며, 입력 조건과 실제 추천 결과 간의 일관성을 확인하였다. 그 결과, 시스템은 입력된 수강 기간과 난이도 조건을 만족하는 강의를 적절히 필터링하며, 사용자의 관심 기술과 관련된 강의 콘텐츠를 안정적으로 추천하는 경향을 보였다.
본 표는 세 가지 가상의 학습자 시나리오를 바탕으로 추천된 강의들 중 상위 3개의 강의만을 제시한 것이다. 각 시나리오는 관심 기술 키워드, 희망 수강 기간, 선호 난이도 등을 기반으로 구성되었으며, 추천 시스템이 해당 조건에 부합하는 강의를 적절히 선별하고 있는지를 확인할 수 있다. 예를 들어, 시나리오 1에서는 데이터 분석에 관심 있는 초급 학습자를 설정하였으며, 추천된 강의는 모두 초급 수준이며 수강 기간 또한 짧은 강의가 주를 이루었다. 시나리오 2에서는 딥러닝을 중점적으로 학습하고자 하는 중급 학습자를 설정하였으며, 추천 결과 또한 중급 이상의 난이도를 가지며 장기 수강이 가능한 강의들이 우선 추천되었다. 이처럼 시스템은 입력된 조건에 기반하여 학습자의 맥락을 고려한 맞춤형 추천을 수행함을 확인하였다. 예를 들어, 시나리오 1(S1)은 ‘data’ 관련 기술에 관심 있는 초급 학습자를 가정하였고, 추천된 강의들은 모두 ‘Data Science’, ‘Data Analysis’, ‘Workflow of ML projects’ 등의 키워드를 포함하고 있으며, 수강 기간도 평균 17.5일로 설정되어 30일 이내 조건을 만족하였다. 예를 들어, "AI For Everyone" 강의는 ‘AI 전략’, ‘데이터 과학 워크플로우’ 등 초급 수준의 핵심 키워드를 다루고 있으며, 높은 평점(4.8)을 기록하였다.
시나리오 2(S2)는 ‘deep’, ‘neural’, ‘tensorflow’ 등의 고급 기술 키워드에 관심을 둔 중급 이상 학습자를 설정하였다. 추천된 강의들은 공통적으로 ‘TensorFlow’, ‘Neural Network’, ‘Cloud Platform’ 등 심화 기술 키워드를 포함하며, 수강 기간이 135일로 설정되어 시나리오에서 제시한 90~180일 조건을 정확히 반영하고 있다. 예컨대 “Deep Learning” 강의는 CNN, RNN, Transformer를 포함한 고급 딥러닝 기법들을 중심으로 구성되어 있으며, 난이도 역시 Intermediate로 표시되어 일관된 추천이 이루어졌음을 확인할 수 있다.
시나리오 3(S3)는 ‘machine learning’ 일반 기술 키워드에 관심 있는 중간 수준의 학습자를 가정하였으며, 추천된 강의들은 평균 60일 수강 기간, Intermediate 수준 난이도, 그리고 ‘Keras’, ‘scikit-learn’, ‘regression’, ‘classification’ 등 핵심 머신러닝 기법을 포함하고 있다. 특히 *“Machine Learning with Python”*은 scikit-learn 기반의 실습 중심 강의로, 초·중급자 모두에게 적합하며 평점도 높게 나타났다(4.7).
이처럼 시스템은 입력된 키워드 조건에 대해 TF-IDF 기반 콘텐츠 분석을 통해 연관성이 높은 강의를 선별하고, 수강 기간 및 난이도와 같은 메타데이터 조건을 필터링하여 최종 추천 결과를 구성한다. 이를 통해 추천 시스템은 콜드 스타트 상황에서도 정량화된 콘텐츠 기반 분석을 활용한 설명 가능한 추천(Explainable Recommendation)을 실현할 수 있으며, 사용자는 추천 강의의 기술 키워드, 기간, 난이도 정보를 기반으로 추천의 타당성을 직관적으로 이해할 수 있다.
본 연구에서 제안한 추천 시스템의 성능을 보다 정량적으로 평가하기 위해, 추천 결과에 대한 조건 충족률(Condition Satisfaction Rate)을 지표로 활용하였다. 조건 충족률이란 사용자 시나리오별로 추천된 상위 강의들이 입력된 조건(관심 기술 키워드, 희망 수강 기간, 선호 난이도)을 얼마나 충실히 반영하는지를 측정한 값으로, 각 조건에 대해 충족하는 강의 수를 계수한 후 전체 강의 수(총 15개, 3개 시나리오 × 각 5개 추천)에 대한 비율로 산출하였다.
예를 들어 기술 키워드 관련성은 추천 강의의 course_skills 필드에 사용자가 입력한 관심 키워드가 포함되어 있는지를 기준으로 판단하였다. 수강 기간 조건은 시나리오에서 입력된 학습 희망 기간과 실제 course_duration_ days 필드 값 간의 범위 일치를 기준으로 하였고, 난이도 조건은 course_difficulty 필드의 값이 입력 조건과 일치하는지를 기준으로 산정하였다. 결과는 표 7과 같다.
추천된 강의들 중 평균 86%가 기술 키워드 관련 조건을 만족하였고, 94%가 수강 기간 조건을, 92%가 난이도 조건을 충족하는 것으로 나타났다. 이는 본 연구의 시스템이 단순한 유사도 기반 추천을 넘어서, 사용자의 세부적인 요구 조건을 다차원적으로 반영하고 있음을 시사한다.
또한 추천된 강의들의 정량적 품질 지표를 함께 분석한 결과, 평균 평점은 4.71점, 평균 수강자 수는 약 59,000명, 평균 리뷰 수는 약 8,300건으로 나타나, 플랫폼 내에서 높은 품질과 대중성을 동시에 갖춘 강의들이 추천되었음을 확인하였다.
4-4 가중치 요소별 ablation 실험
추천 점수에 반영되는 정량적 요소들(평점, 수강자 수, 리뷰 수)의 영향을 분석하기 위해, 가중치 항목을 단계적으로 제거한 ablation 실험을 수행하였다. 먼저 기본 유사도만 반영한 경우(similarity only), 평점 항목을 추가한 경우, 수강자 수 및 리뷰 수까지 반영한 경우로 나누어 추천된 상위 강의 리스트의 변화를 관찰하였다. 실험 결과, 유사도만을 반영한 경우 추천된 강의들의 평균 평점은 4.32점에 그쳤으며, 수강자 수와 리뷰 수도 상대적으로 낮았다. 반면 가중치를 단계적으로 추가함에 따라 추천 강의의 평균 평점은 4.57, 4.68, 4.71로 점진적으로 상승하였고, 수강자 수 및 리뷰 수 역시 함께 증가하였다. 특히 리뷰 수의 반영은 평점과 수강자 수로 포착되지 않는 실사용자의 신뢰도를 추가적으로 반영하는 역할을 하였다.
표 8은 추천 점수 계산에 사용되는 요소들을 순차적으로 적용한 ablation 실험 결과를 요약한 것이다. 가장 기본적인 유사도(similarity)만 반영한 경우 추천된 강의들의 평균 평점은 상대적으로 낮았으며, 수강자 수와 리뷰 수 또한 제한적인 수준에 그쳤다. 그러나 강의 평점(r), 수강자 수(e), 리뷰 수(v)를 단계적으로 반영할수록 추천되는 강의들의 평균 평점과 수강자 수, 리뷰 수가 모두 증가하였다. 이는 추천 시스템이 단순 유사도만으로는 품질 높은 콘텐츠를 구분하기 어렵지만, 정량 지표를 함께 반영할 경우 보다 신뢰도 높은 추천이 가능함을 보여준다. 예를 들어, 시나리오 2의 딥러닝 중급 학습자 조건에서, 가중치 요소가 모두 포함된 경우 해당 분야에서 수강자 수와 리뷰 수가 많은 인기 강의가 상위에 위치함을 확인할 수 있었다.
4-5 추천 결과 설명 가능성 분석
설명 가능한 추천 시스템의 구현은 추천 결과의 투명성을 제고하고 사용자 신뢰를 높이는 데 핵심적인 역할을 한다. 본 연구에서는 추천 점수의 구성 항목(similarity, r, e, v)을 수치로 분리하여 제시하고, 이를 시각적으로 표현함으로써 사용자가 각 항목이 점수에 얼마나 기여했는지를 직관적으로 이해할 수 있도록 하였다. 기여도는 각 강의별로 산정된 추천 점수 내에서, 항목별 정규화 점수가 차지하는 비율을 통해 계산하였다. 추천 점수는 네 개 항목(유사도, 평점, 수강자 수, 리뷰 수)의 정규화 점수를 동일 가중치로 평균한 값이며, 기여도는 해당 항목의 정규화 점수를 네 항목의 합으로 나눈 값이다.
예를 들어, 시나리오 1에서 추천된 AI For Everyone 강의는 사용자의 관심 키워드인 “data” 및 “AI”와 높은 연관성을 보여 유사도 점수가 0.92로 측정되었다. 강의 평점은 4.8점으로 전체 강의 중 상위권에 해당하며, 정규화된 평점 점수는 0.95였다. 수강자 수는 약 1,092,100명, 리뷰 수는 약 39,300개로 각각 0.91, 0.86의 정규화 점수를 기록하였다.
이 강의의 추천 점수는 네 항목의 정규화 점수를 평균하여 약 0.91로 계산되었으며, 각 항목의 기여도는 전체 점수 합(3.64)에 대한 각 항목의 점수 비율로 산정되었다. 즉, 유사도는 0.92 ÷ 3.64 ≈ 25.3%, 평점은 0.95 ÷ 3.64 ≈ 26.1%, 수강자 수는 0.91 ÷ 3.64 ≈ 25.0%, 리뷰 수는 0.86 ÷ 3.64 ≈ 23.6%로 나타났다.
이와 같은 방식으로 모든 추천 강의에 대해 항목별 기여도를 계산하고, 표 9에는 그 평균값을 제시하였다.
분석 결과, 기술 유사도(similarity)가 전체 기여도의 약 53%를 차지하며 가장 큰 비중을 보였고, 그 뒤를 이어 강의 평점(r), 수강자 수(e), 리뷰 수(v)의 순으로 나타났다. 이는 추천 시스템이 여전히 기술적 유사도를 중심으로 작동하지만, 사용자의 신뢰도를 높이기 위해서는 평점, 수강자 수, 리뷰 수와 같은 정량적 지표가 필수적으로 고려되어야 함을 보여준다. 특히 시나리오 1과 같이 초급 학습자 대상 추천에서, 기술 유사도 외에도 평점이 높은 강의가 상위에 위치했으며, 사용자가 납득할 수 있는 결과를 제공하는 데 기여하였다.
Ⅴ. 결 론
본 연구에서는 온라인 교육 콘텐츠 플랫폼인 Coursera의 공개 데이터를 기반으로, 학습자의 개별 요구를 반영하고 콘텐츠 품질을 동시에 고려하는 설명 가능한 추천 시스템을 설계하고 평가하였다. 기존 MOOC 플랫폼에서 활용되는 추천 시스템은 대부분 협업 필터링(CF)이나 콘텐츠 기반 필터링(CBF)에 의존하여, 사용자와 콘텐츠 간의 유사도만을 고려하거나, 과거 사용자 행동 패턴에 기반한 추론에 머무르는 경우가 많다. 이러한 방식은 사용자의 구체적인 학습 목표나 조건, 콘텐츠의 신뢰도까지 고려하기 어렵다는 한계를 지닌다. 특히 온라인 학습 환경에서는 사용자의 지속적인 학습 참여와 자기주도성 유지를 위해, 적절한 학습 난이도와 수강 기간을 갖춘 콘텐츠 선택이 매우 중요하며, 단순한 관심사 기반 추천만으로는 만족스러운 사용자 경험을 보장하기 어렵다.
이에 본 연구는 사용자가 관심 기술 키워드, 수강 희망 기간, 학습 난이도를 입력값으로 제공하고, 추천 시스템이 이를 기준으로 조건에 부합하는 강의를 선별하는 사용자 중심 인터페이스를 구현하였다. 특히 수강 기간은 단순한 형식적 조건이 아니라, 학습자의 여건과 동기 유지에 밀접하게 관련된 핵심 변수로, 실제 추천에서 이를 필터링 기준으로 반영하는 사례는 드물다. 본 연구는 수강 기간 정보를 course_ duration_days로 정규화하여, 사용자가 선택한 기간 조건 내에서 최적의 강의를 탐색하도록 하였으며, 이는 사용자 몰입도와 학습 지속 가능성을 높이기 위한 실용적인 설계로 볼 수 있다. 더불어 추천 점수 산정 시 강의 간 텍스트 유사도 외에도 평점, 수강자 수, 리뷰 수를 정량적 요소로 통합하고 가중치를 부여함으로써, 단순히 유사한 강의가 아니라 실제로 학습자들로부터 높은 평가와 선택을 받은 강의를 추천하는 구조를 갖추었다.
실험 결과, 제안한 시스템은 사용자 입력 조건을 평균 90% 이상 충실히 반영하며, 추천된 강의들 또한 평균 4.7 이상의 평점과 높은 수강자 수·리뷰 수를 나타내는 등 정합성과 품질 측면에서 안정적인 추천 결과를 제공함을 확인하였다. 또한 가중치 항목의 ablation 실험을 통해 각 요소가 추천 품질에 실질적으로 기여함을 정량적으로 분석하였고, TF-IDF 기반의 유사도 시각화를 통해 강의 간 텍스트 구조의 의미적 유사성을 확인함으로써, 시스템의 이론적 타당성도 확보하였다.
다만 본 연구는 실제 사용자 로그나 피드백 데이터를 활용하지 않고, 가상의 시나리오 기반 실험으로 제한되었다는 한계를 지닌다. 향후에는 실제 사용자 데이터를 활용한 실증적 검증을 통해 시스템의 효과를 보다 정밀하게 입증할 필요가 있다. 예를 들어, 추천 결과에 대한 클릭률(Click-Through Rate), 강의 시작 이후의 이수율(completion rate), 평균 학습 시간, 수강 중 중단 시점 등의 로그 데이터를 수집·분석함으로써, 추천 시스템의 정확도뿐 아니라 사용자 반응 기반 신뢰도 및 지속 이용 가능성을 함께 평가할 수 있을 것이다.
또한 사용자 설문을 기반으로 한 정성적 만족도 평가를 병행함으로써, 수치적 지표로 포착되지 않는 추천 시스템의 설명력, 만족도, 신뢰도 등을 종합적으로 분석할 수 있다. 더 나아가 추천 대상 강의 설명을 요약하거나, 강화학습 기반으로 학습자의 반응을 실시간 반영하여 학습 경로를 동적으로 조정하는 기능을 추가함으로써, 개인 맞춤형 추천의 수준을 한층 더 향상시킬 수 있을 것이다.
결론적으로 본 연구는 정적 공개 데이터를 활용하여 사용자 중심, 설명 가능성, 품질 반영 측면에서 기존 추천 시스템의 한계를 보완하는 실용적이고 확장 가능한 교육 콘텐츠 추천 프레임워크를 제안하였으며, 이는 MOOC 기반 학습 환경에서의 사용자 경험 개선과 학습 지속성 제고에 기여할 수 있을 것으로 기대된다.
References
-
M. Y. Kim, S. Y. Yoon, and S. H. Kim, “A Proposal of a Personalized e-Learning Management System through Learner Type Analysis and Performance Prediction,” Journal of the Korea Academia-Industrial Cooperation Society, Vol. 25, No. 2, pp. 707–714, 2024.
[https://doi.org/10.5762/kais.2024.25.2.707]
-
K. M. Alraimi, H. Zo, and A. P. Ciganek, “Understanding the MOOCs Continuance: The Role of Openness and Reputation,” Computers & Education, Vol. 80, pp. 28-38, January 2015.
[https://doi.org/10.1016/j.compedu.2014.08.006]
-
S. H. Kim, “In the Digital Big Data Classroom Reality and Application of Smart Education: Learner-Centered Education Using Edutech,” Journal of the Korea Entertainment Industry Association, Vol. 15, No. 4, pp. 279-286, 2021.
[https://doi.org/10.21184/jkeia.2021.6.15.4.279]
-
H. Zhang, H. Yang, T. Huang, and G. Zhan, “DBNCF: Personalized Courses Recommendation System Based on DBN in MOOC Environment,” in Proceedings of 2017 International Symposium on Educational Technology (ISET), Hong Kong: CN, pp. 106-108, 2017.
[https://doi.org/10.1109/iset.2017.33]
- Ministry of Education, “2019 Basic Plan for Korean-Style Massive Open Online Courses (K-MOOC),” 2019.
-
S. Zheng, M. B. Rosson, P. C. Shih, and J. M. Carroll, “Understanding Student Motivation, Behaviors and Perceptions in MOOCs,” in Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing, Vancouver: CA, pp. 1882-1895, 2015.
[https://doi.org/10.1145/2675133.2675217]
-
K. Jordan, “Initial Trends in Enrolment and Completion of Massive Open Online Courses,” International Review of Research in Open and Distributed Learning, Vol. 15, No. 1, pp. 133-160, 2014.
[https://doi.org/10.19173/irrodl.v15i1.1651]
- K. R. Son and S. H. Kim, “A K-Nearest Neighbor Course Recommendation System Using Collaborative Filtering,” Journal of the Korean Association of Computer Education, Vol. 11, No. 3, pp. 281-288, 2007.
-
F. Zhang, N. J. Yuan, D. Lian, X. Xie, and W.-Y. Ma, “Collaborative Knowledge Base Embedding for Recommender Systems,” in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco: CA, pp. 353-362, 2016.
[https://doi.org/10.1145/2939672.2939673]
-
Q. Li and J. K. Kim, “A Deep Learning-Based Course Recommender System for Sustainable Development in Education,” Applied Sciences, Vol. 11, No. 19, 8993, 2021.
[https://doi.org/10.3390/app11198993]
-
J. E. Lee, “Post-Examination Analysis on the Student Dropout Prediction Index,” The Journal of Bigdata, Vol. 4, No. 2, pp. 175-183, 2019.
[https://doi.org/10.36498/kbigdt.2019.4.2.175]
-
J. H. Ahn and J. Y. Lee, “A Study on Learning Behavior Analysis and Service Direction of K-MOOC Learners,” Journal of the Korean Society for Information Management, Vol. 37, No. 3, pp. 221-252, 2020.
[https://doi.org/10.3743/kosim.2020.37.3.221]
저자소개
2003년:경기대학교 전자계산학과(이학석사)
2009년:경기대학교 전자계산학과(이학박사)
2018년~현 재: 경기대학교, 융합교양대학, 교양학부, 조교수
※관심분야:이러닝, BPM, 빅데이터, 데이터 마이닝, 머신러닝, 딥러닝 강화학습, IoT

