[ Article ]

Journal of Digital Contents Society - Vol. 26, No. 12, pp.3465-3475

ISSN: 1598-2009 (Print) 2287-738X (Online)

Print publication date 31 Dec 2025

Received 05 Nov 2025 Revised 28 Nov 2025 Accepted 01 Dec 2025

DOI: https://doi.org/10.9728/dcs.2025.26.12.3465

엔트리 비형식교육 참여자의 완주 결정요인 분석: 랜덤 포레스트와 설명 가능한 인공지능 SHAP 적용

박민서¹^{, *} ; 이진주²

1KAIST 과학영재교육연구원 학연전문연구원
2한양대학교 교원양성지원센터 교강사

Analysis of Determinants of Completion in Nonformal Education among Entry Platform Users: Application of Random Forest and Explainable Artificial Intelligence SHAP

Minseo Park¹^{, *} ; Jinju Lee²

1Researcher, Global Institute for Talented Education, KAIST, Daejeon 34051, Korea
2Lecturer, Center for Teacher’s Education, Hanyang University, Seoul 04763, Korea

Correspondence to: ^*Minseo Park E-mail: creflow@kaist.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

이 연구는 온라인 비형식교육 플랫폼 엔트리 참여자의 완주 결정요인 탐색을 위해 수행되었다. 이 연구에서는 참여자의 행동 데이터를 기반으로 12개의 예측변인을 생성하였고, 이를 랜덤 포레스트와 설명 가능한 인공지능 기법인 SHAP을 적용하여 완주 예측 모형의 성능과 투입된 변인의 상대적 중요도를 평가하였다. 그 결과, 모형은 높은 판별력과 안정적인 예측 정확도를 보였다. 한편, 발견 콘텐츠 수행 횟수, 블록 사용 횟수, 발견 콘텐츠 부분 수행 횟수가 전체 기여도의 약 76%를 차지하며 주요 결정요인으로 확인되었다. 발견 콘텐츠 학습 시작일, 로그인 기간, 프로젝트 조회 수, 발견 콘텐츠 외 학습 횟수, 로그인 횟수는 보조 결정요인, 역할 유형, 좋아요 수, 댓글 수, 게시글 수는 완주에 미치는 영향이 상대적으로 적은 부차적 결정요인으로 나타났다. 이는 행동 데이터가 온라인 비형식교육 완주를 설명할 뿐 아니라 참여 유지 전략 수립에 활용될 수 있음을 시사하는 것이었다.

Abstract

This study examined the determinants of course completion on Entry, a nonformal online education platform. Twelve predictive variables were derived from learner activity data and analyzed using a Random Forest model with SHAP interpretation to assess model performance and variable importance. The model demonstrated strong discriminative power and stable predictive accuracy. Counts of discovery-content engagement, block usage, and partial completions emerged as primary determinants, accounting for 76% of the total contribution. Secondary determinants included the first discovery-learning date, login span, project views, nondiscovery content learning count, and login frequency, whereas role type and the number of likes, comments, and posts had minor effects. These findings highlight the potential of learner behavior data for enhancing engagement in nonformal online education.

Keywords:

Entry, Nonformal Education, Determinants, Random Forest, SHAP

키워드:

엔트리, 비형식교육, 결정요인, 랜덤 포레스트

Ⅰ. 서 론

디지털 전환이 가속화되면서 단순히 디지털 기술을 사용하는 수준을 넘어 그 원리를 이해하고 주어진 문제를 해결할 수 있는 역량이 강조되고 있다[1]. 이러한 맥락에서 프로그래밍 교육(programming education)은 디지털 시대를 살아가기 위한 핵심 문해력을 함양할 수 있는 교육으로 주목받으며[2], 형식 교육(formal education)뿐 아니라 비형식교육(nonformal education)에서 다양한 형태로 확산되고 있다.

비형식교육은 학습자가 스스로 목표를 설정하고 학습 방법과 속도를 조절하는 자율적 학습 형태로 온라인과 오프라인 학습을 모두 포함하며, 학습자의 내적 동기와 흥미에 의해 주도되는 경향이 있다[3],[4]. 이러한 특성으로 인해 학습자의 흥미와 탐구를 기반으로 하는 프로그래밍 교육은 시간과 공간의 제약이 적은 온라인 비형식교육 환경에서 활발하게 이루어지고 있다[5],[6].

온라인 기반 프로그래밍 교육은 대부분 학습자가 플랫폼을 통해 자율적으로 프로젝트를 설계하고 실행하는 방식으로 이루어진다. 대표적으로 스크래치(scratch), 코드몽키(codemonkey), 엔트리(entry) 등이 있으며, 이들 플랫폼은 학습자의 수준과 속도에 맞춘 개별 학습을 지원한다. 이처럼 다양한 온라인 플랫폼의 확산은 프로그래밍 교육에 대한 접근성을 높이고 학습자 중심의 자율적 학습 문화를 형성하는 데 긍정적인 영향을 미치고 있다[7].

온라인 기반 비형식교육은 학습자의 자율성과 접근성을 높였다는 점에서 교육적 의의가 크지만, 동시에 높은 이탈률과 낮은 완주율이라는 구조적 한계를 지닌다. 선행 연구에 따르면 온라인 기반 학습의 평균 완주율은 10~15% 수준에 불과하며, 이는 학습자의 내적 동기 부족, 피드백의 제약, 사회적 상호작용의 부재 등에서 기인한다고 알려져 있다[8]. 프로그래밍 교육 역시 반복적 시도와 지속적 몰입이 요구되기 때문에 이러한 문제가 더욱 두드러지며, 학습자의 참여 빈도, 상호작용, 활동 지속성과 같은 행동적 특성이 학습의 연속성과 완주 여부에 밀접하게 관련되는 것으로 보고되고 있다[9],[10]. 따라서 온라인 비형식 프로그래밍 교육의 효과성을 높이기 위해서는 이러한 행동적 요인들이 완주에 어떤 영향을 미치는지를 정량적으로 규명하는 연구가 필요하다.

지금까지 프로그래밍 교육과 관련된 국내 선행연구는 주로 프로그래밍 교육을 통한 학습자의 문제해결력, 컴퓨팅 사고력, 창의성과 같은 인지적 성취 요인에 초점을 맞추어 왔다[11],[12]. 최근에는 학습분석학(learning analytics) 관점에서 학습자의 로그데이터(log data)를 활용하여 학습 참여도나 활동 패턴을 분석하려는 시도가 증가하고 있지만 [7],[13], 비형식교육 참여자의 행동 특성과 완주 여부와의 관계를 검증한 연구는 드물다.

이에 이 연구는 온라인 비형식 프로그래밍 교육에 참여하며 학습자가 생성한 데이터를 기반으로 완주 여부를 결정하는 요인을 규명하고자 한다. 구체적으로 2018년부터 초등학교 교과서에 포함되어 정규 교육과정에서도 활용되고 있는 엔트리에서 비형식교육의 일환으로 제공되는 발견하기(discovery) 참여자의 데이터를 활용하여 학습 횟수, 활동 기간, 상호작용 수준 등을 나타내는 변인을 구성하고, 랜덤 포레스트(random forest)와 설명 가능한 머신러닝(explainable ML: XML) 기법 중 하나인 SHAP(SHapley Additive exPlanations) 알고리즘을 적용하여 완주 여부를 결정하는 요인을 정량적으로 분석할 예정이다. 이를 통해 온라인 비형식 프로그래밍 교육의 완주를 예측하고 설명하는 주요 요인을 밝히며, 학습자의 참여 지속과 몰입을 지원할 수 있는 교육적 시사점을 제공하고자 한다.

Ⅱ. 이론적 배경

2-1 비형식교육과 학습 지속성

비형식교육은 제도적 교육과정 밖에서 학습자가 개인의 흥미와 필요를 바탕으로 수행하는 자율적 학습 형태로, 형식교육과 구별되는 학습 범주에 속한다[14]. 비형식교육은 학습자의 자발적 참여, 자기조절, 내적 동기를 기반으로 하며, 학습이 일상적 경험 속에서 비구조적으로 이루어진다는 특징을 가진다[4]. 디지털 기술의 확산은 이러한 비형식교육의 접근성을 높여, 온라인 환경에서 시간과 공간의 제약 없이 학습이 이루어질 수 있는 기반을 마련하였다. 그러나 온라인 기반의 비형식교육은 높은 자율성에도 불구하고 학습 지속성과 완주율 측면에서 구조적 한계를 보인다. 선행 연구에 따르면 온라인 학습의 평균 완주율은 10~15% 수준에 불과하며, 이는 학습자의 내적 동기 저하, 피드백 부재, 사회적 상호작용의 한계 등과 같은 요인에서 기인하는 것으로 보고되고 있다[8]. 즉, 비형식교육의 자율성은 학습 기회의 확장을 가능하게 하지만, 동시에 외적 동기나 피드백 체계의 부족으로 인해 학습이 중도에 중단될 가능성도 높인다는 것이다[15]. 특히 프로그래밍 교육의 경우 문제해결 과정에서의 반복적 시도와 몰입이 요구되기 때문에, 학습자의 참여 빈도나 활동 지속성, 상호작용 수준과 같은 행동적 특성이 완주 여부를 결정짓는 핵심 요인으로 작용할 수 있다[9],[10]. 따라서 비형식 코딩교육의 효과를 분석하기 위해서는 학습자의 주관적 인식보다는, 실제 학습 과정에서 발생한 행동 데이터를 중심으로 학습 지속성의 패턴을 파악하는 접근이 요구된다.

2-2 온라인 비형식교육 완주에 영향을 미치는 요인

온라인 비형식교육에서 학습 완주(completion)는 학습자가 자율적 환경 속에서 주어진 학습 과정을 끝까지 수행했는지를 의미하며, 학습의 지속성과 성과를 동시에 반영하는 주요한 지표라고 할 수 있다. 학습 완주는 학습자의 내적 동기, 사회적 상호작용, 학습 패턴 등 다양한 요인에 의해 영향을 받지만, 온라인 환경에서는 특히 행동적 참여 패턴이 완주를 결정짓는 요인으로 주목된다. 학습이 온라인을 통해 이루어지기 때문에 학습자가 학습 참여 과정에서 생성한 행동 데이터(behavioral data)가 학습 완주 과정을 직접적으로 반영하기 때문이다[16].

행동 데이터는 학습자가 학습 과정에서 수행한 학습, 탐구, 상호작용 등의 활동 기록과 결과물 전반을 의미하며, 학습자의 실제 참여 수준과 학습 과정의 질을 정량적으로 파악할 수 있는 근거를 제공한다[16]. 선행연구들은 이러한 행동 데이터를 활용하여 로그인 횟수, 학습 기간, 학습 횟수, 학습 간격, 학습 규칙성 등의 변인을 구성하고, 이를 바탕으로 학습 성과에 영향을 미치는 요인을 탐색해 왔다. 예를 들어, 로그인 빈도와 학습 기간은 학습자의 참여 지속성을 반영하며, 이러한 변인들이 높을수록 중도탈락률이 감소하는 것으로 보고되었다[17]. 학습 간격과 규칙성은 자기조절학습 특성을 나타내며, 규칙적인 학습 패턴을 보인 학습자가 불규칙적인 학습자보다 유의하게 나은 학습 성과를 보인 것으로 나타났다[18]. 또한 댓글, 피드백, 좋아요 수 등과 같은 사회적 상호작용 지표는 학습자 간 상호작용을 촉진하며, 이는 학습 지속성과 완주를 강화하는 요인으로 작용하는 것으로 확인되었다[19].

이러한 연구 결과는 온라인 학습 환경에서 학습자의 행동 데이터가 단순한 참여 기록을 넘어, 학습의 지속성과 완주를 설명하는 실질적 근거로 기능함을 보여준다. 이에 이 연구는 선행 연구의 시사점을 바탕으로, 온라인 비형식 코딩교육 플랫폼인 엔트리의 사용자 데이터를 활용하여 학습 횟수, 학습 기간, 상호작용 수준 등의 변인을 구성하고, 이들이 완주 여부에 미치는 영향을 규명하고자 한다.

2-3 엔트리(entry) 관련 선행연구

엔트리는 블록 코딩(block coding)을 기반으로 한 온라인 프로그래밍 학습 플랫폼으로, 학습자가 직접 프로젝트를 설계하고 실행할 수 있는 환경을 제공한다. 2013년부터 누구나 접근할 수 있는 온라인 기반 비형식교육을 제공해 온 엔트리는 2018년부터 초등학교 정보 교과서에 포함되어 정규 교육과정에서도 활용되고 있다[17]. 엔트리는 학습자가 프로젝트를 제작하고 공유하며 피드백을 주고받을 수 있는 개방형 학습 생태계를 구축하고 있다는 점에서, 학습자의 자율적 탐구와 상호작용을 촉진하는 플랫폼으로 평가된다.

엔트리 관련 선행 연구는 주로 교육적 활용을 중심으로 이루어져 왔다. 구체적으로 엔트리를 활용한 학습이 디지털 리터러시, 컴퓨팅 사고력, 문제해결력, 창의성 등 인지적 역량 함양에 효과가 있다는 연구와 엔트리를 활용한 교육 운영 사례 관련 연구가 다수 보고되는 가운데[20]-[22], 학습자 중심의 탐구 활동을 지원하는 교육 플랫폼으로서의 가능성에 대한 논의도 활발히 이루어지고 있다[23],[24].

선행연구가 엔트리의 교육적 활용 가능성을 실증적으로 확인했다는 점에서 의의가 있으나, 대부분 단기적 학습 성과나 인식 기반의 분석에 집중되어 있어 학습자의 실제 행동 데이터에 기반한 실증적 연구는 부족한 실정이다. 일부 연구에서는 엔트리에 축적된 데이터를 활용하여 학습자의 활동 패턴을 분석하고 교육적 시사점을 제시하기도 했으나[7],[13], 비형식교육 참여 패턴이나 학습 완주 결정요인을 정량적으로 규명한 연구는 거의 이루어지지 않았다.

엔트리가 학습자의 자율적 탐구와 개방적 상호작용을 기반으로 하는 플랫폼이라는 점을 고려할 때, 학습자의 행동 데이터를 활용하여 참여 지속성과 완주에 영향을 미치는 요인을 규명함으로써 온라인 비형식 프로그래밍 교육의 효과적 운영과 학습 지원 전략에 대한 시사점을 제공하려는 노력이 필요한 시점이다. 이 연구는 엔트리의 비형식교육 프로그램 참여자 데이터를 활용하여 학습 완주를 결정하는 요인을 정량적으로 확인함으로써, 디지털 전환 시대 온라인 기반 비형식교육의 설계와 운영을 위한 구체적 시사점을 제시하고자 한다.

Ⅲ. 연구방법

3-1 데이터셋 및 연구대상

이 연구는 온라인 비형식교육에 참여하며 학습자가 생성한 데이터를 활용하여 설명 가능한 머신러닝 기법으로 학습자의 완주를 예측하는 요인을 규명하는 데 목적이 있다. 이를 위해 네이버 커넥트재단이 제공하는 엔트리 플랫폼(https://playentry.org)에 기록된 학습자 데이터를 활용하였다.

네이버 커넥트재단은 연구 목적으로 학습자가 교육 참여 과정에서 생성한 데이터를 수집하고 정제하여, 일련의 신청 절차를 거쳐 연구자에게 제공한다. 해당 데이터는 학습자의 댓글(comments), 게시판(discusses), 좋아요(likes), 프로젝트별 블록 사용 기록(logprojectblocks), 발견 콘텐츠 학습 현황(discovery_progresses) 등 15개 컬렉션(collection)과 225개 필드(field)로 구성되어 있다. 각 컬렉션은 사용자 아이디(user_id)를 기준으로 서로 연계가 가능하다. 예를 들어, 사용자 아이디를 참조하는 댓글 컬렉션은 동일한 사용자 아이디를 참조하는 게시판 컬렉션과 결합하여 분석에 활용할 수 있다.

이 연구는 2023년 9월 1일부터 2024년 8월 31일까지 수집된 데이터에서 발견 콘텐츠 학습 참여 기록(discovery_progress)이 있는 42,658명의 데이터 중 사용자 역할(role)이 교사(teacher)인 경우를 제외한 26,656명의 데이터를 활용해 연구 변인을 생성하고 분석하였다. 이 연구에서 변인 생성을 위해 활용된 컬렉션 및 필드의 세부 내용은 다음 표 1에 제시하였다.

Table 1.

Data used for research variable generation

3-2 연구 변인

이 연구의 종속변인은 발견 콘텐츠 완주 여부(disFin)로, discovery_progress 컬렉션의 사용자별(users_id) 완주 기록(isComplete) 여부를 기준으로 1개 이상이면 1, 1개 미만이면 0으로 코딩하여 생성하였다.

예측변인은 선행연구를 참고하여 학습자의 플랫폼 내 활동 수준과 상호작용 특성을 반영하는 변인으로 구성하였다. 이는 학습자가 온라인교육에서 보이는 참여 빈도, 상호작용 행동, 콘텐츠 소비 및 생성 활동의 다양성 등이 학습 지속과 완주에 영향을 미친다는 기존 연구 결과를 근거로 한다.

각 변인은 discovery_progress, users, projects, comments, discusses, likes, logprojectblocks 컬렉션 내 여러 필드에서 제공하는 데이터에 기반하여 사용자 단위로 결합하고 생성하였다. 각 변인의 코드명과 생성 방법은 표 2에 제시하였다.

Table 2.

Types of research variables and generation method

이 연구에서 생성하고 완주 여부 예측에 활용된 변인을 구체적으로 살펴보면 다음과 같다. 먼저 역할(roleT)은 users 컬렉션의 role 필드를 기준으로 학습자 계정 생성 유형에 따라 구분하였다. 엔트리 플랫폼에는 teacher 유형을 제외하면 두 가지 계정 형태가 존재한다. 첫째, member는 개인이 자발적으로 플랫폼에 가입하여 생성한 일반 계정으로 주로 개인적 흥미나 자율적 탐색을 목적으로 활동한다. 둘째, student는 엔트리가 정규 교과에 포함된 학교 환경에서 교사가 학급 단위로 생성해 준 학생용 계정이다. 이 계정은 수업 내 프로젝트 활동이나 과제 수행에 활용됨과 동시에 학생이 자발적으로 발견 콘텐츠에 참여할 수도 있다. 즉 두 유형 모두 발견 콘텐츠에 자율적으로 참여할 수 있지만 학습 맥락에서는 차이가 존재한다고 볼 수 있다. 이와 같은 맥락 차이가 비형식 교육 완주 여부(disFin)에 영향을 미칠 가능성이 있기 때문에 이를 검증하기 위해 member를 0, student를 1로 더미 코딩하여 예측변인에 포함하였다.

다음으로 활동 기간(logSpan)은 users 컬렉션에서 lastLogin과 created 간의 시간적 차이를 초 단위로 계산한 후 일(day) 단위로 변환하여 생성하였다. 이 값이 클수록 플랫폼 내에서 장시간 활동한 학습자라는 것을 의미한다.

로그인 횟수(logC)는 각 학습자의 로그인 빈도를 의미하며, users 컬렉션에 users_id를 기준으로 제시된 loginCount 필드 값을 그대로 사용하였다. 이 변인의 값이 클수록 학습자가 엔트리에 더 많이 로그인했다는 것을 의미한다.

발견 콘텐츠 수행 횟수(disProC)는 학습자가 발견 콘텐츠를 수행한 총 빈도를 의미한다. discovery_progress 컬렉션 내 user_id가 등장한 빈도를 합산하여 산출하였으며, 이 값이 클수록 학습 수행의 질적 수준과 관계없이 발견 콘텐츠를 많이 수행했다는 것을 의미한다.

발견 콘텐츠 부분 수행 횟수(parComC)는 콘텐츠를 완주하지는 않았으나 일정 부분까지 수행한 빈도를 의미한다. discovery_progress 컬렉션에서 status가 complete이면서 isComplete가 null인 경우를 users_id별로 합산하였다. 이 값이 크다는 것은 학습자가 완주에는 이르지 못했지만, 발견 콘텐츠를 반복적으로 일정 수준까지 수행한 경험이 많음을 의미한다. 즉, 발견 콘텐츠 수행 횟수는 참여의 빈도적 측면에서 발견 콘텐츠 부분 수행 횟수는 발견 콘텐츠 참여 노력의 질적 측면에서 온라인 비형식교육의 완주를 예측하는 변인으로 설정하였다.

발견 콘텐츠 학습 시작일(sigFirL)은 학습자가 플랫폼에 가입한 이후 발견 콘텐츠 학습을 시작하기까지 걸린 기간을 의미한다. discovery_progress 컬렉션에서 users_id별 첫 번째 created 값을 추출한 뒤, users 컬렉션 내 created 필드 값과의 차이를 초 단위로 계산하여 일(day) 단위로 변환하였다. 이는 발견 콘텐츠 진입 시점을 확인할 수 있는 지표로 값이 작을수록 플랫폼 가입 직후 발견 콘텐츠 학습을 빠르게 시작했음을 의미한다.

발견 콘텐츠 카테고리 외 학습 횟수(projOthC)는 학습자가 발견 콘텐츠에서 기본적으로 제공하는 콘텐츠 외 학습을 수행한 빈도를 의미한다. 구체적으로 발견 콘텐츠는 게임, 지식 공유, 스토리텔링, 예술, 생활과 도구의 다섯 가지 정해진 카테고리 내에서 학습 콘텐츠를 제공하며, 학습자는 이러한 콘텐츠에 참여할 수도 있고 스스로 프로젝트를 생성하여 자유롭게 주제와 형식을 설정하고 학습을 수행할 수도 있다. 발견 콘텐츠 카테고리 외 학습 횟수는 이 중 후자와 같은 자발적 학습 활동의 빈도를 나타내는 변수로, projects 컬렉션의 categoryCode 필드에서 그 값이 etc이거나 결측(NaN)인 경우를 users_id별로 합산하여 산출하였다. 이 값이 클수록 엔트리에서 제공하는 콘텐츠 외에 스스로 프로젝트를 생성하여 수행한 빈도가 높다는 것을 의미한다.

블록 사용 횟수(bloLog)는 학습자가 프로그래밍 블록을 사용한 빈도를 의미한다. logprojectblocks 컬렉션에서 logprojectblocks_id를 users_id 기준으로 합산하였다. 이 값은 발견 콘텐츠 내 활동에 한정되지 않으며 학습자가 엔트리 전반에서 학습에 참여하는 과정에서 블록을 얼마나 빈번하게 활용했는지를 반영하는 지표이다.

프로젝트 조회 수(projVisC)는 학습자가 생성한 프로젝트가 다른 학습자에 의해 조회된 횟수로 project 컬렉션 내 visit 필드의 값을 users_id별로 합산하였다. 이는 학습자의 산출물이 플랫폼 내에서 얼마나 노출되었는지를 나타내는 지표이다.

좋아요 수(likeC)는 학습자가 받은 좋아요(like)의 수를 의미하며, likes 컬렉션에서 likes_id를 users_id 기준으로 합산하였다. 이 값이 클수록 좋아요를 한 학습자가 다른 학습자에게 좋아요를 많이 받은 것을 의미하며, 이는 긍정적 상호작용의 지표로 해석된다.

댓글 수(comC)는 학습자가 작성한 댓글의 수를 나타내며, comments 컬렉션에서 comments_id 수를 users_id 기준으로 합산하였다. 이는 학습자의 엔트리 플랫폼 내 상호작용 수준을 나타내는 지표로, 이 값이 클수록 학습자가 작성한 댓글의 수가 많다는 것을 의미한다.

마지막으로 게시글 횟수(disC)는 학습자가 생성한 게시글 수를 의미하며, 플랫폼 내에서 지식 공유나 의견 제시 등의 상호작용 적극성을 나타내는 지표이다. 이 변인은 discusses 컬렉션 내 discusses_id 수를 users_id 기준으로 합산하여 생성했다.

3-3 분석방법 및 절차

이 연구는 온라인 비형식교육 완주 결정요인을 도출하기 위해 랜덤 포레스트와 SHAP 기법을 적용하였다. 먼저 랜덤 포레스트는 여러 개의 의사결정나무(decision tree)를 만들어 그 결과를 종합해 예측하는 머신러닝 알고리즘 중 하나이다. 구체적으로 원자료에서 부트스트래핑(bootstrapping)된 여러 표본을 이용해 다수의 의사결정나무를 생성하고, 각 의사결정나무의 예측값을 평균하거나 가장 많이 나온 결과를 선택하여 최종 예측을 수행한다. 이 방식은 개별 의사결정나무의 불안정성을 줄여 과적합(overfitting)을 완화하고 변수 간의 복잡한 비선형 관계를 효과적으로 포착할 수 있다는 장점이 있다[25]. 이 연구에서는 전체 데이터의 70%를 훈련 데이터(training data)로 활용하여 예측모형을 구축하고, 나머지 30%를 검증 데이터(testing data)로 활용하여 구축된 모형의 성능을 평가하였다[26]. 이 과정에서 모형 구축을 위하여 나무의 수(ntree)를 500개, 마디 분할마다 무작위로 선정되는 최적 변수의 수(mtry)를 8개로 설정하였고, 예측모형의 성능을 평가하기 위해 오차 행렬(confusion matrix)을 기반으로 정확도(accuracy), 정밀도(precision), 민감도(sensitivity), 특이도(specificity), F1 값, AUC(area under curve) 지수를 확인하였다[27].

한편 랜덤 포레스트는 예측 성능이 높지만, 어떤 변인이 예측에 얼마나 영향을 주었는지 확인하기 어려운 블랙박스(black box) 형태의 알고리즘이다. 이에 이 연구는 엔트리 비형식교육 완주에 영향을 미치는 주요 예측변인을 규명하기 위해 설명 가능한 머신러닝 기법인 SHAP 알고리즘을 활용하여 분석을 시행하였다. 해당 알고리즘은 머신러닝 모형의 예측 결과를 각 변인가 기여한 정도로 분해하여 변수의 영향력을 정량적으로 표현하는 방법이다[28]. 구체적으로 모든 예측변인 조합을 고려해 계산된 SHAP 값(SHAP value)은 각 변인이 예측 결과에 미친 영향의 방향과 크기를 동시에 보여주며, 이 값의 절댓값 평균인 SHAP 중요도 지수(mean absolute SHAP value)를 통해 변인의 상대적 중요도(feature importance)를 평가할 수 있다[29]. 이 연구에서는 SHAP 중요도 도표(SHAP importance plot)를 활용하여 종속변인에 대한 각 예측변인의 평균적 영향력을 시각화하였고, 도표에서 막대가 길수록 완주 예측에 더 중요한 변수로 해석하였다. 또한 각 변인이 종속변인에 미치는 영향의 방향과 분포 양상을 확인하기 위해 SHAP 요약 도표(SHAP summary plot)를 살펴보았다[30],[28]. 이 도표는 예측변인의 중요도와 특성 효과(feature effects)를 결합해 시각화한 결과로, 각 변인이 종속변인 예측에 미치는 영향의 방향과 크기를 함께 보여준다. 도표의 x축은 SHAP 값(SHAP value), y축은 중요도 순으로 정렬된 예측변인을 나타내며[31], SHAP 값의 분포는 개별 관측치의 특성과 분산을 반영한다. 따라서 SHAP 값이 양의 영역에서 높게 분포할수록 해당 변인은 완주 가능성에 정적 영향, 음의 영역에서 높게 분포할수록 부적 영향을 미치는 것으로 해석하였다. 분석은 Jupyter Notebook 환경에서 Python 3.14 커널을 기반으로 수행하였으며, 데이터 처리 및 시각화를 위해 pandas, numpy, matplotlib, seaborn, scikit-learn, shap 등의 패키지를 활용하였다.

Ⅳ. 연구결과

4-1 모형 평가 결과

이 연구는 엔트리 비형식교육 학습자의 완주 결정요인을 탐색하기 위해 완주 여부(disFin)를 종속변인으로 설정하고, 학습자의 활동 수준, 접속 빈도, 상호작용 특성 등을 반영한 12개 예측변인을 투입하여 모형을 구축한 뒤 랜덤 포레스트 분석을 실시하였다. 모형 성능 평가에는 정확도(accuracy), 정밀도(precision), 민감도(sensitivity), 특이도(specificity), F1 점수(F1 score), AUC(area under curve) 지표를 활용하였고, 분석 결과는 표 3과 같다.

Table 3.

Evaluation results of the prediction model

먼저 엔트리 비형식교육 참여자의 완주 예측력을 의미하는 정확도는 .788로 나타났다. 이는 구축한 모형이 엔트리 비형식교육에 참여한 전체 학습자 중 약 78.8%의 완주 여부를 올바르게 분류하였고, 전반적으로 양호한 수준의 예측력을 보이고 있음을 의미한다. 정밀도는 완주자로 예측된 학습자 중 실제로 완주한 비율을 의미하는데, 이 연구에서는 .667로 나타났다. 이는 완주자로 분류된 학습자 중 약 66.7%가 실제 완주자였음을 의미하며, 일부 미완주자를 완주자로 잘못 분류하는 경향이 있음을 시사한다. 이러한 결과는 데이터의 구조적 특성에 기인한 것으로, 전체 학습자 중 미완주자의 비율이 현저히 높아 모형이 완주 집단을 상대적으로 과대 탐지(over-detection)한 결과로 해석된다. 한편, 실제 완주자를 올바르게 완주자로 예측한 비율인 민감도는 .765로, 미완주자를 정확히 미완주로 분류한 비율을 의미하는 특이도는 .780으로 나타났다. 이는 모형이 완주자와 미완주자 간의 분류 균형을 비교적 안정적으로 유지하고 있음을 의미한다. F1 점수는 정밀도와 민감도의 조화평균으로, 두 지표 간 균형 잡힌 분류 성능을 나타내는 지표이다. 이 연구에서 F1 점수는 .712로 나타나 예측의 정확성과 완주자 탐지력 간의 균형을 적절히 유지한 모형 성과로 해석된다. 마지막으로 AUC는 모형의 예측 확률을 기반으로 완주자와 미완주자를 얼마나 잘 구분하는지를 나타내는 지표로써 이 연구에서는 .869로 나타났으며, 이러한 수치는 모형이 두 집단을 높은 수준으로 구분할 수 있는 우수한 판별력(discriminative power)을 지녔음을 보여준다. 연구 결과를 종합해 보면, 이 연구의 예측모형은 엔트리 비형식교육 학습자의 완주 여부를 높은 수준에서 구분할 수 있음을 의미한다.

4-2 엔트리 비형식교육 참여자의 완주 결정요인 탐색

랜덤 포레스트 분석을 통해 예측모형의 성능을 확인한 후, 투입된 변인이 모형의 예측 형성에 어느 정도 기여했는지를 파악하여 주요 결정요인을 도출하기 위해 SHAP 분석을 실시하였다. 우선 각 변인의 SHAP 중요도 지수를 산출하여, 예측모형에서 각 변인이 예측값 산출 과정에 미친 평균적 영향의 크기를 확인하였다. 이후 전체 SHAP 중요도 지수의 합을 기준으로 각 변인의 비중을 백분율(%)로 환산하여 상대적 기여도(contribution rate) 를 산출하였다. 이를 통해 완주 여부를 예측하는 과정에서 어떤 변인이 상대적으로 더 중요한 역할을 했는지 정량적으로 파악하고자 하였다. 분석 결과는 표 4에 제시하였고, SHAP 중요도 도표는 그림 1과 같다.

Table 4.

SHAP value and contribution rate by variable

Fig. 1.

SHAP importance plot

엔트리 비형식교육 참여자의 완주 결정요인을 중요도 상위 변인을 중심으로 살펴보면 다음과 같다.

먼저 발견 콘텐츠 수행 횟수(disProC, SHAP = 0.138) 가 가장 높게 나타났으며, 블록 사용 횟수(bloLog, SHAP = 0.129) 와 발견 콘텐츠 부분 수행 횟수(parComC, SHAP = 0.063) 가 그 뒤를 이었다. 이들 세 요인은 전체 모형 예측 기여도의 약 76%를 차지하고 있어 엔트리 비형식교육 학습자의 완주를 결정짓는 주요 요인(primary determinants)으로 분류하였다.

다음으로 발견 콘텐츠 학습 시작일(sigFirL, SHAP = 0.036), 로그인 기간(logSpan, SHAP = 0.018), 프로젝트 조회 수(projVisC, SHAP = 0.018), 발견 콘텐츠 카테고리 외 학습 횟수(projOthC, SHAP = 0.015), 로그인 횟수(logC, SHAP = 0.013) 는 완주에 대한 상대적 기여도가 다소 낮지만, 일정 수준의 영향력을 보이는 보조 결정요인(secondary determinants)으로 분류하였다.

반면 역할 유형(roleT, SHAP = 0.002), 좋아요 수(likeC, SHAP = 0.002), 댓글 수(comC, SHAP = 0.001), 게시글 수(disC, SHAP = 0.000) 은 기여도가 1% 이하로 나타나, 완주 예측에 미치는 영향이 상대적으로 작은 부차적 결정요인(minor determinants)으로 분류되었다.

4-3 완주 결정요인별 영향 방향 및 강도

SHAP 중요도 지수와 기여도를 확인하여 예측변인별 상대적 중요도를 파악한 후, 각 변인이 완주 예측에 미친 구체적인 영향 양상을 살펴보기 위해 SHAP 요약 도표를 확인하였다. 이 도표는 개별 학습자의 각 변인에 대한 SHAP 값(SHAP value) 분포를 시각화한 것으로, 각 변인이 학습자별 완주 예측 결과에 어떤 방향과 강도로 영향을 미쳤는지를 보여준다.

도표의 x축은 SHAP 값을 의미하고, 각 변인의 예측 영향 방향에 대한 정보를 제공한다. 구체적으로 각 점은 개별 학습자의 특정 변인에 대한 SHAP 값을 의미하는데, 이 점이 오른쪽(양수)에 위치할수록 완주 확률을 높이는 방향으로, 왼쪽(음수)에 위치할수록 완주 확률을 낮추는 방향으로 작용했다고 해석할 수 있다.

각 점의 색상은 변수값(feature value)의 상대적 크기로, 빨간색(high)은 변수값이 높다는 것을 의미하고 파란색(low)은 변수값이 낮다는 것을 의미한다. 따라서 점의 위치와 색상을 함께 고려하면 빨간 점이 오른쪽에 분포할수록 해당 변인값이 클 때 완주 확률이 높고, 반대로 파란 점이 오른쪽에 분포할수록 해당 변인값이 작을 때 완주 확률이 높다고 해석할 수 있다.

도표의 y축은 투입된 변인을 의미한다. 각 변인의 SHAP 중요도 지수를 기준으로 그 값이 큰 순서대로 위쪽에 위치한다. 다시 말해, 상단에 위치한 변인일수록 완주 예측에 대한 기여도가 높다는 것을 의미하며, 해당 변인이 학습자의 완주 여부를 결정짓는 데 중요한 요인으로 작용했음을 나타낸다. 엔트리 비형식교육 참여자의 완주 결정요인에 대한 SHAP 요약 도표는 그림 2와 같다.

Fig. 2.

SHAP summary plot

SHAP 요약 도표를 통해 예측변인별 완주에 대한 구체적인 작용 방향을 살펴본 결과, 대부분의 변인이 변수값이 클수록 SHAP 값이 양수 방향에 분포하여 완주 확률을 높이는 정적 관계가 나타났다.

구체적으로, 엔트리 비형식교육 학습자의 완주를 결정하는 주요 결정요인으로 분류된 발견 콘텐츠 수행 횟수(disProC), 블록 사용 횟수(bloLog), 발견 콘텐츠 부분 수행 횟수(parComC)를 살펴보면, 발견 콘텐츠 수행 횟수와 블록 사용 횟수는 변수값이 높을수록 완주 확률을 높이는 방향으로 작용하는 것으로 나타났다. 이는 학습자가 발견 콘텐츠를 적극적으로 수행하고 프로그래밍 블록을 빈번히 활용할수록 완주 가능성이 증가했음을 보여준다. 반면, 발견 콘텐츠 부분 수행 횟수는 변수값이 높을수록 완주 확률을 낮추는 방향으로 작용하였다. 이는 예측모형에서 발견 콘텐츠를 부분적으로 완료했으나 최종 완주에 이르지 못한 학습자들의 완주 가능성이 낮게 평가되었음을 의미한다.

다음으로, 보조 결정요인으로 분류된 발견 콘텐츠 학습 시작일(sigFirL), 활동 기간(logSpan), 프로젝트 조회 수(projVisC), 발견 콘텐츠 카테고리 외 학습 횟수(projOthC), 로그인 횟수(logC)를 살펴보면, 활동 기간, 프로젝트 조회 수, 발견 콘텐츠 카테고리 외 학습 횟수, 로그인 횟수는 변수값이 높을수록 완주 확률을 높이는 방향으로 작용하였다. 반면, 발견 콘텐츠 학습 시작일은 변수값이 높을수록 완주 확률을 낮추는 부적 관계를 보여, 회원 가입 후 발견 콘텐츠에 진입한 시점이 짧을수록 완주 가능성을 높이는 것으로 나타났다.

마지막으로, 부차적 결정요인으로 분류된 역할 유형(roleT), 좋아요 수(likeC), 댓글 수(comC), 게시글 수(disC)는 대부분 SHAP 값이 0 부근에 집중되어 있어 완주 예측에 미치는 영향이 상대적으로 미미한 것으로 나타났다.

Ⅴ. 결 론

이 연구는 디지털 전환에 따라 학습자의 자율성과 접근성이 확대되고 있는 시기에 엔트리 비형식교육 학습자의 완주를 결정하는 요인을 탐색하기 위해 수행되었다. 이를 위해 학습자가 학습에 참여하며 생성한 데이터로부터 12개의 예측변인을 생성하고, 랜덤 포레스트와 SHAP 알고리즘을 활용해 모형의 성능을 평가하고 각 변인의 상대적 중요도를 확인하였다. 그 결과, 모형은 높은 판별력과 예측 정확도를 보였고, 투입된 12개 예측변인은 상대적 중요도에 따라 주요 결정요인, 보조 결정요인, 부차적 결정요인으로 분류되었다. 이는 학습자가 교육에 참여하며 생성한 데이터를 활용하여 온라인 비형식교육 완주를 설명할 수 있을 뿐 아니라, 참여 유지 전략 수립이 가능함을 시사하는 것이었다.

Ⅵ. 논 의

이 연구의 결과를 토대로 논의하면 다음과 같다. 첫째, 이 연구에서 구축한 엔트리 비형식교육 학습자의 완주 예측모형은 높은 판별력과 안정적인 예측 성능을 보였다. 엔트리 플랫폼에서 수집한 학습자의 실제 활동 데이터를 기반으로 12개의 예측변인을 구성하고 이를 랜덤 포레스트 모형에 투입한 결과, 완주자와 미완주자가 균형적으로 분류되었다. 이는 투입된 변인들이 완주 여부를 효과적으로 설명하고 있음을 보여준다. 이는 온라인 비형식교육에서 학습자의 행동 데이터를 활용하여 완주 가능성을 실증적으로 예측할 수 있음을 입증한 것으로, 완주를 주로 학습 동기나 흥미 등 심리적 요인 중심으로 해석해 온 선행연구와 차별성을 가진다[10].

둘째, 완주 예측에 투입된 12개 변인은 상대적 중요도에 따라 주요 결정요인, 보조 결정요인, 부차적 결정요인으로 분류되었다. 그 중에서 발견 콘텐츠 수행 횟수, 블록 사용 개수, 발견 콘텐츠 부분 수행 횟수는 전체 예측 기여도에 약 76%를 차지하며 학습자의 완주를 가장 직접적으로 설명하는 주요 결정요인으로 확인되었다. 특히 발견 콘텐츠 수행 횟수와 블록 사용 개수는 그 값이 클수록 완주 확률이 높은 것으로 나타났는데, 이는 학습자가 더 많은 발견 콘텐츠를 수행하며 다양한 블록을 활용해 문제해결을 시도할수록 완주 가능성이 높아진다는 것을 의미한다. 이러한 결과는 플랫폼에 얼마나 규칙적으로 로그인 했는지, 학습 콘텐츠를 얼마나 자주 확인했는지가 중도탈락과 학습 성과를 예측하는 주요 요인으로 작용한다는 선행연구의 결과와도 맥락을 같이 한다[18]. 따라서 학습자가 점진적으로 더 자주 발견 콘텐츠 수행을 시도하고 다양한 블록 활용 경험을 축적할 수 있도록 발견 콘텐츠 구조 설계 및 피드백 체계를 정교화할 필요가 있다. 반면, 발견 콘텐츠 부분 수행 요인은 그 값이 높을수록 완주 확률을 낮추는 방향으로 작용했다. 이는 학습자가 과제를 끝까지 완주하지 못하거나 중간에 중단하는 반복적 패턴이 완주 가능성을 저해한다는 의미로, 온라인 학습의 높은 이탈율이 부분 수행 행동과 밀접히 관련된다는 선행연구와도 맥락을 같이 한다[8]. 이러한 결과는 온라인 기반 비형식교육에서 학습자의 완주율을 높이기 위해서는 학습자가 다시 참여할 수 있는 재도전 구조나 자기 점검 기능을 강화할 필요가 있음을 시사한다.

셋째, 완주 예측에 대한 상대적 기여도는 낮지만, 일정한 영향을 보인 보조 결정요인은 발견 콘텐츠 학습 시작일, 로그인 기간, 프로젝트 조회 수, 발견 콘텐츠 외 학습 횟수, 로그인 횟수로 나타났다. 이들 요인은 학습자가 플랫폼에서 얼마나 빠르게 발견 콘텐츠 학습을 시작했는지, 얼마나 오랜 기간 활동을 유지했는지, 그리고 얼마나 폭넓게 학습 자원을 탐색했는지를 반영한다. 특히 아이디 생성 후 첫 발견 콘텐츠 학습까지 걸린 시간이 짧을수록 완주 확률이 높아지는 경향이 있었는데, 이는 학습 진입이 빠를수록 동기가 유지되고 학습 참여로의 전환이 원활하게 이루어진다는 점을 시사한다. 또한 로그인 기간이 길수록, 그리고 프로젝트 조회 수나 발견 콘텐츠 외 학습 횟수가 많을수록 다양한 학습 경험이 누적되어 완주 가능성을 높이는 것으로 사료된다. 이러한 결과는 온라인 학습 초기 진입, 참여 지속성, 경험의 다양성이 학습 성과에 주요한 영향을 미치는 요인으로 작용한다는 선행연구의 결과와 맥락을 함께 하는 것이다[16]. 따라서 온라인 비형식 코딩교육의 완주율을 높이기 위해서는 학습자가 가입 직후 학습에 신속히 참여할 수 있도록 진입 장벽을 최소화하는 설계와 함께 개인화된 추천 및 탐색 구조가 병행될 필요가 있다.

넷째, 완주 예측에 매우 제한적인 기여도를 보인 부차적 결정요인은 역할 유형, 좋아요 수, 댓글 수, 게시글 수로 나타났다. 이 요인들은 플랫폼 내 학습자의 사회적 상호작용이나 관계적 행동을 반영하지만, 이 연구에서는 완주 여부에 유의미한 영향을 미치지 않는 것으로 나타났다. 이러한 결과는 엔트리 교육 환경이 주로 개별 탐구 중심의 자기주도적 학습 구조로 운영되고 있어, 학습자의 사회적 활동이 완주를 직접적으로 강화하는 요인으로 작용하지 않았기 때문으로 해석된다. 그러나 선행연구에서는 온라인 학습 맥락에서 사회적 상호작용과 피드백 경험이 학습의 지속성과 성취를 높이는 요인으로 보고된 바 있다[11],[19]. 이는 사회적 요인이 단기적 완주보다는 장기적 몰입, 실재감, 재참여 의도 등과 더 밀접하게 관련될 가능성을 시사한다. 따라서 향후 연구에서는 학습자의 사회적 참여의 피드백 내용, 상호 지원의 빈도, 협력적 문제해결 과정 등의 질적 특성을 고려하여 사회적 상호작용이 완주 및 학습 지속성에 미치는 영향을 장기적 관점에서 검토할 필요가 있다. 또한 플랫폼 차원에서도 학습자 간 상호작용을 촉진할 수 있는 커뮤니티 기반 참여 구조나 동료 피드백 메커니즘을 강화하는 설계가 요구되며, 이러한 사회적 설계 요인이 학습자의 참여 지속과 완주로 어떻게 연결되는지를 실증적으로 규명하는 후속 연구가 필요하다.

이상의 논의를 토대로 엔트리 비형식교육 완주율 제고를 위한 실천적 제언을 하면 다음과 같다. 첫째, 학습자의 직접적 수행 행동을 강화할 수 있는 학습 구조 설계가 필요하다. 이 연구에서 발견 콘텐츠 수행 횟수와 블록 사용 개수가 완주를 가장 강하게 예측한 것은 학습자가 반복적 시도와 문제해결 경험을 충분히 누적할 때 완주 가능성이 높아진다는 점을 의미한다. 따라서 발견 콘텐츠의 난이도와 단계 구성을 세분화하고, 블록 활용 과정에서 피드백을 제공하는 등 학습자의 과제 수행 경험을 심화시킬 수 있는 설계가 요구된다. 둘째, 학습자의 활동 지속성과 탐색 범위를 확장할 수 있는 참여 환경 조성이 필요하다. 로그인 기간, 프로젝트 조회 수, 발견 콘텐츠 외 학습 횟수 등의 보조 결정요인이 완주와 관련된 것은 학습자의 꾸준한 참여와 다양한 탐색 경험이 학습 유지에 기여함을 시사한다. 따라서 학습자가 가입 직후 신속히 학습에 진입할 수 있도록 진입 장벽을 최소화하고, 개인별 학습 이력에 따라 추천 콘텐츠와 탐색 경로를 맞춤형으로 제공하는 시스템이 필요하다. 셋째, 학습자의 사회적 상호작용을 촉진하는 커뮤니티 기반 학습 환경을 강화할 필요가 있다. 이 연구에서 좋아요 수, 댓글 수, 게시글 수와 같은 부차적 요인들이 완주에 미치는 영향은 미미했지만, 이는 사회적 요인이 불필요하다는 의미가 아니라 현재의 플랫폼 구조가 이를 완주와 직접적으로 연결하지 못하고 있음을 시사하는 것이기도 하다. 선행연구가 제시하듯, 사회적 피드백과 상호 지원은 장기적 몰입과 재참여 의도를 높이는 요인으로 작용할 수 있다. 따라서 향후에는 플랫폼 내 사회적 참여가 학습 지속성과 완주로 이어지는 학습 생태계를 구축할 필요가 있다.

Acknowledgments

이 연구는 2025년도 네이버 커넥트재단의 지원에 의하여 이루어진 연구로서, 관계부처에 감사드립니다.

References

OECD, OECD Skills Outlook 2019: Thriving in a Digital World, OECD Publishing, Paris, Technical Report No. C8896FE0, 2019.
Ministry of Education, 2022 Revised National Curriculum: General Guidelines, Ministry of Education, Sejong, Korea, Ministry of Education Notification No. 2022-33, 2022.
H. Colley, P. Hodkinson, and J. Malcolm, Non-Formal Learning: Mapping the Conceptual Terrain, University of Leeds Lifelong Learning Institute, Leeds, A Consultation Report, 2002.
J. Malcolm, P, Hodkinson, and H. Colley, “The Interrelationships between Informal and Formal Learning,” Journal of Workplace Learning, Vol. 15, No. 7-8, pp. 313-318, 2003. [https://doi.org/10.1108/13665620310504783]
S. Saeed Alghamdi, C. Bull, and A. Kharrufa, “Designing for Self-Regulation in Informal Programming Learning: Insights from a Storytelling-Centric Approach,” arXiv:2507.22671, , 2025. [https://doi.org/10.48550/arXiv.2507.22671]
M. Resnick, Lifelong Kindergarten: Cultivating Creativity Through Projects, Passion, Peers, and Play, Cambridge, MA: The MIT Press, 2017. [https://doi.org/10.7551/mitpress/11017.001.0001]
J. Lee, Y. Son, M. Lee, and J. Lee, “Analysis of Learning Data by Problem Type in Educational Programming Language (EPL) Based Learning: Focusing on Entry Which Was Developed by Naver,” The Journal of Korean Association of Computer Education, Vol. 28, No. 3, pp. 11-25, 2025. [https://doi.org/10.32431/kace.2025.28.3.002]
A. Dirzyte, A. Perminas, L. Kaminskis, G. Žebrauskas, Z. Sederevičiūtė-Pačiauskienė, J. Šliogerienė, ... and I. Gajdosikiene, “Factors Contributing to Dropping Out of Adults’ Programming e-Learning,” Heliyon, Vol. 9, No. 12, e22113, December 2023. [https://doi.org/10.1016/j.heliyon.2023.e22113]
M. Alghamdi, “Dealing with Coding Challenges Through Digital Platforms: Assessing Their Effectiveness in Skill Development,” CLEI Electronic Journal, Vol. 28, No. 1, 9, 2025. [https://doi.org/10.19153/cleiej.28.1.9]
S. Omar, N. H. Hussein, N. H. Hanapi, Y. S. Abdullah, A. L. Mohd Noor, and S. B. Saidi, “Self-Efficacy and Self-Regulated Learning among Undergraduate in Learning Arabic as a Foreign Language via Online,” Issues in Language Studies, Vol. 12, No. 2, pp. 227-245, 2023. [https://doi.org/10.33736/ils.5566.2023]
K. Ahn, W.-S. Sohn, and Y.-C. Choy, “The Effect of Scratch Programming Education on Learning-Flow and Programming Ability for Elementary Students,” Journal of the Korean Association of Information Education, Vol. 15 No. 1, pp. 1-10, 2011.
H. Choi, “Domestic Literature Review on Computational Thinking Development through Software Programming Education,” Journal of Educational Technology, Vo. 34, No. 3, pp. 743-774, 2018. [https://doi.org/10.17232/KSET.34.3.743]
W. Lee, J. Yoo, and J. Shim, “Mapping User Behaviors: A Machine Learning Perspective on the NAVER Entry Programming Activity Community,” The Journal of Contents Computing, Vol. 5, No. 1, pp. 547-560, August 2023. [https://doi.org/10.9728/jcc.2023.06.5.1.547]
I. D. Hodkinson, N. R. Webb, and S. J. Coulson,, “Primary Community Assembly on Land - The Missing Stages: Why Are the Heterotrophic Organisms Always There First?,” Journal of Ecology, Vol. 90, No. 3, pp. 569-577, June 2022. https://www.jstor.org/stable/3072240 [https://doi.org/10.1046/j.1365-2745.2002.00696.x]
J. Cilliers, K. Hadler, and J. Rasera, “Toward the Utilisation of Resources in Space: Knowledge Gaps, Open Questions, and Priorities,” npj Microgravity, Vol. 9, No. 1, 22, 2023. [https://doi.org/10.1038/s41526-023-00274-3]
F. Qiu, G, Zhang, X. Sheng, L. Jiang, L. Zhu, Q. Xiang, ... and P.-K. Chen, “Predicting Students’ Performance in e-Learning Using Learning Process and Behaviour Data,” Scientific Reports, Vol. 12, No. 1, 453, 2022. [https://doi.org/10.1038/s41598-021-03867-8]
H. Park, S. Kim, and S. Lee, “Exploring Factors Predicting Student Dropout in Online Learning: Using Random Forest Model,” Journal of Educational Technology, Vol. 38, No. 1, pp. 297-332, 2022. [https://doi.org/10.17232/KSET.38.1.297]
M. Park, A Latent Profile Analysis of Online Gifted Education Learners’ Time Management Strategies and Examination of Differences in Flow, Creative Problem Solving, Learning Achievement: From a Learning Analytics Perspective, Ph.D. Dissertation, Sung Kyun Kwan University, Seoul, August 2024.
L. Shi, A. I. Cristea, A. M. Toda, and W. Oliveira, “Social Interactions Clustering MOOC Students: An Exploratory Study,” arXiv:2008.03982, , August 2020. [https://doi.org/10.48550/arXiv.2008.03982]
J. Sung, Problem-Based Learning Utilizing Artificial Intelligence and Improvement in AI Literacy;Based on the Coding Proficiency Differences among Middle School Students, Master’s Thesis, Seoul National University, Seoul, August 2023.
J.-H. Park and J. B. Song, “Case of Operating a Curriculum-Linked Artificial Intelligence Education Camp Program,” Journal of Digital Contents Society, Vol. 23, No. 1, pp. 49-56, January 2022. [https://doi.org/10.9728/dcs.2022.23.1.49]
S.-Y. Mun and H. Lee, “The Evaluation of Class Design for the Computing Thinking Using Entry and Sensor Board,” Journal of the Korea Contents Association, Vol. 17, No. 3, pp. 571-577, 2017.
E. Lee and T. Lee, “Instruction Model for Elementary School on Programming Induction Education Using ENTRY,” in Proceedings of the Korean Society for Computer Education Conference, Seoul, Korea, February 2020.
M.-S. Lim, “Exploring Future Directions for Software Education in the Digital Transformation Era,” Journal of Digital Contents Society, Vol. 25, No. 7, pp. 1955-1962, July 2024. [https://doi.org/10.9728/dcs.2024.25.7.1955]
L. Breiman, “Random Forests,” Machine Learning, Vol. 45, No. 1, pp. 5-32, October 2001. [https://doi.org/10.1023/A:1010933404324]
G. Shmueli, “To Explain or to Predict?,” Statistical Science, Vol. 25, No. 3, pp. 289-310, August 2010. [https://doi.org/10.1214/10-STS330]
K. Shah, H. Patel, D. Sanghvi, and M. Shah, “A Comparative Analysis of Logistic Regression, Random Forest and KNN Models for the Text Classification,” Augmented Human Research, Vol. 5, 12, 2020. [https://doi.org/10.1007/s41133-020-00032-0]
S. M. Lundberg and S.-I. Lee, “Consistent Feature Attribution for Tree Ensembles,” arXiv:1706.06060, , 2017. [https://doi.org/10.48550/arXiv.1706.06060]
S. M. Lundberg, G. G. Erion, and S.-I. Lee, “Consistent Individualized Feature Attribution for Tree Ensembles,” arXiv:1802.03888, , 2018. [https://doi.org/10.48550/arXiv.1802.03888]
J. Kim and J. Y. Kim, “Exploring the Influential Factors of Teacher-Student Relationship Based on Random Forest Regression and Interpretation Using SHAP,” Research of Educational Evaluation, Vol. 35, No. 3, pp. 409-437, 2022. [https://doi.org/10.31158/JEEV.2022.35.3.409]
J. Han, “Exploring Predictors Affecting Creative Thinking in High School Students Using Random Forest and SHAP,” Korean Journal of Educational Research, Vol. 61, No. 4, pp. 101-131, 2023. [https://doi.org/10.30916/KERA.61.4.101]

박민서(Minseo Park)

2015년：성균관대학교 대학원 (문학석사)

2024년：성균관대학교 대학원 (철학박사)

2015년～현 재: KAIST 과학영재교육연구원 학연전문연구원

※관심분야：영재교육, 온라인 영재교육, 창의성, 창의적 문제해결, 학습분석

이진주(Jinju Lee)

2018년：한양대학교 대학원 (교육학석사)

2021년：한양대학교 대학원 (교육학박사)

2021년～2023년: 한양대학교 교육공학과 BK교육팀

2023년～2025년: KAIST 과학영재교육연구원

2025년～현 재: 한양대학교 교원양성지원센터 교강사

※관심분야：Instructional science, Problem-solving

Collection	Field	Data Type	Description
Discovery_ progress	users_id	UserID	User’s ID
	isComplete	Boolean	Completion of learning
	status	Array	Learning status
Users	users_id	UserID	User’s ID
	role	String	User’s role (ex: admin, teacher, member, student)
	created	Date	Date of subscription
	loginCount	Number	Login count
	lastLogin	Date	Date of last login
Projects	users_id	UserID	User’s ID
	visit	Number	Visit count
	CategoryCode	String	Category of projects (ex: arts, game, knowledge, living, storytelling, etc)
Comments	users_id	UserID	User’s ID
Comments	comments_id	CommentsID	ID of a user who left comment
Discusses	users_id	UserID	User’s ID
Discusses	discusses_id	DiscussesID	ID of a user who created discussion thread
Likes	users_id	UserID	User’s ID
Likes	likes_id	LikesID	ID of a user who sent ‘like’
Logproject blocks	users_id	UserID	User’s ID
Logproject blocks	logprojectblocks_id	Logproject blocksID	ID of a block used

Type	Code	Description	Generation
Dependent variable	disFin	Discovery content completion	‘isComplete’ count by ‘users-id’ in ‘discovery_progress’ (0=less than 1, 1=more than 1)
Predictor variables	roleT	User’s role	value of user’s role (0=member, 1=student)
	logSpan	Duration for the Entry activity	value of ‘lastLogin–created’ (calculate in seconds, then convert in days)
	logC	Login count	value of ‘loginCount’ by user
	disProC	Count for conducting discovery content	‘users_id’ count in ‘discovery_progress’
	parComC	Count for conducting part of discovery content	count for ‘Complete’ in ‘status’ while ‘isComplete’ is null by ‘users_id’ in ‘discovery_progress’
	sigFirL	Starting date of discovery content	value of the first ‘created’ in ‘created-users’, by ‘users_id’ in ‘discovery_progress’
	projOthC	Count for content participation outside of discovery content	sum of count of ‘etc’ and ‘NaN’ in ‘categoryCode’, by ‘users_id’ in ‘projects’
	bloLog	Count for using blocks	‘logprojectblocks_id’ count by ‘suers_id’ in ‘logprojectblocks’
	projVisC	Number of hits on a project	‘visit’ count by ‘users_id’ in ‘projects’
	likeC	Number of likes	count for ‘likes_id’ by ‘users_id’ in ‘likes’
	comC	number of comment	‘comments_id’ count by ‘users_id’ in comments’
	disC	number of discussion thread	‘discusses_id’ count by ‘users_id’ in ‘discusses’

No	Code	SHAP	Rate
1	disProC	0.138	31.6
2	bloLog	0.129	29.7
3	parComC	0.063	14.5
4	sigFirL	0.036	8.3
5	logSpan	0.018	4.1
6	projVisC	0.018	4.1
7	projOthC	0.015	3.4
8	logC	0.013	3.0
9	roleT	0.002	0.5
10	likeC	0.002	0.5
11	comC	0.001	0.2
12	disC	0.000	0.1