Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 26, No. 5, pp.1349-1362
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 May 2025
Received 01 Apr 2025 Revised 21 Apr 2025 Accepted 09 May 2025
DOI: https://doi.org/10.9728/dcs.2025.26.5.1349

머신러닝 기반 시선 추적 분석을 통한 문해력 예측 및 향상 연구

배용규1 ; 김상규2 ; 문호상3 ; 심미선3 ; 정성택4, *
1한국공학대학교 컴퓨터공학과 박사과정
2한국공학대학교 바이오헬스융합공학과 석사과정
3한국공학대학교 인공지능학과 교수
4한국공학대학교 컴퓨터공학과 교수
Literacy Prediction and Enhancement Using ML-Based Eye Tracking Analysis
Yong-Kyu Bae1 ; Sang-Gyu Kim2 ; Ho-Sang Moon3 ; Miseon Shim3 ; Sungtaek Chung4, *
1Ph.D. student, Department of Computer Engineering, Tech University of Korea, Siheung 15073, Korea
2Master’s Course, Department of Bio Health Convergence Engineering, Tech University of Korea, Siheung 15073, Korea
3Professor, Department of Artificial Intelligence, Tech University of Korea, Siheung 15073, Korea
4Professor, Department of Computer Engineering, Tech University of Korea, Siheung 15073, Korea

Correspondence to: *Sungtaek Chung Tel: +82-32-8041-0527 E-mail: unitaek@tukorea.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 머신러닝 기반 시선 추적 분석을 활용하여 학습자의 문해력을 정량적으로 예측하고 향상할 수 있는 시스템을 제안하였다. 시선 추적기를 통해 학습자의 시선 데이터를 수집하고, I-DT 알고리즘을 활용하여 고정, 도약, 회귀 등 주요 시선 패턴의 특징을 추출하였다. 이러한 특징을 머신러닝 및 딥러닝 모델의 입력 변수로 활용하여 문해력 예측을 수행하였으며, 그 결과 Random Forest 모델이 평균 RMSE 3.747, 검증 RMSE 1.400으로 가장 우수한 성능을 나타내었다. 또한, 안구 운동과 인지기능 강화를 위한 훈련 콘텐츠와 실시간 피드백이 가능한 사용자 맞춤형 학습 환경 플랫폼을 구현하였다. 제안된 플랫폼은 비대면 상황에서도 문해력 평가와 향상을 효과적으로 지원할 수 있으며, 게임화된 상호작용을 통해 학습자의 자발적 참여를 유도한다. 본 연구는 시선 데이터를 기반으로 한 AI 기술이 개인화된 문해력 교육 및 정량적 평가에 활용될 수 있는 가능성을 제시한다.

Abstract

This paper proposes a system that utilizes ML-based eye-tracking analysis to quantitatively predict and enhance the literacy skills of learners. For this, eye-tracking data from learners were collected, and key eye movement features, such as fixation, saccades, and regressions, were extracted using Dispersion-Threshold Identification (I-DT) algorithm. These features were then used as input variables in machine learning and deep learning models to predict literacy levels. The Random Forest model achieved the best performance, with an average RMSE of 3.747 and a validation RMSE of 1.400. A personalized learning platform with real-time feedback capabilities was implemented, incorporating training contents to enhance eye movement and cognitive functions. This platform effectively supports literacy assessment and improvement, even in remote-learning environments, and encourages the voluntary participation of learners through gamified interactions. This study demonstrates the potential of AI-driven eye-tracking technology in personalized literacy education and quantitative assessment.

Keywords:

ML-Based, Eye-Tracking, Literacy, Oculomotor, Eye Movement Features

키워드:

문해력, 시선 추적, 머신러닝 기반, 안구 운동, 인지기능

Ⅰ. 서 론

문해력은 글에서 제공하는 정보를 획득하고 이를 통합하여 이해 및 해석한 후, 비판적으로 판단하고 평가하는 일련의 과정을 의미하며, 읽기, 쓰기, 듣기, 말하기, 계산하기, 문제 해결력 등 다양한 기술이 포함된다[1]. 최근 디지털 미디어 중심의 정보 습득 방식이 확산되면서 독서와 논리적 사고를 요구하는 학습 환경이 부족해지고 있으며, 메신저와 같은 비대면 의사소통의 보편화로 인해 짧고 단순한 문장의 사용이 증가하고 있다. 이러한 변화는 언어 표현 능력 저하로 이어지며, 결과적으로 문해력 감소의 주요 원인이 되고 있다.

특히, 코로나19 팬데믹(COVID-19; Coronavirus Disease 2019)으로 인해 장기간 원격수업이 지속되면서 교사와 학생 간의 직접적인 상호작용이 감소하였고, 이로 인해 학습 환경이 단절되면서 학습 효과 저하가 더욱 두드러지게 나타났다. 이러한 교육 환경의 변화는 단순한 독해력 저하를 넘어 비판적 사고력과 창의적 사고력의 발달에도 부정적인 영향을 미치는 것으로 보고되고 있다. 이러한 문제를 해결하기 위해서는 기존 교육 방식의 개선이 필요하며, 독서 및 토론 중심의 교육을 강화하고 학생들의 학습 동기를 높일 수 있는 다각적인 정책적 지원이 요구된다.

실제로 2022년 한국교육과정평가원의 국가수준 학업성취도 평가 결과에 따르면 국어 과목에서 기초학력 미달 학생 비율이 증가한 것으로 나타났다. 또한, 국제학업성취도평가(PISA; Programme for International Student Assessment)에서도 한국 학생들의 문해력이 지속적으로 하락하는 경향이 보고되고 있으며, 이에 따라 문해력 향상을 위한 체계적인 교육 개혁이 필요한 상황이다[2]-[5].

국내에서 문해력을 평가하는 주요 방법으로는 초·중·고등학생을 대상으로 실시하는 국가수준 학업성취도 평가(NAEA; National Assessment of Educational Achievement)와 기초학력진단평가(BAAA; Basic Academic Achievement Assessment) 등이 있으며, 이를 통해 읽기, 수리, 과학적 소양 등의 능력을 측정하고 있다[6],[7]. 또한, 특정 연령대의 언어 및 문해력 평가를 위한 임상적 진단 도구로 한국어 수용표현 언어척도(K-CELF-5; Korea Clinical Evaluation of Language Fundamentals-5), 한국어 읽기 검사(KoLRA; Korean Literacy-Related Assessmenet) 등이 활용되고 있다[8],[9].

학생들의 문해력 저하 정도를 정확히 평가하고 맞춤형 교육 서비스를 제공하기 위해 다양한 연구 방법이 제안되고 있으며, 기존의 서면평가(PBT; Paper-based Test) 방식에서 컴퓨터 기반 평가(CBT; Computer-based Test)로 전환하는 시도가 이루어지고 있다[10]-[13]. CBT방식은 정량적이고 객관적인 평가와 평가의 정확성을 높이는 데 기여하고 있다. 특히, 사용자의 눈동자 움직임을 추적하여 주의 집중 영역과 인지 과정을 분석하는 시선 추적(Eye-tracking) 기술이 문해력 평가에 활용되고 있다. 이 기술은 읽기 전략, 주의 집중, 이해도 등을 파악하는 데 유용할 뿐만 아니라 정량적이고 객관적인 평가도구로서의 가능성을 보여주고 있다[14]-[16]. 독자의 안구 운동에 대한 시선 추적을 통해 관찰할 수 있는 주요 패턴들은 고정(fixation), 도약(saccade), 회귀(regression) 등이 있다.

고정은 특정 지점에서 시선이 머무르는 현상으로, 일반적으로 단어나 문장을 인식하고 처리하는 과정에서 발생한다. 고정의 지속 시간은 독자의 이해 수준, 단어의 난이도, 문맥 등에 따라 달라진다.

도약은 한 고정 지점에서 다음 고정 지점으로 시선이 빠르게 이동하는 과정 동안의 시간과 거리를 의미한다. 도약 중에는 시각적 정보가 효과적으로 처리되지 않으며, 이동 거리와 속도는 개별 독자의 읽기 습관이나 문장의 구조에 따라 달라질 수 있다,

회귀는 이전에 지나간 고정 지점으로 시선이 다시 이동하는 현상으로, 주로 문장 이해가 어려울 때 발생하며, 문맥이나 의미를 재확인하거나 오독을 수정하는 역할을 한다. 회귀 빈도는 독자의 읽기 능력과 문장의 난이도에 영향을 받는다[17].

Rayner et al.의 연구에서는 읽기 과정에서 고정 시간이 길고 회귀 빈도가 높을수록 글의 이해도가 낮아지는 경향이 있음을 실험적으로 확인하였다. 이는 독자가 문장을 원활하게 처리하지 못할 경우, 개별 단어에 더 많은 시간을 할애하며 문장을 반복적으로 되돌아보는 경향이 증가하기 때문인 것으로 해석되었다[18]. 또한, Hindmarsh et al.의 연구에서는 읽기 장애 아동과 일반 아동의 시선 운동 패턴을 비교한 결과, 읽기 장애 아동이 일반 아동에 비해 시선 고정 시간이 길고 도약 횟수가 많으며 회귀 현상이 반복적으로 나타나는 경향을 보였다. 이는 읽기 장애 아동이 문장을 효율적으로 처리하지 못하여 단어를 재확인하거나 읽기 흐름이 단절되는 빈도가 높다는 것을 시사하며, 안구 운동 패턴이 아동의 문해력 수준 및 읽기 처리 효율성과 밀접한 관련이 있음을 보여주었다[19].

이와 같은 연구 결과들을 바탕으로 시선 추적 데이터와 인공지능(AI) 기술을 결합한 새로운 문해력 평가 방법이 연구되고 있다. 기존의 시선 추적 데이터 분석만으로는 문해력 평가에 한계가 있으며, 학습자의 개별적 특성을 반영한 맞춤형 평가가 어렵다는 문제가 제기되고 있기 때문이다. 이에 대해 Mézière et al.의 연구에서는 다양한 시선 패턴 변수와 문해력 점수 간의 통계적 상관관계를 분석한 결과, 시선 패턴만으로도 읽기 이해력을 유의미하게 예측할 수 있음을 확인하였다. 이는 시선 추적 데이터가 학습자의 읽기 전략 및 이해 과정을 반영하는 중요한 지표가 될 수 있음을 의미하는 것이다[20]. 또한, Shalileh, Soroosh, et al의 연구에서는 머신러닝 알고리즘을 활용하여 학생들의 시선 패턴과 인구통계학적 데이터를 분석함으로써 난독증 여부를 높은 정확도로 식별할 수 있음을 보였다[21]. 그러나 기존 연구들은 주로 난독증의 유무를 평가하는 단순한 이진 분류(binary classification)로서 학습자의 문해력 수준을 세부적으로 평가하는 데는 한계가 있었다.

이러한 한계는 시선 패턴을 보다 정교하게 분석하고 머신러닝 기술을 접목하여 문해력의 세부 수준을 정량적으로 평가하는 것으로 해결할 수 있을 것이다. 특히, 머신러닝 기반의 분석 기법을 적용하면 읽기 패턴을 통해 문해력의 다양한 수준을 보다 정확하게 측정할 수 있을 것이다. 본 연구에서는 시선 데이터에서 고정(fixation), 도약(saccade), 회귀(regression) 등의 안구 운동 패턴을 추출할 수 있는 알고리즘을 활용하여 주요 특징을 추출하고, 추출된 시선 패턴과 지문의 난이도 및 문해력 점수 간의 상관관계를 분석하여 예측에 유의미한 특징을 선별하고 정량화한다.

이를 통해 최적의 입력 파라미터를 도출한 후, 머신러닝 및 딥러닝 모델을 활용하여 문해력 정도를 정량적으로 예측하고자 한다. 이 연구 결과를 바탕으로 안구 운동 훈련 및 인지기능 향상 콘텐츠를 적용하여 문해력 개선을 도모하고 효과성을 평가하고자 한다. 안구 운동과 인지기능 훈련을 통한 문해력 개선의 가능성은 여러 선행 연구들에 의해 연구되었다. Nazir et al.의 연구에서는 눈 고정 기술 훈련이 안구 운동 기능장애를 가진 아이들의 읽기 능력 향상에 긍정적인 영향을 미쳤음을 보여주었다[22].

또한 Susana et al.의 연구에서는 인지기능 훈련을 통해 주변 시력에서의 문자 인식 및 읽기 속도가 향상될 수 있음을 입증하였다[23]. 이러한 연구 결과들은 본 연구에서 제안하는 안구 운동 및 인지기능 훈련 프로그램의 이론적 기반을 뒷받침한다. 본 연구에서 제안하는 시선 추적 기반의 문해력 예측 및 개선 플랫폼은 다음과 같은 의의를 가진다.

첫째, 시선 추적 기술을 활용하여 개인의 문해력 수준을 정확하게 예측할 수 있다. 둘째, 안구운동 및 인지기능 훈련 프로그램을 통해 체계적인 문해력 개선을 지원할 수 있다. 셋째, 게임 요소를 접목한 콘텐츠 제작으로 사용자의 지속적이고 자발적인 훈련 참여를 유도할 수 있다. 마지막으로, 시선 데이터 분석 및 시각화를 통해 정량적 문해력 예측 및 맞춤형 피드백을 제공할 수 있다.

또한, 본 연구는 기존 시선 추적 기반 문해력 연구들이 주로 특정 시선 패턴과 문해력 간의 상관관계 분석 또는 난독증과 같은 이진 분류 문제에 초점을 맞추었던 것과 달리 머신러닝 및 딥러닝 기법을 활용하여 시선 데이터를 기반으로 문해력 점수를 정량적으로 예측하는 새로운 접근을 제안한다.

본 연구에서 제안하는 시스템은 COVID-19와 같은 팬데믹 상황에서도 원격으로 학생들의 문해력을 평가하고 개선할 수 있는 도구로 활용될 수 있어, 교육의 연속성과 효과성을 보장하는 데 큰 도움이 될 것으로 기대된다. 또한, 개인화된 학습 경험을 제공함으로써, 다양한 학습 능력과 배경을 가진 학생들에게 맞춤형 교육을 제공하는 데 기여할 수 있을 것이다.


Ⅱ. 본 론

본 연구에서는 독해 과정을 수행하는 동안 피험자의 안구 운동 데이터를 정량적으로 수집하기 위해 Tobii Eye Tracker 4C를 사용하였다. 이 장치는 양안 추적 방식의 적외선 카메라를 활용하여 피험자의 시선 위치를 초당 최대 90 Hz의 샘플링 주파수로 정밀하게 기록할 수 있다. 양안 추적 방식은 양쪽 눈의 시선 데이터를 동시에 수집하여 시선 위치와 초점 변화를 보다 정확하게 측정하는 기술로, 이를 통해 두 눈의 시선 차이를 분석하여 깊이 인식(입체시, stereopsis), 눈 깜빡임, 시선 이동 패턴 등을 정밀하게 파악할 수 있다.

또한, 이 장치는 머리의 3차원적 움직임을 자유롭게 추적할 수 있는 6자유도(6DoF) 방식의 머리 추적 기능을 갖추고 있어 피험자의 머리 위치와 방향을 정밀하게 추적할 수 있는 장점을 가지고 있다. 시야 추적 범위는 가로 38 °, 세로 29 °이며, 이 범위 내에서 피험자의 시선 운동을 정확하게 측정할 수 있다. 그림 1은 Tobii Eye Tracker 4C를 사용하여 시선 운동 측정하는 데 필요한 시야각 및 모니터와 피험자 간의 거리를 나타낸다. 수직 및 수평 시야각(각각 ±14.5 °와 ±19 °)은 장치가 추적할 수 있는 시선의 범위를 의미하며, 감지 거리에 따라 실제 감지 가능한 영역이 달라진다.

Fig. 1.

Experimental setup configuration diagram of the Tobii 4C eye tracker

본 연구에서는 상용화 제품 시선 추적 장치의 감지 거리 최소값(50 cm)과 최대값(95 cm)에 대해 시야각을 적용하여 감지 가능한 영역을 계산한 결과를 표 1에 나타냈다. 이러한 분석을 바탕으로, 본 연구에서는 가로 45 cm, 세로 30 cm의 크기의 모니터를 사용하고, 시선 추적 장치의 가로 시야각(38 °)과 세로 시야각(29 °)를 유지할 수 있는 최적의 거리인 60 cm를 적용하였다. 이를 통해 모니터 화면 전체가 시야 추적 범위 내에 포함되도록 하였으며, 피험자의 자연스러운 안구 운동을 효과적으로 측정할 수 있도록 함으로써 시선 추적의 정확성을 유지하는 동시에 실험 환경의 일관성을 보장하고자 하였다.

Gaze tracking range by detection distance of Tobii Eye Tracker 4C

2-1 참여자 및 실험 절차

본 연구는 13명의 한국인 대학생(남성 8명, 여성 5명)을 대상으로 수행하였다. 자원자는 이전에 읽기 장애 진단을 받은 적 없는 사람들로 선정되었다. 한국어 임상 언어 평가 도구 K-CELF-5는 언어 발달 및 능력을 평가하는 도구로서 언어 기능을 진단하는 데 적합한 것으로 알려져 있다. 이 도구는 주로 언어 이해, 표현 언어, 어휘, 문법 등 다양한 언어 능력 영역을 평가하며, 언어 발달 수준을 파악하고 언어 장애나 언어 발달 지연을 진단하는 데 주로 사용된다. 이 평가 도구는 국내 연구에서 신뢰도와 타당성이 입증된 도구로, 난이도가 상이한 6개의 지문을 포함하여 다양한 수준의 읽기 능력을 정량적으로 평가할 수 있다[24].

본 연구는 모든 평가 과정이 조용하고 방해가 없는 환경에서 진행되었으며, 참가자들에게 충분한 시간을 제공하였다. 읽기 평가는 난이도별로 구성된 6개의 지문으로 이루어졌으며, 각 난이도 마다 2개의 지문이 포함되었다. 각 지문에는 8~10개의 문해력 평가 문항이 제시되었다. 문해력 평가 절차는 다음과 같다. 먼저, 참가자에게 제시된 텍스트를 정독하도록 지시하고, 정독 완료 후에는 해당 텍스트에 대한 문제 풀이를 하도록 하였다. 문제 풀이 과정 중 텍스트 내용의 회상이 필요한 경우, 참가자는 자유롭게 텍스트를 재참조할 수 있도록 허용하였다.

2-2 시선 데이터 전처리

Unity 엔진을 사용하여 K-CELF-5에서 제공하는 읽기 지문을 스크린에 제시하고, Tobii 시선 추적기를 사용하여 피험자의 시선 데이터를 수집하였다. 시선 추적기의 샘플링 주파수는 Unity 클라이언트의 기본 프레임과 동기화하기 위해 60Hz로 설정하였으며, Tobii-SDK와 Unity의 Ray-casting 기술을 활용하여 각 지문에서 피험자의 시선 위치를 정밀하게 측정하였다. 시선 데이터 측정 과정에서는 각 지문을 어절 단위로 분할하고 각 어절에 Collider 영역을 설정하여 시선이 해당 영역을 통과하는 순간의 좌표 값을 저장하도록 하였다. 이를 통해 각 피험자의 시선 이동 경로를 추적하고 지문 내에서의 정확한 시선 위치를 정밀하게 측정하였다.

그림 2는 시선 데이터 수집 및 처리 과정을 나타낸다. 그림 2(a)는 시선 데이터 수집 과정을 보여주며, ①스크린과 시선 추적기간의 좌표를 보정하는 Calibration을 수행, ②피험자는 3초 동안 빈 화면을 응시하고, ③화면에 읽기 지문이 제시된다. ④는 지문을 읽은 후, 피험자는 지문의 내용을 얼마나 이해했는 지를 평가하는 질문에 대한 답을 선택한다. 이 과정에서 피험자가 텍스트를 읽는 동안 발생하는 시선의 고정(Fixation), 도약(Saccade), 회귀(Regression) 등의 정보를 실시간으로 수집하기 위한 과정을 그림 2(b)에서 보여주고 있다. 고정은 원으로 표현되며, 원의 크기가 클수록 시선 고정 시간이 길음을 의미하며, 각 데이터는 원의 중심을 기준으로 측정된다. 도약은 현재 고정에서 다음 고정까지의 거리를 나타내며, 회귀는 현재 고정에서 이전 고정까지의 거리를 의미한다. 그림 2(c)는 어절 및 특징 추출에 관한 시선 데이터를 시간에 따라 고정점(Fixation point), 도약점(Saccade point), 회귀점(Regression point)의 특징을 분석하기 위해 나타냈다.

Fig. 2.

Process of Eye-tracking data acquisition and processing (a) gaze data collection process (b) gaze data processing (c) extracted feature data*Figure 2-(a) presents a reading passage and assessment items from K-CELF-5, and Figure 2-(b) illustrates the definitions of fixation, saccade, and regression using a Korean text. Therefore, both figures must be presented in Korean.

피험자마다 지문을 읽는 시간이 서로 다르므로, 시선 데이터는 일정한 데이터 크기로 저장하여 처리하기 위해 Zero Padding 기법을 적용하였다. 이를 통해 데이터 손실을 방지하고, 개별 피험자의 읽기 특성을 유지하면서 학습 데이터의 일관성을 보장할 수 있도록 하였다.

본 연구에서는 수집된 시선 데이터에서 특징을 추출하기 위해 Dispersion-Threshold Identification (I-DT) 알고리즘을 적용하였다. I-DT 알고리즘은 시선 데이터에서 고정(Fixation), 도약(Saccade), 회귀(Regression)을 식별하는 데 사용되는 분산 기반 기법으로, 시선이 특정 영역에 일정 시간 이상 머물 때 좌표가 밀집되는 특성을 이용한다[25]. I-DT 알고리즘을 적용은 시선 데이터를 일정한 간격으로 시간적 윈도잉(Windowing)하고 연속적인 좌표들의 분산을 계산하여 특정 임계값 이하일 경우 해당 구간을 고정으로 간주하였다. I-DT 알고리즘에 적용하는 고정(Fixation)은 상대적으로 정적인 상태에서 특정 지점을 응시할 때, 시선의 분산이 특정 임계값 이하일 경우 해당 구간을 고정으로 간주한다.

그렇지 않으면, 윈도우는 하나의 샘플만큼 이동하고, 이전 윈도우의 첫 번째 샘플은 도약으로 분류한다. 고정된 영역의 중심 좌표는 해당 기간 동안 측정된 모든 시선 좌표의 평균값으로 계산되며 고정 지속 시간은 고정이 시작된 시점과 종료된 시점의 차이로 정의된다. 도약 거리(Saccade distance)은 두 고정점 사이의 유클리드 거리(Euclidean distance) 로 계산되며, 도약 지속 시간은 한 고정에서 다음 고정으로 이동하는 데 걸리는 시간으로 정의된다. 또한, 도약의 방향에 따라 정방향 도약(Foward Saccade)과 회귀(Regression)로 구분하였다. I-DT 알고리즘의 분산 계산은 수식 (1)과 같이 정의된다[26],[27].

D=maxX-minY+maxX-minY(1) 

여기서 X와 Y는 시간적 윈도우 내의 시선 위치 집합을 나타내며, max(·)와 min(·)는 각각 최대값과 최소값을 의미한다. I-DT 알고리즘에서 고정을 식별하기 위해 분산 임계값(Dispersion threshold)과 지속 시간 임계값(Duration threshold)이 필요하다.

분산 임계값에 사용되는 시선각은 눈의 움직임을 추적할 때, 시선이 고정된 상태로 일정 시간 동안 머물 때 그 시선 좌표의 분산을 평가하기 위한 분산 임계값으로 일반적으로 0.5°~ 1°의 시선각을 기준으로 설정한다. 지속 시간 임계값은 고정으로 간주하기 위한 최소 시간으로서, 일반적으로 100ms~200ms로 설정된다[28],[29].

본 연구에서 사용한 시선 추적기의 샘플링 주파수는 60Hz이므로 100ms 동안 약 6개의 시선 좌표를 가지게 된다. 100ms 보다 낮은 지속 시간을 사용하면 고정이 아닌 단기적인 시선 변화가 포함될 가능성이 있다. 이에 따라 본 연구에서는 기존 연구에서 설정한 기준을 유지하면서 장비에 맞는 최적의 값인 100ms의 지속 시간 임계값을 설정하였고, I-DT 알고리즘을 통해 고정과 도약을 식별한 후, 표 2와 같이 고정, 도약, 회귀와 관련한 다양한 데이터를 추가적인 추출하였다.

Features for fixation, saccade, and regression based on eye-tracking data for machine learning

2-3 머신러닝 및 딥러닝 기반 문해력 예측

문해력 점수 예측을 위해 머신러닝 기반 모델(RandomForest, XGBoost, Support Vector Regression)과 딥러닝 기반 모델(CNN, CNN-LSTM)을 활용하였다. 머신러닝 모델의 경우 시선 데이터에서 추출한 고정 시간, 도약 수, 평균 시선 속도 등의 다양한 시선 지표들과 문해력 점수 간의 상관관계 분석을 통해 유의미한 특징들을 선별하여 입력으로 사용하였다. 머신러닝 모델의 하이퍼 파라미터 구성은 표 3에 제시하였다.

Hyperparameter configuration of machine learning models

RandomForest의 트리 수는 500으로 설정하여 적절한 복잡성을 유지하면서도 과적합을 방지하였으며, 최대 깊이와 최소 분할 샘플 수를 조정하여 모델의 일반화 능력을 개선하고자 했다. XGBoost의 학습률은 0.05로 낮추어 점진적인 학습을 유도하였으며, subsample과 colsample_bytree를 통해 과적합을 방지하였다. 또한, max_depth를 6으로 제한하여 모델의 복잡성을 조절하였다. SVR 모델의 C 값은 예측 정확도와 규제 간의 균형을 고려하여 설정하였다[30]-[32].

본 연구에서는 시선 데이터의 시공간적 패턴 중 공간적 특징을 포착하는 CNN 기반 모델과 CNN이 제공하는 공간적 정보뿐만 아니라 시선 데이터의 시간적 의존성까지 학습할 수 있도록 LSTM을 결합한 하이브리드 모델을 설계하였다. 딥러닝 모델에서는 머신러닝 모델과 달리 사전 정의된 특징을 입력으로 사용하지 않고, 원시 시선 데이터를 입력으로 사용하였다. 이 데이터는 각각 x 좌표, y 좌표, 시간 정보로 구성된 3채널 시계열이며 딥러닝 모델이 시선 데이터로부터 시공간적 의미를 자동으로 학습하도록 설계한 것이다.

문해력 점수 예측을 위한 CNN 모델의 계층별 설계에서 시선 데이터 입력 크기는 12,000 × 3으로 각각 시간과 시선 데이터의 위치를 의미하고 초기 합성곱 계층들(Conv1-Conv4)을 거치면서 채널 수를 점차적으로 증가시켜 고차원의 공간적 특징을 학습한다. 각 합성곱 계층 이후에는 배치 정규화(Batch Normalization)를 적용하여 학습 과정의 안정성을 높이고, 수렴 속도를 향상시켰다.

특히 Conv3 계층에서 출력 크기가 60 × 3 × 64로 축소되는 과정에서 819,264개의 파라미터를 활용하여 시선 데이터의 복잡하고 추상적인 고차원적 특징을 집중적으로 학습하도록 설계하였다. 이후 Conv4 계층에서는 출력 크기가 1 × 3 × 64로 감소하며, 204,864개의 파라미터를 활용하여 최종적인 공간적 특징을 추출한다. 마지막으로, Flatten 계층을 통해 특징 벡터를 1차원(192)으로 변환한 후, 완전연결층(Dense layers)을 거쳐 최종 문해력 점수를 예측한다. 모델 학습에는 Adam 옵티마이저를 사용하였고, learning_rate는 0.001을 적용하였다. 학습은 100 epoch 동안 진행되었으며, batch size는 1로 설정하여 개별 시선 시퀀스에 대해 세밀한 학습을 수행하였다. 이에 대한 CNN 모델의 계층별 설계 결과들을 표 4에 나타냈다. 또한, CNN-LSTM 모델은 공간적-시간적 패턴을 통합적으로 학습하도록 설계되었으며, 이는 시선 데이터의 복합적 특성을 보다 정밀하게 반영할 수 있는 구조적 장점을 가진다.

Layer-wise design of CNN model for literacy prediction

이에 대한 계층별 설계 결과는 표 5에 나타냈다. 초기 CNN 계층들(Conv1-Conv3)을 통해 시선 데이터의 공간적 특징을 추출한 후, Reshape 계층을 사용하여 LSTM 계층이 학습할 수 있는 형태(59 × 64)로 변환한다. 이후 두 개의 LSTM 계층을 거치면서 시선 데이터의 고정, 도약과 같은 시계열적 특성을 학습하여 시간 기반 패턴을 효과적으로 학습할 수 있도록 설계하였다. 특히, LSTM1 계층에서는 12,416개의 파라미터를 활용하여 59 × 32 형태의 출력 벡터를 생성하며, LSTM2 계층에서는 8,320개의 파라미터를 활용하여 동일한 출력 크기를 유지한다. Flatten 계층을 통해 LSTM의 최종 출력을 1차원 벡터(1,888)로 변환한 후, 완전연결층(Dense layers)을 거쳐 최종 문해력 점수를 예측한다. Dense1 계층에서는 120,896개의 파라미터를 활용하여 64개의 뉴런으로 구성된 완전연결층을 통해 특징 벡터를 생성하며, Dense2 계층에서 특징 벡터를 기반으로 최종 점수를 출력한다.

Layer-wise design of CNN-LSTM model for literacy prediction

즉, CNN-LSTM 모델은 공간적-시간적 패턴을 통합적으로 학습할 수 있도록 설계되어, 시선 데이터의 복합적 특성을 보다 정밀하게 반영할 수 있는 구조적 장점을 가진다.

2-4 문해력 검사 및 개선 시스템 구성

본 연구에서는 시선 추적기를 활용한 문해력 검사 및 개선을 위한 모니터링 시스템을 구축하였다. 시선 추적기는 Tobii-SDK를 통해 Unity 애플리케이션과 연동되며, 이를 통해 시선 데이터를 1차적으로 처리한다. 수집된 데이터는 Spring 프레임워크 기반의 서버로 전송되어 저장된다. 이때, 서버는 STOMP(Simple Text Oriented Messaging Protocol) 프로토콜을 사용하여 수집된 시선 데이터를 웹 페이지로 전달한다. 또한, 데이터 저장을 위한 시스템은 두 가지 유형의 데이터베이스를 사용하였다.

시선 데이터가 비정형적이고 큰 규모로 발생할 수 있기 때문에 효율적으로 처리할 수 있는 비정형 시선 데이터 저장에 용이한 비관계형 데이터베이스인 MongoDB를 사용하였고, 콘텐츠 결과 및 사용자의 개인 정보와 같은 구조화된 데이터를 저장하기 위해 MariaDB를 사용하였다.

일반적으로 MariaDB는 복잡한 쿼리 처리와 관계형 데이터 저장에 적합하여, 사용자의 데이터를 체계적으로 관리하고 효율적으로 접근할 수 있도록 지원한다. 이러한 시스템 구성을 통해 피험자의 시선 데이터를 실시간으로 수집, 저장, 분석 등의 모니터링 정보를 제공하였다.

선행 연구에서는 문해력 향상을 위한 주요 접근 방법으로 안구운동을 활용한 집중력 훈련, 주시 양안 조정 운동, 인지기능 강화에 중점을 두고 있다. 안구운동 방법 중 하나로, 액션 비디오 게임 훈련을 통해 주의력 기술이 향상 되거나 주시 양안 조정을 통해 안구 운동 결핍을 개선함으로써 빠르고 재미있는 독서 장애 치료법을 제공할 수 있다고 보고되었다[33],[34]. 또한, 인지기능 강화를 통해 시각 범위(눈을 움직이지 않고도 식별 가능한 글자 수)와 독서 속도가 향상될 수 있다고 하였다. 특히, 지각 학습이 시각적 폭을 넓히고 문장 읽기 속도를 증가시키는 데 기여하며, 연습을 통해 이러한 시각적 폭의 한계를 극복할 수 있다고 하였다[35].

본 연구에서는 이러한 선행 연구 결과를 바탕으로, 사용자의 시각적 주의 범위(Visual span)를 확장하는 방법을 도입하여 읽기 과정에서 요구되는 시각적 주의 범위를 확대하는 훈련 콘텐츠를 적용하고자 한다. 문해력은 단순히 글자 해독을 넘어 복합적인 인지 과정을 포함하므로, 인지기능 강화를 위한 방법도 병행하여 적용한다. 특히, 인지적 억제 능력 강화를 위해 단어-색상 스트룹 검사(Word Color Stroop Test, WCST) 및 과일 스트룹 검사(Fruit Stroop Test)와 유사한 콘텐츠를 구현하여 사용자의 인지적 억제 능력을 훈련할 수 있도록 하였다[36],[37].


Ⅲ. 결 과

3-1 피험자 문해력 점수

본 연구에서는 13명의 한국인 대학생을 대상으로 K-CELF-5 읽기 검사를 실시하여 문해력 점수를 측정하였다. 실험 결과, 피험자들의 문해력 점수 범위는 최소 37점에서 최대 50점까지 분포하였으며, 평균 점수는 43.85점(SD = 3.92), 중앙값은 44점, 최빈값은 42점과 47점으로 나타났다. 실험에 참여한 피험자들은 모두 정상 범위에 속하는 참가자들로 구성되어 있어, 40점 이상의 점수를 기록하였으며, 점수 분포는 중간에서 높은 범위에 집중되는 경향을 나타냈다.

또한, 문해력 점수와 지문과의 관계를 비교하기 위해 표 2에서 제시된 피험자들의 시선 데이터 기반 특징과의 상관관계를 분석하였다. 실험 중 수집된 시선 데이터에서 고정(Fixation), 도약(Saccade), 회귀(Regression) 등의 특징을 추출하였으며, 이들 특징과 문해력 점수 및 지문 난이도 간의 피어슨 상관계수(Pearson’s correlation coefficient)를 계산하여 표 6에 나타냈다.

Correlation analysis between literacy scores and eye-tracking features

본 연구에서 표 6와 같이 문해력 점수와 시선 데이터 기반 특징 간의 상관관계를 분석한 결과, 지문과 상관관계는 전반적으로 유의미한 특징이 발견되지 않았다(p > 0.05). 반면에, 시선 데이터 기반 특징과 문해력 점수 간의 관계에서 일부 유의미한 상관 관계를 보였다. 문해력 점수와 유의미한 양의 상관관계를 보인 시선 데이터의 특징들은 고정점 개수, 도약 횟수, 총 도약 시간, 총 도약 거리, 정방향 도약 횟수 등이다.

이들 특징은 p-value가 0.05 미만이므로, 문해력 점수가 증가할수록 해당 시선 패턴이 유의미하게 증가하는 경향이 있다고 해석할 수 있다. 반면, 회귀 횟수 (r = 0.554, p = 0.061)의 경우, p-value가 0.05를 초과하여 통계적으로 유의미한 수준에는 도달하지 못하지만 문해력 점수와 회귀 횟수 간의 관계는 일정한 경향성을 보이고 있어, 통계적으로 강한 확신을 갖고 유의미하다고 결론 내리기는 어렵다.

그리고, 총 고정 시간, 평균 도약 거리, 평균 고정 지속 시간 등은 문해력 점수와 유의미한 관계를 보이지 않았다(p > 0.05). 평균 정방향 도약 거리 및 도약 비율은 문해력 점수와 상관관계가 낮은 것으로 나타났다. 전체적으로, 문해력 점수가 높을수록 고정점 개수, 도약 횟수, 총 도약 시간, 총 도약 거리, 정방향 도약 횟수가 유의미하게 증가하는 경향이 있으며, 회귀 횟수와 총 고정 시간은 유의미한 수준에는 미치지 못하지만 어느 정도의 연관성을 가질 가능성이 있다고 해석할 수 있다.

3-2 문해력 예측 모델 성능 평가 및 결과

본 연구에서는 설계한 딥러닝 및 머신러닝 모델을 활용하여 시선 데이터를 기반으로 문해력 점수를 예측하였으며, 모델의 성능 평가는 Leave-One-Out Cross-Validation(LOOCV) 방식을 적용하였다. 피험자 13명의 데이터를 활용하여 매 반복마다 1명을 검증용으로 분리하고, 나머지 12명의 데이터를 학습에 사용하였다. 이 과정을 전체 13번 반복하여, 각 반복에서 생성된 모델에 대해 검증 피험자의 Root Mean Square Error(RMSE)를 계산하였다.

최종적으로, 13번의 반복에서 얻어진 RMSE 값을 평균 내어 모델의 성능을 평가하고 비교하였다. 표 7은 CNN 및 CNN-LSTM 모델의 평균 폴드 RMSE(Average fold RMSE)와 검증 데이터에 대한 RMSE(Validation RMSE) 결과를 나타낸다. CNN-LSTM 모델은 CNN 모델보다 전반적으로 낮은 오차를 기록하며, 평균 폴드 RMSE는 6.442, 검증 데이터의 RMSE는 9.171로 CNN 모델(평균 폴드 RMSE 8.617, 검증 RMSE 11.433)보다 우수한 성능을 보였다.

RMSE results of deep learning models

즉, 시선 데이터의 시간적 특성을 고려한 모델이 문해력 예측에 더 효과적이라는 것을 의미한다. 머신러닝 기반 모델로는 Support Vector Regression, Random Forest, XGBoost를 활용하였으며, 표 8은 각 모델의 평균 폴드 RMSE와 검증 데이터에 대한 RMSE 결과를 나타낸다. 모든 머신러닝 모델이 딥러닝 모델보다 낮은 평균 폴드 RMSE를 기록하였으며, 특히 Random Forest 모델이 평균 폴드 RMSE(3.747)와 검증 RMSE(1.400) 모두에서 가장 낮은 오차를 보여 우수한 성능을 나타냈다.

RMSE results of machine learning models

이러한 결과는 Random Forest가 시선 데이터를 활용한 문해력 점수 예측에 효과적인 방법일 가능성이 높으며, 특히 비교적 작은 데이터셋 환경에서 딥러닝 모델보다 머신러닝 모델이 더 안정적이고 우수한 성능을 보일 수 있다.

각 모델의 RMSE 비교 결과를 바탕으로, 예측된 문해력 점수와 실제 문해력 점수 간의 관계를 시각적으로 분석하였다. 그림 3은 (a) XGBoost, (b) Support Vector Regression(SVR), (c) Random Forest 모델 각각에 대해 실제 문해력 점수(Actual Scores)와 예측된 점수(Predicted Scores)를 비교한 산점도를 나타낸다. 빨간 점선은 완벽한 예측(Perfect Prediction, y = x)을 의미하며, 개별 데이터 포인트(파란색 점)는 해당 모델이 예측한 문해력 점수를 나타낸다. 특히 그림 3(c)에서 보여준 Random Forest 모델은 예측값과 실제값이 가장 근접하게 분포하고 있으며, 이는 해당 모델이 가장 낮은 RMSE를 기록한 결과와 일치한다.

Fig. 3.

Comparison of actual vs. predicted literacy scores for machine learning models (a) comparison of actual and predicted literacy scores using SVR model (b) comparison of actual and predicted literacy scores using XGBoost model (c) comparison of actual and predicted literacy scores using RF model

SVR 모델은 예측값의 변동 폭이 크며, 실제값과의 오차가 상대적으로 크다. 즉 예측값이 실제값을 정확하게 반영하지 못하는 경향이 있다. XGBoost 모델은 비교적 안정적인 예측을 보였으나, 일부 데이터 포인트에서 실제값과 예측값 간 차이가 크게 나타났다. 각 모델의 RMSE 비교 결과는 Random Forest 모델이 가장 높은 예측 성능을 보이며, SVR 모델은 상대적으로 낮은 예측 정확도를 가진다는 점을 확인할 수 있었다.

3-3 문해력 평가 플랫폼 및 문해력 향상 콘텐츠

본 연구에서는 Unity Engine과 React 프레임워크를 활용하여 문해력 평가, 개선 및 모니터링을 위한 플랫폼을 구현하였다. 그림 4는 K-CELF-5 기반의 읽기 지문 콘텐츠를 나타낸다. 이 시스템은 사용자가 읽을 수 있도록 화면에 표시하며, 사용자가 지문을 읽는 동안 시선 데이터를 실시간으로 수집한다. 지문을 읽는 과정에서 자연스럽게 이어지도록 마우스 스크롤을 이용하여 사용자가 다음 문장으로 쉽게 이동할 수 있도록 설계하였다.

Fig. 4.

K-CLEF-5 based reading passage content*The reading passage from K-CELF-5 is designed to assess literacy skills in Korean-speaking individuals, and thus must be written in Korean.

문해력 향상 콘텐츠는 사용자의 안구 운동과 인지기능을 향상시키기 위한 훈련 콘텐츠로, Oculomotor Task(안구 운동 작업)을 통한 안구운동 콘텐츠와 Stroop 효과를 활용한 Searching Task(탐색 작업)의 인지기능 콘텐츠로 구분하였다. 안구 운동 향상 콘텐츠는 그림 5와 같이 사용자의 시선 이동을 유도하는 두 가지 과제로 설계하였다.

Fig. 5.

Unity-based training content for oculomotor improvement (a) fixation training content (b) smooth pursuit training content

그림 5(a)는 여러 개의 풀숲 중 무작위 위치에서 1,5초 동안 토끼가 등장할 때, 사용자가 토끼에 시선을 3초 동안 고정하면 해당 자극에 대한 고정시간을 측정한다. 60초 동안 토끼가 랜덤 위치에 등장할 때 사용자는 시선이동과 고정을 수행하는 것이다. 그림 5(b)에서는 사용자에게 특정 동물과 동작을 지시문을 제공하고, 화면에 표시된 목표 동물과 동작에 3초 동안 시선을 고정하는 콘텐츠이다. 콘텐츠에서 제시된 동물은 멧돼지, 여우, 토끼, 숫사슴, 암사슴, 늑대 등 6종이며, 각 동물은 수평 운동, 수직 운동, 경계, 누움의 4가지 동작과 랜덤으로 조합되어 총 24개의 지시문이 생성되었다.

사용자는 이러한 지시문에 따라 목표 동물과 동작을 찾아 시선을 고정하며, 이를 통해 다양한 시각적 환경에서 시선 고정 및 추적 능력을 향상시킬 수 있다. 이 콘텐츠는 60초 동안 반복되며, 안구 운동 능력과 시각적 인지 능력을 종합적으로 강화할 수 있도록 설계되었다.

인지기능 향상 훈련 콘텐츠는 Stroop 효과를 활용한 인지기능 향상 및 시각적 인지 범위 확장 훈련 콘텐츠로 구성되었다. Stroop 기반 훈련 콘텐츠는 과일 이미지와 색상을 활용한 두 가지 유형의 테스트로 구현되었다.

그림 6(a)에서는 사용자가 주어진 단어의 색상을 선택하는 Word Color Stroop Test(WCST)가 진행된다. 사용자는 단어 자체가 아니라, 단어의 색상에 맞는 선택을 해야 하며, 이는 반응 속도와 정확도를 평가하는 데 도움이 된다. 그림 6(b)에서는 사과, 멜론, 바나나, 포도, 귤 등 다양한 색상이 제시되고, 각 과일에 이전 색상과 다른 색상이 제시된다. 사용자는 각 과일의 원래 색상을 선택해야 하며, 잘못된 색상의 과일이 제시되었을 때 올바른 이름을 선택하는 과제도 포함되어 있다. 이 테스트는 20회씩 반복되며, 사용자의 색상 인식과 반응속도를 측정한다. 그림 6 (c)는 시각적 인지 범위를 확장하기 위한 Visual Span 훈련 콘텐츠이다. 이 훈련은 순간 인지 능력을 향상시키기 위해 설계되었으며, 0.5초 동안 글자가 제시된 후, 무작위로 선택된 위치의 글자가 물음표로 대체된다. 사용자는 2초 이내에 기억된 글자를 화면 하단의 보기에서 선택해야 한다. 훈련은 초기 3글자로 시작하며, 사용자의 수행 능력에 따라 글자의 수가 점차적으로 증가하여 최대 10글자까지 확장된다. 이를 통해 사용자는 시각적 인지 범위를 점진적으로 확장하고, 순간적인 기억력과 인지 능력을 향상시킬수 있도록 훈련된다.

Fig. 6.

Unity-based training content for cognitive function improvement (a) word color stroop test(WCST) (b) stroop fruit test (c) visual span*In Figure 6-(c), the presented words and answers are part of a visual span task intended to measure the ability to process multiple Korean characters at once; therefore, they must be presented in Korean.

3-4 결과 데이터 시각화

읽기 검사, 안구 운동 및 인지기능 개선 콘텐츠 결과를 시각화하여 사용자 데이터를 직관적으로 표현하고, 사용자의 이력을 관리하여 향상 여부를 비교할 수 있도록 하였다. 이러한 시각화 기법을 활용하면 복잡한 데이터도 한눈에 파악할 수 있으며, 사용자가 자신의 수행 변화를 직관적으로 이해하는 데 도움을 줄 수 있다.

그림 7(a)는 읽기 검사에서 사용자의 시선 데이터 기반 특징 지표를 시각화한 결과를 보여준다. 그래프에는 고정 점 개수, 도약 개수, 회귀 개수 가 포함되며, 최근 검사와 이전 검사의 특징 지표를 비교하여 변화를 효과적으로 분석할 수 있도록 하였다. 이를 통해 사용자는 자신의 시선 패턴 변화와 일기 습관의 개선 여부를 쉽게 파악할 수 있다. 그림 7(b)는 안구 운동 및 인지기능 개선 콘텐츠의 결과 점수를 방사형 차트로 나타냈다. 방사형 차트를 활용하면 여러 항목의 성과를 동시에 비교할 수 있어, 사용자가 각 콘텐츠별 수행 능력의 향상 정도를 한눈에 확인 할 수 있다. 또한, 최근 플레이와 이전 플레이 간에 비교하여 사용자가 어떤 영역에서 발전했는 지 또는 추가적인 훈련이 필요한 지를 쉽게 판단 할 수 있도록 하였다. 이러한 시각화는 사용자에게 단순한 숫자 데이터보다 더욱 직관적으로 이해를 돕고, 사용자 스스로 학습 과정에서의 변화를 체감할 수 있게 한다.

Fig. 7.

Visualization of gaze-based feature metrics and content performance results (a) visualization of feature metrics based on gaze data (b) visualization of performance results from the content


Ⅳ. 논 의

본 연구에서는 시선 추적 데이터를 활용한 인공지능 기반 문해력 예측 및 개선 방법을 제안하고, 머신러닝 및 딥러닝 모델을 비교하여 최적의 문해력 예측 모델을 도출하였다. 먼저 시선 추적 데이터와 문해력의 상관관계 분석하였다.

시선 추적을 활용한 문해력 분석 결과, 고정점 개수, 도약 횟수, 도약 시간은 문해력 점수와 유의미한 양의 상관관계를 보였다. 이는 문해력이 높은 독자가 더 많은 정보를 처리하고 텍스트를 보다 적극적으로 탐색한다는 기존 연구 결과와 유사하다. 그러나 회귀 횟수와 문해력 점수 간의 관계는 유의미하지 않은 것으로 나타났다. 이는 기존 연구와 상반되는 결과이며, 본 연구의 대상이 대학생으로 한정되어 문해력 수준의 분포가 상대적으로 균일했던 점이 영향을 미쳤을 가능성이 크다. 따라서 향후 다양한 연령층을 포함한 추가 연구가 필요할 것이다.

문해력 예측 모델 비교에서는 Random Forest 모델이 가장 높은 예측 성능을 보였다. 이는 Random Forest 모델이 비선형적이고 복잡한 시선 데이터의 특징을 효과적으로 학습할 수 있음을 의미한다. 반면에, CNN과 CNN-LSTM을 활용한 딥러닝 모델의 성능은 머신러닝 모델보다 성능이 낮았다. 이러한 결과는 학습 데이터의 제한적인 크기 때문일 가능성이 크며, 더 많은 데이터를 학습할 경우 딥러닝 모델의 성능이 개선될 가능성이 있다. 그러나 CNN-LSTM 모델이 단순 CNN 모델보다 높은 성능을 보였다는 점은 LSTM 모델이 시선 데이터의 시간적 흐름에서 중요한 특징을 효과적으로 추출할 수 있음을 의미한다.

추가적으로 XGBoost와 Support Vector Regression을 적용한 결과, SVR은 상대적으로 높은 오차를 보인 것은 SVR이 비선형 패턴을 잘 학습하지 못하는 특성 때문으로 해석된다. 반면, XGBoost는 Random Forest보다는 성능이 낮았지만 비교적 안정적인 예측 성능을 유지하였다. 결과적으로 문해력 예측에서는 머신러닝 모델(특히 Random Forest)이 딥러닝 모델보다 우수한 성능을 보였으며, 시선 데이터의 시간적 패턴을 반영한 CNN-LSTM 모델이 상대적으로 더 나은 성능을 보였다.

본 연구에서는 문해력 향상을 위한 두 가지 주요 접근법, 안구 운동 개선과 인지기능 강화를 기반으로 훈련 콘텐츠를 구현하였다. 안구 운동 훈련은 기존 연구에서 난독증 아동의 읽기 능력에 긍정적인 영향을 미친다고 보고되고 있어서, 본 연구에서는 안구 운동 개선이 문해력 향상에 도움이 될 수 있는 콘텐츠를 제시하였다.

인지기능 향상 콘텐츠는 Stroop 효과를 활용한 훈련이 포함하여, 시각적 인지 및 억제 기능 강화를 통해 문해력 향상에 기여할 수 있도록 설계되었다. 특히, 시각적 인지 범위를 확장하는 훈련(Visual Span Training)을 추가하여 단순한 읽기 속도 향상이 아닌 읽기 과정에서의 정보 처리 능력 자체를 개선하는 방안을 제시하였다. 이러한 훈련 콘텐츠는 사용자의 읽기 전략을 향상시키고, 보다 효과적인 문해력 개선을 지원할 수 있는 가능성을 보여준다.

본 연구는 시선 추적 데이터를 활용한 문해력 예측 및 개선 방법을 탐색하였으며, Random Forest 모델이 가장 우수한 문해력 예측 성능을 보였음을 확인하였다. 또한, 시선 패턴을 활용한 문해력 평가 및 훈련 콘텐츠 개발의 가능성을 검토하였으며, 안구 운동 및 인지기능 훈련이 문해력 향상에 기여할 수 있음을 보여주었다. 하지만 본 연구는 여러 가지 한계점을 가지고 있다.

첫째, 자원자 실험은 13명의 대학생을 대상으로 수행되었으며, 보다 다양한 연령대와 문해력 수준을 포함하는 후속 연구를 통해 문해력 예측 모델 검증과정이 필요하다. 둘째, 시선 데이터를 활용한 문해력 예측 모델은 더 많은 학습 데이터를 필요로 하며, 대규모 데이터셋을 적용할 경우 딥러닝 모델의 성능이 향상될 가능성이 크다. 마지막으로 실제 교육 환경에서의 적용을 위한 검토가 필요하다. 본 연구에서 개발한 문해력 개선 콘텐츠는 실험실 환경에서 테스트 되었으며 향후 학교 교육 환경에서의 적용 가능성을 검증하는 연구가 필요하다.

본 연구는 시선 추적 데이터를 활용한 문해력 예측 및 개선 방법의 가능성을 제시하였으며, 머신러닝 및 딥러닝 모델을 비교하여 최적의 예측 모델을 도출하였다. 또한, 시선 패턴을 활용한 문해력 평가 및 훈련 콘텐츠 개발의 가능성을 확인하고, 안구 운동 및 인지기능 훈련이 문해력 향상에 기여할 수 있는 훈련 콘텐츠를 제시하였다.

향후 연구에서는 보다 다양한 연령층과 문해력 수준을 포함한 연구 설계, 대규모 데이터를 활용한 딥러닝 모델 개선, 그리고 실제 교육 환경에서의 적용 가능성 검토를 통해 연구의 확장 가능성을 확인하는 것이 필요할 것이다.


Ⅴ. 결 론

본 연구에서는 시선 추적 데이터만을 활용하여 문해력을 예측하고 향상시키기 위한 인공지능 기반 시스템을 개발하였다. 머신러닝 및 딥러닝 모델을 비교 분석한 결과로는 Random Forest 모델이 가장 높은 예측 성능을 보였다. 이는 비선형적이고 복잡한 시선 데이터 기반 특징이 Random Forest 모델에서 효과적으로 작용하여 정밀한 문해력을 예측할 수 있다는 것이다. 또한, 시계열 데이터 처리에 강점이 있는 CNN-LSTM 모델이 단순 CNN 모델보다 우수한 성능을 나타내는 것은 읽기 과정에서 나타나는 시선 이동의 시간적 패턴이 문해력 평가에 중요한 요소라는 것을 의미한다.

본 연구에서 개발한 안구 운동 및 인지기능 훈련 콘텐츠와 정량적인 평가 시스템은 기존의 정적인 시험 방식에서 벗어나 동적 평가 방식을 도입한 점에서 의의가 있다. 이를 통해 학습자의 개별적 읽기 패턴을 정밀하게 분석할 수 있는 가능성을 제시하였다.

향후 연구에서는 보다 다양한 연령층과 학습 환경을 고려하여 문해력 평가 및 개선 시스템의 실제 교육적 효과를 검증하는 것이 필요하다. 또한, 시선추적 데이터 뿐만 아니라 뇌파, 생체 신호 등 다양한 멀티모달 데이터를 활용해 문해력 분석 연구가 진행된다면 더욱 정량적이고 정밀한 문해력 예측이 가능할 것으로 기대된다.

References

  • J. P. Gee, “What Is Literacy,” Journal of Teaching and Learning, Vol. 2, No. 1, pp. 3-11, 1987.
  • F. Jensen, A. Pettersen, T. S. Frønes, M. Kjærnsli, A. Rohatgi, and E. K. Narvhus, PISA 2018: Norske Elevers Kompetanse I Lesing, Matematikk Og Naturfag, Oslo: Universitetsforlaget, 2019.
  • U. Ludewig, R. Kleinkorres, R. Schaufelberger, T. Schlitter, R. Lorenz, C. König, and N. McElvany, “COVID-19 Pandemic and Student Reading Achievement: Findings from a School Panel Study,” Frontiers in Psychology, Vol. 13, 876485, May 2022. [https://doi.org/10.3389/fpsyg.2022.876485]
  • Ministry of Education, Results of the OECD Programme for International Student Assessment (PISA) 2022, Ministry of Education, Sejong, December 2023.
  • OECD, PISA 2018 Results: Combined Executive Summaries, OECD, Paris, 2018. [https://doi.org/10.1787/5f07c754-en]
  • S. H. Park, Development and Validation of Literacy and Numeracy Diagnostic Tools (III): Tool Development and Validity Review, Korea Institute for Curriculum and Evaluation, Seoul, RRI 2022-7, 2022.
  • S. M. Park, H. S. Kim, and E. H. Lee, “An Analysis of Students’ Graphicacy in Korea Based on the National Assessment of Educational Achievement, from 2005 to 2007,” Journal of the Korean Geographical Society, Vol. 44, No. 3, pp. 410-427, June 2009.
  • S. Y. Bae, H. J. Yoon, A. Y. Seol, and S. M. Jang, Korean Version of the Clinical Evaluation of Language Fundamentals, 5th ed. (K-CELF-5), Seoul: Hakjisa.
  • S. Y. Bae, M. B. Kim, H. J. Yoon, and S. M. Jang, KOLRA: Korean Literacy Reading Assessment, Seoul: Hakjisa Psychological Assessment Center, 2015.
  • H. J. Gil and I. K. Noh, “Exploration of Information Literacy Domains and Levels for Developing an Adult Information Literacy Measurement Tool,” Journal of Lifelong Education, Vol. 25, No. 4, pp. 1-24, December 2019.​ [https://doi.org/10.52758/kjle.2019.25.4.1]
  • S. K. Jeon, E. K. Lee, and K. H. Kim, “Current Status of Computer-Based Assessment in International Academic Achievement Evaluations and Comparison of Released Items,” in Proceedings of the Korean Computer Education Conference, Busan, pp. 93-97, August. 2017.​
  • I. V. S. Mullis, M. O. Martin, P. Foy, and M. Hooper, ePIRLS 2016: International Results in Online Informational Reading, International Association for the Evaluation of Educational Achievement, 2017.​
  • Y. T. Shim and J. H. Han, “Design of an Early Literacy Measurement Tool,” Journal of Studies on Schools and Teaching, Vol. 9, No. 2, pp. 123-148, August 2024.​ [https://doi.org/10.23041/jsst.2024.9.2.006]
  • D. C. Mézière, L. Yu, E. D. Reichle, T. Malsburg, and C. McArthur, “Using Eye-Tracking Measures to Predict Reading Comprehension,” Reading Research Quarterly, Vol. 58, No. 3, pp. 425-449, July 2023. [https://doi.org/10.1002/rrq.498]
  • S. C. Kwak, J. Y. Kim, and T. J. Park, “AI-Based Video Qualification Using the User's Gaze and Emotion,” Journal of Digital Contents Society, Vol. 24, No. 3, pp. 463-472, March 2023. [https://doi.org/10.9728/dcs.2023.24.3.463]
  • S. Y. Kim, J. I. Jang, and T. J. Park, “User Gaze Data Analysis During Mobile Commerce Using Artificial Intelligence-Based Gaze Estimation,” Journal of Digital Contents Society, Vol. 24, No. 5, pp. 1099-1110, May 2023. [https://doi.org/10.9728/dcs.2023.24.5.1099]
  • M. Nyström and K. Holmqvist, “An Adaptive Algorithm for Fixation, Saccade, and Glissade Detection in Eye-Tracking Data,” Behavior Research Methods, Vol. 42, pp. 188-204, March 2010.​ [https://doi.org/10.3758/BRM.42.1.188]
  • K. Rayner, “Eye Movements in Reading and Information Processing: 20 Years of Research,” Psychological Bulletin, Vol. 124, No. 3, pp. 372–422. [https://doi.org/10.1037/0033-2909.124.3.372]
  • G. P. Hindmarsh, A. A. Black, S. L. White, S. Hopkins, and J. M. Wood, “Eye Movement Patterns and Reading Ability in Children,” Ophthalmic and Physiological Optics, Vol. 41, No. 5, pp. 1134-1143, September 2021. [https://doi.org/10.1111/opo.12854]
  • D. C. Mézière, L. Yu, E. D. Reichle, T. von der Malsburg, and G. McArthur, “Using Eye-Tracking Measures to Predict Reading Comprehension,” Reading Research Quarterly, Vol. 58, No. 3, pp. 425-449, July 2023. [https://doi.org/10.1002/rrq.498]
  • S. Shalileh, D. Ignatov, A. Lopukhina, and O. Dragoy, “Identifying Dyslexia in School Pupils from Eye Movement and Demographic Data Using Artificial Intelligence,” PLoS ONE, Vol. 18, No. 11, e0292047, November 2023. [https://doi.org/10.1371/journal.pone.0292047]
  • M. Nazir and T. Nabeel, “Effects of Training of Eye Fixation Skills on the Reading Fluency of Children with Oculomotor Dysfunction,” Pakistan Journal of Education (PJE), Vol. 36, No. 1, pp. 61-80, January 2019. [https://doi.org/10.30971/pje.v36i1.1158]
  • S. T. L. Chung, G. E. Legge, and S. H. Cheung, “Letter-Recognition and Reading Speed in Peripheral Vision Benefit from Perceptual Learning,” Vision Research, Vol. 44, No. 7, pp. 695-709, March 2004. [https://doi.org/10.1016/j.visres.2003.09.028]
  • J. Lee, W. Jang, H. Won, and S. Pae, “Text Comprehension of Korean Developmental Dyslexic Children Considering Mode and Type of Texts,” Communication Sciences & Disorders, Vol. 26, No. 2, pp. 337-347, 2021. [https://doi.org/10.12963/csd.21816]
  • S. B. Yoo, Y. J. Lim, and H. S. Son, “Behavior-Based Eye Movement Event Detection Using Convolutional Neural Networks,” in Proceedings of the Korean Institute of Information Scientists and Engineers Conference, Seoul, pp. 500-502, 2020.
  • H. J. Park and D. H. Shin, “Analysis of Processes in Reading About 'Science Stories' in 6th Grade Science Textbook Using Eye-Tracking,” Journal of the Korean Association for Science Education, Vol. 35, No. 3, pp. 383-393, June 2015. [https://doi.org/10.14697/jkase.2015.35.3.0383]
  • O. V. Komogortsev, S. Jayarathna, D. H. Koh, and S. M. Gowda, “Qualitative and Quantitative Scoring and Evaluation of the Eye Movement Classification Algorithms,” in Proceedings of the 2010 Symposium on Eye-Tracking Research & Applications, Austin: TX, pp. 65-68, March 2010. [https://doi.org/10.1145/1743666.1743682]
  • D. D. Salvucci and J. H. Goldberg, “Identifying Fixations and Saccades in Eye-Tracking Protocols,” in Proceedings of the 2000 Symposium on Eye Tracking Research & Applications, Palm Beach Gardens: FL, pp. 71-78, November 2000. [https://doi.org/10.1145/355017.355028]
  • P. Blignaut, “Fixation Identification: The Optimum Threshold for a Dispersion Algorithm,” Attention, Perception, & Psychophysics, Vol. 71, pp. 881-895, May 2009. [https://doi.org/10.3758/APP.71.4.881]
  • A. Mohammed and R. Kora, “A Comprehensive Review on Ensemble Deep Learning: Opportunities and Challenges,” Journal of King Saud University-Computer and Information Sciences, Vol. 35, No. 2, pp. 757-774, February 2023. [https://doi.org/10.1016/j.jksuci.2023.01.014]
  • M. Nalluri, M. Pentela, and N. R. Eluri, “A Scalable Tree Boosting System: XGBoost,” International Journal of Research Studies in Science, Engineering and Technology, Vol. 7, No. 12, pp. 36-51, 2020.
  • J. Nayak, B. Naik, and H. S. Behera, “A Comprehensive Survey on Support Vector Machine in Data Mining Tasks: Applications & Challenges,” International Journal of Database Theory and Application, Vol. 8, No. 1, pp. 169-186, February 2015. [https://doi.org/10.14257/ijdta.2015.8.1.18]
  • S. Franceschini, S. Gori, M. Ruffino, S. Viola1, M. Molteni, and A. Facoetti, “Action Video Games Make Dyslexic Children Read Better,” Current Biology, Vol. 23, No. 6, pp. 462-466, March 2013. [https://doi.org/10.1016/j.cub.2013.01.044]
  • M. P. Bucci, D. Brémond-Gignac, and Z. Kapoula, “Poor Binocular Coordination of Saccades in Dyslexic Children,” Graefe’s Archive for Clinical and Experimental Ophthalmology, Vol. 246, pp. 417-428, 2008. [https://doi.org/10.1007/s00417-007-0723-1]
  • Z. Zhuoting, H. Yin, L. Chimei, H. Ren, K. Stuart, L. Yanping, and H. Mingguang, “Perceptual Learning of Visual Span Improves Chinese Reading Speed,” Investigative Ophthalmology & Visual Science, Vol. 60, No. 6, pp. 2357-2368, May 2019. [https://doi.org/10.1167/iovs.18-25780]
  • S. J. Archibald and K. A. Kerns, “Identification and Description of New Tests of Executive Functioning in Children,” Child Neuropsychology, Vol. 5, No. 2, pp. 115-129, 1999. [https://doi.org/10.1076/chin.5.2.115.3167]
  • S. R. Nam, K. C. Nam, and Y. J. Baek, “Cognitive and Emotional Inhibitory Processing of Gifted Children: Focusing on the Stroop and Emotional Stroop Effect,” Journal of Gifted Education Research, Vol. 25, No. 4, pp. 469-491, August 2015. [https://doi.org/10.9722/JGTE.2015.25.4.469]

저자소개

배용규(Yong-Kyu Bae)

2022년:한양사이버대학교 컴퓨터공학과 (공학사)

2024년:한국공학대학교 컴퓨터공학과 (공학석사)

2024년~현 재: 한국공학대학교 컴퓨터공학과 박사과정

※관심분야:임베디드 AI 시스템, 지능형 산업 자동화 및 제어, AI 헬스케어

김상규(Sang-Gyu Kim)

2024년:한국공학대학교 컴퓨터공학과 (공학사)

2024년~현 재: 한국공학대학교 바이오헬스융합공학과 석사과정

※관심분야:인공지능(DL), 디지털 헬스케어, EEG, 생체신호

문호상(Ho-Sang Moon)

2018년:한국공학대학교 컴퓨터공학과 (공학사)

2020년:한국공학대학교 컴퓨터공학과 (공학석사)

2023년:한국공학대학교 IT반도체융합공학과 (공학박사)

2023년~현 재: 한국공학대학교 인공지능학과 교수

※관심분야:AI 헬스케어, 빅데이터, 데이터 사이언스

심미선(Miseon Shim)

2011년:연세대학교 의공학부 (공학사)

2013년:한양대학교 생체의공학 (공학석사)

2017년:한양대학교 생체의공학 (공학박사)

2023년~현 재: 한국공학대학교 인공지능학과 교수

※관심분야:인공지능(ML/DL), 디지털 헬스케어, EEG, BCI, 생체신호 및 영상처리

정성택(Sungtaek Chung)

1992년:KAIST 전기 및 전자공학과 (공학사)

1995년:KAIST 정보 및 통신공학과 (공학석사)

2000년:KAIST 전기 및 전자공학과 (공학박사)

2004년~현 재: 한국공학대학교 컴퓨터공학과 교수

※관심분야:AI 의료 신호 및 영상처리, AI 헬스케어

Fig. 1.

Fig. 1.
Experimental setup configuration diagram of the Tobii 4C eye tracker

Fig. 2.

Fig. 2.
Process of Eye-tracking data acquisition and processing (a) gaze data collection process (b) gaze data processing (c) extracted feature data*Figure 2-(a) presents a reading passage and assessment items from K-CELF-5, and Figure 2-(b) illustrates the definitions of fixation, saccade, and regression using a Korean text. Therefore, both figures must be presented in Korean.

Fig. 3.

Fig. 3.
Comparison of actual vs. predicted literacy scores for machine learning models (a) comparison of actual and predicted literacy scores using SVR model (b) comparison of actual and predicted literacy scores using XGBoost model (c) comparison of actual and predicted literacy scores using RF model

Fig. 4.

Fig. 4.
K-CLEF-5 based reading passage content*The reading passage from K-CELF-5 is designed to assess literacy skills in Korean-speaking individuals, and thus must be written in Korean.

Fig. 5.

Fig. 5.
Unity-based training content for oculomotor improvement (a) fixation training content (b) smooth pursuit training content

Fig. 6.

Fig. 6.
Unity-based training content for cognitive function improvement (a) word color stroop test(WCST) (b) stroop fruit test (c) visual span*In Figure 6-(c), the presented words and answers are part of a visual span task intended to measure the ability to process multiple Korean characters at once; therefore, they must be presented in Korean.

Fig. 7.

Fig. 7.
Visualization of gaze-based feature metrics and content performance results (a) visualization of feature metrics based on gaze data (b) visualization of performance results from the content

Table 1.

Gaze tracking range by detection distance of Tobii Eye Tracker 4C

Distance (cm) Horizontal Range (cm) Vertical Range (cm)
50 34.4 cm 25.9 cm
60 41.3 cm 31.1 cm
70 48.2 cm 36.3 cm
80 55.1 cm 41.4 cm
90 62.0 cm 46.6 cm
95 65.4 cm 49.1 cm

Table 2.

Features for fixation, saccade, and regression based on eye-tracking data for machine learning

Category Feature Description
Fixation Number of fixations Total number of fixations during reading
Total of fixation duration Sum of all fixation durations
Mean of fixation duration Average duration per fixation
Fixation rate Number of fixations per unit time
Saccade Number of saccades Total number of saccades during reading
Total of saccade duration Sum of all saccade durations
Total of saccade length Sum of all saccade lengths
Mean of saccade length Average length per saccade
Saccade rate Number of saccades per unit time
Number of forward saccades Number of rightward or downward saccades
Mean of forward saccade length Average length of forward saccades
Regression Number of regressive saccades Number of leftward or upward saccades
Mean of regressive saccade length Average length of regressive saccades

Table 3.

Hyperparameter configuration of machine learning models

Model Hyperparameter Value
Random Forest n_estimators 500
max_depth 15
min_samples_split 4
random_state 42
XGBoost n_estimators 500
learning_rate 0.05
max_depth 6
subsample 0.8
colsample_bytree 0.8
SVR kernel linear
C 1.0
epsilon 0.1

Table 4.

Layer-wise design of CNN model for literacy prediction

Layer Name Output Shape Parameters
Input 12,000 × 3
Conv1 12,000 × 3 × 64 256
BatchNorm1 12,000 × 3 × 64 256
Conv2 12,000 × 3 × 64 12,352
BatchNorm2 12,000 × 3 × 64 256
Conv3 60 × 3 × 64 819,264
BatchNorm3 60 × 3 × 64 256
Conv4 1 × 3 × 64 204,864
BatchNorm4 1 × 3 × 64 256
Flatten 192
Dense1 64 12,352
Dense2 1 65

Table 5.

Layer-wise design of CNN-LSTM model for literacy prediction

Layer Name Output Shape Parameters
Input 12,000 × 3
Conv1 12,000 × 3 × 64 640
BatchNorm1 12,000 × 3 × 64 256
Conv2 11,998 × 1 × 64 36,928
BatchNorm2 11,998 × 1 × 64 256
Conv3 59 × 1 × 64 819,264
BatchNorm3 59 × 1 × 64 256
Reshape 59 × 64
LSTM1 59 × 32 12,416
LSTM2 59 × 32 8,320
Flatten 1,888
Dense1 64 120,896
Dense2 1 65

Table 6.

Correlation analysis between literacy scores and eye-tracking features

Feature Correlation with reading passage Correlation with literacy scores
Correlation (r) p-value Correlation (r) p-value
Number of fixations 0.091 0.864 0.594 0.042
Total fixation duration 0.077 0.885 0.496 0.101
Mean fixation duration 0.012 0.982 -0.048 0.881
Fixation rate 0.321 0.535 0.053 0.870
Number of saccades 0.091 0.864 0.594 0.042
Total saccade duration 0.072 0.892 0.594 0.042
Total saccade length -0.022 0.967 0.612 0.035
Mean saccade length -0.451 0.369 0.108 0.739
Saccade rate 0.254 0.627 0.066 0.838
Number of forward saccades 0.090 0.864 0.601 0.039
Mean forward saccade length -0.422 0.404 -0.262 0.410
Number of regressive saccades 0.090 0.865 0.554 0.061
Mean regressive saccade length -0.378 0.460 0.111 0.731

Table 7.

RMSE results of deep learning models

Model CNN CNN-LSTM
Average fold RMSE 8.617 6.442
Validation RMSE 11.433 9.171

Table 8.

RMSE results of machine learning models

Model SVR RF XGBoost
Average fold RMSE 5.428 3.747 4.24
Validation RMSE 6.312 1.400 5.664