
YOLO 객체 탐지 모델 기반 집-나무-사람(HTP) 검사 시스템 설계 및 구현
Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록
집-나무-사람(HTP; House-Tree-Person) 그림검사는 대표적인 비언어적 심리평가도구이지만, 치료사의 주관적인 시각과 전문성에 따라 결과가 다르게 해석될 수 있는 한계가 있다. 따라서 본 연구에서는 심리진단의 주관적 오류를 낮추고 HTP 검사의 객관성을 확보하기 위해 YOLOv8 기반 인공지능 객체 검출 모델을 적용한 HTP 검사 서비스를 구현하였다. 7~13세 아동 7,000명의 데이터를 포함한 56,000건의 라벨링된 그림을 수집, 전처리하여 학습시켰으며, 주요 객체(집, 나무, 사람)의 위치 및 관계를 분석하도록 모델을 학습시켰다. Box Loss는 0.95에서 0.57로, Classification Loss는 1.75에서 0.35로 감소하며 성능이 향상되었다. 최종 성능 지표로 평균 mAP50 0.985, mAP50-95 0.862를 기록하며 다양한 임계값에서도 안정적인 인식 성능을 확보하였다.
Abstract
The House-Tree-Person (HTP) drawing test is a widely used nonverbal psychological assessment tool; however, its interpretation varies depending on the therapist’s subjectivity and expertise. To reduce subjective errors and enhance objectivity, this study implemented an AI-based HTP test using a high-accuracy object detection model based on YOLOv8. A total of 56,000 labeled drawings from 7,000 children aged 7 to 13 were collected, preprocessed, and used for training. The model was trained to recognize the location, size, and interrelationship of classes. The box loss decreased from 0.95 to 0.57 and the classification loss decreased from 1.75 to 0.35, improving the model performance. As the final metric, the model achieved an average mAP50 of 0.985 and mAP50-95 of 0.862, demonstrating stable recognition across various thresholds.
Keywords:
House-Tree-Person Test, Art Therapy, YOLOv8, Object Detection, Large Language Model키워드:
집-나무-사람 그림검사, 미술치료, 객체 탐지, 대규모 언어 모델Ⅰ. 서 론
집-나무-사람(HTP; House-Tree-Person) 그림검사는 자기개념, 성격양식, 갈등 영역과 관련된 개인의 심리내적 역동, 발달적 측면, 그리고 무의식을 심층적으로 평가할 수 있는 대표적인 비언어적 심리평가도구이다[1],[2]. HTP 검사는 상담, 교육, 미술치료 현장에서 심리 상태를 파악하는 연구 도구로 활발히 사용되고 있으나, 그림의 형식적, 내용적, 상징적 해석 시 치료사의 주관적인 시각과 전문성에 따라 결과가 다르게 해석될 수 있기에 피검자에게 혼란을 줄 수 있는 한계가 있다[3]. 이는 HTP 검사의 신뢰도를 낮추는 본질적인 원인이 되기에 검사 해석 방식의 개선을 통해 진단 검사로서의 객관성 확보가 필요하다[4].
최근 심리검사의 정확성 및 효율성을 향상시키기 위해 심리검사와 인공지능의 강점을 유기적으로 결합한 심리검사도구에 대한 개발이 꾸준히 증가하는 추세이다[5]. 인공지능 기반 투사적 그림심리검사는 인공지능이 방대한 양의 데이터를 학습하여 그림의 형태, 구성, 필압 등의 특징을 분석하여 피검자의 심리 상태를 파악하는 방식으로 진행된다[6]. 이러한 인공지능기반 투사적 그림심리검사는 해석자의 전문성에 의존하지 않고도 빅데이터에 기반해 효율적이고 정확하게 결과를 도출할 수 있기에 검사 결과의 신뢰도가 높은 심리적 건강 증진 도구로 여겨진다[7]. HTP 검사 역시 인공지능에 기반해 검사 실시 및 해석 과정을 자동화함으로써 인공지능 기반 HTP 검사의 심리치료 효과에 대한 새로운 가능성을 모색하기 위해 인공지능기반 투사적 그림 검사의 필요성 제언 및 개발과 관련된 시도들이 있었다[7]-[9]. 그러나 Faster R-CNN의 다단계 처리 구조로 인해 연산량이 많아 실시간 처리에는 적합하지 않으며 비정형적이고 추상적인 데이터를 다루는 데에는 제한이 있기에, 현존하는 AI기반 HTP 검사의 객체 탐지의 정확도는 비교적 낮은 편이다[10]. 이는 더 정교한 객체검출모델을 기반으로 검사 해석의 오류를 낮출 수 있는 새로운 AI기반 HTP 검사 서비스의 개발이 필요함을 시사한다. 따라서 본 연구에서는 기존 모델들의 한계를 보완한 YOLOv8에 기반해 인공지능 객체검출모델 기반 HTP 검사 서비스를 구현하고자 한다.
Ⅱ. 관련연구
2-1 Faster R-CNN
Ren et al.이 제안한 Faster R-CNN은 객체 탐지 기술에 있어 중대한 진보를 가져온 모델로 평가받는다. 이 알고리즘은 입력 이미지를 합성곱 신경망(CNN)으로 처리하여 특징 맵을 생성하고, RPN(Region Proposal Network)를 통해 객체가 존재할 가능성이 높은 영역을 찾아낸다[10]. RPN은 다양한 크기와 비율의 앵커 박스를 활용하며, Region of Interest(RoI) 풀링을 통해 고정된 크기로 변환하고, 완전 연결층을 사용하여 객체의 분류와 경계 상자를 예측한다. Faster R-CNN은 의료 영상 분석 및 자율주행 차량과 같은 고정밀 응용 분야에서 강점을 발휘하지만 다단계 처리 구조로 인해 연산량이 많아 실시간 처리에는 적합하지 않으며, 비정형적이고 추상적인 데이터를 다루는 데에는 제한이 있다. 이러한 특성으로 인해 빠른 처리와 실시간 응답이 요구되는 환경에서는 한계를 보인다.
2-2 YOLO
Redmon et al.이 제안한 YOLO(You Only Look Once)는 단일 신경망을 사용하여 한 단계에서 객체의 위치와 종류를 동시에 예측할 수 있도록 설계되었다[10]. 이 모델은 이미지를 S×S 그리드로 분할하고, 각 그리드 셀이 객체의 존재 여부, 클래스 확률, 경계 상자 좌표를 계산한다. 이러한 접근 방식은 연산 속도를 크게 향상시켜 실시간 처리를 가능하게 한다. YOLO는 이미지 전체의 문맥 정보를 학습하여 복잡한 배경에서도 객체를 정확하게 탐지할 수 있으며, 자율주행 차량과 보안 시스템 등 다양한 분야에서 활용되고 있다. 초기 버전의 YOLO는 작은 객체 탐지와 복잡한 배경 처리에서 성능 저하를 겪었으나, 이후 버전에서는 점진적으로 개선되며 객체 탐지 분야에서 중요한 모델로 자리 잡았다.
2-3 YOLOv8
본 연구에서는 HTP 검사 서비스의 요구 조건과 부합한 YOLOv8n 모델을 채택했다. Ultralytics의 YOLOv8 문서에 따르면, YOLOv8은 COCO 데이터셋 기준으로 mAP@0.5에서 56.8%, mAP@0.5:0.95에서 37.2%의 성능을 기록하며, YOLOv7에 비해 약 3%의 성능 향상을 보였다[11]. YOLOv8은 새로운 백본(Backbone)과 넥(Neck) 구조를 채택하여 특징 추출과 객체 탐지의 효율성을 대폭 향상시켰다. 이 모델은 다양한 크기와 구성을 제공하며, 평균 추론 속도가 5~160 FPS에 이른다.
HTP 검사는 아동의 그림처럼 비정형적이고 추상적인 데이터를 신속하게 처리해야 하며, 실시간 피드백을 제공할 수 있어야 한다. 경량화된 구조와 빠른 처리 속도를 자랑하며, 제한된 리소스 환경에서 적합한 YOLOv8n은 이러한 요구를 충족하는 경량 모델로, 처리 속도와 효율성이 뛰어나다. YOLOv8n은 낮은 FLOPs와 적은 매개변수를 갖추면서도 640픽셀 입력에서 YOLOv8n은 낮은 FLOPs와 적은 매개변수를 갖추면서도 640 픽셀 입력에서 안정적인 탐지 성능을 보장한다[11]. 또한, 연산량이 적기 때문에 모바일 기기나 저사양 환경에서도 안정적으로 작동한다. 따라서 HTP 검사 서비스에서 요구되는 경량화된 시스템 환경에 이상적이며, 집, 나무, 사람과 같은 주요 객체를 정확히 탐지하여 신뢰성 높은 심리학적 데이터를 제공할 수 있는 YOLOv8n 모델을 선택하여 개발했다.
Ⅲ. AI 모델 구현
3-1 프로그램 설계
본 논문에서 제안하는 그림 심리 분석 AI 모델 학습은 표 2에 제시된 컴퓨터 사양을 기반으로 진행됐다. AI Hub를 통해 수집된 7~13세 아동 7,000명의 HTP(House-Tree-Person) 심리검사 데이터[12]를 활용하여 자동화된 심리 분석 시스템을 구현했다. 수집된 데이터는 총 56,000건의 라벨링된 그림으로 구성되어 있으며, 이를 YOLOv8 모델 학습[13]에 적합한 형태로 정규화 및 가공하는 전처리 과정을 수행한다. 전처리된 데이터를 기반으로 YOLOv8 모델을 학습시켜 아동의 그림에서 주요 객체 위치, 크기, 객체 간 관계 등의 메타 정보를 추출한다. 추출된 메타 정보는 HTP 심리학 관련 논문[14]을 기반으로 작성된 프롬프트를 통해 커스터마이즈된 Large Language Model(LLM) 모델에 전달되며, 이를 통해 최종적인 심리 상태 해석 결과를 도출했다.
본 연구에서는 이미지 분석과 자연어 처리를 결합한 하이브리드 AI 서빙 시스템을 제안했다(그림 3). 제안된 시스템은 YOLOv8 기반의 객체 탐지와 GPT-4o[15] 기반의 자연어 처리를 통합하여, 이미지로부터 의미 있는 텍스트 정보를 추출하고 해석하는 엔드투엔드 파이프라인을 구현했다(그림 4). 시스템의 효율적인 운영을 위해 마이크로서비스 아키텍처(MSA)[16]를 채택하였으며, 클라이언트 인터페이스는 사용자와의 상호작용을 담당하고, Spring Boot 기반의 메인 서버는 전체 시스템의 오케스트레이션을 수행하며, Flask 기반 분석 서버는 YOLOv8 모델의 서빙을 전담하도록 구성했다. 또한, AI 모델 통합 계층은 YOLOv8과 GPT-4o의 효율적인 운영을 관리한다. 본 서빙 아키텍처는 마이크로서비스 구조를 통한 유연한 스케일링이 가능한 확장성, 서버 간 견고한 에러 핸들링 및 재시도 메커니즘을 갖춘 안정성, 비동기 처리를 통한 응답 시간 최적화의 효율성, 그리고 모듈화된 구조로 인한 용이한 업데이트 및 관리가 가능한 유지보수성을 특징으로 한다. 특히 Spring Boot와 Flask 서버 간의 효율적인 통신과 AI 모델의 안정적인 서빙을 위해 RESTful API를 통한 서버 간 통신, 멀티파트 형식의 이미지 데이터 전송, 비동기 처리를 통한 성능 최적화, 그리고 장애 복구를 위한 서킷 브레이커 패턴[17]을 적용했다.
모델 학습을 위한 데이터 전처리 과정에서는 각 그림 요소별로 세분화된 라벨링 체계를 적용했다. 구체적으로 집 그림은 0번부터 14번까지, 나무 그림은 0번부터 13번까지, 남자와 여자 사람 그림은 각각 0번부터 17번까지의 인덱스를 부여하여 분류했다. 데이터 포맷의 경우, YOLOv8 모델의 학습 요구사항[18]에 맞추기 위해 기존 json 형태로 구성되어 있던 데이터를 txt 형식으로 변환하는 작업을 수행했다. AI Hub에서 제공받은 데이터의 경우 모든 이미지가 1280x1280 픽셀 크기로 통일되어 있었으며, 객체의 위치를 나타내는 메타정보 역시 0에서 1280 사이의 값으로 기록되어 있었다. 그러나 실제 서비스 환경에서는 다양한 크기의 입력 이미지를 처리해야 할 필요성이 있었기 때문에, 그림 4와 같이 모든 위치 정보를 0과 1 사이의 값으로 정규화하는 과정을 진행했다. 이러한 정규화 작업을 통해 입력 이미지의 크기에 구애받지 않고 일관된 객체 인식이 가능하도록 했다.
3-2 데이터 학습
• 집 모델
먼저 집(House) 객체 인식 모델의 학습 과정과 성능 지표를 그림 5에서 확인할 수 있다. 모든 주요 평가 지표에서 안정적인 수렴과 우수한 성능을 보였다. 학습 과정에서 관찰된 Box Loss는 초기 0.9에서 0.5까지 점진적으로 감소했으며, 이는 모델이 집 객체의 위치와 크기를 정확하게 인식하게 되었음을 의미한다. Classification Loss는 초기 1.75에서 0.4 수준으로 감소하여 분류 정확도의 큰 향상을 보였다. DFL Loss도 1.2에서 0.95까지 안정적으로 감소하며 객체 검출 품질이 개선되었다. 최종 성능 지표에서 Precision은 0.96, Recall은 0.95를 기록하여 높은 신뢰성과 검출 능력을 입증했다. 특히 mAP50은 0.98, mAP50-95는 0.88의 수치를 보여 다양한 IoU 임계값에서도 안정적인 성능을 유지했다. 이와 같은 결과들은 본 모델이 HTP 검사에서 집 객체를 정확하게 인식할 수 있음을 보여준다.
• 나무 모델
나무(Tree) 객체 인식 모델은 전반적으로 견고한 학습 진행과 성능을 보였다. Box Loss는 0.95에서 0.6으로 감소하며 공간적 특성을 효과적으로 학습했고, Classification Loss는 1.75에서 0.35로 급격히 감소하여 분류 능력이 크게 향상되었다. DFL Loss도 1.2에서 0.95로 안정적인 감소세를 보였다. 성능 평가에서 Precision 0.96과 Recall 0.95를 기록하여 높은 정확도를 보여주었다. mAP50의 0.98과 mAP50-95의 0.85는 모델의 일관된 검출 능력을 입증했다. 검증 데이터셋에서도 유사한 성능을 보여 과적합 없이 잘 일반화되었음을 확인했다(그림 6).
• 남자 사람 모델
남자 사람(Male Person) 모델은 특히 주목할 만한 성능 향상을 보였다(그림 8). Box Loss(0.95→0.57), Classification Loss(1.75→0.3), DFL Loss(1.1→0.88)의 체계적인 감소는 모델의 안정적인 학습을 보여주었다. 성능 지표에서는 Precision과 Recall 모두 0.98을 상회하는 탁월한 결과를 달성했다. mAP50이 0.99에 근접하고 mAP50-95가 0.86을 기록한 것은 모델이 남성 인물 객체를 매우 정확하게 식별할 수 있음을 증명했다.
• 여자 사람 모델
여자 사람(Female Person) 모델은 네 모델 중 가장 우수한 성능을 보였다. Box Loss와 Classification Loss는 각각 0.95→0.55, 1.75→0.3으로 감소했으며, DFL Loss도 1.15에서 0.9로 안정적인 감소를 보였다. 최종 성능에서 Precision과 Recall이 모두 0.98을 상회했고, mAP50은 0.99, mAP50-95는 0.86을 기록했다. 이는 모델이 여성 인물 객체에 대해 최고 수준의 인식 능력을 갖추었음을 보여준다. 또한 검증 데이터셋에서도 동일한 수준의 성능을 유지하여 모델의 안정성을 입증했다(그림 7).
전반적으로 네 모델 모두 우수한 성능을 보였으며, 특히 사람 객체(남성, 여성) 인식에서 가장 높은 정확도를 달성했다. 이는 HTP 검사 자동화의 기술적 타당성을 입증하는 결과라고 할 수 있다.

Test set prediction results for the house object detection model*The labels in the image are directly generated by the YOLOv8 model trained on a dataset labeled in Korean.

Test set prediction results for the tree object detection model*The labels in the image are directly generated by the YOLOv8 model trained on a dataset labeled in Korean.

Test set prediction results for the female object detection model*The labels in the image are directly generated by the YOLOv8 model trained on a dataset labeled in Korean.
3-3 LLM을 활용한 객체 인식 및 결과 도출
객체 인식 모델만을 통해 추출된 위치, 크기, 배치 관계 등의 정량적 정보만으로는 그림의 질적 특성을 완벽히 포착하기 어려운 한계가 있었다. 예를 들어, 선의 강약이나 필압, 세부적인 묘사 스타일, 그림의 전반적인 분위기 등은 단순한 객체 인식 결과만으로는 파악하기 힘든 요소들이다. 특히 HTP 검사에서 중요하게 여겨지는 선의 떨림이나 지우고 다시 그린 흔적, 음영의 농담, 특이한 장식이나 추가적인 요소들의 존재 등과 같은 미묘한 표현적 특성들은 객체 인식 모델의 분석 범위를 벗어나는 부분이었다.
이러한 한계를 극복하기 위해 본 연구에서는 OpenAI의 GPT-4o를 활용하여 원본 그림 데이터를 직접 분석하는 접근법을 채택하였다. GPT-4o 선정의 핵심 근거는 다음과 같다. 첫째, GPT-4o는 복잡한 문맥을 이해하고 대규모 데이터를 처리하는 데 뛰어난 성능을 보인다. 특히 MMLU(Massive Multitask Language Understanding) 벤치마크에서 69.1%의 정확도를 기록하며, GPT-4T(63.1%) 및 Gemini 1.0 Ultra(59.4%) 대비 높은 정확도를 보여주었다[19]. 둘째, GPT-4o는 Vision 기능[20]을 통해 텍스트 분석을 넘어 이미지의 세부적이고 정성적인 특성까지 포착할 수 있게 되었다. AI2D 및 DocVQA와 같은 시각적 인식 관련 테스트에서도 각각 94.2%와 92.8%의 정확도를 나타내어, 그림의 세밀한 표현 특성을 분석하는 본 연구의 목적에 부합하였다.
GPT-4o의 Vision 기능을 활용함으로써 단순히 객체의 존재 여부나 위치 정보를 넘어서, 그림에 담긴 정성적인 특성들까지 포착할 수 있게 되었다. 예를 들어, 집 그림에서 벽의 선이 불규칙하거나 미완성된 부분을 분석하고, 사람 그림에서는 신체 비율, 자세, 그리고 동작의 균형과 같은 세부 요소를 파악할 수 있게 되었다.
이러한 이중 분석 방식은 심리검사의 신뢰성을 높이는 데도 기여했다. 객체 인식 모델의 정량적 분석 결과와 GPT-4o의 정성적 분석 결과를 상호 검증함으로써, 보다 객관적이고 종합적인 심리 상태 평가가 가능해졌다. GPT-4o의 다양한 벤치마크 테스트에서의 우수한 성능 지표는 본 모델이 텍스트뿐만 아니라 이미지 데이터를 효과적으로 처리할 수 있으며 HTP 검사 분석에 가장 적합한 모델임을 입증하였다.
본 연구에서는 HTP 검사 그림 분석을 위해 객체 인식 모델과 GPT-4o를 통합적으로 활용했다. 객체 인식 모델에서 추출한 위치, 크기, 배치 정보는 GPT-4o에 입력되어 더욱 심층적인 분석이 이루어졌다. 이 과정에서 각 객체의 좌표값과 크기 정보를 표준화하여 분석의 일관성을 확보했다. 추가적으로, 박희진의 "HTP 평가기준 개발: 리커트 척도화" 연구[14]를 참고하여 분석 체계를 설계했다. 해당 연구의 평가 기준을 반영하여 각 그림 요소를 점수화하는 체계를 개발했다. 집(House)은 전체 용지 대비 크기 비율을 1-7점 척도로 평가하고, 용지 내 배치 위치의 심리적 의미를 5점 척도로 분석했다. 또한, 지붕, 벽, 창문 등 필수 요소의 유무와 균형감을 평가하고, 부가적 장식 요소의 특성을 심리학적 관점에서 분석했다. 나무(Tree) 요소는 뿌리-줄기-가지 간의 비율 관계를 7점 척도로 평가하였으며, 생명력을 나타내는 잎과 열매의 묘사 방식도 주요 평가 기준으로 설정했다. 사람(Person)은 머리, 몸통, 사지의 비율적 균형을 5점 척도로 분석하고, 얼굴의 표정과 자세, 추가적인 장신구 표현 등을 정량화하여 심리적 해석의 기초로 삼았다. 또한, GPT-4o의 Vision 기능[20]을 활용하여 위치, 크기 및 구조적 관계에 대한 기초 정보를 제공하는 정량적 데이터와 더불어 정성적 해석을 추가함으로써 그림의 세부적인 표현 포착에 어려움이 있는 객체 인식 모델의 한계를 보완했다. 구체적으로, 객체의 물리적 속성과 표현의 정서적 맥락을 동시에 분석하여 그림에 내재된 의미를 해석할 수 있도록 GPT-4o를 활용해 집 그림에서 벽의 선이 불규칙하거나 미완성된 부분을 분석하고, 사람 그림에서는 신체 비율, 자세, 그리고 동작의 균형과 같은 세부 요소를 파악했다.
GPT-4o는 학습 데이터의 특성상 편향이 개입될 수 있으며, 이는 특정 표현의 과도한 해석이나 누락으로 이어질 가능성이 있다. 이를 완화하기 위해 temperature값을 0.15로 설정하고, 목적에 맞춘 프롬프트 엔지니어링을 적용하였다. 이와 같은 설정은 해석의 일관성을 높이고 시각적 요소의 균형 잡힌 분석을 가능하게 했다. 한편, 객체 인식 결과와 GPT-4o 분석을 통합하는 구조는 해석의 정밀도를 높였으나, 실시간 처리 환경에서는 일부 지연이 발생할 수 있어 기술적 개선이 요구된다.
Ⅳ. AI 기반 HTP 심리검사 프로그램 구현
4-1 심리검사 프로그램 아키텍쳐
본 연구에서는 현대적인 웹 애플리케이션 아키텍처를 제시하며, 이는 프론트엔드와 백엔드의 효율적인 통합을 통해 확장 가능하고 안전한 시스템을 구현하는 방식을 보여준다. 프론트엔드 계층에서는 HTML5, CSS3, JavaScript를 기반으로 하며, React 프레임워크를 활용하여 동적이고 반응형 사용자 인터페이스를 구현한다. 본 연구에서는 개발 효율성을 높이기 위해 Vite를 빌드 도구로 채택했으며, ESLint를 통한 코드 품질 관리 체계를 구축했다. 인프라스트럭처 측면에서는 AWS(Amazon Web Services) 클라우드 서비스를 기반으로 구축되었다. 주목할 만한 특징으로는 마이크로서비스 아키텍처(MSA)[16]의 채택이라고 할 수 있다. 백엔드는 Spring Framework 기반의 주요 서비스와 Flask를 활용한 보조 서비스로 구성되어 있으며, 이들은 각각 독립적인 Docker 컨테이너 내 EC2 인스턴스 상에서 운영된다. 데이터의 안정적인 저장과 효율적인 관리를 위해 데이터 계층에서는 MySQL이 RDS 서비스를 통해 관리한다. 보안 측면에서는 다층적인 접근 방식을 채택했다. 모든 사용자 요청은 HTTPS 프로토콜을 통해 처리되어 데이터 전송 시 보안을 보장하며, 지속적 통합 및 배포(CI/CD) 파이프라인은 GitHub과 GitHub Actions를 중심으로 구성되어 있다. 본 아키텍처의 주목할 만한 특징은 서비스 간 느슨한 결합도를 유지하면서도 높은 응집도를 달성했다는 점이다. 이는 시스템의 유지보수성을 높이고, 개별 컴포넌트의 독립적인 스케일링을 가능하게 한다. 또한 Docker를 활용한 컨테이너화는 환경 독립성을 보장하며, 배포 프로세스의 일관성을 제공한다.
프로그램은 웹으로 구현하였으며 다양한 디바이스 환경에서 사용 가능하도록 설계되었다. 모바일 환경에서는 간결한 UI와 sidebar 기능을 제공하여 사용자 편의성을 높였으며, 태블릿 환경에서는 펜 입력을 활용한 그림판 기능을 추가했다. 데스크톱 환경에서는 사진 첨부와 텍스트 결과 열람 기능을 강조했다. 가장 주요 기능인 그림 검사에서는 사용자가 직접 그림을 그리고 업로드할 수 있는 두 가지 방법을 제공하도록 서비스를 구성했다. 첫 번째 방법은 사용자가 종이에 그린 그림을 사진으로 찍어 업로드하는 형식이다. 이는 일반적인 그림 작업을 디지털로 변환하여 AI분석을 할 수 있는 편리한 방법이다. 두 번째 방법은 react-signature-canvas 라이브러리를 사용하여 웹 화면에 직접 그림을 그리고 업로드하는 것이다. 이 라이브러리는 HTML5 <canvas> 요소를 기반으로 하여 사용자가 브라우저에서 직접 그림을 그릴 수 있도록 지원한다.
React-signature-canvas 라이브러리는 React 애플리케이션을 위해 설계된 서명 및 드로잉 툴이다. 이 라이브러리는 HTML5의 <canvas> 요소를 활용하여, 웹 애플리케이션 내에서 사용자가 마우스나 터치스크린을 이용해 직접 서명하거나 그림을 그릴 수 있는 기능을 제공하며 사용자 인터페이스에 직접적으로 통합되어 폼 제출, 사용자 인증, 창의적인 컨텐츠 생성 등 다양한 상황에서 활용될 수 있다. HTML5의 <canvas> 요소의 기능에 기반 한 react-signature-canvas는 펜설정, 캔버스 크기 및 스타일, 반응형 캔버스와 같은 사용자 정의 기능을 지원하기에 세밀한 그림 작업에 적합하며, HTP(집-나무-사람) 심리테스트의 요구사항을 효율적으로 충족시킬 수 있는 기술적 해결책을 제공한다. React-signature-canvas 라이브러리는 사용자가 웹 인터페이스를 통해 직접 그림을 그릴 수 있게 해주며, 검정색 펜 설정과 지우개 기능을 간단히 구현할 수 있다. 이러한 기능은 검정색 펜과 흰 종이만을 사용하여 집, 나무, 사람의 그림을 그리는 HTP 검사에서 요구하는 간단한 그림 도구들을 디지털 환경에서 재현하고, 사용자의 그림을 즉시 디지털 데이터로 변환하여 저장하거나 분석할 수 있게 한다. 사용자의 그림은 본 라이브러리를 통해 toDataURL 메소드 호출 과정을 거쳐 이미지(URL 형태의 데이터)로 변환된다.
4-2 검사 설명 및 프로세스
본 프로그램은 반응형 웹 플랫폼을 활용하여 모바일, 태블릿, 데스크탑 등 다양한 디바이스 환경에서 접근 가능하도록 구현했다. 검사 과정은 다음과 같은 단계들로 구성되어 있으며, 각 단계별로 명확한 지침과 시각적 요소를 통해 사용자의 이해도를 높였다.
- 1. 사용자는 사진을 첨부하는 방식과 웹 기반 그림판 기능을 사용하는 방식 중 하나를 선택한다.
- 2. 선택된 방식에 따라 사진을 찍어 첨부하거나 웹 기반 그림판을 통해 그림을 그린다.
- 3. 그림 데이터는 AI 모델을 통해 분석되고, 결과가 도출되며 저장된다.
- 4. 보호자는 결과를 검토하고, 추가적인 심리 지원 옵션을 확인한다.
본 프로그램은 사용자 접근성을 향상시키기 위해 두 가지 검사 방식을 제공한다. 첫 번째 방식은 실물 종이에 직접 그림을 그리고 이를 사진으로 촬영하여 첨부하는 "종이 그림 검사" 방식이며, 두 번째 방식은 웹 기반 그림판 기능을 통해 웹 환경에서 그림을 그리는 "그림판 검사" 방식이다. 종이 그림 검사의 경우 작성된 그림을 사진으로 첨부하는 과정을 지원한다. 검사 정확성을 높이기 위해 각 그림 유형(집, 나무, 남자 사람, 여자 사람)에 따라 첨부 지침을 제공하며, 종이의 방향을 명시하여 올바른 촬영을 유도한다. 또한, 그림 작성에 소요된 시간을 기록할 수 있는 기능을 포함하여 검사 데이터의 신뢰성과 분석 가능성을 강화했다. 그림판 검사의 경우 사용자가 집, 나무, 남자 사람, 여자 사람 순으로 그림을 그릴 수 있도록 설계되었으며, 그림판 기능을 활용한 효율적이고 직관적인 플로우를 제공한다. 각 그림 필드를 클릭하면 별도의 창이 열려 더 넓은 공간에서 그림을 그릴 수 있으며, 이는 그림 작성 환경과 사용성을 고려한 인터페이스를 제공한다. 검사 순서의 일탈로 인한 오류를 방지하기 위해 이전 그림이 완료되지 않을 경우 다음 그림 선택 영역이 비활성화되도록 설계하여 순서 오류로 인한 검사의 신뢰도 저하를 방지했다. 이러한 설계는 검사 과정의 오류를 최소화하고 정확한 데이터 수집을 하는 것에 중점을 두었다.
이와 같은 두 가지 검사 방식은 사용자의 다양한 상황과 선호를 고려하여 시간과 장소의 제약을 완화하고, 디지털 환경에 익숙하지 않은 사용자와 디지털 도구 활용이 용이한 사용자를 모두 포괄할 수 있도록 기획되었다. 이러한 옵션들의 제공은 사용자 중심 설계의 원칙을 기반으로 접근성과 편의성을 향상시키는 데 기여할 거라 여겨진다.
4-3 사용자 친화적 인터페이스 및 정보 제공 방식
본 서비스는 사용자 중심으로 설계된 디자인을 통해 명료한 정보 전달과 함께 편리한 사용 경험을 제공한다. 정보를 단계적으로 구성해 사용자가 필요한 내용을 직관적으로 탐색할 수 있도록 돕고, 흐름을 체계적으로 유지한다. 화면은 여백과 시각적 요소를 적절히 배치하여 복잡함을 줄이고 가독성을 높인다. 이러한 디자인 접근은 정보 과부하를 방지함과 동시에 사용자가 검사 과정에서 효율성과 안정감을 느낄 수 있도록 하는 데 기여한다.
4-4 UI 컨셉
본 서비스의 UI는 사용자의 심리적 안정감과 명확한 정보 전달이라는 두 가지 목표를 중심으로 설계되었다. 연보라색과 파스텔 톤으로 구성된 컬러 팔레트는 차분하고 부드러운 분위기를 조성하며, 사용자의 긴장감을 완화하는 동시에 심리적 안정을 제공하도록 기획되었다. 플랫 디자인으로 화면 내 주요 정보를 방해하지 않는 범위에서 시각적 흥미를 이끌고, 검사의 진지함과 아동 대상 서비스의 친근함 사이에서 균형을 유지하는 데 초점을 맞췄다. 또한, 화면의 과도한 정보 밀집을 방지하여 사용자가 자연스럽게 개별 정보에 집중할 수 있도록 여백을 활용하였다.
타이포그래피는 정보의 계층화를 통해 시각적 우선순위를 명확하게 설정했다. 본문은 가독성을 높이기 위해 적절한 서체와 크기를 사용하고, 핵심 정보는 아이콘과 굵기, 색상을 통해 강조해 사용자가 직관적으로 이해할 수 있도록 처리했다.
4-5 디자인 시스템
디자인 시스템은 사용자 경험을 통합적이고 일관되게 유지하는 데 필수적인 기반이다. 본 서비스의 모든 UI 요소를 재사용성과 확장성을 고려하여 모듈화하였으며, 심리 검사와 같은 민감한 콘텐츠를 효과적으로 전달할 수 있도록 설계하였다.
컬러 팔레트는 Primary(기본) 색상과 Gray 스케일로 구성되어 사용자가 명확하게 정보를 인지할 수 있도록 했다. Primary 색상으로는 연보라색 계열을 사용해 친근하고 차분한 사용자 경험을 제공하며, Gray 색상은 정보 계층화를 돕고 배경과 텍스트 간의 대비를 통해 가독성을 강화한다. 이와 같은 컬러 전략은 사용자의 시각적 피로를 줄이면서 안정감을 제공하는 데 기여한다.
디자인 시스템은 버튼, 입력 필드, 드롭다운, 아코디언 등 재사용 가능한 컴포넌트를 포함하며, 이를 통해 일관된 인터랙션 경험을 가능케 했다. 버튼은 상태별(default, disabled, hovered 등) 시각적 변화를 명확히 구분해 사용자의 행동을 유도하며, 입력 필드는 오류 메시지를 통해 실시간 피드백을 제공한다. 아코디언 컴포넌트는 정보 밀도를 조정하며 사용자에게 필요한 정보를 단계적으로 노출하는 데 유용하다.
4-6 정보구조도(IA) 설계
해당 정보 구조도(IA; Information Architecture)는 본 서비스의 사용자 경험을 체계적으로 시각화한 것이다. IA는 크게 네 가지 주요 섹션(회원가입, 로그인, 검사하기, 마이페이지)으로 구성되어 있으며, 사용자 흐름에 따라 단계별로 설계되었다. 첫 번째 섹션인 회원가입은 신규 사용자가 서비스를 시작하는 초기 단계로, 정보 입력, 이메일 중복 확인, 가입 완료, 축하 메시지 제공의 순서로 이루어진다. 두 번째 섹션인 로그인은 기존 사용자가 이메일과 비밀번호 입력만으로 로그인 절차를 완료하여 빠르게 검사를 실행할 수 있도록 접근성을 향상시켰다. 세 번째 섹션인 검사하기는 서비스의 핵심 기능이다. 사용자는 검사 준비 페이지에서 안내사항을 확인한 후, ‘종이 그림 검사’와 ‘그림판 검사’를 선택할 수 있으며, 검사 결과 페이지에서는 사용자에게 검사 이미지, 분석된 결과, 주의사항 등을 명확하게 제공함과 동시에 결과를 효과적으로 활용할 수 있는 방안까지 제안한다. 마지막 섹션인 마이페이지는 사용자 계정 정보와 검사 이력을 관리하는 공간이다. 사용자는 자신의 계정 정보를 확인할 수 있으며, 이전에 수행한 검사 결과를 체계적으로 관리할 수 있다.
4-7 화면별 기획 설명
본 서비스는 사용자를 위해 간단한 지침과 두 가지 검사 방식(종이 그림 검사, 그림판 검사)을 제공한다. 직관적이고 간결한 검사 지침 및 인터페이스를 통해 사용자의 이해를 돕고 검사 과정을 효율적으로 안내하도록 설계되었다.

Test preparation instruction page*As the image is a direct screenshot of a web service, an English version is not feasible.
그림 18은 종이 그림 검사 과정에서 본 서비스가 직접적인 제어나 피드백을 제공할 수 없는 상황을 고려하여 검사 환경에서의 신뢰성과 일관성을 높이는 데 중점을 두어 설계됐다. 아동이 종이에 그림을 그릴 때 보호자가 검사 과정의 진행과 순서를 안내하고 지원하는 역할을 수행하도록 지침을 제공하며, 이 과정에서 보호자가 취해야 할 적절한 태도와 행동을 명시했다. 이를 통해 검사 과정에서 발생할 수 있는 혼란을 줄이고, 아동이 심리적 안정감을 유지하며 자연스럽게 그림을 작성할 수 있도록 유도한다.

Instruction page for the paper-based drawing test*As the image is a direct screenshot of a web service, an English version is not feasible.
그림 19는 종이 그림 검사에서 작성된 그림을 사진으로 첨부하는 과정을 지원하며, 직관적으로 화면을 구성하여 사용자 편의를 높이고 검사 과정에서 필요한 정보를 명확히 전달하도록 구성되었다. 검사 정확성을 높이기 위해 각 그림 유형(집, 나무, 남자 사람, 여자 사람)에 따라 첨부 지침을 제공하며, 종이의 방향을 명시하여 올바른 촬영을 유도한다. 또한 그림 작성에 소요된 시간을 기록할 수 있는 기능을 포함하여 검사 데이터의 신뢰성과 분석 가능성을 강화했다.

Photo upload page for paper-based drawings*As the image is a direct screenshot of a web service, an English version is not feasible.
그림 20은 그림판 기능이 익숙하지 않은 사용자들을 배려하여 긴장도를 낮추고 검사 과정을 원활하게 진행할 수 있도록 설계되었다. 사용자가 평가를 받지 않는다는 점을 강조하여 심리적 부담을 줄이고, 검사의 정확성을 높이기 위해 그림 작성 순서를 명확히 안내한다. 또한, 그림판 기능에 대한 추가 정보를 제공함으로써 사용자 스스로 도구를 이해하고 익숙해질 수 있도록 하였다. 이러한 설계는 사용자 중심 접근 방식을 기반으로 검사 과정의 편의성과 안정성을 강화하는 데 중점을 두고 있다.

Instruction page for the digital drawing test*As the image is a direct screenshot of a web service, an English version is not feasible.
그림 21은 사용자가 집, 나무, 남자 사람, 여자 사람 순으로 그림을 그릴 수 있도록 설계되었으며, 그림판 기능을 활용한 효율적이고 직관적인 플로우를 제공한다. 각 그림 필드를 클릭하면 별도의 창이 열려 더 넓은 공간에서 그림을 작성할 수 있으며, 이를 통해 그림 작성 환경과 사용성을 고려한 인터페이스가 제공된다. 검사 순서의 일탈로 인한 오류를 방지하기 위해 이전 그림이 완료되지 않을 경우 다음 그림 선택 영역이 비활성화되도록 설계하여 순서 오류로 인한 검사의 신뢰도 저하를 방지하였다. 이러한 설계는 검사 과정의 오류를 최소화하고 정확한 데이터 수집을 하는 것에 중점을 두었다.

Digital drawing test execution page*As the image is a direct screenshot of a web service, an English version is not feasible.
그림 22는 모든 그림들에 대한 개별검사 결과와 종합 분석 결과를 제공한다. 텍스트를 읽을 때 느끼는 시각적 피로를 최소화하도록 문단의 폭, 줄 간격, 자간 등을 고려하여 설계하였다. 하단에는 보호자를 위한 그림 심리 검사 유의사항과 데이터 활용 안내를 포함하여 검사 결과에 대한 이해를 돕고, 올바른 활용 방안을 제시한다. 이러한 설계는 사용자 경험을 최적화하고 검사 결과의 신뢰도와 활용도를 높인다.
Ⅴ. AI 기반 HTP 심리검사 프로그램 실행 결과
프로그램은 YOLOv8 객체 인식 기술과 GPT-4o 기반 자연어 처리를 활용하여 집, 나무, 사람(남녀)과 같은 주요 객체를 포함하여 총 43개의 객체를 탐지하고 이를 기반으로 심리 상태를 분석한다. 탐지된 객체는 긍정적, 부정적 신호로 분류되어 결과로 도출된다. YOLOv8은 그림 내 주요 요소를 정확히 탐지하고 각 객체의 위치와 크기를 파악하여 심리 분석의 기초 데이터를 제공하며, GPT-4o는 이를 자연어로 해석하여 사용자가 이해하기 쉽도록 결과를 표현한다. 본 연구에서 개발한 프로그램의 사용성 평가를 위해 실제 아동들에게 종이 그림, 그림판 검사 두 가지 방법으로 테스트를 진행했다. 테스트 결과, 평균 84.67%의 정확도로 주요 객체를 탐지하는 성능을 확인하였으며, 이는 HTP 검사에서의 주요 요소를 신뢰성 있게 식별할 수 있음을 시사한다. 종이 그림 검사, 그림판 검사 두 방식 모두 유사한 인식 정확도를 보였다. 이는 종이 매체의 화질 저하, 웹 환경에서의 선 굵기 및 색상 차이 등 다양한 변수에도 불구하고 안정적인 분석이 가능함을 의미한다. 이러한 결과는 AI 기반 HTP 검사가 입력 형태와 관계없이 일관된 성능을 유지할 수 있도록 설계되었음을 보여준다.

Object detection results on paper drawing test using YOLOv8*The labels in the image are directly generated by the YOLOv8 model trained on a dataset labeled in Korean.
Ⅵ. 결 론
본 연구에서는 AI 기반 HTP 그림 검사를 위해 YOLOv8을 활용한 객체 인식 모델을 구현했다. 7~13세 아동 7,000명의 데이터를 포함한 총 56,000건의 라벨링된 HTP 그림을 수집하여 정규화 및 전처리 과정을 수행하였으며, 클래스(집, 나무, 남자 사람, 여자 사람)의 위치와 크기, 상호 관계를 효과적으로 인식하도록 모델을 학습시켰다. 모델 학습은 Batch size 100, Epochs 50으로 진행되었으며, 학습 결과 평균 Box Loss는 초기 0.95에서 0.57로 감소하며 객체 경계 예측 성능이 향상되었고, Classification Loss는 1.75에서 0.35로 감소하여 분류 정확도가 개선되었다. 최종 성능 지표로 mAP50이 평균 0.985, mAP50-95가 평균 0.862를 기록하여 다양한 임계값에서도 안정적인 인식 성능을 확보했다.
최신 인공지능기술을 활용한 HTP 검사 진단시스템 개발을 통해 본 서비스가 미술치료, 상담, 교육현장에서 인공지능이 한정된 치료시간을 효율적으로 사용하면서도 정확하게 내담자의 심리적 상태를 파악할 수 있는 유용한 심리진단도구로 활용될 수 있을 것이라 기대한다. 더욱이 자신의 내면을 정교한 언어로 표현하는 것이 다소 어려울 수 있는 7~12세 아동들의 심리를 객관성이 확보된 자료를 기반으로 정확하게 분석하며 원활한 치료적 상호작용을 촉진할 것이며, 이는 아동 내담자 및 치료사 모두에게 현실적이고 유용한 자원이 될 것으로 예상된다. 프로그램의 추후 정확도를 높이고 일반화 가능성을 입증하기 위해 상담, 미술치료, 교육 등 다양한 분야의 전문가와 협력하여 추가적인 HTP 데이터 셋을 수집할 예정이다. 이를 위해 HTP 그림의 특성뿐만 아니라 심리분석에 사용되는 단어 및 문장 추론 학습의 추가적인 트레이닝 및 데이터 수집을 진행할 것이다. 또한, 아동뿐만 아니라 청소년 및 성인 피검자를 대상으로 본 검사 서비스의 활용성과 정확도를 검증할 수 있는 추가적인 연구 진행을 통해 다양성 확보를 통한 서비스의 신뢰도 검증이 이루어져야 할 것이다.
References
- D. Kim, M. Kong, and O. Choi, HTP and KHTP Psychological Diagnostic Methods, Daegu: Donga Munhwasa, 2002.
-
Y. I. Jung, “Analysis of Domestic Research Trends of House-Tree-Person(HTP) Drawing Tests,” Culture and Convergence, Vol. 43, No. 7, pp. 27-56, July 2021.
[https://doi.org/10.33645/cnc.2021.07.43.7.27]
-
I.-H. Ahn, “Problems of Drawing Test and Its Perspective,” Korean Journal of Art Therapy, Vol. 19, No. 1, pp. 157-175, February 2012.
[https://doi.org/10.35594/kata.2012.19.1.008]
-
E. J. Lee and S. Z. Hwang, “A Study on the Formal Analysis of House-Tree-Person(HTP) Test Based on AI Object Detection Model,” Korean Journal of Art Therapy, Vol. 30, No. 5, pp. 1241-1257, October 2023.
[https://doi.org/10.35594/kata.2023.30.5.001]
- J. H. Han, “The Era of Generative AI,” Media Issue & Trends, Vol. 55, pp. 6-17, April 2023.
-
E. J. Kim and J. Kang, “A Proposal of UX Scenario and Development Direction for Projective Drawing Test Platform Using Artificial Intelligence,” Journal of the HCI Society of Korea, Vol. 19, No. 1, pp. 29-40, March 2024.
[https://doi.org/10.17210/jhsk.2024.03.19.1.29]
-
D. Kim and M. Kim, “The Application of Artificial Intelligence to the Field of Health Psychology,” The Korean Journal of Health Psychology, Vol. 25, No. 1, pp. 1-15, January 2020.
[https://doi.org/10.17315/kjhp.2020.25.1.001]
-
G. Andersson, “Internet-delivered Psychological Treatments,” Annual Review of Clinical Psychology, Vol. 12, pp. 157-179, March 2016.
[https://doi.org/10.1146/annurev-clinpsy-021815-093006]
-
R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Region-based Convolutional Networks for Accurate Object Detection and Segmentation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 38, No. 1, pp. 142-158, January 2016.
[https://doi.org/10.1109/TPAMI.2015.2437384]
-
J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: NV, pp. 779-788, June 2016.
[https://doi.org/10.1109/CVPR.2016.91]
- Ultralytics. YOLOv8 Model Performance Benchmarking [Internet]. Available: https://docs.ultralytics.com/ko/models/yolov8/#can-i-benchmark-yolov8-models-for-performance, .
- AI Hub. Building a Drawing Dataset for AI-Based Children’s Art Psychodiagnosis [Internet]. Available: https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=71399, .
- Ultralytics. Ultralytics YOLOv8 GitHub Repository [Internet]. Available: https://github.com/ultralytics/ultralytics, .
- H. Park, Development of HTP’s Rating Scale -Likert Scale-, Master’s Thesis, Dong-Eui University, Busan, February 2011.
-
OpenAI, “GPT-4 Technical Report,” arXiv: 2303.08774v1, , March 2023.
[https://doi.org/10.48550/arXiv.2303.08774]
- S. Newman, Building Microservices: Designing Fine-Grained Systems, Sebastopol, CA: O’Reilly Media, 2015.
-
F. Montesi and J. Weber, “Circuit Breakers, Discovery, and API Gateways in Microservices,” arXiv:1609.05830, , September 2016.
[https://doi.org/10.48550/arXiv.1609.05830]
- Ultralytics. YOLOv8 Data Format Documentation [Internet]. Available: https://github.com/ultralytics/ultralytics/blob/main/docs, .
- OpenAI. Hello GPT-4o: Introducing OpenAI’s Latest AI Model [Internet]. Available: https://openai.com/index/hello-gpt-4o, .
- OpenAI. Vision [Internet]. Available: https://platform.openai.com/docs/guides/vision, .
저자소개
2025년:명지대학교 컴퓨터공학과 학사
2025년~현 재: 인크로스
※관심분야:응용SW, 인공지능, 자율주행
2025년:명지대학교 컴퓨터공학과 학사
2025년~현 재: AIT Story
※관심분야:엔터프라이즈 백엔드 시스템 및 AI 솔루션 개발, 클라우드 인프라 구축
2025년:명지대학교 컴퓨터공학과 학사
2025년~현 재: 에스큐아이소프트
※관심분야:웹 개발(프론트엔드, 백엔드), 데브옵스, 데이터 분석
2025년:명지대학교 컴퓨터공학과 학사
2025년~현 재: 에프에이솔루션
※관심분야:웹 개발(프론트엔드 기술, 백엔드 시스템)
2022년~현 재: 명지대학교 디지털콘텐츠디자인학과 학사 과정
※관심분야:사용자경험디자인, 디지털 콘텐츠 기획, 데이터 분석 및 활용
2024년:한양대학교 Erica 커뮤니케이션디자인학과 학사
2024년~현 재: InBody
※관심분야:서비스 디자인, 데이터 기반 UX, 인터랙션 및 UI 디자인
2025년:명지대학교 컴퓨터공학과 학사
※관심분야:데이터 처리 및 분석
2012년:이화여자대학교 심리학과 서양화과 학사 (복수전공)
2015년:이화여자대학교 대학원 (심리학 석사-상담 심리학)
2019년:George Washington University 대학원 (Master of Arts – Art Therapy)
2023년:가톨릭대학교 성의교정 대학원 (이학박사-신경생물학)
2022년~2023년: 이화여자대학교 조형예술대학 미술치료학과 겸임교수
2021년~현 재: 홍익대학교 교육대학원 상담 및 미술치료학과 겸임교수
2021년~현 재: 가천대학교 특수치료대학원 미술치료학과 겸임교수
2024년~현 재: 고려대학교 사범대학 두뇌동기연구소 연구교수
※관심분야:신경생물학(neurobiology), 심리학(psychology), 중독(addiction), 미술치료(art therapy) 등