Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 22, No. 9, pp.1359-1367
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 30 Sep 2021
Received 12 Aug 2021 Revised 30 Aug 2021 Accepted 30 Aug 2021
DOI: https://doi.org/10.9728/dcs.2021.22.9.1359

국방의료 데이터기반의 딥러닝을 활용한 질병 진단 연구

임태환1 ; 임근옥1 ; 정성욱2 ; 한승철3, *
1명지대학교 보안경영공학과 대학원
2창원대학교 컴퓨터공학과 부교수
3명지대학교 보안경영공학과 교수
Disease diagnosis research using deep learning based on military medical data
Tae-Hwan Lim1 ; Keun-Ok Lim1 ; Sungwook Chung2 ; Seung-Chul Han3, *
1Docter’s Course, Department of Security Management Engineering, Myongji University, Korea
2associate professor, departmentof computerengineering, ChangwonNationalUniversity, Korea
3Professor, Department of Security Management Engineering, Myongji University, Korea

Correspondence to: *Seung-Chul Han -mail: bongbong@mju.ac.kr

Copyright ⓒ 2021 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

의료기술과 인공지능 기술의 급속한 발전에 따라, 인공 신경망은 높은 정확도로 각종 질병의 진단이 가능하다는 연구 결과가 최근 나타나고 있다. 특히, 질병을 건강검진 또는 신체검사 등의 검진 시점을 기준으로 높은 정확도로 진단해 낼 수 있다면 점차 감소해가는 군 의료진에 따른 진단 결과의 지연을 방지할 수 있으며 진단 예측을 통한 환자를 조기 선별하고 치료를 위한 선제적 대응이 가능하다. 또한, 무증상 환자들의 조기발견과 선별적 검사로 군 내 조기 전파 차단, 치료, 예방을 통해 전투력 제고를 기대할 수 있을 것이다. 본 논문에서는 국방의료 데이터를 딥러닝을 활용하여 3가지 주요 국방 의료 질병(폐렴, 결핵, 횡문근융해증)을 진단하는 연구를 수행하였다. 실험 결과를 바탕으로 군 의료 데이터를 이용한 진단 가능성과 예측 가능성을 확인할 수 있다. 제안한 연구모델은 향후 다른 주요 질병의 조기 발견과 진단 관련 예측 모델 개발에 활용할 수 있을 것이다.

Abstract

According to the rapid development of artificial intelligence and medical technology, recent researches show that artificial neural networks can diagnose various diseases with high accuracy. In particular, if a disease can be diagnosed with high accuracy from the time of medical examination or physical examination, it is possible to prevent delay of diagnosis results due to a shortage of military medical staff and to treat patients through early screening. In addition, through early detection and screening of asympotomatic patients, it can be expected to enhance combat power through early treatment and prevention. In this paper, a study was conducted to diagnose major military medical diseases(pneumonia, tuberculosis, rhabdomyolysis) by using deep learning on military medical data. The experiment results show the predictability of the diseases using military medical data. In the future, it can be used for early detection and diagnosis system development of other major diseases.

Keywords:

Artificial intelligence, Neural network, Military medical data, Disease diagnosis, Deep learning

키워드:

인공지능, 인공신경망, 국방의료 데이터, 질병진단, 딥러닝

Ⅰ. 서 론

다양한 산업분야에서 정보통신기술(ICT)을 활용한 급속한 발전은 가속되고 있다. 특히 의료 분야는 4차 산업혁명 시대의 도래에 따라 빅데이터, 인공지능 등 신기술을 활용한 융복합 패러다임으로 변화하고 있으며, 이 중 인공지능기술을 활용한 질병 진단 서비스 분야는 주요 신 시장 중에서도 가장 높은 성장이 전망되는 분야로 인식되고 있다[1]. 이미 X-ray 영상 등 의료 데이터를 인공지능 기술을 사용하여 판독하여 질병을 진단하는 기술들은 많은 연구가 이루어지고 있으며, 상용화되어 활용되고 있다[2-4]. 그러나 국방 의료현장으로 눈을 돌려보면, 잦은 인력변동, 보안, 예산, 정책적인 문제 등 군 특성 상 새로운 의료 기술 도입은 제한적인 현실이다. 하지만 지속적인 병력감축과 군 의료인력 및 의료지원인력의 절대적인 부족 등 군 의료의 특수성으로 인해 미래 군 의료체계에서는 이를 뒷받침해 줄 기술의 향상이 다른 분야 보다 더욱 절실하다[5].

군 복무 중인 장병들에 대한 일반적인 생각은 20~30대의 젊고 건강한 청년들로 구성된 집단으로, 질병에 취약한 영유아, 노인보다는 상대적으로 낮은 유병률을 가질 것으로 인식된다. 하지만, 보험연구원(2019.8)의 병사 군 단체보험 도입방안 연구보고서에 의하면 부대별 주둔지에 따른 지형 및 위치별 다양한 근무환경, 스트레스, 입대 전 자유로운 생활에 따른 관리되지 않은 건강상태로 인하여, 군인의 유병률은 동일 연령대의 민간인에 비해 높은 편인 것으로 분석된다. 또한 군 특수성에 따라 생활관 위주의 집단생활의 파급력 등으로 폐렴, 결핵 등과 같은 전파력이 높은 감염병에 대한 조기 진단이 매우 중요하며, 개개인 보다는 집단 측면의 건강관리에 중점이 있다[6]. 이에 군 의료 지원분야에서 질병 유무, 신체 이상 등 군에서 이를 사전에 예측할 수 있도록 장병들에게 신장, 체중, 맥박, 혈압 등을 계측하는 신체검사, 혈액 및 소변검사 등의 검사실 검사로 구성된 건강검진(간 기능 검사 등 23개 항목)을 총 2회 군 복무기간 동안 정례적으로 시행하고 있다. 건강검진을 통해서 장병들의 질병이 예측되거나, 의심되는 경우 진료를 통해 조치되기도 하지만, 군 생활동안 발견되지 못한 질환이 단기간 내 악화되어 사망하거나, 감염병의 경우 집단 전파되는 사례가 종종 발생되어 각종 매체 등 여론에 조명되기도 한다[7]. 무증상을 보이는(건강에 이상이 없다고 판단되는) 군인 환자들은 젊고 건강한 신체적 특징으로 인해, 특정적으로 질병 발현이 되지 않아 조기 식별되지 않거나, 선별되지 않고 정상 판정 이후 부대원에게 전파 시킬 수 있는 위험이 잔존 할 수 있으며, 예방 및 치료가 늦어져 군 전투력 손실을 야기 할 수 있어 징후가 발견되기 전 사전에 진단 및 예측 할 수 있는 시스템 도입이 필요하다.

본 논문에서는 딥러닝 기술을 통해 인공신경망(Artificial Neural Network)을 구성하여 3가지 주요 국방 의료 질병(폐렴, 결핵, 횡문근융해증)을 진단 및 분류하고 예측하는 연구를 수행한다. 건강검진, 신체검사 등의 검진 시점으로부터 특정 질병을 높은 정확성으로 예측이 가능하다면, 병력 감소 추세에 따라 감소해가는 군 의료진 부족현상에 의한 진단 결과의 지연을 방지하고, 진단 예측을 통한 환자의 조기 선별 치료에 대해 선제적 대응이 가능할 것이다. 특히, 무증상 환자들의 조기발견과 선별적 검사로, 군 내 조기 전파 차단, 치료, 예방을 통해 전투력 제고를 기대할 수 있을 것이다. 본 연구에서 다루는 질병 진단 시스템은 의료정보 데이터를 통해 특정 질병들을 예측 할 수 있는 모델 구축으로, 병영 생활의 특성상 개개인의 100% 정확성보다는 질병 유무의 70% 대의 답을 신속하게 도출하여, 의료진에게 사전 선별을 통한 환자의 진료 우선순위를 높이고, 진단의 보조를 통하여 전체 집단의 건강관리에 기여하기 위한 것으로 의학분야의 전문적 견해를 배제한 학문적 딥러닝 기술을 활용한 데이터 분석 연구로써 의학적 근거가 없음을 밝힌다. 본 논문에서 소개하는 구성은 다음과 같다. 인공지능 질병 진단 시스템과 의료 데이터에 관련한 기존 연구를 2장에서 소개한다. 3장에서는 국방의료 데이터와 인공지능 기술을 활용한 딥러닝 기반 주요 질병 진단 시스템을 제안한다. 4장에서 연구를 통해 제안된 실제 국방의료 데이터에 적용한 질병 진단 시스템의 실험 결과를 분석하고, 국방의료 데이터 기반의 질병 진단 시스템 연구에 대해 마지막 장에서 결론을 맺는다.


Ⅱ. 관련연구

최근 인공지능과 의학기술이 융합한 연구 분야에서 고도화된 기술들이 등장하고 있다. 의학기술은 의사들의 의학적 지식과 판단을 더욱 정교하고 정확하게 진단 할 수 있도록 끊임없이 연구되고 발전하고 있다[8]. 이에 인공지능 기술은 의학기술과 더불어 질병에 대한 빅데이터를 다루는 알고리즘 연구가 발전하고 있다. 최근에는 심장병 환자의 사례기반 추론 데이터를 활용한 인공지능 예측 알고리즘 연구[9]와 같이 특정 질병에 대한 특성과 누적된 진료데이터가 존재한다면 인공지능 기술에 의한 다양한 학습 방법을 통해 최적의 일정 패턴을 갖는 질병을 높은 정확성을 보이며 진단 할 수 있다는 연구들이 등장하고 있다. [9]는 국민건강보험공단에서 보유하는 건강검진정보 데이터를 활용하여 특정 질병이 아닌, 진료과목을 예측하기 위한 연구에서 평균 80% 이상의 예측 모델을 제시하였다. [10]은 독감, 폐렴, 수족구 세 가지 질병 각각의 예측 모델을 연구 및 개발하였으며, 구글 등 사이트에서 수집한 빅데이터를 활용한 연구이다. 인공신경망을 활용한 랜덤 포레스트 모델(Random forest)을 통해 인공지능 기술을 통한 환자 발생 수 예측 가능성을 제시하였다. [11]에서는 질병은 환경적 요인이 고려되어 질병의 위험도를 높이며, 이에 따라 질환 발생의 예측과 예방을 위해 유전적 위험요인과 환경적 위험요인을 구체적으로 분류 할수 있는 접근 방법으로 변수 7가지와 염색체 정보를 로지스틱 회귀분석을 활용하여 고혈압 발생 예측 확률을 분석하였다.

딥러닝을 적용한 질병 예측진단 모델과 학습에 관한 연구로는, [12]는 심장병 환자의 일정한 패턴을 통한 진료 데이터를 활용하여 심장병 예측을 위해 텐서플로우를 기반으로하는 딥러닝 모듈의 학습으로 심장병 예측이 가능한 연구를 제시하였다.

[10]에서는 뇌파를 이용한 뇌졸중 질환 예측 시스템으로 RandomForest 알고리즘 이용한 예측 정확도가 92.52%, Relative 값과 RandomForest 알고리즘으로 90.50%의 예측 정확도를 실험을 통해 제시하였고, 의료진이나 재발 우려가 높은 뇌졸중 환자, 혹은 뇌졸중 발병률이 높은 고령자에게 유용한 분석학적 정보를 제공 할 수 있음을 연구 결과 제시하였다. 또한 생체신호 등 건강검진 데이터를 활용한 딥러닝 기술이 빠른 질병 진단이 가능하도록 돕는 것이 가능함을 연구를 통해 검증하였다.

정상군과 질병군 분류 실험과 연관하여 [10]에서는 딥러닝 기법을 활용해 환자를 정상으로 분류하는 거짓 음성 비율과 정상을 환자로 분류하는 거짓 양성 비율 비교를 통해 실험 정확도에 대한 신뢰도가 높음을 제시하였고, [11]은 국민건강보험공단에서 공개하고 있는 코호트 데이터(60세 이상의 고령자)를 활용하여 뇌졸중 질환예측 모델 연구에 합성곱 신경망(CNN, Convolution Neural Network)이 활용되었다.

기존 연구들에서는 국내외 정제된 일정한 양식의 공개된 샘플 데이터, 단순 통계자료 및 연구데이터를 활용하여 결론을 제시하였으나, 본 논문에서는 실제 군 의료기관에 누적된 20~30대의 군 장병 건강검진 결과 로우데이터(Raw Data)를 바탕으로 가공한 국방 의료데이터를 기반으로 폐렴, 결핵, 횡문근융해 질병군의 환자 데이터와 정상수치의 건강한 정상군의 검사 결과 값을 딥러닝 기술을 활용한 기계학습을 통해 주요 질병의 진단 과 예측 가능성을 분석하였다.


Ⅲ. 딥러닝 기반 질병 진단 연구

3-1 데이터 수집 및 가공

2016년~2019년간 누적된 장병들의 건강검진 결과 데이터를 국군의무사령부 의료정보체계과에 의뢰하여 절차에 따라 비식별화된 로우 데이터(Raw Data)로 제공받았으며, 이를 학습을 위한 데이터로 정제 후 정상군과 주요 질병 3가지 환자군으로 분류하였다. 질병 진단에 필요한 데이터로는 정량적 데이터와 정성적 데이터가 필요하며, 정성적 데이터는 건강검진상 자가진단을 통해 기록하는 데이터로 음주량(음주 유/무), 흡연량(흡연 유/무), 운동량 등에 해당되며 가족력, 과거 질환 등 정량적으로 판단하기 어려운 데이터이다. 본 연구에서는 정량적 데이터로만 실험하였으며, 정성적 데이터가 포함된다면 더 높은 정확도를 나타낼 것으로 예측할 수 있으나, 질병과 데이터의 의학적 관계를 밝히는 후향적 연구가 아니므로 정성적 데이터는 제외하였다. 본 연구에서는 신체검사, 혈액 검사, 소변검사 등 각각의 군 장병들의 정량적 검사 결과 데이터만을 활용하여 주요 질병들을 진단하는 모델을 설계하였다. 본 연구의 관련 데이터 확보는 연구 목적상 비식별화된 데이터를 수집하는 것이 관건이었으며, 군 특성상 데이터 확보의 절차 등 상당한 어려움이 있었다. 1차적으로 확보한 약 10만 건의 검진 결과 로우 데이터를 데이터 분석을 통한 이상치, 결측치 제거 등 전처리 과정으로 연구에 필요한 약 2만 건의 정상 및 질병 진단데이터를 확보하였다. 오기, 누락, 오진 · 오판으로 정상으로 분류된 질병 데이터, 질병으로 분류된 정상 데이터 등 데이터 전처리간 상당 부분 손실을 감안하였다.또한 건강한 장병들의 데이터로서 대다수 정상범위에 속하는 데이터이며, 질병 데이터는 상대적으로 소수임을 확인할 수 있었다. <그림 1>은 주요 질환 환자 데이터(속성(Attribute)과 클래스(Class))에 대한 실사례를 나타낸다.

Fig. 1.

Attribute and Class Data of normal and Patients with major diseases

<표 1>의 정상 및 주요 질환 환자에 대한 속성 1~12까지는 장병들의 검진 결과를 포함하며, 13번째 데이터인 클래스는 <표 2>와 정상 0 또는 1~3에 의해 주요 질병 진단 유무를 나타낸다. 본 연구는 12개의 속성과 4개의 클래스로 구성된 정상인 1,087명, 폐렴 환자 990명, 결핵 40명, 횡문근융해증 112명 총 2,229명의 고도의 정제된 학습데이터를 이용하여 주요 질병 진단을 위한 딥러닝 학습을 수행하였다.

Attributes of training data for normal and Patients with major diseases

Predict the diagnostic results of learning data for normal and Patients with major diseases

3-2 딥러닝 기반 진단 연구

본 연구에서는 딥러닝 기반의 주요 질병 진단 및 예측을 위해 다층 신경망(Multilayer Neural Network)기반의 소프트맥스 회귀(Softmax Regression / Classification)를 활용한 진단 연구 모델을 구글의 텐서플로우[13]를 이용하여 구현한다. 다층 신경망은 input layer(입력층)와 output layer(출력층) 사이에 여러 층의 hidden layer(은닉층)가 존재하는 신경망으며, 본 딥러닝을 활용한 연구에서 <그림 2>와 같이 각각의 계층을 구성한다. 국방의료 DB에서 입력된 데이터들은 전처리 단계를 지나 3-1 절의 데이터 가공과정을 통해 산출된다. 입력층은 전처리된 데이터를 입력으로 받아 각 층마다 가충치(weight)와 바이어스(bias)를 가진 은닉층과 출력층으로 차례로 전달한다. 입력층은 <표 1>의 데이터 속성을 따라 12개의 입력층 노드로 구성되고, 은닉층 노드의 층수(layers)와 차원(dimension)의 최적값은 실험을 통해 산정한다.

Fig. 2.

Diseases diagnosis neural network Flow

출력층에서는 Softmax를 사용한다. 최적화 알고리즘으로 경사하강법 중에 데이터의 진폭을 줄이고 정확도를 높이기 위해 주로 사용되는 AdamOptimizer로 선정하였다. 또한 learning rate(학습률)와 훈련 횟수 등의 hyper parameter(하이퍼 파라미터) 튜닝을 진행하며 최적의 모델을 찾도록 실험을 진행하였다. 다중분류를 통한 정확도 60% 이상 값의 산출을 목표로 실험하였으며, 정상군과 질병군 정확도 분류 실험 및 질병군의 항목별 정확도 분류 실험을 통해 데이터를 통한 다중 질병 진단의 가능성을 실험 및 분석하였다.


Ⅳ. 실 험

딥러닝기반 진단 알고리즘을 구성하는 최적의 은닉층 계층수, 차원수, 학습률과 학습 횟수를 결정하기 위한 실험을 진행하였다. <표 3>의 실험에서 하이퍼 파라미터의 최적 값을 찾기 위해 일부 변수를 고정하였고, 은닉층 계층수와 차원 수의 변화에 대한 실험을 진행하였다. 기준 값을 설정하기 위해 학습횟수를 30,000회, 학습률은 0.001일 때의 정확도 값을 산출하였다.

Comparison experiment of accuracy value according to the equal number of learnings

Fig. 3.

AI diseases diagnosis prediction(Table 3.)

동일 학습횟수에 따른 정확도 비교 실험을 통해, 차원수에 따라 정확도의 차이를 확인 할 수 있었고, 정확도가 상대적으로 양호하게 평가된 값인 은닉층 계층수(6, 7, 9, 10, 11)의 차원수(100, 150)에 따른 각각의 정확도 비교 분석 실험을 진행하였다.

<표 4> 에서는 차원수(N=150), 학습률(N=0.001), 은닉층 계층수(N=6, 7)을 고정하고, 학습횟수의 변화가 정확도에 주는 영향을 실험하였다. 실험 결과 은닉층 계층수(N=7)보다는(N=6)일 경우의 정확도가 상대적으로 보다 적은 학습횟수에서도 높은 정확도를 산출하였다. 차원수(N=7)일 경우 학습횟수(N=50,000) 까지 최대 정확도 60%가 한계였으나, 차원수(N=6)일 경우 학습횟수(N=1,000) 일 경우에도 66.67%, 학습횟수(N=28,500~30,000)의 경우 최대 70%의 정확도를 나타냈다. <표 4> 실험의 한계점으로 학습횟수(N=30,000) 이상의 실험에도 정확도 70% 이상은 예측되지 않았다.

Table of comparative experimental ressults of Depth, Iterate

Fig. 4.

AI diseases diagnosis prediction(Table 4.)

<표 5>와 <표 6>은 차원수(N=100), 학습률(N=0.001)을 고정하여 각각의 은닉층 계수(N=9, 10)에 대한 학습횟수의 변화의 정확도를 비교 실험하였다. 비교적 낮은 학습횟수에도 60% 이의 정확도를 예측한 은닉층계수(N=9)의 실험에서 학습횟수(N=7,000) 이상부터 66.67% 이상의 정확도를 유지하면서 소폭 감소했으며, 학습횟수(N=17,000)에서 정확도 73%로 본 연구 중 가장 높은 정확도를 산출하였다. 이후 소폭 감소 후 학습횟수(N=18,000)에서 70%의 정확도를 예측하였으나, 학습횟수(N=50,000) 실험까지 질병 진단 예측 정확도는 지속 감소하였다.

Table of experimental ressults of Depth, Iterate

Fig. 5.

AI diseases diagnosis prediction(Table 5.)

Table of experimental ressults of Depth, Iterate

Fig. 6.

AI diseases diagnosis prediction(Table 6.)

<표 7>의 실험은 은닉층계수(N=11)를 고정하고, 차원수(N=100, 150)를 비교하면서 학습횟수에 대한 정확도를 비교 분석 하였다. 은닉층계수(N=11) 실험은 차원수(N=100)과 (N=150)의 동일한 학습횟수(N=30,000) 실험 시 동일한 정확도 결과 값(56.67%)을 산출하여, 각각의 차원에 대한 학습횟수 증가에 따른 정확도 값이 어떻게 달라지는지 비교 분석한 실험이었다. 실험결과, 차원수(N=100)일 때의 정확도는 50~56.67% 범위 내 소폭 증가 및 감소를 반복하였으며 56.67% 이상 예측 정확도는 향상되지 않는 것을 실험을 통해 확인 할 수 있었다. 차원수(N=150) 실험의 경우 정확도는 초기 학습횟수(N=4,500)까지 63.33%의 정확도를 산출하였으나 학습횟수 증가 간 정확도 산출값은 소폭 감소 및 증가를 반복하였으며, 학습횟수(N=10,000)에서 정확도 60%, 학습횟수(N=40,500)에서 정확도 70%의 최대값을 예측하였으며, 이후 학습에서는 감소하며 70% 이상의 예측 정확도는 산출되지 않았다. 결론적으로 본 연구에서 실험을 통해 확인 할 수 있는 가장 높은 정확도 예측 값의 하이퍼파라미터는 실험결과, 학습률(N=0.001), 학습횟수(N=5,000), 차원수(N=100), 은닉층 계층수(N=9)의 설정 값일 때 가장 높은 정확도(73.33%)의 예측 결과 값을 보여주었다.

Table of comparative experimental ressults of Depth, Iterate

Fig. 7.

AI diseases diagnosis prediction(Table 7.)

연구결과는 주요 질병 진단 예측을 위한 평가 항목인 정확도 예측 목표로 설정한 60% 이상(최대 73.33%)의 실험 결과를 보였다. <표 8>의 연구는 정상군과 질병군 분류의 정확도를 평가하는 실험으로 최소 60% 이상의 예측 정확도 결과 모델을 선정하여 평가하였다. 정상군과 질병군 분류 예측 정확도는 최소 70% 이상, 최대 100% 분류 가능성을 <표 8>의 실험 결과에서 확인 할 수 있다. 은닉층계수(N=9), 차원수(N=100), 학습횟수(N=17,000)일 경우 질병 진단 예측 정확도는 73.33%로, 정상군 분류는 100%, 질병군 분류는 90%로 정상군 예측이 매우 우수하였다. 또한 은닉층계수(N=6), 차원수(N=150), 학습횟수(N=30,000)일 경우 질병 진단 예측 정확도는 70%로, 정상군 분류는 90%, 질병군 분류는 100%로 질병군 분류 예측 정확도가 매우 우수하였다. 각각의 질병별 양질의 데이터가 확보된다면, 질병 진단 예측의 정확도는 보다 향상될 수 있을 것으로 판단된다. 국방의료분야에서의 환자 의료데이터를 활용한 예측 모델을 통하여 질병 예측 가능성을 확인 할 수 있었다.

Results of Normal group and disease group classification prediction experiment


Ⅴ. 결 론

본 논문에서는 폐렴, 결핵 같이 전파력이 높은 감염성 질병을 건강검진 및 신체검사 등 검진 시점부터 초기 진단과 예측을 통한 무증상 환자, 의심환자 선별 등 조기발견과 선제적 검사 지원, 조기 분류 및 차단을 통한 예방, 의심환자 분류 및 격리, 집단 전염 확산 예방 및 차단 등 의료분야에서 선제적으로 대응할 수 있는 분야에 기여할 수 있는 인공지능 기술 연구를 수행하였다.

본 연구는 개인정보를 제외한 의학적 데이터를 활용하여 순수 인공지능 기술(딥러닝)을 적용한 의료데이터 분석 연구로써 의학적 견해를 배제하고, 누적된 데이터를 통한 인공지능이 데이터가 가지고 있는 의미를 정확히 분석하고 예측 할 수 있다는 가능성을 연구하였다.

본 연구의 제한점으로는 특정 질병 데이터의 부족에 따른 진단분류 예측 정확도 산출의 한계였다. 의료데이터가 상대적으로 적었던 질병에 대한 예측 정확도가 낮게 산출되어 전체적인 예측 정확도가 낮아진 결과로, 향후 추가 데이터의 확보를 통한 지속적인 학습을 통해 본 실험에서 산출된 최대값(73.33%) 이상의 질병 진단분류 예측이 가능할 것으로 기대한다.

딥러닝 기반의 질병 진단 예측 알고리즘 연구간 의학적 관점의 검증 및 연구를 병행하는 것은 제한되었으나 향후 추가적인 의학적 검증 및 관련 연구를 통한, 다양한 인공지능 기술의 접목, 융합을 통해 의료분야의 질병 진단 정확도 예측을 지속적으로 높일 수 있을 것이다. 또한 CT, X-Ray와 같은 의료영상 등 정성적 데이터, 검사 수치와 같은 정량적 데이터 등 의학적 진단을 위한 항목들을 추가로 선별하여 추가 확보된 데이터의 학습과 알고리즘의 고도화 연구를 지속적으로 연구한다면, 인공지능을 활용한 질병 진단 예측은 발전성이 매우 높은 분야가 될 것으로 기대된다.

References

  • H.Y.Kim, S.H.Park, Y.M.Yun, J.S.Kim, “Predicting Future Promising Technologies Based on Artificial Intelligence Using Biohealth Patent Information”, KOTIS(Korea Technology Innovation Society), Vol.2020, No.11, pp.103~119, November 2020.
  • W.H.Shim, H.S.Song, D.B.Kim, H.S.Lee, “Development of Big Data Analytics Platform for Military Health Information based on AI”, Communications of the Korean Institute of Information Scientists and Engineers, Vol.36, No.4, pp.60-70, 2018.
  • M.J.Kim, Y.S.Yu, “A Study on the Application Methods of Big data in the Healthcare Field”, Proceedings of KIIT Conference(Korean Institute of Information Technology), Vol.2015. pp.35-37, 2015
  • S.H.Lee, J.Y.Kim, “Artificial intelligence technology trend based on medical big data”, The Journal of The Korean Institute of Communication Sciences, Vol.37, No.9, pp.85-91, August 2020.
  • S.J.Jeon, C.B.Moon, “Current status of military medical policy and future policy direction”, KIDA(Weekly Defense Discussion), Vol. 1632, No.16-35, pp.1~8, August 2016.
  • J.G Kim, “Pneumonia scarier than lung cancer, mortality rate for the elderly increases 70 times”, “Health Chosun”, September 2018. Available : https://health.chosun.com/site/data/html_dir/2018/09/19/2018091902307.html
  • K.G.Lee, Y.H.Ji, “Impaired military medical logistics system needs improvement”, “Yakup”, August 2011. Available : http://www.yakup.com/news/index.html?mode=view&cat=12&nid=144603
  • Minghao Piao, J. Y Byun, "Health Examination Data Based Medical Treatment Prediction by Using SVM", KIPS Tr. Software and Data Eng, Vol.6, No.6, pp.303~308 pISSN: 22877-5905, June, 2017.
  • H.J. Jang, J.S. Lim, "Detection of Arrhythmia Using Heart Rate Variability and A Fuzzy Neural Network", Journal of Internet Computing and Services, Vol.10 No.5. pp. 107~116, 2009.
  • C.J. Kim, J. S Kim, “A Study of Heart Disease Prediction Using Multilayer Perceptron based on Deep Learning”, Journal of Knowledge Information Technology and Systems(JKITS), Vol. 13, No.4, pp.411~419, August 2018. [https://doi.org/10.34163/jkits.2018.13.4.001]
  • J.P. Yu, B.U Lee, C.M. Lee, J.E. Lee, M.S. Kim, J.W. Hwang, "The Study of Patient Prediction Models on Flu, Pneumonia and HFMD Using Big Data", Korea Bigdata Society, Vol.3, No.1, pp. 55-62, 2018. [https://doi.org/10.36498/kbigdt.2018.3.1.55]
  • J.H.Ann. “Classification of genetic high risk group for essential hypertension using PRIM" M. S. Dissertation at yonsei University, 2008.
  • C.Kim, J.Kim, “A study of heart disease prediction using multilayer perceptron based on deep learning”, Journal of Knowledge Information Technology and Systems, vol.13, no.4, pp.411~419, Aug. 2018 [https://doi.org/10.34163/jkits.2018.13.4.001]
  • Y.A.Choi, AI-Based Disease Prediction and Analysis Expert System Using Bio Signals, Korea University. 2021
  • J.K.Yu, S.H.Kwon, C.M.Ho, K.R.Lee, N.S.Kim. C.S.Phu. S.J.Park, “Stroke Disease Prediction based on Deep Learning using the Elderly Cohort DB”, Journal of Digital Contents Society, vol.21, no.6, June 2020. [https://doi.org/10.9728/dcs.2020.21.6.1191]

저자소개

임태환(Tae-Hwan Lim)

2012년 : 전남대학교 (학사)

2015년 : 방송통신대학교 대학원 (환경보건학 석사)

2018년~현 재: 명지대학교 대학원 (박사과정)

※관심분야:인공지능, 의료 빅데이터, 정보보호, 기계학습, 의료정보 분석, 국방의료정보체계

임근옥(Keun-Ok Lim)

1993년 : 연세대학교 (학사)

1995년 : 연세대학교 대학원 (석사)

현 재: 명지대학교 보안경영공학과 박사 과정

※관심분야:컴퓨터 보안, 인공지능

정성욱(Sungwook Chung)

2002년 : 서강대학교 (학사)

2005년 : 플로리다대학교 대학원 (석사)

2010년 : 플로리다대학교 대학원 (박사)

2012년~현 재: 창원대학교 컴퓨터공학과 부교수

※관심분야:IoT Architecture 및 실시간 멀티미디어 서비스

한승철(Seung-Chul Han)

1995년 : 서강대학교 (학사)

2003년 : 퍼듀대학교 대학원 (석사)

2007년 : 플로리다대학교 대학원 (박사)

2008년~현 재: 명지대학교 보안경영공학과 교수

※관심분야:정보보호(Personal Information), 모바일, 컴퓨터 보안, 인공지능, 빅데이터

Fig. 1.

Fig. 1.
Attribute and Class Data of normal and Patients with major diseases

Fig. 2.

Fig. 2.
Diseases diagnosis neural network Flow

Fig. 3.

Fig. 3.
AI diseases diagnosis prediction(Table 3.)

Fig. 4.

Fig. 4.
AI diseases diagnosis prediction(Table 4.)

Fig. 5.

Fig. 5.
AI diseases diagnosis prediction(Table 5.)

Fig. 6.

Fig. 6.
AI diseases diagnosis prediction(Table 6.)

Fig. 7.

Fig. 7.
AI diseases diagnosis prediction(Table 7.)

Table 1.

Attributes of training data for normal and Patients with major diseases

No. Attribute Explanation Normal and Patients Data range
1 BMI Body Mass Index(kg/m2)
Underweight(< 18.5), Normal(18.5 ~ 22.9)
Overweight(23 ~ 24.9), Obesity(≧ 25)
16.79 ~ 38.56
2 Systolic blood pressure Blood pressure when the heart contracts
Normal(< 120mmHg)
Prehypertension(120 ~ 139mmHg)
High blood pressure(≧ 140mmHg)
71 ~ 178
3 Diastolic blood pressure blood pressure when the heart dilates
Normal(< 80mmHg)
Prehypertension(80 ~ 89mmHg)
High blood pressure(≧ 90mmHg)
42 ~ 129
4 SGOT_AST
(Liver)
One of the liver function enzyme tests
(liver level test)
Normal(< 40)
Boundary range(41 ~ 59)
8 ~ 194
5 SGPT_ALT
(Liver)
One of the liver function enzyme tests
(liver level test)
Normal(< 35), Caution(41 ~ 59) 3 ~ 388
6 CREATININE
(Kidney)
Renal function test Normal(< 1.5 mg/dL) 0.5 ~ 2.68
7 HCT Percentage of hematocrit in blood Normal(Man : 38 ~ 53, Woman : 36 ~ 46) 34.7 ~ 55.4
8 PLT Platelet(PLT) Count Normal(150 ~ 450) 90 ~ 454
9 WBC White blood cell Count Normal(4 ~ 10) 2 ~ 17
10 HB Hemoglobin levels Normal(Man : 13 ~ 16.5, Woman : 12 ~ 15.5) 11.7 ~ 45
11 RBC Red blood cell Count Normal(Man : 4.2 ~ 6.3, Woman : 4.0 ~ 5.4) 3.62 ~ 6.47
12 TOTAL_CHOLESTEROL Cardiovascular disease risk assessment Normal(< 200), Danger(200 ~ 239)
Dyslipidemia(≧ 240)
88 ~ 372

Table 2.

Predict the diagnostic results of learning data for normal and Patients with major diseases

No. Class
13 1 : Pneumonia, 2 : Tuberculosis, 3 : Rhabdomyolysis, 0 : Normal

Table 3.

Comparison experiment of accuracy value according to the equal number of learnings

learning rate = 30,000
Hidden dimension learning
rate
Depth = 150 Depth = 100
Accuracy(%) Accuracy(%)
6 0.001 70 50
7 0.001 60 60
8 0.001 53.33 53.33
9 0.001 50 56.67
10 0.001 53.33 60
11 0.001 56.67 56.67
12 0.001 40 46.67
13 0.001 56.67 56.67

Table 4.

Table of comparative experimental ressults of Depth, Iterate

learning_rate : 0.001 AdamOptimizer
Depth Hidden
dimension
Iterate Accuracy
150 6 1,000 66.67
150 6 8,000 56.67
150 6 9,000 63.33
150 6 28,500 70
150 6 30,000 70
150 6 40,000 60
150 6 70,000 53.33
150 7 19,500 60
150 7 30,000 60
150 7 50,000 60

Table 5.

Table of experimental ressults of Depth, Iterate

learning_rate : 0.001 AdamOptimizer
Depth Hidden
dimension
Iterate Accuracy
100 9 2,000 56.67
100 9 7,000 60
100 9 13,000 66.67
100 9 15,000 66.67
100 9 16,000 43.33
100 9 16,500 66.67
100 9 17,000 73.33
100 9 17,500 60
100 9 18,000 70
100 9 21,000 66.67
100 9 30,000 56.66
100 9 35,000 46.67
100 9 50,000 43.33

Table 6.

Table of experimental ressults of Depth, Iterate

learning_rate : 0.001 AdamOptimizer
Depth Hidden
dimension
Iterate Accuracy
100 10 3,000 60
100 10 5,000 40
100 10 10,000 46.67
100 10 15,000 56.67
100 10 20,000 63.33
100 10 30,000 60
100 10 50,000 66.67

Table 7.

Table of comparative experimental ressults of Depth, Iterate

learning_rate : 0.001 AdamOptimizer
Depth Hidden
dimension
Iterate Accuracy
100 11 3,000 56.67
100 11 5,000 53.33
100 11 7,000 53.33
100 11 10,000 53.33
100 11 15,000 50
100 11 21,000 56.67
100 11 25,000 56.67
100 11 30,000 56.67
100 11 35,000 56.67
100 11 40,000 50
100 11 50,000 56.67
150 11 4,500 63.33
150 11 7,500 56.67
150 11 10,000 60
150 11 30,000 56.67
150 11 40,500 70

Table 8.

Results of Normal group and disease group classification prediction experiment

Hidden
dimension
Depth Iterate Accuracy
(Total)
Accuracy
(Nomal)
Accuracy
(Patient)
9 100 17,000 73.33 100 90
6 150 30,000 70 90 100
6 150 28,500 70 80 100
11 150 21,000 70 90 95
11 150 40,500 70 90 95
9 100 18,000 70 100 80
9 100 16,500 66.67 90 90
9 100 21,000 66.67 90 90
9 100 13,000 66.67 90 85
10 100 50,000 66.67 90 85
9 100 15,000 66.67 100 80
6 150 1,000 66.67 80 80
11 150 4,500 63.33 100 90
10 100 20,000 63.33 100 75
7 100 30,000 60 80 90
10 100 30,000 60 70 90
9 100 17,500 60 90 85
13 150 21,000 60 80 85
6 150 40,000 60 70 85
7 150 19,500 60 70 85
11 150 10,000 60 90 80
9 100 7,000 60 70 80
7 150 30,000 60 80 75
7 150 50,000 60 80 75
10 120 40,000 60 80 75
10 100 3,000 60 100 70