국방의료데이터를 활용한 딥러닝 기반의 폐렴 진단 모델 연구
Copyright ⓒ 2021 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
초록
의학기술이 고도화 되고, 인공지능 기술이 급속히 발전하면서 일정한 패턴을 갖는 질병을 높은 정확성으로 진단할 수 있다는 연구결과들이 보고되고 있다. 폐렴은 장기 입원, 높은 사망률과 관련된 주요 감염 질환으로 집단 감염을 예방하기 위한 조기식별이 중요하다. 본 논문에서는 국방의료 데이터를 활용한 딥러닝 기반의 폐렴 진단 및 예측 연구를 수행한다. 연구결과는 국방의료 데이터를 활용한 진단 및 예측 가능성을 보여준다. 향후 국방의료 데이터를 활용하는 추가적인 연구 및 실험에 다른 주요 질병 및 질환의 조기 발견 및 예측 모델 개발에 활용될 수 있을 것이다.
Abstract
As medical technology advances and artificial intelligence technology develops rapidly, recent research results show that it is possible to diagnose various diseases with high accuracy. Early identification of pneumonia is important to prevent outbreaks of major infections associated with long-term hospitalization and high mortality. In this paper, we conduct research on a deep learning-based pneumonia diagnosis model using military medical data. The experiment results show the possibility of diagnosis and predictability using military medical data. In the future, it can be used for early detection and predictive model development of other major diseases.
Keywords:
AI(Artificial intelligence), Defense medical data, Deep-learning, Medical information analysis, Pneumonia키워드:
인공지능, 국방의료데이터, 딥러닝, 의료정보 분석, 폐렴Ⅰ. 서 론
의학기술이 고도화 되고, 여러 분야에서 발전하였지만, 여전히 질병 진단은 환자들의 검사결과에 대한 의사들의 의학적 지식과 판단에 의존하는 전통적인 방법에 주로 의존하고 있다. 하지만 최근 인공지능 기술이 급속히 발전하면서 질병에 대한 특성과 누적된 진료 데이터가 존재한다면 학습을 통해, 일정한 패턴을 갖는 질병을 높은 정확성으로 진단 할 수 있다는 연구결과들이 보고되고 있다[1]. 따라서 기계학습 등의 인공지능 기술들을 질병 진단 분야에 적용하기 위한 연구가 다양하게 시도되고 있다.
폐렴은 암, 심장 질환에 이은 3대 사망원인 중 하나로, 사망률이 12~14%에 이르는 감염 사망 1위의 주요 감염질환으로 세균, 바이러스 및 드물게 곰팡이 등의 미생물 병원체에 의한 감염 혹은 자가면역 질환에 의해 폐에 생기는 염증성 질환이다. 따라서 장기 입원, 높은 사망률과 관련되어 집단 감염을 예방하기 위한 조기 식별이 매우 중요하다[2]. 폐렴은 의사에 의한 병력 청취와 검진을 통해 의심할 수 있으며 흉부 X-ray, CT 촬영 등의 검사를 통한 폐 음영의 변화, 소변 및 혈액 검사 등 염증수치 이상 결과를 종합하여 진단된다.
군 복무중인 병사들에 대한 대부분의 일반인들의 생각은 젊고 건장한 청년들로 인식하고 있으나, 부대별 주둔지에 따른 다양한 근무환경, 군 의료진 부족 및 어려운 접근성, 생활관 위주의 집단생활로 인한 파급력 등으로 폐렴같이 큰 전파력을 가진 감염병에 대한 조기 진단이 매우 중요하다. 군에서는 병사들 개개인에 대해 정해진 양식의 설문지를 통해 이루어지는 문진, 신장, 체중, 맥박, 혈압 등을 계측하는 신체검사, 혈액 및 소변검사 등의 검사실 검사로 구성된 건강검진(간기능 검사 등 23개 항목)을 시행하고 있으며, 이등병과 상병 시기의 총 2회 정례 건강검진을 실시하고 있다. 그러나 군 생활동안 발견하지 못한 질환이 단기간 내 악화되어 사망에 이르거나 집단 감염 사례가 종종 발생하여 각종 매체 등 여론에 집중받기도 한다[3].
본 논문에서는 인공신경망(Artificial Neural Network)을 활용한 딥러닝 기술을 통해 폐렴을 진단 및 예측하는 연구를 수행한다. 폐렴과 같은 전파력이 강한 감염성 질병을 건강검진 또는 신체검사 등의 검진시점부터 높은 정확성으로 예측해 낼 수 있다면, 군 의료진의 부족에 따른 진단 결과의 지연을 방지하고, 진단 예측에 따른 조기 선별을 통해 폐렴 등 의심환자를 사전 격리하여 집단전염을 차단하는 선제적 대응이 가능하다. 특히, 무증상을 보이는 폐렴 환자의 조기발견과 선별적 검사로 조기 전파 차단 및 예방을 통한 전투력 제고를 기대할 수 있다. 본 논문에서 다루는 질병 진단 예측은, 병영생활의 특성상 100% 정확성보다는 80% 대의 답을 신속하게 찾고, 군 의료진에게 사전 선별을 통해 진료 우선순위를 높이고 진단의 보조를 통해 질병 예측률을 높이기 위한 것으로, 의학적 견해를 배제한 순수 인공지능 기술을 활용한 데이터 분석 연구로 의학적 근거는 없음을 밝힌다.
본 논문의 구성은 다음과 같다. 2장에서는 인공지능 질병 진단 및 예측, 국방의료 데이터에 관련한 기존 연구를 소개한다. 3장에서는 국방의료 데이터와 딥러닝을 활용한 폐렴 진단 시스템을 제안한다. 4장에서는 제안된 시스템을 실제 국방의료 데이터에 적용하여 실험 결과를 분석하고, 마지막 장에서 결론을 맺는다.
Ⅱ. 관련연구
인공지능의 빠른 발전은 다양한 산업분야로 적용되고 있으며, 의료 영역으로 확대는 이제 거스를 수 없는 변화이다. 특히 딥러닝 등의 기계학습 기술들의 발전은 인공지능을 기반으로 한 의료진단 분야에서의 높은 성공 가능성을 시사하고 있다[4].
의료 데이터를 기반으로 특정 질병에 대한 질병 예측 및 진단 관련 연구로는, [5]에서는 구글 및 네이터 트렌드에서 수집한 빅데이터를 활용하여 독감, 폐렴, 수족구 등 세 가지 질병에 대한 각각의 예측 모델을 개발하였으며 랜덤 포레스트 모델과 인공신경망을 활용한 모델을 통해 환자 발생 수를 예측할 수 있음을 제시하였다. [6]에서는 심장병 환자의 데이터를 기반으로 사례기반 추론 기법을 제시하였으며, 심장병 환자의 데이터에 대한 속성들을 이용하여 로지스틱(Logistic) 알고리즘과 베이지안 네트워크(Bayesian Network)알고리즘의 예측성능을 비교하였다. [1]에서는 군집화나 분류 과정에 이용되는 kNN 기법(k-Nearest Neighbor)을 이용한 다중퍼셉트론 심장병 예측 연구를 통해 [6]에서 연구한 알고리즘 대비 예측 정확도가 향상된 방안을 제시하였다.
딥러닝 활용한 학습과 질병 예측진단 모델에 관한 연구로는, [7]은 미국 캘리포니아 대학교 어바인의 머신러닝&인공지능 시스템 센터에서 제공하는 일정한 패턴을 가진 심장병 환자의 진료 데이터를 이용하여 심장병 예측을 위한 텐서플로 기반의 딥러닝 모듈을 개발하고, 학습을 통해 심장병을 예측하는 연구를 제시하였다. [8]은 국민건강보험공단에서 공개한 60세 이상의 고령자 코호트 데이터를 이용하여 합성곱 신경망(Convolution Neural Network, CNN)기반의 뇌졸중 질환예측 모델을 제시하였다. [9]는 기계학습을 이용하여 동반상병 보정 방법에 따른 중증도 보정 재원일수 예측모형을 개발하고, 예측력 비교를 근거로 재원일수의 효율적 관리를 위한 중증도 보정 재원일수 모형 개발 알고리즘을 제안하였다. [10]은 딥러닝 모형을 이용하여 당뇨병 위험도 및 당뇨합병증 위험도 비율에 대한 예측에 대한 연구를 진행하여, 실험을 통해 당뇨합병증 예측에 가장 적절한 모델로 랜덤 포레스트 모델을 제시하였다. [11]에서는 우리나라에서 암을 제외한 가장 높은 사망원인 중 하나인 심뇌혈관질환을 예측하는 인공지능 모델 개발을 위해 특징집합 IG-MLP 평가 기반의 특징선택 방법론을 시뮬레이션 하고 검증하는 연구를 진행하였으며, 우리나라에 맞는 선별된 최적 특징부분집합을 이용한 인공신경망의 분류 모델을 제안하였다. [12]는 한국인유전체역학조사 지역사회 코호트 데이터를 이용한 제2형 당뇨병 발생 예측을 위한 순환신경망(Recurrent Neural Network, RNN)을 이용한 모델을 제시하였으며, 다른 기계학습 모델 (LR, K-NN, SVM) 보다 RNN 모델이 더 높은 성능을 보였음을 제시하였다.
기존 연구들에서는 한정된 외국의 공개된 샘플 데이터, 단순 통계 및 연구용 데이터를 활용하였으나, 본 논문에서는 실제 20~30대의 군 장병의 건강검진결과를 바탕으로 가공된 양질의 국군 의료데이터를 기반으로 환자(질병군)와 건강한 장병(정상군)의 검사 결과 값을 기계학습을 통해 질병의 진단 및 예측 가능성을 분석하였다. 이를 통해 질병 진단 및 예측 정확도가 우수한 모델을 개발하여, 실제 국방 의료 발전과 전투력 제고에 기여한다.
Ⅲ. 딥러닝 기반 폐렴 진단 및 예측 시스템
3-1 데이터 수집 및 가공
학습을 위한 데이터는 국군의무사령부 의료정보체계과에 연구목적 데이터를 의뢰하여 제공받은 2016년~2019년의 누적된 장병들의 건강검진 데이터이다. 개인정보보호를 위해 건강검진 항목에 개인적 확인이 필요한 부분들을 삭제하는 비식별화 전처리 과정을 거친 정량 데이터만 확보하여 분석하였다.
제외한 항목은 건강검진상 자가진단을 통해 기록하는 정성적 데이터로 음주여부, 음주량, 흡연 유무, 흡연량, 운동량 등이며, 본 연구에서는 정량적 데이터인 혈액 검사, 소변검사 등 검사에 따른 종합적 수치 결과에 대한 특정 질병 진단 예측을 위해 제외하였다. 군 관련 데이터는 보안규정 및 군 특성상 데이터 확보에 절차 및 여건상 상당한 어려움이 있으며, 특히 국방정보에 민감할 수 있어 연구목적의 비식별화된 데이터 확보가 매우 중요하다. 약 10만 건의 검진 결과 데이터를 1차 확보하고, 데이터 분석을 통한 이상치, 결측치를 제거하는 전처리 과정으로 약 1만 건의 데이터를 제외하였다. 이를 통해 정상으로 분류된 결과 데이터가 군 의료기관 특성상 소수의 의료진이 다수의 환자 결과를 입력하면서 잘못 기록되었거나, 오진 등 정상으로 분류되었어도 질병이 있는 환자일 가능성을 배제할 수 없다는 분석을 할 수 있었다. 학습 데이터의 속성들은 다음 표와 같다. <표 1>과 <표 2>의 정상 및 폐렴 환자 데이터(속성, 클래스)에 대한 실사례는 <표 3>과 같다. 속성 1~17까지는 병사들의 개인정보 및 검진 결과를 포함하며, 18번째 데이터인 클래스는 0 또는 1에 의해 폐렴 진단 예측 유무를 나타낸다. 본 연구는 속성과 클래스로 구성된 정상인 1,112명, 폐렴 환자 662명, 총 1,774명의 학습데이터를 이용하여 폐렴 예측을 위한 딥러닝 학습을 수행한다.
3-2 딥러닝 기반 폐렴 진단 및 예측 모델
본 연구에서는 딥러닝 기반의 폐렴 진단 및 예측을 위해 다층 신경망(Multilayer Neural Network)기반의 이진분류(binary classification)기법을 구글의 텐서플로우[13]를 이용하여 구현한다. 다층 신경망은 입력층(input layer)와 출력층(output layer) 사이에 여러 층의 은닉층(hidden layer)이 존재하는 신경망으로, 본 연구에서는 다음 그림과 같이 입력층, 은닉층, 출력층을 구성한다. 국방의 DB에서 입력된 데이터들을 전처리기를 통하여 3-1 절에 기술된 데이터 가공과정을 거친다. 입력층은 전처리된 데이터를 입력으로 받아 은닉층과 출력층으로 차례로 전달하며 각 층마다 가충치(weight)와 바이어스(bias)를 가진다. 입력층은 표 1의 데이터 속성에 따라 17개의 입력층 노드와 1개의 출력층 노드를 구성하고, 은닉층 노드의 층수(layers)와 차원(dimension)은 실험을 통해 최적값을 산정한다. 출력층에서는 활성화 함수로 sigmoid 함수를 사용한다. 최적화 알고리즘으로는 경사하강법 중에 선택되는 데이터의 진폭을 줄이고 정확도를 높이기 위한 최적의 Optimizer를 구하기 위해 <표 3>의 여러 Optimizer를 비교 실험하여 본 연구의 최적의 Optimizer를 선정하였다. 또한 학습률(learning rate)과 훈련 횟수 등의 하이퍼 파라미터(hyper parameter) 튜닝을 통하여 최적의 모델을 찾도록 하였다.
Ⅳ. 실 험
딥러닝기반 예측 시스템을 구성하는 최적의 은닉층 계층수와 차원수, 학습을 위한 학습률, 학습 반복횟수를 찾기 위한 실험을 진행하였다. <표 4>의 실험에서는 각각의 하이퍼 파라미터의 최적의 값을 찾기 위해 은닉층 계층수의 변화 외 다른 변수를 고정하였으며, 은닉층 계층수는 4개 일 때 최적의 정확도 값을 산출하였다.
<표 5> 의 실험을 통해 최적의 은닉층 계층수(N=4), 학습률, 학습 횟수를 동일하게 주어진 상태에서 은닉층 차원수에 따른 정확도 값을 산출 하였다. 차원수는 10과 14개일 때 높은 정확도를 보였으며, 이를 비교하기 위한 <표 7>, <표 8>의 실험을 추가적으로 진행하였다.
하이퍼 파라미터 값과 Optimizer의 선정을 통해 정확도 값의 차이 발생에 따라 최적의 값을 선정하는 실험이 필요하다. <표 7>과 <표 8>는 산출된 최적의 하이퍼 파라미터 값에 대한 학습 횟수의 증가 대비 정확도의 값의 변화를 비교하였다. 또한 대표적인 Optimizer인 AdamOptimizer와 RMSPropOpti mizer 비교 실험을 통해 각각의 최적의 학습 횟수 값을 실험하였다. <표 7>의 실험은 은닉층 계층수(N=4), 차원수(N=10), 학습률(0.0001)을 일정하게 설정하고 학습 횟수(5,000~500,000) 변화 및 각 Optimizer에 따른 정확도 값을 비교하였다.
<표 7>의 각 Optimizer와 학습 횟수에 따른 학습 결과 AdamOptimizer의 경우 정확도는 66.67 ~ 86.67%의 예측 값을 보이며 학습 횟수에 증가에 따라 정확도는 낮아지는 경향을 보였으며 증감 폭은 일정하지 않았다. 반면 RMSPropOptimizer는 정확도 53.33 ~ 83.33% 의 예측 값을 보이며 AdamOptimizer 보다는 다소 낮은 예측 값을 보이나, 학습 횟수 증가에 따라 지속적인 정확도 예측 증가를 보였으며 특정 학습 횟수(100,000회) 이상부터는 AdamOptimizer 보다 높은 정확도의 예측 결과를 산출하였다. 실험을 통해 300,000회 이상 학습 시, 예측결과에 대한 정확도가 더 이상 향상되지 않았으며 83.33%으로 일정하게 유지되었다. <표 8>의 실험은 은닉층 계층수(N=4), 학습률(0.0001)을 일정하게 설정하고 차원수(N=14), 학습 횟수(5,000~500,000) 변화 및 각 Optimizer에 따른 정확도 값을 비교하였다. <표 8>의 실험 결과 차원수(N=10) 보다 안정적인 정확도 값의 예측 결과를 보이며, 학습 횟수 250,000회 까지 80% 이상의 정확도를 유지하였다. 각 Optimizer와 학습 횟수에 따른 학습 결과 AdamOptimizer의 경우 정확도는 76.67 ~ 86.67%의 예측 값을 보이며 학습 횟수에 증가에 따라 정확도는 다소 낮아지는 경향을 보였으나 <표 7> 실험 대비 안정적으로 비교적 높은 정확도 값을 유지하였다. 반면 RMSPropOptimizer는 정확도 56.67 ~ 76.67% 으로 차원수(N=10)의 실험 대비 차원수 증가에 따라 낮은 정확도 예측 값을 보였으며, 학습 횟수 증가에 따라 일정하지 않은 증감 폭을 보였다. 결론적으로 AdamOptimizer 선택시 높은 정확도 예측 값을 얻을 수 있는 반면, 실험을 통한 최적의 하이퍼 파라미터 값을 설정하는 것이 필요하다. 실험결과에서는 폐렴(Pneumonia) 진단 예측률은 AdamOptimizer, learning rate=0.0001, Iterate=5,000, Hidden Dimension=10, Depth=4의 설정 값과 Hidden Dimension=14, Depth=4 설정 값일 때 가장 높은 정확도(86.67%)의 예측 결과 값을 보여주었다.
이는 본 연구에서 목표로한 80%이상의 정확도를 달성 할 수 있음을 보여준다.
Ⅴ. 결 론
본 논문에서는 대규모 현역 장병들의 신체검사로 폐렴을 신속하게 진단을 예측하기 어렵다는 한계를 보완하고, 폐렴과 같이 전파력이 강한 감염성 질병을 건강검진 또는 신체검사 등의 검진시점부터 예측을 통해 군 의료진의 부족에 따른 진단 결과의 지연 및 식별 누락을 방지하고, 진단 예측에 따른 선별을 통해 무증상을 보이는 폐렴 환자의 조기발견과 선별적 검사로 조기 전파 차단 및 예방, 의심환자 사전 격리, 집단전염 확산 차단 등 선제적 대응 및 전투력 제고를 위한 연구를 수행하였다.
본 연구는 개인정보 등을 제외한 의학적 데이터를 활용한 순수 인공지능 기술을 활용한 의료데이터 분석 연구로 의학적 견해를 배제하고 인공지능이 누적된 데이터를 통해 데이터가 가지고 있는 의미를 찾을 수 있는지를 확인하고자 하였다. 폐렴 진단 예측 알고리즘을 활용하기 위해서 향후 의학적인 관점에서 추가적인 검증 및 연구가 필요할 것이며, 다양한 인공지능 기술 접목을 통해 정확도 예측을 높일 수 있을 것이다. 또한 영상자료, 정량 · 정성적 데이터 등 의료적 진단을 위한 항목을 선별하고, 추가 데이터 확보를 통한 알고리즘 고도화 연구가 필요하다.
연구결과는 폐렴 진단 예측을 위한 평가 항목인 정확도 예측에서 목표로 한 80% 이상(최대 86.67%)의 실험 결과를 보였다. 따라서 국방의료분야에서의 폐렴 환자의 데이터를 활용한 예측 모델의 질병 예측 가능성을 확인 할 수 있었으며, 향후 의료 데이터를 활용하는 추가적인 연구 및 실험에 다른 주요 질병 및 질환의 조기 발견 및 예측 모델 개발에 활용 될 수 있을 것이다.
또한 현재 국내·외 시장에서 활발하게 개발 연구 중인「AI융합 의료영상 진료·판독 시스템1)」 등의 기술과 융합하여 진단 및 예측을 할 수 있다면, 위 연구결과보다 높은 정확도로 신속하고 정확하게 예측 할 수 있을 것으로 판단된다. 또한 향후에는 남여, 유아~노인으로 데이터 영역을 확장할 수 있겠으며, 정량적 데이터 뿐 아니라 정성적 데이터, 의료영상자료 추가 등 수집 데이터의 범위를 확장한다면 기존 개발한 연구모델보다 정확도를 높일 수 있을 것으로 판단된다.
Acknowledgments
본 연구는 국군의무사령부 연구윤리심의AFMC-19-IRB-118)를 통해 국방의료 데이터를 지원 받았으며, 한국연구재단 이공분야 기초연구사업 중견연구자 지원사업(2017R1A2B1005285)의 지원으로 연구됨.
Notes
References
- C.J. Kim, J. S Kim, “A Study of Heart Disease Prediction Using Multilayer Perceptron based on Deep Learning”, Journal of Knowledge Information Technology and Systems(JKITS), Vol. 13, No. 4, pp. 411~419, August 2018. [https://doi.org/10.34163/jkits.2018.13.4.001]
- J.G Kim, “Pneumonia scarier than lung cancer, mortality rate for the elderly increases 70 times”, “Health Chosun”, September 2018. Available : https://health.chosun.com/site/data/html_dir/2018/09/19/2018091902307.html
- J.Y.Baek Soldiers' Health Examination and Health Behavior, Kyungwon School Management Graduate School Master's Dissertation, 2008
- K.T. Kim , Disease Diagnosis Artificial Intelligence Development Trend, BRIC View, 2020
- J.P. Yu, B.U Lee, C.M. Lee, J.E. Lee, M.S. Kim, J.W. Hwang, "The Study of Patient Prediction Models on Flu, Pneumonia and HFMD Using Big Data", Korea Bigdata Society, Vol.3, No.1, pp. 55-62, 2018. [https://doi.org/10.36498/kbigdt.2018.3.1.55]
- M.H.Yoon, J.H.Kim and H.Jin, “Prediction for performance of kNN in diagnosis considering features of coronary artery disease dataset”, Proceedings of the Institute of Electronics Engineers of Korea, Nov. 2013.
- C.Kim, J.Kim, “A study of heart disease prediction using multilayer perceptron based on deep learning”, Journal of Knowledge Information Technology and Systems, vol.13, no.4, pp.411~419, Aug. 2018 [https://doi.org/10.34163/jkits.2018.13.4.001]
- J.K.Yu, S.H.Kwon, C.M.Ho, K.R.Lee, N.S.Kim. C.S.Phu. S.J.Park, “Stroke Disease Prediction based on Deep Learning using the Elderly Cohort DB”, Journal of Digital Contents Society, vol.21, no.6, June 2020. [https://doi.org/10.9728/dcs.2020.21.6.1191]
- J.H. Park, Research on the development of a financial resource day prediction model for severity correction using machine learning, doctoral dissertation at Inje University, 2018
- S.Y.Kim, Research on predictive model of complications using machine learning method, doctoral dissertation of South Seoul National University, 2019
- K.R Kim ・ J.K Kim ・ J. S Lee, "Optimized Feature Selection using Feature Subset IG-MLP Evaluationbased Machine Learning Model for Disease Prediction", The Korea Society Simulation, Vol. 29, No. 1, pp. 11-21, Mar. 2020.
- J.S. Jang, M.J. Lee, T.N. Lee, “Development of T2DM Prediction Model Using RNN”, Journal of Digital Convergence, Vol. 17. No. 8, pp. 249-255, 2019.
- Google Tensorflow, “Overview of tensorflow”, [Internet]. Available: https://www.tensorflow.org/
저자소개
2012년 : 전남대학교 (학사)
2015년 : 방송통신대학교 대학원 (환경보건학 석사)
2018년 : 명지대학교 대학원 (박사과정)
2018년~2020년 : 국군의무사령부, 국방의료정보체계TF 근무
※관심분야:인공지능, 의료 빅데이터, 정보보호, 기계학습, 의료정보 분석, 국방의료정보체계
1995년 : 서강대학교 (학사)
2003년 : 퍼듀대학교 대학원 (석사)
2007년 : 플로리다대학교 대학원 (박사)
2008년~현재 : 명지대학교 보안경영공학과 교수
※관심분야:정보보호(Personal Information), 모바일, 컴퓨터 보안, 인공지능, 빅데이터