[ Article ]

Journal of Digital Contents Society - Vol. 24, No. 10, pp.2345-2354

ISSN: 1598-2009 (Print) 2287-738X (Online)

Print publication date 31 Oct 2023

Received 07 Sep 2023 Revised 18 Sep 2023 Accepted 21 Sep 2023

DOI: https://doi.org/10.9728/dcs.2023.24.10.2345

머신러닝 기반 헬스케어 분야 특허의 핵심 기술 분석 연구

김은정¹ ; 이상용² ; 장석권³^{, *}

1한양대학교 경영학과 박사과정
2한양대학교 경영대학 교수
3한양대학교 경영대학 명예교수

Machine Learning-Based Analysis of Core Technologies in Healthcare: Focus on Patent Information

Eun-Jung Kim¹ ; Sang-Yong Tom Lee² ; Suk-Gwon Chang³^{, *}

1PH.D Candidate, Business School, Hanyang University, Seoul 04763, Korea
2Professor, Business School, Hanyang University, Seoul 04763, Korea
3Emeritus Professor, Business School, Hanyang University, Seoul 04763, Korea

Correspondence to: ^*Suk-Gwon Chang Tel: +82-42-860-5658 E-mail: changsg@hanyang.ac.kr

Copyright ⓒ 2023 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구에서는 융합 산업으로 각광 받고 있는 헬스케어 분야의 핵심 특허를 선별하는 방법론을 제시하고자 한다. 이에 본 연구에서는 헬스케어 분야 선진 국가인 미국 및 유럽의 2018년부터 2022년까지 최근 5년간 등록 특허 16,884개를 대상으로 네트워크 분석, 주성분 분석, 군집 분석을 통해 주요 변수들을 도출한 후 예측 모델을 구축하였다. 예측 성능을 평가하기 위해 Random Forest, SVM, XGBoost, LightGBM, Decision Tree 기법을 적용하였으며, 5개 기법 모두 높은 정확도(99%)를 나타내었다. 본 연구 결과로서 핵심 기술 41개를 도출하였으며, 핵심 기술 분야로는 진단·수술(A61B), 의료용 제제 및 치료(A61K, A61P), 데이터처리(G06F), 컴퓨팅 장치(G06N), 이미지 데이터 처리(G06T), 의료정보(G16H), 디지털 전송(H04L), 무선통신(H04W)이 도출되었다. 본 연구의 결과는 헬스케어 분야 기업의 기술 및 특허 전략 수립에 활용될 수 있을 것이다.

Abstract

This study presents a methodology for identifying technology convergence phenomena of the healthcare sector, which is in the spotlight as a convergence industry. We analyzed 16,884 registered patents over the past five years from 2018 to 2022 in the United States and Europe, which are advanced countries in the healthcare sector. Based on these patent data, a prediction model was established after extracting major variables through network, principal component, and clustering analyses. The performance evaluations of the predictive model were conducted through the machine learning algorithm, which displayed high accuracy in all five techniques. This study derived 41 key technologies, including data processing (G06F), computing device (G06N), image data processing (G06T), medical information (G16H), digital transmission (H04L), wireless (H04W), diagnosis and surgery (A61B), or medication and treatments (A61K, A61P). The results can be used as fundamental data when domestic healthcare companies establish patent and technology commercialization strategies.

Keywords:

Healthcare, Network Analysis, Principal Component Analysis, Clustering Analysis, Machine Learning

키워드:

헬스케어, 네트워크분석, 주성분분석, 군집분석, 머신러닝

Ⅰ. 서 론

융합 기술이란 개별 기술의 한계를 극복하고 시너지 효과를 얻기 위해 정보통신기술(IT), 생명공학기술(BT), 나노기술(NT) 등 신기술을 결합하여 생산성을 높임은 물론 미래 의 질 향상에 영향을 주는 고부가 신기술을 말한다[1],[2]. 다수의 산업 동향 조사 보고서에 따르면, IT, BT, NT 간 기술 융합 현상은 산업의 경계를 넘어 막대한 시너지 효과 및 경제적 성과를 낼 것으로 전망하였는데, 그중 IT를 기반으로 한 4차 산업혁명 핵심 기술의 경우, 산업 간 또는 기술 간 융합이 빠르게 진행되고 있으며, 성장 속도도 빠를 것으로 전망하였다. 특히, 코로나 이후 헬스케어 분야는 병원, 기업, 지역사회 그리고 제3섹터가 본격적인 “연결 의료”를 추진하며 IT와의 융합을 통해 빠른 디지털 전환을 시도하고 있다고 보고하고 있다[3]-[5].

디지털 헬스케어 산업은 IT와 BT가 융합된 대표적인 융합 기술 산업이다. 특히 전세계적으로 코로나19 팬데믹, 인구의 고령화, 만성질환 증가와 생활 수준 향상의 영향으로 건강 관리 및 질병 예방에 관심이 높아지면서 디지털 헬스케어 산업은 크게 각광 받게 되었다. 또한 최근 정보통신기술 및 빅데이터에 대한 관심이 높아지면서 헬스케어 패러다임이 인공지능, 빅데이터를 활용한 사물인터넷, 웨어러블 기기 등에 집중하는 디지털 산업으로 전환되고 있다. 선진 국가의 헬스케어 분야 기업들은 핵심기술로서 인공지능 등 첨단기술을 개발하여 다양한 의료 서비스 확장에 집중하며 시장 선점에 힘쓰고, 경영 전략으로서 특허 등 지식재산등록 및 관리를 통해 기술 경쟁력 확보에 힘쓰고 있다. 하지만 우리나라는 헬스케어 산업에 아직 걸음마 단계로, 법제도 개선 및 특정 의료 분야에서 디지털 전환을 시도하는 단계이다. 이에, 헬스케어 분야의 국가 경쟁력의 제고를 위해 선진 국가의 R&D 방향성, 기술 동향, 핵심 기술에 대한 분석 및 고찰이 불가피한 상황이다.

본 연구에서는 선진 국가의 헬스케어 분야 핵심 기술과 기술 융합 현상을 세밀하게 파악해보기 위해 미국 및 유럽 특허를 대상으로 분석을 수행하였다. 본 연구에서는 기술 융합을 통해 창출된 특허·제품 뿐만 아니라 그것을 이루는 핵심 기술에 대한 고찰을 통해 헬스케어 분야의 기업과 산업 활성화 촉진의 중요한 요인을 발견하고자 한다[6],[7].

최근 특정 기술 분야의 핵심 기술 발굴 및 예측에 관한 연구는 데이터 마이닝 기법, 머신러닝 기법의 확산으로 활발하게 진행되고 있다. 주로 기술개발의 결과물인 특허 정보를 중심으로 이루어지고 있는데, 소셜네트워크 분석을 통해 기술 간 융합 관계를 분석하는 연구, 특허 정보와 산업 분류를 매칭하여 산업간 융합 현상을 밝히는 연구, 텍스트마이닝을 통해 기술 및 연구 동향을 분석하는 등의 연구가 주를 이룬다[8]. 그러나 이들은 산업 수준 또는 대분류 수준의 기술 융합 현상만을 분석하므로 세부적인 핵심 기술에 관한 고찰이나 핵심 특허 발굴 방법론을 제시하진 못하고 있다.

이에 본 연구에서는 기존 연구의 미흡한 부분을 보완하여 핵심 기술 도출 및 특허를 도출하기 위한 방법론을 제시하고자 한다. 궁극적으로 헬스케어 관련 기술 및 제품을 이루는 핵심 기술에 관한 고찰을 통해 미래 시장을 주도할 핵심 특허와 기술을 도출하는 데 목적이 있다. 이에 본 연구에서는 헬스케어 분야 선진 국가인 미국 및 유럽의 2018년부터 2022년까지 최근 5년간 등록 특허를 대상으로 핵심 기술을 도출하기 위한 방법론을 제안한다. 이를 토대로 네트워크 분석(Network Analysis), 주성분 분석(Principal Component Analysis), 군집 분석(Clustering Analysis)을 통해 주요 변수들을 도출한 후 예측 모델을 구축하였다. 또한 머신러닝 알고리즘(Random Forest, SVM; Support Vector Machine, XGBoost; eXtreme Gradient Boosting, LightGBM; Light Gradient Boosting Model, Decision Tree)을 통해 예측 모델의 성능 평가를 진행하였다.

본 연구의 결과는 헬스케어 분야 기업의 기술 및 특허 전략 수립에 활용될 수 있으며, 정부 차원에서는 산업을 육성하고 지원하기 위한 정책 수립 및 미래 핵심 원천 기술을 도출하는 데 기초자료로 활용될 수 있을 것이다.

Ⅱ. 선행연구

2-1 특허기반 핵심 기술 도출 연구

특허 데이터는 기업의 기술 경쟁력을 측정할 때, 기술 동향과 핵심 기술을 파악하거나 미래시장의 경제적 가치를 예측할 때 중요한 정보로 활용된다. 특히 특허 빅데이터는 기업, 산업, 국가별 주요 기술 정보를 포괄하고 있어 최신 기술의 동향 및 기술의 융합·확산 그리고 핵심기술 도출 연구에 다양하게 활용되고 있다[6].

특허 정보를 활용한 선행연구는 크게 두 가지로 분류할 수 있다. 첫째, 특허 내 특허인용 정보, 분류코드, 패밀리특허수 등 서지정보를 활용하여 특정 기술분야에 대한 기술동향, 미래예측, 유망분야 도출 등 기술전략, 기술기획과 관련된 연구가 있다. 둘째, 제목, 초록, 청구항 등의 텍스트를 분석하여 패턴, 경향성과 잠재적인 의미를 찾아낸 후 그 특성을 파악하는 텍스트마이닝 연구가 있다.

특허의 서지정보를 활용해 분석한 대다수의 연구는 네트워크 분석, 동시 분류 분석 등의 방법론을 통해 특정 분야의 핵심 기술을 도출하였다. 전재헌[9]과 심재륜[10]의 연구에서는 의료기기와 헬스케어 분야 특허 정보 중 IPC 코드를 대상으로 네트워크 분석을 수행하여 핵심 기술을 도출하였다. 김은정[6]의 연구에서는 헬스케어 분야 특허 정보 중 CPC 코드를 대상으로 토픽모델링 분석과 네트워크 분석을 수행하여 핵심 기술과 기술 융합 현상을 분석하였다. 김현우[11]는 IPC 코드, 인용 정보와 패밀리 정보 분석을 통해 핵심 기술 분야에서 중요도가 높은 특허를 도출하였다. 한정현[12]은 헬스케어와 관련한 한국과 미국 특허데이터를 대상으로 빈도 분석, 시계열 분석, 네트워크 분석을 수행하여 기술 트렌드를 파악하였다. 김도성[13]은 국내·외의 특허 활동력, 시장 확보율, 특허 피인용도를 기반으로 세부 기술별 기술경쟁력을 분석하였다.

특허 내 존재하는 다양한 텍스트를 분석하여 잠재적인 의미 및 특성을 파악하는 연구도 활발히 진행되고 있다. 최진호[14]의 연구에서는 텍스트마이닝 기법을 활용하여 LED 분야의 특허 기술정보를 추출한 다음, 키워드 네트워크 분석을 수행하였다. 이를 통해 특허 각각이 지니는 핵심 기술 요소에 관한 정보를 파악하였다. 이택균[15]은 포털사이트 내 헬스케어 관련 정보를 수집하여 키워드 분석 및 네크워크 분석을 통해 헬스케어 분야의 연구 동향 분석을 수행하였다. 연구결과는 다음과 같다. 2008년~2011년에는 의료와 IT가 융합한 연구, 2012년~2015년에는 의료 및 IT를 기반으로 한 다양한 형태의 기술융합 연구가 주를 이루었다. 2016년~2019년에는 빅데이터, 인공 지능, 블록체인 등의 4차 산업혁명 관련 기술을 적용한 기술 융합 연구가 활발히 진행되었다.

최근 사회과학 분야에서 머신러닝 기법을 활용한 예측 모델 개발 연구들이 증가하고 있다. 박상영[16]은 미국의 산학협력 등록 특허를 대상으로 활용 특허와 미활용 특허를 분류할 수 있는 예측 모형을 개발하였다. 수집한 특허 정보에서 28개의 독립 변수와 1개의 종속 변수를 추출하여 머신러닝 알고리즘을 통해 예측 모델을 개발하였다. 이철주[17]는 주요 5개국, 16개의 산업 R&D 중점 투자 분야를 대상으로 특허 정보를 수집한 후, 5가지의 특정 특허지표를 독립 변수로, 산업기술수준을 종속 변수로 설정하여 국가별 산업 기술 수준을 예측하였다. 김용우[18]는 다양한 특허지표를 활용하여 특허 수명을 예측하였다.

기존 연구는 특정 산업의 특허 정량 지표를 대량으로 수집하여 기술경쟁력을 분석하거나, 유망기술을 선별하거나 기술 동향을 파악하는데 초점을 두고 있다. 이에, 본 연구는 기술 동향 및 패턴을 파악하는 것뿐만 아니라 머신러닝 알고리즘을 활용하여 핵심 기술을 예측하는 방법론을 제시한다. 또한, 기존 연구들보다 더 세분화된 핵심 기술 도출을 위해 특허 분류 체계인 CPC(Cooperative Patent Classification) 코드를 활용함으로써 핵심 기술에 대한 심도 있는 접근을 시도하고자 한다.

Ⅲ. 연구방법

3-1 분석 데이터

본 연구에서는 헬스케어 관련 특허의 핵심 기술을 파악하기 위해 특허 정보 검색 사이트인 ‘Google Patent’에서 특허 정보를 수집하였다. ‘Google Patent’는 구글에서 개발한 특허 검색 엔진으로 전 세계 100여 개 이상의 특허청에서 발행한 다량의 특허 정보를 보유·제공하고 있다.

‘Google Patent’ 서비스를 통해 2018년부터 2022년까지 5년간의 미국 및 유럽의 등록 특허 데이터 중 제목, 초록, 전문에 키워드 ‘healthcare’가 검색되는 특허 총 16,884개를 수집하였다. 본 연구에서는 더 신뢰성 높은 핵심 기술 예측 모델 구축을 위해 헬스케어 분야의 선진 국가인 미국 및 유럽의 특허 정보만을 분석 대상으로 정하였다. 미국 및 유럽에 한정하여 데이터를 수집한 이유는, 글로벌 디지털 헬스케어 분야 혁신지수(과학기술점수) 평가에서 미국, 스위스, 영국, 덴마크, 네덜란드 등 미국을 비롯한 유럽 국가들이 상위 순위를 차지함에 따라, 헬스케어 선진 국가 중심의 기술 동향을 파악해보기 위함이다[19].

3-2 분석 절차

본 연구에서는 네트워크 분석 및 비지도 학습·지도 학습 머신러닝 모델을 활용하여 분석을 수행하였다. 첫 번째 단계에서는 특정 정보 사이트에서 수집한 특허 문서에서 CPC 코드를 추출하여 소셜네트워크 분석을 통해 7가지 지표의 결과 값을 도출한 후, 예측 모델의 독립 변수로 투입하였다.

Fig. 1.

Analysis procedure

두 번째 단계에서는 소셜네트워크 분석 결과로 도출된 CPC 코드별 7가지 지표들의 결과 값들을 대상으로 주성분 분석 및 군집 분석을 수행하였다. 도출된 CPC 코드별 군집 번호를 예측 모델의 종속 변수로 활용하였다.

세 번째 단계에서는 앞서 구성한 변수들을 투입하여 지도 학습 머신러닝 5가지 학습 알고리즘(RandomForest, SVM, XGBoost, LightGBM, Decision Tree)으로 예측 모델의 성능 평가를 진행하였다. 마지막으로 도출된 핵심 기술의 기술 융합 현상을 파악해보고, 핵심 기술을 기반으로 한 핵심 특허를 도출하여 기술·특허의 동향을 파악하고자 한다.

3-3 분석 기법

본 연구에서는 네트워크 분석 및 머신러닝 분석을 위해 Python 및 Gephi 프로그램을 사용하였다.

네트워크 분석(Network Analysis)은 액터(actor)라 불리는 객체 간 관계를 노드(node)와 링크(link)로 모형화하여 네트워크 내에 관계 구조, 확산 과정, 연결 강도를 계량적으로 분석하는 방법론이다[20]. 본 연구에서는 네트워크 분석을 통해 액터 간의 관계를 분석하고, 이들 관계 패턴의 의미를 분석 지표로 도출하여 머신러닝에 활용하였다.

머신러닝 학습 알고리즘은 지도 학습, 비지도 학습, 강화학습으로 나뉜다. 지도 학습은 결과가 있는 데이터를 이용해 학습시켜 활용하는 학습 방법이다. 대표적으로 선형 회귀, 로지스틱 회귀, 소포트 벡터 머신, 결정 트리, 신경망 등의 알고리즘이 있다. 비지도 학습은 데이터는 있으나 결과가 없는 상태에서 학습하는 방법이다. 결과가 없으므로 데이터의 패턴이나 구조를 파악한다. 대표적으로 K-평균 군집화, 커널 밀도 추정, 가우시안 혼합 모델, 주성분 분석 등의 알고리즘이 있다[21].

본 연구에서 목표 변수를 도출하기 위해 비지도 학습 방법론 중 주성분 분석 및 군집분석을 수행하였다. 주성분 분석(PCA; Principal Component Analysis)은 데이터들의 주성분을 찾아주는 방법으로, 데이터의 분산을 최대한 보존하는 새로운 축을 찾아 변환함으로써 차원을 축소하고자 하는 방법이다[22]. 특히 빅데이터가 머신러닝에 활용될 경우 훈련 샘플이 각각 수백만 개의 특성이 있으므로 유의미한 특성들을 찾기가 어렵고 훈련을 느리게 해 결과적으로 성능 저하를 일으키기도 한다[21]. PCA는 데이터들의 분석을 최대한 보존하므로 더욱 성능이 좋은 예측 모델을 구축할 수 있다. 군집 분석(Clustering Analysis)은 각 데이터의 유사성을 측정하여 유사한 데이터들을 같은 군집으로 분류하는 기법이다[23]. 본 연구에서는 주성분 분석으로 축약된 데이터의 정보를 K-means 알고리즘을 활용하여 데이터들의 유형화를 분석하였다. 마지막으로, 입력 변수 및 목표 변수로 구축한 예측 모델을 5가지의 지도 학습 알고리즘(RandomForest, SVM, XGBoost, LightGBM, Decision Tree)을 적용하여 성능을 확인하였다. 본 연구에서 활용한 5가지 지도학습 기반 알고리즘은 분류를 목적으로 하는 알고리즘(Classification Algorithms)으로, 이미 정해진 카테고리(레이블)를 학습하여 새로운 관측 데이터의 카테고리(레이블)를 판별하는 모델이다. 본 연구에서는 앞서 수행한 군집 분석을 통해 획득한 목표변수를 기반으로 데이터와 데이터의 레이블 값을 학습시키고 모델을 생성하였다. 학습된 모델을 통해 주어진 데이터가 어느 범주(군집)에 속한 데이터인지 판단하고 예측하게 된다.

성능 평가에서는 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는지를 확인하기 위해 4가지 평가지표(정확도, 정밀도, 재현율, F-1 score)를 검토하고, 최고의 성능을 나타내는 머신러닝 알고리즘을 확인하였다.

3-4 분석대상 변수 선정

네트워크 분석에서는 특정 노드가 가지는 영향력을 중심성(Centrality)이라고 정의하며, 중심성 지표를 통해 상호작용하는 개체 간 관계의 패턴을 살펴볼 수 있다. 중심성 지표는 대표적으로 연결 중심성(Degree centrality), 근접 중심성(Closeness centrality), 매개 중심성(Betweenness centrality), 아이겐벡터 중심성(Eigenvector centrality)이 있으며, 이 밖에도 Page rank, HITS(Hypertext Induced Topic Selection), Clustering coefficient 지표들이 있다[24]. 입력 변수로 활용될 각 지표의 설명은 표 1과 같다.

Table 1.

Definition of input variables

본 연구에서 네트워크 분석할 대상은 각 특허의 CPC(Cooperative Patent Classification) 분류 코드이다. 특허 문헌에서 기술 분야의 특허 정보를 분류하고 검색하기 위해 IPC(International Patent Classification) 코드와 CPC 코드를 활용한다. CPC 코드는 IPC(7만여 개소) 코드보다 약 4배 많은 26만여 개의 특허 분류 개소가 있으며, 더 세분화된 특허 분류 체계로 구성되어 있다. 세분화된 기술 조사와 해석을 위해 본 연구에서는 CPC 코드를 활용하여 네트워크 분석을 수행하였다.

CPC 코드의 구조는 그림 2와 같이 섹션, 클래스, 서브 클래스, 메인 그룹, 서브 그룹의 계층적 구조로 이루어져 있다. 이런 계층적 구조는 특정 유사성 또는 관련성을 바탕으로 그룹화되어 있으며, 각 서브 그룹은 모그룹인 메인 그룹으로 분류된 기술의 개념을 더욱 세분화한다. 따라서, 본 연구에서는 세분화된 핵심 기술을 탐색하기 위해 서브 그룹을 포함한 CPC 코드를 분석에 활용하였다.

Fig. 2.

Structure of CPC

본 연구에서 CPC 코드를 대상으로 네트워크 분석을 수행하여 표 1의 7가지 지표의 결과 값을 도출하였다. 해당 7가지 지표의 결과 값을 예측 모델의 입력 변수(독립 변수)로 투입하고, 7가지 지표 결과 값의 목표 변수(종속 변수)를 찾기 위해 주성분 분석 및 군집 분석을 수행하여 각각의 CPC 코드별로 군집 번호를 할당하였다. 따라서, 7가지 지표를 입력 변수로, 할당된 군집 번호를 최종 목표 변수로 활용하였다.

3-5 예측 모델 구축

모델의 성능을 검증하기 위해 전체 데이터셋을 훈련 데이터와 테스트 데이터로 나누는 과정이 필요하다. 본 연구에서는 전체 데이터셋의 임의의 80% 데이터를 훈련 데이터셋(Train dataset)으로, 나머지 20%를 테스트 데이터셋(Test dataset)으로 분할하여 모델 성능 평가를 수행하였다. 분류 모델의 성능을 평가하기 위해 정확도(accuracy), 정밀도(precision), 재현율(recall), F-1 score 지표를 사용하였다.

∙ 정확도(accuracy): 분류 모형이 올바르게 분류한 비율, 즉 실제 종속 변수의 범주가 ‘1’인 것을 ‘1’로 분류하거나 실제 종속 변수의 범주가 ‘0’인 것을 ‘0’으로 제대로 분류한 비율
∙ 정밀도(precision): 분류 모형이 ‘1’이라고 분류한 것 중 실제 종속 변수의 범주가 ‘1’인 비율
∙ 재현율(recall): 실제 종속 변수의 범주가 ‘1’인 것 중 분류 모형이 ‘1’이라고 분류한 비율
∙ F-1 score: 정밀도와 재현율의 조화 평균, 즉, 정밀도와 재현율 중 어느 한쪽 값만 클 때보다 두 값이 골고루 클 때 큰 값을 가지도록 설계된 지표

Ⅳ. 연구결과

4-1 소셜네트워크 분석

본 연구의 소셜네트워크 분석은 오픈 소스 네트워크 분석 프로그램인 Gephi 0.10.1 버전을 사용하였다. 수집된 미국 및 유럽의 특허 데이터 총 16,884개의 특허에서 총 30,940개의 CPC 코드를 추출하여 네트워크 분석을 수행하였다. 분석 결과는 그림 3과 같다.

Fig. 3.

Network analysis results (degree centrality)

네트워크의 전체적인 구조를 대략으로 파악하기 위해 연결 중심성(Degree centrality)을 중심으로 네트워크 그래프를 살펴보았다. 가장 많은 연결성을 보이는 상위 5개의 CPC 코드는 ‘G06N 20/00’, ‘A61B 5/0022’, ‘A61B 5/055’, ‘G06N 3/08’, ‘A61P 35/00’으로 나타났다(표 2). 그림 3에서 확인할 수 있듯이 노드(30,940개)와 엣지(147,231개)의 수가 많아 중요한 노드와 노드 간 연결 구조를 파악하기에는 어려움이 있었다.

Table 2.

Core CPC based on degree centrality

선행연구에서도 네트워크 분석의 핵심 지표로 연결 중심성(Degree centrality)을 흔히 활용하고 있다. 단순히 연결성이 높은 노드를 핵심 노드로 간주하기에는 종합적인 해석의 차원에서 많은 한계가 있다. 따라서, 본 연구에서는 연결된 정도 이외에 다양한 해석이 가능한 표 1의 네트워크 지표를 모두 고려하여 영향력 있는 핵심기술을 예측하기로 하였다.

네트워크 분석을 통해 총 30,940개 CPC 코드의 7가지 지표(Degree centrality, Closeness centrality, Betweenness centrality, Eigen vector, Page Rank, HITS, Clustering coefficeint)에 대한 결과 값을 추출하여 주성분 분석 및 군집 분석에 활용하였다.

4-2 주성분 분석 및 군집 분석

앞서 네트워크 분석을 통해 도출한 7가지 지표의 결과 값의 차원 축소를 위해 주성분 분석을 수행하였다. 차원의 수를 결정하기 위해 주성분 벡터가 이루는 축의 분산 비율(Explained Variance Ratio)을 확인해보니, 차원을 2개로 설정할 경우 분산 비율이 약 74%, 3개일 경우 약 90%, 4개일 경우 약 98%로 나타났다<표 3>. 네 번째 축(PC4)은 첫 번째 축(PC1 축)과 7배 차이가 나므로 적은 양의 정보가 들어있는 것으로 판단하여 제외하였다. 결론적으로 7개의 지표의 결과 값에 대해 90.2%의 설명력을 갖는 3개의 축을 중심으로 분석을 수행하였다.

Table 3.

Variance ratio of principal component

주성분 분석을 통해 도출된 3개 축에 대한 분석 값을 기반으로 군집 분석을 수행하였다. 이는 각각의 CPC 코드 값에 군집 번호를 부여함으로써 목표 변수 라벨을 할당해주기 위함이다. 분석된 군집 번호는 예측 모델의 목표 변수로 활용하였다.

군집분석을 수행하기에 앞서, 최적 군집 수를 파악하기 위해 실루엣 계수 분석(Silhouette Coefficient)을 수행하였다. 실루엣 계수는 군집 안에 있는 데이터들이 잘 군집화가 되었는지, 군집끼리 서로 잘 구분되었는지를 평가하는 척도이다. 실루엣 계수가 가장 높은 최적의 군집 수는 5개(실루엣 계수:0.703)로 나타났다. 그림 4는 3차원 그래프상에 5개의 군집을 시각화한 그래프이며, 5개의 군집이 비교적 잘 분류된 것으로 파악된다. 분류된 5개의 군집 중 핵심 기술로만 묶인 군집을 선별하기 위해 각 군집의 지표 값을 살펴보았다.

Fig. 4.

The results of 3D cluster analysis

군집 1에는 전체 CPC 코드 30,940개 중 27,292개(88.21%)가 군집화되었다. 7개 지표의 평균 수치가 다른 군집에 비해 대부분 낮은 것으로 나타났다. 이는 결론적으로 전체 네트워크상 중요도가 가장 낮은 CPC 코드들이 다수 묶인 것으로 판단된다.

군집 2에는 전체 CPC 코드 30,940개 중 890개(2.88%)가 군집화되었다. 7개 지표의 평균 수치가 다른 군집에 비해 비교적 높은 것으로 나타났다. 결론적으로 전체 네트워크상 중요도가 비교적 높은 CPC 코드들이 묶인 것으로 판단되지만, 군집 5에 비해 지표들의 수치가 낮으므로 핵심 기술로 판단하기에는 어렵다.

Table 4.

The average results of network analysis metrics by clusters

군집 3에는 전체 CPC 코드 30,940개 중 2,212개(7.15%)가 군집화되었다. 7개 지표의 평균 수치가 다른 군집에 비해 비교적 낮게 나타났으나, CCO(Clustering coefficient) 지표만 가장 높게 나타났다. 결론적으로 군집 3에 묶인 CPC 코드들은 이웃과 연결 강도가 높은 기술 즉, 네트워크 내의 결집도가 높은 기술들인 것으로 간주할 수 있다.

군집 4에는 전체 CPC 코드 30,940개 중 505개(1.63%)가 군집화되었다. 7개 지표의 평균 수치 중 CC(Closeness centrality) 지표를 제외한 다른 지표의 평균 수치는 다른 군집에 비해 비교적 낮게 나타났다. 결론적으로 군집 4에 묶인 CPC 코드들은 노드와 노드 사이에 짧은 거리에 있으므로 네트워크 안에서 모든 노드에 쉽게 도달할 수 있어 자원을 더욱 쉽게 동원할 수 있는 역할을 수행하는 기술들이 분류되었다.

군집 5에는 전체 CPC 코드 30,940개 중 41개(0.13%)가 군집화되었다. 7개 지표 중 연결성(DC), 근접성(CC), 매개성(BC), 영향력(EV), 중요도(HIT, PR) 지표의 평균값들이 상대적으로 높게 나타났다. 결론적으로 군집 5에 해당하는 CPC 코드가 전체 네트워크상에서 핵심 기술인 것으로 판단할 수 있다.

본 연구는 헬스케어 분야의 핵심 기술과 핵심 특허를 탐색하는 것이 목적이므로 군집 5에 속한 CPC 코드에 초점을 두어 분석을 수행한다. 41개의 핵심 기술(CPC)에 대한 설명은 표 5와 같다. 다만, 군집 5에 속한 41개의 종합적인 융합 현상을 설명하기 위해 CPC 코드의 클래스와 서브 클래스 단위로 핵심 기술을 먼저 살펴보기로 한다.

Table 5.

Core Technologies(41 sub group)

4-3 기술 융합 현상

군집 5에 속해 있는 CPC 코드의 서브 클래스 단위로 기술의 설명은 아래 표 6과 같다. 41개의 CPC 코드는 총 9개의 서브 클래스, 20개의 메인 그룹, 41개의 서브 그룹으로 나뉘며, 진단·수술(A61B), 의료용 제제 및 치료(A61K, A61P)와 관련한 기술들 이외에 데이터처리(G06F), 컴퓨팅 장치(G06N), 이미지 데이터 처리(G06T), 의료정보(G16H), 디지털 전송(H04L), 무선통신(H04W)과 같은 ICT 기술이 과반수를 차지하는 것으로 확인된다.

Table 6.

Subclass of core CPC code

군집 5에 속해 있는 41개의 세부 기술들을 클래스 단위로 살펴보면, 의료기술(A61), 산술논리연산 기술(G06), 정보통신기술(G16), 전기통신기술(H04)로 4개의 기술분야로 구성되었으며, 핵심 기술들의 융합 구성도는 그림 5와 같다.

Fig. 5.

Technology landscape of key healthcare sector technologies

4-4 머신러닝 알고리즘 성능 평가

예측 성능을 평가하기 위해 Random Forest, SVM, XGBoost, LightGBM, Decision Tree 기법을 적용하여 모델의 학습된 결과를 토대로 예측한 결과를 비교하였다(표 7). 5개 알고리즘 모두 99% 이상의 높은 정확도를 나타내었고, 그중 XGBoost가 근소한 차이로 가장 높은 정확도를 나타내었다.

Table 7.

Performance evaluation

4-5 핵심 특허 도출

앞서 도출한 핵심 기술 분야에 속하는 핵심 특허를 탐색하기 위해 각 특허의 CPC 코드를 확인하였고, 특허 질적 성과를 확인하기 위해 피인용 수도 함께 확인하였다. 특허의 피인용 수는 특허의 질적 가치와 기업의 가치와 긍정적인 상관관계가 있으며, 특허의 질적 가치를 나타내는 지표 중 하나이다. 따라서, 핵심기술 이외 피인용수를 함께 고려하여 핵심 특허를 도출하고자 하였다. 16,844개 특허에서 핵심 기술 분야가 3개 이상 속하는 특허를 필터링하고, 각 특허의 피인용 수를 탐색하여 피인용 횟수가 많은 특허 20개를 핵심 특허로 도출하였다(표 8). 수술, 진단, 검사, 환자 모니터링, 진료 목적의 의료기술에 클라우드, 인공지능, 증강현실, 인공신경망과 같은 ICT 분야가 융합된 융합형 의료기술에 관한 특허가 다수 도출되었다.

Table 8.

Core patents based on key technology areas

Ⅴ. 결론

본 연구에서는 헬스케어 관련 특허의 핵심 기술을 파악하기 위해 특허 정보 검색 사이트인 ‘Google Patent’에서 최근 5년간 미국 및 유럽의 등록 특허 총 16,884개를 수집하여 분석에 활용하였다. 수집된 특허 문헌에 CPC 코드 정보를 추출하여 연결성, 근접성, 매개성, 영향력, 중요도 등을 나타내는 7가지의 지표에 대한 결과 값을 도출하기 위해 네트워크 분석을 수행하였다. 또한 CPC 코드별 지표 값에 라벨을 부여하기 위해 주성분 분석 및 군집 분석을 수행하였다. 결과적으로 네트워크 분석을 통해 얻은 7가지 입력 변수와 주성분 분석 및 군집 분석을 통해 도출한 군집 번호를 목표 변수로 활용하여 예측 모델을 구축하였다. 예측 성능을 평가하기 위해 Random Forest, SVM, XGBoost, LightGBM, Decision Tree 기법을 적용하였으며, 5개 기법 모두 높은 정확도(99%)를 나타내었다.

본 연구 결과로 핵심 기술 분야 41개를 도출할 수 있었으며, 핵심 기술에는 진단·수술(A61B), 의료용 제제 및 치료(A61K, A61P)와 관련한 의료 기술들 이외에 데이터처리(G06F), 컴퓨팅 장치(G06N), 이미지 데이터 처리(G06T), 의료정보(G16H), 디지털 전송(H04L), 무선통신(H04W)과 같은 ICT 관련 기술이 과반수를 차지하는 것으로 확인하였다.

아울러, 핵심 특허를 도출하기 위해 수집한 16,844개 특허에서 도출한 41개 핵심 기술 분야가 3개 이상 속하는 특허를 필터링하고, 각 특허의 피인용 수를 탐색하여 피인용 횟수가 많은 핵심 특허 20개를 도출하였다.

본 연구의 결과를 통해 선진 국가의 헬스케어 분야는 바이오 기술과 정보통신기술이 융합되어 그 서비스 및 제품들이 점차 지능화·고도화되고 있다는 것을 파악할 수 있었다. 특히 헬스케어 분야의 성장을 견인할 인공지능 및 빅데이터 기술을 기반으로 더욱 더 정밀하고 정확한 데이터 분석 및 예측이 가능해질 것으로 기대된다.

본 연구에서 도출한 헬스케어 분야의 핵심 기술에 관련한 결과는 기업의 신규 가치 창출을 위한 제품 서비스 개발 방향성을 수립하거나 도움이 될 것이다. 또한, 정부차원에서 헬스케어 산업을 육성·지원하기 위한 전략 및 정책적인 방향성을 수립하는데 기초자료로 활용될 수 있을 것이다. 향후에는 선진 국가의 핵심 기술 예측 모델을 우리나라 사례에 적용하여 핵심 기술을 도출하는 후속 연구를 진행할 예정이며, 특허 지표를 활용하여 예측 모델을 보강할 예정이다.

References

PwC, The Current Status of Remote Medical Treatment in Digital Healthcare, PwC Korea Insight Research: Paradigm Shift, Vol. 2., 2022.
H. S. Chun and P. S. Heo, “A Study on Nurturing Policy of It-Bt-Nt Convergence Industry,” Electronics and Telecommunications Trend, Vol. 21, No. 2, pp. 15-25, 2006.
Y. J. Kim, Healthcare Ecosystem Expanding Through Digitalization, Hana Financial Group : Bi-Weekly Hana Financial Focus, 2022.
K. E. Lee, Directions for the Development of Domestic Digital Healthcare, KISDI:AI Trend Watch, 2021-4, 2021.
IRS Global, Digital Healthcare Global Trend and Future Strategy, IRS Global, September 2020.
E. J. Kim and H. J. Choi, “Analyzing Core Technology and Technological Convergence in Healthcare Using Topic Modeling and Network Analysis: Focus on Patent Information,” Journal of the Korea Institute of Information and Communication Engineering, Vol. 26, No.5, pp. 763-778, May 2022. [https://doi.org/10.6109/Jkiice.2022.26.5.763]
Y. R. Cho and E. S. Kim, “A Corporate Strategy On Technological Convergence Through Analyzing Patent Networks and Strategic Indicators,” The Journal of Intellectual Propert, Vol. 9, No. 4, Pp. 192-221, December 2014. [https://doi.org/10.34122/Jip.2014.12.9.4.191]
E. Y. Park and B. T. Kim, Suggestions for Advancing Core Technology Analysis and Securing Core Patents, Korea Institute of Intellectual Property: IP Focus, 2022-31, 2022.
J.-H. Chun, C.-S. Lee and S. -J. Lee, “Central Technology Deriving for the Patents of Medical Device Using Social Network Analysis,” Management Information Systems Review, Vol. 35, No. 2, pp. 221-254, June 2016.
J. R. Shim, “Technology Convergence Analysis by IPC Code-Based Social Network Analysis of Healthcare Patents,” Journal of Korea Institute of Information, Electronics, and Communication Technology, Vol. 15, No. 5, pp. 308-314, October 2022. [https://doi.org/10.17661/Jkiiect.2022.15.5.308]
H. W. Kim, J. Kim, J. Lee, S. Park, and D. S. Jang, “A Novel Methodology for Extracting Core Technology and Patents by IP Mining,” Journal of the Korean Institute of Intelligent Systems, Vol. 25, No. 4, pp. 392-397, August 2015. [https://doi.org/10.5391/Jkiis.2015.25.4.392]
J.-H. Han, Y.-G. Hyun, U.-R. Chae, G.-H. Lee, and J.-Y. Lee, “A Study on the Healthcare Technology Trends Through Patent Data Analysis,” Journal of Digital Convergence, Vol. 18, No. 3, pp. 179-187, 2020. [https://doi.org/10.14400/Jdc.2020.18.3.179]
D. Kim, S. H. Cho, J. Lee, M. S. Kim, and N.-H. Kim, “A Study on the Competitive Analysis of Digital Healthcare in Korea Through Patent Analysis,” Journal of Digital Convergence, Vol. 16, No. 9, pp. 229-237, 2018. [https://doi.org/10.14400/Jdc.2018.16.9.229]
J. Choi, H.-S. Kim, and G. G. Lim, “Keyword Network Analysis for Technology Forecasting,” Journal of Intelligence and Information Systems, Vol. 17, No. 4, pp. 227-240, December 2011.
T. Lee, “Digtal Healthcare Research Trend Based on Social Media Data,” The Journal of the Korea Contents Association, Vol. 20, No. 3, pp. 515-526, 2020. [https://doi.org/10.5392/Jkca.2020.20.03.515]
S. Park, Y. Choi, and S. Lee, “Investigating the Characteristics of Academia-Industrial Cooperation-Based Patents for Their Long-Term Use,” Journal of Korea Academia-Industrial Cooperation Society, Vol. 22, No. 3, pp. 568-578, 2021. [https://doi.org/10.5762/Kais.2021.22.3.568]
C. -J. Lee, H. Cha, J. Lee, B. Ko, and J. Han, “Research on Industrial Technology Level Evaluation Method Using Patent Information and Machine Learning,” The Journal of Intellectual Property, Vol. 17, No. 2, pp. 295-326, 2022. [https://doi.org/10.34122/Jip.2022.17.2.295]
Y. Kim, M. G. Kim, and Y. M. Kim “Prediction of Patent Lifespan and Analysis of Influencing Factors Using Machine Learning,” Journal of Intelligence and Information Systems, Vol. 28, No. 2, pp. 147-170, 2022. [https://doi.org/10.13088/Jiis.2022.28.2.147]
National IT Industry Promotion Agency, ICT Global Market Analysis: ICT Market Trends by Item - Digital Healthcare, NIPA Global ICT Portal, 2022.
K.-Y. Kwahk, Social Network Analysis, 2nd ed. Cheongram, Seoul, 2017.
S. J. Yeong, Deep Learning with Tensorflow, 1st ed. Gilbut, Seoul, 2021.
S.-H. Kim and J. Kim, “Analysis of the Patent Competitiveness of Major Korean Companies Using PCA,” Journal of Industrial Innovation, Vol. 36, No. 4, pp. 213-241, 2020. [https://doi.org/10.22793/Indinn.2020.36.4.009]
M. S. de Oliveira, V. Steffen, A. C. de Francisco, and F. Trojan, “Integrated Data Envelopment Analysis, Multi-Criteria Decision Making, and Cluster Analysis Methods: Trends and Perspectives,” Decision Analytics Journal, Vol. 8, pp. 1-54, 2023.
S. Kim, S. Park, S. Woo, and S. Lee, “Development and Analysis of the Interchange Centrality Evaluation Index Using Network Analysis,” Korean Society of Transportation, Vol. 35, No. 6, pp. 525-544, 2017. [https://doi.org/10.7470/jkst.2017.35.6.525]

저자소개

김은정(Eun-Jung Kim)

2013년：한양대학교 대학원 경영학 석사

2014년～현 재: 한국전자통신연구원 선임

2017년～현 재: 한양대학교 대학원 경영학 박사과정

※관심분야：기술사업화, 기술혁신, 기술경영, 데이터마이닝, 빅데이터

이상용(Sang-Yong Tom Lee)

1990년：서울대학교 경제학 학사

1992년：서울대학교 대학원 경제학 석사

1999년：TexasA&M대학교 경제학 박사

1999년～2004년: 싱가포르국립대학교 경영정보학과 교수

2004년～현 재: 한양대학교 경영대학 교수

※관심분야：정보경제, 개인정보보호, 보안, 소셜미디어, 빅데이터애널리틱스

장석권(Suk-Gwon Chang)

1979년：서울대학교 산업공학 학사

1981년：KAIST 대학원 산업공학 석사

1984년：KAIST 대학원 경영과학 박사

1984년～2021년: 한양대학교 경영대학 교수

2021년～현 재: 한양대학교 경영대학 명예교수

※관심분야：정보통신정책, ICT 정책, IT경쟁전략, 디지털 컨버전스

	Core CPC	Description
1	G06N 20/00	Machine learning
2	A61B 5/0022	Monitoring a patient using a global network
3	A61B 5/055	Involving electronic [EMR] or nuclear [NMR] magnetic resonance
4	G06N 3/08	Learning methods
5	A61P 35/00	Antineoplastic agents
6	G16H 10/60	For patient-specific data
7	G06F 21/6245	Protecting personal data
8	G06T 7/0012	Biomedical image inspection
9	G06N 3/0454	Using a combination of multiple neural nets
10	A61B 6/032	Transmission computed tomography (CT)

	PC1	PC2	PC3	PC4
Variance Ratio	0.563%	0.174%	0.165%	0.087
Accumulated Value	0.563%	0.737	0.902%	0.988

	num	DC	CC	BC	EV	PR	HITS	CCO	Importance
cluster_1	27,292	5.495	0.192	0	0.005	0	0.001	0.05	-
cluster_2	890	81.931	0.255	0.002	0.125	0	0.021	0.153	2nd
cluster_3	2,212	4.559	0.205	0	0.007	0	0.001	0.788	3rd
cluster_4	505	1.75	0.647	0	0	0	0	0.007	-
cluster_5	41	334.902	0.287	0.015	0.492	0.001	0.088	0.067	1st

Subclass	Subgroup	Description
A61B	A61B 34/10	Computer-aided planning, simulation or modelling of surgical operations
	A61B 34/20	Surgical navigation systems; Devices for tracking or guiding surgical instruments
	A61B 34/25	User interfaces for surgical systems
	A61B 5/0002	Remote monitoring of patients using telemetry
	A61B 5/002	Monitoring the patient using a local or closed circuit
	A61B 5/0022	Monitoring a patient using a global network
	A61B 5/0077	Devices for viewing the surface of the body
	A61B 5/01	Measuring temperature of body parts
	A61B 5/0205	Simultaneously evaluating both cardiovascular conditions and different types of body conditions
	A61B 5/02055	Simultaneously evaluating both cardiovascular condition and temperature
	A61B 5/055	Involving electronic [EMR] or nuclear [NMR] magnetic resonance
	A61B 5/14532	For measuring glucose
	A61B 5/7267	Involving training the classification device
	A61B 5/7275	Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements
	A61B 5/746	Alarms related to a physiological condition
	A61B 6/032	Transmission computed tomography (CT)
A61K	A61K 9/0019	Injectable compositions; Intramuscular, intravenous, arterial, subcutaneous administration; Compositions to be administered through the skin in an invasive manner
A61P	A61P 35/00	Antineoplastic agents
G06F	G06F 21/6245	Protecting personal data
	G06F 3/011	Arrangements for interaction with the human body
	G06F 3/0482	Interaction with lists of selectable items
	G06F 3/167	Audio in a user interface
	G06F 40/30	Semantic analysis
	G06F 9/451	Execution arrangements for user interfaces
G06N	G06N 20/00	Machine learning
	G06N 3/0445	Feedback networks
	G06N 3/0454	using a combination of multiple neural nets
	G06N 3/08	Learning methods
	G06N 7/00	Computing arrangements based on specific mathematical models
G06T	G06T 7/0012	Biomedical image inspection
G16H	G16H 10/60	For patient-specific data, e.g. for electronic patient records
	G16H 30/40	For processing medical images
	G16H 40/20	For the management or administration of healthcare resources or facilities
	G16H 40/63	For local operation
	G16H 40/67	For remote operation
	G16H 50/20	For computer-aided diagnosis
	G16H 50/30	For calculating health indices; for individual health risk assessment
	G16H 50/70	For mining of medical data,
	G16H8 0/00	ICT specially adapted for facilitating communication between medical practitioners or patients
H04L	H04L 67/12	adapted for proprietary or special purpose networking environments
H04W	H04W 4/80	Services using short range communication

CPC code (num)	Description
A61B(16)	Diagnosis; surgery; identification
A61K(1)	Preparations for medical, dental, or toilet purposes
A61P(1)	Therapeutic activity of chemical compounds or medicinal preparations
G06F(6)	Electric digital data processing
G06N(5)	Computer systems based on specific computational models
G06T(1)	Image data processing or generation, in general
G16H(9)	Healthcare informatics
H04L(1)	Transmission of digital information
H04W(1)	Wireless communication networks

Feature	Variable	Description
Degree centrality	DC	Measures the importance or centrality of a node within a network based on the number of connections it has.
Closeness centrality	CC	A measure of the average shortest distance from each vertex to each other vertex.
Betweenness centrality	BC	A way of detecting the amount of influence a node has over the flow of information in a graph.
Eigen Vector centrality	EV	An algorithm that measures the transitive influence of nodes.
Page Rank	PR	A system that measures websites' and webpages' importance based on the links pointing to them.
HITS	HI	The HITS algorithm iteratively updates the authority and hub scores until convergence is achieved. ^*Hypertext Induced Topics Selection
Clustering Coefficeint	CCO	A measure of the degree to which nodes in a graph tend to cluster together.

	Acc.	Rec.	Pre.	F1-s.
Random Forest	0.9971	0.9706	0.9786	0.9745
SVM	0.9973	0.9874	0.9983	0.9928
XGBoost	0.9982	0.9931	0.9970	0.9951
LightGBM	0.9963	0.9536	0.9329	0.9423
Decision Tree	0.9973	0.9727	0.9787	0.9756

Pantent no.	Title
US10849697B2	Cloud interface for coupled surgical devices
US10956950B2	Managing dynamic licenses for physiological parameters in a patient monitoring environment
US11120158B2	Secure permissioning of access to user accounts, including secure distribution of aggregated user account data
US10789387B2	Graphical representation of an information management system
US10360499B2	Methods for using artificial neural network analysis on flow cytometry data for cancer diagnosis
US10957337B2	Multi-microphone speech separation
US10957442B2	Facilitating artificial intelligence integration into systems using a distributed learning platform
US10932860B2	Systems, methods, and media for presenting medical imaging data in an interactive virtual reality environment
US11164679B2	Systems and methods for intelligent patient interface exam station
US10902302B2	Stacked neural network framework in the internet of things
US10959685B2	Ascertaining a function parameter relating to a local tissue function for plurality of tissue regions
US10956683B2	Systems and method for vocabulary management in a natural learning framework
US10922100B2	Method and electronic device for controlling display
US11284797B2	Remote examination through augmented reality
US11171932B2	Data transmitting apparatus, data receiving apparatus, method and program
US11309085B2	System and method to enable remote adjustment of a device during a telemedicine session
US10380738B2	Computed tomography image processing and data analysis
US10492696B2	Portable biometric monitoring device and method for use thereof
US11113816B2	Image segmentation apparatus, method and relevant computing device
US10638951B2	Systems and methods for magnetic resonance imaging