행정표준코드의 기관코드를 활용한 공공데이터의 품질 개선 방법 제안
Copyright ⓒ 2022 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
초록
데이터 품질은 데이터 생애주기 전 과정에서 고려해야 하는 중요한 원칙이다. 정부는 공공데이터 품질을 확보하기 위해 공공기관의 품질관리 수준을 평가하고, 품질평가 지표를 제시하고 있다. 그러나 기존 품질관리 평가는 기관 데이터베이스를 중심으로 구성되어 있어 데이터값 수준의 평가에 적용하기 어렵다. 개방된 데이터세트에 대한 품질평가는 메타데이터나 일부 항목의 값 형식을 평가한다. 데이터값 수준의 정확성을 평가하고, 오류값을 정확한 값으로 개선하는 연구는 부족하다. 본 논문은 공공데이터포털에 개방된 데이터세트를 대상으로 값 수준의 품질을 평가하고, 행정표준코드 중 기관코드를 적용해 기관명 데이터의 품질을 개선하는 방법을 제안한다. 행정표준코드는 행정기관의 데이터베이스에서 사용하는 표준코드로, 기관과 관련된 기관코드를 포함한다. 품질평가 지표는 값 수준의 품질을 평가할 수 있는 완전성과 정확성을 사용한다. 평가 결과, 공공데이터포털에 개방된 파일데이터의 완전성은 0.74이며, 부정확한 기관명 데이터 859,509건의 값을 개선했다.
Abstract
Data quality is an important requisite to be considered throughout the data lifecycle. In order to secure the quality of public data, Korea government evaluates the data quality management level of administrative institutions and presents data quality indicators. However, the existing quality management process is organized around the database, making it difficult to apply to the dataset. Quality evaluation for opened datasets usually targets the format of values of specific attributes or metadata. There are insufficient studies to evaluate the quality of data value and improve the error value to the correct value. This paper evaluates the quality of public data released to public data portal and proposes a method to improve the quality of data by applying administrative standard codes. Quality evaluation indicators use completeness and accuracy to evaluate the quality of the value. As a result of the evaluation, the completeness of the file data released to the public data portal is 0.74, and 859,509 rows of inaccurate organization name is improved.
Keywords:
Data quality, Public data, Public data portal, Public data quality indicator, Quality improvement키워드:
데이터 품질, 공공데이터, 공공데이터포털, 공공데이터 품질평가 지표, 품질 개선Ⅰ. 서 론
데이터 품질은 데이터 생애주기 전 과정에서 고려해야 할 중요한 원칙이다. G8 오픈 데이터 헌장(G8 Open Data Charter)은 캐나다, 미국, 영국, 프랑스, 독일, 이탈리아, 일본, 러시아 8개 국가가 합의한 데이터 공개 원칙으로, 고품질과 대용량 데이터를 개방하고, 개방한 데이터의 품질 향상을 위한 지속적인 유지·관리를 강조한다[1]. 높은 품질의 데이터는 사용자가 데이터를 처리하는 과정을 단축하고, 데이터 기반의 올바른 의사결정을 돕는다[2]. 공공데이터의 적정한 품질 수준을 확보하는 것은 공공데이터의 활용을 높이기 위한 선결 조건이다.
데이터 품질은 ‘특정 조건에서 사용될 때 명시적이고 암시적인 요구를 충족시키는 데이터의 능력’을 의미한다[3]. 한국정보화진흥원의 공공데이터 품질관리 매뉴얼은 데이터 품질을 ‘데이터의 최신성, 정확성, 상호연계성 등을 확보하여 이를 사용자에게 유용한 가치를 줄 수 있는 수준’으로 정의하고 있다[4]. 데이터 품질에 대한 보편적인 정의는 사용자가 본래의 목적에 따라 데이터를 활용할 수 있는 수준으로, 사용 적합성을 강조한다[2].
한국 정부는 공공데이터의 품질 수준을 확보하기 위한 노력을 기울이고 있다. 행정안전부는 공공기관의 데이터 품질관리를 위해 상세한 가이드라인을 제공하고[4], [5], 2016년부터 매년 공공데이터 품질관리 수준 평가를 시행하고 있다[6]. 그러나, 공공데이터 품질관리는 기관 데이터베이스에 적용되는 지침이고, 공공데이터 품질관리 수준 평가는 개방 여부가 아닌 기관 업무를 기준으로 선정한 데이터베이스의 품질을 평가하기 때문에, 평가 대상이 모호하다[7]. 한국지능정보화진흥원은 개방된 데이터세트의 품질관리를 위해 개방데이터 진단·정비 도구를 배포하고 있다[8]. 그러나 사용자가 각 항목의 진단 규칙을 직접 지정해야 하고, 지정한 규칙을 바탕으로 날짜, 전화번호, 여부 등 일부 항목 값의 구문적 형식을 평가한다. 즉, 개방된 데이터세트의 품질을 진단하고, 값 수준의 정확성을 판단하는 데 한계가 있다.
행정표준코드는 행정기관의 정보시스템에서 사용되는 코드값과 코드값의 의미를 정하여 표준화한 것으로, 기관, 법정동, 행정구역 등 다양한 도메인을 포괄한다[9]. 행정표준코드 종에 따라 코드값과 코드값 의미, 관리항목으로 구성된다. 예를 들어, 기관코드는 기관에 대한 7자리의 코드값이고, 코드값이 부여된 기관에 대한 전체기관명, 유형 분류, 계층 관계 등의 항목을 포함한다.
본 논문은 공공데이터포털에 개방된 데이터세트를 대상으로 데이터값의 품질을 진단하고, 일부 데이터의 품질을 개선하기 위해 행정표준코드를 적용하는 방법을 제안한다. 논문의 구성은 다음과 같다. 2장은 공공데이터 품질평가에 대한 관련 연구를 통해 공공데이터 품질평가 지표와 평가 방법을 파악한다. 3장은 행정표준코드를 설명한다. 4장에서 공공데이터 품질평가 지표를 정의하고, 5장은 품질평가와 오류 데이터의 개선 결과를 요약한다. 마지막 6장을 통해 논문의 요약과 한계, 향후 연구를 제시한다.
Ⅱ. 관련연구
해외 공공데이터 품질평가 연구는 국가 특성[10], 데이터 주제분야[11]에 따른 공공데이터 평가 프레임워크를 구축하거나, 공통적으로 사용할 수 있는 품질평가 프레임워크를 정의하고 있다[2], [12]. Vetro et al.[12]은 OGD(Open Government Data)의 정량적인 품질평가를 위한 지표로 추적가능성(Traceability), 최신성(Currentness), 만료(Expiration), 완전성(Completeness), 준수성(Compliance), 이해가능성(Understandability), 정확성(Accuracy)을 정의하고, 데이터세트와 셀(cell) 수준의 품질을 평가하기 위한 14개의 메트릭을 제시했다. 완전성과 정확성에 대한 메트릭은 데이터 도메인과 특성에 따라 세부 지표를 조정하고, OGD의 품질 평가에 적용할 수 있다. 예를 들어, 유의미한 값의 비율을 측정하는 완전성은 결측(null), 기본값에 대한 정의를 바탕으로 유의미한 값의 기준을 정해야 하고, 정확성은 각 속성에 지정된 도메인에 따라 유효하고 정확한 값이 결정된다.
Zhang & Xiao[2]는 2009년에서 2019년 사이에 출판된 OGD 품질평가 프레임워크 관련 논문 10편을 대상으로 질적 메타 분석(Qualitive meta-synthesis)을 수행하여, 공통 참조 품질평가 프레임워크를 정의했다. 연구 결과, 가장 일반적으로 사용되는 품질 특성은 정확성(Accuracy), 완전성(Completeness), 적시성(Timeless), 이해가능성(Understandability), 일관성(Consistency), 접근성(Accessibility)이다. 각각의 품질 특성은 OGD의 발견, 다운로드, 사용 단계와 관련이 있다. 예를 들어, 정확성과 완전성, 업데이트 빈도에 대한 적시성, 사용자가 이해할 수 있는 표현에 대한 이해가능성, 데이터와 메타데이터의 일관된 형식을 의미하는 일관성은 데이터 사용 단계에서 중요한 영향을 미친다. 하지만, 접근성은 데이터에 접근할 수 있는 정도를 가리키는 지표이며, 발견, 다운로드 단계에서 주요한 품질이다.
국내 연구는 공공데이터의 관리[13], 개방 정책의 평가[14], 활용성 제고[15] 등의 목적으로 품질 지표를 정의하고 있다. 실제 공공데이터를 대상으로 품질 평가를 수행한 연구는 [7], [16], [17]이다. 김학래[7]는 공공데이터포털의 개방표준 데이터를 대상으로 정확성과 완전성 품질을 진단했다. 개방표준 데이터의 완전성과 정확성 지수는 각각 0.88, 0.78로 높은 수준이지만, 국가 표준데이터인만큼 높은 품질을 확보할 것을 강조했다. 방승열 외 3명[16]은 완전성, 유효성, 일관성, 정확성, 적시성, 보안성으로 6개의 품질진단 항목을 정의하고, 공공데이터포털에 개방된 데이터베이스 형태의 데이터 2건의 품질을 평가했다.
평가 결과, 주된 오류는 날짜, 번호에 대한 항목의 유효성 오류이며, 해당 항목의 형식 표준화가 미흡함을 지적했다. 이원재, 김휘강[17]은 여부, 날짜, 코드, 번호와 관련된 항목의 값 형식에 대한 유효성, 항목 간의 참조 무결성을 평가하는 정합성을 품질 지표로 정의하고, 공공데이터 86건에 적용했다. 도출한 오류값은 행정기관 업무 규칙과 표준화 지침을 바탕으로 수정되었으며, 오류율을 16.13%에서 0.15%로 개선했다.
기존 공공데이터 품질 관련 연구는 품질 요소를 정의하고, 평가지표를 언급하는 수준으로, 최근에는 정의한 품질 지표를 바탕으로 공공데이터의 품질을 평가하여 개선 방안을 제시하는 연구가 이뤄지고 있다. 그러나, 평가 대상이 일부 항목의 구문적 규칙에 한정되어 있기 때문에 데이터값의 정확성을 평가하고, 오류를 개선하기 위한 연구는 부족한 실정이다. 본 연구는 공공데이터를 대상으로 데이터값 수준의 품질을 평가하고, 행정표준코드를 적용하여 일부 데이터의 오류를 개선하는 방법을 제안한다.
Ⅲ. 행정표준코드의 개요
행정표준코드는 각급 기관의 행정업무에 필요한 코드를 표준화한 것으로, 행정기관이 신규 정보시스템을 구축하거나 기존 시스템을 개선할 때 반드시 적용해야 한다[18]. 1990년, ‘행정전산망 공통행정 표준코드’ 11종이 제정된 이후 추가제정과 폐지를 거쳐 2021년 기준, 총 239종의 행정표준코드가 고시되어 있다[9]. 행정표준코드는 행정환경의 변화에 따라 코드값과 의미를 현행화할 수 있는 관리체계를 갖추고 있다. 행정안전부는 행정표준관리시스템과 공공공데이터포털을 통해 파일데이터, 오픈 API의 형태로 행정표준코드를 제공한다.
행정표준코드의 목적은 행정정보시스템의 코드 표준화를 통한 행정정보 공동이용의 효율화다[18]. 공공기관의 데이터 표준화는 각 기관 시스템에 산재해 있는 데이터 정보 요소의 명칭, 정의, 형식, 규칙 등을 정하고, 이를 기관 전체 데이터에 적용하는 것을 의미한다[5]. 기관은 행정표준코드를 적용하여 데이터 관리의 효율성을 높이고, 개별 기관에서 생산한 행정정보를 공동으로 이용할 수 있다[18].
기관코드는 행정표준코드의 ‘기관’ 관련 코드이고, 숫자 또는 알파벳과 숫자로 구성된 7자리의 기호를 코드값으로 사용한다. 기관코드 데이터는 코드값과 코드값이 부여된 기관의 이름, 계층 관계, 유형 분류, 소재지, 존폐 여부 등의 정보를 포함한다.
기관코드는 행정기관과 행정정보를 공동으로 이용하는 법인, 기관, 단체에 부여하며[19], 개별 기관에서 실, 국, 과, 팀, 본부 등 상세한 수준으로 조직을 식별한다. [그림 1]은 행정안전부와 관련된 기관코드 데이터의 일부다. 기관코드 데이터의 존폐 여부(existing status)는 코드값의 존폐를 ‘0’과 ‘1’로 구분한다. 즉, ‘1740000’은 행정안전부의 전신인 ‘행정자치부(Ministry of the Interior)’에 부여된 코드값이며, 2014년 11월 19일에 생성되어 2017년 7월 26일에 폐지되었다. 현존하는 코드값인 ‘174100’은 ‘행정안전부(Ministry of the Interior and Safety)’를 의미한다.
행정안전부 소속의 디지털정보국, 공공데이터정책관, 공공데이터정책과의 코드값은 각각 ‘1741505’, ‘1741511’, ‘1741523’이다. 각 조직의 공식적이고 완전한 이름은 전체 기관명(full name)에 표현된다(예: 행정안전부 디지털정보국 공공데이터정책관 공공데이터정책과). 최하위 기관명(the lowest name)은 전체 기관명의 일부인 가장 상세한 수준의 이름을 표현한다(예: 공공데이터정책과).
기관코드는 각급 기관의 자체 통합시스템과 행정표준관리시스템의 자동 연계를 통해 관리된다[18]. 중앙행정기관(정부조직관리정보시스템), 지방자치단체(지방인사정보시스템), 공공기관과 민간기관(행정정보공동이용시스템)은 각각의 통합시스템을 사용하고, 행정표준관리시스템은 각 통합시스템과 연계하여 기관코드를 현행화한다. 예를 들어, 중앙행정기관에 속하는 행정안전부는 정부조직관리정보시스템에 등록된 행정안전부와 관련된 정보를 변경한다. 변경된 내용은 시스템 간의 연계를 통해 행정표준관리시스템에 자동으로 반영되고, 행정표준관리시스템은 연계된 다른 통합정보시스템에 배포한다. 기관코드는 시스템 간 연계를 통해 각급 행정기관의 정보시스템에 범용적으로 사용되고 있다.
Ⅳ. 공공데이터 품질평가 지표
공공데이터의 제공 및 이용 활성화에 관한 법률 제22조에 따르면, 공공기관은 보유한 공공데이터의 품질을 수시로 진단해야 한다[19]. 특히, 공공데이터를 개방하거나 갱신하는 경우, 기관은 개방할 공공데이터의 품질을 진단해야 한다[6]. 행정안전부는 공공데이터 품질 진단 지표로 준비성, 보안성, 완전성, 일관성, 유용성, 적시성, 정확성을 정의하고 있다[4].
그러나 7가지 품질 지표는 기관 데이터베이스를 중심으로 구성되어 있어, 개방된 데이터세트의 품질을 평가하는 데 적합하지 않다. 준비성과 보안성, 적시성은 기관의 데이터 품질관리를 위한 제반사항, 시스템 성능과 관련된 지표다. 준비성은 데이터 품질관리를 위한 관리요소의 정의와 기술사항을 평가하는 지표로, 기관 차원의 데이터 관리를 평가한다. 데이터베이스의 보안 관리, 접근 권한에 대한 보안성, 데이터 생성에서 제공까지 소요되는 시간과 데이터베이스 성능에 대한 적시성은 개방된 공공데이터에 적용할 수 없다[7]. 마찬가지로, 유용성은 제공 데이터와 서비스에 대한 지표로, 데이터값 수준의 품질을 정량적으로 평가할 수 없다.
완전성과 일관성, 정확성은 데이터의 품질을 정량적으로 평가하는 데 적용할 수 있다. 완전성은 데이터베이스의 논리모델과 키, 물리적 구조를 평가한다. 일관성은 데이터의 일관된 속성과 형식, 연계 규칙을 기준으로 품질을 평가하고, 정확성은 데이터 항목의 값이 업무규칙, 참조관계에 따라 유효한 범위 내에 존재하는지를 평가한다. 그러나 완전성은 기관 데이터베이스의 키, 관계를 평가 항목으로 정하고 있고[7], 일관성, 정확성의 세부 특성은 데이터 형식을 규정할 수 있는 일부 항목에 한정되어 있다. 때문에 개방된 공공데이터에 대한 값 수준의 오류를 평가하기 적합하지 않다.
본 연구는 데이터값의 품질을 정량적으로 평가하기 위한 품질 지표로 Vetro[12]의 완전성(Completeness)과 정확성(Accuracy)을 사용한다. 단, 공공데이터는 다양한 도메인을 갖고 있고, 값의 도메인은 속성에 따라 다를 수 있기 때문에, 실제 공공데이터에 적용하기 위해 메트릭을 조정할 필요가 있다[12]. 때문에 본 연구는 데이터세트 단위로 정의된 메트릭을 열 단위로 변경하고, 도메인을 한정한다.
[표 1]은 조정한 품질평가 지표의 정의다. 데이터 품질은 0에서 1 사이의 값이며, 소수점 셋째 자리에서 반올림한다.
완전성(C)은 열에서 완전한 값이 있는 셀의 비율이다. 완전하지 않은 셀(ic, number of incomplete cells)은 결측(null), 띄어쓰기(공란) 또는 특수문자로 구성된 셀이다. 완전한 셀은 의미있는 값을 가지고 있거나, 비어있지 않은 셀이며, 전체 셀(ncl, number of cells)에서 완전하지 않은 셀(ic)을 제외한 셀을 측정한다[12].
(1) |
정확성(A)은 열에서 도메인에 대해 유효한 값을 가진 셀의 비율이다. 정확성은 구문적 정확성(Syntactic Accuracy)과 의미적 정확성(Semantic Accuracy)으로 해석할 수 있다. 구문적 정확성은 데이터값이 도메인에 정의된 값 또는 범위를 준수하는 정도이고, 의미적 정확성은 데이터값이 현실의 값 또는 참조 데이터와 비교하여 유효한 정도를 의미한다[20]. 본 연구는 기관명 도메인의 일부 데이터값의 오탈자, 구문적 오류를 포함한 값을 개선하기 위해 구문적 정확성을 중심으로 정확성을 평가한다. 즉, 정확성은 전체 셀(ncl)에서 구문적으로 정확한 셀(sac, number of syntactically accurate cells)의 비율으로 측정한다.
(2) |
Ⅴ. 분석 결과
[그림 2]는 품질 평가를 위한 데이터 수집과 정제, 기관명 관련 데이터와 품질 개선 데이터를 선정하는 과정을 표현한 것이다. 각 과정에 따라 변동된 데이터 수량은 하단에 기재했다.
(1)분석 대상은 공공데이터포털에 개방된 CSV 형식의 파일데이터로, (2)오류 데이터를 제외한 나머지 데이터세트다. (3)기관명 도메인의 정확한 값인 참조 데이터는 기관코드의 ‘전체 기관명’을 정제해 사용한다. (4)데이터 품질은 4장에서 정의한 완전성과 정확성으로 평가한다. 품질 개선 대상은 기관명 도메인의 데이터값으로, 기관코드의 ‘전체 기관명’과의 일치율을 기준으로 선정할 수 있다. 전체 데이터에서 (5)기관명과 관련이 없는 열을 삭제하고, (6)품질 개선 대상을 선정한다. (7)품질 개선 대상의 오류값을 추출해 (8)정제한다.
5-1 데이터 수집
분석 대상은 공공데이터포털에 개방된 CSV 형식의 파일데이터로, 파이썬의 뷰티풀 수프(BeautifulSoup)와 셀레니엄(Selenium) 라이브러리를 사용해 총 26,049건(2021년 2월 기준)을 수집했다[그림 2 - (1)]. 수집한 데이터세트 중 공공행정 분야의 데이터세트가 3,951건으로 가장 많고, 그 외에도 산업고용(3,285건), 문화관광(2,275건), 교통물류(2,233건), 환경기상(1,970건), 사회복지(1,961건), 농축수산(1,621건), 보건의료(1,565건), 재난안전(1,524건), 국토관리(1,475건), 교육(1,407건), 재정금융(1,123건), 식품건강(749건), 과학기술(453건), 통일외교안보(364건), 법률(93건) 등 전체 분야의 CSV 파일데이터를 수집했다.
수집한 데이터세트 중 인코딩 오류(277건)와 파일 손상 또는 포맷 불일치 오류(310건)로 처리가 불가능한 데이터세트는 587건을 제외했다[그림 2 - (2)]. 그 결과, 분석 대상 파일은 25,462건이고, 데이터 규모는 340,462개 열과 2,229,326,636개 행이다[그림 2 - (4)]. 분석 대상 파일은 평균적으로 12개 열과 9,435개 행을 가지고 있다.
행정표준코드는 공공기관의 정보시스템에서 사용되는 표준으로, 공공데이터의 참조 데이터로 사용할 수 있다. 공공데이터는 다양한 도메인을 가지고 있고, 행정표준코드는 236건의 표준코드를 고시(2021년 2월 기준)하고 있다[18]. 행정표준코드를 공공데이터에 적용하기 위해, 품질 개선 대상은 기관명 도메인으로 한정한다.
2021년 2월을 기준으로, 기관코드의 코드값은 총 399,630건이다. 전체 기관코드 중 폐지된 코드는 277,790건이고, 121,840건의 코드가 현재 사용되고 있다. 기관명의 참조 데이터는 기관코드 데이터 중 완전한 기관명을 표현하는 ‘전체 기관명’이다. ‘전체 기관명’을 기준으로 중복 값 17,952건을 제거하고, 인코딩 오류 21건을 삭제한 결과, 정확한 기관명의 참조 데이터는 총 381,657건이다[그림 2 - (3)]. 품질평가는 평가지표에 따라 파이썬 코드를 작성하고, 전체 데이터세트에 대해 자동으로 수행하도록 한다.
5-2 공공데이터 품질평가
공공데이터포털에 개방된 파일데이터의 완전성은 0.74다. [그림 2 - (4)]의 데이터를 대상으로 품질 평가를 수행한 결과다. 전체 열 중 모든 값이 완전한 열(C = 1)은 60%로, 전체 열의 절반 이상이 완전한 열이다.
그러나 17%(57,023건)의 열이 완전성 0으로 나타났다. 즉, 공공데이터에 포함된 57,023개 열의 값이 공백, 특수문자, 결측값으로 구성되어 있다는 뜻이다. 완전성 0인 열은 값이 없거나, 누락되었거나, 공백인 경우(‘Unnamed:’, 공백, 결측 등), 외국어로 표현된 값의 인코딩 오류(‘히라가나’, ‘중국어’, ‘한문’ 등)를 포함한다. 파일 형식의 공공데이터는 기관의 데이터베이스에서 추출한 일부 데이터가 개방된 것이다[7]. 데이터베이스에서 데이터를 추출하는 과정에 일부 값이 누락될 수 있고, 값 자체의 오류가 발생할 수 있다.
5-3 품질 개선 대상 데이터 선정
기관명과 관련된 데이터의 정확성은 0.47이다. 정확성은 정확한 기관명인 참조 데이터와 값이 일치하는 정도다. 정확성이 0인 열 335,369건은 기관명이 아닌 열으로 간주하고 삭제했다[그림 2 - (5)]. 기관명과 관련된 열은 5,093건이다.
정확한 기관명 값은 의미있는 값을 전제로 한다. 정확성은 완전성을 포함하는 개념으로, 완전성이 높을수록 정확한 값을 가질 수 있다. 그러나, [그림 2 - (5)]를 통해 추출한 기관명 관련 열 5,093건의 품질을 확인한 결과, 완전성에 따라 정확성이 높지 않았다. 때문에 완전성 품질을 0에서 1까지 총 11개의 구간으로 나누고, 해당하는 열의 수와 정확성 평균을 구했다[표 2]. 정확성은 구간 내의 가장 높은 값에서 가장 낮은 값인 0.01 사이에 존재할 수 있고, 구간 안에 존재하는 정확성을 파악하기 위해 극단값을 포함한 평균을 계산했다.
완전성 1에 해당하는 기관명 관련 열은 4,583건이고, 해당 구간의 정확성 평균은 0.51로 다른 구간의 정확성에 비해 높은 수준이다. 하지만, 완전성이 높을수록 정확성 평균이 높은 것은 아니다. 연속된 두 개의 완전성 구간을 비교했을 때, 완전성이 높은 구간이 낮은 구간에 보다 저조한 정확성을 보이는 경우가 있었다. 특히, 완전성 구간이 0.6인 열의 정확성 평균은 0.09로, 완전성 구간이 0.2인 열(정확성 평균 0.08)과 유사한 수준이었다.
완전성과 관계없이 정확성 품질이 낮기 때문에, 기관명 관련 데이터의 정확성을 개선하기 위해 품질 개선 대상을 선정하고, 오류값을 개선해야 한다. 품질 개선 대상은 기관명과의 관련성이 높은 데이터로, 완전성 0에서 1까지 전체 범위에서 높은 정확성을 갖는 데이터를 선정했다. 즉, 기관명과 관련성이 높은 열은 구간별 정확성 평균보다 높은 정확성의 열을 추출했다[표 2]. 최종적으로 선정한 품질 개선 대상은 총 2,302개 열, 29,560,558개 행이고, 전체 데이터의 약 1%에 해당한다[그림 2 - (6)].
5-4 기관명 관련 데이터의 품질 개선
품질 개선 대상으로 선정한 데이터의 완전성은 0.98로, 전체 데이터세트의 완전성 평균(0.74)보다 약 0.24 높다. 정확성 품질은 0.93으로 높은 수준이다. 데이터 선정 과정에서 정확성이 낮은 데이터를 삭제했기 때문에 완전성과 정확성이 높게 측정되었다. 품질 개선의 효과는 개선한 오류값의 수량을 중심으로 파악한다. 오류값의 파악과 품질 개선의 기준인 정답 데이터는 정확한 기관명의 참조 데이터인 기관코드의 ‘전체기관명’을 사용한다.
정확한 기관명을 가진 행은 전체 행 중 90%(26,728,288건)다. 전체 기관명 데이터 중 10%(2,832,270건)의 행이 오류 데이터에 해당한다. 부정확한 데이터는 데이터 품질을 저해하는 오류 데이터다. [표 3]은 부정확한 데이터의 유형과 수량의 요약이다.
부정확한 데이터는 (C1)불완전한 값이거나, (C2)단순 오류, (C3-1)의미적 오류 또는 (C3-2)참조 데이터에 존재하지 않는 데이터로 분류할 수 있다.
(C1)불완전한 값은 603,057건으로, 부정확한 데이터의 21%를 차지한다. 불완전한 값의 유형으로는 결측값이 601,381건으로 가장 많았고, 특수문자(1,406건), 공백(270건)이 존재했다. 공백은 결측과는 다른 값으로, 띄어쓰기만 존재하는 행(예: ‘ ’)을 의미한다. 완전한 값의 조건은 비어있지 않거나, 의미있는 값으로 채워져 있는 경우로, 의미있는 값은 해당 열의 도메인과 관련된 값을 포함한다[12]. 공백은 기관명과 관련된 의미있는 값으로 볼 수 없기 때문에 오류로 간주한다.
(C2)단순 오류는 부정확한 데이터의 9%(256,452건)를 차지한다. 단순 오류는 참조 데이터에서 표현하는 기관이지만 특수문자 또는 공백 관련 오류가 있는 경우다. 특수문자 오류는 데이터 입력 과정에서 생길 수 있다(예: ‘전라북도, 부안군’, ‘동국대학교(경주캠퍼스)’). 공백 관련 오류는 문자열 중간의 띄어쓰기가 잘못된 경우와 문자열의 앞뒤로 의미 없는 공백이 표시된 경우다.
예를 들어, ‘ 대통령 비서실 외교안보수석실’, ‘한국철도공사 서울본부 ’가 있다. 단순 오류가 있는 데이터는 기관명의 텍스트 값을 기준으로 데이터를 분석할 때, 정제 과정을 거쳐야 한다. 데이터 처리 과정에 드는 시간적 비용과 어려움은 공공데이터의 활용을 저해하는 주된 요인이다[2].
(C3-1)의미적 오류는 참조 데이터에서 표현하는 기관이지만 잘못 기재된 경우(예: ‘카돌릭대’), 줄임말(예: ‘경남 창원시’), 두 개 이상의 기관명 병기(예: ‘통계청/농림수산식품부/해양수산식품부’), 불완전한 수준(예: ‘국가기술표준원’) 등의 오류를 포함한다. (C3-2)참조 데이터에 존재하지 않는 값은 민간기업, 사람 이름 등이다. (C3)두 가지 경우는 부정확한 데이터의 70%(1,972,761건)로, 높은 비율을 차지한다.
이 경우의 오류를 개선하기 위해서는 데이터값의 의미를 이해하고, 오류 유형을 파악해 분류할 수 있는 모델이 필요하다.
본 연구를 통해 개선할 수 있는 오류값은 (C1)불완전한 값과 (C2)단순 오류이다. 이는 전체 오류값의 2%로, 총 859,509건이다. (C1)불완전한 값은 완전성과 정확성에 영향을 미치는 오류로, 완전한 값을 기입하거나 데이터가 없음을 명시하여 해결할 수 있다. 불완전한 값의 대부분을 차지하는 결측값은 값에 속하는 내용이 없거나, 값이 있지만 누락된 경우로 해석할 수 있다. 특수문자 ‘-’, ‘.’ 등은 관습적으로 없는 데이터를 표시할 때 사용한다. 그러나, 값에 대한 명확한 설명이 없다면, 이용자는 특수문자의 의미를 알 수 없다. 불완전한 값 603,057건은 ‘NULL’을 문자열로 입력하고, ‘NULL’을 ‘데이터 존재하지 않음’을 명시적으로 표현하는 유의미한 값으로 간주한다. (C2)단순 오류 256,452건은 텍스트 매칭을 통해 정확한 기관명 값으로 수정했다. 값의 수정을 위해 오류값의 띄어쓰기, 특수문자, 공백 오류 등을 제거하고, 참조 데이터인 기관코드의 ‘전체기관명’과 비교를 수행했다. 그 결과, 정제한 데이터값은 총 859,509건이며, 품질 개선 대상 데이터의 완전성 품질은 0.98에서 1로, 정확성 품질은 0.93에서 0.95로, 각각 0.2 향상되었다.
Ⅵ. 결 론
본 논문은 공공데이터포털에 개방된 데이터세트를 대상으로 데이터값의 완전성과 정확성 품질을 평가하고, 기관명과 관련된 일부 데이터의 오류값을 개선했다. 개방된 데이터의 품질관리는 공공데이터 재사용을 위한 중요한 조건이다. 그러나, 기존 품질관리 체계와 평가 지표는 데이터베이스를 중심으로 정의되어 있어 개방된 데이터세트에 적용하는 데 한계가 있다. 본 논문은 개방된 공공데이터의 품질을 평가하고, 행정표준코드의 기관코드를 적용해 기관명 관련 데이터의 오류값을 개선한다. 연구 결과, 공공데이터포털에 개방된 CSV 파일데이터의 완전성은 0.74이다. 기관명 관련 데이터는 완전성에 관계없이 낮은 정확성을 보였으며, 완전성에 관계없이 품질 개선 대상을 선정하여 부정확한 값을 파악했다. 부정확한 값은 불완전한 값, 단순 오류, 의미적 오류와 기타 오류로 분류하고, 그중 불완전한 값과 단순 오류 859,509건을 정제했다.
본 논문에서 데이터 정제는 구문적 일치를 기준으로 진행되었기 때문에, 단어가 갖고 있는 의미를 처리하는 데 한계가 있다. 예를 들어, ‘카돌릭대’는 기관코드의 ‘가톨릭대학교’와 의미적으로 동일하지만, 본 논문의 범위에서 다루고 있지 않다. 동일한 개체에 대한 다른 표현, 오기입, 줄임말은 의미를 이해할 수 있는 참조 데이터를 구축해서 처리해야 한다.
향후 연구는 행정표준코드를 활용하여 품질 개선 범위를 확장하고, 의미적 오류를 개선하기 위한 별도의 참조 모델을 구축하여 적용한다. 본 연구는 기관명에 한정하여 품질을 개선하고 있으나, 다양한 도메인의 행정표준코드를 활용해 품질 개선 대상을 확장할 수 있다. 또한, 향후 연구는 의미적 오류를 개선하기 위한 참조 데이터의 확장과 데이터 식별과 연계를 위한 지식 모델의 적용을 고려한다.
Acknowledgments
이 논문은 2021년도 중앙대학교 연구장학기금 지원에 의한 것임
References
- G8 Open Data Charter. G8 Open Data Charter and Technical Annex [Internet]. Available: www.gov.uk/government/publications/open-data-charter/g8-open-data-charter-and-technical-annex, .
- H. Zhang and J. Xiao, “Quality assessment framework for open government data: Meta-synthesis of qualitative research, 2009-2019,” The Electronic Library, Vol. 38, No. 2, pp. 209-222, April 2020. [https://doi.org/10.1108/EL-06-2019-0145]
- International Standards Organization(ISO). ISO/IEC 25012 – software engineering – software product requirements and evaluation – data quality model [Internet]. Available: https://iso25000.com/index.php/en/iso-25000-standards/iso-25012, .
- National Information Society Agency, Open Government Data Quality Management Manual v2.0, National Information Society Agency, 2018.
- Ministry of the Interior and Safety. Public Data Provision and Management Practical Manual [Internet]. Available: https://www.mois.go.kr/frt/bbs/type001/commonSelectBoardArticle.do?bbsId=BBSMSTR_000000000012&nttId=87981
- Ministry of the Interior and Safety. Improving the quality of public data [Internet]. Available: https://www.mois.go.kr/frt/sub/a06/b02/openData_3/screen.do, .
- H. L. Kim, “Quality Evaluation of the Open Standard Data,” JOURNAL OF THE KOREA CONTENTS ASSOCIATION, Vol. 20, No. 9. pp. 439-447, September 2020.
- Public Data Portal. Open data (file) diagnostic and maintenance tool [Internet]. Available: https://me2.kr/euxsj, .
- Ministry of the Interior and Safety. Administrative Standard Code Management System [Internet]. Available: https://www.code.go.kr/index.do, .
- C. Srimuang, N. Cooharojananone, U. Tanlamai, and A. Chandrachai, “Open government data assessment model: An indicator development in Thailand,” in 2017 19th International Conference on Advanced Communication Technology (ICACT), PyeongChang, pp. 341-347, February 2017. [https://doi.org/10.23919/ICACT.2017.7890110]
- D. Wu, H. Xu, W. Yongyi, and H. Zhu, “Quality of government health data in COVID-19: definition and testing of an open government health data quality evaluation framework,” Library Hi Tech, Vol. ahead-of-print, No. ahead-of-print, pp. ahead-of-print, August 2021.
- A. Vetrò, L. Canova, M. Torchiano, C. O. Minotas, R. Iemma, and F. Morando, “Open data quality measurement framework: Definition and application to Open Government Data,” Government Information Quarterly, Vol. 33, No. 2, pp. 325-337, April 2016. [https://doi.org/10.1016/j.giq.2016.02.001]
- S. H. Kim, C. S. Lee, and H. C. Kim, “A certification model for public data quality management,” in 2015 Korean Institute Of Industrial Engineers Autumn Conference, pp. 2417-2422, November 2015.
- H. C. Kim and G. Y. Kim, “A Study on Public Data Quality Factors Affecting the Confidence of the Public Data Open Policy,” Journal of Information Technology Service, Vol. 14, No. 1, pp. 53-68, March 2015. [https://doi.org/10.9716/KITS.2015.14.1.053]
- J. H. Shin, “Data Quality Verification Method for Artificial Intelligence Learning,” The Magazine of the IEEE, Vol. 48, No. 7, pp. 28-34, July 2021.
- S. Y. Bang, Y. G. Jung, B. H. Ham, and C. J. Kim, “A Study on Public Open Data Quality Diagnostic Model,” Jounal of The Korea Society of Information Technology Policy & Management, Vol. 7, No. 4, pp. 23-31, August 2015.
- W. J. Lee and H. K. Kim, “A Study on the Counterplan for Security Technology by Cause of Data Error in Public Data Quality Environment,” Review of KIISC, Vol. 30, No. 4, pp. 77-89, August 2020.
- Ministry of the Interior and Safety. Guidelines for Standardization using Code of Administrative Agency [Internet]. Available: https://www.mois.go.kr/frt/bbs/type001/commonSelectBoardArticle.do?bbsId=BBSMSTR_000000000016&nttId=82382, .
- Ministry of the Interior and Safety. Act On Promotion Of The Provision And Use Of Public Data [Internet]. Available: https://url.kr/97r35b, .
- B. Behkamal, M. Kahani, E. Bagheri, and Z. Jeremic, “A metrics-driven approach for quality assessment of linked open data,” Journal of Theoretical and Applied Electronic Commerce Research, Vol. 9, No. 2, pp. 64-79, May 2014. [https://doi.org/10.4067/S0718-18762014000200006]
저자소개
2021년 : 중앙대학교 문헌정보학사
2016년~2021년: 중앙대학교 문헌정보학과
2021년~현 재: 중앙대학교 문헌정보학과 정보학전공 석사과정
※관심분야:공공데이터, 데이터 품질 등
2010년 : 아일랜드 국립대학교 (공학박사)
2004년~2009년: Digital Enterprise Research Institute, Ireland
2009년~2016년: 삼성전자
2019년~현 재: 중앙대학교 문헌정보학과 교수
※관심분야 : 지식그래프, 인공지능, 데이터 사이언스 등