Korea Digital Contents Society
[ Article ]
Journal of Digital Contents Society - Vol. 21, No. 12, pp.2211-2219
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Dec 2020
Received 11 Nov 2020 Revised 30 Nov 2020 Accepted 30 Nov 2020
DOI: https://doi.org/10.9728/dcs.2020.21.12.2211

레이블이 없는 문서 자동분류를 위한 분류체계 생성에 관한 연구

김현종1 ; 이강배2 ; 유승의1 ; 홍순구2, *
1동아대학교 스마트거버넌스연구센터 전임연구원
2동아대학교 경영정보학과 교수
A Study on Classification Scheme Generation for Automatic Classification of Unlabeled Documents
Hyun-Jong Kim1 ; Kang-Bae Lee2 ; Seung-Eui Ryu1 ; Soon-Goo Hong2, *
1Full-time researcher, Smart Governance Center, Dong-A University, Busan 49236, Korea
2Professor, Department of Management Information Systems, Dong-A University, Busan 49236, Korea

Correspondence to: *Soon-Goo Hong Tel: +82-51-200-7495 E-mail: hatdol@paran.com

Copyright ⓒ 2020 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

일반적인 문서 자동분류를 위한 지도학습은 레이블이 달린 학습데이터의 확보에 많은 인력과 시간이 소요되는 한계점이 있다. 이에 본 연구에서는 지금까지 지도학습이 갖는 한계점을 극복하기 위해 레이블이 없는 문서를 자동으로 분류하기 위한 분류체계생성과 활용 방법을 제안한다. 본 연구에서 제안하는 분류체계는 분류기준이 되는 범주의 특성이 포함된 여러 계층으로 이루어져 있다. 또한 이러한 범주의 특성은 문서의 분류를 위한 가중치를 제공한다. 본 연구는 분류체계의 개념과 분류기준을 추출하여 분류체계를 생성하는 방법을 제시하였다. 본 연구에서 제안된 방법 및 절차는 부산시 민원 데이터의 행정부서별 자동분류 실험을 통해 구체적으로 설명하였으며 효과를 검증하였다. 본 연구는 레이블이 없는 문서의 자동분류를 위한 분류체계의 생성에 관한 이론적 기반을 제공하는데 기여도가 있다.

Abstract

Since most unstructured data does not have labels, it is necessary to write ones on the data before performing supervised learning, which takes a lot of labor and time. This study proposed a method of generating and utilizing a classification scheme to classify unlabeled documents automatically. Consisting of multiple layers and including the characteristics of categories that provide classification criteria, the classification scheme provides a weighted value for document classification. Such concept of a classification scheme and classification criteria were extracted in this study to suggest a method of generating a classification scheme. The method and procedure proposed in this study were explained in detail by carrying out automatic classification tests with the civil complaint data of each administrative department of Busan City, and the effect was verified through the classification results. This study has significance in providing a theoretical basis for the generation of a classification scheme for the automatic classification of unlabeled documents.

Keywords:

Document classification, Classification scheme, Unsupervised learning, Text mining, Complain classification

키워드:

문서 자동분류, 분류체계, 비지도학습, 텍스트 마이닝, 민원 분류

Ⅰ. 서 론

빅데이터 중 텍스트와 이미지 등 비정형 데이터는 전체 데이터에서 80%를 차지하고 있으며 정형데이터에 비해 큰 폭으로 증가하고 있어 비정형 데이터의 분석이 점차 중요해지고 있다[1]. 비정형 데이터는 정형화 된 데이터가 아니라는 것 외에 레이블(label)이 없다는 의미도 가지고 있다. 레이블은 데이터의 특징(features), 또는 정답을 가지고 있다는 것으로 지도학습 기반의 머신러닝에서 학습 데이터로 사용된다. 레이블이 없는 데이터는 지도학습으로 분석이 어려우며 비지도학습 기반의 방법을 사용하게 되지만 레이블이 없기 때문에 군집화(clustering)가 아닌 분류(classification)와 같이 데이터를 정해진 범주(category)로 나누기 어렵다.

일반적인 텍스트 분석연구에서, 데이터의 분류는 지도학습 방법을 많이 사용하고 있으며 정확한 분류를 위해서는 충분한 양의 학습 데이터가 필요하다. 학습 데이터에는 레이블이 포함되어야 하며 이를 위해 레이블을 수작업으로 작성하는 시간과 비용이 소요된다. 또한 학습 데이터의 양은 범주나 레이블의 수에 비례하여 증가하고 학습 시킬 데이터의 종류에 따라 편차가 크다. 자연어로 구성된 텍스트는 인간만이 이해할 수 있는 복잡하고 애매한 부분으로 분석이 어려우며 수치 데이터에 비해 더 많은 양의 학습 데이터를 요구한다. 따라서 텍스트 문서를 분류하기 위해서는 많은 양의 학습 데이터가 필요하며 이를 확보하기 위해 엄청난 시간과 비용이 발생하게 된다.

본 연구에서는 레이블이 없는 문서를 자동분류하기 위한 방법을 제안한다. 기존 연구에서 분류사전 또는 분류체계를 활용한 연구가 일부 이루어졌으나 분류체계를 생성하는 방법과 이를 활용하는 방법이 부족하다. 이에 본 연구에서는 분류체계의 생성과 활용 방법을 제안하고 이를 실험을 통해 검증한다. 또한 기존 문서 자동분류연구에서는 주로 나누고자 하는 범주가 단순한 구조 또는 범주의 수가 소수의 형태를 취하고 있었으며 여러 계층의 복잡하고 다수의 범주를 분석하는 연구는 미비한 실정이다. 본 연구에서 제안하는 분류체계를 활용한 방법은 여러 계층으로 이루어진 다수의 범주에서도 활용 가능하이다.

본 연구는 2장의 이론적 배경을 바탕으로 3장에서 문서 자동분류를 위한 분류체계 생성 방법을 제안하고 4장에서 분류체계의 생성 및 활용에 대해 실험을 통해 구체적인 절차 및 방법을 설명하고 있다.


Ⅱ. 본 론

2-1 문서 자동분류

분류(classification)는 텍스트 데이터를 미리 정의된 범주로 나누는 것으로 문서를 비슷한 집단으로 묶는 군집화(clustering)와는 구분이 된다. 문서 자동분류는 컴퓨터를 이용하여 유사한 문서를 같은 집단으로 나누는 기법이다[2]. 1960년대에 시작된 문서 자동분류에 관한 연구는 1990년대에 기계학습 이론이 도입되면서 활성화되었고 텍스트를 대상으로 하는 분류 시스템의 성능을 크게 향상시켰다[3], [4]. 일반적인 지도학습 기반의 문서 자동분류는 레이블이 있는 문서를 전처리와 특성추출(feature extraction) 후 지도학습 알고리즘의 학습을 통해 미분류된 문서를 분류하는 과정으로 이루어진다[5]. 텍스트 분류기들(Text classifiers) 중 머신러닝을 활용한 지도학습으로는 나이브 베이즈(Naive Bayes), SVM(Support Vector Machine) 등이 있고 최근 Convolution Neural Network(CNN), Recurrent Neural Network(RNN), Long Short-Term Memory(LSTM) 등과 같은 인공신경망을 기반으로 하는 딥러닝 기법이 많이 사용되고 있다. 지도학습 기반의 자동분류는 머신러닝과 딥러닝의 과정을 통해 정확한 문서 분류가 가능하지만 레이블이 있는 학습 데이터를 충분히 확보해야 한다는 한계가 있다.

이러한 지도학습의 한계를 극복하기 위한 방법으로 준지도학습 기반과 분류기준을 이용한 연구가 이루어지고 있다. 먼저 김판준과 이재윤[3]의 연구에서는 분류기준을 활용한 연구로 문서의 분류 성능을 향상시키는 방안으로 문헌간의 유사도를 생성시키고, 생성된 문헌유사도 자질을 SVM과 나이브베이즈 분류기를 이용하여 실험하였다. 그 실험 결과 SVM와 NB로부터 성능향상은 지도학습에 비해 9.5%와 7.4%을 보였다. 이러한 방법 외에도, 소수의 레이블이 있는 문서를 이용하여 다수의 레이블이 없는 문서를 학습시키는 방법[6], 기록의 맥락을 중심으로 시소러스(thesaurus)를 분류기준으로 활용하거나[7], 워드넷 온톨로지(ontology)를 기반으로 인접 문서들에 포함된 단어들 간의 유사도를 평가[8] 등을 통하여 분류 성능을 향상하는 연구가 지속적으로 이루어지고 있다.

또 다른 방법으로 비지도학습 방법이 있다. 이 방법은 레이블이 없이 문서의 패턴과 규칙성을 통해 유의미한 정보를 찾을 때 사용되며 일반적으로 분류 보다는 군집화에 주로 이용된다.

선행연구에서 살펴본 것과 같이 분류를 위해서는 지도학습을 위한 학습 데이터가 필요하다. 학습 데이터가 없는 경우 비지도학습 방법은 범주화가 어려우며 준지도학습은 범주의 특성 또는 소량의 학습데이터를 제공해야 한계점이 있었다. 이에 본 연구에서는 학습 데이터가 없는 문서를 분류하기 위해서 분류의 기준이 되는 분류체계를 활용하는 할 경우 비지도학습 기반으로 문서를 정해진 범주에 분류할 수 있을 것이라는 점을 착안하여 그림 1과 같은 새로운 분류 방법을 제안하고자 한다. 이를 위해서는 분류 기준을 포함하는 분류체계가 필요하다.

Fig. 1.

Traditional and new methodology

2-2 분류체계

분류체계는 분류의 기초로 사물을 구조화하여 표현하는 체계이다[9]. 이는 사물을 일정한 분류 기준과 규칙에 따라 기호와 용어를 사용하여 구조화 및 체계화를 시킨 것으로 분류의 틀을 의미한다. 분류체계는 분류항목, 분류구조, 분류규칙으로 구성된다[10]. 분류항목은 분류하고자 하는 사물의 개념을 명명하는 것이며, 분류구조란 분류항목간의 계층적인 관계를 나타내며, 분류규칙은 사물이 어떤 분류항목에 포함되어야 하는지를 나타낸다[11].

분류체계와 관련한 연구는 특정분야의 새로운 분류체계를 생성하는 연구가 주를 이루고 있다. 문헌정보학에서 문헌 및 기록물에 대한 효율적인 관리를 위한 연구를 비롯하여 다양한 분야에서 현행 분류체계의 문제점과 이를 개선하기 위한 연구와 특정분야의 새로운 분류체계를 생성하는 연구가 주를 이루고 있다[12], [13].

분류체계를 생성하는 방법은 분류전문가에 의한 분류체계 생성, 규칙에 의한 자동 생성, 이미 통용되고 있는 분류체계를 도입하는 세 가지로 구분된다[9]. 분류체계의 생성 연구는 전문가에 의한 생성과 기존 분류체계의 활용이 혼용되어 사용되는 경우가 많다. 특정분야의 분류체계를 개발하는데 있어서 완전히 새롭게 개발하는 경우도 있지만 기존의 분류체계나 유사한 표준 분류체계를 참고 및 기초로 하여 분류체계를 생성하는 것이다. 이는 분류체계를 생성하는 시간과 노력을 줄이고 과거 타당성이 검증되어 분류체계를 완성하는데 도움을 준다. 분류체계 생성 방법은 세 가지로 구분되지만 해당 분야의 특성과 연구 목적에 따라 다양한 방법이 사용가능하다. 따라서 분류체계를 효율적으로 구축하기 위해서는 세 가지 방법을 모두 참고하여 최적의 방법을 고안하는 것이 필요하다.

자동분류를 위해 범주를 결정하고 이를 구분할 기준이 되는 요소와 특성을 선정하기 위해서는 여러 텍스트 분석 기법을 활용하여 보다 정확하고 다각적인 형태의 분류기준을 갖추고 있어야 한다. 이를 위해 본 연구에서는 텍스트 마이닝에서 사용되는 핵심 주제어 분석, 토픽 모델링 분석, 연관어 분석, 네트워크 분석 기법 등을 활용하여 범주의 특성을 추출하여 분류체계를 생성하는 방법을 제안하고 한다.


Ⅲ. 문서 자동분류를 위한 분류체계 생성

3-1 수식

본 연구에서 제안하는 분류체계는 분류의 기준이 되는 범주의 특성이 포함된 계층적 구조를 머신러닝 모델에 적용할 수 있도록 표현된 체계이다. 이 분류체계는 기존 분류체계의 연구[11]에서 나온 분류구조, 분류항목, 분류기준을 활용하였다. 본 연구에서는 기존의 분류기준이 분류항목들을 구분하는 것을 확장하여 분류항목의 속성을 나타내는 문서의 주요 키워드를 이용하여 문서를 분류하게 된다. 이를 통해 범주가 가지고 있는 분류 구조와 항목 그리고 특성을 사전에 정의하여 문서 자동분류에 활용된다.

기존의 분류체계 생성에서는 범주의 특성을 작성하기 위해서는 전문가 참여 방법과 데이터 분석을 통한 방법 두 가지로 구분 할 수 있다. 첫 번째, 전문가 참여의 방법은 해당 분야 전문가들에 의해서도 작성이 가능하다. 전문가에 의해 이루어진 특성은 범주의 수가 적은 경우 쉽게 분류체계를 생성할 수 있으며 특성을 자유롭게 지정할 수 있다. 하지만 사람의 주관이 개입되거나 범주의 변화와 문서의 변화가 있을 때마다 전문가를 통해 수작업으로 수정해야하는 한계점이 있다. 두 번째 데이터 분석을 통한 방법은 범주와 관련된 데이터의 분석과 분류하고자 하는 문서를 분석하여 특성 값을 추출 할 수도 있다. 범주의 특성을 추출하는 과정을 텍스트 마이닝 기법 등을 활용하여 컴퓨터의 분석과정을 거치기 때문에 사람의 개입을 최소화 할 수 있고 범주와 문서의 변화에 따라 자동으로 분석 결과를 분류체계에 반영하는 것이 가능하다.

본 연구에서 제안하고 있는 분류체계 생성 절차는 그림 2와 같다. 먼저 분류구조와 분류항목을 결정하고 다음으로 분류기준을 도출하여 분류체계로 완성하는 과정을 거친다.

Fig. 2.

Classification scheme generation process

분류할 범주의 명칭과 계층구조는 이미 정해져 있는 경우도 있을 수 있으며 특정 분야에서 새롭게 만들어야 하는 경우가 있을 수 있다. 전자의 경우 기존 분류체계를 그대로 사용할 수도 있으며 또는 해당분야에 맞게 수정하여 사용할 수 있다. 후자의 경우 기존 분류체계를 활용하기 어려기 때문에 전문가에 의한 방법을 사용하여 분류 항목과 구조를 생성할 수 있다. 그리고 범주의 특성이 되는 분류기준은 기존 분류체계와 전문가를 통해 생성할 수도 있으나 없을 경우 범주와 문서에서 텍스트 마이닝 기법을 활용하여 범주의 특성으로 대표할 핵심 키워드를 추출할 수 있다. 분류체계 단계 별 생성방법은 표 1과 같다.

Step-by-step classification scheme generation method

본 연구의 분류체계 생성 절차는 크게 세 단계로 이루어진다. 과정별로는 ①분류구조와 분류항목을 결정하고 ②분류기준을 분석하여 ③분류체계를 생성하는 3단계의 과정을 거치게 된다.

첫 번째 단계인 분류구조와 분류항목 결정을 위한 방법은 기존 분류체계와 전문가에 의해 결정 할 수 있다. 분류를 위한 구조 또는 항목은 이미 정해져 있는 경우도 있을 수 있고 기존에 널리 사용되고 표준으로 인정된 분류체계를 활용할 수 있다. 두 번째 단계인 분류기준을 분석하는 과정은 범주의 특성을 분석하는 것과 문서의 특성을 분석한 것으로 나뉜다. 이 과정에 사용할 수 있는 방법으로 기존 분류체계와 전문가에 의한 방법은 앞서 분류구조와 분류항목을 결정하는 과정에서와 같으며, 규칙에 의한 자동생성 방법은 텍스트 마이닝 기법 등의 분석을 통해 범주의 특성에 해당하는 키워드를 추출하는 것이다. 세 번째 단계인 분류체계 생성 과정은 첫 번째, 두 번째 단계에서 도출한 분류구조, 분류항목, 분류기준을 취합하여 분류체계를 완성하게 된다. 이 과정에서 전문가에 의한 분류규칙을 정리할 경우 전문가의 전문성과 복수의 전문가에 의한 교차 검증을 통해 오류와 주관성을 최대한 배제해야 한다. 또는 자동생성을 통해 사람의 주관적인 판단을 배제할 수 있을 것이다. 분류체계의 생성 방법은 표 1에 정리되어 있다.


Ⅳ. 분류체계를 활용한 자동분류 실험

본 연구에서 제안하는 분류체계는 부산시의 민원 데이터를 해당 행정부서별로 분류하는 실험을 통해 분류체계의 생성 및 활용의 방법과 절차를 구체적인 사례로 제시하였으며 도출된 분류체계를 활용한 문서 자동분류의 효과를 실험으로 검증하였다. 분류체계 생성 실험 절차는 그림 3과 같다.

Fig. 3.

Experiment process for classification scheme generation

4-1 부산시 행정 부서 분석

부산시 행정부서의 분류체계의 분류구조 및 항목을 파악하기 위해 부산시청의 행정조직체계를 파악하였다. 부산시청의 조직체계는 시장 예하에 부시장 및 직속기관을 포함한 22개의 실·국·본부와 97개의 과가 편재되어 있었다(2019년 2월 기준). 부산시청의 행정부서를 검토하여 분류구조 및 항목을 결정하였다. 실국본부 중 비서실은 시장직속 부서로 시장의 업무를 지원하기 위한 부서로 민원을 직접 처리하는 부서가 아니기 때문에 제외하고 나머지 21개의 실국본부와 97개의 과로 행정부서에 대한 분류구조와 분류항목을 결정하였다.

분류구조와 분류항목이 결정된 이후 분류기준을 생성하게 된다. 분류기준은 분류항목인 각 부서의 특성으로 분류할 문서인 민원이 할당될 범주이다. 민원은 각 부서의 업무에 맞게 나뉘어야하기 때문에 부서별 담당업무를 나타낼 수 있는 키워드가 특성이 된다. 업무관련 전문가나 각 부서별 담당자가 해당 업무를 정리하게 된다면 전문가에 의해 분류기준을 작성할 수도 있다. 일반적으로 행정기관의 업무는 조식체계 및 각 직원의 업무분장으로 정해져 있으며 이를 분석하여 부서별 업무를 파악할 수 있다. 이에 따라 각 부서의 특성을 파악하기 위해 부산시청의 홈페이지에 게재된 부서별 업무분장을 수집하였다. 이를 실·국·본부와 하위부서인 과로 구분하여 2000여개의 소속 직원의 업무분장 데이터를 확보하였다.

부서별 업무 분장에는 부서와 각 소속직원의 업무는 부서, 업무라는 데이터별 레이블이 존재하는 구조를 가지고 있어 지도학습 방법의 데이터 분석이 가능하다. 다양한 텍스트 마이닝 기법을 활용할 수 있으나 행정 부서의 업무 분장에 나타난 직원의 업무는 짧은 글과 업무의 내용에서 중복된 내용이 부족하여 분석이 어려운 형태를 가지고 있다. 이를 해결하기 위해 Word2Vec를 활용하였으며 이 방법은 부서별 업무에 등장하는 단어들을 벡터화 하여 유사도 및 대표 업무를 추출할 수 있었다. 그 결과는 표 2와 같다.

Word2Vec results by department

4-2 민원 데이터 분석

부산시 민원 데이터는 2016년 공개 민원 3004건을 수집하였으며 전처리 및 텍스트 마이닝을 실시하였다. 통계 프로그램인 R을 이용하여 분석하였으며 민원 데이터의 전처리는 형태소 분석을 통해 명사만 추출하였다.

추출된 명사에서 핵심주제어를 분석하기 위해 빈도 분석과 TF-IDF(Term Frequency Inverse Document Frequency) 분석을 활용하였다. 빈도 분석은 문서 전체에서 등장하는 단어 빈도로 중요성을 파악하는 것이다. 그러나 문서들에서 특정 단어의 등장 빈도만으로 중요도가 높다고 할 수는 없다. 이를 보완하기 위해 활용되는 TF-IDF 분석은 문서들에서 단어의 중요도를 판정하는 방법으로 문서에 등장하는 단어의 빈도(TF)와 단어가 등장하는 문서의 빈도의 역수(IDF)를 곱한 값으로 단어의 중요도를 판정한다. TF-IDF 값이 높다는 것은 특정한 단어가 문서들에서 중요도가 높다는 것을 의미한다[14], [15].

민원 분석에서 추출된 빈도가 높은 단어들 중 부산, 답변, 시민 등 민원 내용에 관용적으로 사용되는 단어와 저, 누구, 그것 등 의미가 불분명하거나 무의미한 단어는 핵심 주제어에서 제외하였다. 높은 빈도를 나타낸 핵심 주제어로는 ‘버스’가 가장 높은 빈도를 보이고 있으며 관련 단어로 ‘노선’, ‘기사’, ‘정류장’ 등도 높게 나타났다. 또한 교통과 관련된 ‘차량’, ‘신호’, ‘정차’ 등도 높은 빈도를 보이고 있다. 그 외 ‘아파트’, ‘공사’, ‘설치’, ‘안전’ 등의 단어 빈도가 높게 나타났다. 그리고 TF-IDF 분석 결과는 ‘버스’, ‘정류장’, ‘노선’ 등 버스와 관련된 단어가 가장 높게 나타났으며 ‘불편’, ‘택시’, ‘단속’, '도로‘, ‘아파트’ 등의 단어가 높게 나타났다.

민원의 문서들이 가지고 있는 주제별로 군집화 하는 토픽 분석을 실시하며 민원에서 주로 언급되는 주제를 추출할 수 있다. 이를 위해 토픽 모델링 기법중 LDA(Latent Dirichlet Allocation) 토픽 모델링을 사용하였다. LDA는 토픽 모델링 기법 중 하나로 문헌-용어 행렬에서 문헌별 주제분포와 주제별 단어분포를 찾아주는 기술로 잠재의미인 토픽을 찾아내고 문헌별 주제 분포와 주제별 단어분포를 나타낸다[16]. 이번 연구에서는 토픽의 개수를 50개로 분석하였으며 도출된 토픽에 주제어를 지정하고 유사 토픽을 통합하였다(표 3 참조).

Topic frequency by topic modeling results

민원의 텍스트 마이닝 분석은 핵심주제어 분석을 통해 민원에서 주로 등장하는 단어를 파악할 수 있으며, 토픽모델링을 통해 민원을 군집화하여 주요 주제를 나누고 이 주제별로 등장하는 단어를 파악할 수 있다. 분석 결과에서 추출한 민원의 특성을 행정부서와 비교하여 해당 부서별로 표 4와 같이 정리하였다.

Document characteristics and administrative departments by topic

4-3 분류체계 생성

앞선 연구에서 추출된 민원의 문서 특성과 부서별 특성을 이용하여 분류체계를 생성하였다. 부산시의 업무 및 기능체계는 실국본부 급과 예하의 과로 구성되고 계층적으로 이루어져 있으며 이를 구분하여 분류체계를 나타낼 수 있다. 상위의 실국본부의 업무특성은 하위의 과의 업무를 포괄하며 다른 부서와는 구분 될 수 있는 고유 특성을 나타낼 수 있어야 한다.

민원 분석을 통해 주로 신청되는 민원의 종류와 민원의 주제별로 등장하는 단어를 가중치 목록에 추가하였다. 부서별 업무 분석을 통해 부서에 업무를 대표할 수 있는 단어를 선정하여 가중치 목록에 추가하였다.

부서별 주요 키워드로 정리된 분류체계는 자동분류기에 활용하기 위해서는 분류항목의 분류코드가 부여되어야 하며 분류코드에 맞는 분류기준, 가중치로 목록화하고 이를 데이터베이스로 저장되어야 한다. 또한 분류체계는 자동분류를 위해 사용되므로 활용되는 자동분류기에 데이터베이스의 목록으로 사용될 수도 있고, 행렬의 형태로 변환되어야 할 수도 있다. 따라서 활용될 자동분류기에 프로그램과 데이터 구조 등의 특성에 맞게 분류체계를 생성하여야 한다. 본 연구에서는 대분류(국실본부)는 2자리 수의 코드번호를, 중분류(과/관)은 3자리수 코드번호를 부여하였다. 행정부서 분류코드는 표 5와 같다.

Classification code of department

4-4 자동분류 실험 및 결과

앞서 4-3에서 도출된 분류체계를 활용하여 문서 자동분류를 실시하여 분류체계의 효과를 검증하였다. 자동분류기는 비지도학습을 기반으로 하는 인공신경망 모델을 사용하여 부서의 업무특성과 민원 데이터로부터 도출된 분류체계의 키워드를 가중치로 활용하여 문서를 분류하도록 하였다.

자동 분류기는 데이터 전처리를 통해 형태로소 분석 및 정제작업을 실시하고 단어의 자질 값을 추출하기 위해 TF-IDF와 Word2Vec를 실시한다. 이 값을 이용하여 민원데이터의 비지도학습을 위해 토픽모델인 LDA 기법을 이용하여 군집화를 실시하였다. LDA를 통해 군집화된 데이터는 다시 데이터 최적화 및 정제 작업을 거처 분류체계의 업무특성 단어를 TF-IDF 값과 벡터 값으로 가중치를 부여하여 최종적으로 LSTM방식의 딥러닝 기법을 활용하여 분류를 실시하였다.

자동분류 실험에는 2017년 3005건의 민원 데이터를 분류하였다. 자동분류기는 파이썬을 이용하여 전처리, TF-IDF / Word2Vec, LDA, 가중치 계산, LSTM 등의 라이브러리를 활용하여 작성하였다. 자동분류의 학습 결과는 그림 3과 같다.

Fig. 3.

Training loss and accuracy

분류 결과를 검증하기 위해서는 분류된 민원이 해당 부서에 정확하게 할당되었는지 정확도를 측정할 필요가 있다. 실험에 사용한 민원은 해당 부서에 대한 레이블이 없기 때문에 실험의 정확도를 측정하기 위해 민원에 해당 부서를 수작업으로 측정하여야 한다. 전체 민원을 90여 개의 부서에 할당된 결과를 검증하는 것이 합당하나 전체 민원 데이터를 수작업으로 분류하지 않고 가장 많은 민원이 모이는 부서에 대한 결과의 정확도를 측정하였다. 부산시의 민원은 절반 정도가 교통과 관련된 민원에 집중되고 있으며 그 중에서도 버스와 관련된 민원이 가장 많이 발생하고 있다. 이에 정확도는 교통혁신본부의 버스운영과의 결과를 대표로 측정하였다. 그리고 민원은 실제 부산시청 내의 부서와 외부의 구청 및 산하기관으로 민원 내용에 따라 이관되지만 본 연구에서는 부산시 내부의 부서를 대상으로 실험을 하였기 때문에 내부 부서로 한정하였으며 연구자를 포함한 3인이 민원 내용을 확인하고 부서별로 할당한 후 수작업으로 분류한 결과와 자동분류 결과를 비교하여 분류의 정확도를 측정하였다.

분류의 정확도를 측정하기 위한 방법으로는 일반적으로 분류성능평가지표를 사용한다. 이 지표에는 정밀도(Precision), 재현율(Recall), 정확도(Accuracy)가 있다[17]. 이는 머신러닝의 모델이 분류한 결과가 실제 정답과의 관계로 평가하는 것이다. 정밀도는 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율이며, 재현율은 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율이고, 정확도는 전체 결과에서 정답과 오답을 옳게 찾아낸 비율로 분류의 정확성을 측정하는 일반적인 지표이다.

분류 실험 결과 2017년 3005건의 민원 중 버스운영과로 총 475건의 민원이 분류되었으며 실제 버스운영과의 민원은 791건 있었다. 이 실험 결과를 표 4와 같이 정리할 수 있다.

분류성능지표는 아래와 같이 측정되었다.

- 정밀도(Precision): 98.7%
- 재현율(Recall): 59.3%
- 정확도(Accuracy): 89.1%

Classification experiment results

실험 결과에서 정밀도는 분류 결과의 정답 비율로 98.7%를 나타내어 분류된 민원이 해당 부서로 정확히 할당되는 비율이 매우 높은 정확성을 보여주고 있다. 재현율은 59.3%로 나타났으며 이는 실제 민원에서 버스운영과로 할당되어야할 민원이 제대로 분류된 비율로 높은 정확성을 보여주지 못하고 있다. 그리고 정확도는 전체 민원에서 버스운영과로 할당되어야 할 것과 타부서로 할당되어야 할 것의 분류의 정확성을 나타내는 것으로 상당히 높은 결과 값이 나왔다. 이를 통해 분류 실험의 전체 결과는 민원을 해당부서로 보내야 할 민원을 찾아내는 정확도는 높지 않지만 할당된 민원은 해당 부서에 매우 정확한 민원을 제공할 수 있다는 것을 보여주고 있다.


Ⅴ. 결 론

본 연구는 계층 구조를 가진 범주에서 레이블이 없는 문서를 자동분류를 할 수 있는 분류체계 생성 방법을 제시하는데 목적이 있다. 이를 위해 분류기준이 포함된 분류체계의 생성을 위해 구성요소와 생성 방법 및 절차를 정형화 하였다. 분류기준 추출에서는 자연어 처리 및 텍스트 마이닝의 여러 기법을 활용하여 범주와 문서 데이터를 분석하였다. 또한 부산시 민원데이터를 행정부서별로 분류하는 실험을 통해 분류체계의 생성과 활용에 대한 구체적인 방법을 제시하였으며 분류 결과를 검증하였다.

본 연구에서는 분류체계를 생성하기 위해 범주의 특성을 추출하는 과정에서 분류항목인 범주에서만 특성을 추출하는 기존 연구와는 달리 분류하고자 하는 문서에서도 특성을 추출하여 보다 폭넓게 분류기준이 되는 키워드를 포함시켰다. 또한 다양한 분야에서 문서를 분류할 때 해당 분야에 적합한 분류체계를 직접 생성하여 사용할 수 있어 여러 분야에서 응용될 것으로 기대된다.

본 연구의 학문적 기여점은 계층적 구조를 가진 범주에 대해 레이블이 없는 문서를 분류하기 위해 범주의 특성이 포함된 분류체계를 활용한 비지도학습 기반의 방법을 제안한 것이다. 이 분류체계를 활용한 방법은 기존 지도학습 기반의 문서 분류에 비해 레이블을 작성하는 시간과 비용을 줄일 수 있어 효율적이며 여러 개의 계층구조를 가진 범주와 문서의 데이터 불균형 문제에서도 분류가 가능하다는 효과가 있다. 또한 이러한 분류체계를 생성하고 활용하기 위한 방법 및 절차를 개념적으로 제시하여 이후 관련 연구의 후속 연구를 유발할 것으로 보인다.

실무적인 기여점으로는 여러 계층의 많은 범주에 대한 단계적인 분류를 통해 분류의 효과를 높일 수 있으며 다양한 분야와 문서에 활용이 가능하다는 점이다. 산업 및 학술 분야 또는 행정기관과 기업의 부서 등 다양한 분야에서 범주는 여러 계층으로 구성된 경우가 많으며 이를 효과적으로 분류하기 위해서는 상위계층부터 하위계층까지 단계적으로 분류하는 것이 효과적이다. 또한 다양한 분야에 적합한 형태로 분류체계를 직접 생성하여 분류에 활용할 수 있으며 범주와 문서의 변화에 신속·정확한 대처가 가능하다. 아울러 범주와 문서에서 특성을 추출하기 위해 텍스트 마이닝의 여러 기법을 사용하였으며 실험을 통해 구체적인 방법과 절차를 제시하여 문서 자동분류에 바로 활용이 가능하다.

연구의 한계점으로는 분류체계의 생성과정에서 전문가에 의한 생성 방법이 사용되고 있어 사람에 의한 주관적 판단이 개입될 여지가 많아 문서 분류의 효과에 영향을 미칠 수 있다는 점이다. 분류구조와 항목의 결정에는 전문가의 개입이 필요하지만 분류기준을 추출하고 이를 통합하여 분류체계를 생성하는 과정에서는 사람의 개입을 최소화하여 객관적이고 자동화된 방법이 필요하다. 또한 검증을 위한 실험의 결과를 한 개 부서에 대해 정확도 측정하여 기존의 지도학습 기반의 자동분류와의 정확도의 비교가 되지 않아 본 연구에서 제안하는 분류체계를 활용한 방법의 성능을 비교할 수 없다는 한계점을 가지고 있다. 향후 연구에서는 지도학습과의 성능 비교 및 전체 부서에 대한 정확도를 측정하는 연구를 실시하고자 한다.

Acknowledgments

본 논문은 제1저자 김현종의 박사학위논문의 발췌본입니다.

이 논문은 2018년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구임 (NRF-2018S1A3A2075240)

References

  • Comworld, Solve the Worries of Accumulating Unstructured Data with “Object Storage”, 31. Oct. 2018.news, http://www.comworld.co.kr/news/articleView.html?idxno=49538, .
  • J. S. Kim, Y. J. Kim, H. J. Moon and Y. T. Woo, "A Feature Selection Technique for an Efficient Document Automatic Classification," Journal of Information Technology Applications & Management, Vol. 8, No. 1, pp. 117-128, 2001.
  • P. J. Kim, J. Y. Lee, "Utilizing Unlabeled Documents in Automatic Classification with Inter-document Similarities," Journal of the Korean Society for Information Management, Vol. 24, No. 1, pp. 251-271, 2007. [https://doi.org/10.3743/KOSIM.2007.24.1.251]
  • F. Sebastiani, "Machine Learning in Automated Text Categorization," Computing Surveys, ACM Computing Surveys, Vol. 34, No. 1, pp. 1-47, 2002. [https://doi.org/10.1145/505282.505283]
  • W. K. Joo, "Automatic Classification Method for Atypical Texts that include Structure Information using Deep Learning," Ph. D. dissertation, Chungnam National University, Daejeon, Korea, 2018.
  • K. Nigam, A. McCallum, S. Thrun and T. Mitchell, "Learning to Classify Text from Labeled and Unlabeled Documents," AAAI '98/IAAI 98 Proceedings of the Fifteenth National/Tenth Conference on Artificial Intelligence / Innovative Applications of Artificial Intelligence, pp. 792-799, 1998.
  • J. S. Jang and H. Y. Rieh, "Design of Automatic Records Classification System Using Contextual Information," Journal of Korean Society of Archives and Records Management, Vol. 9, No. 9, pp. 151-173, 2009.
  • J. H. Roh,, H. J. Kim, and J. Y. Chang, “Improving Hypertext Classification Systems through WordNet-based Feature Abstraction”, The Journal of Society for e-Business Studies, Vol. 18, No. 2, pp. 95-110, 2013. [https://doi.org/10.7838/jsebs.2013.18.2.095]
  • D. S. Jang, "Automated Classification Scheme Generation Using Product Attributes," Ph. D. dissertation Myongi University, Seoul, Korea, 2007. [https://doi.org/10.3745/KIPSTD.2007.14-D.5.491]
  • H. J. Kim, "A Study on Machine Learning-based Classification Scheme Generation for Unlabeled Documents," Ph. D. dissertation, Dong-A University, Busan, Korea, 2019.
  • D. S. Jang and J. H. Chun, "Implementation of an User-guided Classification Tailoring System," The Journal of Society for e-Business Studies, Vol. 12, No. 3, pp. 193-210, 2007.
  • J. W. Baek, "An Analysis of the Characteristics of the Subject-based Classification System," Journal of The Korean Society for Library and Information Science, Vol. 47, No. 1, pp. 57-79, 2013. [https://doi.org/10.4275/KSLIS.2013.47.1.057]
  • J. H. Kim, "The Improvements of the Tourism Field in the 6th Edition of KDC," Journal of Korean Library and Information Science Society, Vol. 45, No. 1, pp. 103-123, 2014. [https://doi.org/10.16981/kliss.45.1.201403.103]
  • D. M. Park, "Natural Language Processing of News Articles : A Case of ‘NewsSource beta’," Communication Theories, Vol. 12, No. 1, pp. 4-52, 2016.
  • H. J. Kim, T. H. Lee, S. E. Ryu and N. R. Kim, "A Study on Text Mining Methods to Analyze Civil Complaints: Structured Association Analysis," Journal of the Korea Industrial Information Systems Research, Vol. 23, No. 3, pp. 13-24, 2018.
  • H. J. Choe, "Analysis of the Reporting Trend of Newspaper Articles on Artificial Intelligence using Topic Modeling," Journal of Digital Contents Society, Vol. 21, No. 7, pp. 1293-1300, 2020. [https://doi.org/10.9728/dcs.2020.21.7.1293]
  • Tstory, "Classification Performance Evaluation Index-Precision, Recall and Accuracy, https://sumniya.tistory.com/26, , 2019.12.6.

저자소개

김현종(Hyun-Jong Kim)

2012년 : 동아대학교 대학원 (경영학석사)

2020년 : 동아대학교 대학원 (경영학박사-경영정보)

2020년~현 재: 동아대학교 스마트거버넌스연구센터 전임연구원

※관심분야: 스마트거버넌스(Smart governance), 텍스트 마이닝(Text mining), 머신러닝Machine learning) 등

이강배(Kang-Bae Lee)

1991년 : 한국과학기술원 (공학석사)

1995년 : 한국과학기술원 (공학박사-산업공학)

2001년~2004년 : 부산 가톨릭대학교 e-비즈니스학과 교수

2004년~현 재 : 동아대학교 경영정보학과 교수

※관심분야:머신러닝(Machine learning), 딥러닝(Deep learning)

유승의(Seung-Eui Ryu)

2010년 : Texas A&M International University (경영학석사)

2014년 : University of Texas at El Paso (경영학박사-InformationSystems)

2018년~현 재: 동아대학교 스마트거버넌스연구센터 전임연구원

※관심분야: 스마트거버넌스(Smart governance), 텍스트 마이닝(Text mining), 머신러닝Machine learning) 등

홍순구(Soo-Goo Hong)

1995년 : University of Nebraska-Lincoln (경영학석사)

2000년 : University of Nebraska-Lincoln (경영학박사-경영정보)

2001년~현 재: 동아대학교 경영정보학과 교수

※관심분야: 스마트거버넌스(Smart governance), 텍스트 마이닝(Text mining), 머신러닝Machine learning) 등

Fig. 1.

Fig. 1.
Traditional and new methodology

Fig. 2.

Fig. 2.
Classification scheme generation process

Fig. 3.

Fig. 3.
Experiment process for classification scheme generation

Fig. 3.

Fig. 3.
Training loss and accuracy

Table 1.

Step-by-step classification scheme generation method

Step Creation method Detail way Result
Classification structure and item determination -Existing classification scheme
-Expert generation
-Literature research
-Hand work
Classification structure and item
Classification rules analysis -Existing classification scheme
-Expert generation
-Automatic generation
-Literature research
-Hand work
-Text mining
Category and document characteristics (keyword)
Classification scheme generation -Expert generation
-Automatic generation
-Hand work
-Text mining / Machine learning
Classification scheme
(Classification code, Classification criteria)

Table 2.

Word2Vec results by department

Citizen Happiness &
Communications Headquarters
Audit Committee Planning Bureau Fiscal Service Bureau
subsidy 0.25 conception 0.24 assistant 0.24 Infrastructure 0.24
innovation 0.22 disposal 0.23 shooting 0.23 Incident 0.22
Configuration 0.21 contract 0.21 employee 0.20 creative 0.21
Press release 0.21 budget 0.21 major 0.19 conception 0.21
Coordination 0.20 grasp 0.21 BSC 0.19 Hire 0.21
omitted below

Table 3.

Topic frequency by topic modeling results

Topic Freq Topic Freq Topic Freq Topic Freq
bus 8 safety 2 airport 1 education 1
administrative 6 Gupo market 2 yacht stadium 1 redevelopment 1
crackdown 4 corporation 2 road 1 swimming pool 1
tourism 2 apartment 2 library 1 new town 1
parking 2 environment 2 taxi 1 subway 1
facility 2 downtown 1 hospital 1
traffic 2 homeless 1 welfare 1

Table 4.

Document characteristics and administrative departments by topic

Topic Document characteristics Administration department
Bus Bus, route, stop, driver Transportation Bureau Bus Operation Division
subway Subway, women, caring, dedicated Metro Rail Division
taxi Taxi, driver, fare Taxi Transportation Division
parking Parking, illegal, parking, fee
traffic Vehicle, traffic, road Public Transportation Policy Division
road Pedestrian Crossing, Road, Signal, Sidewalk, Walking Urban Planning Office Road Planning Division
Apartment Apartment, construction company, tenant, management, sale Balanced Urban Regeneration Bureau Housing Policy Division
Redevelopment Redevelopment, Hugan, Architecture, Union Urban Renewal Division
New town New Town, Myeongji, Jeonggwan, Apartment Facilities Planning Division
Corporation Building, demolition, noise Urban Planning Office
satin Satin, mall, merchant, underground Urban Planning Division
facility Park, playground, facility, use Engineering Inspection Division
swimming pool Swimming pool, class, lecturer, center Culture, Sports & Tourism Bureau Sports Promotion Division
Yacht stadium Yacht stadium, mooring, association, marine
tourism Tourism, Travel, Tourist, Haeundae, Film Festival Tourism Promotion Division
welfare Welfare, disabled, support, registration, salary Welfare & Health Bureau Disability Welfare Division
Homeless Homeless Welfare Policy Division
hospital Hospital, treatment, victim, child Healthcare and Hygiene Division
no smoking Non-smoking, no smoking, designated, crackdown Health Policy Division
safety Safety, prevention, risk, disaster, accident, management Public Safety Office Safety Policy Division
Agricultural products Livestock products, seafood, food hygiene law, illegal, crackdown Maritime Affairs, Fisheries & Logistics Bureau Agriculture & Livestock Distribution Division
Environment Garbage, odor, smell, noise Environment Policy Office Environmental Policy Division
Administrative Civil complaints, civil servants, representatives, mayors, answers, attitudes Administrative Management Bureau General Civil Affairs Division
education Education, school, student, kids Education Support Division
library Library, request, return, change

Table 5.

Classification code of department

Office/Bureau Division
Code Department Code Department
01 Citizen Happiness & Communications Headquarters 011 Communications Planning Division
02 Audit Committee 012 Public Information Division
03 Planning Bureau 013 New Media Division
04 Fiscal Service Bureau 021 Inspection Division
05 Public Safety Office 022 Audit Transparency Division
omitted below

Table 6.

Classification experiment results

Automatic classification result Actual results
True False
True 469 6
False 322 2208