Korea Digital Contents Society

Journal Archive

Journal of Digital Contents Society - Vol. 21 , No. 8

[ Article ]
Journal of Digital Contents SocietyVol. 21, No. 8, pp.1443-1452
Abbreviation: J. DCS
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Aug 2020
Received 10 Jul 2020 Revised 30 Jul 2020 Accepted 14 Aug 2020
DOI: https://doi.org/10.9728/dcs.2020.21.8.1443

인공지능 기법을 활용한 법률안 예측 모델 연구
할타르 바타르촐론1 ; 주라구지예브 다다존2 ; 이말례3, *
1전북대학교 전자. 정보공학부(컴퓨터공학) 박사과정
2전북대학교 전자. 정보공학부(컴퓨터공학) 석사과정
3전북대학교 전자. 정보공학부(컴퓨터공학) 교수

A Study of the Legislation Prediction Model using Artificial Intelligence
Khaltar Baatarchuluun1 ; Jurakuziev Dadajon Boykuzi Ugli2 ; Malrey Lee3, *
1Doctor’s Course, School of Electronics & Information Engineering, Jeonbuk National University, Chon Buk 561-756, Korea
2Master’s Course, School of Electronics & Information Engineering, Jeonbuk National University, Chon Buk 561-756, Korea
3Professor, School of Electronics & Information Engineering, Jeonbuk National University, Chon Buk 561-756, Korea
Correspondence to : *Malrey Lee Tel: 063-270-3993 E-mail: mrlee@jbnu..ac.kr


Copyright ⓒ 2020 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

최근 인공지능의 발달에 따라 많은 연구들에서 해당 딥러닝 기법을 사용하여 연구를 수행하고 있다. 본 논문에서는 Word2vec의 모델을 활용하여 한국의 법률안을 벡터화하며 법률안 간 연관관계를 예측하여 연구하였다. 우선, 법률안을 검색하여 corpus를 만들고 법률안의 기초적인 정보를 담긴 제안이유 및 중요내용을 추출하여 문맥을 구성하였다. 다음, Word2vec 모델에 법률안 문맥을 학습시킨 후 각 문맥 단어벡터의 코사인 유사도가 가장 높은 법률안 정보를 추출하였다. 마지막으로 학습결과를 검증하기 위하여 제시어에 따라 연관법률안을 출력하고 ‘의안정보시스템’ 사이트에 의하여 출력된 법률안의 포함여부를 비교하여 성능을 평가하였다. 실험결과에 따르면, 본 논문에서 제안된 Word2vec 기반 법률안 예측 모델이 키워드 검색 방식만 활용한 '의안정보시스템' 사이트보다 우수하다는 사실을 확인하였다.

Abstract

With the recent rise of artificial intelligence, many studies are using deep learning techniques to carry out research applying them. In this paper, we used Word2vec model, to vectorize Korean legislation and to predict the relation between them. First, the context was formed by searching the legislation and creating a corpus and extracting important contents of the proposal. Next, learning the context in the Word2vec model, the cosine similarity of each context word vector was extracted. Finally, to verify the performance of the model proposed in this study, the relevant legislations found in the proposed model were compared with those found in the 'Bill information' website. The experiment results confirmed that the Word2vec based legislation prediction model proposed in this paper is superior than 'Bill Information' website utilizing only keyword search method.


Keywords: Bill Information, Keyword search, Legislation, Natural Language Processing, Word2vec, Word Embedding
키워드: 워드 임베딩, 의안 정보, 자연어처리, 키워드 검색, 워드 벡터, 법률안

Ⅰ. 서 론

인터넷의 발달에 따라 누구나 원하는 법령이나 법률안의 정보를 얻기 위한 다양한 형태의 검색 서비스를 받고 있다. 한국의 정부가 법령에 관련된 정보를 검색할 수 있도록 국가의 법령정보 및 판례를 검색할 수 있는 다양한 형태의 검색시스템을 제공하고 있다. 그러나 법령과 법률안의 수가 늘어나고 키워드 검색 방법으로는 원하는 정보를 얻기 힘들다. 특히, 법률안에 관심이 있는 사용자가 키워드 검색 방법으로 찾은 법률안의 정보뿐만 아니라 그 법률안에 관련된 법률안의 정보를 얻기 싶은 경우가 많다.

최근에는 많은 분야에 인공지능을 활용한 연구가 활발하게 이루어지고 법 분야에도 토픽 모델링 및 워드 임베딩을 활용하여 법령과 판례를 검색하는 연구가 제안되었다. 본 논문에서는 Word2vec[1]의 모델을 활용하여 학습을 통하여 법률안 간의 의미적 유사성으로 분류하여 예측할 수 있는 방법을 제안하고자 한다. 우선, 한국의 의안 정보 API에서 국회 19~21대 기간의 법률안을 검색하여 corpus를 만들고 법률안의 기초적인 정보를 담긴 제안이유 및 중요내용을 추출하여 문맥(context)을 구성하였다. 다음, 학습 모듈은 hidden layer와 output layer에서 각 법률안 문맥의 내용을 벡터화하며 Word2vec 모델에 법률안 문맥을 학습시킨 후 각 문맥 단어벡터의 코사인 유사도(cosine similarity)가 가장 높은 법률안 정보를 추출하였다. 그리고 학습결과를 검증하기 위하여 제시어(keyword)에 따라 연관법률안을 출력하고 한국의 정부가 제공하는 ‘의안정보’ 웹사이트에 의하여 출력된 법률안의 포함여부를 비교하여 성능을 평가하였다. 

본 논문은 다음과 같이 구성되어 있다. 제2장에서는 관련 연구로서 한국의 법령 및 법률안정보 예측시스템의 현황과 Word2vec에 관한 연구의 현황을 소개하고, 제3장에서는 법률안 간의 의미적 유사성으로 분류하여 추론하는 Word2vec의 모델을 활용하여 분석한다. 제4장에서는 본 논문의 데이터 수집, 실험, 성능 평가를 하고, 마지막으로 제5장에서는 결론 및 향후 연구를 제시한다.


Ⅱ. 관련 연구
2-1 한국의 법령 및 법률안정보 검색시스템의 현황

한국에서는 국민이나 법률 전문가들이 원하는 법령정보를 검색하기 위한 다양한 형태의 검색 서비스가 여러 분야에서 개발되고 있다. 법령의 수가 늘어나고 있음에 따라 법령의 검색은 필요한 법령을 검색하여 법령에 대한 지식을 얻기 위한 사용자의 편의를 제공하기 위하여 반드시 필요한 검색시스템이다. 따라서 한국의 정부가 법령에 관련된 정보를 검색할 수 있도록 국가의 법령정보 및 판례를 검색할 수 있는 법제처[2]의 국가법령정보센터[3], 대한민국 국회[4], 대법원 종합법률정보[5] 등의 검색시스템을 제공하고 있다. 또한, 법률안에 관련된 정보를 검색할 수 있는 대한민국 국회정보시스템의 의안정보시스템[6], 맞춤입법콘텐츠검색시스템[7], 법제처의 정부입법지원센터[8] 등의 검색 사이트를 제공하여 여러 검색방법을 개선하기 위하여 노력하고 있다.

이렇게 키워드 기반으로 법률안 정보를 검색하는 방법은 많은 시간이 필요하고 키워드 데이터가 많기 때문에 필요한 정보를 얻기가 힘들다(그림 1 참조).


Fig. 1. 
Search page of Bill information website

이러한 법령정보시스템의 개발이 활발하게 이뤄졌으나 법령 및 법률안에 관련된 연구는 많이 수행되지 않았다. 특히, 법률안에 관련된 정보를 검색하여 활용하기 힘든 문제를 해결하기 위한 연구가 필요한 상황이다.

법령정보 검색시스템에 관한 연구는 법률 영역에서 온톨로지 기반 법률 검색시스템과 현존하는 키워드 기반 법률 검색시스템을 비교하여 시스템의 검색 성능 및 이용자 만족도를 평가한 연구로부터 시작되었다[9]. 이후 법령 온톨로지 구축을 위하여 법률 문서의 계층관계와 요소 간의 구조적인 관계, 법률 문장을 분석하여 OWL DL(Web Ontology Language Description Logics) 수준의 법령 온톨로지를 위한 매핑 규칙이 제안되었다[10]. 그리고 법령 온톨로지를 구축하는 법령 온톨로지를 기반으로 법령 시맨틱 검색 프레임워크를 구현하려는 연구도 수행되었다[11]. 또한, 온톨로지를 기반으로 하는 철도 및 교통 분야의 법률 규정을 중심으로 하는 연구가 수행되었다[12].

국민들이 일상생활에서 주로 사용하는 생활용어를 이용하여 키워드 기반으로 법령정보 검색할 수 있는 생활용어와 법률용어 간의 대응관계를 탐색하여 활용할 수 있는 방법론이 제안되었다[13]. 그리고 일반인의 법령정보를 검색하기 위한 일반용어-전문용어 매핑 후보를 추출하여 법령 매핑 확률 및 통계적 기반을 둔 기계 학습 기법을 활용하는 법령정보검색 지원 시스템이 제시되었다[14]. 누구나 쉽게 판례검색을 할 수 있는 LDA (Latent Dirichlet Allocation) 토픽 모델링을 활용한 연구는 주제를 도출하여 코사인 유사도를 계산하며 유사한 판례를 분류한 검색방법이 설명되었다[15]. 한국 법령정보를 워드 임베딩을 하여 연관된 법령정보를 추론하는 검색방법이 제안되었다[16]. 변호사 등 법조인들이 주로 이용하는 법령정보 데이터베이스를 대상으로 한 연구에서는 로앤비[17], 법제처[2]의 국가법령정보센터[3], 대법원 종합법률정보[4] 등을 가장 많이 이용한 것으로 파악되었다[18]. 따라서 법률안을 쉽게 검색할 수 있는 새로운 방법을 제시하고자 한다.

2-2 Word2vec에 관한 연구의 현황

인공지능의 중요한 한 분야인 딥러닝은 기계학습, 신경망, 분류 등 다양한 주제로 연결되고 있다[19]. 딥러닝은 음성, 자연어 처리, 로봇, 게임, 검색 엔진, 컴퓨터 비전 등 많은 소프트웨어 분야에서 이미 유용한 것으로 인정되었다[20]. 자연어 처리에는 의미적 처리에서 대화 처리까지 다양한 단계가 있다[21].

자연어 처리는 사람이 의사소통하는 언어를 컴퓨터가 인식하여 이를 처리할 수 있는 기술이다[22]. 이러한 자연어 처리에는 자연어 분석, 자연어 이해, 자연어 생성 등의 핵심 기술이 사용된다. 자연어 분석은 형태소 분석(Morphological Analysis), 구문적 분석(Syntactic Analysis), 의미적 분석(Semantic Analysis), 화용 분석(Pragmatic Analysis) 등의 다양한 형태로 나눌 수 있다.

최근에는 자연어 처리 기술이 쓰이는 가장 대표적인 예로는 감성분석, 챗봇, 기계번역, 음성인식, 검색엔진, 요소 추출, 문서분류 등을 들 수 있다. 문서분류는 자연어 처리 분야에서 대표적인 의미적 분석 중 하나로써 웹 뉴스, 온톨로지, 질문타입, 감정 레벨 등 다양한 목적으로 작업을 하고 있고 텍스트 마이닝, 감정 분석, 토픽모델링, 웹 마이닝, 의미적 군집화 등 이름으로 연구하기도 한다. 즉, 어떤 정보를 단어에 포함시켜주는 워드 임베딩은 딥러닝을 활용하여 문서분류를 포함한 자연어 처리에서 사용된다[23].

워드 임베딩이란 분산 표현을 이용하여 단어를 벡터로 표현하는 것을 말한다. 유명한 역 전파 학습 알고리즘이 설명되었고, 정보의 구조를 변환하여 유용한 표현(단어 표현 및 벡터)을 발견하였다는 연구로부터 시작되었다[24]. 그리고 벡터 공간에서 있는 단어들의 분산 표현은 유사한 단어들을 그룹화하여 자연어 처리의 성능을 할 수 있다는 연구가 제안되었다[25]. 단어 표현은 각 단어와 연결된 수학적 객체이고, 흔히 벡터로 의미되었다[26].

단어를 벡터로 표현하는 방법으로 원-핫 인코딩/벡터(one-hot encoding/vector)를 살펴보고자 한다. 이 방법에서 각 단어를 벡터로 표현하고, 길이는 전부 단어 집합(vocabulary)의 크기가 된다. 전부 벡터의 값은 0으로 설정되고, 단어를 매핑할 때 인덱스에는 단어만 1로 설정된다[27](그림 2 참조).


Fig. 2. 
One-hot encoding/vector

이렇게 대부분 벡터의 값이 0으로 표현되는 원-핫 인코딩/벡터는 희소 표현/벡터이다. 예를 들면, 단어 집합에 10.000개의 단어가 있다고 하면, 99.99%의 단어가 0으로 나타낸다.

원-핫 인코딩/벡터의 단점을 보완하기 위하여 각 단어를 고유한 숫자로 벡터화하는 밀집 벡터(dense vector)가 제안되었다[28].

유사한 자질(feature)을 가지는 단어를 처리할 수 있도록 각 단어를 가능하게 분포하기 위한 분산 표현(distributed representation)이 사용되었다. 이러한 분산 표현을 사용하여 단어의 의미를 벡터화하는 것을 단어 임베딩이라고 한다[19]. 단어 임베딩은 기본적으로 분포 가설(distributional hypothesis)에 따라 비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다는 것이다[29]. 언어 모델의 한 신경망은 분산 표현에 해당된다.

신경 모델을 이용하여 단어의 분산 표현으로 학습하여 차원 저주(curse of dimensionality)의 영향을 줄이기 위한 모델로 신경망 언어 모델(Neural Network Language Model)이 제안되었다. 신경망 언어 모델은 말뭉치(corpus)에서 목표가 되는 단어의 뒤에 등장하는 단어들을 입력받아 말뭉치에서 현재 단어의 뒤에 오는 단어가 유사한 의미적으로 벡터 공간에서 비슷한 위치에 오도록 학습시킨다[30].

신경망 언어 모델의 많은 시간이 필요한 단점을 극복하기 위하여 학습속도와 정확도를 높일 수 있는 Word2vec의 모델인 CBOW(Continuous Bag-of-Words) 및 Skip-gram 모델 등이 사용되었다. CBOW 모델은 모든 프로젝션 레이어(projection layer)가 입력으로 들어오는 단어들을 공유하는 피드포워드(feedforward)의 신경망 언어 모델이고 문맥(context)에서 주변 단어들이 입력으로 주어졌을 때 현재 단어를 예측하는 모델이다. 반면, Skip-gram 모델은 문맥에서 입력으로 들어오는 단어로 주변 단어를 예측하는 모델이다[1](그림 3 참조).


Fig. 3. 
CBOW and Skip-gram models[30]

Word2vec의 모델은 중심단어와 주변단어 벡터의 내적(inner product)이 코사인 유사도가 되도록 단어벡터를 벡터공간에 임베딩을 하는 방법이고 이를 단어 임베딩이라고 할 수 있다. 고차원 공간에서 한 단어가 여러 관계들을 임베딩할 수 있다[31]. 그림 4에서는 벡터 연산을 통하여 groom – bride + + queen =king과 같이 단어 간 의미적 관계를 계산할 수 있다.


Fig. 4. 
Word analogy evaluation

즉, groom–bride 사이의 관계와 king–queen 사이의 관계가 성별 관계를 나타내기 때문에 벡터 연산 결과도 유사하다. 이렇게 단어 임베딩을 평가하는 방법은 단어 유추 평가(word analogy evaluation)라고 부른다.

최근에는 Word2vec, GloVe, FastText 등 단어 임베딩 방법을 활용한 많은 연구가 다양한 분야에 수행되고 있다. GloVe[32] 모델은 아주 큰 단어 동시등장행렬(co-occurence matrix) 통계를 통하여 corpus를 수행한다. 이 모델은 단어 벡터 공간에 흥미로운 선형 부분구조(linear substructures)를 보여주고, 그 결과는 작은 공간에 큰 행렬이 될 수 있는 장점과 거의 발생하지 않는 동시등장(co-occurence)을 가진다는 단점이 있다. FastText[33] 모델은 Word2vec의 확정된 모델이고, 각 단어를 부분단어벡터(Subword)의 집합을 만들어 벡터들로 표현하여 단어를 임베딩하기 때문에 OOV(Out of Vocabulary)의 문제가 발생하지 않다는 장점과 문맥에 다른 의미를 가진 패턴을 고려하지 않다는 단점을 가진다. 따라서 한국의 법령 및 법률안정보 검색시스템에서는 이러한 GloVe, FastText 등 단어 임베딩 방법을 이용하면 복잡하다.

본 연구에서는 Word2vec[1] 모델을 활용하여 학습하고 단어 간 관계와 연관법률안을 추론하는 데 키워드 검색보다 우수함을 알 수 있는 새로운 방법을 제안하고자 한다.


Ⅲ. 관련 모델

본 연구에서는 Word2vec의 모델을 활용하여 법률안을 대상으로 학습을 통하여 법률안을 벡터하고 법률안 간 연관관계를 추론하였다. 법률안을 대상으로 하는 Word2vec의 모델은 공공데이터포털에 참조된 법률안의 제안 이유 및 중요내용을 분석하며 법률안 간의 의미적 유사성으로 분류하여 추론하는 연구를 제안하였다. Word2vec의 모델은 모든 의안정보를 input하는 것이 아니라 법률안을 input하여 학습하였다.

Word2vec의 모델을 활용하기 위하여 다음의 세 가지 모듈을 구성하였다(그림 5 참조).


Fig. 5. 
Proposed model workflow

먼저, 의안 정보 API에서 국회 19~21대 기간의 법률안을 검색하여 corpus를 만들고 법률안의 기초적인 정보를 담긴 제안이유 및 중요내용을 추출하여 문맥(context)을 구성하였다. 의미가 비슷한 법률안들이 같은 문맥 환경에서 등장하는 단어들이 같은 의미적 유사성을 공유한다는 분포 가설을 나타낸다. 

다음, 학습 모듈은 hidden layer와 output layer에서 각 법률안 문맥의 내용을 벡터화한다. 추출된 문맥은 주변단어의 분포 정보를 분석하고 hidden layer에서 고유한 벡터로 계산하여 법률안 간 관계를 도출하는 학습을 수행하였다. 법률안 문맥을 학습시키기 위하여 Skip-gram 모델을 활용하였다. 아래 식 좌변은 중심단어(c)가 주어졌을 때 주변단어(o)가 나타날 조건부확률(conditional probability)이다[34]. 즉, Skip-gram은 중심단어가 주어졌을 때 나올 주변법률안을 예측하는 모델이다. 

Poc=expuoTvcW=1WexpuWTvc(1) 

마지막, 출력모듈은 벡터의 유사도를 계산하여 주어진 중심단어의 연관법률안을 출력한다. Word2vec 모델에 법률안 문맥을 학습시킨 후 각 문맥 단어벡터의 코사인 유사도(cosine similarity)가 가장 높은 법률안 정보를 추출할 수 있다. 학습결과를 검증하기 위하여 제시어(keyword)에 따라 연관법률안을 출력하고 한국의 정부가 제공하는 ‘의안정보’ 웹사이트에 의하여 출력된 법률안의 포함여부를 비교하여 성능을 평가하였다. 


Ⅳ. 제안 기법
4-1 데이터 수집

본 연구에서는 사용할 데이터는 공공데이터포텔(www.data.go.kr)에서 공개되는 의안정보를 대상으로 하였다. 의안정보의 종류에는 헌법개정, 예산안, 결산, 법률안, 동의안, 승인안, 결의안, 건의안, 규칙안, 선출안, 중요동의, 의원징계, 의원자격심사, 윤리심사, 기타안, 기타가 포함되고 있다. 의안정보 openAPI를 이용하기 위하여 신청을 하여 정보를 이용할 수 있는 권한을 받았다. Python을 사용하여 부여받은 인증키를 이용하고 웹 요청을(url request) 하여 데이터를 수집하였다(그림 6 참조).


Fig. 6. 
Open data portal bill information API

실험을 진행하기 위하여 의안정보 말뭉치를 만들고, 의안 목록 검색 페이지의 XML 구조를 분석하고, 의안종류 중에서 법률안만을 스크래핑(scraping)하였다. 법률안을 스크래핑하기 위하여 bs4(BeautifulSoup), urllib3 패키지를 이용하였다(그림 7 참조).


Fig. 7. 
Data scraping

법률안 스크래핑을 통하여 가져올 수 있는 정보를 바탕으로 구성한 후 법률안 데이터셋을 만들었다. 그림 8은 수집된 데이터셋 화면의 예시를 보여준다.


Fig. 8. 
Collected dataset

워드 임베딩 학습을 위한 한국어 데이터의 전처리(preprocess)를 하였다. 학습 데이터는 json 파일 형태이기 때문에 데이터를 순수 텍스트 파일로 바꾸고 여기에 형태소 분석을 실시하였다(그림 9 참조).


Fig. 9. 
Morphological analyzer implementation

단어 임베딩의 성능을 향상시키기 위해서는 단어의 경계를 컴퓨터에 알려주었다. 이러한 방법으로 어휘 집합에 속한 단어 수가 줄어들고 더 효율적인 연산이 이루어졌다. 영어와 달리 한국어는 조사와 어미가 발달한 교착어(agglutinative language)이기 때문에 이러한 처리를 좀 더 섬세히 하였다[35]. 본 실험에서는 형태소 분석 방법으로 국어학 전문가들이 태깅(tagging)한 데이터로 학습된 모델로 분석하는 지도 학습(supervised learning) 기법을 사용하였다. KoNLPy 패키지가 제공하는 5개 오픈소스 형태소 분석기 중 하나인 Okt (Open Korean Text) 패키지를 사용하였다.

4-2 실험

본 연구에서 한국 법률안 Word2vec 모델을 실험하기 위하여 '공공데이터포털'의 의안 정보 openAPI를 이용하여 의안을 수집하였다. 의안 종류는 총 16 가지가 있으나 시간과 개발 환경의 한계를 고려해서 모든 종류를 대상으로 실험을 수행하는 것이 아니라 특정 종류를 선정하였다. 특정 종류로써 '법률안'으로 검색하여 제안된 모델을 학습시키기 위한 데이터를 만들었다. 데이터는 python으로 웹 스크래핑을 하여 수집하였다.

표 1과 같이 37,989 개의 법률안이 수집 되었으며 법률안의 'summary' 부분을 추출하여 학습 데이터를 만들었다. 수집된 데이터셋에서 문장 부호, 외국어, 특수 문자 등 한국어와 무관한 표현은 제거되었다. 이 결과 전체 corpus의 용량은 60 MB이다. Corpus의 형태소 분석하기 위하여 KoNLPy의 okt 품사 태거(part of speach tagger)를 사용하였다. 오픈 소스로 공개된 okt로 분석된 corpus의 어휘 수는 총 16,593 개다.

Table 1. 
Corpus of legislations
Bill kind Category Count Frequency
Proposer kind Processing classification
Legislation Member of Parliament Processed legislations 37035 97.50%
Proposed legislations 954 2.50%

수집된 데이터를 학습시키기 위하여 Gensim의 Word2vec 패키지[36]를 활용하였다. 모델의 하이퍼파라미터는 Skip-gram 학습 알고리즘(training algorithm), 벡터 차원은 100, 200, 300, 윈도우 크기는 3, 5, 10로 설정하여 학습을 했을 때 가장 좋은 성능을 보이는 것을 확인하였다. 입력된 키워드의 유사한 법률안 예측 결과는 아래 내용과 같다.

법률안을 예측하기 위하여 기존의 키워드 검색[37] 결과와 Word2vec 모델로 법률안을 예측한 결과를 비교해보면, Word2vec 모델이 유사성이 높은 연관법률안까지 출력하는 것을 확인하였다.

본 논문에서는 Word2vec 예측 결과로 출력된 법률안의 내용을 표 2, 3에서 확인하였다. Word2vec으로 분석된 결과로써 첫째, '어린이보호구역'의 연관 단어는 '보호구역, 0.8999', '통학, 0.7536', '보행로, 0.7344' 출력 되었고, 연관법률안은 '2100951, 도로교통법 일부개정법률안(이채익의원 등 10인)', '2100804, 도로교통법 일부개정법률안(정청래의원 등 11인)', '2100242, 도로교통법 일부개정법률안(임종성의원 등 15인)'이 출력되었다(표 2 참조).

Table 2. 
Comparison of predict results of ‘Protection Areas for Children’
KOption Keyword Number of results Search results
Keyword search (existing method) Protection Areas for Children 20  [2100951, ROAD TRAFFIC ACT]
A driver who caused a child traffic accident within a Protection Areas for Children shall receive special traffic safety education provided by the Road Traffic Authority even if he/she has not been ordered to cancel his/her driver's license or suspend his/her driver's license validi
 [2100804, ROAD TRAFFIC ACT]
Recently, traffic accidents among children have been increasing due to parking vehicles in Protection Areas for Children, but they are not designated as parking-free zones under the current law, which is being
 [2022124, ROAD TRAFFIC ACT]
In order to protect children from the risk of traffic accidents , the current Road Traffic Act allows a certain section of the surrounding roads, ex. school facilities, to be designated as a child protection zone and the speed of traffic can be limited to 30
Proposed method Protection Areas for Children 97  [2100951, ROAD TRAFFIC ACT]
A driver who caused a child traffic accident within a Protection Areas for Children shall receive special traffic safety education provided by the Road Traffic Authority even if he/she has not been ordered to cancel his/her driver's license or suspend his/her driver's license validi
 [2100804, ROAD TRAFFIC ACT]
Recently, traffic accidents among children have been increasing due to parking vehicles in Protection Areas for Children, but they are not designated as parking-free zones under the current law, which is being cracked down by municipal ...
 [2100242, ROAD TRAFFIC ACT]
The current law stipulates that certain sections of the road around the frequently visited facility should be designated and managed as Protec ted are for Children in order to pro tect children from the risk of traffic

Table 3. 
Comparison of predict results of ‘Health care’
Option Keyword Number of results Search results
Keyword search (existing method) Health care 3503  [2101036, EMERGENCY MEDICAL SERVICE ACT]
Under the current law, the Minister of Health care and Welfare is allowed to designate a specialized emergency medical center for pediatric patients from among the Central Emergency Medical
 [2101015, ACT ON THE SUPPORT FOR ASSISTIVE DEVICES FOR PERSONS WITH DISABILITIES, OLDER PERSONS]
National Examination Institute of Health care and Medical Sciences Act of Korea. The current law was enacted in December 2015 to contribute to improving the quality of life by efficiently providing auxiliary equipment services ..
 [2101011, BLOOD MANAGEMENT ACT]
It is necessary to provide practical and effective support at the national level for the development of … (Military Health care inst...)
Proposed method Health care 1148  [2101036, EMERGENCY MEDICAL SERVICE ACT]
Under the current law, the Minister of Health care and Welfare is allowed to designate a specialized emergency medical center for pediatric patients from among the Central Emergency Medical
 [2101008, RARE DISEASE MANAGEMENT ACT]
The current law provides administrative and financial support to those who develop and sell medicines for the diagnosis and treatment of rare ...
 [2100973, ACT ON THE HONORABLE TREATMENT OF AND SUPPORT FOR PERSONS, ETC. OF DISTINGUISHED SERVICE TO THE STATE]
Under the current law, a person who has made a remarkable contribution to the state or social development who has died in connection with his or her contribution is ...

키워드 검색은 '어린이보호구역'이라는 '키워드'가 있는지를 확인하여 그 조건이 참인 20 개의 법률안만 출력되었다. 반면에 Word2vec은 주어진 단어의 벡터 정보를 통해 그 단어와 유사성이 높은 '응급의료에 관한 법률', '희귀질환관리법', '국가유공자'와 같은 97 개의 법률안이 예측된 점에서 키워드 검색 방법과 차이가 있다는 것을 확인하였다(표 2 참조).

Word2vec으로 분석된 결과로써 둘째, '의료'의 연관 단어는 '환자, 0.8263', '의료인, 0.8208', '진료, 0.7986' 출력 되었고, 연관법률안은 '2101036, 응급의료에 관한 법률 일부개정법률안(정점식의원 등 11인)', '2101008, 희귀질환관리법 일부개정법률안(이명수의원 등 37인)', '2100973, 국가유공자 등 예우 및 지원에 관한 법률 일부개정법률안(신현영의원 등 12인)'이 출력되었다(표 3 참조).

4-3 성능 평가

Word2vec은 비지도학습 기법이기 때문에 지도학습에서 사용하는 데이터셋을 학습-평가용으로 나누어 성능 평가하는 방법이 적절하지 않다. 본 연구에서 제안하는 모델의 성능을 검증하기 위하여 제안된 모델에서 예측된 연관법률안과 한국 정부에서 제공되는 '의안정보시스템'에서 검색된 법률안을 비교하였다.

아래 표4, 5에서는 '어린이보호구역'과 '의료' 키워드가 주어졌을 때 의안정보시스템과 제안된 모델에서 예측된 연관법률안 결과를 비교하였다.

Table 4. 
Comparison of predict results of ‘Protection Areas for Children’
Option Keyword Number of results Search results
Keyword search (existing method) Protection Areas for Children 0 -
Proposed method Protection Areas for Children 97  [2100951, ROAD TRAFFIC ACT]
A driver who caused a child traffic accident within a Protection Areas for Children shall receive special traffic safety education provided by the Road Traffic Authority even if he/she has not been ordered to cancel his/her driver's license or suspend his/her driver's license validity (Article 73(2)).
 [2100804, ROAD TRAFFIC ACT]
Recently,traffic accident samong children have been increasing due to parking vehicles in Protection Areas for Children, but they are not designated as parking-free zones under the current law, which is being cracked down by municipal ...
 [2100242, ROAD TRAFFIC ACT]
The current law stipulates that certain sections of the road around the frequently visited facility should be designated and managed as Protected are for Children in order to protect children from the risk of traffic accidents.

Table 5. 
Comparison of predict results of ‘Health care’
Option Keyword Number of results Search results
Keyword search (existing method) Health care 836  [2101036, EMERGENCY MEDICAL SERVICE ACT]
Under the current law, the Minister of Health care and Welfare is allowed to designate a specialized emergency medical center for pediatric patients from among the Central Emergency Medical
 [2100948, MEDICAL SERVICE ACT]
The current law stipulates that a medical institution appoints a person in charge of safety management when installing and operating a radiation generating device for diagnosis, and that matters concerning the scope, inspection, installation, etc. of the device are prescribed by the Ministry of Health care and Welfare Ordinance.
 [2100883, MEDICAL SERVICE ACT]
Recently, there have been persistent opinions that strong punishment is needed for unlicensed Health care stuff who have been customary, such as having nurses conduct medical activities and being investigated by police in emergency rooms of large hospitals.
Proposed method Health care 1148  [2101036, EMERGENCY MEDICAL SERVICE ACT]
Under the current law, the Minister of Health care and Welfare is allowed to designate a specialized emergency medical center for pediatric patients from among the Central Emergency Medical
 [2101008, RARE DISEASE MANAGEMENT ACT]
The current law provides administrative and financial support to those who develop and sell medicines for the diagnosis and treatment of rare ...
 [2100973, ACT ON THE HONORABLE TREATMENT OF AND SUPPORT FOR PERSONS, ETC. OF DISTINGUISHED SERVICE TO THE STATE]
Under the current law, a person who has made a remarkable contribution to the state or social development who has died in connection with his or her contribution is ...

첫째, '어린이보호구역'과 유사한 법률안을 검색한 결과는 의안정보시스템에서 0 개, Word2vec 모델에서는 97 개의 연관법률안이 출력되었다(표 4 참조).

이 결과는 현재 대부분의 입법전문가들이 의존하는 '의안정보시스템'의 검색 엔진은 키워드가 주어졌을 때 의안명 안에서 문자열로 검색하는 방법일 뿐이며 의안의 내용을 고려하지 못 하는 점이 밝혀졌다. 그러나 Word2vec 모델은 corpus의 모든 어휘는 벡터화 되고 단어 간 코사인 유사성을 이용해 연관법률안을 출력할 수 있었다. 이러한 방법으로 Word2vec 모델이 기존 키워드 검색 방법보다 우수하다는 것을 확인하였다.

둘째, 검색 단어가 '의료'인 경우에는 의안정보시스템에서 836 개, Word2vec 모델은 1148 개의 연관법률안이 출력되었다 (표 5 참조). 의안정보시스템에서 출력된 법률안을 보면 전체 내용이 다르지만 '의료'라는 단어가 일치하면 출력되었다. 반면에 Word2vec에서는 전체 내용이 '의료'와 얼마나 관련이 있는지 비교하여 유사성이 70% 이상인 법률안을 출력하였다.

따라서 Word2vec 모델은 검색어와 의미적 유사성과 관련되는 법률안을 예측하는 것을 평가할 수 있었다.


Ⅴ. 결 론

본 논문에서는 법률안의 '제안이유 및 주요내용'을 벡터로 하여 Word2vec 모델을 이용하여 학습하고 임베딩한 후 단어 간 관계와 연관법률안을 추론하는 데 키워드 검색보다 우수함을 알 수 있었다. 기존에는 연관법률안을 찾으려면 검색 키워드를 여러 번 수정하거나 법률안 이름이나 번호를 미래 알고 있어야 하는 번거로움이 있었다. 본 연구에서 키워드와 의미적 유사한 법률안을 추론할 수 있는 새로운 방법을 제안하고 실험하여 근거를 마련하였다. 이러한 방법으로 의안 지식이 부족한 사용자도 법률안을 쉽게 검색하여 활용할 수 있을 것으로 여겨진다.

Word2vec 모델의 학습은 input layer에서는 법률안 정보 corpus가 필요하고, output layer에서는 성능평가를 위한 출력된 결과를 비교할 수 있는 웹 사이트가 필요하다. 그리고 문법 형태소 분석기, 학습 알고리즘은 Skip-gram, 벡터는 100차원, 윈도우 사이즈는 5가 최적이다. 그리고 총 어휘 수가 약 2만 이기 때문에 최소 출현빈도를 5로 설정해서 모든 어휘를 포함시켰다.

마지막으로, Word2vec 이외의 다른 단어 임베딩 모델과 전이 학습(transfer learning) 기법을 활용하여 법률안 예측 모델들을 최적화에 적용할 방법을 연구할 예정이다.


참고문헌
1. T. Mikolov, K. Chen, G. Corrado, J. Dean, “Efficient Estimation of Word Representations in Vector Space,” arXiv:1301.3781v3 [cs.CL] Sep 2013.
2. Ministry of Government Legislation. [Internet]. Available: http://www.moleg.go.kr/.
3. National Law Information Center. [Internet]. Available: http://www.law.go.kr/.
4. The National Assembly of The Republic of Korea. [Internet]. Available: http://likms.assembly.go.kr/.
5. The Supreme Court of Korea. [Internet]. Available: http://glaw.scourt.go.kr/.
6. Bill Information. [Internet]. Available: http://likms.assembly.go.kr/bill/.
7. Personalized Legislative Contents Searching System. [Internet]. Available: http://naph.assembly.go.kr/.
8. Korea Ministry of Government Legislation. [Internet]. Available: http://www.lawmaking.go.kr/.
9. I. H. Chang, “Developing and Evaluating an Ontology-based Legal Retrieval System,” Journal of the Korean Society for Library and Information Science, Vol. 45, No. 2, pp. 345-366, May 2011.
10. D. W. Jo, M. H. Kim, “A Study on Legal Ontology Construction,” Journal of the Korea Society of Computer and Information, Vol. 19, No. 11, pp. 105-113, Nov 2014.
11. D. W. Jo, A Framework for Automatic Legal Ontology Construction and Semantic Retrieval, Ph.D. dissertation, Department of Computer Science and Engineering, Graduate School of Soongsil University, pp. 3-5, 2014.
12. M. J. Won, D. H. Kim, H. M. Jung, S. K. Lee, J. S. Hong, W.J. Kim, “A Development of Ontology-Based Law Retrieval System: Focused on Railroad R&D Projects,” Journal of Society for e-Business Studies, Vol. 20, no. 4, pp. 209-225, Nov 2015.
13. J. H. Kim, J. S. Lee, M. J. Lee, W. J. Kim, J. S. Hong, “Term Mapping Methodology between Everyday Words and Legal Terms for Law Information Search System,” Journal of Intelligence and Information Systems, Vol. 18, No. 3, pp. 137-152, Sep 2012.
14. J. B. Baik, S. W. Lee, “A Legal Information Retrieval Assistant System using Web Mining,” Journal of KISS: Software and Applications, Vol. 40, No. 7, pp. 395-404, July 2013.
15. J. S. Shim, H. J. Kim, “A Searching Method for Legal Case Using LDA Topic Modeling,” Journal of The Institute of Electronics and Information Engineers, Vol. 54, No. 9, pp. 67-75, Sep 2017.
16. N. R. Kim, H. J. Kim, “A Study on the Law2Vec Model for Searching Related Law,” Journal of Digital Contents Society, Vol. 18, No. 7, pp. 1419-1425, Nov 2017.
17. Thomson Reuters Lawnb. [Internet]. Available: https://www.lawnb.com/.
18. J. H. Kim, E. G. Seo, “Exploring the Lawyers’ Legal Information Seeking Behaviors for the Law Practice,” Journal of the Korean Society for Information Management, Vol. 32, No. 4, pp. 55-76, Dec 2015.
19. Deep learning. [Internet]. TV, Deep learning SIMPLIFIED: The series Intro-Ep. 1, Available: https://www.youtube.com/.
20. I. Goodfellow, Y. Bengio, A. Courville, “Deep learning,” The MIT Press, Cambridge, Massachusetts London, pp.8-11, 2016.
21. F. Chaubard, M. Fang, G. Genthial, R. Mundra, R. Socher, “Natural Language Processing with Deep Learning,” [Internet]. Available: https://tensorflowkorea.files.wordpress.com/2017/03/cs224n-2017winter-notes-all.pdf.
22. D. W. Jo, A Study on Artificial Intelligence Based Contact Center System, Ph.D. dissertation, Department of Industrial and Information Systems Engineering, The Graduate School of Public Policy and Information Technology Seoul National University of Science and Technology, pp. 20-27, 2019.
23. Y. S. Kim, S. W. Lee, “Combinations of Text Preprocessing and Word Embedding Suitable for Neural Network Models for Document Classification,” Korea Information Science Society, Vol. 45, No. 7, pp. 690-700, July 2018.
24. D. Rumelhart, G. Hinton, R. Williams, “Learning representations by back-propagating errors,” Nature Publishing Group, pp. 533-536, 1986.
25. T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean, “Distributed Representations of Words and Phrases and their Compositionality,” Advances in neural information processing systems, pp. 3111-3119, Oct 2013.
26. J. Turian, L. Ratinov, Y. Bengio, “Word representations: A simple and general method for semi-supervised learning,” Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pp. 384-394, July 2010.
27. Deep learning. [Internet]. TV, Deep learning SIMPLIFIED: The series Intro-Ep. 25, Available: www.youtube.com.
28. Tensor Flow Core. [Internet]. Available: www.tensorflow.org/tutorials/word2vec.
29. H. S. Kang, J. H. Yang, “The Analogy Test Set Suitable to Evaluate Word Embedding Models for Korean,” Journal of Digital Contents Society, Vol. 19, No. 10, pp. 1999-2008, Oct 2018.
30. Y. Bengio, R. Ducharme, P. Vincent, Ch. Jauvin, “A neural probabilistic language model,” Journal of Machine Learning Research, pp. 1137-1155, 2003.
31. T. Mikolov, W. Yih, G. Zweig, “Linguistic Regularities in Continuous Space Word Representations,” Proceeding of NAACL-HLT, pp. 746-751, 2013.
32. J. Pennington, R. Socher, Ch. Manning, “GloVe: Global Vectors for Word Representation,” Proceeding of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP), pp. 1532-1543, Oct 2014.
33. H. S. Jo, S. G. Lee, “Korean Word Embedding using FastText,” The Korean Institute of Information Scientists and Engineers, pp. 705-707, Dec 2017.
34. Word2vec. [Internet]. Available: https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/03/30/word2vec/.
35. K. Ch. Lee, Korean Embedding, Key secret to improving the performance of natural language processing models from Word2vec to ELMo, BERT, 3th ed. Acorn, pp. 95, 2020.
36. Word2vec model. [Internet]. Available: https://radimrehurek.com/gensim/models/word2vec.html
37. Bill monitoring system, [Internet]. Available: https://catbell.org/.

저자소개

할타르 바타르촐론 (Khaltar Baatarchuluun)

1995년 : 몽골국립대학교 물리학과 학사

2007년 : 몽골국립대학교 물리학. 전자공학과 석사

1995년~2003년: 몽골 원자력기구 동위 원소 센터 전문가

2003년~2008년: 몽골 원자력기구 동위 원소 센터 장

2014년~현 재: 전북대학교 전자. 정보공학부(컴퓨터공학) 대학원 박사과정

※관심분야: 인공지능, 딥러닝, 자연어 처리 등

주라구지예브 다다존 (Jurakuziev Dadajon Boykuzi Ugli)

2019년 : 경상대학교 컴퓨터과학과 학사

2019년~현 재: 전북대학교 전자. 정보공학부(컴퓨터공학) 대학원 석사과정

※관심분야: 인공지능, 딥러닝, 컴퓨터 비전, 자율로봇

이말례 (Malrey Lee)

1993년 : 중앙대학교 컴퓨터공학 석사

1998년 : 중앙대학교 컴퓨터공학 박사

1999년~2003년: 전남대학교 조교수

2009년~2018년: San Diego State University 겸임교수

2003년~현 재: 전북대학교 전자. 정보공학부(컴퓨터공학) 교수

※관심분야: 자율로봇, 인공지능, 딥러닝, 머신러닝, 인공생명 등