Korea Digital Contents Society

Journal Archive

Journal of Digital Contents Society - Vol. 21 , No. 7

[ Article ]
Journal of Digital Contents Society - Vol. 21, No. 7, pp. 1293-1300
Abbreviation: J. DCS
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Jul 2020
Received 27 May 2020 Revised 15 Jul 2020 Accepted 25 Jul 2020
DOI: https://doi.org/10.9728/dcs.2020.21.7.1293

토픽 모델링을 이용한 인공 지능 관련 신문 기사의 보도 경향 분석
최현종
서원대학교 컴퓨터교육과 교수

Analysis of the Reporting Trend of Newspaper Articles on Artificial Intelligence using Topic Modeling
Hyun-Jong Choe
Professor, Department of Computer Education, Seowon University, Chungbuk 28674, Korea
Correspondence to : *Hyun-jong Choe Tel: +82-43-299-8432 E-mail: blueland@seowon.ac.kr


Copyright ⓒ 2020 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 2015년 1월부터 2020년 4월까지 한국에서 발행된 신문 기사 중에서 인공 지능과 관련된 신문의 보도 경향을 빈도 분석과 토픽 모델링의 방법으로 분석하는 것을 목적으로 한다. 신문 데이터베이스 시스템인 빅 카인즈에서 113,832개의 기사를 수집하였고, 수집된 신문 기사 자료는 공개 프로그램인 R을 사용하여 분석하였다. 분석 결과 2016년도에 가장 많은 관련 신문 기사가 보도되었고, 특히 경제 분야 기사의 보도 수는 매년 증가하고 있는 것을 확인하였다. 신문 기사의 제목은 키워드 빈도 분석을 실시하고, 내용은 토픽 모델링 방법을 적용한 결과, 매년 신문 기사의 보도 경향은 조금씩 상이하다는 것을 확인할 수 있었다. 그리고, 인공 지능과 관련된 신문 기사의 수와 분야는 매년 증가하고 있었고, 앞으로도 증가할 것으로 기대된다.

Abstract

The main purpose of this study was to use frequency analysis and topic modeling method to analyze the trend of the newspapers articles related to artificial intelligence among newspapers published in Korea from January 2015 to April 2020. The number of 113,832 articles were collected using the newspaper’s database system as Big Kinds and analyzed using open software R. According to the analysis results, the highest number of articles were reported in 2016 and it has been confirmed that the number of reports in the economic articles is increasing every year. The titles of the article in the newspapers carried out the frequency analysis and the contents of these were applied to the topic modeling method, it could be seen that the newspaper’s reporting was slightly different each year. The number and kinds of newspaper articles related to artificial intelligence has been increasing every year, and we can look forward to increase in the future.


Keywords: Artificial intelligence, Newspaper article, Frequency analysis, Topic modeling, Big data
키워드: 인공 지능, 신문 기사, 빈도 분석, 토픽 모델링, 빅 데이터

Ⅰ. 서 론

2019년 10월 28일에 문재인 대통령은 ‘AI 기반 국가 전략’을 발표하였다[1]. 인공 지능을 통해 사회 문제를 해결하고 경제 혁신을 이루어 국가 비전을 실현하겠다는 의지의 표명으로, 2016년 이세돌과 인공 지능 알파고의 바둑 대국 이후 관심이 높아졌던 인공 지능을 국가적 차원에서 정책으로 이어가겠다는 것이다. 컴퓨터 과학의 한 분야였던 인공 지능은 그 동안 큰 주목을 받지 못하고 있다가, 알파고의 등장 이후 일반 대중들도 인공 지능을 알게 되고 4차 산업혁명을 이끌어갈 중요한 IT 기술로 인식되어지기 시작하였다. 현재는 대중들도 인공 지능이란 단어를 친숙하게 사용하고 있고, 많은 연구자와 기업들이 관련 기술과 제품을 연구하고 출시하고 있다.

인공 지능이란 전문 용어가 어떻게 이렇게 대중들에게 빠른 시간 안에 폭 넓게 인식되어졌을까? 신문과 방송, 인터넷이란 매스 미디어의 역할이 가장 클 것이라 생각한다. 특히, 신문은 일반 대중이 사회에서 간접적, 대량적으로 의사소통하는 매스 커뮤니케이션 방법 중의 하나로, 사회나 세계의 일을 알리고, 논평하며, 광고하는 중요한 수단이다[2]. 최근에는 디지털 정보가 대중화되면서 SNS, 유튜브 등이 빠르게 매스 커뮤니케이션의 또 다른 수단으로 자리 잡고 있지만, 신문 기사의 정확성과 신중성, 논평 등의 기능은 아직까지 신문이 중요한 사회적 커뮤니케이션이 되고 있는 요인이다. 따라서 신문은 현재에도 일상 생활에서 접하는 대표적인 매스 커뮤니케이션이기 때문에, 대중들이 인공 지능이란 전문 용어를 대중화시키는 데에 큰 공헌을 했으리라고는 미루어 짐작할 수 있다. 이에 알파고가 등장하기 1년 전인 2015년부터 현재인 2020년 4월까지 인공 지능이란 키워드로 검색되는 신문 기사를 수집하여 연도별로 어떻게 신문 기사가 변하는지를 분석해 본다면, 인공 지능 신문 기사의 동향과 일반 대중들이 인식한 인공 지능의 인식 변화를 파악할 수 있을 것이라 판단된다.

신문 기사의 자료를 분석하는 방법에는 여러 가지가 있지만, 본 연구에서는 인공 지능의 한 분야인 머신 러닝에서 사용하는 방법인 토픽 모델링을 사용하고자 한다. 머신 러닝은 ‘데이터를 이용하여 명시적 정의가 되지 않은 패턴을 컴퓨터로 학습하여 결과를 만들어 내는 분야’로 정의할 수 있는데, 토픽 모델링은 머신 러닝의 비지도 학습(unsupervised learning)의 한 기술이다[3]. 즉, 토픽 모델링은 키워드 분석을 통한 단어 위주의 의미 파악을 한계를 극복하기 위해 문단이나 문서의 주제(topic)를 찾아가는 분석 방법이다. 즉, 문단이나 문서에서 키워드들을 추출하고, 추출된 키워드들을 군집화하고, 이를 통해 주제를 정의하는 방법으로, 기존의 키워드 분석만으로 찾기 어려웠던 문단이나 문서의 의미를 확인해 볼 수 있는 기법이다. 토픽 모델링 기법 중의 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 알고리즘은 각 주제 별 단어 수 분포를 기반으로, 주어진 문서들이 어떤 주제들을 다루고 있는지를 예측하는데 높은 성능을 보이는 통계 알고리즘으로 최근 다양하게 사용되고 있다[4].

이에 본 연구는 2015년 1월부터 2020년 4월까지의 신문 기사 중에서 인공 지능을 검색어로 추출되는 기사를 수집하고, 수집된 기사의 다양한 정보를 빈도 분석과 토픽 모델링의 방법을 사용하여 연도별 기사의 동향을 파악하고자 한다.


Ⅱ. 관련 연구

IT 기술이 비약적으로 발전하면서 디지털 데이터가 축적 및 공유되면서, 이런 데이터를 목적에 맞게 처리하고 사용하기 위해 빅 데이터와 인공 지능 분야가 최근 급속하게 각광을 받고 있다. 이에 본 연구의 방법, 대상과 관련된 연구들의 수가 점차 증가하고 있는 실정이다.

먼저 신문 기사를 분석하는 연구로는 노설현(2020)의 연구가 있는데, 2018년부터 2019년까지 '4차 산업혁명'을 검색어로 추출된 4,389건의 기사를 토픽 모델링 기법을 사용하여 토픽별 키워드들을 추출하고 토픽 명을 정의하는 연구를 진행하였다[5]. 또한 김성애와 전수진(2020)은 2013년부터 2019년까지 블록체인 관련 15,617건의 신문 기사를 대상으로 토픽을 추출하고 주요 트렌트를 시기별로 구분하여 분석하였다[6]. 조보경와 유영의(2020)는 2011년부터 2018년까지의 인터넷 신문 기사에 나타난 영·유아 놀이 관련 내용을 분석하여 대중들이 관심을 갖고 있는 놀이의 주제 및 내용을 제시하였다[7]. 박성욱(2019)은 빅 데이터 분석기법인 TexTom을 활용하여 2015년 11월부터 2018년 11월까지 구글과 네이버의 신문 기사를 데이터 마이닝 및 정제하여 ‘Data Technology’ 키워드로 한정하여 관련 핵심 키워드를 도출하는 연구를 진행하였다[8].

토픽 모델링은 자연어로 표현된 자료에서 필요한 정보를 추출할 수 있는 머신 러닝 기법으로, 이를 이용한 연구들도 다수 수행되었다. 황서이와 김문기(2020)는 1985년부터 2018년까지 인공 지능 분야와 관련된 1,691편의 학술 논문에 수록된 서명, 주제어, 초록을 대상으로 토픽 모델링과 의미 연결망 분석을 통해 추후 연구 방향을 모색하는 연구를 하였다[9]. 최성철과 박한우(2020)는 한국학술지인용색인 홈페이지에서 ‘토픽 모델링’을 검색어로 하여 2000년부터 2019년 9월까지의 공학 계열과 사회과학 계열 논문을 수집하여 저자, 기관, 제목, 키워드 등을 토픽 모델링 분석을 하였다[10]. 또한 문성윤과 송기상(2019)은 2014년 1월부터 2019년 9월까지 출판된 컴퓨팅 사고력과 관련된 190편의 논문을 대상으로 주제어와 초록을 추출하여 빈도 분석과 토픽 모델링 분석을 통해 연구 동향의 흐름을 확인시켜 주었다[11].

또한 이외에도 다양한 분야에서 수집된 빅데이터를 처리·분석한 연구들도 진행되었다. 최현종(2020)은 2015 개정 교육과정의 중학교 정보 교육과정과 현재 중학교에서 사용되고 있는 정보 교과서의 문제 해결과 프로그래밍 단원 관련 내용을 대상으로 텍스트 마이닝 방법으로 핵심 개념을 비교·분석하는 연구를 진행하였다[12]. 또한, 학술 빅 데이터를 이용한 분석 연구로는 Web of Science(WoS)에서 제공하는 데이터 중 정보윤리와 관련된 318편의 논문을 텍스트 마이닝하여 정보윤리 이슈를 탐색하고 향후 정보윤리 교육을 위한 시사점을 제시한 김한성(2019)의 연구가 있다[13].

본 연구의 주제 및 방법과 유사한 연구로 황서이와 김문기(2020)의 연구가 있는데, 이 연구는 인공 지능 연구 분야에서 나타난 주요 연구 토픽을 살펴보는 연구로 일반 대중보다는 연구전문가들의 연구 동향을 파악한 연구이다. 또한 노설현(2020)의 연구는 4차 산업혁명이란 주제로 2년간의 비교적 짧은 기간의 신문 기사를 추출하여 관련된 이슈들을 살펴보는 연구이었다. 따라서 본 연구는 2015년부터 2020년 4월까지 신문 기사에서 인공 지능과 관련된 기사를 수집하여, 기사의 연도별 보도 경향을 파악하면 인공 지능과 관련된 사회 전반의 변화를 파악할 수 있을 것이라 생각한다.


Ⅲ. 연구의 설계

본 연구는 2015년 1월부터 2020년 4월까지 인공 지능 관련 신문 기사의 연도별 건수와 기사 제목, 기사 내용을 분석하는 것을 목적으로 한다. 신문 기사의 수집은 한국언론진흥재단의 기사 데이터베이스인 빅 카인즈(www.kinds.or.kr)에서 ‘인공 지능’이란 키워드로 2015년 1월부터 2020년 4월까지 연도별로 검색하여 이루어졌다. 표1은 연도별로 수집된 신문 기사의 건수이다.

Table 1. 
Number of articles by year
2015 2016 2017 2018 2019 2020 Total
2,529 16,094 19,751 26,460 36,059 12,939 113,832

연구의 절차는 데이터 과학 프로젝트에서 사용되는 그림 1의 OSEMN 프레임워크에 따라 진행하였다[13].


Fig. 1. 
Process of study

자료 획득(Obtain data)은 빅 카인즈에서 인공 지능으로 검색하여, 검색된 신문 기사들의 정보(일자, 언론사, 기고자, 제목, 분류, 본문, URL 등)를 엑셀 파일로 다운받았고, 자료 정제(Scrub data)는 통계 분석 프로그램인 R을 이용하여 수집된 신문의 자료를 분석할 수 있도록 정제하였다. 본 연구에서는 신문 기사의 제목과 내용을 빈도 분석과 토픽 모델링 분석을 하기 위해 R 프로그램의 한글 자연어 분석 패키지와 한글 사전 패키지를 이용하여 단어를 추출하고 정제하였다. 자료 탐색(Explore data)은 R 프로그램을 이용하여 빈도 분석과 같은 기본적인 통계 처리와 그래프를 작성하였고, 자료 모델링(Model data)은 토픽 모델링 방법으로 신문 기사의 본문을 분석하여 기사의 주제를 예측하였다. 자료 해석(Interpret data)은 자료 탐색과 모델링 분석 결과를 연구 목적에 맞게 해석하였다.


Ⅳ. 연구의 결과
4-1 연도별 기사의 보도 빈도 분석 결과

신문 기사 데이터베이스에서 2015년 1월부터 2020년 4월까지의 신문 기사 중에서 ‘인공 지능’ 키워드로 검색되는 신문 기사를 수집한 결과 표 1과 같은 총 113,832건의 보도 건수를 연도별로 확인할 수 있었다. 연도별 추이 변화를 직관적으로 확인하기 위해 월별 기사의 보도 건수를 그래프로 나타내면 그림 2와 같다.


Fig. 2. 
Graph about number of articles by month

그림 2의 그래프에서 확인할 수 있는 바와 같이, 2015년부터 월별 보도 건수는 2020년 4월 최근까지 계속 증가하고 있는 것으로 확인되었고, 특히 2016년 3월은 5,207건, 2018년 11월에는 4,216건으로 매우 큰 폭으로 증가한 사례가 발견되었다. 2016년 3월의 인공 지능 관련 기사는 IT 분야의 관련 기사가 2,341건으로 알파고와 이세돌 관련 기사가 대부분을 차지하였다. 2018년 11월의 인공 지능 관련 기사는 경제 분야의 관련 기사가 2,935건으로 빅데이터, 블록체인, 사물인터넷 등의 관련 기술과 경제 분야와의 연관에 관한 기사들이 대부분이었다.

신문 기사의 분야별로 연도별 보도 건수의 추이를 살펴보기 위해 정치, 경제, 사회, 문화, 국제, 지역, 스포츠, IT_과학, 미분류로 구분되어진 기사를 연도별로 그래프를 그리면 그림 3과 같다.


Fig. 3. 
Graph about number of field articles by year

수집된 전체 기사를 9개의 분류로 구분하여 연도별로 변화 추이를 살펴본 결과, IT 과학과 경제 분야의 기사가 다른 분야에 비해 월등히 많은 기사를 보도하고 있었다. 인공 지능이란 학문이 컴퓨터 과학 관련 학문이기 때문에 IT 과학 분야의 기사에서 많은 보도수를 보이는 것은 당연한 결과이다. 하지만, 인공 지능이 경제와의 시너지 효과로 인해, 경제 분야에서의 인공 지능 관련 보도가 매년 가파르게 증가하고 있는 것으로 확인할 수 있는데, 2018년까지는 IT 과학 분야의 기사수보다 적었지만 이후로는 더 많은 관련 기사가 보도되고 있었다. 또한 세 번째로 많은 보도수를 보이고 있는 분야는 사회 분야인데, 이 분야의 기사 역시 매년 증가하고 있는 추세였다. 참고로, 2020년의 기사 수가 적은 것은 1월부터 4월까지 기사이기 때문이다.

4-2 연도별 제목의 키워드 빈도 분석 결과

2015년 1월부터 2020년 4월까지의 신문 기사 중에서 ‘인공 지능’ 키워드로 검색된 신문 기사들의 제목에 포함된 단어들을 R 프로그램을 이용하여 정제하여 워드 클라우드로 표현하면 그림 4과 같다.


Fig. 4. 
Word cloud about words of article title by year

그림 4에 제시된 각 연도별 신문 기사의 제목에 사용된 단어들을 보면 ‘AI’처럼 공통적인 단어들도 있고, ‘개발’, ‘미래’, ‘기술’처럼 특정 연도에 보다 많이 제시된 단어들도 있다. 연도별 변화 추이를 살펴보기 위해 신문 기사의 제목에서 추출된 단어들의 빈도 분석 결과 중에서 상위 빈도 20개를 제시하면 표2, 표3과 같다.

Table 2. 
Results of frequency analysis about words of article title from 2015 to 2017
Rank 2015
(N=7,393)
2016
(N=56,999)
2017
(N=75,548)
word N word N word N
1 Robot 138 Artificial Intelligence 1228 Artificial Intelligence 1253
2 AI 114 Alpha 900 AI 1152
3 Future 56 AI 621 Car 1049
4 Development 53 Future 373 Industrial revolution 790
5 Technology 51 Human 361 Period 474
6 Photo 49 Robot 326 Electron 443
7 Investment 45 Car 323 Technology 411
8 Human 38 Period 266 LG 398
9 Period 31 Paduk 244 Robot 398
10 Company 30 Technology 239 Future 381
11 Work 28 Challenge 235 Samsung 376
12 Google 25 Development 216 Development 308
13 Global 24 Industrial revolution 207 Company 307
14 Car 24 Hold 197 Investment 290
15 IT 23 vs 173 Service 288
16 Science 22 Investment 169 Hold 286
17 Drone 22 Google 167 Smart 267
18 Amend 22 World 163 Launch 254
19 IoT 21 Company 161 KT 253
20 Professor 21 Service 158 SK 239

Table 3. 
Results of frequency analysis about words of article title from 2018 to 2020
Rank 2018
(N=103,763)
2019
(N=128,392)
2020
(N=45,476)
word N word N word N
1 Kosdaq 1606 Special 2910 Relation 1092
2 AI 1465 Relation 2876 Special 1092
3 Quarterly report 1345 Stock change 2864 Stock change 1086
4 Artificial Intelligence 1114 Kosdaq 2138 Kosdaq 619
5 LG 815 AI 1535 Decision 605
6 Electron 728 Market 1461 AI 583
7 Car 713 Artificial Intelligence 1022 Cash 480
8 Market 523 LG 661 Dividend 479
9 Samsung 470 Decision 648 Market 476
10 Open 469 connection 576 Artificial Intelligence 340
11 Technology 457 profit 571 LG 231
12 Robot 448 Revenue 569 Electron 195
13 Today 424 Standard 561 Buying 187
14 Company 421 Contract agreement 549 Upward trend 187
15 Service 403 Electron 543 Market condition 176
16 Investment 402 Technology 538 Foreign 159
17 Smart 388 Scale 512 Samsung 158
18 Innovation 387 Company 450 Technology 155
19 Industrial revolution 382 Today 441 Company 151
20 Hold 372 Development 400 Trade 150

표 2를 보면, 2015년 1월부터 2017년 12월까지 수집된 신문 기사들의 제목에서 추출된 단어의 총수는 각각 7,393개, 56,999개, 75,548개로 표1의 자료에서 보았듯이 연도가 지날수록 많은 신문 기사가 보도되었고, 또 제목에 사용된 단어들도 증가하였다. 표 2의 3년 동안 신문 기사 제목에서 가장 많이 사용된 단어는 로봇, 인공 지능이고, 그 다음으로는 알파, 차 등이다. 알파는 알파고를 의미하는데, R을 이용한 정제 과정에서 ‘알파고’를 한 단어로 인식하지 못해 ‘알파’만 추출한 경우이고, ‘차’라는 단어 역시 자동차를 의미한다.

2015년의 기사 제목에서 많은 빈도수를 보인 단어들은 미래, 개발, 기술, 포토, 투자 등이 있다. 이를 통해 인공 지능 관련 기술 개발 기사가 많이 보도되었다는 것을 확인할 수 있었다. 2016년 3월에 있었던 이세돌과 알파고의 바둑 대국 관련 기사와 후속 기사들로 인해 가장 많은 신문 기사가 보도되었고, 인공지닝, AI, 알파고, 미래, 인간, 로봇, 바둑, 대결 등의 단어가 신문 기사의 제목에 빈번하게 사용되었다. 2015년에 비해 약 6.4배 이상 증가한 인공 지능 관련 보도로 국민들은 이제 더 이상 인공 지능, AI라는 용어가 낯설지 않게 되었고, 인공 지능이 미래 시대를 대표하는 기술이라는 것을 인식하게 되었다. 2017년의 기사 제목에서 많은 빈도수를 보인 단어들은 차, 산업혁명, 전자, 기술 등이 있었고, 우리나라의 대표적인 IT 업체인 LG, 삼성과 통신 업체인 KT, SK 관련된 기사도 많이 보도되었다. 특히 ‘차’라는 키워드가 높은 빈도수를 보였는데, 이는 자율주행차에 관한 보도와 관련이 있는데, 황서이와 김문기(2020)의 연구에서도 동일한 결과를 보여주고 있다[9]. 기업과 관련된 기사들은 인공 지능 기술 개발과 관련 제품의 홍보 관련 글인데, 2016년에 인공 지능이 대두됨에 따라 우리나라의 업체들도 관련 기술과 제품을 출시하면서 관련 기사들이 많이 보도되었다.

표 3에 의하면 2018년 1월부터 2020년 4월까지 수집된 신문 기사들의 제목에서 추출된 단어의 총수는 각각 103,763개, 128,392개, 45,476개로 표2에 제시된 단어의 총수를 연관지어 살펴보면 2015년부터 2019년까지 인공 지능 관련 신문 기사는 연도별로 계속 증가하였고, 그에 따라 제목에 사용되는 단어의 수도 증가하였다. 하지만, 가장 빈번하게 사용되는 단어들은 점차 바뀌고 있는데 표 3의 3년 동안 신문 기사 제목에서 가장 많이 사용된 단어는 코스닥, 특별, 관계이다. ‘특별’과 ‘관계’라는 단어가 2019년과 2020년 4월 까지의 신문 기사 제목에서 많이 사용되었는데, 두 단어가 복합적으로 한 기사의 제목에 사용된 예는 없었고, 각각의 단어가 기사 제목에 많이 사용된 것으로 파악되었다.

2018년부터 2020년 4월까지의 신문 기사 제목에서 새롭게 추출된 단어는 ‘코스닥’, ‘지분 변동’인데, 매우 빈번하게 사용되었다. 그림 3에 제시한 연도별 분야 기사의 보도 건수 변화에서 살펴본 바와 같이 2018년부터 IT 과학 분야보다 경제 분야의 신문 기사 보도 건수가 많아지고 있었다. 경제 분야에서 인공 지능이란 단어가 사용된 경우는 대부분 인공 지능 관련 회사의 증권 관련 기사와 증권사의 증시 분석 인공 지능 로봇이 보도한 기사의 빈도수가 높아지고 있는 것으로 해석할 수 있다.

2018년도의 기사 제목에서 많은 빈도수를 보인 단어들은 코스닥 이외에 AI, 분기보고, 인공 지능, LG, 전자 등이었다. 2019년도의 신문 기사 제목에는 인공 지능, 시장, 영업이익, 매출액, 계약체결 등의 경제 관련 단어들이 상대적으로 높은 빈도를 보이고 있다. 2020년 4월까지의 신문 기사 제목에서도 지분변동, 코스닥, 결정, AI, 현금, 배당 등의 단어들이 높은 빈도를 보였다.

4-3 연도별 기사 내용의 토픽 모델링 분석 결과

2015년 1월부터 2020년 4월까지의 신문 기사 중에서 ‘인공 지능’ 키워드로 검색된 신문 기사들의 내용을 R 프로그램을 이용하여 LDA 알고리즘을 활용한 토픽 모델링 분석을 실시하였다. 토픽 모델링은 학문적 매체인 논문, 기술적 매체인 특허, 사회적 매체인 웹 뉴스와 같이 대량의 문헌들을 연구 대상으로 각 매체가 나타내는 토픽들의 키워드를 추출하여 토픽을 정의하고, 토픽들의 동향 분석을 통해 빅 데이터의 동향을 분석하는 연구 방법이다[5]. 토픽 모델링 분야에서 학계의 표준으로 인식되고 있는 방법이 LDA 알고리즘인데, 이 기법은 각 주제 별 단어 수의 분포를 기반으로 주어진 문서들이 어떤 주제를 다루고 있는지를 예측하는 데 높은 성능을 보이고 있다. 따라서 본 연구에서는 연도별로 수집된 기사의 내용을 명사 중심으로 데이터를 추출 및 처리하는 과정을 거쳐 LDA 알고리즘을 적용하였고, 디리클레 매개변수 α(한 문서에서의 토픽들의 확률 분포)와 β(한 토픽에서의 키워드의 확률 분포)의 값은 0.02, 0.04, 0.08, 0.1으로 실험하였으나, 추출되는 키워드의 큰 변화가 없어 0.02로 설정하였고, 토픽 수 k의 값은 10으로 하였다[15].

표 4표5는 ‘인공 지능’을 키워드로 검색하여 수집된 기사들의 내용을 토픽 모델링으로 도출한 키워드를 기반으로 정의한 주제별 토픽 명과 전체 문서에서 각 토픽의 키워드가 등장한 빈도를 나타내고 있다. 토픽 모델링에서는 각 주제별로 연관된 키워드들을 추출해 주는데, 연구자는 토픽별로 제시된 키워드들로 토픽 명을 유추하여 정의하게 된다.

Table 4. 
Results of topic modeling on contents of articles from 2015 to 2017
Year No. Topic P(%) N
2015 1 AI technology 16.1 17,484
2 AI robot in US and UK 14.4 15,660
3 Japanese and American car and Fin-Tech 9.8 10,629
4 AI in movies 7.9 8,632
5 AI in China and Asia 7.3 7,899
6 Robots and movies of the US 8.4 9,127
7 AI and OS 7.7 8,386
8 AI , mobile and game 8.0 8,711
9 AI and robots in movies 9.8 10,716
10 IoT and AI in Seoul 10.3 11,187
2016 1 korea and US in 2016 6.6 45,247
2 Lee Sedol and AlphaGo 17.9 122,660
3 AI and Big data in government 10.9 74,819
4 AI and robot viewed by journalist 6.4 43,908
5 Human and AI 15.8 108,000
6 4th industrial revolution and AI 9.7 66,235
7 AI based service 8.4 57,236
8 AI in Seoul 7.6 51,953
9 AI in US and the world 10.6 72,799
10 Saenuri and Minjoo of general election 5.9 41,031
2017 1 Various technology related AI 11.5 95,827
2 AI of LG and Samsung 10.0 83,327
3 Paduk between Leesedol and AlphaGo 6.9 57,298
4 Global CEO’s AI 6.5 53,961
5 Mobile service of AI 10.5 87,525
6 4th industrial revolution and human 18.0 149,902
7 Domestic first AI technology 6.9 57,582
8 Compared to last year’s and this year’s market 8.4 70,175
9 4th industrial revolution and 2017 10.2 85,056
10 4th industrial revolution and President 11.1 92,083

Table 5. 
Results of topic modeling on contents of articles from 2018 to 2020
Year No. Topic P(%) N
2018 1 4th industrial revolution and AI 18.1 198,089
2 US and China’s global market investment 7.9 87,522
3 AI and TV drama 6.5 71,739
4 Domestic AI based mobile technology 15.0 164,755
5 Trend by investor by industry 3.9 43,147
6 Regional weather 7.5 82,415
7 Sales and profits 6.1 66,777
8 AI related products from LG and Samsung 12.5 137,155
9 Stock exchange 4.3 47,631
10 Korea’s new AI 17.9 197,213
2019 1 New technology of AI 13.3 191,600
2 Sales and result in 2019 8.0 115,510
3 Stock and exchange 15.6 224,199
4 Leesedol and AI related stocks 5.7 81,169
5 AI related topic in Seoul 16.8 240,467
6 AI service of LG and 5G 14.1 201,979
7 Regional weather 3,9 44,566
8 President Moon and AI 13.0 186,659
9 Investor trend by category 5.8 83,789
10 Stock exchange 3.7 53,363
2020 1 Corona virus and online 9.7 49,555
2 LG’s technology 10.1 51,574
3 Drama sales in 2019 7.6 39,002
4 Trend by institution and investor 7.2 36,715
5 AI and company 9.6 49,022
6 President Moon and AI 10.3 52,586
7 Domestic AI and Big data technology 14.4 73,150
8 Corporate disclosures and transactions 4.7 24,261
9 General meeting of shareholders and dividends in 2019 7.7 39,615
10 Transaction volume and disclosure 18.3 93,369

2015년의 기사 내용에서 추출된 키워드들의 토픽 명을 유추하여 제시한 결과 인공 지능 기술, 외국의 사례, 자동차와 로봇 등의 사례 등에 관한 토픽들이 주를 이루었다.

2016년의 기사 내용에서 추출된 키워드들의 토픽 명은 이세돌과 알파고의 바둑 대국에 관한 토픽이 가장 많은 빈도수를 보였고, 더불어 인간과 인공 지능에 관한 토픽이 그 다음 순위를 보였다. 10개의 토픽 명 중에서 ‘새누리당과 더불어민주당의 총선’이란 토픽 명을 유추한 사례가 있는데, 이는 당시의 총선을 해설하는 기사에서 알파고와 인공 지능을 비유하여 서술한 기사들이 다수 존재하여 이와 관련된 키워드가 수집되었고, 토픽 명이 유추되었기 때문이다.

2017년에는 인공 지능이 4차 산업혁명의 핵심 기술로 인식되면서 4차 산업혁명 키워드들이 점차 나타나기 시작하였고, IT 기업인 LG와 삼성에서 인공 지능 관련 기술과 제품에 관한 홍보와 정부에서도 인공 지능 관련 정책들이 지속적으로 기사를 통해 보도되고 있었다는 것을 확인할 수 있었다.

2018년의 신문 기사 내용에서 추출된 키워드들의 토픽 명을 유추한 결과 2017년에서 주요 토픽이었던 4차 산업혁명, 인공 지능 관련 기술 등이 연속적으로 등장하였다. 또한 투자, 증권 등 경제 관련 키워드들이 새롭게 추출되기 시작하였다. 투자와 증권의 경우 인공 지능 관련 기술과 관련된 업체나 사업에 관한 기사도 보도되었고, 인공 지능 관련 기술을 증권 시스템에 적용한 증시분석 인공 지능 로봇이 생성한 신문 기사도 존재하였다.

2019년의 기사 내용에서 추출된 사례를 살펴보면 문재인 정부가 발표한 ‘AI 기반 국가 전략’ 관련 기사들이 보도되었기에 관련 키워드들이 많았고, IT 기업과 경제 관련 키워드들도 함께 많이 제시되었다. 또한 특이점으로는 ‘지역별 날씨’ 토픽 명이 유추되었는데, 이는 각 신문사에서 인공 지능 로봇을 활용하여 지역별 날씨를 예보하는 기사를 보도하였기 때문이다. 2020년 4월까지 기사 내용에서 유추된 토픽 명은 2019년에 발표된 AI 정책, IT 기업, 경제 관련 기사들이 꾸준히 보도되었고, 코로나 19 바이러스로 인해 온라인 교육에 관한 기사가 보도되면서 관련 키워드와 토픽 명이 출현하였다.


Ⅴ. 결 론

본 연구는 기사데이터베이스인 빅 카인즈에서 2015년 1월부터 2020년 4월까지 ‘인공 지능’이란 키워드로 검색된 신문 기사 113,832개의 정보를 분석하였다. 신문 기사의 보도수를 월별로 분석한 결과, 2015년 1월부터 2020년 4월까지 매달 증가하는 양상을 보였는데, 특히 2016년 3월에는 이세돌과 알파고의 바둑 대국으로 인해 이전해보다 6.4배 이상의 기사가 보도되면서 일반인들이 인공 지능이란 용어를 매우 친숙하게 생각하게 되는 계기가 되었다. 또한 2017년까지는 인공 지능 관련 기사가 IT 과학 분야의 보도가 다수를 차지하였지만, 2018년부터 경제 분야의 보도가 많아지기 시작하였다. 이는 인공 지능이 단순히 IT 과학 분야에 머무르지 않고, 우리 생활의 다양한 분야, 특히 경제, 사회에 자연스럽게 스며들기 시작하였다고 해석할 수 있다.

수집된 신문 기사를 연도별로 구분하여 기사의 제목에 포함된 단어들을 추출하여 그 중요도를 빈도수를 통해 확인해 보았다. 2015년부터 2017년의 3년 동안 신문 기사 제목에서 가장 많이 사용된 단어은 로봇, 인공 지능, 알파고이었다. 이 시기의 신문 기사는 대부분 인공 지능 관련 기술, 제품 등에 관한 기사가 대부분을 차지하였다. 2018년부터 2020년 4월까지 신문 기사 제목에서 가장 많이 사용된 단어는 코스닥, 특별, 관계 등의 단어였다. 이전에는 인공 지능 관련 기술이나 제품 홍보 보도가 빈번하게 이루어졌던 사례와 달리, 경제 분야나 날씨 등 분야에서 데이터를 수집하고 처리, 분석하는 과정에 인공 지능 서비스를 이용하는 사례가 많아지면서 관련 기사로 수집된 것이었다.

신문 기사의 내용에 담긴 주제, 즉 토픽을 확인하고자 기사의 내용을 전처리한 후, 이를 LDA 알고리즘을 활용한 토픽 모델링 분석을 실시하였다. 2015년의 기사 내용에는 인공 지능 기술에 관한 토픽, 2016년의 기사 내용에는 이세돌과 알파고의 바둑 대전, 2017년의 기사 내용에는 인공 지능 관련 기술에 관한 토픽이 가장 많은 빈도수를 보였다. 2018년의 기사 내용에는 4차 산업혁명과 인공 지능 기술 관련 토픽들이 있었고, 더불어 투자와 증권과 같은 경제 관련 키워드들이 많이 제시되어 관련된 토픽들이 추출되었다. 2019년의 기사 내용에는 정부의 AI 기반 국가 전략 발표로 인해, 이와 관련된 주제어와 토픽들이 추출되었고 경제 분야와 더불어 날씨 데이터를 수집하여 처리하여 예보 정보로 사용하기 위한 인공 지능 로봇이 신문사나 방송사에서 활용되었다. 2020년의 기사 내용에는 기존에 추출되었던 키워드와 더불어 코로나 19 바이러스로 인한 온라인 교육 관련 키워드가 추출되는 보도들이 다수 존재하였다.

인공 지능과 관련된 2015년부터 현재까지의 신문 기사의 보도 분야를 살펴보면 IT 과학 분야는 인공 지능 관련 기술과 제품에 관한 기사들이 꾸준히 보도되었고, 경제 분야의 보도가 시간이 지날수록 많아지는 것을 확인할 수 있었다. 하지만, 추출된 내용의 토픽과 키워드로 살펴본 결과 직접적인 실생활과 관련 있는 키워드보다 증권이나 투자와 같은 다소 제한적인 분야에서 활용되고 있는 것을 확인하였다. 하지만, 최근에 들어 일기 예보, 통신 서비스와 같이 국민들이 체감할 수 있는 분야에서도 인공 지능이 활용되는 사례가 늘고 있다는 점은 추후 인공 지능 분야가 우리의 실생활에 더 많은 파급효과를 가져올 수 있다는 좋은 사례이기도 하다.

4차 산업혁명을 이끌 기술인 인공 지능이 단순히 IT 분야에만 머물지 않고 정치, 경제, 사회, 문화 등의 다양한 분야에 다양한 이유로 활용되고 있다는 것을 매스 커뮤니케이션의 하나인 신문 기사를 통해 확인해 보았다. 최근에는 인공 지능을 초·중등 학생들에게도 교육시켜야 한다는 담론까지 확산되고 있는 이 시점에 인공 지능에 관한 대중의 높은 관심은 결국 기술 개발과 실생활의 적용 속도를 높일 수 있는 좋은 기폭제가 될 것으로 예상된다. 본 연구의 한계점은 다양한 매스 커뮤니케이션 도구 중 신문을 분석 자료로 한정하였다는 것이기에, 추후 새로운 연구 주제를 선정하여 분석할 경우 SNS와 유튜브 등의 다양한 매스 커뮤니케이션 도구들로 분석 자료를 확장하여 빅 데이터 분석하고자 한다.


참고문헌
1. Seoul Newspaper. President Moon, announced AI based national strategy [Internet]. Available: http://www.seoul.co.kr/news/newsView.php?id=20191029008007.
2. Doosan Encyclopedia. Purpose of newspaper [Internet]. Available: https://terms.naver.com/entry.nhn?docId=1186923&cid=40942&categoryId=31755.
3. S. Kim and Y. Jung, Machine learning for the first time, Seoul, Hanbit Media, 2017.
4. C. Nahm, “An Illustrative Application of Topic Modeling Method to a Farmer's Diary”, Cross-Cultural Studies, Vol. 22, No. 1, pp. 89-135, 2016.
5. S. Noh, “Analysis of Issues Related to the Fourth Industrial Revolution Based on Topic Modeling”, Journal of Digital Contents Society, Vol. 21, No. 3, pp. 551-560, 2020.
6. S. Kim and S. Jeon, “Topic Analysis Using Big Data Related to 'Block chain usage: Focused on Newspaper Articles”, Journal of Industrial Convergence, Vol. 18, No. 1, pp. 73-98, 2020.
7. B. Cho and Y. Yoo, “A content analysis study about play in internet news articles : from 2010 to 2018”, Korean journal of early childhood education, Vol. 22, No. 1, pp. 207-227, 2020.
8. S. Park, “Keyword Analysis of Data Technology Using Big Data Technique”, Journal of Korea technology innovation society, Vol. 22, No. 2, pp. 265-281, 2019.
9. S. Hwang and M. Kim, “An Analysis of Artificial Intelligence(A.I.) related Studies' Trends in Korea Focused on Topic Modeling and Semantic Network Analysis”, Journal of Digital Contents Society, Vol. 20, No. 9, pp. 1847-1855, 2020.
10. S. Choi and H. Park, “A Study on the Trend of Topic Modeling in South Korea using KCI Journal Publications”, Journal of the Korean Data Analysis Society, Vol. 22, No. 2, pp. 815-826, 2020.
11. S. Mun and K. Song, “Analysis on Trend of Study Related to Computational Thinking Using Topic Modeling”, Journal of The Korean Association of Information Education, Vol. 23, No. 6, pp. 607-619, 2019.
12. H. Choe, “Analysis of Core Concepts in Problem Solving and Programming Unit of Informatics Subject Textbooks in Middle School Revised in 2015”, Journal of Digital Contents Society, Vol. 21, No. 1, pp. 63-70, 2020
13. H. Kim, “Exploring Information Ethics Issues based on Text Mining using Big Data from Web of Science”, The Journal of Korean association of computer education, Vol. 22, No. 3, pp. 67-78, 2019.
14. H. Cher, 5 Steps of Data Science Project Lifecycle [Internet]. Available: https://towardsdatascience.com/5-steps-of-a-data-science-project-lifecycle-26c50372b492.
15. J. Won, LDA Practice [ Internet]. Available: https://wikidocs.net/40710

저자소개

최현종(Hyun-Jong Choe)

2001년 : 한국교원대학교 대학원 (교육학석사)

2005년 : 한국교원대학교 대학원 (교육학박사)

2005년~2006년: 서원대학교 교수학습센터 연구원

2006년~현 재: 서원대학교 컴퓨터교육과 교수

※관심분야: 컴퓨터교육, 정보 교육과정, 빅 데이터 등