챗GPT 관련 사회적 이슈에 대한 탐색적 연구: 뉴스 빅데이터 기반 토픽 모델링 분석을 중심으로
Copyright ⓒ 2023 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
초록
본 연구는 챗GPT와 관련하여 국내에서 어떤 사회적 이슈가 중점적으로 논의되었는지 파악하기 위해, 뉴스 빅데이터를 기반으로 토픽 모델링 분석을 수행한 탐색적 연구이다. 이를 위해 챗GPT가 공개된 2022년 11월 30일부터 2023년 2월 28일까지 수집된 챗GPT 관련 뉴스 빅데이터 2,342건을 대상으로, 토픽 모델링 분석에서 많이 활용되고 있는 LDA 기법을 적용하여 분석을 수행했다. 토픽 모델링 분석 결과, (1)챗GPT의 능력 및 가능성에 대한 기대와 논란, (2)빅테크 기업의 인공지능 기술투자 및 연구개발 경쟁 가속화, (3)챗GPT로 인한 관련주 상승 및 인공지능 경제 생태계 활성화, (4)한국형 챗GPT 자체 기술력 확보를 위한 정책적 지원, (5)챗GPT 기술을 활용한 질문 기반 학습자 중심 교육 추진 등 5개의 토픽이 도출되었다. 분석 결과를 바탕으로, 사회적 차원, 기술적 차원, 경제적 차원, 정책적 차원, 교육적 차원에서 챗GPT 관련 이슈 및 시사점을 제시하였다.
Abstract
In this exploratory study, we formulate an agenda for the widespread adoption of artificial intelligence (AI) technologies such as large language models in society and explore some social issues that have been discussed in Korea in relation to ChatGPT. To this end, we collected 2,342 news articles related to ChatGPT that were published from November 30, 2022, when ChatGPT was released, to February 28, 2023. The results of a topic modeling analysis revealed five key points of discussion. These include (1) expectations and controversies regarding ChatGPT's abilities and potential, (2) an acceleration of investment and competition in AI research and development on the part of Big Tech, as well as (3) the rise of related stocks and the emergence of a new ecosystem of AI technologies sparked by the popularization of ChatGPT, (4) policy support to secure Korean versions of ChatGPT technologies, and (5) the promotion of question-based learner-centered education using ChatGPT technology. Based on the results of the analysis, we present some issues and implications related to ChatGPT from social, technical, economic, policy, and educational perspectives.
Keywords:
ChatGPT, News Big Data, Topic Modeling, AI, LDA키워드:
챗GPT, 뉴스 빅데이터, 토픽 모델링, 인공지능, 잠재 디리클레 할당Ⅰ. 서 론
기술적 발전에 따라 그 시대를 이끌어가는 키워드는 달라진다. 오픈AI(OpenAI, 이하 오픈AI)가 공개한 챗GPT(Chat Generated Pre-Trained Transformer, 이하 챗GPT)는 기존 검색 서비스 시장의 지각 변동을 가져올 게임 체인저로서 주목받고 있으며, 사회전반에 큰 파장을 일으키고 있다. 챗GPT는 출시 5일 만에 100만 명의 사용자를 모았고, 두 달 만에 월간 사용자가 1억 명을 돌파하는 등 가파른 성장세를 보이며, 오늘날까지 가장 빠르게 성장한 소비자 어플리케이션이 되었다[1]. 챗GPT의 등장은 구글, 네이버 등 기존 키워드 중심 검색 엔진 생태계가 지각 변동하는 계기가 될 것이라는 전망까지 나오고 있다. 실제 구글은 오픈AI의 챗GPT에 대응하기 위해 '코드 레드(code red)'를 발령하였고, 서둘러 인공지능 기술이 적용된 새 검색 엔진 빙(Bing)을 공개하였다. 또한 빅 테크 기업들은 챗GPT에게 맞설 다양한 제품들을 개발 중이다.
챗GPT는 인간과 비슷한 대화를 생성하기 위해 수백만 개의 웹페이지로 구성된 방대한 데이터베이스에서 사전 훈련된 대량 생성 변화기를 사용하고, 현재 다양한 지식 분야에서 상세한 응답과 정교한 답변으로 인공지능 분야에서 매우 핫한 키워드이다[2]. 사실 챗GPT는 첨단기술이라고 부르기에는 조금 오래된 기술이다. 실제 챗GPT 모델(GPT-1)은 2018년도 처음 공개되었고, 이 모델이 가진 기술적 능력과 가능성에 대한 평가는 상대적으로 높았지만 일반 대중들에게까지 크게 인기를 끌지는 못했다. 그렇다면, 2022년도에 공개된 챗GPT에 사람들이 열광하는 이유는 무엇일까?
첫째, 챗GPT는 일반인들이 손쉽게 사용할 수 있는 대화형 형태로 공개되었다. 이전에 대화형 챗봇은 미리 정의된 규칙에 따라 적동하거나, 제한된 데이터 셋을 이용해 작동하는 것이 일반적이었다. 하지만 챗GPT는 대규모 데이터 셋을 학습함으로써 인간의 언어 이해와 생성 능력을 모사하는 방식으로 작동하기 때문에 인간과 보다 더 자연스러운 대화를 나눌 수 있게 되었다. 또한 이러한 과정에서 기존 모델들은 상대적으로 작은 규모와 능력을 가지고 있기에 사용할 수 있는 분야도 제한적이었다. 하지만 챗GPT는 우리가 상상할 수 있는 거의 모든 분야의 전문지식을 갖고 있으며, 거의 사람과 다름없는 수준의 유창한 답변을 제시한다. 실제 인터넷에서 검색이 가능한 주류 지식 분야를 모두 알고 있다고 봐도 무방하다[3]. 챗GPT는 2021년도까지 학습되어 있고, 학습에 사용한 데이터의 규모가 크면 클수록 인공지능의 성능이 높아진다. 현재 지속적인 업데이트와 추가 학습에 많은 예산은 투자하고 있기 때문에 더 많은 대용량의 데이터와 전문적 지식을 갖추는 건 시간문제일 뿐이다.
둘째, 챗GPT는 인간의 생산성과 효율성을 높여준다. 챗GPT는 논리를 순식간에 설계해주고, 어려운 문제도 빠르고 친절한 설명과 함께 제공하며, 자동 문서를 생성해주고, 지속적으로 물어보면서 피드백을 받을 수도 있다. 예를 들어 이전에는 한 주제에 대해서 학습을 하려면 여러 가지의 문서, 책, 연구보고서, 학술논문 등을 모두 찾아보고 학습해야 했지만, 챗GPT를 활용하면 빠르게 정리된 요약본 확인이 가능하다. 또한 챗GPT는 일상적인 업무나 작업을 자동화하는 데도 활용되며, 일정 관리, 리마인더 설명, 전자메일과 같은 일상적인 업무를 대신 수행하는 개인 비서로 사용될 수 있다. 또한 챗GPT의 경우 깃허브(GitHub)의 코드를 대량으로 학습하여, 간단한 코드 구현도 가능하고, 작문도 가능하며, 콘텐츠 개발도 가능하다. 즉 챗GPT의 경우, 방대한 양의 정보를 빠르게 응답하고, 처리할 수 있으며, 활용 분야 또한 매우 광범위하기 때문에 생산성을 높여 준다는 장점이 있다.
셋째, 챗GPT는 다양한 주제와 지식을 포괄하고, 사용자의 질문 수준에 따라 맞춤형 답변 제공이 가능하다. 사용자의 수준을 파악하기 위해서는 사용자의 질문이나 대화 내용을 분석하여 그에 맞는 정보와 답변을 선택해야 하는데, 이는 기존 검색 서비스가 할 수 없었던 영역이었다. 하지만 챗GPT는 지속적으로 학습하고 업데이트되는 기능을 가지고 있고, 같은 채팅방에서는 이전 대화를 기억하고 그에 맞게 답변할 수 있기 때문에 맞춤형 설명이 가능하다. 예를 들어, 초보적인 질문이나 개념에 대한 설명이 필요한 경우에는 더 기본적인 정보를 제공하고, 전문적인 질문이나 심층적인 주제에 대한 질문인 경우에는 더 깊은 내용을 제공할 수 있고, 기존 채팅방에서 비슷한 질문을 지속적으로 던질 경우 더 쉽게 설명해준다.
챗GPT는 다재다능한 대화형 인공지능 모델로, 사용자와의 인터랙션을 하는 인공지능 응용분야에서 높은 수준의 성능을 발휘할 수 있을 것이다. 하지만 챗GPT가 보완해야 할 점도 많다. 특히 챗GPT는 학습 데이터에 따라 편향되는 경향이 있으며, 정보의 출처를 정확하게 인용하는 능력은 매우 제한적이다. 챗GPT는 저장된 데이터 내에서 통계적 혹은 확률적으로 예측하는 프로그램이기 때문에 잘못된 정보일지라도 더 많은 양의 데이터가 생성된 사실을 진실로 믿고 답변을 제공한다. 때문에 사용자는 이 부분을 인지하고 스스로 출처 확인절차를 반드시 거쳐야 하며, 챗GPT가 완전하지 않다는 사실을 간과해선 안된다. 챗GPT로 인한 변화의 속도, 범위, 영향력은 매우 클 것으로 예상되며, 이러한 상황은 단기간의 유행으로 끝날 것으로 보이지 않는다. 따라서 본 연구에서는 챗GPT가 우리 사회에 던진 인공지능에 대한 화두에 대해 우리 사회가 어떻게 반응하고 논의하고 있는지를 탐색하기 위해 수행되었다. 본 연구는 현재 연구 시점인 2023년 3월 1일을 기준으로 챗GPT의 이슈에 대한 논문은 발견되지 않음에 따라, 챗GPT 관련 뉴스 기사 데이터를 기반으로 거시적 관점에서 챗GPT 관련 이슈를 탐색적으로 분석한 논문이라는 학술적 의의가 있다. 본 연구를 위한 연구 문제는 다음과 같다.
<연구 문제 1> 챗GPT 관련 뉴스 빅데이터에 나타난 주요 키워드는 무엇인가?
<연구 문제 2> 챗GPT 관련 뉴스 빅데이터에 나타난 주요 토픽은 무엇이며 어떻게 변화하는가?
Ⅱ. 연구방법
2-1 자료 수집
본 연구의 목적은 챗GPT 관련 사회적 이슈가 무엇인지 파악하는 것이므로, 사회적 이슈를 파악하기에 유용한 자료인 뉴스 빅데이터를 분석 대상으로 삼아 수집하였다. 뉴스 빅데이터를 분석 대상으로 하여 사회적 이슈를 파악한 주요 논문은 표 1과 같다[4]-[8]. 분석 대상 언론매체는 2023년 2월 28일을 기준으로 한국언론진흥재단의 뉴스 빅데이터 서비스 ‘빅카인즈(BIGKinds)’에 등록된 54개의 언론매체다. 검색식은 ‘("챗" OR "Chat" OR "CHAT") AND ("GPT" OR "지피티")’로 설정했다. 검색 기간은 챗GPT가 공식적으로 발표된 2022년 11월 30일부터 현재 연구 시점인 2023년 2월 28일까지를 수집대상 기간으로 삼았다.
뉴스를 수집한 결과 최초 2,454건의 뉴스가 수집되었으며, 중복, 동정, 사진, 인사 등 연구목적에 부적합한 뉴스 112건을 제거하여 최종 2,342건의 뉴스를 분석 대상으로 선정했다. 뉴스의 주간 보도 빈도는 그림 1과 같다.
2-2 분석 방법
본 연구의 분석 대상이 뉴스 빅데이터이므로, 비정형 텍스트 데이터인 뉴스 빅데이터에 잠재되어 있는 주제를 도출하기에 유용한 분석 방법인 토픽 모델링을 분석 방법으로 활용했다. 토픽 모델링을 활용하여 뉴스 빅데이터를 분석한 주요 연구는 표 2와 같다[9]-[13]. 본 연구에서는 토픽 모델링 분석 방법 중 가장 일반적으로 많이 활용되는 LDA 기법을 적용했다. LDA 기법은 문서 집합 내에 다수의 토픽이 잠재되어 있고, 단어들이 각 토픽에 소속될 확률(Probability)을 가지고 있다고 가정하여 단어들을 토픽별로 분류한다[14].
본 연구에서 활용한 분석 프로그램은 넷마이너(NetMiner)로서, 파이썬(Python)으로 작성된 자동 스크립트 ‘토픽 모델링 플러그인’ 기능을 사용했다. 넷마이너를 활용하여 ①빈도분석과 TF-IDF 분석 결과를 반영한 정의어·유사어·제외어 사전 작성 ②실루엣 계수를 반영한 토픽 모델링 최적화 검증 ③토픽 모델링 분석을 통한 토픽별 키워드 및 뉴스 분류 ④토픽별 뉴스 원문 및 키워드 확인을 통한 토픽 명 부여 순으로 분석 절차를 진행했다. TF-IDF값은 단어 빈도(Term Frequency)와 역문서 빈도(Inverse Document Frequency)를 곱한 값으로서, 모든 토픽에 흔하게 출현하는 일반적인 상투어를 식별하여 키워드를 정제하는 데에 사용할 수 있다.
최적화된 토픽 수를 결정하기 위해, α값을 0.01부터 0.1까지, β값을 0.01부터 0.02까지 설정하고, 토픽의 수를 5부터 14까지 설정하여 총 200개 경우의 수로 Coherence Score를 측정했다.(Iteration: 100). Coherence Score를 측정한 결과, 그림 2와 같이 α값이 0.01, β값이 0.01, 토픽 수가 5개일 경우 Coherence Score가 -0.844로서 가장 높게 나타나, 해당 설정값을 기준으로 LDA 분석을 수행하고, 전체 토픽의 시계열 비중 변화를 선형예측으로 분석했다.
Ⅲ. 연구 결과
챗GPT 관련 뉴스 빅데이터 2,342건을 대상으로 토픽 모델링 분석한 결과, 그림 3과 같이 총 5개의 토픽이 도출되었다.
토픽별 보도건수와 비중은 [Topic-1] ‘챗GPT의 능력 및 가능성에 대한 기대와 논란’, [Topic-2] ‘빅테크 기업의 인공지능 기술투자 및 연구개발 경쟁 가속화’, [Topic-3] ‘챗GPT로 인한 관련주 상승 및 인공지능 경제 생태계 활성화’, [Topic-4] ‘한국형 챗GPT 자체 기술력 확보를 위한 정책적 지원’, [Topic-5] ‘챗GPT 기술을 활용한 질문 기반 학습자 중심 교육 추진’ 순으로 나타났다.
토픽별 시계열 변화는 그림 4와 같으며, 개별 토픽의 시계열 변화는 다음 절에서 별도로 제시하였다.
3-1 [Topic-1] (사회적 차원) 챗GPT의 능력 및 가능성에 대한 기대와 논란
[Topic-1]에서는 그림 5와 같이 주요 키워드가 ‘인간’, ‘질문’, ‘학습’, ‘생성’, ‘답변’, ‘작성’, ‘능력’, ‘언어’, ‘윤리’, ‘규제’ 등으로 나타남에 따라, 표 3과 같이 키워드별 주요 뉴스를 통해 맥락과 의미를 파악한 후 [Topic-1]의 이슈를 사회적 차원에서 논의되고 있는 ‘챗GPT의 능력 및 가능성에 대한 기대와 논란’으로 정의했다.
[Topic-1] 관련 뉴스 비중은 32.15%(753건)로 전체 5개의 토픽 중 1순위를 차지하고 있는 것으로 나타났다. 주간 단위로 시계열 선형예측 분석을 실시한 결과 그림 6과 같이 증가하는 추세이며, 5개의 토픽 중 1순위의 증가폭(y=16.038x)을 보이고 있다.
관련 뉴스들을 종합적으로 살펴보면, 챗GPT의 인간적인 대화 능력과 응용 가능성에 대한 기대와 동시에, 그로 인한 사회적 영향과 윤리적 논란에 대한 이슈가 대두되었다. 뉴스에서는 챗GPT의 기술력과 혁신적인 언어 생성 능력을 강조하면서, 인간과 대립하는 상황에서의 챗GPT의 반응, 인공지능의 자의식에 대한 논쟁, 그리고 판사의 판결문 작성에 챗GPT 사용 등 다양한 활용 사례를 소개하였다. 그러나 동시에, 챗GPT가 잘못된 지식을 학습하거나 거짓말을 생성할 위험성이 존재함을 지적하며, 이에 따른 사회적 부작용과 윤리적 합의의 필요성에 대한 논의가 이루어졌다. 이러한 문제를 해결하기 위한 규제가 필요하다는 주장도 제기되었다.
따라서 [Topic-1]에서는 챗GPT의 능력과 가능성에 대한 긍정적 평가와 함께, 그로 인한 사회적 영향과 윤리적 논란에 대한 이슈가 종합적으로 논의되고 있다. 이를 통해 챗GPT의 발전과 활용에 대한 기대와 동시에, 적절한 윤리적 가이드라인과 규제 방안 마련의 중요성을 시사하고 있다.
3-2 [Topic-2] (기술적 차원) 빅테크 기업의 인공지능 기술투자 및 연구개발 경쟁 가속화
[Topic-2]에서는 그림 7과 같이 주요 키워드가 ‘구글’, ‘검색’, ‘네이버’, ‘출시’, ‘공개’, ‘데이터’, ‘언어’, ‘투자’, ‘마이크로소프트’, ‘카카오’ 등으로 나타남에 따라, 표 4와 같이 키워드별 주요 뉴스를 통해 맥락과 의미를 파악한 후 [Topic-2]의 이슈를 기술적 차원에서 논의되고 있는 ‘빅테크 기업의 인공지능 기술투자 및 연구개발 경쟁 가속화’로 정의했다.
[Topic-2] 관련 뉴스 비중은 26.86%(629건)로 전체 5개의 토픽 중 2순위를 차지하고 있는 것으로 나타났다. 주간 단위로 시계열 선형예측 분석을 실시한 결과 그림 8과 같이 증가하는 추세이며, 5개의 토픽 중 2순위의 증가폭(y=12.983x)을 보이고 있다.
관련 뉴스들을 종합적으로 살펴보면, 글로벌 빅테크 기업들이 챗GPT를 비롯한 인공지능 기술에 대한 투자와 연구개발을 가속화하고 있다는 것을 확인할 수 있다. 뉴스에서는 구글, 마이크로소프트, 네이버, 카카오 등 빅테크 기업들이 챗GPT와 같은 인공지능 기술을 개발하거나 도입하여 경쟁력을 확보하려는 노력을 보여준다. 빅테크 기업들은 인공지능 기반 검색엔진 개발, 챗봇 장착, 거대 언어 모델 출시 등 다양한 분야에서 기술 경쟁을 벌이고 있다. 또한, 이러한 기술 발전을 통해 더 많은 고객과 사용자에게 인공지능 기반 서비스를 제공하려는 계획을 수립하고 있다.
따라서 [Topic-2]에서는 빅테크 기업들이 인공지능 기술, 특히 챗GPT와 같은 인공지능 언어 모델에 대한 투자와 연구개발 경쟁이 가속화되고 있음이 이슈화되었다. 이를 통해 인공지능 기술의 발전과 보급이 더욱 가속화될 것으로 예상되며, 이는 산업 전반에 걸쳐 기술 혁신과 경쟁력 향상을 이끌어낼 것이다. 그러나 이러한 기술 경쟁 가운데, 기업들 간의 협력과 공유도 중요한 고려사항으로 떠오를 것이며, 동시에 인공지능 기술의 발전에 따른 영향과 윤리적 문제에 대한 논의도 필요할 것이다.
3-3 [Topic-3] (경제적 차원) 챗GPT로 인한 관련주 상승 및 인공지능 경제 생태계 활성화
[Topic-3]에서는 그림 9와 같이 주요 키워드가 ‘반도체’, ‘투자’, ‘주가’, ‘상승’, ‘엔비디아’, ‘삼성전자’, ‘성장’, ‘매출’, ‘주식’, ‘증권’ 등으로 나타남에 따라, 표 5와 같이 키워드별 주요 뉴스를 통해 맥락과 의미를 파악한 후 [Topic-3]의 이슈를 경제적 차원에서 논의되고 있는 ‘챗GPT로 인한 관련주 상승 및 인공지능 경제 생태계 활성화’로 정의했다.
[Topic-3] 관련 뉴스 비중은 16.14%(378건)로 전체 5개의 토픽 중 3순위를 차지하고 있는 것으로 나타났다. 주간 단위로 시계열 선형예측 분석을 실시한 결과 그림 10과 같이 증가하는 추세이며, 5개의 토픽 중 4순위의 증가폭(y=8.3497x)을 보이고 있다.
관련 뉴스들을 종합적으로 살펴보면, 챗GPT의 성공과 그로 인한 인공지능 기술에 대한 관심이 증가함에 따라 관련 기업의 주가와 매출이 상승하고 있다는 것을 확인할 수 있다. 뉴스에서는 챗GPT와 관련된 반도체, 메모리 관련 기업들이 주가 상승을 이루고 있음을 보여준다. 대표적으로 엔비디아, 삼성전자, AMD, 브로드컴 등의 기업들이 이러한 영향을 받아 주가가 상승했다. 또한, 인공지능 기술 발전으로 인해 매출 증가와 성장이 이루어지는 기업들도 다수 존재했다. 이들 기업은 챗GPT를 비롯한 인공지능 기술에 투자하며, 이를 기반으로 한 경제 생태계를 구축하고 있다.
따라서 [Topic-3]에서는 챗GPT를 중심으로 한 인공지능 기술의 발전이 관련 기업들의 주가와 매출 상승, 경제 생태계 활성화에 기여하고 있음이 주요 이슈로 논의되었다. 이를 통해 인공지능 기술의 미래 가치와 투자 가치를 확인할 수 있으며, 기술 발전에 따른 시장 변화와 기회를 인지하고 대응하는 것이 중요함을 시사한다. 그러나 기술 발전으로 인한 경제적 지속가능성을 논의하고, 시장의 과열 가능성에 대비하는 것 또한 필요할 것이다.
3-4 [Topic-4] (정책적 차원) 한국형 챗GPT 자체 기술력 확보를 위한 정책적 지원
[Topic-4]에서는 그림 11과 같이 주요 키워드가 ‘산업’, ‘데이터’, ‘정부’, ‘한국’, ‘로봇’, ‘지원’, ‘디지털’, ‘구축’, ‘계획’, ‘투자’ 등으로 나타남에 따라, 표 6과 같이 키워드별 주요 뉴스를 통해 맥락과 의미를 파악한 후 [Topic-4]의 이슈를 정책적 차원에서 논의되고 있는 ‘한국형 챗GPT 자체 기술력 확보를 위한 정책적 지원’으로 정의했다.
[Topic-4] 관련 뉴스 비중은 12.85%(301건)로 전체 5개의 토픽 중 4순위를 차지하고 있는 것으로 나타났다. 주간 단위로 시계열 선형예측 분석을 실시한 결과 그림 12와 같이 증가하는 추세이며, 5개의 토픽 중 3순위의 증가폭(y=8.535x)을 보이고 있다.
관련 뉴스들을 종합적으로 살펴보면, 정부가 인공지능 기술 발전을 도모하고자 한국형 챗GPT 개발에 집중하고 있다는 것을 확인할 수 있다. 정부는 산업 발전과 기술력 향상을 위해 국가 전략산업과 연계하여 다양한 정책과 지원을 발표하고 있으며, 대표적으로 과학기술정보통신부는 A.I.의 일상화를 위해 데이터 생태계 확보에 집중하며, 디지털 변혁 가속화를 추구하고 있다. 또한 정부는 챗GPT와 같은 초거대 A.I. 기술 개발에 대한 세제 지원을 검토하며, 연구 개발 투자를 활성화하고자 한다.
따라서, [Topic-4]에서는 정부의 적극적인 지원 정책을 통해 자체 인공지능 기술력 확보를 추구하고 있음이 주요 이슈로 논의되었다. 이를 통해 국가의 경쟁력 강화와 산업 발전에 기여하고, 인공지능 기술 분야에서 독립적인 발전을 이루기 위한 노력을 확인할 수 있다. 이에 글로벌 기업들과의 경쟁력 차이를 줄이기 위해 더욱 체계적이고 실질적인 지원이 필요하다는 시사점도 있다. 이에 따라 국가 차원에서의 연구 개발 투자와 지원 방안을 더욱 강화하고, 디지털 변혁과 기술력 확보에 중점을 두는 것이 중요하다.
3-5 [Topic-5] (교육적 차원) 챗GPT 기술을 활용한 질문 기반 학습자 중심 교육 추진
[Topic-5]에서는 그림 13과 같이 주요 키워드가 ‘교육’, ‘학생’, ‘대학’, ‘학교’, ‘디지털’, ‘사회’, ‘교사’, ‘질문’, ‘교육부’, ‘답변’ 등으로 나타남에 따라, 표 7과 같이 키워드별 주요 뉴스를 통해 맥락과 의미를 파악한 후 [Topic-5]의 이슈를 교육적 차원에서 논의되고 있는 ‘챗GPT 기술을 활용한 질문 기반 학습자 중심 교육 추진’으로 정의했다.
[Topic-5] 관련 뉴스 비중은 12.00%(281건)로 전체 5개의 토픽 중 5순위를 차지하고 있는 것으로 나타났다. 주간 단위로 시계열 선형예측 분석을 실시한 결과 그림 14와 같이 증가하는 추세이며, 5개의 토픽 중 5순위의 증가폭(y=8.0245x)을 보이고 있다.
관련 뉴스들을 종합적으로 살펴보면, 챗GPT 기술이 교육 분야에서 활용되며 학습자 중심의 교육 방식이 강화되고 있다는 것을 알 수 있다. 뉴스들에 따르면, 교육부와 교육청은 챗GPT를 활용한 교육 방식을 도입하고자 다양한 시범교육과 연수 프로그램을 진행하고 있다. 서울시교육청은 교사들을 대상으로 인공지능 교육 자료 개발 연수를 실시하며, 교육부 직원들은 챗GPT를 활용한 교육 현장 적용 방안을 모색하고 있다. 이러한 추세는 수도권뿐만 아니라 지방에서도 디지털 역량 강화를 위해 적용되고 있다.
[Topic-5]에서는 챗GPT 기술을 활용하여 학습자 중심의 교육 방식이 추진되고 있음이 주요 이슈로 논의되었다. 이를 통해 교육의 질을 향상시키고, 교사들이 학생들에게 더욱 효과적인 지도를 제공할 수 있게 될 것으로 예상된다. 그러나 챗GPT의 답변이 항상 정확하지 않을 수 있으므로, 교사들은 학생들이 부정확한 정보를 걸러내는 능력을 키울 수 있도록 지도해야 한다는 시사점도 있다. 따라서, 챗GPT 기술을 교육 현장에 적용함에 있어 교사들의 적극적인 참여와 교육 과정의 지속적인 개선이 필요하다.
Ⅳ. 논의 및 결론
본 연구는 챗GPT 관련 뉴스 빅데이터를 활용하여 주요 키워드와 토픽을 시기별로 파악함으로써, 챗GPT의 주요 의제와 시사점을 도출하기 위해 수행되었다. 이를 위해 챗GPT가 공개된 2022년 11월 30일부터 분석 시점인 2023년 2월 28일까지 보도된 2,342건의 뉴스를 토픽 모델링(LDA)으로 분석한 결과, (1)챗GPT의 능력 및 가능성에 대한 기대와 논란, (2)빅테크 기업의 인공지능 기술투자 및 연구개발 경쟁 가속화, (3)챗GPT로 인한 관련주 상승 및 인공지능 경제 생태계 활성화, (4)한국형 챗GPT자체 기술력 확보를 위한 정책적 지원, (5)챗GPT기술을 활용한 질문 기반 학습자 중심 교육 추진 등의 5개의 주요 토픽이 도출되었다. 연구결과를 중심으로 논의하면 다음과 같다.
첫째, 인공지능의 발전 속도가 사람들의 예측보다 더 빠른 속도로 발전하고 있다. 2022년 11월 30일 출시된 챗GPT는 인류역사상 가장 빨리 100만 명의 회원을 유치하였고, 기존 인공지능과는 달리 일반인들이 손쉽게 사용할 수 있는 대화형 인터페이스를 제공하면서 전 세계적으로 대단한 파급력을 불러왔다. 이러한 과정에서 챗GPT의 능력과 수준은 기대 이상이었고, 인공지능 기술을 우리가 생각한 것보다 더 빠른 속도로 발전하고 있다는 것에 사람들이 주목하였다. 특히 간단한 정보를 제공하던 단순 인공지능에서, 이제는 질문을 받는 즉시 전문적인 수준의 답변을 제공해주고, 멀티모달 기술을 활용하여 복잡한 문제를 해결하기도 한다. 학습된 데이터 셋의 크기와 모델의 구조 등에 따라 성능을 다른 수도 있지만, 대체적으로 자연어 이해와 생성에 있어서 인간 수준 이상의 성능을 보이기도 하고, 막대한 예산을 투자하여 지속적인 학습을 하고 있기 때문에 인간의 지식을 뛰어넘는 것은 시간문제일 것이다. 국내에서도 해외기반 챗GPT의 약점을 강점으로 바꾼 한국형 챗GPT를 개발하기 위한 노력을 다방면에서 하고 있다. 특히 한국어에 약한 챗GPT의 빈틈을 파고들어, 한국어 특화 언어 모델을 기반으로 방대한 양의 한국어 데이터를 학습한 인공지능 언어모델에 지속적인 투자를 하고 있다. 현재 SK텔레콤은 GPT-3기술이 적용된 인공지능 에이전트 서비스 “에이닷(A.)”을, KT는 “믿음”을, LG유플러스는 “익시(ixi)”, “콜봇(Call-bot)”을 업데이트하고 있다. 정부 또한 ‘신(新)성장 4.0 전략’을 통해 한국형 챗GPT(대화형 인공지능) 개발을 위한 제도적 지원 방안도 함께 마련하는 등 우리 기술을 활용한 한국어 기반 챗GPT 개발 및 관련 연구가 빠르게 이루어지고 있는 것을 확인할 수 있다.
둘째, 챗GPT와 같은 대규모 언어 모델은 최근 빅테크 기업들 사이에서 경쟁이 치열하다. 구글은 BERT, GPT 등의 대규모 언어 모델을 개발하며 인공지능 분야에서 선두적인 위치를 유지하고 있지만, 구글의 바드(Bard)가 시연에서 잘못된 답변을 제시하면서 살짝 주춤하고 있다. 2022년에 고델(Grounded Open Dialogue Model, GODEL)이라는 인공지능을 공개하기도 한 마이크로소트는 오픈AI의 공식 클라우드 컴퓨팅 파트너로 Azure Cloud가 선정되기도 하였다. 페이스북도 RoBERTa, XLM 등의 모델을 개발하며 언어 이해 분야에서 높은 성능을 보이고 있다. 아마존도 인공지능 분야에서 활발한 활동을 하고 있으며, 대표적인 예로 GPT-3와 유사한 대규모 언어모델인 DALL-E와 GAN 등을 개발하고 있다. 이에 관련된 기술 및 제품을 제공하는 회사들의 관련주와 투자에 대한 관심도 많은 것을 확인하였다. 분석 결과에서 볼 수 있듯이, [Topic-2] ‘빅테크 기업의 인공지능 기술투자 및 연구개발 경쟁 가속화’와 [Topic-3] ‘챗GPT로 인한 관련주 상승 및 인공지능 경제 생태계 활성화’ 등 기술적·경제적 차원의 이슈가 2, 3순위의 비중을 차지하고 있었다. 따라서 [Topic-4] ‘한국형 챗GPT 자체 기술력 확보를 위한 정책적 지원’에서 나타난 것처럼, 현재 진행되고 있는 국내 인공지능 기술개발이 국제적 차원에서 우수한 경쟁력을 확보하고 국가 경제발전의 신성장 동력이 될 수 있도록, 정부 차원의 적극적인 연구개발비 및 세재 지원, 규제 완화, 인공지능 산업 육성 등이 신속하게 이루어져야 하겠다. 특히, 인공지능 기술을 개발하고, 기술사업화를 추진할 수 있는 인공지능 전문 인재 양성이 국정과제인 ‘디지털 인재 양성’ 정책과 연계하여 국가 차원에서 적극 추진되어야 한다.
셋째, 챗GPT가 교육 현장에 가져온 혁명은 다른 에듀테크와 비교할 수 없을 정도로 크다. 교육적 차원에서의 인공지능 관련 이슈를 더욱 활성화하여 논의할 필요가 있다. 챗GPT는 어려운 문제를 몇 초 만에 풀기도 하고, 여러 내용들을 잘 조합하여 논문을 작성해 주기도 하며, 자기소개서나 방송대본 프레임도 몇 초 만에 써줄 수 있다. 이러한 과정에서 교육계 및 학계의 전통적 문제였던 대필, 표정 등과 같은 윤리 문제가 야기되었고, 실제 지난 1월 6일 미국 뉴욕시는 공립학교 내 기기 네트워크에서 챗GPT 접근을 차단한다고 발표하기도 했다. 이는 과제 대필 행위를 비롯한 허위정보 확산 등을 사전에 차단하겠다는 이유에서다. 이를 위해, 챗GPT와 같은 생성형AI를 활용한 교육을 위한 교수·학습 가이드라인을 발 빠르게 개발한 국내외 대학도 있다. 프린스턴대학교(Princeton University)와 피츠버그 대학교(University of Pittsburgh)는 생성형AI의 활용 여부를 강의계획서에 정확하게 명시할 것을 권고하고 있고, 학습자가 학문적인 도덕성 및 표정 규정에 대해 정확하게 인지하고 있도록 체계적인 교육을 제공하고 있다. 또한 국내 성균관대학교는 교·강사용 챗GPT 종합안내 플랫폼을 개설하고, AI를 올바르게 활용하는 방법, 선제적 AI 접목 교육 모델 소개, 부정행위 대처 방법 등을 안내하고 있다. 챗GPT는 학습자들이 궁금한 것이 있으면 즉각적으로 물어보고 친절한 답변을 지속적으로 받을 수 있다는 장점도 있지만 반대로 학생들의 비판적 사고와 창의력 등의 지적 근육을 감소시킨다는 입장도 있고, 2021년 이후 발생하는 사건은 알지 못하며, 챗GPT가 공식 서비스가 아니라 실험적인 데모 성격이다 보니 정보의 정확성과 편향 문제에서 자유롭지 않은 것이 현실이다. 즉, 실시간으로 자료를 수집하는 것이 아니라, 과거에 수집하고 학습한 데이터를 기반으로 답변을 하고, 출력 수 단어의 개수도 1,024개로 제한되어 있다. 그럼에도 불구하고, 챗GPT의 기술은 전 세계를 깜짝 놀라게 하였고, 초안(draft)을 작성하는 데는 매우 유용한 기술임에는 틀림없다. 하지만 아직까지 전문가(예: 의사, 변호사 등)를 100% 대체할 수는 없고, 최종적으로 선택하는 것도 인간이 해야 하는 부분이다. 챗GPT의 장단점을 잘 고려하여, 어떻게 교육 현장에 적용해야 하는지와 관련된 다양한 논의가 필요한 시점이다. 특히, 챗GPT 등 인공지능 활용역량에 따른 디지털 격차가 심화 되지 않도록, 공교육 및 평생교육에 인공지능 관련 이론 및 실습 교육을 포함하고, 질문에 기반을 둔 학습자 중심 맞춤형 디지털 리터러시 교육을 추진해야 한다.
넷째, 챗GPT와 같은 자연어 처리 기술은 현재까지도 발전하고 있지만, 이에 따른 다양한 윤리 문제도 제기되고 있다. 챗GPT를 악용하여 개인 정보를 수집하거나, 사회적으로 문제가 되는 발언을 자동으로 생성할 수 있다는 우려가 있으며, 학습한 데이터의 편향성으로 인한 문제가 발생할 수 있다. 예를 들어 특정 인종, 성별, 국적 등에 대한 편견을 가지고 있을 수도 있고, 인종차별이나 성적으로 부적절한 텍스트를 생성하는 경우 도덕적인 문제가 발생할 수 있다. 또한 챗GPT를 활용하여 사람을 속이는 행위를 하거나, 개인 정보를 포함한 민감한 정보를 반영하여 챗GPT가 텍스트를 생성하거나, 답변을 제공할 수도 있다. 챗GPT와 같은 이러한 기술이 오용될 경우에는 인간의 권리와 자유를 침해하거나, 문제가 발생할 수 있다. 분석 결과에서 볼 수 있듯이, 5개의 토픽 중 [Topic-1] ‘챗GPT의 능력 및 가능성에 대한 기대와 논란’에 대한 사회적 차원의 이슈가 가장 많은 비중을 차지하고 있으며 앞으로 가장 중요한 이슈로 부각될 것으로 예측되었다. 따라서 챗GPT 등 인공지능 윤리규제에 대한 사회적 논의를 더욱 심도 깊게 진행하여 사회적 공감대를 형성해야 하겠으며, 미국에서 제정된 인공지능 교육법처럼 챗GPT 등 인공지능 활용 관련 법·제도 마련과 교육정책 수립을 통해 인간 중심적인 인공지능 기술 발전에 기여해야 하겠다.
본 연구의 한계 및 제언 사항은 다음과 같다.
첫째, 본 연구는 국내 챗GPT 관련 뉴스만 대상으로 진행하였다. 하지만 현재 해외에서 챗GPT와 관련된 뉴스 및 실증데이터가 다양하게 나오고 있으며, 관심이 급증하고 있다. 때문에 추후 연구에서는 국제뉴스와 비교하여 어떠한 차이가 있는지를 파악한다면 더욱 의미 있는 연구 결과가 도출될 것으로 예상된다.
둘째, 본 논문은 챗GPT와 관련된 국내 뉴스 기사만을 한정하여 작성하였다. 추후 챗GPT와 관련된 사례, 적용, 기술 등과 관련된 다양한 양적·질적 논문을 활용한 연구가 수행되길 기대하며, 실질적인 데이터를 활용한 폭넓은 변화의 쟁점에 관해서 연구되길 바란다.
셋째, 본 연구에서는 뉴스의 수집 기간을 챗GPT가 공개된 2022년 11월 30일부터 분석 시점인 2023년 2월 28일까지 약 3개월의 기간에 수집한 2,300여 건의 뉴스를 대상으로, 챗GPT 관련 초기 이슈에 대한 분석을 탐색적으로 수행했다. 추후 연구에서는 분석기간을 더욱 확장하여 더 많은 양의 뉴스를 대상으로 분석한다면, 챗GPT로 인해 어떤 사회적 담론이 형성되었으며, 사회 전반에 어떠한 영향을 미쳤는지 심도 깊은 논의를 진행할 수 있을 것으로 기대된다.
그럼에도 불구하고 본 연구는 챗GPT와 관련된 뉴스 기사를 분석함으로써 기술적⋅활용적 측면을 중심으로 거시적이고 종합적인 차원에서 챗GPT에 대한 사회적 논의를 분석했다는 학술적 의의가 있다. 인간은 점차 기계와 나누는 대화에 점점 익숙해질 것이고, 이후 시스템들은 더 사용하기 편한 UX로 개발될 것이다. 또한 이러한 기술의 발달이 전반적인 경제, 사회, 문화, 교육 등에 어떻게 영향을 줄지 정확하게 예측하기는 어렵다. 하지만 이러한 변화를 인정하고, 어떻게 이러한 변화를 나를 위해 활용할 수 있는지를 고민해야 할 것이다. 본 연구가 국내 챗GPT와 같은 기술들이 나가야 할 방향을 예측함에 바탕이 되는 선행도구로 활용될 수 있기를 기대하며, 올바른 방향으로 활용되길 기대한다.
References
- The Guardian. ChatGPT Reaches 100 Million Users Two Months after Launch [Internet]. Available: https://www.theguardian.com/technology/2023/feb/02/chatgpt-100-million-users-open-ai-fastest-growing-app, .
- Gartner. Top Strategic Technology Trends 2023 [Internet]. Available: https://emtemp.gcom.cloud/ngw/globalassets/en/publications/documents/2023-gartner-top-strategic-technology-trends-ebook.pdf?fbclid=IwAR0Num1Q2Z81tikfVvLhwdyh96-7CdCmFsDATdYoYMlrVPxiW61pAYyYvTA, .
- B. H. Ban, ChatGPT, Paju: Saengneung Books, 2023.
- H. J. Lee, “Analysis of News Big Data for Deriving Social Issues in Korea,” The Journal of Society for e-Business Studies, Vol. 24, No. 3, pp. 163-182, August 2019. [https://doi.org/10.7838/jsebs.2019.24.3.163]
- W. Chung, “Keyword and Topic Analysis on the THAAD Conflict Between South Korea and China: Based on a Time-Series Topic Modeling and A Semantic Network Analysis,” The Korean Journal of Advertising and Public Relations, Vol. 20, No. 3, pp. 143-196, July 2018. [https://doi.org/10.16914/kjapr.2018.20.3.143]
- J.-Y. Cho, H.-S. Kim, and M.-J. Cho, “A Study on the Change of Issues with Adolescent Problem by Using Text Mining: The Internet News Articles for the Years 2008 to 2018,” Journal of Educational Innovation Research, Vol. 28, No. 4, pp. 461-487, December 2018. [https://doi.org/10.21024/pnuedi.28.4.201812.461]
- S. Han and T. Kim, “News Big Data Analysis of ‘Metaverse’ Using Topic Modeling Analysis,” Journal of Digital Contents Society, Vol. 22, No. 7, pp. 1091-1099, July 2021. [https://doi.org/10.9728/dcs.2021.22.7.1091]
- T. Kim, S. Chae, and H. Kim, “Analysis of Trauma Issues in Korean Society Based on Topic Modeling,” Journal of Digital Contents Society, Vol. 23, No. 3, pp. 503-522, March 2022. [https://doi.org/10.9728/dcs.2022.23.3.503]
- T. Lee, S. Lee, and C. Oh, “A Comparative Analysis of Nuclear Energy Issue Frames in Press Releases and News Articles: A Topic Modeling Approach,” Journal of Communication Science, Vol. 17, No. 3, pp. 172-229, September 2017. [https://doi.org/10.14696/jcs.2017.09.17.3.172]
- T.-J. Kim, “COVID-19 News Analysis Using News Big Data : Focusing on Topic Modeling Analysis,” The Journal of the Korea Contents Association, Vol. 20, No. 5, pp. 457-466, May 2020. [https://doi.org/10.5392/JKCA.2020.20.05.457]
- J. Kang, S. Kim, and S. Roh, “A Topic Modeling Analysis for Online News Article Comments on Nurses’ Workplace Bullying,” Journal of Korean Academy of Nursing, Vol. 49, No. 6, pp. 736-747, December 2019. [https://doi.org/10.4040/jkan.2019.49.6.736]
- K. Kim, K. Kang, M. Son, C. Lee, S. Hong, and S. Kim, “A Big-Data Analysis of Issues on North Korea and Media Agenda Setting Functions: Applying Topic Modeling and Word-embedding Methods,” Peace Studies, Vol. 28, No. 1, pp. 287-332, April 2020. [https://doi.org/10.21051/PS.2020.04.28.1.287]
- Y.-R. Cha, “Big Data Analysis of Metaverse and Advertising Related to News Articles: Focusing on Topic Modeling,” Journal of Practical Research in Advertising and Public Relations, Vol. 16, No. 1, pp. 159-179, February 2023. [https://doi.org/10.21331/jprapr.2023.16.1.006]
- D. M. Blei, “Probabilistic Topic Models,” Communication of the ACM, Vol. 55, No. 4, pp. 77-84, April 2012. [https://doi.org/10.1145/2133806.2133826]
저자소개
1999년:경북대학교 신문방송학과 (문학사)
2012년:연세대학교 언론학과 (언론학석사)
2019년:공주대학교 교육학과 (교육학박사)
2013년~2013년: University of Missouri–Columbia, School of Journalism (방문연구원)
2020년~2021년: 한국청소년정책연구원 부연구위원
2021년~현 재: 한국과학기술정보연구원 박사후연구원
※관심분야:데이터 과학, 토픽 모델링 분석, 챗GPT, 텍스트데이터 기반 이슈 및 트렌드 분석
2010년:University of Missouri-Columbia (언론학 학사)
2013년:연세대학교 언론학과 (언론학 석사)
2019년:서울대학교 교육학과 (교육학 박사)
2021년∼현 재: 동국대학교 교수학습혁신센터 연구교수
※관심분야:챗GPT, 생성형 AI, 메타버스, 미디어 리터러시, 에듀테크 활용 교육, 교수설계