[ Article ]

Journal of Digital Contents Society - Vol. 26, No. 6, pp.1579-1587

ISSN: 1598-2009 (Print) 2287-738X (Online)

Print publication date 30 Jun 2025

Received 09 May 2025 Revised 30 May 2025 Accepted 10 Jun 2025

DOI: https://doi.org/10.9728/dcs.2025.26.6.1579

상품 리뷰 텍스트의 임베딩·클러스터링과 LLM 기반 군집 해석 프레임워크

임수린¹ ; 임회정²^{, *}

1전남대학교 데이터사이언스 대학원 공공데이터분석센터 석사과정
2전남대학교 데이터사이언스 대학원 공공데이터분석센터 교수

A Framework for Embedding and Clustering Product Review Texts with Cluster Interpretation Using Large Language Models

Surin Im¹ ; Hoi-Jeong Lim²^{, *}

1Master’s Course Researcher, Graduate School of Data Science, Public Data Analytics Center, Chonnam National University, Gwangju 61186, Korea
2Professor, Graduate School of Data Science, Public Data Analytics Center, Chonnam National University, Gwangju 61186, Korea

Correspondence to: ^*Hoi-Jeong Lim Tel: +82-62-530-5790 E-mail: hjlim@jnu.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 커피 상품 리뷰 텍스트를 의미 기반으로 분류하고 해석하는 자동화 프레임워크를 구축하는 것을 목표로 한다. 이를 위해 BGE-m3-Ko, KR-SBERT, distilUSE, text-embedding-3-small 네 가지 문장 임베딩 모델을 적용하여 텍스트를 벡터화하고, UMAP 차원 축소와 K-means 클러스터링을 통해 제품 군집을 형성하였다. 클러스터링 성능은 Silhouette Score, CH Index, DB Index를 기준으로 평가하였다. 실험 결과, BGE-m3-Ko 모델이 가장 우수한 군집 품질을 보였으며 군집 개수 5에서 Silhouette Score 0.4581, CH Index 2795.71, DB Index 0.6870을 기록하였다. 최적 모델로 선정된 BGE-m3-Ko 임베딩 결과를 기반으로 군집화를 수행한 후, Open AI API로 제공되는 GPT-3.5 Turbo를 활용하여 각 군집의 특징을 담은 명칭을 생성하였다. 이와 같은 프레임워크는 비정형 텍스트 데이터를 구조화하고 감각적 특성에 따른 제품 군집을 도출하는 데 유용한 방법으로 작용함을 보여주었으며, 소비자 인식 기반의 마케팅 전략 수립에 기여할 수 있는 가능성을 제시하였다.

Abstract

This study aimed to develop an automated framework for semantically classifying and interpreting coffee product review texts. To this end, four sentence embedding models— Beijing Academy of Artificial Intelligence general embedding with multi-functionality, multi-linguality, and multi-granularity for Korean (BGE-m3-Ko), Korean-based sentence bidirectional encoder representations from transformers (KR-SBERT), distilled universal sentence encoder (distilUSE), and text-embedding-3-small—were applied to vectorize the review texts. Uniform manifold approximation and projection (UMAP) was used for dimensionality reduction, followed by K-means clustering to form product groups. Clustering performance was evaluated based on the silhouette score, Calinski–Harabasz index, and Davies–Bouldin index. Experimental results demonstrated that the BGE-m3-Ko model achieved the best clustering quality, recording a silhouette score of 0.4581, Calinski–Harabasz index of 2795.71, and Davies–Bouldin index of 0.6870 when the number of clusters was set to five. Based on the optimal BGE-m3-Ko embeddings, cluster naming was performed using GPT-3.5 Turbo provided by the OpenAI application programming interface (API), to generate representative labels that captured the characteristics of each cluster. This framework effectively structured text data and derived product groupings based on sensory attributes, demonstrating its potential to support marketing strategies grounded in consumer perception.

Keywords:

Text Embedding, Text Clustering, UMAP, LLM, Coffee Review Analysis

키워드:

텍스트 임베딩, 텍스트 클러스터링, 거대 언어 모델, 리뷰 텍스트 분석

Ⅰ. 서 론

디지털 시대의 도래와 함께 소비자 리뷰, 소셜 미디어 게시글, 설문 응답 등 방대한 양의 비정형 텍스트 데이터가 생성되고 있다. 이러한 텍스트 데이터를 분석하고 비즈니스에 적용하는 기술은 다양한 산업에서 경쟁력을 결정짓는 핵심 역량으로 자리 잡고 있으며, 이를 정량적으로 분석하여 활용하는 능력은 점점 더 중요해지고 있다[1].

특히 식료품 산업에서는 소비자의 미각과 후각에 기반한 리뷰 데이터를 활용한 맞춤형 제품 기획과 마케팅 전략이 주목받고 있다[2]. 커피 제품은 맛과 향에 대한 주관적인 경험을 중심으로 소비자 평가가 이루어지기 때문에 텍스트 리뷰에는 제품의 향미 특성과 감각적 표현이 복합적으로 반영된다. 그러나 이러한 리뷰는 그 자체로는 정량화가 어렵고 체계적인 비교 분석이나 분류를 수행하기 위한 구조화된 접근이 요구된다.

이러한 비정형 텍스트 데이터를 효과적으로 처리하고 소비자의 감각적 평가를 구조화하기 위해서는 고도화된 자연어 처리 기법이 요구된다. 최근에는 문장 임베딩(Sentence Embedding) 기술의 발전으로 인해 주관적인 문장을 수치 벡터로 변환하여 정량적으로 분석할 수 있게 되었으며[3], 이를 기반으로 의미 유사성에 따라 텍스트를 자동으로 분류하는 클러스터링 기법의 활용이 활발히 이루어지고 있다[4]. 더불어 대규모 언어 모델(Large Language Model, LLM)의 등장으로 인해 클러스터링 결과를 해석하고 각 군집의 특징을 자연어로 요약하거나 자동 명명하는 작업 또한 가능해졌다. 예를 들어, Preiss 등은 BERTopic으로 클러스터링한 결과에 GPT-3.5 Turbo를 적용해 다양한 프롬프트 전략을 실험하였으며, 생성된 클러스터 명칭이 인간 작성 명칭과 유사하거나 더 우수한 평가를 받은 바 있다[5]. 이러한 기술의 결합은 소비자 리뷰와 같은 비정형 데이터로부터 의미 있는 인사이트를 도출하고 이를 제품 분류, 기획, 마케팅 전략 등에 실질적으로 활용할 수 있는 가능성을 보여준다.

본 연구는 커피 제품에 대한 리뷰 텍스트를 임베딩과 클러스터링 기법을 통해 정량적으로 분석하여 제품들을 의미있는 군집으로 분류하고자 한다. 맛과 향에 대한 평가로 표현된 리뷰 데이터를 클러스터링함으로써, 유사한 제품군을 도출하고, 각 군집의 공통된 특징을 도출함으로써 기획 및 마케팅 전략 수립에 실질적인 인사이트를 제공할 수 있다. 또한, 최근 주목받고 있는 대규모 언어 모델(LLM)을 활용하여 군집의 의미를 자연어로 해석하고, 군집명을 생성하는 자동화된 방법을 적용함으로써, 클러스터링 결과의 실질적 해석 가능성과 비즈니스 활용 가능성을 평가하고자 한다.

본 연구의 주요 목표는 다음과 같다. 첫째, 커피 제품에 대한 리뷰 텍스트를 문장 임베딩 기법인 BGE-m3-Ko(BAAI General Embedding), KR-SBERT(Korean Sentence-BERT), distilUSE(Distilled Universal Sentence Encoder), text- embedding-3-small의 네 가지 모델을 활용하여 벡터화함으로써 비정형 텍스트 데이터를 수치화된 형태로 변환한다. 둘째, 각 임베딩 기법으로 생성된 벡터를 기반으로 클러스터링 알고리즘을 적용하여 군집을 형성하고, 이를 다양한 평가 지표를 통해 비교 분석함으로써 임베딩 모델 간 성능 차이를 정량적으로 검토한다. 셋째, 군집화된 결과에 대하여 대규모 언어 모델(LLM)을 활용해 각 군집의 의미를 해석하고 클러스터 이름을 자동으로 생성함으로써 해당 분석 결과가 실제 제품 분류 및 마케팅 전략 수립에 활용 가능한지를 탐색한다.

기존 연구들은 대부분 감성 분석이나 토픽 모델링을 중심으로 소비자 리뷰를 분류하거나 요약하는 데 중점을 두었으며, 클러스터링 기반의 자동 분류와 해석은 상대적으로 제한적으로 시도되었다. 특히 클러스터 해석은 키워드 빈도 기반 분석에 의존하거나 수작업 명명 방식이 일반적이어서 자동화에 한계가 있었다. 이에 비해 본 연구는 첫째, 한국어 리뷰 데이터를 대상으로 다양한 문장 임베딩 모델의 성능을 비교하여 가장 적합한 임베딩 방식을 실증적으로 도출하고, 둘째, 클러스터링 결과에 대해 대규모 언어 모델(LLM)을 연계하여 자동 요약 및 클러스터 명명을 수행함으로써 정량적 분석과 정성적 해석을 통합한 자동화된 분석 프레임워크를 제안한다는 점에서 기존 연구와 뚜렷한 차별성을 가진다.

본 논문은 다음과 같은 구성으로 이루어진다. 2장에서는 텍스트 임베딩 기법, 텍스트 클러스터링, LLM 기반 군집 해석 방법 등 본 연구의 이론적 배경을 설명한다. 3장에서는 데이터셋 소개 및 분석 절차와 구현 과정을 기술하고, 4장에서는 다양한 임베딩 모델과 클러스터링 기법의 비교 분석 결과와 LLM을 활용한 군집 해석 결과를 제시한다. 마지막으로 5장에서는 본 연구의 결론을 제시하고 향후 연구 방향과 활용 가능성을 논의한다.

Ⅱ. 이론적 배경

2-1 텍스트 임베딩 모델

텍스트 임베딩(Text Embedding)은 자연어 문서, 문장 또는 단어와 같은 텍스트 데이터를 고차원 공간의 수치 벡터로 변환하여 의미적으로 유사한 텍스트들이 벡터 공간상에서 가까운 위치에 매핑되도록 하는 표현 방식이다. 이는 비정형 텍스트 데이터를 머신러닝 모델이 처리할 수 있는 구조화된 형태로 바꾸는 데 핵심적인 역할을 하며 의미 기반 분석, 검색, 분류 등의 다양한 작업에 활용된다.

텍스트 임베딩 기법은 정적 임베딩에서 문맥 기반 임베딩으로 발전해 왔다. 초창기의 Bag-of-Words(BoW)와 TF-IDF 방식은 단어의 빈도만을 고려하여 문맥이나 순서를 반영하지 못한다는 한계가 있었으며, Word2Vec[6], GloVe[7], fastText[8]와 같은 단어 임베딩 기법은 단어를 고정된 벡터로 표현하여 문맥의 의미 변화를 포착하는 데 어려움이 있었다.

이러한 한계를 극복하고자, 2019년에는 트랜스포머 기반의 BERT(Bidirectional Encoder Representations from Transformers)가 제안되어 문장의 양방향 문맥을 반영한 임베딩이 가능해졌으며, 자연어 처리 전반에서 획기적인 성능 향상을 이끌어냈다[9],[10]. 그러나 일반적인 BERT는 문장 간 유사도 계산이나 클러스터링과 같은 작업에서 효율적인 임베딩을 제공하지 못하였고 이 문제를 해결하기 위해 Sentence-BERT(SBERT)가 개발되었다[11]. SBERT는 BERT를 Siamese 또는 Triplet 구조로 파인튜닝하여 문장을 직접 의미 공간상의 벡터로 변환할 수 있도록 하며, 의미 유사도 검색, 의미 기반 클러스터링 작업에서 높은 정확도와 속도를 동시에 제공한다.

한편, 한국어의 특수성을 반영한 임베딩 모델 개발도 활발히 이루어지고 있다. 기존의 다국어 임베딩 모델은 영어 중심의 학습 데이터로 인해 한국어에서 성능 저하를 보이는 경우가 있으며[12], 이에 대한 대안으로 한국어 STS 및 NLI 데이터셋을 활용하여 Sentence-BERT를 파인튜닝한 KR-SBERT가 공개되어 한국어 문장 임베딩의 품질을 크게 향상시켰다[13]. 또한 최근에는 한국어 도메인별 데이터를 대규모로 구축하고 이를 학습한 KoE5 모델이 제안되었는데, 이 모델은 다국어 임베딩 모델보다 한국어 벤치마크에서 뛰어난 성능을 보였으며 정보 검색 및 생성 태스크에서도 높은 활용도를 입증하였다[12].

본 연구에서는 커피 리뷰 텍스트의 의미적 특징을 효과적으로 포착하고 정량적 기준에 따라 제품 군집을 형성하기 위해 문장 수준의 임베딩에 BGE-m3-Ko, KR-SBERT, distilUSE, text-embedding-3-small 네 가지 사전학습 문장 임베딩 모델을 적용하였다. 특히, 한국어 리뷰 데이터의 의미적 유사성을 정확하게 파악하는 것이 중요하므로, 한국어에 특화되어 파인튜닝된 BGE-m3-Ko[14]와 KR-SBERT[13]를 주요 모델로 선정하였다. BGE-m3-Ko는 다국어 벤치마크에서 우수한 성능을 보일 뿐만 아니라, 한국어 의미 기반 검색 및 분류에서도 강점을 나타내 커피 리뷰의 의미 차이를 반영하는 데 유리할 것으로 기대된다. KR-SBERT 또한 한국어 문장 간 의미 표현에 최적화되어 있어, 맛과 향에 대한 다양한 표현을 기반으로 유사한 리뷰들을 효과적으로 그룹화할 수 있을 것이다. 더불어, 다양한 언어 표현을 포괄할 가능성과 모델의 범용성을 고려하여 Google의 경량 다국어 임베딩 모델인 distilUSE[15]와 OpenAI의 최신 고성능 임베딩 모델인 text-embedding-3-small[16]을 포함하여 모델 간 성능 차이를 비교 분석하고 커피 리뷰 데이터에 가장 적합한 임베딩 모델을 실증적으로 확인하고자 한다.

이러한 문장 임베딩 모델들을 활용하여 커피 리뷰 데이터를 벡터화함으로써 의미 정보를 수치적으로 정량화하고 이후 클러스터링, LLM 기반 해석 등 후속 분석에 활용할 수 있도록 구성하였다.

2-2 텍스트 클러스터링

텍스트 클러스터링은 의미적으로 유사한 텍스트를 자동으로 분류하는 비지도 학습 기법으로, 텍스트 임베딩을 통해 벡터화된 데이터를 입력으로 활용한다. 본 연구에서는 임베딩된 고차원 벡터를 UMAP을 이용하여 차원을 축소하고, 그 결과를 기반으로 클러스터링을 수행하였다. UMAP은 고차원 공간의 구조를 보존하면서도 저차원 공간에서 시각적으로 해석 가능한 형태로 데이터를 변환하는 차원 축소 기법으로 t-SNE에 비해 빠른 연산 속도와 우수한 전역 구조 보존 능력을 제공하며, PCA보다도 비선형 관계를 효과적으로 반영하여 고차원 임베딩 벡터의 의미 공간을 충실히 유지한다[17]. 특히 텍스트 임베딩과 같이 수백 차원 이상의 벡터를 효율적으로 시각화하거나 군집 분석에 활용할 수 있도록 도와준다.

클러스터링에는 대표적인 알고리즘인 K-means를 사용하였다. K-means는 사용자가 지정한 군집 수 k에 따라 데이터를 분할하며 각 군집의 중심점을 기준으로 데이터를 반복적으로 재할당하여 군집을 형성한다. 본 연구에서는 구현의 용이성과 군집 중심을 직관적으로 해석할 수 있다는 장점을 고려하여 K-means를 군집화 모델로 선택하였다. BERT 기반의 임베딩을 활용한 K-means 군집화는 기존의 방식보다 클러스터 품질이 향상되었으며[18], 한글 상품 리뷰 요약을 수행한 연구에서도 BERT 기반 임베딩으로 유사 의견 문장을 군집화하여 다양한 주제를 보존한 요약을 만드는 데 활용하였다[19]. 본 연구에 사용된 데이터는 레이블이 없으므로, 군집 수 결정과 클러스터링 성능 평가는 Silhouette Score, Calinski-Harabasz Index(CH Index), Davies-Bouldin Index(DB Index) 와 같이 다양한 내부 평가 지표를 기반으로 수행되었다. 이러한 절차를 통해 임베딩된 리뷰 데이터를 시각적으로 해석 가능하게 만들고, 의미 기반의 유사성을 중심으로 군집화함으로써 제품 간의 향미 특성을 구조화하였다.

2-3 LLM 기반 군집 해석 방법

대규모 언어 모델(LLM)은 방대한 텍스트 코퍼스를 학습하여 문맥을 이해하고 생성할 수 있는 자연어 처리 모델이다. 최근에는 이러한 모델을 활용하여 클러스터링 결과를 자동으로 해석하고 클러스터명을 생성하는 작업이 시도되고 있다[5],[20].

예를 들어, Preiss 등은 BERTopic을 활용하여 뉴스 기사 데이터를 클러스터링한 후, GPT-3.5 Turbo를 사용하여 클러스터 이름을 자동으로 생성하는 실험을 수행하였다[5]. 이 연구에서는 원문 기반, 키워드 기반 등 네 가지 유형의 프롬프트 전략을 비교하였으며, 인간 평가자에 의한 품질 평가 결과, LLM이 생성한 클러스터 명칭이 수작업 명칭과 동등하거나 더 우수한 평가를 받았다. 이는 프롬프트 설계가 클러스터 해석의 품질에 중요한 영향을 미친다는 점과 함께 LLM 기반 명명 방식이 실제 분석에 적용 가능한 수준임을 보여준 사례이다. 또한 김남현 등은 NTIS의 관광 산업 데이터를 대상으로 문서 클러스터링을 수행한 후, LangChain 프레임워크를 기반으로 LLM을 연계하여 각 클러스터의 내용을 요약하고 주제를 자동 추출하는 방식을 적용하였다[20]. 기존 분류체계보다 실제 연구성과를 더 정확히 반영하는 키워드와 주제가 도출되었으며, LLM의 자연어 생성 능력이 비정형 문서 군집의 해석 가능성을 높이는 데 효과적임을 확인하였다. 이러한 선행연구들은 LLM을 활용한 클러스터 해석 및 명명 방식이 기존의 키워드 빈도 기반, 토픽 모델링 기반 방식보다 자동화 및 해석력 측면에서 실질적인 강점을 가질 수 있음을 보여준다.

기존의 클러스터 해석 방식은 주로 빈도 기반 키워드 추출이나 토픽 모델링을 활용해 수작업으로 레이블을 지정하는 방식에 의존해왔다. 이는 해석자의 주관이 개입될 수 있으며 자동화에 한계가 있었다. 이에 반해 LLM은 클러스터 내 문장들을 요약하거나 TF-IDF로 추출된 핵심 키워드를 입력으로 받아 해당 군집을 대표하는 개념을 자연어 형태로 도출할 수 있다.

본 연구에서는 OpenAI API로 제공되는 GPT-3.5 Turbo를 활용하여 각 군집마다 TF-IDF로 추출한 키워드를 입력으로 제공하고, 각 군집의 특징을 담은 군집 레이블 자동 생성을 수행하였다. 이로써 클러스터링 결과의 해석력을 높이고 비즈니스 의사결정에 활용 가능한 의미 기반 분류 체계를 제시하고자 하였다.

Ⅲ. 텍스트 임베딩 기반 클러스터링 및 해석 구현

3-1 데이터셋 소개

본 연구에서는 국내 온라인 커피 유통 전문 기업인 ‘W사’ 로부터 2024년 11월에 제공받은 커피 리뷰 데이터를 활용하였다. 해당 데이터는 커피 전문 리뷰어들이 다양한 커피 제품을 시음한 후 작성한 리뷰로, 각 제품의 맛과 향, 후미, 바디감 등 감각적 특성에 대한 주관적 평가가 자유롭게 서술된 텍스트로 구성되어 있다. 전처리가 완료된 최종 데이터셋은 총 1,781개의 행과 3개의 열로 구성되어 있으며, 주요 변수로는 제품명(커피명)과 리뷰 내용이 포함되어 있다. 데이터는 불용어 및 결측치 등의 텍스트 정제 과정을 거친 후 분석에 활용하였다. 리뷰 내용 하나의 글자수는 평균 약 231자, 최대 432자이다. 표 1은 분석에 사용된 데이터셋의 일부 예시를 제시한다.

Table 1.

Sample of the dataset

3-2 분석 절차 및 구현 방법

본 연구의 분석은 pandas, numpy, scikit‑learn, umap‑learn, sentence‑transformers, OpenAI Python 라이브러리로 구현되었다. 먼저, 전처리된 1,781건의 커피 리뷰 텍스트를 네 가지 사전학습 문장 임베딩 모델을 통해 각각 고차원 벡터로 변환하였다. 각 모델의 종류와 출력 차원 수는 표 2에 제시되어 있다.

Fig. 1.

Research workflow diagram

Table 2.

Types of embedding models used and output dimensions

고차원 임베딩 벡터를 2차원으로 축소하기 위해 UMAP을 적용하였다. 고차원 공간 내 지역적·전역적 구조를 최대한 보존하면서 저차원에서 군집 간 경계를 시각적으로 식별할 수 있도록 하였다. UMAP은 전역 구조 보존에 강점을 가지고 있어 군집 간의 상대적 거리나 분포 양상을 해석하는 데 효과적이다. 이렇게 얻어진 2차원 좌표에 대해 K‑means 알고리즘을 적용하여 클러스터링을 수행하였다. 군집 수 k를 2에서 10까지 변화시키며 Silhouette Score, CH Index, DB Index와 군집 내 분산을 함께 고려하는 엘보우 기법을 통해 최적의 k 값을 도출함으로써 각 임베딩 모델별로 클러스터링 성능을 정량적으로 평가하였다.

Silhouette Score는 각 샘플이 속한 군집 내 응집도와 인접 군집과의 분리도를 동시에 고려하여 –1에서 +1 사이의 값을 갖는다. 값이 1에 가까울수록 군집 내 유사도는 높고 군집 간 분리가 잘 이루어졌음을 의미한다. CH Index는 군집 간 분산과 군집 내 분산의 비율을 기반으로 산출되며 값이 클수록 군집 간 거리가 멀고 내부 응집도가 높아 바람직한 군집 구조임을 나타낸다. 마지막으로 DB Index는 각 군집의 크기와 군집 간 거리를 고려하여 군집 쌍 간 유사도를 측정하며 값이 작을수록 이상적인 군집을 형성했음을 의미한다.

마지막으로, 최적의 k 값에서 형성된 각 군집에 대해 자동 명명 과정을 수행하였다. 우선 각 클러스터에 속한 리뷰를 하나의 문서로 결합한 뒤, Counter를 이용하여 모든 군집에서 등장 빈도가 높은 상위 15개 단어를 불용어 처리하였다. 이후 TfidfVectorizer를 이용하여 각 클러스터 문서별 TF‑IDF 행렬을 계산하고, TF‑IDF 가중치가 높은 상위 20개 키워드를 추출하였다. 추출된 키워드는 클러스터의 대표성을 지니는 핵심 단어로 간주되며 이후 LLM에 투입되는 주요 입력으로 사용되었다. 이 과정은 주관적 판단 없이 통계적 기준에 따라 이루어져 해석의 일관성과 객관성을 높이는 데 기여하였다. 추출된 키워드 리스트는 표 3과 같은 형식의 프롬프트로 OpenAI API를 통해 GPT‑3.5 Turbo 모델에 전달되었다. 응답 생성의 무작위성을 제어하기 위해 temperature 값을 0으로 설정하여 일관된 출력을 확보한 뒤 이를 바탕으로 각 군집에 대한 명명 과정을 자동화하였다.

Table 3.

Example prompts

Ⅳ. 연구 결과

4-1 클러스터링 성능 비교

본 연구에서는 커피 리뷰 텍스트를 대상으로 네 가지 사전학습 문장 임베딩 모델을 각각 적용하여 텍스트를 고차원 벡터로 임베딩한 뒤, UMAP을 통해 2차원으로 차원 축소하고 K-means 클러스터링을 수행하였다. 클러스터 수 k는 2부터 10까지 변화시키며 Silhouette Score, CH Index, DB Index를 산출하여 각 임베딩 모델의 군집 형성 품질을 정량적으로 비교하였다.

분석 결과, BGE-m3-Ko 모델은 k=5에서 Silhouette Score 0.4581, CH Index 2795.71, DB Index는 0.6870으로, 세 지표에서 최적값을 기록하였다. 이는 BGE-m3-Ko가 한국어 문장의 의미를 정교하게 표현할 수 있도록 설계된 모델로 한국어 리뷰 데이터를 효과적으로 임베딩하고 군집화 하는 데 적합함을 시사한다. KR-SBERT 모델은 k=4에서 Silhouette Score 0.3969, CH Index 1690.24, DB Index 0.8369의 성능을 보였다. 다만 실루엣 점수 및 타 지표에서 BGE-m3-Ko에 미치지 못했으며 전체 지표의 안정성 측면에서도 BGE-m3-Ko보다 다소 낮은 평가를 받았다. distilUSE 모델은 k=3에서 Silhouette Score 0.4247을 기록했으나 다른 지표들과의 균형 측면에서는 BGE-m3-Ko와 비교하였을 때 부족함이 있었다. text-embedding-3-small은 다국어를 기반으로 학습된 대규모 임베딩 모델로서 높은 표현력을 보유하고 있는 모델로 k=6에서 Silhouette Score 0.4107을 보였으나, 여전히 BGE-m3-Ko 보다 낮은 성능을 나타냈다.

이러한 실험 결과를 종합하면, BGE-m3-Ko는 Silhouette Score, CH Index, DB Index의 세 가지 평가 지표 모두에서 안정적이며 우수한 성능을 나타냈고 클러스터링 결과 역시 시각적으로 군집 간 경계가 명확하게 형성되었으며 해석 가능성도 높았다. 따라서 본 연구에서는 BGE-m3-Ko를 최종 임베딩 모델로 선택하여 후속 분석인 군집 해석 및 명명 작업을 수행하였다.

BGE‑m3‑Ko 모델이 다른 임베딩 모델에 비해 상대적으로 우수한 클러스터링 성능을 보인 이유는 한국어에 특화된 사전학습 구조와 다양한 의미 유사도 태스크 기반의 학습에 있다고 볼 수 있다. 또한 XLM‑RoBERTa 기반의 사전학습 구조를 바탕으로 검색 및 재현 태스크에 최적화되었다. 이러한 점에서 BGE‑m3‑Ko는 텍스트 군집화와 같은 고차원 의미 공간 분석 작업에 높은 표현력과 정밀도를 제공한다. 이와 같은 결과는 문장 임베딩 기법의 선택이 클러스터링 성능에 결정적인 영향을 미친다는 점을 보여주며, 분석 목적과 데이터의 언어적 특성에 맞는 임베딩 모델을 전략적으로 선택하는 것이 비정형 텍스트 데이터 분석의 핵심이라는 점을 시사한다.

Table 4.

Performance metrics of BGE-m3-Ko

Table 5.

Performance metrics of KR-SBERT

Table 6.

Performance metrics of distilUSE

Table 7.

Performance metrics of text-embedding-3-small

본 연구에서는 최종적으로 BGE‑Ko 임베딩 모델을 선택한 뒤, 해당 모델로부터 생성된 고차원 벡터를 UMAP으로 2차원에 투영하고 K‑means 클러스터링을 수행하였다. 최적의 군집 수 k를 결정하기 위해 먼저 Silhouette Score를 확인한 결과, k=5에서 Silhouette Score(0.4581)가 가장 높게 나타났다. 이어서 Elbow 차트(그림 2)를 확인한 결과, Inertia의 감소 폭이 k=5 이후 완만해지는 지점이 관찰되어 두 기법이 모두 k=5를 지지함을 확인하였다. 이후 k=5로 설정하여 군집 결과에 색상을 입힌 K‑means 군집화 시각화(그림 3)를 통해 각 군집이 서로 명확히 분리되고 군집 내 응집도가 유지됨을 직관적으로 확인하였다.

Fig. 2.

Elbow chart

Fig. 3.

Visualization of clustering result

4-2 LLM을 활용한 군집 해석 결과

K-means 클러스터링으로 형성된 다섯 개 군집에 대해 본 연구에서는 TF‑IDF 기반 키워드 추출과 GPT‑3.5 Turbo 모델을 연계하여 자동 명명 작업을 수행하였다. 먼저, 각 군집에 속한 리뷰들을 하나의 문서로 결합하고 전체 군집 문서를 통합하여 상위 15개 고빈도 단어를 불용어로 지정하였다(예: 맛, 향, 좋은, 약간의, 플레이버 등). 이후 TfidfVectorizer를 이용해 군집 문서별 TF‑IDF 행렬을 계산하고 각 군집에서 TF‑IDF 값이 높은 상위 20개 키워드를 추출하였다. 추출된 키워드는 표 3과 같이 “클러스터 ID는 다음 키워드들이 특징입니다: ⋯”의 형식으로 구성된 프롬프트에 삽입되어 OpenAI의 GPT‑3.5 Turbo 모델에 입력되었다. 일관된 응답 생성을 유도하기 위해 하이퍼파라미터 temperature는 0으로 설정하였으며 이를 통해 반복 실행 시에도 일관된 명칭이 도출되도록 하였다. 이와 같은 절차를 통해 생성된 군집 명칭은 표 8에 제시되어 있으며 각 클러스터의 향미 특성을 직관적으로 반영하고 있다.

Table 8.

Automatic cluster naming results using GPT-3.5 Turbo

예를 들어, Cluster 0은 메이플, 허브, 시럽 등의 키워드를 중심으로 달콤한 허브향과 은은한 산미가 어우러진 향미 특성을 나타내며, 이에 따라 “메이플 허브 뉘앙스 클러스터”라는 이름이 생성되었다. Cluster 1은 와인, 과일, 카카오, 복합적인 등의 키워드가 주를 이루며 복합적인 과일향과 와인 계열의 풍미, 카카오의 깊은 여운이 어우러진 향미 구조를 특징으로 하여 “다채로운 향미와 뉘앙스를 담은 와인의 아로마”로 명명되었다. 이와 같은 자동화된 명명 결과는 각 군집의 향미적 특성을 자연어로 직관적으로 전달할 수 있게 함으로써 군집 해석의 효율성과 실용성을 동시에 향상시킬 수 있음을 보여주었다.

초기 실험에서는 불용어를 지정하지 않았으나, 군집 간 표현의 중복으로 각 군집의 차별적 특성을 충분히 부각하지 못하는 문제가 발생하였다. 이에 TF‑IDF 기반 키워드 추출 방식을 도입하여 모든 군집에 포함되는 공통어를 제거하고 고유 키워드를 강조함으로써 LLM이 보다 뚜렷하고 개성 있는 군집 주제를 명명할 수 있었다. 이와 같이 LLM 기반 군집 해석 절차는 비정형 텍스트 분석 결과를 자연어로 직관적으로 전달할 뿐만 아니라 생성된 군집명이 마케팅 메시지와 제품 네이밍에 즉시 활용 가능한 실용적 인사이트를 제공함을 확인하였다.

Ⅴ. 결론 및 제언

본 연구는 커피 제품에 대한 리뷰 텍스트를 임베딩하고 의미 기반 유사성에 따라 군집화한 뒤, 대규모 언어 모델(LLM)을 활용하여 각 군집의 의미를 담은 이름을 명명하는 자동화된 텍스트 분석 프레임워크를 제안하였다.

이를 위해 BGE-m3-Ko, KR-SBERT, distilUSE, text-embedding-3-small 네 가지 문장 임베딩 모델을 활용하여 리뷰 텍스트를 벡터화하고, UMAP을 통해 차원을 축소한 후 K-means 알고리즘으로 클러스터링을 수행하였다. 클러스터링 성능은 Silhouette Score, CH Index, DB Index를 활용하여 비교 분석하였으며, BGE-m3-Ko 모델이 전반적으로 가장 우수한 군집 형성 성능을 나타냈다. 또한 각 군집에 대해 대표 키워드를 기반으로 GPT-3.5 Turbo 모델을 활용한 군집 명명 작업을 수행함으로써, 클러스터링 결과의 의미 전달력과 실용성을 동시에 확보하였다.

본 연구의 학문적 시사점은 다음과 같다. 첫째, 기존 소비자 리뷰 분석이 주로 정량적 지표나 키워드 기반 분석에 의존하던 방식에서 벗어나, 생성형 AI(LLM)를 활용한 정성적 해석 기법을 결합함으로써 정량-정성 융합 분석의 가능성을 제시하였다. 둘째, 복잡하고 주관적인 비정형 리뷰 데이터를 자동으로 클러스터링하고 그 의미를 자연어로 요약·명명하는 프롬프트 기반의 분석 프레임워크를 제안함으로써, 후기 기반 소비자 인식 분석의 방법론적 확장을 시도하였다.

사회적 시사점 측면에서는 다음과 같은 점에서 기여할 수 있다. 첫째, 감각적 표현이 풍부한 소비자 리뷰를 기반으로 유사한 제품을 자동으로 분류하고, 그 특징을 일반 사용자도 이해할 수 있는 방식으로 표현함으로써 소비자 맞춤형 추천 시스템이나 제품 개발 기획에 실질적인 인사이트를 제공할 수 있다. 둘째, 자동 생성된 군집명이 마케팅 실무자나 기획자에게 직관적인 정보를 제공함으로써 데이터 기반 마케팅 전략 수립을 효율화할 수 있는 도구로 활용될 수 있다.

하지만 본 연구는 특정 기업으로부터 제공받은 커피 리뷰 데이터를 대상으로 하였기 때문에 다양한 브랜드 및 일반 소비자 리뷰로 확장할 경우, 모델 성능과 해석 결과가 달라질 수 있다는 한계가 존재한다. 또한 군집의 개수를 사전 정의해야 하는 K-means 알고리즘의 특성상, 군집 수 설정에 따른 민감도가 존재하며 향후에는 DBSCAN, HDBSCAN 등 밀도 기반 클러스터링 기법을 함께 비교할 필요가 있다. 마지막으로, LLM을 활용한 군집 해석 과정은 프롬프트 설계에 민감하게 반응하므로 해석 일관성과 재현 가능성을 확보하기 위한 정교한 프롬프트 최적화 기법에 대한 추가 연구가 요구된다.

향후 연구에서는 보다 다양한 텍스트 임베딩 및 클러스터링 기법의 조합을 실험하고 군집 해석 자동화의 정량적 평가 기준을 마련함으로써 감성적 제품 리뷰에 대한 분석 프레임워크의 일반화 가능성을 높일 수 있을 것이다.

Acknowledgments

이 논문은 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원(RS-2023-00242528, 50%)과 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원-지역지능화혁신인재양성사업의 지원을 받아 수행된 연구임(IITP-2025-RS-2022-00156287, 50%).

References

C. Zachlod, O. Samuel, A. Ochsner, and S. Werthmüller, “Analytics of Social Media Data – State of Characteristics and Application,” Journal of Business Research, Vol. 144, pp. 1064-1076, May 2022. [https://doi.org/10.1016/j.jbusres.2022.02.016]
M. Iannario, M. Manisera, D. Piccolo, and P. Zuccolotto, “Sensory Analysis in the Food Industry as a Tool for Marketing Decisions,” Advances in Data Analysis and Classification, Vol. 6, pp. 303-321, October 2012. [https://doi.org/10.1007/s11634-012-0120-4]
M. Jung and M. Song, “KoSentEval: A Study of Korean Sentence Embedding Evaluation,” Journal of Intelligence and Information Systems, Vol. 30, No. 1, pp. 179-199, March 2024. [https://doi.org/10.13088/jiis.2024.30.1.179]
D. J. Kim, H. R. Lee, and G. J. Lee, “A Study on the Research Trends in Domestic Economic Education Using BERT-Based Text Embedding and Clustering,” Journal of Learner-Centered Curriculum and Instruction, Vol. 22, No. 18, pp. 931-947, September 2022. [https://doi.org/10.22251/jlcci.2022.22.18.931]
A. J. Preiss, C. A. Arbeit, A. Berghammer, J. Bollenbacher, J. V. McCarthy, M. G. Brom, ... and S. Straughn, “Evaluation of Text Cluster Naming with Generative Large Language Models,” Journal of Data Science, Vol. 22, No. 3, pp. 376-392, August 2024. [https://doi.org/10.6339/24-jds1149]
T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient Estimation of Word Representations in Vector Space,” arXiv:1301.3781, , September 2013. [https://doi.org/10.48550/arXiv.1301.3781]
J. Pennington, R. Socher, and C. Manning, “GloVe: Global Vectors for Word Representation,” in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, pp. 1532-1543, October 2014. [https://doi.org/10.3115/v1/d14-1162]
P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, “Enriching Word Vectors with Subword Information,” Transactions of the Association for Computational Linguistics, Vol. 5, pp. 135-146, June 2017. [https://doi.org/10.1162/tacl_a_00051]
J. Devlin, M. Chang, K. Lee, and K. Toutanova, “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, MN, pp. 4171-4186, June 2019. [https://doi.org/10.18653/v1/n19-1423]
M. Sao and H.-J. Lim, “MIRoBERTa: Mental Illness Text Classification with Transfer Learning on Subreddits,” IEEE Access, Vol. 12, pp. 197454-197466, December 2024. [https://doi.org/10.1109/access.2024.3522465]
N. Reimers and I. Gurevych, “Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Hong Kong, China, pp. 3982-3992, November 2019. [https://doi.org/10.18653/v1/d19-1410]
Y. Jang, J. Son, C. Park, S. Choi, B. Lee, T. Lee, and H. Lim, “KoE5: A New Dataset and Model for Improving Korean Embedding Performance,” Annual Conference on Human and Language Technology, pp. 239-244, October 2024.
Snunlp. KR-SBERT Model [Internet]. Available: https://github.com/snunlp/kr-sbert, .
J. Chen, S. Xiao, P. Zhang, K. Luo, D. Lian, and Z. Liu, “M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings through Self-Knowledge Distillation,” in Findings of the Association for Computational Linguistics: ACL 2024, Bangkok, Thailand, pp. 2318-2335, August 2024. [https://doi.org/10.18653/v1/2024.findings-acl.137]
N. Reimers and I. Gurevych, “Making Monolingual Sentence Embeddings Multilingual Using Knowledge Distillation,” arXiv:2004.09813, , October 2020. [https://doi.org/10.48550/arXiv.2004.09813]
OpenAI. New Embedding Models and API Updates [Internet]. Available: https://openai.com/index/new-embedding-models-and-api-updates/
L. McInnes, J. Healy, N. Saul, and L. Großberger, “UMAP: Uniform Manifold Approximation and Projection,” Journal of Open Source Software, Vol. 3, No. 29, 861, September 2018. [https://doi.org/10.21105/joss.00861]
W. Hu, D. Xu, and Z. Niu, “Improved K-Means Text Clustering Algorithm Based on BERT and Density Peak,” in Proceedings of 2021 2nd Information Communication Technologies Conference (ICTC), Nanjing, China, pp. 260-264, May 2021. [https://doi.org/10.1109/ICTC51749.2021.9441505]
P. W. Lee, Y. Y. Hwang, J. S. Choi, and Y. T. Shin, “Multi-Document Summarization Method of Reviews Using Word Embedding Clustering,” The Transactions of the Korea Information Processing Society, Vol. 10, No. 11, pp. 535-540, November 2021. [https://doi.org/10.3745/KTSDE.2021.10.11.535]
N. Kim, S. Kim, and J. Kang, “Analysis of National Research and Development Trends Using LangChain, and Clustering of Research Outcomes: Focused on the NTIS Tourism Industry,” The Journal of Society for e-Business Studies, Vol. 29, No. 2, pp. 93-115, May 2024. [https://doi.org/10.7838/jsebs.2024.29.2.093]

저자소개

임수린(Surin Im)

2023년：광주교육대학교 초등교육과 (학사)

2023년～현 재: 전남대학교 데이터사이언스대학원 석사과정

※관심분야：빅데이터 분석, 텍스트 마이닝

임회정(Hoi-Jeong Lim)

1988년：이화여자대학교 수학교육과 (이학사)

1994년：Columbia University in the City of New York (MS. Biostatistics)

2000년：Columbia University in the City of New York (Ph.D. Biostatistics)

1998년～2000년: Biostatistician, Neurological Institute of New York

2001년～2004년: Post-doc, Seoul National University School of Medicine

2005년～2022년: 전남대학교 치의학전문대학원 교수

2022년～현 재: 전남대학교 데이터사이언스 대학원 교수, 공공데이터분석센터 센터장

※관심분야：자연어처리, 빅데이터분석 등

Coffee name	Review content
*Since the dataset used in this study consists of Korean text, the contents are inevitably displayed in Korean.
Calera Pacamara Washed 2019	메이플 시럽 뉘앙스의 달콤함이 인상적으로 치고 올라오다 점차 차분해지는 모습을 보이며, (중략) 상당히 좋은 구조감과 밸런스를 바탕으로 잔잔한 산미가 잘 어우러진 초콜릿의 여운이 감미롭습니다.
Berg Wu Selection Woreda Natural	크랜베리, 자두, 포도주스 같은 과일의 아로마와 히비스커스, 장미를 연상케 하는 플로럴 함이 와인의 캐릭터로 선명해집니다. (중략) 다크 초콜릿과 흑설탕 캐러멜의 단맛이 좋은 바디감으로 전달되지만 전개되는 흐름은 다소 거칠게 느껴집니다. 식어갈수록 와인의 후미가 강하게 자리 잡습니다.
Castellon Jairo Arcila Gesha	약간의 플로럴 노트를 더한 짙은 홍차의 아로마는 얼그레이 뉘앙스를 선명히 보여주며 독특한 애플민트의 향을 끝자락에 남깁니다. (중략) 은은한 시트러스 노트가 만들어내는 감귤주스의 달콤함이 인상적입니다.

Model name	Model identifier	Output dimension
BGE-m3-Ko	dragonkue/BGE‑m3‑ko	1024
KR-SBERT	snunlp/KR‑SBERT‑V40K‑klueNLI‑augSTS	768
distilUSE	sentence‑transformers/distiluse‑base‑multilingual‑cased‑v1	512
text-embedding-3-small	OpenAI API model text-embedding-3-small	1536

k	Silhouette Score	CH Index	DB Index
2	0.6172	1311.7667	0.3782
3	0.4419	1912.2706	0.7240
4	0.4558	2461.6746	0.7107
5	0.4581	2795.7129	0.6870
6	0.4268	2732.3306	0.7341
7	0.4206	2795.3228	0.7298
8	0.4042	2769.1921	0.7875
9	0.4124	2806.8838	0.7452
10	0.4095	2902.0498	0.7760

k	Silhouette Score	CH Index	DB Index
2	0.3770	1309.0688	1.0736
3	0.3908	1490.1923	0.8656
4	0.3969	1690.2419	0.8369
5	0.3855	1675.5618	0.8245
6	0.3762	1637.5790	0.8473
7	0.3849	1759.4771	0.7858
8	0.3665	1667.1932	0.8364
9	0.3528	1632.6744	0.8658
10	0.3666	1732.9076	0.8208

k	Silhouette Score	CH Index	DB Index
2	0.3524	1047.9730	1.1930
3	0.4247	1711.4194	0.7864
4	0.3935	1673.0330	0.8191
5	0.3855	1729.6588	0.8693
6	0.4054	1832.8558	0.7761
7	0.3892	1793.2563	0.8006
8	0.3763	1791.9897	0.8020
9	0.3676	1804.9138	0.8129
10	0.3507	1785.5474	0.8789

k	Silhouette Score	CH Index	DB Index
2	0.3781	1377.8057	1.0513
3	0.3785	1396.4684	0.9138
4	0.3950	1475.2397	0.8045
5	0.4071	1668.9585	0.7692
6	0.4107	1786.7568	0.7603
7	0.3996	1808.2714	0.7915
8	0.3805	1726.1486	0.8027
9	0.3872	1849.5125	0.7718
10	0.3821	1882.1868	0.7954

Cluster	Review example	Cluster naming
*Since both the review text data and the output of the GPT-3.5 Turbo model are in Korean, the contents are inevitably displayed in Korean.
Cluster 0	<Example Review> 메이플 시럽 뉘앙스의 달콤함이 인상적으로 치고 올라오다 점차 차분해지는 모습을 보이며, 골드메달 애플주스를 연상케 하는 말린 사과와 루이보스를 약간 섞어 우려낸 티의 플레이버가 흥미롭습니다. 상당히 좋은 구조감과 밸런스를 바탕으로 잔잔한 산미가 잘 어우러진 초콜릿의 여운이 감미롭습니다.	메이플 허브 뉘앙스 클러스터
Cluster 1	<Example Review> 크랜베리, 자두, 포도주스 같은 과일의 아로마와 히비스커스, 장미를 연상케 하는 플로럴 함이 와인의 캐릭터로 선명해집니다. 초콜레티한 질감과 함께 라즈베리의 선명한 산미가 쥬이시하게 혀를 스치고 난 후 남아있는 장미차의 플레이버가 상당히 인상적입니다. 다크 초콜릿과 흑설탕 캐러멜의 단맛이 좋은 바디감으로 전달되지만 전개되는 흐름은 다소 거칠게 느껴집니다. 식어갈수록 와인의 후미가 강하게 자리 잡습니다.	다채로운 향미와 뉘앙스를 담은 와인의 아로마
Cluster 2	<Example Review> 약간의 플로럴 노트를 더한 짙은 홍차의 아로마는 얼그레이 뉘앙스를 선명히 보여주며 독특한 애플민트의 향을 끝자락에 남깁니다. 본격적으로 우러난 얼그레이와 재스민의 화사한 홍차 뉘앙스가 지배적이며, 무엇보다 크리미 하게 전해지는 매끄러운 질감을 타고 은은한 시트러스 노트가 만들어내는 감귤주스의 달콤함이 인상적입니다.	진한 향미의 얼그레이 티
Cluster 3	<Example Review> 2017 온두라스 C.o.E에서 Parainema 품종으로 첫 출전과 동시에 우승을 거머쥔 El Laurel농장의 커피입니다. (중략) 레몬캔디, 자몽 등 시트러스계열의 밝고 생기 넘치는 산미가 폭발적입니다. 굉장히 깔끔한 홍차의 여운을 남기며 레몬청을 닮은 입체감있는 산미와 열대과일의 단맛의 조합이 훌륭합니다. 후반부로 갈수록 안정감을 더해가는 단맛의 지속력이 특징적입니다. 에스프레소보다는 필터커피용으로 추천드립니다.	수상경력을 보여주는 산미톤의 진한 뉘앙스
Cluster 4	<Example Review> 약간의 허브 향이 동반되는 밀크캐러멜과 연유의 달콤한 아로마, 통아몬드 캔디 뉘앙스의 흥미로운 아로마는 물을 붓자 진한 포도 주스의 아로마를 보여줍니다. 황설탕 시럽과 잘 어우러진 사과산의 산미톤이 부드럽게 골드메달 애플주스를 연상케 하며 향긋한 플레이버들을 엮어놓는 시러피한 질감이 인상적입니다. 밀크캐러멜의 달콤함이 어느새 초콜릿 톤으로 좋은 여운을 남기는데 후미에 점차 허브와 견과류 뉘앙스가 도드라지는 모습입니다.	달콤한 허브 아로마