[ Article ]

Journal of Digital Contents Society - Vol. 24, No. 7, pp.1617-1627

ISSN: 1598-2009 (Print) 2287-738X (Online)

Print publication date 31 Jul 2023

Received 24 Jun 2023 Revised 10 Jul 2023 Accepted 14 Jul 2023

DOI: https://doi.org/10.9728/dcs.2023.24.7.1617

인공지능 기반 고객 이탈 예측 기술 동향 및 발전방향

서영정^*

LG전자 CDO부문 책임연구원

Trends and Future Directions in Artificial Intelligence-based Customer Churn Prediction Technology

Young-Jung Suh^*

Chief Digital Officer, LG Electronics Inc, Yeongdeungpo-gu, Seoul 07336, Korea

Correspondence to: ^*Young-Jung Suh E-mail: youngjung.suh@gmail.com

Copyright ⓒ 2023 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

고객 이탈 예측은 선진국 주요 기업들의 치열한 경쟁 시장에서 살아남기 위한 주요 전략 중 하나가 되었다. 빅데이터 기술 성장 및 확산으로 기업은 방대하고 다양한 고객 데이터에 접근 가능하게 되었다. 또한, 기계 학습 기술의 빠른 성장으로 기업은 빅데이터를 훨씬 더 효과적이고 체계적인 방식으로 활용하여 고객 이탈을 해결할 수 있다. 본 논문에서는 마케팅, IT, 통신, 금융, 게임 등의 다양한 비지니스 분야에서 사용되는 이탈 예측 기술들을 분석하였다. 이를 바탕으로 기업이 비즈니스 측면에서 실전 이탈 예측 모델링 적용을 위해서 라벨링에서부터 실제 서빙되는 모델의 추론 성능 지표까지 고려가 필요한 기술적 요소들에 대한 발전 방향을 제시하고자 한다.

Abstract

Customer churn prediction has emerged as a pivotal strategy for survival in the fiercely competitive markets of major companies in developed countries. With the growth and spread of big data technology, companies have access to vast and diverse customer data. Additionally, the rapid growth of machine learning technologies has enabled companies to leverage big data in a significantly more effective and systematic way to address customer churn. In this study, we analyzed churn prediction technologies used in various business fields, such as marketing, IT, telecommunications, finance, and games. Based on this, for companies to apply practical churn prediction modeling in terms of business, we have suggested future directions for technical factors that need to be considered, from labeling to inference performance indicators of models actually served.

Keywords:

Digital Technology, Big Data Analysis, Machine Learning, Customer Churn Prediction, Customer Retention Management

키워드:

디지털 기술, 빅데이터 분석, 머신러닝, 고객 이탈 예측, 고객 유지 관리

Ⅰ. 서 론

고객 이탈이란 고객이 제품이나 서비스를 제공하는 회사와의 관계를 종료하는 것을 의미하며, 이탈 예측은 어떤 고객이 서비스 구독을 떠나거나 취소할 가능성이 있는지 감지하는 것을 의미한다. 고객 이탈 예측은 선진국 주요 기업들의 치열한 경쟁 시장에서 살아남기 위한 주요 전략으로 오늘날 가장 중요한 마케팅 캠페인 중 하나가 되었다.

기업의 경쟁력 강화를 위해 신규 고객 확보, 기존 고객에 대한 매출 증대, 그리고 고객 유지 기간 연장이라는 3가지 주요 전략이 제안되었다[1]. 그러나 각각의 투자수익률(ROI) 가치를 기준으로 이 세 가지 전략의 중요도를 비교한 결과 세 번째 전략이 가장 수익성이 높은 것으로 나타났다[1]-[3]. 세 번째 전략을 통해 기업 경쟁력을 강화하기 위해서는 먼저 고객 이탈을 예측하여 이탈 가능성을 줄여 기업은 경제적 이익을 가져와야 한다[7]. 이와 관련된 연구들에서는 고객 유지 비용이 신규 고객 유치 비용보다 낮다고 주장하며 고객 유지 전략의 필요성을 강조하고 있다[4],[5],[8],[9].

과거에 회사는 이탈률의 원인을 이해하려고 노력했고 사후 조치 계획을 통해 이러한 요인을 해결하였다. 특정 고객이 회사를 떠날 가능성이 있는지 사전에 평가하기 위해 기업은 기계 학습 기반 고객 이탈 예측 모델을 전략적으로 사용하여 적시에 적절한 조치를 취하여 고객 이탈을 방지할 수 있다. 고객 이탈 예측에 대한 연구는 지난 수십 년간 통신사와 금융 분야를 중심으로 이루어졌다[10]-[13],[18]-[24].

기업에서 수집한 방대하고 다양한 고객 구독 데이터는 후속 조치에서 선제적 전략으로 전환하는 데 크게 기여할 수 있다. 기계 학습 기술의 출현으로 기업은 이 풍부한 데이터를 사용하여 훨씬 더 효과적이고 체계적인 방식으로 고객 이탈을 해결할 수 있었다. 또한, 이탈 예측 모델을 구축하는 추세가 변화하고 있으며 성능이 빠르게 향상되고 있다. 이러한 이탈에 대한 새로운 연구를 시작하는 데 도움이 되도록 여러 산업/학문 분야에서 세분화되어 활용되고 있는 파편화된 연구들을 예측 모델링의 학문적 카테고리에 기반하여 기존 문헌들을 잘 요약 분석하는 연구 활동도 있다[25].

본 논문에서는 최근 이탈 예측의 비즈니스 필드, 모델링 기술, 이탈 요인 추정을 위한 모델의 설명력 및 수익 측면의 성능지표에 대한 연구 동향을 분석 및 고찰한다[11],[26],[28]-[32]. 특히, 기업이 비즈니스 측면에서 실전 이탈 모델링 적용을 위해서 어떠한 기술적 요소들이 고려되어야 하는지에 대한 관점에서 방향제시를 한다. 구체적으로는 마케팅, IT, 통신, 금융 및 게임 분야의 실제 이탈 예측 모델의 개발 및 적용에 필요한 이탈의 정의, 이탈 예측의 정의 및 방법론의 차이점을 설명한다. 본 연구는 이전 조사 논문보다 좀 더 비즈니스의 실전 적용 및 활용의 측면에서 이탈예측에 대한 보다 상세한 기술 방향성에 대한 분류 정보를 제공한다는 의미에서 기여가 있다. 특히 최근 산업의 발전과 함께 등장한 비계약적 고객 이탈을 해결하기 위해 라벨링, 특성공학(Feature Engineering), 모델의 성능 지표, 모델의 설명력, 그리고 모델의 추론 대상 및 성능 지표에 관한 방향성을 제시한다.

본 논문의 구성은 다음과 같다. 2장에서는 고객 이탈 예측 모델링 기술적 관점에서의 선행 연구 내용을 설명하고, 다양한 비즈니스 영역에서의 이탈 적용 사례를 제시한다. 3장은 실전 이탈 예측 모델링을 위해 고려해야 할 필수적 기술요소들을 설명한다. 4장에서는 결론 및 제언으로 마무리한다.

Ⅱ. 선행 연구 분석

본 장에서는 이탈 예측을 위한 선행 연구 분석을 크게 두 가지로 나누어 설명한다. 우선, 이탈 예측을 위한 기술적 방법론에 관한 기존 연구들의 조사 분석 내용을 소개하고, 다음으로 각 비즈니스 분야에서의 이탈 예측 모델링 연구 내용을 설명한다.

2-1 이탈 예측을 위한 기술적 방법론

고객 이탈을 예측하는 것은 고객 유지에 중요하며 많은 산업에서 막대한 손실을 방지하는 데 필수적이다. 현재 다양한 영역에서 고객 이탈을 예측하고 예방해야 할 필요성이 증가함에 따라 이를 위해 많은 데이터 마이닝 및 기계 학습 기술이 사용되고 있다[25]. 고객 이탈을 예측할 수 있는 안정적인 모델을 구축하는 것 외에도 기업이 막대한 손실을 피하기 위해 고객을 효율적으로 유지하는 것도 매우 중요하다[14]-[17].

첫째, 고객 유지를 가장 직접적으로 중요한 이슈로 다루는 마케팅 분야의 방법론은 단순한 RFM(Recency, Frequency, and Currency) 모델[27]에서부터 고객 이탈을 예측하는 가장 좋은 방법을 찾는 데 중점을 둔 랜덤 포레스트(Random Forest) 같은 앙상블 머신러닝 방법에 이르기까지 많은 연구가 있다[11],[26],[30]. 기계 학습 방법은 이탈 예측에서 기존의 통계적 방법론을 능가한다[31]. 참고[32]는 트랜잭션 데이터와 인구 통계 정보를 사용하여 설계한 RFM 모델을 기반으로 누가 이탈할 가능성이 있는지 예측하기 위해 비계약(non-contractual) 설정에 대한 이탈 정의를 제안했다. 그들은 83%의 AUC(Area under the receiver operating characteristic curve) 점수를 얻은 로지스틱 회귀, 신경망 및 랜덤 포레스트를 사용하여 모델을 평가했다. 참고[36]은 고객 구매 이력을 이용한 RFM 기반 예측 모델을 개발하고 로지스틱 회귀와 같은 기계 학습 기법을 사용하여 평가했다. 예측 모델의 성능 측정은 상위 1th, 5th, 10th 백분위수에 대한 AUC로 설명되었다.

기술적 난제는 주로 분류 알고리즘의 예측 성능과 클래스 불균형 문제이다. 이전의 연구들에서는 고객 이탈 예측을 위해 단일 분류 방법을 사용했으며, 최근에는 앙상블 기반 분류 알고리즘이 개발되었다[33]-[35]. 최근 참고[36]은 고객 이탈 예측을 위해 클러스터링 및 분류 알고리즘을 완전히 통합한 앙상블 학습 기법을 제안하였다. 분류 모델의 선택은 다른 분류모델과 상관관계가 있거나 성능이 잘 나오지 않는 분류모델을 제거하여 성능을 향상시킬 수 있으며, 대표적인 방법으로 유전자 알고리즘(genetic algorithm)이 제안되었다[37].

또 다른 기술적 난제는 고객 이탈 예측의 클래스 불균형이다[38]. 이를 위해 기존 연구에서는 주로 SMOTE(Synthetic Minority Over-sampling Technique)를 적용하였다[39]-[40]. 최근에는 불균형 데이터를 해결하기 위한 보다 효과적인 방법으로 Hybird resampling 방법이 제안되었다. 참고[41]은 고객 이탈 예측을 위한 새롭고 효과적인 resampling 방법으로 SMOTE-ENN 및 SMOTE Tomek-Links와 같은 방법을 제안하였다.

누가 이탈할 가능성이 있는지 정의해야 하는 비계약적(non-contractual) 설정에서 이탈 예측 연구는 딥 러닝 방법과 기존 기계 학습 알고리즘을 활용하여 뛰어난 예측 성능을 보여준다[42]-[45]. 참고[42]은 소매 부문의 이탈을 예측하기 위해 convolution 신경망과 제한된 Boltzmann 머신의 두 가지 딥 러닝 알고리즘을 비교하였다. 이들 연구 중 일부는 비계약적(non-contractual) 설정이 아닌 이탈 문제에서도 딥러닝 방법을 이용하여 이탈 예측 모델링을 진행하였다. 참고[43]은 이탈 예측을 위한 다변량 시간으로 일일 행동을 모델링하는 일일 이탈 예측 방법을 제안하였다. 통계 모델인 RFM 모델, LSTM(Long Short-Term Memory) 모델, CNN(Convolutional Neural Network) 모델도 이동 통신 데이터 세트에 적용하였다. 참고[45]은 고객 이탈을 예측하기 위해 소매 도메인의 슈퍼마켓 거래 데이터 세트에 딥 러닝 알고리즘을 적용하고 성능을 다른 잘 알려진 이탈 모델링 접근 방식과 비교하였다.

기계 학습 모델에서 특성 선택(feature selection)은 분류 정확도를 향상시키는 데 중요한 역할을 한다. 참고[46]은 데이터를 더 잘 이해하기 위해 특성 선택을 수행하고 데이터 세트의 차원을 줄이기 위해 GSA(gravitational search algorithm)을 적용하였다. 또한 앙상블 학습의 높은 예측력을 사용하여 알고리즘을 최적화하고 더 나은 결과를 얻었다. 또 다른 참고[47]에서는 고객별 소셜 네트워크 분석(Social Network Analysis, SNA) 특징을 고객별로 추출하여 예측 모델에 고객 소셜 네트워크를 활용하였다. 그들은 SNA 기능을 사용하여 AUC 결과에서 좋은 개선을 달성하였다. 외부 데이터 소스의 소셜 네트워크와 같은 고객 정보는 고객에 대한 보다 다양한 관점을 제공하는 데 유용하다.

최근 참고[48]에서는 딥러닝 기반의 고객 이탈 예측 모델을 제안하고, 오토인코더와 비지도 학습 모델을 이용한 예측력의 원인 분석에 대한 연구도 존재한다[49]. 또 다른 참고[21]에서는 이탈 예측 모델에서 특성 추출(feature extraction)의 중요성을 언급했지만 특징을 선택하거나 추출하지 않는 딥러닝 방법이 기존 방법만큼 성공적이라고 제안하였다. 표 1은 이탈 예측 모델링 알고리즘 기법들의 시기에 따른 연구 발전 동향을 보여주고 있다.

Table 1.

Development trends in churn prediction modeling algorithms

2-2 비즈니스 도메인별 이탈 예측 연구

고객 이탈은 주로 통신, 은행, 보험 등 고객이 회사로부터 서비스를 받기 위해 계약을 체결해야 하는 계약 설정(contract settings) 분야와 관련이 있다. 따라서 이러한 계약 설정의 이탈 모델링에서는 계약을 해지하는 고객을 이탈자로 분류하고 서비스를 계속 받는 고객을 비이탈자로 분류한다. 다만 리테일, 게임 등 비계약적 설정(non-contract settings)의 경우 이탈 모델링을 진행하기 전에 이탈의 정의를 명확히 해야 한다. 물론, 계약 설정(contract settings)영역에서도 계약 해지 후 재계약 유무 및 재계약 시점, 그리고 의무약정기간 등의 세부 요건을 고려하여 예측하고자 하는 고객의 ‘이탈’이 무엇인지 사전 정의가 필수적이다[28].

통신 영역에서는 시장 포화로 이동통신 시장이 둔화되고 있고, 최신 스마트폰의 경쟁적 출시로 고객의 약정 탈퇴가 발생하고 있다. 제조사들은 이런 문제를 해결하기 위해 적은 비용으로 고객 유지 전략 수립하여 고객 이탈을 막고자 한다. 고객 이탈 문제를 해결하기 위해서는 신뢰할 수 있는 고객 정보를 수집하고 보다 정확한 고객 이탈 예측 모델을 구축하여 고객의 결정에 영향을 미치는 핵심 요인을 먼저 파악하는 것이 중요하다[10],[66],[73]. 최근 몇 년간 이동통신 산업에서 고객 이탈 관리(Customer Relationship Management, CRM)는 고객 이탈 관리가 중요한 과제로 떠오르고 있다[6]. 이러한 상황에서 이동통신사들은 효과적인 마케팅 전략을 수립하기 위해 기존 고객 데이터에 데이터 마이닝 기법을 적용하여 고객 행동 패턴을 모델링하여 고객 유지에 많은 노력을 기울이고 있다[12],[72]. 최근 해지율과 마케팅비용 문제에 대한 많은 연구가 진행되고 있다. 사업 이익을 몇 배 이상 늘리기 위해 떠날 수 있는 고객을 사전에 분류하고 이를 유지하기 위해 집중적인 마케팅 활동을 한다[12]-[18].

금융권에서는 고객의 과거 금융거래 내역을 분석하여 미래 행태를 예측하고 그 결과를 다양한 CRM 활동 및 신규서비스나 제품 개발에 활용하고 있다. 금융권의 고객 이탈 예측 모델에 대한 기존 연구를 살펴보면 고객이 많은 은행, 증권 및 신용카드 업계를 중심으로 예측 모델에 대한 연구가 진행되었다[20]. 대부분의 선행 연구는 다양한 기계 학습 알고리즘을 적용하여 이탈 예측 성능을 향상시키는 방법을 제시하는 연구[21],[51],[52]와 예측 결과를 이용하여 고객 마이크로 세그먼테이션 및 타겟 마케팅에 활용하는 연구로 분류할 수 있다[22]-[24].

이탈 예측 분석 연구는 게임 분야에서도 활발히 이루어지고 있다. 수익이 높은 유저들의 이탈 예측 기법 및 이탈 예측 프레임워크을 제안되었다[45],[54]. 이탈과 높은 상관 관계가 있는 게임 활동의 세부 변수들을 도출하여 예측력을 높힌 연구들도 있다[55],[56]. 참고[57]은 이탈자 예측을 위해 이탈방지캠페인에 A/B테스트를 적용하는 연구를 진행하였다. 이탈 예측을 위해 생존 분석(Survival Analysis) 기법을 적용하는 연구들도 이루어졌으며[58],[59], 게임 데이터의 특징인 시계열 데이터에 적합한 은닉 마코브 모델(Hidden Markov Model) 기반 연구도 진행되었다[60]. 참고[61]은 게임이용자를 군집화하고 각 집단에 적합한 모델을 적용하는 방법을 제안하였다. 또한 사회적 관계가 사용자 이탈에 미치는 영향에 대한 다양한 연구들이 있다[62]-[64].

한편, 한국에서는 제조 및 판매 비즈니스 모델이 계약 기간 동안 렌탈한 제품의 고장이나 문제를 방지하기 위해 렌탈 사업 모델로 전환하기 위해 정기적인 유지보수 등 모든 노력을 기울였다[67]. 앞서 이동통신 도메인과 관련된 연구[10],[11]에서 언급했듯이 고객 유지 비용은 신규 고객 확보 비용보다 적다[50]. 따라서 기업이 채택한 유지 전략은 가전 렌탈 사업에서도 마찬가지로 중요하게 여겨졌다. 사업 초기에는 신규 고객 유치에 집중해야 하지만, 의무이용기간을 경과한 고객이 많을수록 이탈 위험이 커지므로 집중적인 고객관리가 필요하다. 렌탈 비즈니스 모델이 경쟁력과 지속가능성을 높일 수 있는 가능성에 대한 연구[67] 및 렌탈 서비스 가입자의 특성을 분석하여 고객 이탈 위험을 정량화하는 연구도 제안되기 시작하고 있다[28].

위에서 언급한 고객 이탈에 관심 있는 대부분의 비즈니스 영역(business field)에서는 좋은 특성을 가진 예측 모델이 실제 운영 중인 고객 데이터 중 이탈 위험이 높은 고객을 적중률이 좋은 고객으로 식별하는 데 얼마나 성공적일 수 있는지에 대한 답을 찾는 것이 가장 중요하다. 그것은 이탈 예측모델의 성능 지표를 어떻게 설계하고 반영할 것인지에 대한 문제이다. 그림 1과 같이 이탈을 방지하여 고객 잔존율을 높이려는 회사의 이탈 예측 모델링의 목표에 회사의 판촉 및 광고 비용, 전환률 및 고객의 평생 가치의 요소가 함께 적용되어야 한다[65].

Fig. 1.

Expected revenue and cost for applying the churn prediction model [65]

최근 연구에서는 성능지표를 모델의 컷오프(cut-off)에 대한 의존도 및 리텐션(Retention) 캠페인의 수익률의 고려 여부에 따라 비즈니스 시나리오에 적합한 최선의 선택을 하는 것의 중요성을 언급한다[29]. 성능 지표는 컷오프 종속(cut-off dependent), 컷오프 독립(cut-off independent) 또는 이익 고려 여부에 따라 분류된다. 컷오프 종속 측정의 경우 고객이 이탈자로 분류되는지 여부를 결정하기 위한 임계값을 설정해야 한다. 반면 컷오프 독립 측정은 선택한 임계값 및 작동 조건과 무관하며 AUC는 임계값에 영향받지 않고 임의로 선택한 이탈자가 비이탈자보다 순위가 높을 확률을 추정하는 잘 알려진 메트릭이다. 마지막으로 이익 기반 성과 지표(profit-based metric) 은 대상 리텐션 캠페인 설정의 예상 이익을 고려한다.

이탈에 대한 예상 최대 이익 기준(EMPC)은 유지 캠페인의 비용과 이점을 고려하여 가장 수익성이 높은 고객을 선택할 수 있도록 한다[29]. 표 2는 앞서 언급한 구분 기준에 따른 적용 가능한 성능지표를 요약하여 보여주고 있다.

Table 2.

Classification of performance metrics of churn prediction models

Ⅲ. 실전 이탈 예측 모델링을 위한 필수 요소

3-1 이탈 예측을 위한 라벨링의 적합성

계약 설정(contract settings)과 비계약적 설정(non-contract settings)의 목표변수(target Y)가 다르게 정의되어야 하며, 계약 및 비계약적 설정 모두에서의 기업이 이탈 방지 캠페인을 위해 자사 고객의 ‘이탈’을 무엇이라고 정의할지에 대한 비즈니스 로직의 반영이 필요하다. 계약 설정 영역에서의 이탈의 라벨링은 비즈니스 로직 반영이 수반되지만, 일반적으로 계약해지 또는 회원탈퇴를 ‘이탈’로 정의한다. 하지만, 비계약적 설정에서는 각 비즈니스 도메인별로 적절한 ‘이탈’의 정의가 필수적이다.

고객의 구매를 비즈니스 모델로 가진 기업의 이탈 기준은 한 번이라도 거래를 한 사용자들이 일정 기간 동안 재구매가 없을 경우로 정의한다. 여기서 일정기간은 거래빈도가 잦은 이커머스에서부터 몇 년에 한번 구매가 이루어지는 전자제품회사에 이르기까지 ‘특정 기간’의 정의는 다양할 것이다[47],[53].

금융회사는 고객 규모나 세부 업종(은행, 카드, 증권사 등)에 따라 다양한 목적에 맞는 예측 모델 연구가 이루어진다. 계약설정 및 해지 기준으로 운영되는 금융상품에 대해서는 ‘회원탈퇴’를 기준으로 ‘이탈’을 정의하지만, 비계약 설정의 금융권에서는 각 회사의 고객 세부 구분 기준과 자산 운용 규모, 거래 목적 및 빈도에 따라 어느 정도의 자산 규모의 고객이 어느 정도 기간 동안 해당 자산을 유지할 것인지 등의 요소들을 리텐션 마케팅의 목표에 부합하게 라벨링(Labeling) 해야 한다[20]-[24].

온라인게임의 경우 통신이나 금융과 달리 계약해지를 이탈의 정의로 사용하는 것은 부적절하다. 그 이유는 오랜 기간 동안 게임에 접속하지 않은 사용자 중 명시적 회원탈퇴자는 아주 작은 비율일 수 있기 때문이다. 회원탈퇴를 이탈이라고 정의하면 실질적으로 장기간 게임 활동 자체를 하지 않는 사용자는 대부분 여전히 온라인 회원으로 존재하는 것으로 분류된다. 따라서 비활성 기간을 고려하여 회원 사용자를 이탈자로 식별해야 한다. 또한 비활성 기간을 몇 일로 정의하느냐에 따라 이탈방지의 기대효과가 줄어들거나 방지마케팅을 위한 비용 발생이 초래될 수 있다[65].

3-2 이탈 예측을 위한 특성 추출

각 비지니스 도메인별로 공통적인 특성이 존재하며 이를 참고하는 것은 기본이다. 그러나 자사의 고객 구매, 서비스 활용 이력만을 특성으로 활용하여 예측 모델링의 성능을 높이려는 방식의 한계점을 극복하는 방법에 대한 고려점을 논의하고자 한다. 외부 데이터 소스의 고객 정보를 특성으로 사용함으로써 예측 성능을 향상시킬 수 있는 기회가 열려 있다. 일반적으로 고객 충성도는 회사의 서비스에 대한 만족을 통해 형성되지만 다른 회사의 더 나은 서비스에 대한 매력적인 제안으로 인해 충성도가 낮아질 수도 있다. 즉 고객 이탈을 자극한 다른 외부 요인에 대한 정보를 특성으로 추가 결합한 모델링이 필요하다. 가장 좋은 예는 유사한 제품을 더 낮은 렌탈 비용으로 제공하는 다른 렌탈 서비스 제공업체의 경쟁적인 거래에 고객이 유혹을 받는지의 여부일 것이다. 또한, 특정 제품의 구매 및 구독 이력 등 서비스 계약과 직접 관련된 데이터 외에 실제 제품의 사용 행태 데이터 등을 예측모델링에 특성으로 추가한다면 고객 이탈 예측력을 더욱 높일 수 있다. 더욱이, 외부 데이터 소스의 소셜 네트워크와 같은 고객 정보는 고객에 대한 보다 다양한 관점을 제공하는 데 유용하다. 예를 들어, 한 연구[47]에서는 고객별 소셜 네트워크 분석 특징을 고객별로 추출하여 예측 모델에 고객 소셜 네트워크를 활용함으로써, AUC 결과에서 좋은 개선을 달성하였다. 또 다른 참고[62]-[64] 에서도 소셜 활동과 관련된 요인이 사용자 이탈에 유의미한 영향을 미치는 것으로 나타나 SNS와 같은 외부데이터의 이탈 모델링의 특성으로의 활용의 유용성을 뒷받침한다.

3-3 이탈 예측 모델 성능 지표의 선정

고객 이탈 예측에서 예측 모델의 성능 지표 측면에서 기계 학습을 활용하는 다른 많은 분야와 다른 고려해야 할 요소가 있다. 이탈을 생각하는 고객을 감지하지 못하는 위음성(FN)의 경우 예측 모델이 이탈을 예측할 수 없었던 경우이다. 따라서 이러한 고객은 이탈에 대한 방어 조치 없이 방치 상태로 남게 된다. 이는 이탈을 방지하여 고객 잔존율을 높이려는 회사의 목표에 큰 걸림돌이 된다. 반대로 가양성(FP)의 경우 예측 모델은 떠날 생각이 없는 고객이 떠날 것이라고 잘못 감지한다. 고객은 잘못된 예측으로 인해 프로모션을 통해 일부 보상을 받지만, 회사의 판촉 및 광고는 비용이 발생하므로 목표 크기가 커질수록 지출 비용이 증가한다. 따라서 FP에 해당하는 고객이 많을수록 이탈방지에 따른 기대수익은 감소한다. 우선적 목표는 이탈 예측 모델을 적용하여 예측 모델의 진양성(TP)를 높이거나 FN을 줄여 잔존율을 높이는 것이다. 하지만 이탈 방어를 위한 프로모션 비용에 영향을 미치는 FP를 줄이는 것도 중요하다. 또한 데이터 분석가의 입장에서는 고객 전환율에 영향을 미치는 판촉 효과를 통제하는 것이 불가능하다. 따라서, 기대 가치가 높은 고객 이탈 징후를 감지하는 관점에서 모델의 성능을 평가하는 것이 기대 수익 측면에서 의미 있는 연구방향이다.

3-4 예측 모델의 설명력

이탈 방지 캠페인을 위한 예측 모델의 활용 목적은 이탈 확률 수치가 전부가 아니다. 첫째, 부분의존도(Partial Dependence Plot, PDP)와 같은 모델 독립적 해석 방법(Global Model-Agnostic Methods)를 통하여 모델의 해석력을 확보할 필요가 있다. 일반적인 예측 모델 분류기의 성능은 좋은 이탈 예측 모델의 성능 지표의 한 측면일 뿐이다. 모델의 이해도가 중요하기 때문에 분류기의 해석 가능성도 중요한 속성이다. PDP는 기계 학습 모델의 예측 결과에 대한 하나 또는 두 가지 특성(feature) 들의 한계 효과(marginal effect)를 보여줌으로써 특성변수와 예측된 결과 간의 전역적인 관계를 설명한다[41]. 목표 변수(YN) 각각에 대한 특정 특성 변수의 영향의 정도를 확인할 수 있으며, 분류 모델로 학습하기 전 EDA 과정에서 얻은 분석 결과와의 유사성 확인을 통해 각 특성의 목표 변수와의 경향성을 파악할 수 있다.

둘째, 위에서 설명한 부분의존도(PDP)는 모델이 예측한 결과에 대한 각 변수의 평균 영향력만을 계산할 뿐 개별 고객 간의 편차를 설명할 수 있는 방법을 제공하지 못하는 한계가 있다. 따라서, 단일 인스턴스의 예측 결과의 주요 이탈 요인 도출을 위한 지역적 설명(Local Explanation)에 관한 기술(SHAP 등)을 사용하여 각 고객에게 영향을 미치는 모델 변수의 예측 영향을 식별할 수 있다. SHAP(SHapley Additive ExPlanations)는 Shapley 값으로 합리적인 분포 방법을 결정하기 위해 게임 이론에서 차용한 기법이다[74]. 먼저 현재 예측 모델을 기반으로 순열 중요도를 이용하여 우세한 특징 항목을 도출하고 이렇게 구성된 항목에 대해 SHAP을 기반으로 각 관찰(고객)에 대한 "이탈 확률"에 대한 영향 수치를 계산할 수 있다. SHAP 값을 적용하여 기존 머신러닝 모델로 설명할 수 없는 부분을 해결하고, 사업 담당자의 도메인 지식을 반영하여 고객 이탈의 주요 원인을 추가로 도출할 수 있다. 그리하여, 마케팅 조직은 예측 모델의 결과와 SHAP 결과치를 기반으로 고객별 사전에 예측된 이탈 가능성 및 원인에 대한 정보를 활용함으로써, 개인 맞춤형 이탈방지 활동의 효과성이 높아진다.

3-5 예측 모델의 추론 대상 선정 및 성능 평가

예측 모델의 비지니스 현업에서의 성능을 측정하기 위해서는 대상 고객의 이탈 확률의 추론값의 적절성을 어떻게 평가하는지가 중요하다. 이는, 학습모델의 개발 단계에서의 성능 측정의 문제가 아니라, 예측모델을 기업의 실제 서비스에 적용할 때의 성과측정의 유효성 검증에 관한 이슈를 말한다.

첫쨰, 예측 모델의 성능을 측정하기 위한 테스트 대상 데이터 선정 시 Concept Drift를 고려하여야 한다. Concept Drift는 기계 학습 분야에서 사용되는 용어로 모델링 대상의 통계적 특성이 시간에 따라 변하는 현상을 말한다[75].

먼저 Concept Drift를 고려하여 예측 모델의 성능을 측정하기 위해 사용해야 할 테스트 데이터의 가장 최근 시점을 선택하여야 한다. 다음으로, 모델링할 데이터의 Concept Drift 대한 민감도를 확인하여야 한다[68]. 학습 데이터의 중요한 특성들이 테스트 데이터 대상으로는 유의하지 않을 가능성을 검토하는 과정이다. 특정 시기에 의존적인 특성들 혹은 활용 데이터 원천 컬럼의 범주형 변수의 값 변경 혹은 종류의 확장 가능성 등이 바로 검토 대상이다.

둘째, 이탈 방지 캠페인에 적용되어 운용중인 예측 모델의 방어 전략 실행 관점에서의 성능 지표의 고안이 필요하다. 얼마나 해지 위험도 높은 고객을 잘 선별했는가에 대한 지표를 의미한다. Lift는 데이터 세그먼트에서 클래스의 비율을 비교하고 분류기가 특정 세그먼트에 대해 얼마나 더 잘 예측하는지 결정하는 메트릭이다[69]. 상위 10분위 상승도(TDL)은 상위 10%의 이탈자 비율을 모집단의 이탈자 비율로 나누어 계산한다[70]. EMPC는 유지 캠페인 설정의 예상 이점과 비용을 고려하여, 수익은 올바르게 분류된 인스턴스의 합계에서 잘못 분류된 인스턴스의 합계를 뺀 값으로 계산한다. 또한, EMPC는 캠페인에서 제안을 수락하는 이탈자의 확률과 같은 이익 계산을 위한 매개변수 추정의 불확실성도 고려한다[71]. 그림 2는 EMPC와 AUC 에서 우수한 성능을 보이는 모델들과, 이탈 경향이 가장 높은 고객(즉, 상위 10%)에 초점을 맞추는 TDL에서의 성능의 차이점을 설명한다[29].

Fig. 2.

Average rank of each classifier for each performance metric [29]

따라서 각 비지니스 필드에서 이탈 검출력에 관한 TDL과 EMPC기준 임계치 얼마 이상일 때 회사의 수익을 보장할 수 있는지에 대한 각자의 기준과 지표가 수립되어야 할 것이다. 이는 최근 해지고객의 특성을 가장 많이 반영할 수 있는 학습대상 선정 범위와 이탈 방지 캠페인 활동을 실시하기 위해 얼마의 기간 전에 이탈할 고객을 추론해야 하는지에 대한 학습 및 추론 주기 선정의 문제와도 관련이 된다. 실제 이탈 캠페인 운영체제에서는 예측 대상의 수와 예측 주기에 따라 예측 정확도가 달라지기 때문에 이러한 차이에 대한 고려가 필요하다.

Ⅳ. 결론 및 제언

본 논문에서는 최근 이탈 예측의 비즈니스 필드, 모델링 기술, 이탈 요인 추정을 위한 모델의 설명력 및 수익 측면의 성능지표에 대한 연구 동향을 분석하였고, 기업이 비즈니스 측면에서 실전 이탈 모델링 적용을 위해서 어떠한 기술적 요소들이 고려되어야 하는지에 대한 관점에서 방향제시를 하였다. 특히 최근 산업의 발전과 함께 등장한 다양한 비계약적 고객 이탈을 해결하기 위해 라벨링, 특성공학, 모델의 성능 지표, 모델의 설명력, 그리고 모델의 추론 대상 및 성능 지표에 관한 고찰을 제시하였다.

비계약 설정의 영역에서는 각 회사의 고객 세부 구분 기준과 이용 목적 및 빈도에 따라 어떤 특성의 고객이 어느 정도 기간 동안 해당 서비스를 유지할 것인지 등의 요소들을 리텐션 마케팅의 목표에 부합하게 라벨링(Labeling) 해야 한다. SNS와 같은 외부데이터의 이탈 모델링의 특성으로의 활용의 유용성을 언급하였으며, 이탈 예측 학습 모델의 성능 평가 방법으로는 기대 가치가 높은 고객 이탈 징후를 감지하는 관점에서 모델의 성능을 평가하는 것이 기대 수익 측면에서 의미 있는 연구방향이다. 또한, 예측 모델의 결과와 함께 모델 설명력 수치 기반의 고객별 사전에 예측된 이탈 가능성 및 원인에 대한 정보를 활용함으로써, 개인 맞춤형 이탈방지 활동의 효과성이 높아진다. 마지막으로, 각 비지니스 필드에서 이탈 검출력에 관한 TDL과 EMPC등과 같은 추론 성능 지표를 활용하여 회사의 수익을 보장할 수 있는 기준과 지표를 수립함이 바람직하다.

References

C. Wei and I. Chiu, “Turning Telecommunications Call Details to Churn Prediction: A Data Mining Approach,” Expert Systems with Applications, Vol. 23, No. 2, pp. 103-112, April 2002. [https://doi.org/10.1016/S0957-4174(02)00030-1]
S. A. Qureshi, A. S. Rehman, A. M. Qamar, A. Kamal, and A. Rehman, “Telecommunication Subscribers’ Churn Prediction Model Using Machine Learning,” in Proceedings of 8th International Conference on Digital Information Management (ICDIM 2013), pp. 131-136, September 2013. [https://doi.org/10.1109/ICDIM.2013.6693977]
E. Ascarza, R. Iyengar, and M. Schleicher, “The Perils of Proactive Churn Prevention Using Plan Recommendations: Evidence from a Field Experiment,” Journal of Marketing Research, Vol. 53, No. 1, pp. 46-60, February 2016. [https://doi.org/10.1509/jmr.13]
F. F. Reichheld and W. E. Sasser, “Zero Defections: Quality Comes to Services,” Harvard Business Review, Vol. 68, No. 5, pp.105-111, 1990.
T. O. Jones and W. E. Sasser, “Why Satisfied Customers Defect,” Harvard Business Review, Vol. 73, No. 6, 1995.
W. N. Wassouf, R. Alkhatib, K. Salloum and S. Balloul, “Predictive Analytics Using Big Data for Increased Customer Loyalty: Syriatel Telecom Company case study,” Jouranl of Big Data, Vol. 7, No. 29, April 2020. [https://doi.org/10.1186/s40537-020-00290-0]
M. Zhao, Q. Zeng, M. Chang, Q. Tong, and J. Su, “A Prediction Model of Customer Churn considering Customer Value: An Empirical Research of Telecom Industry in China,” Discrete Dynamics in Nature and Society, Vol. 2021, August 2021. [https://doi.org/10.1155/2021/7160527]
M. R. Colgate and P. J. Danaher, “Implementing a Customer Relationship Strategy: The Asymmetric Impact of Poor Versus Excellent Execution,” Journal of the Academy of Marketing Science, Vol. 28, No. 3, pp. 375-387, June 2000. [https://doi.org/10.1177/0092070300283006]
S. A. Neslin, S. Gupta, W. Kamakura, J. Lu, and C. H. Mason, “Defection Detection: Measuring and Understanding the Predictive Accuracy of Customer Churn Models,” Journal of Marketing Research, Vol. 43, No. 2, pp. 204-211, May 2006. [https://doi.org/10.1509/jmkr.43.2]
I. Ullah, B. Raza, A. K. Malik, M. Imran, S. U. Islam, and S. W. Kim, “A Churn Prediction Model Using Random Forest: Analysis of Machine Learning Techniques for Churn Prediction and Factor Identification in Telecom Sector,” IEEE Access, Vol. 7, pp. 60134-60149, May 2019. [https://doi.org/10.1109/ACCESS.2019.2914999]
M. Mirkovic, T. Lolic, D. Stefanovic, A. Anderla, and D. Gracanin, “Customer Churn Prediction in B2B Non-Contractual Business Settings Using Invoice Data,” Applied Sciences, Vol. 12, No. 10, 5001, May 2022. [https://doi.org/10.3390/app12105001]
S. Gupta, D. Lehmann, and J. A. Stuart, “Valuing Customers,” Journal of Marketing Research, Vol. 41, No. 1, pp. 7-18, February 2004. http://www.jstor.org/stable/30162308
B. Zhu, B. Baesens, and S. K. V. D. Broucke, “An Empirical Comparison of Techniques for the Class Imbalance Problem in Churn Prediction,” Information Sciences, Vol. 408, pp. 84-99, October 2017. [https://doi.org/10.1016/j.ins.2017.04.015]
R. P. Leone, V. R. Rao, K. L. Keller, A. M. Luo, L. Mcalister, and R. Srivastava, “Linking Brand Equity to Customer Equity,” Journal of Service Research, Vol. 9, No. 2, pp. 125-138, November 2006. [https://doi.org/10.1177/1094670506293563]
W. Reinartz, J. Thomas, and V. Kumar, “Balancing Acquisition and Resources to Maximize Customer Profitability,” Journal of Marketing, Vol. 69, No. 1, pp. 63-79, January 2005. [https://doi.org/10.1509/jmkg.69.1.63.55511]
S. Baal and C. Dach, “Free Riding and Customer Retention Across Retailers’ Channels,” Journal of Interactie Marketing, Vol. 19, No. 2, pp. 75-85, November 2009. [https://doi.org/10.1002/dir.20036]
P. Verhoef, “Understanding the Effect of Customer Relationship Management Efforts on Customer Retention and Customer Share Development,” J Mark, Vol. 67, No. 4, pp. 30-45, October 2003. [https://doi.org/10.1509/jmkg.67.4.30.18685]
E. Stripling, S. V. D. Broucke, K. Antonio, B. Baesens, and M. Snoeck, “Profit Maximizing Logistic Model for Customer Churn Prediction Using Genetic Algorithms,” Swarm and Evolutionary Computation, Vol. 40, pp. 116-130, May 2018. [https://doi.org/10.1016/j.swevo.2017.10.010]
Y. Ahn, D. Kim, and D. Lee, “Customer Attrition Analysis in the Securities Industry: A Large-Scale Field Study in Korea,” International Journal of Bank Marketing, Vol. 38, No. 3, pp. 561-577, October 2019. [https://doi.org/10.1108/IJBM-04-2019-0151]
A. Caigny, K. Coussement, K. Bock, and S. Lessmann, “Incorporating Textual Information in Customer Churn Prediction Models Based on a Convolutional Neural Network,” International Journal of Forecasting, Vol. 36, No. 4, pp. 1563-1578, September 2020. [https://doi.org/10.1016/j.ijforecast.2019.03.029]
B. He, Y. Shi, Q. Wan, and X. Zhao, “Prediction of Customer Attrition of Commercial Banks Based on SVM Model,” Procedia Computer Science, Vol. 31, pp. 423-430, May 2014. [https://doi.org/10.1016/j.procs.2014.05.286]
G. Nie, W. Rowe, L. Zhang, Y. Tian, and Y. Shi, “Credit Card Churn Forecasting by Logistic Regression and Decision Tree,” Expert Systems with Applications, Vol. 38, No. 12, pp. 15273-15285, July 2011. [https://doi.org/10.1016/j.eswa.2011.06.028]
K. Na, E. Kim, H. Lee, and J. Lee, “A Securities Company’s Customer Churn Prediction Model and Causal Inference with SHAP Value,” The Korea Journal of BigData, Vol. 5, No. 2, pp. 215-229, 2020. [https://doi.org/10.36498/kbigdt.2020.5.2.215]
M. Chang and H. Kim, “A Customer Segmentation Scheme Base on Big Data in a Bank,” Journal of Digital Contents Society (JDCS), Vol. 19, No. 1, pp. 85-91, January 2018. [https://doi.org/10.9728/dcs.2018.19.1.85]
J. Ahn, J. Hwang, D. Kim, H. Choi, and S. Kang, “A Survey on Churn Analysis in Various Business Domains,” IEEE Access, Vol. 8, pp. 220816-220839, December 2020. [https://doi.org/10.1109/ACCESS.2020.3042657]
B. Janssens, M. Bogaert, A. Bagué, and D. van den Poel, “B2Boost: Instance-Dependent Profit-Driven Modelling of B2B Churn,” Annals of Operations Research, March 2022. [https://doi.org/10.1007/s10479-022-04631-5]
K. Chen, Y. Hu, and Y. Hsieh, “Predicting Customer Churn from Valuable B2B Customers in the Logistics Industry: A Case Study,” Business Management, Vol. 13, No. 3, pp. 475-494, October 2014. [https://doi.org/10.1007/s10257-014-0264-1]
Y. Suh, “Machine Learning Based Customer Churn Prediction in Home Appliance Rental Business,” Journal of Big Data, Vol. 10, No. 41, April 2023. [https://doi.org/10.1186/s40537-023-00721-8]
M. Bogaert and L. Delaere, “Ensemble Methods in Customer Churn Prediction: A Comparative Analysis of the State-of-the-Art,” Mathematics, Vol. 11, pp. 1137, February 2023. [https://doi.org/10.3390/math11051137]
M. Kiguchi, W. Saeed, and I. Medi, “Churn Prediction in Digital Game-Based Learning Using Data Mining Techniques: Logistic Regression, Decision Tree, and Random Forest,” Applied Soft Computing, Vol. 118, No. 1, 108491, February 2022. [https://doi.org/10.1016/j.asoc.2022.108491]
A. Lemmens and C. Croux, “Bagging and Boosting Classification Trees to Predict Churn,” Journal of Marketing Research, Vol. 43, No. 2, pp. 276-286, May 2006. [https://doi.org/10.1509/jmkr.43.2.276]
W. Buckinx and D. Poel, “Customer Base Analysis: Partial Defection of Behaviourally Loyal Clients in a Non-Contractual FMCG Retail Setting,” European Journal of Operational Research, Vol. 164, No. 1, pp. 252-268, January 2011. [https://doi.org/10.1016/j.ejor.2003.12.010]
Q. F. Wang, M. Xu, and A. Hussain, “Large-Scale Ensemble Model for Customer Churn Prediction in Search Ads,” Cognitive Computation, Vol. 11, No. 2, pp. 262-270, April 2019. [https://doi.org/10.1007/s12559-018-9608-3]
J. T. Hancock and T. M. Khoshgoftaar, “CatBoost for Big Data: An Interdisciplinary Review,” Journal of Big Data, Vol. 7, No. 1, pp. 1-45, November 2020. [https://doi.org/10.1186/s40537-020-00369-8]
C. Tang, N. Luktarhan, and Y. Zhao, “An Efficient Intrusion Detection Method Based on LightGBM and Autoencoder,” Symmetry, Vol. 12, No. 9, 1458, September 2020. [https://doi.org/10.3390/sym12091458]
R. Liu, S. Ali, S. F. Bilal, Z. Sakhawat, A. Imran, A. Almuhaimeed, ... and G. Sun, “An Intelligent Hybrid Scheme for Customer Churn Prediction Integrating Clustering and Classification Algorithms,” Applied Sciences, Vol. 12, No. 18, 9355, September 2022. [https://doi.org/10.3390/app12189355]
R. Wang, M. N. Cheng, Y. M. Loh, C. Wang, and C. F. Cheung, “Ensemble Learning with a Genetic Algorithm for Surface Roughness Prediction in Multi-Jet Polishing,” Expert Systems with Applications, Vol. 207, 118024, July 2022. [https://doi.org/10.1016/j.eswa.2022.118024]
S. De and P. A. Prabu, “Sampling-Based Stack Framework for Imbalanced Learning in Churn Prediction,” IEEE Access, Vol. 10, pp. 68017-68028, June 2022. [https://doi.org/10.1109/ACCESS.2022.3185227]
T. Sharma, P. Gupta, V. Nigam, and M. Goel, “Customer Churn Prediction in Telecommunications Using Gradient Boosted Trees,” International Conference on Innovative Computing and Communications, pp. 235-246, November 2019. [https://doi.org/10.1007/978-981-15-0324-5_20]
Y. Zhang and L. Chen, “A Study on Forecasting the Default Risk of Bond Based on XGboost Algorithm and Over-Sampling Method,” Theoretical Economics Letters, Vol. 11, No. 2, pp. 258-267, April 2021. [https://doi.org/10.4236/tel.2021.112019]
T. Kimura, “Customer Churn Prediction with Hybrid Resampling and Ensemble Learning,” Journal of Management Information and Decision Sciences, Vol. 25, No. 1, pp. 1-23, February 2022. [https://doi.org/10.1108/K-04-2020-0214]
A. Dingli, V. Marmara, and N. Fournier, “Comparison of Deep Learning Algorithms to Predict Customer Churn within a Local Retail Industry,” International Journal of Machine Learning and Computing, Vol. 7, No. 5, October 2017. [https://doi.org/10.18178/ijmlc.2017.7.5.634]
N. Alboukaey, A. Joukhadar, and N. Ghneim, “Dynamic Behaviour Based Churn Prediction in Mobile Telecom,” Expert Systems with Applications, Vol. 162, 113779, July 2020. [https://doi.org/10.1016/j.eswa.2020.113779]
V. Umayaparvathi and K. Iyakutti, “Automated Feature Selection and Churn Prediction Using Deep Learning Models,” International Research Journal of Engineering and Technology (IRJET), Vol. 4, No. 3, pp. 1846-1854, March 2017. https://irjet.net/archives/V4/i3/IRJET-V4I3422.pdf
J. Runge, P. Gao, F. Garcin, and B. Faltings, “Churn Prediction for Highvalue Players in Casual Social Games,” in Proceedings of 2014 IEEE Conference on Computational Intelligence and Games, August 2014. [https://doi.org/10.1109/CIG.2014.6932875]
P. Lalwani, M. Manas, J. S. Chadha and P. Sethi, “Customer Churn Prediction System: A Machine Learning Approach,” Computing, Vol. 104, pp. 271-294, February 2022. [https://doi.org/10.1007/s00607-021-00908-y]
A. Ahmad, A. Jafar, and K. Aljoumaa, “Customer Churn Prediction in Telecom Using Machine Learning in Big Data Platform,” Journal of Big Data, Vol. 6, No. 28, March 2019. [https://doi.org/10.1186/s40537-019-0191-6]
G. Y. Benk, B. Badur, and S. A. Mardikyan, “New 360◦ Framework to Predict Customer Lifetime Value for Multi-Category E-Commerce Companies Using a Multi-Output Deep Neural Network and Explainable Artificial Intelligence,” Information, Vol. 13, No. 8, 373, August 2022. [https://doi.org/10.3390/info13080373]
J. Park and H. Lee, “A Study on the Prediction Model of Customer Leakage in Financial Companies by Deep Learning: Deducing SME Finance Implications,” Journal of SME Finance (JSF), Vol. 40, No. 1, pp. 45-74, 2020. [https://doi.org/10.33219/jsmef.2020.40.1.003]
S. Nasir, “Customer Retention Strategies and Customer Loyalty,” Advertising and Branding, pp. 1177-1201, January 2017. [https://doi.org/10.4018/978-1-5225-1793-1.ch054]
A. A. Jamjoom, “The Use of Knowledge Extraction in Predicting Customer Churn in B2B,” Jouranl of Big Data, Vol. 8, No. 110, August 2021. [https://doi.org/10.1186/s40537-021-00500-3]
J. Friedman, “Greedy Function Approximation: A Gradient Boosting Machine,” The Annals of Statistics, Vol. 29, No. 5, pp. 1189-1232, October 2001. http://www.jstor.org/stable/2699986?origin=JSTOR-pdf
V. L. Miguéis, D. van den Poel, A. S. Camanho, and J. Falcão e Cunha, “Modeling Partial Customer Churn: On the Value of First Product-Category Purchase Sequences,” Expert Systems with Applications, Vol. 39, No. 12, pp. 11250-11256, April 2012. [https://doi.org/10.1016/j.eswa.2012.03.073]
F. Hadiji, R. Sifa, A. Drachen, C. Thurau, K. Kersting, and C. Bauckhage, “Predicting Player Churn in the Wild,” in Proceedings of IEEE Conference on Computatioal Intelligence and Games, August 2014. [https://doi.org/10.1109/CIG.2014.6932876]
M. Milošević, N. Živić, and I. Andjelković, “Early Churn Prediction with Personalized Targeting in Mobile Social Games,” Expert Systems with Applications, Vol. 83, pp. 326-332, April 2017. [https://doi.org/10.1016/j.eswa.2017.04.056]
W.-C. Feng, D. Brandt, and D. Saha, “A Long-Term Study of a Popular MMORPG,” in Proceedings of 6th ACM SIGCOMM Workshop Network System Support for Games, pp. 19-24, September 2007. [https://doi.org/10.1145/1326257.1326261]
T. Debeauvais, B. Nardi, D. J. Schiano, N. Ducheneaut, and N. Yee, “If You Build It They Might Stay: Retention Mechanisms in World of Warcraft,” in Proceedings of 6th International Conference on Foundations of Digital Games, pp. 180-187, June 2011. [https://doi.org/10.1145/2159365.2159390]
Á. Periáñez, A. Saas, A. Guitart, and C. Magne, “Churn Prediction in Mobile Social Games: Towards a Complete Assessment Using Survival Ensembles,” in Proceedings of IEEE Interantional Conference on Data Science and Advanced Analytics, pp. 564-573, October 2016. [https://doi.org/10.1109/DSAA.2016.84]
M. Viljanen, A. Airola, T. Pahikkala, and J. Heikkonen, “Modelling User Retention in Mobile Games,” in Proceedings of IEEE Conference on Computational Intelligence and Games, September 2016. [https://doi.org/10.1109/CIG.2016.7860393]
M. Tamassia, W. Raffe, R. Sifa, A.Drachen, F. Zambetta, and M. Hitchens, “Predicting Player Churn in Destiny: A Hidden Markov Models Approach to Predicting Player Departure in a Major Online Game,” in Proceedings of IEEE Conference on Computational Intelligence and Games, September 2016. [https://doi.org/10.1109/CIG.2016.7860431]
Z. Borbora, J. Srivastava, K.-W. Hsu, and D. Williams, “Churn Prediction in MMORPGS Using Player Motivation Theories and an Ensemble Approach,” in Proceedings of IEEE Third International Conference on Social Computing, October 2011. [https://doi.org/10.1109/PASSAT/SocialCom.2011.122]
J. Kawale, A. Pal, and J. Srivastava, “Churn Prediction in MMORPGS: A Social Influence Based Approach,” in Proceedings of IEEE International Conferences on Computational Science and Engineering, Vol. 4, pp. 423-428, August 2009. [https://doi.org/10.1109/CSE.2009.80]
K. Park, M. Cha, H. Kwak, and K.-T. Chen, “Achievement and Friends: Key Factors of Player Retention Vary across Player Levels in Online Multiplayer Games,” in Proceedings of 26th International Conference on World Wide Web Companion, pp. 445-453, April 2017. [https://doi.org/10.1145/3041021.3054176]
K. B. Shores, Y. He, K. L. Swanenburg, R. Kraut, and J. Riedl, “The Identification of Deviance and Its Impact on Retention in a Multiplayer Game,” in Proceedings of 17th ACM Conference on Computer Supported Cooperative Work & Social Computing, pp. 1356-1365, February 2014. [https://doi.org/10.1145/2531602.2531724]
E. Lee, B. Kim, S. Kang, B. Kang, Y. Jang, and H. K. Kim, “Profit Optimizing Churn Prediction for Long-Term Loyal Customers in Online Games,” in IEEE Transactions on Games, Vol. 12, No. 1, pp. 41-53, March 2020. [https://doi.org/10.1109/TG.2018.2871215]
A. Sharma and P. K. Kumar, “A Neural Network-Based Approach for Predicting Customer Churn in Cellular Network Services,” International Journal of Computer Applications, Vol. 27, No. 11, August 2011. [https://doi.org/10.5120/3344-4605]
Y.-Y. Chun and K.-M. Lee, “Environmental Impacts of the Rental Business Model Compared to the Conventional Business Model: A Korean Case of Water Purifier for Home Use,” The International Journal of Life Cycle Assessment, Vol. 22, No. 7, pp. 1-13, July 2017. https://link.springer.com/article/10.1007/s11367-016-1227-1
J. Lu, A. Liu, F. Dong, F. Gu, J. Gama, and G. Zhang, “Learning under Concept Drift: A Review,” in IEEE Transactions on Knowledge and Data Engineering, Vol. 31, No. 12, pp. 2346-2363, December 2019. [https://doi.org/10.1109/TKDE.2018.2876857]
A. de Caigny, K. Coussement, and K. W. de Bock, “A New Hybrid Classification Algorithm for Customer Churn Prediction Based on Logistic Regression and Decision Trees,” European Journal of Operational Research, Vol. 269, pp. 760-772, February 2018. [https://doi.org/10.1016/j.ejor.2018.02.009]
K. W. De Bock and D. V. D. Poel, “Reconciling Performance and Interpretability in Customer Churn Prediction Using Ensemble Learning Based on Generalized Additive Models,” Expert Systems with Applicatio, Vol. 39, No. 8, pp. 6816-6826, January 2012. [https://doi.org/10.1016/j.eswa.2012.01.014]
B. Zhu, B. Baesens, and S. K. L. M. vanden Broucke, “An Empirical Comparison of Techniques for the Class Imbalance Problem in Churn Prediction,” Information Sciences, Vol. 408, pp. 84-99, October 2017. [https://doi.org/10.1016/j.ins.2017.04.015]
A. Amin, “Comparing Oversampling Techniques to Handle the Class Imbalance Problem: A Customer Churn Prediction Case Study,” IEEE Access, Vol. 4, pp. 7940-7957, October 2016. [https://doi.org/10.1109/ACCESS.2016.2619719]
A. K. Ahmad, A. Jafar, and K. Aljoumaa, “Customer Churn Prediction in Telecom Using Machine Learning in Big Data Platform,” Journal of Big Data, Vol. 6, 28, March 2019. [https://doi.org/10.1186/s40537-019-0191-6]
S. M. Lundberg and S.-I. Lee, “A Unified Approach to Interpreting Model Predictions,” in Advances in Neural Information Processing Systems 30 (NIPS 17), pp. 4768-4777, December 2017.
J. Lu, A. Liu, F. Dong, F. Gu, J. Gama, and G. Zhang, “Learning under Concept Drift: A Review,” in IEEE Transactions on Knowledge and Data Engineering, Vol. 31, No. 12, pp. 2346-2363, December 2019. [https://doi.org/10.1109/TKDE.2018.2876857]

저자소개

서영정(Young-Jung Suh)

1997년～2001년：전남대학교 컴퓨터공학과(학사)

2001년～2003년：광주과학기술원 정보기전공학부(석사)

2004년～2011년：광주과학기술원 정보기전공학부(박사)

2011년～현 재: LG전자 CDO (Chief Digital Officer) 부문 책임연구원

※관심분야：빅데이터 분석, 머신러닝, HCI, Context-awareness 등

Period	Churn prediction models
Earliest	RFM analysis, CLV prediction models
A bit early	Single Classifier, Statistics
Early	Homogeneous Ensemble -CATB(Catboost) -LGBM(Light gradient boosting machine) -GB( gradient boosting) -PRE(prediction rule-based ensembles)
Recent	Heterogeneous Ensembles -NNBL(Non-negative binomial likelihood) -GINNLS(Goldfarb-Idnani non-negative least squares) -LHNNLS(Lawson-Hanson non-negative least squares) -HCES_BAG(Hill-climbing ensemble selection with bagging)
Most recent	Deep Learning, Heterogeneous Ensembles (especially the ones using meta-heuristic ensemble selection)

Category	Churn prediction models
Cut-off dependent	Accuracy F1(F1 measure), TDL(Top-decile lift)
Cut-off independent	AUC (Area under the receiver operating characteristic curve)
Profit-based metric	Profit(t) = CLV{γTP(t)} − C{TP(t) + FP(t)} EMPC(expected maximum profit criterion for customer churn)