Korea Digital Contents Society

Journal Archive

Journal of Digital Contents Society - Vol. 22 , No. 7

[ Article ]
Journal of Digital Contents Society - Vol. 22, No. 7, pp. 1115-1123
Abbreviation: J. DCS
ISSN: 1598-2009 (Print) 2287-738X (Online)
Print publication date 31 Jul 2021
Received 29 Jun 2021 Revised 20 Jul 2021 Accepted 20 Jul 2021
DOI: https://doi.org/10.9728/dcs.2021.22.7.1115

SHAP을 활용한 산업재해 예측 모델링 및 분석
오형록1 ; 손애린2 ; 이준기3, *
1연세대학교 정보대학원 석사과정
2연세대학교 정보대학원 석사과정
3연세대학교 정보대학원 교수

Occupational accident prediction modeling and analysis using SHAP
Hyung-Rok Oh1 ; Ae-Lin Son2 ; ZoonKy Lee3, *
1Master’s Course, Graduate School of Information, Yonsei University, Seoul 03722, Korea
2Master’s Course, Graduate School of Information, Yonsei University, Seoul 03722, Korea
3Professor, Graduate School of Information, Yonsei University, Seoul 03722, Korea
Correspondence to : *ZoonKy Lee Tel: +82-2-2123-4528 E-mail: zlee@yonsei.ac.kr


Copyright ⓒ 2021 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Funding Information ▼

초록

우리나라의 산업재해 문제는 지속적으로 제기되어 왔으며, 산업재해를 줄이기 위한 노력이 계속되고 있지만 쉽게 줄지 않고 있다. 본 연구는 업종 간의 경계가 허물어지고 있는 환경을 반영하여 전체 업종을 대상으로 산업재해 예측 모델을 개발하고, XAI(eXplainable Artificial Intelligence)를 활용하여 모델의 결과를 해석하는 데 의의가 있다. LightGBM 모델이 가장 우수한 성능을 보였으며, 모델 해석 결과 사업장 내 위험한 기계·기구가 존재하는 경우와 안전보건 비용 지출이 많을수록 산업재해 발생 가능성이 높은 것으로 나타났다. 반면, 안전보건 프로그램(위험성 평가 제도) 실시하는 기업과 안전보건 인력의 수가 많을 때, 산업재해 발생 가능성이 낮다고 해석되었다.

Abstract

The problem of occupational accidents in Korea has been continuously raised, and efforts are continuing to reduce industrial accidents, but they are not easily reduced. This work is meaningful in developing an occupational accident prediction model for the entire industry, reflecting the environment in which boundaries between industries are being torn down, and in interpreting the results of the model using eXplainable Artificial Intelligence(XAI). The LightGBM model showed the best performance, and according to the model analysis, the more dangerous machinery and equipment in the workplace and safety and health expenses, the higher the possibility of occupational accidents. On the other hand, it was interpreted that occupational accidents were unlikely when the number of companies and safety and health personnel conducting safety and health programs (risk assessment system) was high.


Keywords: Occupational accident prediction, Machine learning, SHAP, XAI, LightGBM
키워드: 산업재해 예측, 산업재해 예방, 기계 학습, 설명가능한 인공지능, SHAP

Ⅰ. 서 론

2021년 통계청에서 보고한 ‘한국의 지속가능 발전목표 이행보고서 2021’에 따르면, 한국의 산업재해 사망사고 발생률이 경제협력개발기구 국가 가운데 네 번째로 높았다[1]. 우리나라의 산업재해 문제는 지속해서 제기되어왔으며, 2017년 정부에서는 매년 1,000명 가까이 발생하는 산업재해 사고 사망자를 절반으로 감축하기 위한 국정과제를 제시하고 산업재해 예방과 감독에 주력해왔다. 그러나 2020년 산업재해 사망자 수는 882명으로 전년도 855명보다 증가하였다. 이는 이천 물류창고 화재 사건과 같은 예기치 못한 대형 사고가 발생한 것으로 풀이된다. 이에 정부는 사업주 또는 경영책임자에게 더욱 엄중한 책임을 묻는 ‘중대재해처벌법’을 도입하였고, 2022년 1월 27일부터 시행된다. 이처럼 산업재해 발생을 줄이기 위한 노력은 정부와 기업에서 모두 강조되고 있다.

산업재해 발생을 줄이기 위한 전략적인 관점으로는 크게 두 가지가 있다. 사후 관점에서 근본적인 발생 원인을 분석해서 재발을 방지하는 feed-back 방법과 미래 시점에 산업재해가 어느 정도 발생할 것인지를 사전에 예측하여 장·단기적으로 산업재해 예방 전략을 수립하여 대응하는 feed-forward 방법이 있다[2]. 본 연구는 feed-forward 방법으로 산업재해 발생 예측 모델을 개발하여 산업재해를 예방할 수 있도록 한다.

과거에는 산업 간 경계가 명확했기 때문에 기존 산업재해 예측 연구는 특정 업종[3],[4]이나 특정 지역[5]을 대상으로 연구를 진행했다. 그러나 최근에는 제품과 서비스의 디지털 전환을 통해 제조업과 서비스업 등 분야 간 경계를 넘나드는 것처럼[6] 업종 간 경계가 허물어지고 있다[7]. 이에 따라, 본 연구는 전체 업종을 대상으로 하여 보편적인 모델을 개발하고자 한다. 한편, 기계 학습 모델은 일종의 ‘블랙박스’ 모델로 해당 모델이 어떠한 과정에 의해 결정을 내렸는지에 대한 명확한 이유를 파악하지 못하는 한계가 있다. 따라서, 본 연구의 목적은 전체 업종을 포함한 일반적인 산업재해 예측 모델을 개발하고, XAI(eXplainable Artificial Intelligence) 기법 중 하나인 SHAP(SHapley Additive explanations)을 활용하여 예측 모델의 각 변수 기여도를 계산하여 설명 가능한 모델을 제시하는 것이다.

본 연구의 구성은 다음과 같다. 제Ⅱ장에서는 이론적 배경에 대한 부분으로 산업재해 예측 관련 선행연구와 결정 트리 기반 앙상블 모델 기법, 설명가능한 인공지능에 대해 살펴본다. 제Ⅲ장에서는 본 연구에서 활용한 분석 방법 및 과정을 세부적으로 설명한다. 제Ⅳ장에서는 분석 결과를 해석하고, 마지막으로 제Ⅴ장에서는 연구의 학술적 의의 및 시사점 등을 제시한다.

Table 1. 
Summary of some literature using ML Algorithms with occupational accidents prediction
Reference Field Techniques
Ayhan &Tokdemir[9] Construction Artificial Neural Networks
cho et al.[4] Construction Decision Tree
Choi et al.[11] Construction logistic regression, DT, random forest, and AdaBoost
Leem et al.[5] Construction Decision Tree
Matías et al.[9] Mixed CART, SVMs, extreme learning machines and Bayesian networks
Sarkar et al.[12] Steel Industry SVM, RF, and Maximum Entropy
Sarkar, Raj, et al.[13] Metal CART, C5.0, RF tuned with GA &PSO


Ⅱ. 이론적 배경
2-1 산업재해 예측 관련 선행연구

산업재해 예측과 관련된 대부분의 선행연구는 특정 업종을 한정을 지어 연구하거나, 전통적인 기계 학습 방법을 활용하여 연구하였다. 특정 업종으로 예측 모델을 개발한 경우에는 다른 업종에는 적용할 수 없다는 한계가 있다[4],[5],[8]. 또한 건설업을 대상으로 산업재해를 예측하는 연구가 많이 이뤄지고 있는데 이는 업종 특성상 건설업에서 산업재해 발생이 많기 때문이다. 전체 업종에 대하여 기계 학습 방법을 활용하여 산업재해 예측 모델을 개발한 연구가 있었으나, 해당 연구는 모델 결과에 대한 해석이 부족하다는 한계점을 지닌다[9]. 결론적으로 기존 연구들은 업종을 한정지어 연구하거나, 그 모델이 어떠한 과정에 의해 결과가 도출되었는지 알 수 없다는 한계가 있었다. 이에 따라, 본 연구에서는 전체 업종을 대상으로 다양한 기계 학습 기법을 활용하여 더욱 정확하고 여러 업종에서 적용할 수 있는 예측 모델을 개발하고, 예측 결과를 해석하여 설명할 수 있도록 한다.

2-2 결정 트리 기반 앙상블 모델 기법
1) 랜덤 포레스트(Random Forest)

랜덤 포레스트(Random Forest) 알고리즘은 여러 개의 의사결정나무 알고리즘을 파생시켜 예측을 진행하는 기계 학습 방법론이다. 의사결정나무 알고리즘은 데이터가 지닌 관계와 규칙을 파악하고 모형화하는 분석기법으로 선형성, 정규성, 등분산성 가정이 필요 없는 방법론이다[14]. 랜덤 포레스트는 이러한 의사결정나무를 여러 개 파생시켜 그 결과를 종합하여 제공한다. 랜덤 포레스트는 각 의사결정나무를 만들 때 무작위로 학습 데이터와 독립 변수를 선택하여 예측을 진행하며, 개별적인 정확도는 떨어질 수 있으나 모든 의사결정나무를 종합하여 예측을 수행하므로 정확도와 안정성이 높아진다는 장점을 지닌다[15]. 즉, 랜덤 포레스트는 무작위로 독립 변수를 N개 고르고, 데이터 또한 무작위로 선정하는 의사결정나무 알고리즘을 T개 만들어 다수결의 원칙으로 가장 많이 도출되는 값 또는 평균값을 예측값으로 사용한다.

2) Extreme Gradient Boosting : XGBoost

부스팅(Boosting) 기법은 초기 샘플 데이터를 이용하여 약한 학습기를 만들고 학습 결과의 오차를 줄이는 방향으로 신규 학습기를 반복적으로 추가하는 앙상블 기술이다[16]. 특히 기울기 부스팅(Gradient Boosting)은 이전 학습기의 잔차를 예측하는 신규 모델을 계속 추가해 나아가는 알고리즘인데[17], 학습 속도가 느리며 과대 적합의 문제를 발생시키는 단점이 있다. 이를 보완하기 위해 등장한 알고리즘이 바로 XGBoost이다. XGBoost는 2016년 8월 Tianqi Chen에 의해 소개되었는데, 의사결정나무 기반 기계 학습 알고리즘이며 기울기 부스팅 구조를 사용한다. XGBoost는 병렬 처리, 결측치 처리 및 규제 등을 통해 훈련 손실을 최소화하면서 과적합을 방지하는 최적화된 모델을 생성한다[18].

3) Light Gradient Boosting Machine: LightGBM

LightGBM은 2016년에 마이크로소프트MSRA(Microsoft Research Lab Asia) 에서 설계한 빠르고 효율적인 GBDT(Gradient Boosting Decision Tree) 기반 알고리즘이다[19]. 기존 GBDT 기반 알고리즘은 모두 가능한 분할점에 대해 정보 이득(Information gain)을 평가하기 위해 데이터 전부를 스캔해야 했기 때문에 대용량의 고차원 데이터에서는 성능을 제대로 발휘하지 못하는 문제가 있다. 여기서 정보 이득이란 어떤 속성을 선택함으로써 데이터를 더 잘 구분하게 되는 것을 말한다. LightGBM은 2가지 기술, GOSS(Gradient-based One-Side Sampling)와 EFB(Exclusive FeatureBundling) 기법을 도입함으로써 문제를 해결하였다.

GBDT에서 기울기(Gradient)가 큰 데이터 속성이 정보 이득에 있어 더욱 큰 역할을 한다. 따라서, GOSS는 기울기가 큰 데이터 속성은 유지하고 기울기가 작은 데이터 속성은 일정 확률로 랜덤하게 제거하는 기술이다. EFB는 변수 개수를 줄이기 위해 희소한 변수 공간의 특성에 따라 상호배타적인 변수들을 묶는 기법이다[20]. 즉, LightGBM은 이러한 기술을 통해 메모리 사용량 감소, 빠른 훈련 속도 등의 장점이 있다.

4) Categorical Boosting: CatBoost

CatBoost 알고리즘은 범주형 변수 전처리와 과적합(Overfitting) 문제 해결에 초점을 둔 순서형 부스팅(Ordered Boosting) 기법이다[21]. 모든 잔여 오차를 순차적으로 학습하는 기존의 부스팅 모델과는 달리 순서형 부스팅은 일부 데이터로 잔여 오차를 계산하여 모델을 만든다. 이후 해당 모델을 통해 남은 데이터의 잔여 오차를 계산하는 기법이다. 또한, 순서형 부스팅에 무작위 순열(Random Permutation)을 통해 데이터 순서를 섞어줌으로써 과적합을 방지한다. CatBoost 알고리즘은 동일한 정보 획득(Information gain)을 가진 변수들을 하나로 묶는 변수 조합을 통해 훈련 속도를 향상시킨다. 또한, 최적의 초매개변수(Hyper parameter)를 찾기 위해 Grid Search나 Randomized Search를 사용하는 다른 앙상블 알고리즘과 달리 초기 초매개변수 값이 최적화되어있어서 매개변수(Parameter) 조정 절차가 요구되지 않는다는 특징을 가진다.

2-3 설명가능한 인공지능(XAI) : SHAP

설명 가능한 인공지능(XAI)은 인공지능에 의해 예측된 결과를 설명하여, 사용자가 결과를 이해할 수 있도록 돕는 것을 말한다. 이는 결과에 미치는 주요 요인들을 찾아내어 기계 학습 모델의 예측 결과를 어떤 근거로 의사 결정을 내렸는지를 알 수 있게 하며, 예측 결과에 대해 사람이 이해할 수 있는 직관적인 설명을 가능하게 한다[22].

SHAP(SHapley Additive exPlanations)은 기계 학습 모델의 출력을 설명하기 위해 게임 이론의 섀플리 값(Shapley Values)을 기반으로 한 알고리즘이다. 섀플리 값은 하나의 변수에 대한 중요도를 알기 위해 여러 변수들의 조합을 구성한 후 해당 변수의 유무에 따른 평균적인 변화를 통해 얻어낸 값이다[23]. 학습 데이터와 학습된 모델을 바탕으로 설명 가능한 모델을 생성하고 새로 입력된 데이터에 대해 예측 결과에 대한 영향력을 방향과 크기로 표현한 섀플리 값을 계산한다. 이를 통해, 입력 변수가 학습된 모델의 출력값에 어느 정도의 공헌도를 가지는지 설명한다.

기존의 변수 중요도(Feature Importance) 기법은 순열(Permutaion) 방법을 사용해서 변수가 모델에 미치는 영향을 측정한다. 이 방법은 계산 속도가 빠르다는 장점이 있지만, 변수들이 서로 의존적일 때는 결과가 왜곡될 수 있다. 또한, 음(-)의 영향력은 계산하지 못한다. 따라서 실제 영향력보다 특정 변수의 가치가 높게 책정될 수 있다. 반면에 SHAP 기법은 변수들이 서로 영향을 미칠 가능성을 고려하고 음(-)의 영향력을 계산할 수 있다. 그래서 속도가 느리다는 단점이 있지만, 변수 중요도 기법보다 정확한 영향력을 측정한다고 볼 수 있다[24].


Ⅲ. 연구방법
3-1 데이터 수집: 산업안전보건 실태조사

한국산업안전보건공단은 근로자의 안전을 보장하고 사업주가 재해예방에 관심을 두게 하여 국민 경제발전에 이바지하기 위해 1987년 12월에 설립된 고용노동부 산하 준정부기관이다. 산업안전보건연구원에서는 사업장의 안전보건활동에 대한 실태 파악을 위해 전국 17개 시·도, 약 5,000개 사업장을 대상으로 산업안전보건 실태조사를 실시하고 있다. 본 연구에서는 한국산업안전보건공단에서 제공하는 2018년도 산업안전보건 실태 설문조사 결과를 분석에 사용하였다. 각 문항은 사업장의 위험 요소 및 안전보건관리 현황에 관한 내용으로 전체 12개 파트와 각 파트별 세부 문항들로 구성되어 있으며, 본 연구에서는 총 44개의 문항과 5,219개의 설문 결과를 사용하였다. 44개의 문항 중 “산업재해 발생 여부(Q11_2)”를 예측 변수로 선정하였으며 변수 설명은 다음 표 2와 같다.

Table 2. 
Variables used for the study
Section Variables Description
Business establishment basics SQ2 Industry
SQ3 Number of full-time workers
SQ5 Business location
General status of business
establishment
Q1_5 Business relationship
Q1_6 Annual sales of business sites
Q2_1D2 Proportion of male workers in 2017
Q2_1D3 Proportion of female workers in 2017
Q2_1D4 Percentage of non-regular workers in 2017
Q3_1_1 Number of full-time workers hired
Q3_1_2 Number of non-regular workers hired
Workplace General Organization Q4 Labor union presence
Q5 Team Organization
Q8 Percentage of work shift workers
Q9_1_1 Design or development of products or services
Q9_3_1 Sale or marketing of goods or services
Risk factors Q10_1_1
~
Q10_7_1
Presence of risk
Status of industrial accidents at
workplaces
Q11_2
(target)
Whether an occupational accident occured
Health and Safety Management
Organisation Status at Workplaces
Q13 Organization of safety and health management
Q14_15.1_15.8 Number of safety and health managers
Q15_9 Safety and health education place
Q16_n Availability of safety and health personnel
Q17_1 Whether an occupational safety and health committee
Investment in industrial safety and health Q18_1 Health and Safety Expenses
Q20 Adjustment of safety and health investment amount
Health and Safety Activities and Levels Q21 Conduct safety and health education
Q22 Policies, management systems or countermeasures
Q23 Employee health check-up status check
Q24_1
~
Q24_3
Risk Assessment
Q25 Intensity of safety and health management activities
Q26 Level of employee safety behavior in the workplace
Worker engagement and
communication
Q27_n Intensity of employee participation in the division of work
Q29_1 Degree of awareness of policies related to occupational safety and health
Q29_6_n Whether information is exchanged between the safety and health departments and staff.
Q29_7 Whether industrial safety information is exchanged between employees
Psychological and social risk
management
Q30_s Whether procedures are in place to respond to psychological and social risks

3-2 데이터 전처리 및 모델링 과정

본 연구의 분석 과정은 그림 1과 같다. 제공받은 설문조사 데이터 전처리를 거쳐 결측치, 이상치를 처리하고 파생변수 생성을 수행한다. 설문조사 데이터의 특성상 다지선다형 문항들이 많아 분석에 사용하면 차원이 커져 ‘차원의 저주(Curse of dimensionality)’ 문제를 초래할 수 있다[25]. ‘차원의 저주’란 데이터의 변수가 많아져서 학습 모델의 성능이 저하되는 현상을 일컫는다. 학습하려는 데이터의 분포가 고차원 공간을 형성하고 있다면 데이터 포인트 간 거리가 멀어져 비슷한 변수를 가지는 패턴을 찾기 어려워진다. 따라서, 설문조사 문항별 유사한 의미를 갖는 보기는 하나로 묶어서 분석에 사용하였다.


Fig. 1. 
Data Analysis Process

또한, 모델링 과정에서는 트리 기반 앙상블 모델인 Random Forest, XGBoost, LightGBM, CatBoost를 사용하여 모델을 구축하였다. 그리고 K-중첩 교차검증(K-fold Cross Validation)을 통해 앙상블 모델들의 초매개변수를 조정하여 최적화를 진행하였다[15].

마지막으로 분류 성능 평가 지표로는 정확도(Accuracy), 특이도(Specificity), 정밀도(Precision), F1 score, ROC-AUC score 등이 있으며 본 연구에서는 정확도를 사용하였다. 이후, XAI기법을 통해 각 예측 모델의 변수 영향도를 확인하였다.


Ⅳ. 예측 모델링 및 평가
4-1 예측 모델링 개발

예측 모델을 구축하기 위해 무작위로 8:2 비율의 훈련 데이터와 테스트 데이터를 나누었다. 훈련 데이터는 K-중첩 교차검증을 통해 모델 평가 및 검증하였으며 각 모델의 최적 초매개변수를 찾았다. 모델 구축에는 Python 모듈인 Scikit-Learn[26]을 사용하였고, 베이지안 최적화(Bayesian Optimization)를 이용하여 각각의 초매개변수를 탐색했다. 베이지안 최적화란 임의의 목적함수를 최대로 하는 매개변수를 찾는 방법이다[27]. 매개변수를 탐색하는 과정에서 이전의 매개변수로부터 얻은 목적함수의 추정값을 활용하여 다음 매개변수의 값을 찾기 때문에 사전지식을 반영한다는 장점이 있다. 그리고 모델 검증 결과 최종 선정된 초매개변수는 표 3과 같다.

Table 3. 
Hyper parameter search
Alg. Hyper parameters
Random Forest max_depth=161,
min_samples_leaf=133,
min_samples_split=106,
n_estimators=66
XGBoost gamma=16.9,
learning_rate=0.07,
max_depth=6,
n_estimators=998
LightGBM bagging_fraction=0.226,
feature_fraction=0.784,
learning_rate=0.08,
max_depth=36,
n_estimators=100
CatBoost iterations=100,
learning_rate=0.01

4-2 모델 성능

최적화된 모델을 바탕으로 산업재해 발생 여부 예측을 진행하였다. 산업재해 발생 여부는 산업재해가 발생한 경우는 1, 발생하지 않은 경우는 0으로 분류하는 문제이며, 본 연구에서 모델의 분류 성능 지표로 정확도를 사용하였다. 모델별 예측 성능 비교는 표 4와 같으며, LightGBM의 성능이 87.9%로 가장 높은 것을 확인할 수 있다. 따라서, 본 연구에서는 LightGBM 모델을 선정하여 결과를 해석하였다.

Table 4. 
Algorithm Evaluation
Alg. Accuracy(%)
Random Forest 66.8
XGBoost 70.9
LightGBM 87.9
CatBoost 76.5

4-3 모델 해석

SHAP을 통한 LightGBM의 각 변수가 모델에 미치는 절대 영향도는 그림 2와 같다. 산업재해 발생에 가장 큰 영향을 미치는 변수는 ‘위험한 기구 존재 여부(Q10_6_1)’이며, 다음으로는 ‘상시근로자 수(SQ3)’, ‘안전보건 지출 비용(Q18_1)’, ‘위험성 평가제도 여부(Q24_1)’ 등이다. 전반적으로 위험 요소 유무에 대한 문항들이(‘Q10_6_1’, ‘Q10_3_1’, ‘Q10_4_1’) 산업재해 발생에 많은 영향을 미치는 것을 확인할 수 있다.


Fig. 2. 
Visualize the absolute impact of shapley values by variable

그림 3은 SHAP 요약 그래프(SHAP summary plot)로, 각 독립 변수가 산업재해 예측에 미치는 영향 정도를 나타내는 시각화이다. 붉은색 점은 그 지점에 해당하는 변수가 산업재해 발생에 양(+)의 영향력을 미쳤음을 의미한다. 노란색 점은 변수가 산업재해 발생에 음(-)의 영향력을 미쳤다는 의미다. 예를 들어, ‘위험한 기구의 존재(Q10_6_1)’가 있으면(1) 산업재해 발생 확률이 커진다는 것을 의미하고 없으면(0) 산업재해 발생 확률이 낮아진다는 것을 뜻한다.


Fig. 3. 
SHAP values plot explaining the LightGBM prediction

표 5그림 4는 LightGBM에서 실험 데이터(Test Data)로 얻은 결과 예시이다. 해당 변수들이 예측 결과에 어느 정도의 크기 및 방향으로 영향을 주었는지 알 수 있다. 붉은색은 산업재해가 발생하도록 영향을 주는 변수들이며 노란색은 산업재해가 발생하지 않도록 영향을 주는 변수들이다. 예를 들어, 첫 번째 실험 데이터의 산업재해 발생 여부는 ‘발생 안 한다(0)’로 추정되며, 이때 산업재해 발생에 음(-)의 영향을 준 요소는 ‘Q10_6_1(위험 기구 존재 여부)’이 가장 크다고 해석된다. 즉, 사업장에 위험 기구가 없는 경우(Q10_6_1 = 0) 산업재해가 발생할 확률이 낮다고 볼 수 있다. 두 번째 실험 데이터에서는 산업재해가 발생할 것으로 추정되었는데, 이때 산업재해 발생에 양(+)의 영향을 준 요소는 ‘Q14_15.1_15.8(안전보건 관리자 수)’가 가장 크다고 해석된다.

Table 5. 
Critical variables and predictive results within test data
Variables Prediction label True label
Test
Data
Q10_4_1 = 1, Q10_3_1 = 1, Q24_1 = 1, Q14_15.1_15.8 = 21, Q16_n = 5, Q8 = 70, SQ3 = 199.5, Q10_6_1 = 0, Q18_1 = 2.0, Q1_6 = 30000, SQ5 = 5, Q3_1_2 = 0, Q30_s=3, Q2_1D3 = 0.67 0 0
Q24_1 = 1, SQ2 = 1, Q2_1D3 = 0.04, Q18_1= 30000, Q8 = 70, SQ3 = 199.5, Q1_6 = 352600, Q10_6_1 = 1, Q14_15.1_15.8 = 63, Q3_1-1 = 0, Q3_1_2 = 0 1 1
Q10_4_1 = 1, SQ5 = 3, Q10_3_1 = 1, Q30_s = 0, Q24_1 = 1, SQ3 – 199.5, Q8 = 70, Q10_6_1 = 1, Q14_151_158 = 43, Q1_6 = 6,000, Q18_1 = 3,500, Q3_1_1 = 2, Q3_1_2 = 0 1 1
Q2_1D4 = 1, Q16_n = 2, Q3_1_2 = 30, Q2_1D3 = 0, Q30_s = 0, Q26 = 3.25, Q10_3_1 = 1, Q24_1 = 1, Q10_6_1 = 1, SQ3 = 30, Q1_6 = 1.5e+4, Q14_151_158 = 6, Q3_1_1 = 0, Q29_1 = 0, Q18_1 = 7,500 0 1


Fig. 4. 
Shap value impact plot in test data


Ⅴ. 토의 및 시사점
5-1 결과 토의 및 연구 한계

본 연구는 전체 업종에 대해 SHAP 기법을 사용하여 설명가능한 예측 모델을 개발하여 다양한 업종에서 활용할 수 있는 보편적인 산업재해 예측 모델을 구축하였다. 기계 학습 알고리즘은 Random Forest, XGBoost, LightGBM, CatBoost를 사용하였고, 정확도로 성능을 비교하였을 때, LightGBM이 가장 우수했다.

이후, 그림 2그림 3의 변수 영향도 결과를 종합해 보았을 때, 사업장 내 위험한 기계·기구가 존재하는 경우와 안전보건 비용 지출이 많을수록 산업재해 발생 가능성이 높은 것으로 나타났다. 이는 선행연구[28]에서 제시한 산업재해 발생 요인 중 하나인 ‘위험물 노출상태’와 동일한 결과를 도출하였다. 또한, 근로자 관련 항목으로는 상시근로자 수가 적을수록, 업무 교대 근로자 비율이 높을수록, 비정규직 근로자 및 신규 근로자 수가 많을수록 산업재해 발생 가능성이 높은 것으로 나타났다. 이 또한 선행연구에서 산업재해 발생의 중요 요인이라고 제시한 “2교대 근무가 정상 근무에 비해 1.48배 높은 산재 발생 위험이 있는 점”[29], “근로자 숙련도”[28] 및 “재해자의 50%가 근속기간 6개월 미만이고, 67%가 근속기간 1년 미만 근로자”[30]라는 선행연구 결과와 같은 의미를 도출했다.

마지막으로 안전예방활동과 관련하여 안전보건 프로그램(위험성 평가 제도)을 실시하는 기업과 안전보건 인력의 수가 많을수록 산업재해 발생 가능성이 낮다고 해석된다. 안전교육의 중요성은 재해 발생 요인으로 제기된 선행연구[28]와 같은 결과를 가진다.

본 연구는 2018년도에 시행된 산업안전보건 실태 설문조사를 대상으로 했기 때문에 한 해의 데이터만 활용했다는 한계점을 지닌다. 향후 연구에서는 2년 마다 시행되는 산업안전보건 실태 설문조사 데이터를 추가하여 모델을 고도화하거나, 추가적으로 활용 가능한 외부 변수들을 결합하여 모델링 한다면 더욱 정확한 모델이 될 수 있을 것이다.

5-2 연구의 학술적·실무적 의의

본 연구가 갖는 학술적 시사점은 다음과 같다. 첫째, 특정 지역이나 산업군에 국한되지 않고 전체 업종에 대한 모델을 구축함으로써 더욱 많은 업종에서 적용할 수 있는 보편적인 모델을 개발하였다. 둘째, 모델의 예측 결과를 설명 가능하게 했다는 점이다. 본 연구에서는 SHAP 기법을 활용하여 성능이 가장 높았던 모델에 대해 연구 결과를 설명하였다.

실무적 시사점으로는 “중대재해처벌법”이 실행되기 이전에 개발된 예측 모델을 활용하여 해당 기업의 데이터를 적용하면 해당 기업의 산업재해 위험 수준을 미리 파악하고 예방할 수 있다. 이는 산업재해 예방을 가능하게 하여 기업의 불필요한 산업재해 비용을 절감할 수 있고, 더욱 안정적인 운영을 할 수 있도록 할 것이다.


Acknowledgments

본 연구는 2021년도 연세대학교 미래융합연구원(ICONS)의 지원에 의하여 이루어진 연구로서, 관계부처에 감사드립니다.


References
1. HanKyoreh, “Korea industrial accident death toll is fourth.. Health crisis response capability is second”, Available: https://www.hani.co.kr/arti/economy/economy_general/989181.html.
2. K. H. Yi, H. K. Chung, and J. S. Park, “The Prediction Model of the Number of Industrial Injured Persons Using Data Mining”, Korean Journal of Occupational and Environmental Medicine, Vol. 12, No. 4, pp. 515-523, December 2000.
3. Y. G. Yoon, J. Y. Lee, and T. K. Oh, “Development of accident prediction model with construction accident report data”, Journal of The Korea Institute for Structural Maintenance and Inspection, Vol. 24, No. 2, pp. 6-6, November 2020.
4. Y. Cho, Y. C. Kim, and Y. Shin, “Prediction Model of Construction Safety Accidents using Decision Tree Techquine”, Journal of the Korea Institute of Building Construction, Vol. 17, No. 3, pp. 295-303, Jun 2017.
5. Y. M. Leem, J. K. Kwag, and Y. S. Hwang, “A Feature Analysis of Industrial Accidents Using C4.5 Algorithm”, Journal of the Korean Society of Safety, Vol. 20, No. 4, pp. 130-137, November 2005.
6. S. I. Jang., “Direction and Policy Tasks of Industrial Structure Change in the Fourth Industrial Revolution”, Space&Environment, Vol. 424, pp. 22-30, 2017.
7. Deloitte Anjin Review. Do you know the innovation based on TOM(Target Operating Model)? [Internet]. Available: https://www2.deloitte.com/content/dam/Deloitte/kr/Documents/insights/deloitte-anjin-review/06/kr_insights_deloitte-anjin-review-06_11.pdf.
8. S. Sarkar, R. Raj, S. Vinay, J. Maiti and D.K. Pratihar, “An optimization-based decision tree approach for predicting slip-trip-fall accidents at work”, Safety Science 118, pp. 57–69, 2019.
9. Matías, J. M., Rivas, T., Martín, J. E., and Taboada, J. “A machine learning methodology for the analysis of workplace accidents”, International Journal of Computer Mathematics, Vol. 85, No. 3-4, pp. 559-578, 2008.
10. B.U. Ayhan and O.B. Tokdemir, “Predicting the outcome of construction incidents”, Safety Science, Vol 113, pp. 91–104, 2019.
11. J. Choi, B. Gu, S. Chin and J.S. Lee, “Machine learning predictive model based on national data for fatal accidents of construction workers”, Automation in Construction, Vol 110, No. 102974, 2020.
12. S. Sarkar, V. Pateshwari and J. Maiti, Predictive model for incident occurrences in steel plant in India, in: 8th Int. Conf.Comput. Commun. Netw. Technol. ICCCNT 2017, Institute of Electrical and Electronics Engineers Inc., 2017.
13. Sarkar S., Raj R., Vinay S., Maiti J. and Pratihar D.K.,“An optimization-based decision tree approach for predicting slip-trip fall accidents at work”, Safety Science, Vol 118, pp. 57-69, 2019.
14. M. Park, S. Choi, A. M. Shin, and C. H. Koo, “Analysis of the Characteristics of the Older Adults with Depression Using Data Mining Decision Tree Analysis”, Journal of Korean Academy of Nursing, Vol. 43, No. 1, pp. 1-10, February 2013.
15. S. J. Kim, H. C. Ahn, “Application of Random Forests to Corporate Credit Rating Prediction”, The Journal of Industrial Innovation, Vol. 32, No. 1, pp. 187-211, March 2016.
16. J. Y. Oh, D. H. Ham, Y. G. Lee, and G. Kim, “Short-term Load Forecasting Using XGBoost and the Analysis of Hyperparameters”, The transactions of The Korean Institute of Electrical Engineers, Vol. 68, No. 9, pp. 1073-1078, September 2019.
17. Ogunleye, A., & Wang, Q. G. “XGBoost model for chronic kidney disease diagnosis”, IEEE/ACM transactions on computational biology and bioinformatics, Vol 17, No. 6, pp. 2131-2140. 2019.
18. H. Hwang, S. Kim, and G Song, “XGBoost Model to Identify Potential Factors Improving and Deteriorating Elderly Cognition”, Korean Institute of Next Generation Computing, Vol. 14, No. 3, pp. 16-24, Jun 2018.
19. Ma, X., Sha, J., Wang, D., yu, Y.,Yang, Q., and Niu, X., “Study on a prediction of P2P network loan default based on the machinelearning LightGBM and XGBoost algorithms according to different highdimensional data cleaning”, Electronic Commerce Research and Applications, Vol. 31, pp. 24-39. 2018.
20. Ke, G., Meng, Q., Finley, T., Wang,T., Chen, W., Ma, W., ..., and Liu, T. Y., “Lightgbm: A highly efficient gradient boosting decision tree”, Advances in neural information processing systems, Vol. 30, pp. 3146-3154, 2017.
21. Prokhorenkova, L., Gusev,G., Vorobev, A., Dorogush, A. V., and Gulin, A., “CatBoost: unbiased boosting with categorical features”. arXiv preprint arXiv:1706.09516. 2017.
22. Defense Advanced Research Projects Agency, Explainable Artificial Intelligence (XAI)[Internet]., Available: https://www.darpa.mil/program/explainable-artificial-intelligence.
23. S. M. Lundbergand S. I. Lee, “A Unified Approach to Interpreting Model Predictions”, Advancesin Neural Information Processing Systems, Vol. 2017-December, No. Section 2, pp. 4766–4775, Dec, 2017.
24. J. H. Ahn, “Explanable artificial intelligence and artificial intelligence.”, wikibooks Pub, ch 05, pp168-171, 2020.
25. Bellman. R. Adaptive control processes: A guided tour, Princeton University Press, Princeton, 1961.
26. Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., ... &Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. the Journal of machine Learning research, 12, 2825-2830.
27. Bergstra, J., Bardenet, R., Bengio, Y., & Kégl, B., Algorithms for hyper-parameter optimization. In : 25th annual conference on neural information processing systems (NIPS 2011), Vol. 24. Neural Information Processing Systems Foundation, 2011.
28. S. H. Mun, "An Analysis on Factors Affecting Industrial Accidents.", Social Welfare Policy, Vol 20, pp. 155-169, 2004.
29. K. S. Chung, K. S. Hong, "A Study on Industrial Accident Cases by an Application of Correlation Analysis", Journal of the Korean Society of Safety, Vol 14, No. 1, pp. 141-149, March 1999.
30. Y. Kim, "The Characteristics of Occupational Injury in Small Manufacturing Factory", Journal of the Korean Society of Safety, Vol 13, No. 2, pp. 145-150, 1998.

저자소개

오형록(Hyung-Rok Oh)

2014년 : 아주대학교 E-business (경영학사)

2020년 : 연세대학교 정보대학원 (비즈니스 빅데이터 분석 트랙 석사과정)

2020년~현 재: 연세대학교 정보대학원 비즈니스 빅데이터 분석 트랙 석사과정

※관심분야:Big Data Analysis, Data Mining, Machine Learning 등

손애린(Ae-Lin Son)

2009년 : 건국대학교 경영학과 (경영학사)

2020년 : 연세대학교 정보대학원 (비즈니스 빅데이터 분석 트랙 석사과정)

2020년~현 재: 연세대학교 정보대학원 비즈니스 빅데이터 분석 트랙 석사과정

※관심분야:Big Data Analysis, Data Mining, Machine Learning 등

이준기(ZoonKy Lee)

1985년 : 서울대학교 컴퓨터사이언스 (학사)

1991년 : 카네기멜론대학 사회심리학 (석사)

1999년 : 남가주 대학교 경영정보학 (박사)

2006년~현 재: 연세대학교 정보대학원 교수

※관심분야:Big Data Analytics, Digital Transformation, Open Collaboration 등