배관 누수 감지를 위한 트리플렛 신경망을 활용한 이상치 분포 분리
Copyright ⓒ 2024 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
초록
본 논문에서는 스마트 공정의 배관 누수 감지 문제를 해결하기 위해 트리플렛 네트워크 기반의 이상 탐지 방법을 제안한다. 기존의 머신러닝과 딥러닝 기법은 부족한 데이터 수뿐만 아니라, 데이터 잡음으로 인해 정상과 누수 데이터의 분포가 섞여 있음을 문제로 삼고 이는 정확한 누출 감지에 어려움이 있음을 설명한다. 제안한 방법은 트리플렛 신경망을 통해 정상 데이터와 누수 데이터의 잠재 벡터를 분리하여 잡음 문제 및 데이터 희소성 문제를 해결한다. 그 결과 비교 모델보다 높은 F1 점수를 보였으며, 그 중에서도 트리플렛 신경망을 적용한 CNN 모델이 가장 우수한 F1 점수와 강건성을 보였다. 그러나 한 번의 실수가 크게 작용하는 배관 누수 감지 문제에서는 더 높은 F1 점수를 기록할 필요가 있음을 언급한다.
Abstract
This study proposes a triplet network-based anomaly detection method to solve the problem of pipe-leak detection in smart processes. Existing machine learning and deep learning techniques suffer from not only insufficient data numbers but also data noise, which causes the distribution of normal and leaky data to be mixed, making it difficult to accurately detect leaks. The proposed method solves the noise and data sparsity problems by separating the latent vectors of normal and leaky data through a triplet neural network. The results show higher F1 scores than comparative models do, and the convolutional neural network model with the triplet neural network has the best F1 score and robustness. However, it is noted that higher F1 scores are needed to address the pipe-leak detection problem, where a single mistake plays a major role.
Keywords:
Leakage Detection, Anomaly Detection, Triplet Network, Machine Learning, Deep Learning키워드:
누수 감지, 이상치 탐지, 트리플렛 신경망, 기계 학습, 딥러닝Ⅰ. 서 론
최근 제4차 산업이 대두되면서 정보통신기술(ICT; Infortion & Communications Technology) 기반 공공 서비스가 가속화되고 있다. 이에 따라 스마트 농업(Smart Farm) 분야에서는 정보통신기술, 인공지능(AI; Artificial Intelligence) 등을 활용해 작물 생육을 위한 최적의 환경을 구축하고, 실시간 모니터링으로 관리할 수 있게 되었다[1],[2]. 스마트 공장(Smart Factory) 분야는 현재 무거운 철강재를 운반하는 크레인에 인공지능(AI)를 적용하여, 효율적으로 재료를 운반하는 모습을 볼 수 있으며, 사람의 개입 없이 공장을 운영하는 것을 목표로 한다[3]. 스마트 도시 분야는 화재를 사전에 감지하는 시스템[4]을 개발하는 등 계속 발전하고 있다. 이러한 발전은 스마트 농장, 스마트 공장, 스마트 도시뿐만 아니라 여러 분야에서 정보통신기술(ICT)을 활용한 효율적이고 안전한 공공 서비스 제공을 가능하게 하고 있다.
물은 인간의 삶과 사회 발전에 필수적인 자원이며, 물을 효율적으로 관리하고 사용하는 것은 중요하다. 그러나, 물과 관련된 산업에서는 노후화된 시설, 관리 시스템의 비효율성, 인력 부족 등의 문제로 인해 물 손실, 환경 오염, 안전사고 등의 문제가 발생하고 있다. 멕시코 시티의 상수도 누수율 40%[5], 경기 성남시 수내교 안전 진단 불량 등급으로 인한 전면 철거 사례[6] 등은 물 관리 시스템의 비효율성을 보여주고 있다.
이러한 문제를 해결하기 위해 물과 관련된 산업에서는 정보통신기술 및 인공지능을 도입한 스마트 관리 시스템의 도입이 필요하다. 공정 배관 누수를 사전에 감지함으로써 물 손실, 환경 오염, 안전사고 등의 문제들을 방지할 수 있다. 따라서 공정 배관 누수 감지 기술의 개발은 매우 중요함을 알 수 있다.
1-1 관련 연구
표 1은 배관 누수 감지 문제를 해결하기 위해 머신 러닝 및 딥러닝 기법들을 활용한 연구이다. M. Zhou[7]는 배관 누수 탐지 및 위치 파악을 위해 앙상블 전이 학습 1차원 컨볼루션 신경망(TL1DCNN; Transfer Learning 1D Convolution Neural Network)을 제안하였다. S. Chen[8]은 자가 학습 완전 연결 계층(FC; Fully Connected Layer) 연관 그래프를 기반으로 한 데이터로 개선된 그래프 컨볼루션 신경망(IGCN; Improved Graph Convolution Network)을 제안하였다. Chen[9]은 YOLOv5(You Only Look Once[10]) 및 OMD-ViBe 모델을 통해 시각적 이미지 데이터로 배관 누수를 탐지하는 방법을 제안하였고, Ji, Honggeun[11]은 열화상 카메라 이미지 데이터도 함께 사용하는 방법을 제안했다. Ganjour Mazaev[12], S. Lee[13]는 각자 전통적인 머신러닝 기법인 가우시안 나이브 베이즈 분류(Gaussian Naive Bayes Classification)과 XGBoost(eXtreme Gradient Boosting)를 통해 누수 탐지를 하였다. 공정 배관 누수는 드물게 발생하는 현상이기 때문에, 누수 데이터를 확보하기에 어려움이 있다. 대부분의 데이터는 정상 데이터이며, 누수 데이터는 매우 적은 비율을 차지한다. 이러한 클래스 불균형 문제는 모델 성능 저하를 야기할 수 있다. Spandonidis[14]는 이런 문제를 해결하기 위해 이상치 탐지(Anomaly Detection) 기법인 LSTM 오토 인코더(LSTM AE; Long Short Term Memory AutoEncoder)를 제안하였다. 그러나 실제 산업 환경에서 다양한 소음과 잡음이 포함되는 문제를 해결하진 못하였다.
1-2 해결 방안
그림 1은 제4차 USG AI·데이터 문제해결 제조혁신 경진대회[15]의 공정 배관 누수 여부를 표현한 스펙트로그램 데이터셋을 t-SNE(t-Distributed Stochastic Neighbor Embedding) 알고리즘을 활용해 정상 데이터(클래스 0)과 누수 데이터(클래스 1)의 분포로 시각화하였다. 노란 점은 누수데이터, 붉은 점은 정상 데이터이며, 정상 데이터 분포 내에 누수 데이터가 섞여 있는 것을 관찰할 수 있다. 이는 합성곱 신경망(CNN; Convolutional Neural Network)와 같은 일반적인 분류 모델로는 분류 경계선을 잡기 어려워 정확한 분류를 할 수 없음을 의미한다.
본 연구는 거리 공간을 학습하는 심층 메트릭 학습(Deep Metric Learning) 기법인 트리플렛 신경망(Triplet Network)[16] 를 활용하여 이 문제를 해결한다. 트리플렛 신경망은 기준 표본(Anchor Sample)와 긍정 표본(Positive Sample), 부정 표본(Negative Sample)를 인공지능 모델의 입력으로 넣어 기준 표본과 긍정 표본의 거리는 가깝게, 기준 표본과 부정 표본의 거리는 멀어지게 학습하는 신경망이다. 학습을 마친 트리플렛 신경망은 정상 데이터와 누수 데이터간의 구분할 수 있는 특징을 파악하여 데이터의 잡음이 섞인 부분을 무시하고 이상 클래스를 식별한다. 이로 인해, 잡음을 무시한 채 잠재 공간을 추출한다면 분류 경계선을 잡기 더욱 쉬워질 것이라 기대한다. 또한, 트리플렛 표본 추출(Triplet Sampling)을 통해 현실 세계에서 흔히 일어나는 데이터 수가 부족한 문제를 해결한다. 본 논문은 트리플렛 신경망을 적용한 모델과 타 모델의 성능 비교를 통해 트리플렛 신경망이 누수 감지 문제에 적합함을 입증한다.
1-3 개요
본 논문은 다음과 같은 내용으로 구성된다. 2장 방법 부문에서는 트리플렛 신경망 학습을 위한 기준 표본, 긍정 표본, 부정 표본 간의 L2 거리를 계산하는 손실 함수에 관해 설명하고 기본 모델로 사용한 합성곱 신경망과 LSTM(Long Short Term Memory) 모델 구성을 소개한다. 그리고 본 논문에서 사용한 USG AI 공정 배관 누수 감지 데이터셋을 설명하고 데이터 전처리 과정을 소개한다. 3장 결과 부문에서는 실험 결과를 제시해 트리플렛 신경망이 누수 감지 문제에 적합함을 입증하고 본 연구의 한계점을 논의하며 향후 연구 방향을 모색한다.
Ⅱ. 방 법
본 논문은 기본 CNN 모델과 기본 LSTM 모델을 구성하고 각 모델에 트리플렛 신경망을 적용하고자 한다.
2-1 기본 CNN 모델의 구조
기본 CNN 모델은 3×3 필터 Convolution Layer 하나와 1×1 필터 Convolution Layer 하나, Max Pooling Layer 하나로 이루어진 Convolution Block을 구성단위로 삼아 총 5번 계층 중첩하여 모델 아키텍처를 구성하였다. 1×1 필터 Convolution Layer는 채널 수를 줄이기 위해 배치하였다. 그 후에는 완전 연결 계층이 이어진다. 완전 연결 계층은 합성곱 신경망에서 추출된 특징의 전체적인 특성과 패턴을 기반으로 최종 출력을 생성하여 입력 데이터에 대한 예측을 수행한다.
2-2 기본 LSTM 모델의 구조
트리플렛 신경망의 기본 모델로 LSTM을 활용해 아키텍처를 구성하였다. 3개의 단 방향 LSTM Layer를 통해 잠재 벡터를 추출하고 완전 연결 계층을 수행하도록 구성하였다. 각 층은 네트워크의 전체적인 특성과 패턴을 학습하고, 최종 출력을 생성하여 입력 데이터에 대한 예측을 수행한다.
2-3 트리플렛 신경망 구조
트리플렛 신경망의 주요 목표는 임베딩 공간에서 기준 표본과 긍정 표본 간의 거리를 최소화하고, 동시에 기준 표본과 부정 표본 간의 거리를 최대화하는 방향으로 기본 모델의 파라미터를 학습하는 것이다. 기준 표본과 긍정 표본, 부정 표본의 공간 벡터 F(A), F(B), F(N)은 동일한 파라미터와 가중치를 가진 기본 모델을 통해 추출된다.
2-4 트리플렛 손실 함수
식 1은 기준 표본과 긍정 표본 간의 거리를 계산하는 유클리드 노름(L2 Norm)이다. F(A)는 기준 표본의 임베딩을 나타내고, F(P)는 긍정 표본의 임베딩을 나타낸다. 식 1의 A는 기준 표본을 의미하고, P는 긍정 표본을 의미한다.
(1) |
식 2는 기준 표본과 부정 표본 간의 거리를 계산하는 L2 norm이다. F(N)는 부정 표본의 임베딩을 나타낸다. 식 2의 N은 부정 표본을 의미한다.
(2) |
식 3은 트리플렛 손실함수(Triplet Loss Function)의 정의로 식 1과 식 2를 기반한다.
(3) |
식 3의 손실 함수를 최소화하는 방향으로 학습을 진행하면서, 네트워크는 임베딩 공간에서 원하는 패턴을 학습하게 된다. 트리플렛 신경망은 이런 방식으로 데이터의 특성을 뚜렷하게 표현하고, 클래스 간의 거리를 효과적으로 조절하여 분류 성능을 향상시킬 수 있다. a는 트리플렛 손실함수에서의 마진값으로 기준 표본과 부정 표본 간의 거리가 긍정 표본과의 거리보다 얼마나 더 멀어야 하는지를 정의하는 매개변수이다. 낮은 값의 마진은 클래스 간의 구분이 충분히 이루어지지 않고, 큰 값의 마진은 학습이 과도하게 어려워져 손실함수 값이 마진 값 이하로 수렴하지 않고 마진 값에 고정되는 충돌 현상이 발생할 수 있다. 충돌 현상은 모든 데이터들이 클래스 구분 없이 한 점으로 모여 기준 표본과 긍정 표본, 부정 표본 모두 거리가 0이 되는 것을 의미한다. 따라서 적절한 마진 값을 설정하는 것이 중요하다.
2-5 트리플렛 샘플링
그림 5는 데이터 수를 임의로 설정하여 분류 모델과 트리플렛 모델에 대한 학습 샘플링을 시각화한 것이다. 분류 모델의 경우, 학습 데이터의 수는 정상 클래스와 누수 클래스 간의 총합으로 정의된다. 그러나 트리플렛 모델은 모든 데이터의 합인 기준 표본과 기준 표본을 제외한 같은 클래스의 긍정 표본, 그리고 기준 표본과 다른 클래스의 부정 표본을 각각 선택하여 사용한다. 이로 인해 학습 데이터의 수가 지수적으로 증가하는 것을 관찰할 수 있다. 트리플렛 신경망은 매 학습 단계마다 표본, 긍정 표본, 부정 표본을 동적으로 추출하여 매번 다른 데이터 집합을 학습하게 된다.
Ⅲ. 실 험
3-1 USG AI 공정 배관 누수 감지 데이터셋
제안하는 방법의 검증을 위해 제4차 USG AI·데이터 문제해결 제조혁신 경진대회[15]의 공정 배관 누수 여부를 표현한 스펙트로그램 데이터 사용한다. 데이터의 수는 총 6,000개이며, 정상 데이터 3,988개, 누수 데이터 2,012개이다. 데이터의 첫 번째 차원은 스펙트로그램의 주파수를 나타내고, 두 번째 차원은 시간을 나타내는 2차원 형태의 데이터 셋이다. 그림 6은 데이터의 크기 분포 히스토그램이며, x 축은 두 번째 차원의 크기를 나타내고, y 축은 해당하는 차원 크기 데이터의 개수를 나타낸다. 데이터의 크기가(129, 129)부터(129, 1011)까지 다양하다. 그림 7은 다양한 크기의 데이터들을 Zero Padding을 통해(129, 1011) 크기로 전처리하였다. Zero Padding은 본 데이터 내용이 가운데에 위치하도록 양쪽으로 0 값을 추가하였다. 마지막으로 데이터에 채널 축을 부여하기 위해(129, 1011, 1)로 전처리하였다.
3-2 누수 여부 분류 성능
표 2는 잔차 학습[17](Residual Learning) 기반인 ResNet18, ResNet34, ResNet50 모델과 AutoEncoder를 통한 이상치 탐지(Anomaly Detection), 그리고 트리플렛 신경망의 기본 모델이 된 CNN, LSTM과 Triplet-CNN, Triplet-LSTM을 평균 5겹 교차 검증을 통해 평가하였다. 각 4,800개의 데이터를 학습 데이터셋으로 사용하고, 1,200개의 데이터를 평가 데이터셋으로 사용하였다. ResNet18, ResNet34, ResNet50 모델은 F1 점수가 각 0.4358, 0.4194, 0.2640으로 점점 내려가는 것을 볼 수 있다. 오토인코더는 0.1462 F1 점수로 비교 모델 중 가장 낮은 점수를 기록하였다. 트리플렛 신경망의 기본이 되는 CNN과 LSTM은 각 0.6667, 0.7056을 기록하였고, 트리플렛 신경망을 적용한 결과 CNN과 LSTM 모두 약 2%가 증가하여 0.7254, 0.6843을 기록하였다. 마진값은 0.2로 설정하였고, 트리플렛 샘플링을 통해 8,000개의 학습 데이터셋을 사용하였다. 마진값과 데이터셋의 개수는 충돌 현상이 발생하지 않도록 파라미터를 조정하였다. 스펙트로그램 데이터로부터 공간-시간 특징을 모두 학습하는 LRCNN은 각 공간과 시간만을 학습하는 CNN과 LSTM에 비해 매우 낮은 0.4302 F1 점수를 기록하였다. 그림 8은 5겹 교차검증 결과를 박스 플롯으로 표현하였다. CNN, LSTM, Triplet LSTM은 모델의 강건성이 낮아 가장 낮은 분류 성능이 이상치로 표기되는 반면, 트리플렛 합성곱 신경망은 가장 낮은 F1 점수가 0.6552로 강건성을 보여준다.
Ⅳ. 결 론
본 논문에서는 배관 누수를 감지하는 기존의 기계학습, 딥러닝 기법들에서 데이터 잡음 문제와 데이터 수 부족 문제들을 언급하고, 트리플렛 신경망을 활용해 정상 데이터와 비정상 데이터를 분리할 수 있는 특징을 학습함으로써 두 클래스가 분포상에서 잘 떨어져 있는 것을 관찰하였다. 또한, 다른 비교 모델들을 비교할 때 기존 모델로는 배관 누수 감지를 하지 못하던 과제를 트리플렛 신경망 기법을 통해 가능해졌다는 점에 의의가 있다. 이는 트리플렛 샘플링으로 인한 데이터 수의 증가와 트리플렛 신경망의 학습으로 인한 데이터 잡음 제거가 기여했다고 볼 수 있다. 그러나, 제안한 트리플렛 합성곱 신경망 모델은 F1 점수 성능으로 보아 아직 실제 적용하기에 무리가 있다. 한 번의 실수가 치명적인 누수 감지 과제에서는 더 높은 F1 점수를 기록할 방법론을 강구할 필요가 있다. 향후, 트리플렛 샘플링 동작을 개선하거나 트리플렛 손실 함수의 충돌 현상을 방지할 수 있는 새로운 손실 함수를 정의하고자 한다.
References
- Nongmin News, Government to Promote Second-Generation Smart Farms, Expand Public Worker Payment System, Strengthen Tax Incentives [Internet]. Available: https://www.nongmin.com/article/20240304500644, .
- Newsis. Lotte Information & Communication, Launches Smart Farm Platform 'Urban Green Farm' [Internet]. Available: https://www.newsis.com/view/?id=NISX20240227_0002640339&cID=10406&pID=13100, .
- The JoongAng, Steel Mills and Battery Factories, AI Rolls with the Punches [Internet]. Available: https://www.joongang.co.kr/article/25233432, .
- F. M. Talaat and H. ZainEldin, “An Improved Fire Detection Approach Based on YOLO-v8 for Smart Cities,” Neural Computing and Applications, Vol. 35, No. 28, pp. 20939-20954, 2023. [https://doi.org/10.1007/s00521-023-08809-1]
- KBS News. Mexico City, Water Shortage Severe [Internet]. Available: https://news.kbs.co.kr/news/pc/view/view.do?ncd=7904610&ref=A, .
- The Hankyoreh. Seongnam-si to Rebuild E-rated Underwater Bridge after Demolishing the Entire Structure [Internet]. Available: https://www.hani.co.kr/arti/area/capital/1108594.html, .
- M. Zhou, Y. Yang, Y. Xu, Y. Hu, Y. Cai, J. Lin, and H. Pan, “A Pipeline Leak Detection and Localization Approach Based on Ensemble TL1DCNN,” in IEEE Access, Vol. 9, pp. 47565-47578, 2021. [https://doi.org/10.1109/ACCESS.2021.3068292]
- S. Chen, Y. Wang, W. Zhang, H. Zhang, and Y. He, “Leak Detection in Water Supply Network Using a Data-Driven Improved Graph Convolutional Network,” in IEEE Access, Vol. 11, pp. 117240-117249, 2023. [https://doi.org/10.1109/ACCESS.2023.3326470]
- Z. Li, S. Kong, P. Tang, J. Hu, J. Chen, and A. Wang, “A Leak Detection Method for Heat Network Pipes Based on YOLOv5 and Automatic Region Growing Algorithm,” in Proceedings of 2023 8th International Conference on Image, Vision and Computing (ICIVC), IEEE, 2023.
- J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-time Object Detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016.
- H. Ji, C. An, M. Lee, J. Yang, and E. Park, “Fused Deep Neural Networks for Sustainable and Computational Management of Heat-transfer Pipeline Diagnosis,” Developments in the Built Environment, Vol. 14, 100144, April 2023. [https://doi.org/10.1016/j.dibe.2023.100144]
- G. Mazaev, M. Weyns, F. Vancoillie, G. Vaes, F. Ongenae, and S. Van Hoecke, “Leak Localization in Water Distribution Networks by Directly Fitting the Learning Parameters of a Gaussian Naive Bayes Classifier,” in Proceedings of 2022 IEEE International Conference on Big Data, pp. 4854-4859, Osaka, Japan, 2022. [https://doi.org/10.1109/BigData55660.2022.10020580]
- S. Lee and B. Kim, “Machine Learning Model for Leak Detection Using Water Pipeline Vibration Sensor,” Sensors, Vol. 23, No. 21, 8935, 2023.
- C. Spandonidis, P. Theodoropoulos, F. Giannopouolos, N. Galiatsatos, and A. Petsa, “Evaluation of Deep Learning Approaches for Oil & Gas Pipeline Leak Detection Using Wireless Sensor Networks,” Engineering Applications of Artificial Intelligence, Vol. 113, 104890, August 2022. [https://doi.org/10.1016/j.engappai.2022.104890]
- AIFactory. [4th] Problem 1. Detecting Images of Manufacturing Sites (Beginner) [Internet]. Available: https://aifactory.space/task/2561/overview, .
- E. Hoffer and N. Ailon, “Deep Metric Learning Using Triplet Network,” in Similarity-Based Pattern Recognition, pp. 84-92, Cham: Springer, 2015.
- K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016.
저자소개
2022년∼현 재: 경상국립대학교 컴퓨터공학과 학부생
※관심분야:인공지능(Artificial Intelligence), 증강현실(Augmented Reality), 설명 가능한 인공지능(XAI) 등
2023년:연세대학교(공학박사)
2023년~현 재: 경상국립대학교 컴퓨터공학과 조교수
※관심분야:인공지능(Artificial Intelligence), 딥러닝(Deep Learning) 등
2012년:한국과학기술원(공학석사)
2017년:한국과학기술원(공학박사)
2018년~현 재: 경상국립대학교 컴퓨터공학과 부교수
※관심분야:증강현실(Augmented Reality), 컴퓨터비전(Computer Vision) 등