[ Article ]

Journal of Digital Contents Society - Vol. 26, No. 9, pp.2577-2587

ISSN: 1598-2009 (Print) 2287-738X (Online)

Print publication date 30 Sep 2025

Received 06 Aug 2025 Revised 03 Sep 2025 Accepted 09 Sep 2025

DOI: https://doi.org/10.9728/dcs.2025.26.9.2577

RPM 차이를 고려한 이중 센서 융합 및 셀프 어텐션 기반 베어링 결함 진단 기법

장보수¹ ; 김철홍²^{, *}

1숭실대학교 컴퓨터학과 석사과정
2숭실대학교 컴퓨터학부 교수

A Bearing Fault Diagnosis Method for Varying Rotational Speed using Dual-Sensor Fusion and a Self-Attention Mechanism

Bosu Chang¹ ; Cheol Hong Kim²^{, *}

1Master’s Course, Department of Computer Science and Engineering, Soongsil University, Seoul 06978, Korea
2Professor, School of Computer Science and Engineering, Soongsil University, Seoul 06978, Korea

Correspondence to: ^*Cheol Hong Kim Tel: +82-2-820-0674 E-mail: cheolhong@ssu.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

베어링의 손상은 산업 현장에서 사용되는 기계 설비들의 주요 고장 원인 중 하나로, 이를 빠르고 정확하게 진단하기 위해 최근 많은 연구들이 딥러닝 모델을 이용한 고장 진단에 집중되고 있다. 기존의 단일 센서 기반 결함 진단 및 이중 센서 데이터 결합을 통한 고장 진단 기법은 베어링의 분당회전수 변화에 취약하여 일반화 성능이 저하되는 한계가 발견되었다. 본 연구에서는 음향 방출 신호와 진동 신호를 개별적으로 STFT 기반의 스펙트로그램으로 전처리한 후, VGG16 기반 커스텀 CNN 블록을 통해 글로벌 및 세부 특징을 추출하고, 이를 셀프 어텐션을 활용한 이중 센서 융합 기반 결함 진단 기법을 제안한다. 제안하는 셀프 어텐션 기반 모델은 기존 단일 센서 기반 기법 및 이중 센서 데이터 결합 기반 진단 기법보다 향상된 진단 정확도를 보이며 분당회전수 변화에도 일관된 성능을 유지하는 것이 확인되었다.

Abstract

Damage to bearings is among the primary causes of failure in mechanical facilities used in industrial sites. In recent years, many studies have considered fault diagnosis using deep learning models to quickly and accurately diagnose such damage. However, existing defect and fault diagnosis techniques based on single and dual sensors are limited in that their generalization performance can be reduced with changes in the rate of rotation of the bearings. In this study, we extracted global and detailed features from short-time Fourier transform-based spectrogram data obtained by preprocessing sound emission and vibration signals using a custom convolutional neural network based on VGG-16 model. We also propose a method to diagnose defects using dual-sensor fusion and a self-attention mechanism. Our experimental results confirm that the proposed self-attention-based model diagnosed defects more accurately than existing techniques based on single and double sensors and performed consistently despite changes in rotational speed.

Keywords:

Bearing Fault Diagnosis, Dual-Sensor Fusion, Self-Attention, Deep Learning, Feature Fusion

키워드:

베어링 고장 진단, 이중 센서 데이터 융합, 셀프 어텐션, 딥러닝, 특징 융합

Ⅰ. 서 론

산업 현장에서 사용되는 기계 설비는 수많은 부품으로 구성되어 있으며, 기계 설비의 부품들이 정상적으로 동작해야 생산성을 유지하고 유지보수 비용을 절감할 수 있다. 회전 기계의 베어링은 회전축을 지지하고 마찰을 줄이는 역할을 하며, 기계의 성능과 수명에 직접적인 영향을 미치는 중요한 핵심 부품이다. 베어링이 손상되면 기계의 효율성이 저하될 뿐만 아니라, 심각한 경우 설비 전체의 고장이 발생하여 생산이 중단되고 유지보수 비용이 급증할 수 있다.

최근에는 예측 기술의 발전으로 기계 상태를 실시간으로 모니터링하고 고장을 사전에 감지하는 연구들이 활발히 진행되고 있다. 고장 예측 연구의 핵심은 센서로 얻은 신호를 활용한 데이터 분석이며, 대표적으로 음향 방출 신호와 진동 신호, 전압 등이 베어링 결함 진단에 가장 많이 사용된다[1].

음향 방출 신호(Acoustic Emission Signal)는 베어링 균열 발생 시 고주파 신호를 감지할 수 있어 비접촉 측정에 유리하지만, 산업 환경에서는 배경 소음과 신호 감쇠로 인해 결함 탐지 성능이 저하될 수 있다[2]. 반면, 진동 신호(Vibration Signal)는 시간 도메인(Time Domain), 주파수 도메인(Frequency Domain), 시간-주파수 도메인(Time-Frequency Domain) 분석을 통해 결함을 탐지하는 방식이다[3]. 진동 신호 또한 외부 환경 변화나 RPM 변동, 센서 위치 등에 따라 신호 왜곡이 발생하기 쉬워, 복잡한 산업 환경에서는 일반화 성능이 저하될 수 있는 단점이 있다.

이처럼 단일 센서 기반 진단 기법은 개별적인 신호 특징을 분석하는 데는 효과적이나, 하나의 물리적 신호 유형에 전적으로 의존하기 때문에 RPM과 같은 외부 환경 변화에 의해 신호 특성이 쉽게 변할 수 있다. 위와 같은 원인으로 훈련된 모델이 실제 다양한 운전 조건에서는 오류를 유발할 가능성이 높아 강건성이 부족하다는 한계를 가진다[4].

이러한 구조적 한계를 보완하고자 기존 연구에서는 다중 센서를 활용한 기법들이 제안되었다[5],[6]. 기존의 이중 센서 기반 데이터 융합 연구에서는 주로 특징 벡터를 단순히 결합(Feature Concatenation)하거나, 다중 입력 신경망(Multi-Input Neural Networks) 구조를 활용하는 방식이 주로 사용되었다.

딥러닝 기반 고장 진단 연구가 활발히 이루어지면서, Convolutional Neural Networks(CNN) 및 트랜스포머와 같은 심층 신경망(Deep Neural Networks)이 베어링 결함 진단에도 자주 적용되고 있다. CNN 모델은 VGG16과 같은 사전 학습된(Pre-trained) 모델을 활용하면 적은 양의 데이터로도 높은 성능을 기대할 수 있다[7]. 그러나 기존 CNN 기반 방법 중 이중 데이터를 결합만 하는 방식은 데이터 간의 관계를 학습하는 부분이 부족하여 RPM 변화와 같은 기계 동작 환경 변동이 큰 환경에서는 정확성 유지에 취약한 경향이 있다.

본 연구에서는 기존 이중 센서 데이터 결합 기반 진단 기법의 한계를 보완하기 위해 셀프 어텐션(Self-Attention)을 활용한 이중 센서 융합 기반 베어링 결함 진단 기법을 제안한다[8]. 기존 연구에서는 음향 방출 신호와 진동 신호를 단순히 특징 벡터를 결합하는 이중 결합 방식을 사용했지만, 데이터 간 관계를 충분히 학습하지 못해 성능이 제한적이었다. 이를 개선하기 위해 본 연구에서는 셀프 어텐션을 활용하여 두 신호의 특징을 결합하여 학습하는 기법을 제안한다[9]. 제안하는 셀프 어텐션을 활용한 이중 센서 융합 기반 결함 진단 기법은 Query(Q), Key(K), Value(V) 행렬을 생성한 후, Query와 Key 간의 내적(Dot Product)을 수행하고 소프트맥스(Softmax) 연산을 적용하여 데이터 간의 관계를 동적으로 조정한다. 이후, 가중치를 적용한 Value를 활용하여 가장 중요한 특징을 강조하는 방식으로 동작한다. 본 연구에서는 베어링에서 수집되는 음향방출 및 진동 신호 데이터를 효과적으로 활용하기 위한 사전처리 기법으로는 STFT(Short-Time Fourier Transform)를 적용하였다. STFT로 사전 처리된 스펙트로그램(Spectrogram) 이미지 데이터를 활용하여 기존 단일 센서 기반 모델 및 특징 결합(Feature Concatenation) 모델과 비교하여, 제안하는 이중 센서 융합 기반 결함 진단 기법이 결함 진단 성능 향상에 미치는 영향을 구체적으로 분석하고자 한다[10]. 이를 통해, 외부 환경 변화에 취약한 기존 단일 센서 및 단순 결합 기반 진단 기법을 해결하기 위한 방안으로 음향 방출과 진동 신호를 효과적으로 융합하는 셀프 어텐션 기반 결함 진단 기법을 제안한다. 제안 기법을 통해서 주파수 특성 변동을 효과적으로 반영하는 데이터 표현을 구축하고, 사전 학습된 VGG16 네트워크와 맞춤형 CNN 블록을 통해 음향 방출 및 진동 신호에서 특징을 효과적으로 추출하며, 셀프 어텐션 메커니즘을 이용하여 두 센서 데이터 간 상호작용을 학습하여 변화하는 베어링 분당회전수 조건에서도 높은 고장 진단 성능을 제공하는 것을 목표로 한다.

본 논문의 구성은 다음과 같다. 2장에서는 기존의 베어링 고장 진단 기법과 한계점을 살펴보고, 3장에서는 제안하는 셀프 어텐션을 활용한 이중 센서 융합 기반 베어링 결함 진단 기법에 관해 기술한다. 4장에서는 기존 고장 진단 기법과 제안하는 기법의 전단 정확도를 실험 결과를 통해 비교 및 분석하고, 5장에서는 결론 및 향후 연구를 기술한다.

Ⅱ. 관련 연구

베어링 결함 발생을 예측하는 기술의 핵심은 베어링 동작 중에 발생하는 센서 신호를 기반으로 이상 상태를 분석하는 진단 방식이며, 대표적으로 진동 신호와 음향 방출 신호가 주요 데이터로 활용되고 있다[1],[2].

초기 연구에서는 이러한 신호를 단독으로 활용하여 시간, 주파수, 또는 시간-주파수 영역에서 특징을 추출한 뒤, SVM, K-NN, 결정 트리 등의 머신러닝 분류기를 통해 결함을 예측하였다[3],[11]–[13]. 예를 들어, Tandon과 Choudhury[1]는 음향 방출 센서가 고주파 대역에서, 진동 센서는 중저주파 대역에서 민감하게 결함을 탐지할 수 있다는 점을 정리하며, 두 센서가 서로 다른 정보를 제공한다는 점을 강조하였다. 또한 음향 방출 신호를 2D 스펙트로그램으로 변환한 후 이를 GAN 기반 모델의 입력으로 활용한 사례도 있으며, 이는 고주파 신호 기반 결함 정보를 시각적으로 재구성함으로써 모델 학습의 표현력을 높이는데 기여했다[14]. 하지만 전통적인 분석 기법은 RPM 변화, 비정상 조건, 센서 노이즈 등의 외부 환경 변화에 민감하여 일반화 성능이 낮아진다는 한계를 지닌다.

이를 극복하기 위해 최근에는 딥러닝 기반 기법, 특히 CNN을 활용한 기법이 주목받고 있다. CNN은 강건한 특징 추출 능력을 바탕으로 복잡한 신호 패턴을 효과적으로 인식할 수 있으며, 음향 방출 및 진동 신호는 1D 원시 형태로는 직접 입력하기 어려우므로, 일반적으로 STFT를 통해 2D 스펙트로그램 이미지로 변환한 후 CNN의 입력 이미지로 활용하는 방식이 사용된다[10],[11],[15].

이 과정에서 생성된 스펙트로그램은 정규화 및 크기 조정 과정을 거쳐 사전 학습된 CNN 백본 네트워크에 입력되며, 네트워크의 중간 계층에서는 세부적인 엣지나 질감 정보를, 상위 계층에서는 전체적인 구조나 패턴을 추출하게 된다[6],[7].

그림 1은 음향 방출 신호 또는 진동 신호 중 하나를 단독 입력으로 사용하는 단일 센서 기반 CNN 모델의 처리 과정을 나타내는 것으로, 입력부터 특징 추출, 분류기 통과 및 결과 출력까지의 전형적인 흐름을 시각화하고 있다.

Fig. 1.

The entire process of a single sensor-based model

표 1에 나타난 바와 같이 음향 방출 신호와 진동 신호는 서로 보완적인 특성을 갖는다. 음향 방출 신호는 고주파 대역에서 초기 결함을 민감하게 감지할 수 있지만, 진동 신호는 구조적 결함에 강인한 특성을 가진다[4]. 이러한 단일 센서 기반 진단 구조와 관련하여 Xu et al.[16]은 음향 방출 신호 또는 진동 신호 중 하나를 입력으로 하여 CNN과 트랜스포머를 결합한 혼합형 모델을 제안하였으며, 여러 환경에서도 안정적인 진단 성능을 입증하였다. 그러나 이 구조는 단일 센서에 국한되어 있으며 센서 간 상호보완적 정보 융합에는 한계가 있었다.

Table 1.

Comparison of acoustic emission and vibration signals in bearing fault diagnosis

이에 따라 최근에는 두 종류 센서의 상보적 특성을 동시에 활용할 수 있는 이중 센서 기반 결합 구조가 주목받고 있다. 이 방식은 음향 방출 센서와 진동 센서로부터 얻은 특징을 통합하여 보다 높은 진단 정확도를 달성하고자 한다. 이러한 한계를 보완하려는 방법으로 음향 방출 신호와 진동 신호를 동시에 활용하는 이중 센서 기반 병렬 진단 구조가 제안되었으며, 두 센서의 보완적인 정보를 결합하여 보다 향상된 진단 성능을 확보하고자 하는 연구가 활발히 시도되고 있다[5],[17].

데이터 융합 기술은 여러 가지 센서 등에서 수집된 데이터를 통합하여 하나의 정보로 추출하는 기술로, 분석 기술을 활용한 모델 결합, 이중 센서 병합 방식에 유용하게 사용된다.

기존의 이중 센서 병합 방식은 그림 2와 같이 이중 신호를 각각 독립적으로 처리한 후 각 센서로부터 추출된 특징 벡터를 단순히 연결하여 다중 입력 신경망을 통해 예측 단계에서 병합하는 구조이다. 이를 최종 분류기로 입력하는 구조이며, 단일 센서의 특징만으로 높은 성능을 끌어낼 수 없다는 단점을 해결하고 구현이 간단함과 동시에 계산 효율이 높다는 장점이 있다[6],[11].

Fig. 2.

Data concatenation process

이중 센서 기반 병합 방식은 대부분 정적 병합(Static Fusion) 구조에 해당한다[18]. 정적 병합은 음향 방출 신호와 진동 신호에서 추출된 특징 벡터를 단순 연결하거나 병렬 구조로 통합한 뒤, 모든 특징에 대해 동일한 중요도(Uniform Importance Assumption)를 가정하여 처리하는 방식이다. 구조가 단순하고 연산 비용이 적은 장점은 있지만 실제 결함 탐지에서 정보 간의 구분 없이 모두 동일하게 처리되기 때문에, 오히려 불필요한 정보가 모델 학습에 부정적인 영향을 미칠 수 있다. 즉, 정적 병합은 특징 간 의미적 연관성이나 상대적 중요도를 반영하지 못하는 제한적인 융합 방식이다[5]. 반면, 어텐션 기반의 동적 병합(Dynamic Fusion) 방식은 이러한 한계를 보완하기 위해 채택되었다[19]. 동적 병합은 입력된 특징 간의 상관관계 및 중요도를 학습하고, 가중치를 자동으로 부여하여, 단순 결합(Concatenation)뿐만 아니라 어텐션 블록을 통해 중요도를 반영한 가중치 재조정을 수행한다[20],[21]. 이러한 방식은 단순한 병합을 넘어서, 데이터의 맥락(Context)과 특징 간의 상호작용(Inter-Feature Interaction)을 기반으로 한 선택적 융합(Selective Fusion)을 실현할 수 있으며, 변화 조건에 맞는 특징 중심으로 가중치가 조절되어 판단의 유연성과 정확도 증가한다[21].

어텐션 기법 중 셀프 어텐션은 트랜스포머(Transformer) 모델에서 도입된 핵심 메커니즘으로, 고정된 CNN 기반 방식과 달리, 각 입력에 대한 상대적 중요도를 학습할 수 있고 주요 패턴에 더 큰 어텐션 가중치를 부여하여 특징의 차이를 둘 수 있어 기존 정적 병합 구조의 한계를 해결할 수 있다. 또한 RNN에 비해 병렬 연산 구조를 가지므로 연산 효율이 높다. 본 연구에서는 이 메커니즘을 중간 및 최종 계층에 적용하여 다중 스케일 정보 통합과 중요도 기반 병합을 동시에 구현하였다. 이 메커니즘은 자연어 처리뿐만 아니라 최근에는 신호 기반 결함 진단 분야에서도 활발히 응용되고 있으며, CNN 기반 구조와의 결합을 통해 전역 정보 학습 성능을 강화하고 있다[15],[22],[23].

특히 Vaswani et al.[24]가 제안한 트랜스포머 모델의 핵심 구성 요소로서, 셀프 어텐션은 많은 분야에 적용되며 높은 성능을 입증하고 있다.

최근에는 트랜스포머 기반 구조의 효율성을 개선하기 위한 여러 경량화 연구가 활발히 진행되고 있으며, Long-Range Arena 등에서는 다양한 셀프 어텐션 구조들의 처리 효율성과 표현 성능을 비교 분석한 바 있다[25]. 이와 관련해 Yang et al.[20], Ding et al.[21] 등의 연구는 셀프 어텐션을 CNN 기반 진단 모델에 접목해 성능 향상을 시도하였으나, 대부분 최종 출력 특징에만 어텐션을 적용하여 중간 계층의 정보 활용 측면에서는 한계가 존재하였다. 이에 따라 본 연구는 기존의 한계를 극복하여, 음향 방출 센서 및 진동 센서로부터 추출된 특징 간의 상호작용을 보다 정교하게 반영하기 위해 셀프 어텐션 기반의 병합 구조를 제안한다. 제안하는 구조는 다중 스케일 특징 추출과 동적 중요도 조정을 통해 환경 변화에도 강건한 진단 성능을 확보하도록 설계되었으며, 이에 대한 세부 구조는 3장에서 자세히 기술한다.

Ⅲ. 셀프 어텐션(Self-Attention)을 활용한 이중 센서 융합 기반 결함 진단 기법

기존의 단일 센서 기반 방식과 단순 벡터 연결에 의한 이중 센서 병합 기법은 회전수(RPM) 변화나 외부 환경 요인에 민감하게 반응하여, 진단 성능이 저하되는 한계를 지닌다. 특히, 단순 병합 구조는 음향 방출 신호와 진동 신호로부터 추출된 특징 간의 상호보완적 관계를 충분히 반영하지 못하고, 모든 특징에 동일한 중요도를 부여함으로써 정보 손실과 예측 성능 저하를 초래할 수 있다.

이러한 문제를 해결하기 위해, 본 논문에서는 음향 방출 및 진동 신호로부터 독립적으로 특징을 추출한 뒤, 셀프 어텐션 메커니즘을 적용하여 의미 있는 정보를 동적으로 강조하는 이중 센서 융합 기반 결함 진단 기법을 제안한다. 셀프 어텐션은 입력된 특징 간 상관관계를 정량적으로 계산하고, 중요도가 높은 특징에는 더 큰 가중치를 부여하여 효과적인 정보 융합을 가능하게 한다.

그림 3은 제안하는 베어링 결함 진단 구조의 전체적인 흐름을 시각화한 것이다. 본 구조는 총 네 단계로 구성된다. 먼저, 두 센서로부터 수집된 원시 신호는 각각 STFT를 통해 변환된 이미지를 사전 학습된 CNN 백본 네트워크에 입력하여 처리 후 중간 계층에서 세부 특징(Features #1), 상위 계층에서는 글로벌 특징(Features #2)을 각각 추출한다.

Fig. 3.

Bearing faults diagnosis using dual sensor fusion and self-attention

음향 방출 신호와 진동 신호로부터 생성된 특징 벡터들은, 각 특징별로 결합되어 센서 간 다중 정보가 하나의 표현으로 결합된다. 이후 각 결합된 특징 벡터는 셀프 어텐션 모듈에 입력하여, 특징 간의 상호관계와 상대적 중요도를 학습한다. 이 과정에서 특징 벡터는 3가지로 변환되며, 내적 기반의 유사도 계산 및 소프트맥스 정규화를 통해 가중치 조정이 수행된다.

어텐션 연산을 통해 동적으로 조정된 결과 벡터들은 최종적으로 통합되어 하나의 출력 벡터로 구성되며, 이 벡터는 다층 퍼셉트론 기반 분류기로 전달된다. 분류기는 이를 기반으로 4가지의 베어링의 상태를 예측하게 된다.

전체적으로 본 구조는 변화하는 RPM에 대응할 수 있도록 설계되었으며, 기존의 단일 센서 기반 방식이나 단순 병합 방식보다 뛰어난 정확도와 일반화 성능을 확보하는 데 목적이 있다. 다음 내용에서는 각 구성 요소의 세부 구조 및 동작 흐름, 그리고 실험을 통해 확인된 성능 개선 효과에 대해 구체적으로 설명한다.

3-1 데이터 전처리

음향 방출 신호 및 진동 신호는 베어링의 정상 상태와 균열 조건을 포함하여 총 4개의 클래스에 대해 수집되었다. 전체 신호 전처리 과정은 음향 방출 신호 및 진동 신호가 STFT를 통해 시간-주파수 정보를 반영한 스펙트로그램으로 변환된다. 변환된 스펙트로그램 이미지는 224×224 크기로 크기 조정되고 정규화 과정을 거친 뒤, VGG16 기반 CNN 모델의 입력으로 사용된다. 이 전처리 과정은 RPM 변화에 따른 주파수 이동 및 에너지 분포 차이를 효과적으로 반영할 수 있도록 설계되었으며, 두 센서에 동일하게 적용된다.

그림 4는 6 mm 균열 조건에서 음향 방출 센서 및 진동 센서로부터 생성된 STFT 스펙트로그램 예시를 각각 보여주며, 두 센서 신호가 포착하는 결함 특성의 차이를 시각적으로 확인할 수 있다.

Fig. 4.

(A): 6 mm STFT spectrogram acoustic emission signal, (B): 6 mm STFT spectrogram vibration signal

3-2 특징 추출 과정

본 연구에서의 데이터는는 각 센서별 디렉터리에서 불러와, 두 센서의 배치가 항상 1:1로 짝이 맞도록 페어드 제너레이터를 구성하였다. 구체적으로, 동일한 시드(seed=42)와 인덱스 기반 검증을 통해 AE와 진동 배치의 라벨이 일치함을 런타임에서 확인하였다.

본 연구에서 활용한 VGG16은 ImageNet 데이터셋으로 학습된 모델로, 다양한 시각적 패턴에 대한 일반화된 표현 능력을 갖추고 있으며, 본 논문에서는 include_top=False 설정을 통해 완전 연결 계층(Fully Connected Layer)은 제거하고 중간의 합성곱 계층(Convolutional Layers)만을 활용하였다. VGG16 백본은 동결 없이 전 레이어를 미세조정(Full Fine-Tuning)하였고, 분류 헤드는 Dense(512, ReLU, L2=0.02)–Dropout(0.5)–BN으로 구성하였다.

Fig. 5.

Dual sensor fusion-based fault diagnosis technique

제안된 구조 그림 4에서는 특히 VGG16의 block2_conv2와 block3_conv3 계층의 출력값을 사용하여 두 가지 수준의 특징을 추출한다. block2_conv2는 VGG16 내에서 4번째 합성곱 계층으로, 비교적 앞쪽에 위치한 계층이다. 이 계층은 결함의 초기 발생 단계에서 나타나는 텍스처, 엣지와 같은 세부 특징을 효과적으로 포착한다. 반면, block3_conv3는 VGG16의 7번째 합성곱 계층으로 중간 깊이에 해당하며, 이미지 내의 전역적인 구조, 형상적 패턴 등 넓은 수용 영역을 기반으로 한 특징을 학습하는 역할을 수행한다.

이처럼 추출된 중간 계층의 특징 맵은 이후 커스텀 CNN 블록을 통해 추가적으로 처리된다. 이 블록은 두 번의 Conv2D 연산과 ReLU 활성화 함수, 'same' 패딩 설정을 포함하여 공간 정보를 보존하면서 후속 계층이 쉽게 인식하도록 도와주는 특징 패턴을 강화하며, 이어지는 GlobalAveragePooling2D 계층을 통해 2차원 특징 맵을 1차원 벡터로 압축한다. 이 과정은 특징 벡터의 차원을 정규화하고 계산 효율을 높이는 동시에, 각 센서별 정보의 핵심 표현을 밀도 있게 담아낸다.

그 결과, 각 센서로부터 총 두 개의 1차원 특징 벡터가 생성된다. 구체적으로, 음향 방출 신호에서는 세부 특징 벡터가 64차원, 글로벌 특징 벡터가 128차원으로 추출되며, 진동 신호에서도 동일하게 세부 64차원, 글로벌 128차원의 벡터가 생성된다. 총 네 개의 벡터가 병렬로 구성되며, 이 중 세부 특징 벡터는 서로 결합되어 128차원의 통합 벡터로, 글로벌 특징 벡터는 256차원의 통합 벡터로 구성된다.

이러한 구조는 다음 두 가지 핵심 설계를 기반으로 한다. 첫째, 서로 이질적인 센서 데이터를 독립적으로 처리함으로써 센서 간 신호 특성의 고유성과 다름을 보존한다는 점이다. 이는 음향 방출과 진동 신호가 서로 다른 민감도와 탐지 대역을 가지기 때문에, 각기 고유한 결함 정보를 반영할 수 있도록 설계된 것이다. 둘째, 하나의 센서 내에서도 세부 특징과 글로벌 특징이라는 다중 스케일(Multi-Scale) 특징을 동시에 고려함으로써, 다양한 공간적 및 주파수 기반 결함 패턴을 포괄할 수 있는 표현력을 확보한다는 점이다. 이는 특히 회전체에서 발생하는 비선형적이고 불규칙한 결함 형태를 효과적으로 감지하는 데 유리하다.

이후 단계에서는 이렇게 결합된 특징 벡터들을 셀프 어텐션 블록에 입력하여, 특징 간 상호관계를 정량적으로 학습하고, 의미 있는 정보에 높은 가중치를 부여함으로써 중요도를 반영한 선택적 정보 융합이 수행된다. 셀프 어텐션의 구체적인 연산 구조와 동작 원리는 다음 절에서 상세히 기술한다.

3-3 셀프 어텐션을 활용한 특징 융합

셀프 어텐션의 핵심 아이디어는 입력된 특징 간 상관관계를 정량적으로 학습하여, 중요한 정보는 강조하고 불필요한 정보는 억제하는 것이다. 최근에는 트랜스포머 기반 구조의 효율성을 개선하기 위한 많은 경량화 연구가 활발히 진행되고 있으며, 다양한 셀프 어텐션 구조들의 처리 효율성과 표현 성능을 비교 분석한 바 있다[25].

그림 6는 본 논문에서 제안한 이중 센서 기반 특징 융합 진단 구조를 시각적으로 나타낸 것이다. 여기서 핵심은, 음향 방출 센서와 진동 센서로부터 독립적으로 추출된 특징 벡터를 효과적으로 융합하기 위해 셀프 어텐션 메커니즘을 적용하는 데 있다.

Fig. 6.

Dual sensor fusion-based fault diagnosis technique

기존의 단순 벡터 병합 방식은 센서 간 이질적 특성을 고려하지 못하며, 모든 특징에 동일 중요도를 부여함으로써, 정보 왜곡이나 성능 저하를 야기할 수 있다. 특히 실제 환경에서는 RPM 변화나 외부 간섭 등으로 인해 신호 특성이 동적으로 변하기 때문에, 정적 병합 구조는 일반화 성능에 한계를 보인다. 이러한 문제를 해결하기 위해 입력된 특징 간의 상관관계 및 중요도를 정량적으로 학습하여, 보다 유연하고 적응적인 융합을 수행할 수 있도록 설계하였다.

이러한 셀프 어텐션 연산은 세부 특징과 글로벌 특징 벡터에 각각 독립적으로 수행된다. 본 모델은 두 개의 독립적인 특징 벡터를 각각 셀프 어텐션 블록에 입력한다. 앞서 설명한 두 개의 병합 벡터는 각각 셀프 어텐션 블록 함수를 통해 별도로 어텐션 가중치 학습을 수행하며, 최종적으로 두 어텐션 출력 벡터는 다시 하나로 결합된다. 최종 통합 특징 벡터는 분류기 모듈로 전달되며, 이 분류기는 두 개의 은닉층으로 구성된 다층 완전 연결 신경망이다.

Q = X W Q, K = X W K, V = X W V

(1)

입력 특징 X는 128차원으로 각각 다른 방식으로 투영한다는 의미이고, Dense(128)층을 통해 각각 Query(Q), Key(K), Value(V)로 선형 변환되며, 이 과정은 수식 (1)와 같이 Dense 층의 가중치인 W_Q, W_K, W_V와의 행렬 곱으로 표현된다. 일반적으로 많은 트랜스포머 기반 구조는 최적화된 차원을 사용하기 때문에 두 입력(Concatenated Features #1, #2)은 차원이 다르지만, 출력을 정보 압축으로 동일 차원으로 맞추기 위해 128차원으로 선형 투영한다.

A t t e n t i o n Q, I, V = S o f t m a x Q ⋅ K T d k V

(2)

이후, 각 병합 벡터에 대한 중요도 학습은 수식 (2)의 Scaled Dot-Product Attention 연산을 통해 수행된다.

이 연산에서는 병합 특징에 포함된 각 요소 간의 상관관계와 상대적 중요도를 학습한다.

Q와 K의 유사도는 Dot(axes=-1) 레이어로 계산되며, 정규화된 유사도 행렬에 소프트맥스를 적용해 어텐션 가중치를 얻는다. 이 가중치는 Multiply() 연산을 통해 V에 적용되어 중요도가 반영된 최종 어텐션 벡터를 생성한다.

이 구조는 셀프 어텐션 블록 함수 내에 구현되어 있으며, Q와 K의 내적은 각 특징 간 유사도를 수치화하는 역할을 한다.

값이 클수록 두 특징이 비슷한 정보를 내포하고 있음을 의미한다. 유사도 행렬은 Key의 차원 수 d_k의 제곱근 $d k$ 으로 나누어 정규화되며, 이는 그레디언트 폭주를 방지하기 위한 기법이다. 소프트맥스를 통해 각 Query에 대한 Key의 중요도 분포를 생성하여 조정한다.

위에서 구한 어텐션 가중치는 Value 행렬에 곱해져, 중요도가 반영된 새로운 특징 벡터 Attention(Q, K, V)를 생성한다. 최종적으로 두 개의 어텐션 출력(Attention #1, #2)은 다시 한번 결합된다.

이후 완전 연결 신경망(Dense-ReLU-Dropout)을 통해 특징 간 상호작용을 포착하기 위해 첫 번째 Dense 레이어를 통해 두 개의 어텐션 출력을 결합한 256차원의 특징을 확장하고 모델 복잡도를 낮추고 일반화 성능 향상을 위해, 두 번째 레이어를 통해 다시 차원을 압축한다. 추가로 드롭아웃과 배치 정규화를 통해 과적합을 억제하고 학습 안성성과 속도를 향상키킨다. 이후 소프트맥스 기반 다중 클래스 분류를 수행한다.

최종 융합 표현은 Dense(512, ReLU)–Dropout(0.5)–BatchNormalization을 거쳐 클래스 수 C에 대한 Dense(C, Softmax)로 매핑한다. 기본 설정에서 가중치 L2 정규화 계수는 0.02로 하였다. 분류기는 특징 융합에서 형성된 정보가 과도하게 치우치지 않도록 드롭아웃과 배치 정규화를 통해 과적합을 완화하였다.

Ⅳ. 실험 방법 및 결과

4-1 실험 방법

본 연구에서 음향 방출 신호 및 진동 신호는 베어링의 정상 상태와 3mm, 6mm, 12mm 균열 조건을 포함하여 총 4개의 클래스에 대해 수집되었다. 수집된 데이터는 RPM 조건별로 분류한 후, 각각 학습용 2,880개, 검증용 960개, 테스트용 960개로 구성하였다.

실험에서는 모델의 안정적인 수렴과 일반화 성능 향상을 위해 초기 학습률은 1e-4로 설정하였으며, 학습이 진행됨에 따라 점진적으로 학습률을 감소시키기 위해 Exponential Decay 방식을 도입하였다. 이를 통해 학습 초반에는 빠른 수렴을 유도하고, 후반부에는 과도한 파라미터 변화 없이 안정적으로 최적값에 도달하도록 하였다. 배치 크기는 GPU 메모리 효율성과 학습 안정성 간의 균형을 고려하여 32로 설정하였다. 한 번의 반복에서 32개의 샘플을 동시에 처리함으로써 모델 학습 속도와 자원 사용을 최적화하였다.

최적화 기법으로는 Adam 옵티마이저를 사용하였다[26]. Adam은 학습률을 각 파라미터의 1차 및 2차 모멘트 추정치를 바탕으로 자동 조정함으로써, 학습 초기의 급격한 변화와 후반부의 미세 조정 사이의 균형을 유지할 수 있다. 이에 따라, 학습 속도는 향상되면서도 기울기 소실 문제를 완화하는 효과가 있다. 이러한 사례로 Adam 옵티마이저는 그레디언트 방향과 학습률 조정 측면에서 효과적인 수렴을 위해 사용하였다. 학습은 총 50 epoch 동안 수행되었으며, 실험 전 구간에서 모델 성능의 수렴 및 과적합 여부를 확인하였다.

4-2 실험 결과

본 연구에서는 음향 방출 및 진동 신호 데이터를 활용하여 제안한 결함 진단 모델의 성능을 평가하였다. 실험은 베어링 기별로 구성된 세 가지 조건에서 진행되었으며, 각 조건에 대해 서로 다른 변화하는 RPM 베어링 조건이 적용되었다. 전체 데이터 구성은 표 2와 같다.

Table 2.

Comparison of acoustic emission and vibration signals in bearing fault diagnosis

모든 원시 신호는 STFT를 적용하여 스펙트로그램 이미지로 변환한 뒤, VGG16 기반 특징 추출 네트워크에 입력되어 주요 특징을 학습하였다. 이후, 단일 센서 기반, 단순 병합 기반, 그리고 제안한 셀프 어텐션 기반 융합 모델의 진단 성능을 비교하였다. 그림 7은 세 가지 기법에 대해 결함 크기별 진단 정확도를 비교한 결과이다. 테스트 정확도는 각각 음향 방출 신호의 경우 87.60%, 75.10%, 64.90%, 진동 신호의 경우 87.40%, 77.08%, 79.06%로 확인되었다.

Fig. 7.

Comparison of diagnosis accuracy

기존 이중 센서 방식은 두 센서의 특징 벡터를 단순히 연결하여 결함 진단에 활용하였으며, 정확도는 3 mm에서 94.79%, 6 mm에서 93.78%, 12 mm에서 94.69%로 단일 센서보다 개선되었으나 센서 간 상호작용을 고려하지 못하는 구조적 한계로 인해 성능 향상에 한계가 있었다.

본 연구에서 제안한 셀프 어텐션 기반 이중 센서 융합 방식은 실험 결과, 본 방식은 3 mm, 6 mm, 12 mm 결함 조건에서 각각 98.75%, 98.96%, 99.06%의 진단 정확도를 기록하며 기존 방식 대비 우수한 진단 성능을 보였다. 이는 셀프 어텐션이 RPM 변화와 같은 환경 변화에서도 강인한 표현 학습을 가능하게 함을 보여준다.

그림 8은 각 기법에서 추출한 특징 벡터에 대해 t-SNE 시각화를 수행한 결과이다. 제안된 모델은 최종적으로 분류기 직전의 512차원의 계층에서 추출된 특징을 2차원 공간에 시각화하였으며, 각 클래스(3: Inner, 2: Outer, 1: Roller, 0: Normal) 가 명확하게 분리된 클러스터를 형성하고 있음을 확인할 수 있다. 특히, 단일 센서 또는 단순 병합 모델에 비해, 셀프 어텐션 기반 모델에서는 동일 클래스 내 샘플들의 밀집도가 높고 클래스 간 경계도 뚜렷하게 분리되어 있어, 각 결함의 고유 패턴을 더욱 효과적으로 학습하였음을 입증하였다.

Fig. 8.

(A), (B), (C) visualization of T-SNE of final features

실험 결과는 제안된 셀프 어텐션 기반 융합 구조가 기존 기법보다 센서 간 정보를 효과적으로 통합하며, 외란 조건에서도 높은 정확도와 일반화 성능을 유지함을 보여준다.

Ⅴ. 결 론

본 연구에서는 셀프 어텐션 메커니즘을 활용한 이중 센서 융합 기반 베어링 결함 진단 기법을 제안하였다. 제안된 모델은 음향 방출 신호와 진동 신호로부터 각각 독립적으로 특징을 추출하고, 이들을 통합함으로써 단일 센서 기반 진단 방식 및 단순 특징 결합 방식에서 나타나는 정보 왜곡과 환경 변화에 따른 진단 정확도 저하 문제를 효과적으로 개선하였다. 실험 결과, 제안한 기법은 기존 방법 대비 평균 4~5% 이상의 정확도 향상을 달성하였으며, 기존의 단일 결합 및 단순 결합으로는 해결할 수 없었던 결함 크기와 RPM 변화 환경에서도 높은 진단 성능과 일반화 능력을 유지함을 입증하였다.

본 연구는 특정 베어링 데이터 세트에 한정되어 검증되었기 때문에, 실제 산업 현장에 적용하기 위해서는 다양한 기계 조건 및 환경에 대한 추가적인 실험이 필요하다. 또한, 셀프 어텐션 블록의 연산 복잡도를 고려할 때, 경량화된 구조의 적용 또는 RPM 값을 보조 입력으로 활용하는 모델 구조 개선이 후속 연구로 제안될 수 있다. 향후 연구에서는 더욱 다양한 센서 종류의 융합, 노이즈 환경에서의 강건성 분석, 실시간 진단을 위한 경량 모델 최적화 등을 통해 실질적인 산업 적용 가능성을 높이는 방향으로 확장할 계획이다.

Acknowledgments

본 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(RS-2024-00453676).

References

N. Tandon and A. Choudhury, “A Review of Vibration and Acoustic Measurement Methods for the Detection of Defects in Rolling Element Bearings,” Tribology International, Vol. 32, No. 8, pp. 469-480, 1999. [https://doi.org/10.1016/S0301-679X(99)00077-8]
A. Morhain and D. Mba, “Bearing Defect Diagnosis and ACOUSTIC EMission,” Proceedings of the Institution of Mechanical Engineers, Part J: Journal of Engineering Tribology, Vol. 217, No. 4, pp. 257-272. [https://doi.org/10.1243/135065003768618614]
S. A. McInerny and Y. Dai, “Basic Vibration Signal Processing for Bearing Fault Detection,” IEEE Transactions on Education, Vol. 46, No. 1, pp. 149-156, February 2003. [https://doi.org/10.1109/TE.2002.808234]
H. Huang, N. Baddour, and M. Liang, “Bearing Fault Diagnosis under Unknown Time-Varying Rotational Speed Conditions via Multiple Time-Frequency Curve Extraction,” Journal of Sound and Vibration, Vol. 414, pp. 43-60, 2018. [https://doi.org/10.1016/j.jsv.2017.11.005]
S. Wan, T. Li, B. Fang, K. Yan, J. Hong, and X. Li, “Bearing Fault Diagnosis Based on Multisensor Information Coupling and Attentional Feature Fusion,” IEEE Transactions on Instrumentation and Measurement, Vol. 72, pp. 1-12, 2023. [https://doi.org/10.1109/TIM.2023.3269115]
L. Jiang, S. Zhu and N. Sun, “An Improved Lightweight Variant of EfficientNetV2 Coupled with Sensor Fusion and Transfer Learning Techniques for Motor Fault Diagnosis,” IEEE Access, Vol. 12, pp. 84470-84487, 2024. [https://doi.org/10.1109/ACCESS.2024.3412050]
J. Su and H. Wang, “Fine-Tuning and Efficient VGG16 Transfer Learning Fault Diagnosis Method for Rolling Bearing,” in Proceedings of IncoME-VI and TEPEN 2021, Tianjin: China, pp. 453-461, 2023. [https://doi.org/10.1007/978-3-030-99075-6_37]
A. Bapna, M. X. Chen, O. Firat, Y. Cao, and Y. Wu, “Training Deeper Neural Machine Translation Models with Transparent Attention,” arXiv:1808.07561v2, , September 2018. [https://doi.org/10.48550/arXiv.1808.07561]
R. Ye, W. Wang, Y. Ren, and K. Zhang, “Bearing Fault Detection Based on Convolutional Self-Attention Mechanism,” in Proceedings of the 2020 IEEE 2nd International Conference on Civil Aviation Safety and Information Technology (ICCASIT), Weihai: China, 2020, pp. 869-873. [https://doi.org/10.1109/ICCASIT50869.2020.9368683]
H. Liu, L. Li, and J. Ma, “Rolling Bearing Fault Diagnosis Based on STFT-Deep Learning and Sound Signals,” Shock and Vibration, Vol. 2016, pp. 1-12. [https://doi.org/10.1155/2016/6127479]
M. Cocconcelli, R. Zimroz, R. Rubini, and W. Bartelmus, “STFT Based Approach for Ball Bearing Fault Detection in a Varying Speed Motor,” in Proceedings of the Second International Conference on Condition Monitoring of Machinery in Non-Stationary Operations, Wroclaw: Poland, pp. 41-50, 2012. [https://doi.org/10.1007/978-3-642-28768-8_5]
M. A. Alsaedi, “Fault Diagnosis of Three-Phase Induction Motor: A review,” Optics, Vol. 4, No. 1-1, pp. 1-8, 2015. [https://doi.org/10.11648/j.optics.s.2015040101.11]
R. Jigyasu, A. Sharma, L. Mathew and S. Chatterji, “A Review of Condition Monitoring and Fault Diagnosis Methods for Induction Motor,” in Proceedings of the 2018 Second International Conference on Intelligent Computing and Control Systems (ICICCS), Madurai: India, pp. 1713-1721, 2018. [https://doi.org/10.1109/ICCONS.2018.8662833]
M. T. Pham, J.-M. Kim, and C. H. Kim, “Rolling Bearing Fault Diagnosis Based on Improved GAN and 2-D Representation of Acoustic Emission Signals,” IEEE Access, Vol. 10, pp. 78056-78069, 2022. [https://doi.org/10.1109/ACCESS.2022.3193244]
H.-I. Liu and W.-L. Chen, “Re-Transformer: A Self-Attention Based Model for Machine Translation,” Procedia Computer Science, Vol. 189, pp. 3-10, 2021. [https://doi.org/10.1016/j.procs.2021.05.065]
Y. Xu, Z. Li, S. Wang, W Li, T. Sarkodie-Gyan, and S. Feng, “A Hybrid Deep-Learning Model for Fault Diagnosis of Rolling Bearings,” Measurement, Vol. 169, 108502, 2021. [https://doi.org/10.1016/j.measurement.2020.108502]
L. Qian, B. Li, and L. Chen, “CNN-Based Feature Fusion Motor Fault Diagnosis,” Electronics, Vol. 11, No. 17, 2746, 2022. [https://doi.org/10.3390/electronics11172746]
J. Wang, D. Wang, S. Wang, W. Li and K. Song, “Fault Diagnosis of Bearings Based on Multi-Sensor Information Fusion and 2D Convolutional Neural Network,” IEEE Access, Vol. 9, pp. 23717-23725, 2021. [https://doi.org/10.1109/ACCESS.2021.3056767]
J. Tong, C. Liu, J. Zheng, and H. Pan, “Multi-Sensor Information Fusion and Coordinate Attention-Based Fault Diagnosis Method and Its Interpretability Research,” Engineering Applications of Artificial Intelligence, Vol. 124, 106614, 2023. [https://doi.org/10.1016/j.engappai.2023.106614]
J. Xie, J. Liu, T. Ding, T. Wang and T. Yu, “Self-Attention Metric Learning Based on Multiscale Feature Fusion for Few-Shot Fault Diagnosis,” IEEE Sensors Journal, Vol. 23, No. 17, pp. 19771-19782, 2023. [https://doi.org/10.1109/JSEN.2023.3296750]
H. Ren, S. Liu, B. Qiu, H. Guo, and D. Zhao, “A Novel Intelligent Fault Diagnosis Method of Bearing Based on Multi-Head Self-Attention Convolutional Neural Network,” Artificial Intelligence for Engineering Design, Analysis and Manufacturing, Vol. 38, e9, 2024. [https://doi.org/10.1017/S0890060423000197]
Q. Shen and Z. Zhang, “Fault Diagnosis Method for Bearing Based on Attention Mechanism and Multi-Scale Convolutional Neural Network,” IEEE Access, Vol. 12, pp. 12940-12952, 2024. [https://doi.org/10.1109/ACCESS.2024.3357113]
Y. Xia and X. Zeng, “A Bearing Fault Diagnosis Model Combining Multi-Scale Features and Attention Mechanisms,” in Proceedings of the 2025 8th International Conference on Advanced Algorithms and Control Engineering (ICAACE), Shanghai: China, pp. 2018-2021, 2025. [https://doi.org/10.1109/ICAACE65325.2025.11019982]
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, ... and I. Polosukhin, “Attention is All You Need,” arXiv:1706.03762v7, , August 2023. [https://doi.org/10.48550/arXiv.1706.03762]
Y. Tay, M. Dehghani, S. Abnar, Y. Shen, D. Bahri, P. Pham, ... and D. Metzler, “Long-Range Arena: A Benchmark for Efficient Transformers,” arXiv:2011.04006v1, , November 2020. [https://doi.org/10.48550/arXiv.2011.04006]
Z. Zhang, “Improved Adam Optimizer for Deep Neural Networks,” in Proceedings of the 2018 IEEE/ACM 26th International Symposium on Quality of Service (IWQoS), Banff, AB, Canada, Banff: Canada, pp. 1-2, 2018. [https://doi.org/10.1109/IWQoS.2018.8624183]

저자소개

장보수(Bosu Chang)

2024년：세명대학교 컴퓨터공학과(공학사)

2024년～현 재: 숭실대학교 대학원 컴퓨터학과 석사과정

※관심분야：컴퓨터시스템, 고장진단시스템, 인공지능

김철홍(Cheol Hong Kim)

1998년：서울대학교 컴퓨터공학부(학사)

2000년：서울대학교 컴퓨터공학부(석사)

2006년：서울대학교 전기컴퓨터공학부(공학박사)

2005년～2007년: 삼성전자 책임연구원

2007년～2020년: 전남대학교 컴퓨터정보통신공학과 교수

2020년～현 재: 숭실대학교 컴퓨터학부 교수

※관심분야：컴퓨터시스템, 임베디드시스템, 고장진단시스템

	Acoustic Emission	Vibration
Advantages	-Early-Stage Faults -Non-Contact Measurement	-Broad Fault Coverage -Less Sensitive to Background Noise
Limitations	-Sensitive to Ambient Noise and Interference -Fast Signal Attenuation	-Affected by Signal Variation and Distortions

	Crack Size	RPM
Train	3 mm	300 rpm
Val		400 rpm
Test		500 rpm
Train	6 mm	250 rpm
Val		350 rpm
Test		450 rpm
Train	12 mm	250 rpm
Val		350 rpm
Test		450 rpm