[ Article ]

Journal of Digital Contents Society - Vol. 26, No. 12, pp.3541-3548

ISSN: 1598-2009 (Print) 2287-738X (Online)

Print publication date 31 Dec 2025

Received 14 Nov 2025 Revised 08 Dec 2025 Accepted 10 Dec 2025

DOI: https://doi.org/10.9728/dcs.2025.26.12.3541

얼굴 인식 알고리즘 조합에 따른 성능 비교 분석 연구

조혜준¹ ; 최재명²^{, *}

1목원대학교 일반대학원 IT공학과 석사과정
2목원대학교 컴퓨터공학과 조교수

A Comparative Analysis of Face Recognition Performance Based on Algorithm Combinations

Hye Jun Cho¹ ; Jae Myeong Choi²^{, *}

1Master’s Course, Department of IT Engineering, Mokwon University, Daejeon 35349, Korea
2Assistant Professor, Department of Computer Engineering, Mokwon University, Daejeon 35349, Korea

Correspondence to: ^*Jae Myeong Choi E-mail: jmchoi@mokwon.ac.kr

Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 논문은 얼굴 검출기와 임베딩 모델 조합에 따른 얼굴 인식 성능을 비교·분석하였다. 딥러닝 기반 검출기(RetinaFace, MTCNN)와 전통적 검출기(OpenCV), 임베딩 모델(FaceNet, ArcFace)을 조합하여 얼굴 검출, 정렬, 특징 추출, 매칭의 네 단계를 기준으로 실험을 수행하였다. 얼굴 정렬에는 Affine 변환을 적용하고, 임베딩 벡터 간 유사성은 코사인 유사도로 측정하였다. VGGFace2 데이터셋을 활용하여 동일 조건에서 성능을 비교한 결과, RetinaFace-FaceNet 조합이 정확도 약 89%에서 91%로 2.2% 향상되고 평균 AUC 약 96%로 최고 성능을 나타냈다. 이는 검출기 선택이 임베딩 품질과 인식 정확도에 큰 영향을 미치며, 최적 얼굴 인식 시스템 설계에 참고될 수 있음을 시사한다.

Abstract

This study examines face recognition performance by evaluating combinations of three detectors, namely RetinaFace, multi-task cascaded convolutional network (MTCNN), and OpenCV, and two embedding models, FaceNet and ArcFace. The processing pipeline included detection, alignment through affine transformation, feature extraction, and matching based on cosine similarity. Experiments using the VGGFace2 dataset were conducted under consistent conditions to isolate the influence of each detector–extractor pair. Performance was measured using accuracy, area under the ROC curve (AUC), equal error rate (EER), and processing time. Among all the tested configurations, the RetinaFace–FaceNet combination delivered the most stable and accurate results, increasing accuracy from approximately 89% to 91% and achieving an average AUC of approximately 96%. Overall, the findings show that detector selection plays a critical role in shaping embedding quality and recognition reliability, offering practical guidance for building effective face recognition systems.

Keywords:

Face Recognition, Detection Algorithm, Feature Extraction, Performance Evaluation, Embedding

키워드:

얼굴 인식, 알고리즘 조합, 특징 추출, 성능 평가, 임베딩

Ⅰ. 서 론

얼굴 인식 기술은 얼굴이 포함된 이미지나 비디오로부터 얼굴 영역을 자동으로 검출·분석하여, 해당 인물의 식별을 수행하는 기술이다. 최근에는 감시 시스템, 생체인식, 보안, 사용자 접근 제어, CCTV(Closed-Circuit Television) 영상 분석, 메타버스 등 다양한 분야에서 활용되고 있다[1].

최근 딥러닝(Deep Learning) 기술의 발전은 얼굴 인식 분야의 성능 향상에서 중요한 역할을 하고 있다. 딥러닝은 다층 신경망 구조를 통해 대규모 데이터를 학습함으로써, 사람의 인지 과정을 모방한 패턴 인식 능력을 제공한다. 이러한 특성은 얼굴 인식 기술과 접목하여, 다양한 조명, 자세, 해상도 환경에서도 높은 정확도와 안정적인 성능을 구현할 수 있게 되었다. 특히, 딥러닝 모델 중 합성곱 신경망(Convolutional Neural Network, CNN)이 많이 사용되고 있으며, 이미지 내 공간적인 특징을 효율적으로 추출하여, 다양한 환경에서 안정적이고 높은 인식 정확도를 제공한다는 특징이 있다.

그러나 실제 응용 환경에서는 얼굴 인식 정확도가 사용되는 알고리즘에 의해 크게 달라질 수 있으며, 조명, 얼굴 방향 등 다양한 조건에 영향받는다. 얼굴 인식 프로세스는 일반적으로 얼굴 검출, 정렬, 특징 추출, 매칭의 단계를 거친다[2]. 본 연구에서는 이 중 정렬과 매칭 단계를 Affine 변환과 코사인 거리 계산으로 고정하고, RetinaFace, MTCNN, OpenCV와 같은 다양한 검출 알고리즘과 FaceNet, ArcFace 등의 특징 추출 모델 간의 조합 성능을 평가한다. 또한, 기존 연구에서는 대부분 단일 모델의 성능 평가에 초점을 맞추고 있어, 실제 시스템에서의 최적 조합을 선택하기 위한 체계적인 분석은 상대적으로 부족하다. 따라서 본 연구에서는 이러한 알고리즘들의 상호 조합을 비교·분석함으로써, 각 조합의 성능 특성을 종합적으로 살펴보고자 한다.

Ⅱ. 얼굴 인식 파이프라인 및 핵심 기술

최근 얼굴 인식 분야에서는 FaceNet(2015)과 ArcFace(2018)의 등장 이후, InsightFace, SFace, GhostFaceNet, FaceNet512d 등 경량화와 고성능을 지향하는 후속 모델들이 지속해서 제안되고 있다. 특히 최신 벤치마크 연구를 통해, 단일 모델의 성능뿐만 아니라 검출기와 정렬 모듈 간의 상호 운용성이 전체 파이프라인 성능에 미치는 영향이 지대함을 입증하였다[3].

이에 본 연구에서는 최신 모델들을 모두 포괄하기보다는, 현재 학술 및 산업 현장에서 범용적으로 활용되고 있는 FaceNet과 ArcFace를 핵심 비교군으로 선정하였다. 이는 안정적인 성능이 검증된 모델을 기반으로 전처리 모듈과의 조합 효과를 분석함으로써, 연구 결과의 신뢰성을 높이고 실질적인 파이프라인 최적화 데이터를 제시하기 위함이다.

2-1 CNN (Convolutional Neural Network)

CNN은 컨볼루션(convolution) 연산을 포함하는 신경망으로, 영상 분류, 인식 등 다양한 컴퓨터 비전 분야에서 높은 성능을 보여준다[4]. CNN의 기본 구조는 그림 1과 같이 합성곱 계층(Convolution Layer)과 풀링 계층(Pooling Layer)의 반복으로 이루어지며, 합성곱 계층은 영상의 특징을 추출하고, 풀링 계층은 특징맵의 크기를 줄여 중요한 정보만 유지한다. 마지막에는 특징 벡터를 1차원으로 나열하여 Fully Connected 계층으로 전달하며, 이를 통해 최종적으로 분류나 임베딩을 수행한다[5].

Fig. 1.

Operation of CNN

CNN 기반 얼굴 인식 모델로는 AlexNet, VGG, ResNet 등 다양한 구조가 활용되어왔다[4]. 이러한 모델들은 얼굴 이미지에서 고차원 특징 벡터를 추출하여 얼굴 나이, 성별 등 여러 과제에서 성능을 입증하였다. 본 연구에서는 최근 임베딩 성능과 인식 정확도가 검증된 FaceNet과 ArcFace를 중심으로 최적의 파이프라인 조합을 탐색한다.

2-2 얼굴 임베딩 기반 심층학습 모델

1) FaceNet

FaceNet은 얼굴 인식 전용 임베딩 공간을 학습하는 방식을 제안한 대표적인 모델이다. 이 모델은 CNN 기반 특징을 단순 분류기로 연결하는 기본 구조와 달리, 임베딩 벡터 간 거리 자체가 얼굴 유사도를 반영하도록 네트워크 전체를 최적화한다. 학습 과정에서는 triplet loss가 사용되며, 앵커, 양성, 음성으로 구성된 샘플 간 거리를 조절하여 동일 인물 간 임베딩을 가깝게, 서로 다른 인물 간 임베딩을 멀어지도록 유도한다. 또한 효과적인 학습을 위해 온라인 기반 triplet 샘플링 전략을 도입하여, 임베딩 분포의 안전성을 확보하였다.

그림 2는 이러한 학습 과정을 흐름으로 나타낸 도식이다. 여러 장의 이미지가 배치 단위로 네트워크에 입력된 후 CNN을 통해 특징이 추출되고, L2 정규화를 거쳐 동일한 크기의 임베딩 벡터로 변환된다. 이 벡터들은 마지막 단계에서 triplet loss에 의해 상호 거리 기반으로 학습 신호를 받는다. 이 구조는 임베딩 벡터가 정체성을 안정적으로 표현하고 학습되도록 설계되었다.

Fig. 2.

Training architecture of FaceNet[6]

FaceNet은 LFW(Labeled Faces in the Wild) 벤치마크에서 99.63%의 정확도를 기록하며 당시 기존 성능을 크게 능가하여 최고 성능을 달성하였고, 이후 다양한 얼굴 인식 모델의 기본 틀로 자리 잡게 되었으며, 군집화·검증·식별 등 여러 과제에서 활용되는 임베딩 기반 접근 토대를 마련하였다[6].

2) ArcFace

ArcFace는 기존의 소프트맥스 기반 얼굴 임베딩 손실이 가지는 한계를 보완하기 위해, 각도 기반 마진을 손실함수에 직접 적용한 모델이다. 이 방식은 특징 벡터와 클래스 중심을 정규화한 뒤, 두 벡터 간 내적을 각도 값으로 해석하여 손실에 직접 반영한다. 이를 통해 임베딩이 고차원 구면 상에서 학습되며, 동일 인물 간 임베딩은 보다 밀집되고, 서로 다른 인물 간 임베딩은 일정한 간격을 두고 분리되도록 유도된다. 이러한 방식은 거리 기반 임베딩보다 더 명확한 결정 경계를 제공하며, 다양한 데이터셋에서 안정적이고 높은 성능을 보였다.

그림 3은 ArcFace 손실을 이용한 DCNN(Deep Convolutional Neural Networks) 학습 과정을 도식화한 것으로, 정규화된 특징 벡터와 클래스 중심 벡터 간의 각도를 기준으로 마진을 더해 분리성을 극대화하는 방식을 보여주며, 동일 인물의 임베딩은 더 밀집하게 모이고, 서로 다른 인물은 명확히 떨어진 공간에 배치되어 결정 경계가 뚜렷해진다.

Fig. 3.

DCNN training for face recognition with ArcFace loss[7]

ArcFace의 각도 마진은 기존의 가산 마진이나 배수 마진 방식과 비교해 해석이 명확하고, 최적화 과정이 단순하다는 특징이 있다. 이로 인해 현재의 얼굴 인식 분야에서 가장 널리 채택되는 표준 임베딩 방식 중 하나로 자리 잡았다[7].

2-3 얼굴 인식 단계별 프로세스

얼굴 인식 시스템은 일반적으로 얼굴 검출, 정렬, 특징 추출, 매칭의 네 단계를 거치며, 각 단계에서는 다양한 알고리즘이 제안되어 왔다.

1) 얼굴 검출

얼굴 검출 단계에서는 MTCNN(Multi-task Cascaded Convolutional Networks), Haar Cascade, HOG(Histogram of Oriented Gradients)+SVM(Support Vector Machine), RetinaFace, SSD(Single Shot MultiBox Detector), OpenCV(Open Source Computer Vision Library) 등 다양한 알고리즘이 제안되어왔다. MTCNN은 랜드마크 검출과 정렬까지 지원하며, 일반적으로 다양한 포즈와 조명 변화에서 강인한 성능을 보이지만, 고해상도 이미지 처리 속도가 느리다[8]. 본 논문에서 사용되는 MTCNN의 손실 함수는 분류 손실, 박스 위치 회귀 손실, 랜드마크 회귀 손실의 합으로 구성되며, 식 (1)과 같다.

L = L c l s p i, p i * + λ 1 p i * L b o x t i, t i * + λ 2 p i * L p t s l i, l i *

(1)

식 (1)에서 L_ds는 얼굴 여부를 판별하는 분류 소실, L_box는 바운딩 박스의 좌표를 예측하는 회귀 손실, L_pts는 얼굴 랜드마크의 위치를 예측하는 랜드마크 회귀 손실을 의미한다. 여기서 λ₁과 λ₂는 각 작업 간의 중요도를 조정하는 가중치 파라미터이며, p_i는 해당 샘플이 얼굴일 확률을 나타낸다.

Haar Cascade는 OpenCV 기반 전통적인 방법으로 연산량이 적어 실시간 처리가 가능하나, 정확도가 낮고 다양한 각도에서 취약하다[9]. HOG는 SVM과 함께 사용할 경우, GPU 없이도 실시간 처리가 가능하며, 저사양 환경에서 안정적으로 동작하지만, 최신 알고리즘 대비 성능이 떨어지고 다양한 환경에 민감하다[10]. RetinaFace는 최신 딥러닝 기반 알고리즘으로 높은 얼굴 검출 정확도와 다양한 조건에 강하며, 랜드마크 및 정렬도 지원하지만, GPU 없이 실시간 처리가 어렵고 모델 크기가 커 속도가 느리다[11]. SSD는 실시간 처리와 비교적 높은 정확도를 제공하지만, 작은 크기의 얼굴이나 복잡한 환경에서의 검출 성능이 제한적이다[12]. 본 연구에서는 딥러닝 기반 최신 알고리즘의 성능을 비교하기 위해 RetinaFace, MTCNN, OpenCV를 선택하였다.

2) 얼굴 정렬

얼굴 정렬 단계에서는 Affine 변환, Shape Regression 기반 정렬, 3D Morphable Model 기반 정렬 등이 제안되어왔다. Affine 변환 기반 정렬은 얼굴의 대표 랜드마크(눈, 코, 입 등)를 기준으로 2D 이미지를 회전·이동·크기 변화하여 얼굴을 정규화하는 방식이다[13]. Affine 변환은 식 (2)와 같이 선형 변환 행렬과 평행 벡터의 조합으로 표현된다.

x' y' 1 = a b t x c d t y 0 0 1 x y 1

(2)

식 (2)에서 (x, y)는 원본 이미지에서의 픽셀 좌표, (x', y')은 변환된 이미지에서의 좌표를 의미한다. 행렬의 요소 a, b, c, d는 이미지의 회전 및 스케일을 결정하는 파라미터이며, t_x 와 t_y는 각각 x축과 y축 방향으로의 이동 변위를 나타낸다.

Shape Regression 기반 정렬은 초기 얼굴 형태에서 시작하여 반복적으로 이미지 특징에 기반한 회귀 모델을 적용, 랜드마크 위치를 점진적으로 보정하는 방식으로, weak regressor를 누적하여 실제 랜드마크 위치에 수렴하도록 한다[14]. 3D Morphable Model 기반 정렬은 얼굴의 3D 형태 모델 파라미터를 추정하여 3D 공간에서 얼굴을 정렬하는 방식이다[15]. 본 연구에서는 2D 영상 인식을 기준으로 실험을 진행하므로, Affine 정렬만을 사용하였다.

3) 특징 추출

얼굴 특징 추출 단계에서는 LBP(Local Binary Patterns), Gabor Filter Bank, HOG, 딥러닝 기반 임베딩 등 다양한 방법이 제안되어왔다. LBP는 연산이 간단하고 조명 변화에 강인하지만, 픽셀 단위의 지역적 특징을 기반으로 하여, 포즈 및 표정 변화에 취약하고 전역 구조가 부족하다[9]. Gabor Filter Bank는 다양한 주파수와 방향의 Gabor 필터를 이용해 이미지를 컨볼루션하여 특징을 추출하므로 다양한 조건에서 강인하지만, 계산 비용이 많이 들고 특징 벡터 차원이 큰 경우 차원 축소가 필요하다[16]. HOG는 이미지 각 부분의 경계 방향과 강도를 분석하여 특징을 추출하며, 조명 변화에 비교적 강하지만, 미세 텍스처 정보가 부족하고 큰 포즈 변화에 취약하다[10].

반면, 딥러닝 기반 임베딩은 조명, 포즈, 표정 등 다양한 변형에 강건하며 최신 SOTA(State-of-the-Art) 성능을 제공하지만, 대규모 데이터가 필요하고 학습 편향 문제가 존재한다. 본 연구에서는 최신 성능을 고려하여 딥러닝 기반 임베딩을 중심으로, FaceNet과 ArcFace를 핵심 비교 모델로 선정하였다[6],[7]. 먼저 FaceNet은 Triplet Loss 함수를 통해 임베딩 간 거리를 조정하며, 식 (3)과 같이 정의된다.

L = ∑ i = 1 N f x i a - f x i p 22 - f x i a - f x i n 22 + α +

(3)

식 (3)에서 $f x i a$ 는 기준이 되는 앵커 이미지의 임베딩 벡터, $f x i p$ 는 앵커와 동일한 인물인 포지티브 이미지의 임베딩, $f x i n$ 은 다른 인물인 네거티브 이미지의 임베딩을 의미한다. α는 포지티브 샘플과 네거티브 샘플 간의 거리를 명확하게 구분하기 위해 설정된 마진 상수이며, []₊는 0보다 작은 값을 0으로 만드는 연산을 나타낸다.

다음으로 ArcFace는 각도 마진이 추가된 Additive Angular Margin Loss를 사용하며, 이는 식 (4)와 같이 표현된다.

L = - 1 N ∑ i = 1 N l o g ⁡ e s - c o s ⁡ θ y i + m e s ⋅ c o s ⁡ θ y i + m + ∑ j ≠ y i e s ⋅ c o s ⁡ θ j

(4)

식 (4)에서 θ_yi는 i번째 샘플의 특징 벡터와 정답 클래스 y_i의 가중치 벡터 사이의 각도를 의미한다. m은 클래스 간의 분리력을 강화하기 위해 각도에 더해지는 가산 각도 마진 페널티이며, s는 손실 함수의 수렴을 돕고 그래디언트 크기를 조절하기 위한 스케일 파라미터이다.

4) 얼굴 매칭

얼굴 매칭 단계에서는 벡터 간 거리 계산이 제안되어왔다. 벡터 간 거리 계산에는 코사인 거리와 유클리드 거리 등이 있다. 벡터 간 거리 계산은 얼굴 이미지에서 임베딩 벡터를 추출한 후 거리값을 계산하고, 미리 설정한 임계값과 비교하여 거리가 작으면 동일인으로 판단하는 검증 방식이다. 코사인 거리는 벡터 크기의 영향을 배제하고 방향의 유사성만 반영하며, 유클리드 거리는 두 벡터 사이의 직선거리를 계산하여 얼굴 간 유사성을 평가하지만, 벡터 크기에 민감하므로 정규화가 필요하다[17],[18]. 과거 연구에서는 SVM이나 Softmax 기반 분류기를 활용한 매칭 방법도 존재하지만, 본 연구에서는 얼굴 임베딩 벡터 간 유사성 비교에서 가장 일반적으로 사용되는 코사인 거리 계산을 선택하여 적용하였으며, 그 계산식은 식 (5)와 같다.

c o s θ = A ⋅ B A B = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2

(5)

식 (5)에서 A와 B는 비교 대상이 되는 두 얼굴 이미지의 특징 벡터를 의미한다. 분자의 AㆍB는 두 벡터의 내적을, 분모의 |A|와 |B|는 각 벡터의 유클리드 노름을 나타낸다. 결과값 cos(θ)는 두 벡터 사이의 각도 코사인 값으로, 1에 가까울수록 두 얼굴의 유사도가 높음을 의미한다.

Ⅲ. 실험 방법 및 환경

3-1 실험 개요 및 파이프라인

본 연구에서는 얼굴 인식 모델의 Affine 정렬 적용 유무 및 모델·탐지기 조합별 성능을 비교하기 위하여, 그림 4와 같은 공통된 파이프라인 기반의 실험 설계를 수행하였다. 전체 실험 과정은 데이터 준비 및 샘플링, 얼굴 정렬(정규화), 임베딩 추출 및 캐시 저장, 이미지 쌍 구성, 유사도 계산 및 성능 평가의 다섯 단계로 구성된다.

Fig. 4.

Overall experimental pipeline

3-2 데이터셋 구성 및 샘플링

우선, 대규모 얼굴 인식 데이터셋인 VGGFace2의 train 및 val 경로에서 고유한 인물 200명을 선정하고, 각 인물당 20장씩, 총 4,000장의 이미지를 전처리 대상으로 무작위 추출하였다. 이때, 실험의 재현성을 확보하기 위해 난수 생성 시드(Random Seed)를 고정하여, 언제든 동일한 데이터셋이 추출될 수 있도록 설계하였다. 이후 Dlib의 정렬 함수 기반으로 얼굴 랜드마크를 검출하고, 좌·우 눈 좌표를 기준으로 회전 및 위치를 보정하는 Affine 변환을 수행하여 정규화하였다.

정규화된 이미지는 RetinaFace, MTCNN, OpenCV를 통해 얼굴 임베딩을 추출하였으며, 추출된 임베딩 결과는 joblib 캐시로 저장하여 중복 연산을 최소화하였다. 성능 평가를 위해 동일인 쌍(positive)과 타인 쌍(negative)을 엄격한 1:1 비율로 생성하여 데이터 균형을 맞추었다. 실험 규모는 조건에 따라 총 1,000쌍(각각 500쌍씩) 또는 500쌍(각각 250쌍씩)으로 설정하였다.

3-3 실험 환경 및 장비

본 연구의 모든 실험은 클라우드 기반 환경인 Google Colaboratory Pro 환경에서 진행되었다. 특히, 대규모 딥러닝 모델의 효율적인 평가를 위해 NVIDIA A100 GPU (40GB VRAM)를 주 연산 장비로 사용하였다.

3-4 성능 평가 지표 및 통계 처리

유사도 평가는 코사인 거리를 기반으로 수행되며, 최종적으로 조합별 비교표를 생성하여 성능을 분석하였다. 성능 평가는 이진 분류 문제에서 일반적으로 사용되는 다양한 지표 중 정확도(Accuracy), AUC(Area Under the ROC Curve), EER(Equal Error Rate), 처리 시간을 사용하였다. 각 실험은 최소 5~10회 반복 수행 후 평균값 ± 표준편차의 형태로 산출하였다. 이는 실험 결과의 안정성을 검증하고, 특정 알고리즘 조합의 성능 차이가 단순 오차가 아님을 학술적으로 입증하기 위한 조치이다.

추가로, 표 1과 같이 모델-검출기 조합별 임베딩 캐시 생성 시간을 측정하여 전처리 및 임베딩 추출 단계의 효율성을 비교하였다.

Table 1.

Embedding cache generation time by model-detector combination

Ⅳ. 실험 및 성능 분석

4-1 Affine 변환 적용 유무 비교 실험 및 성능 분석

본 실험은 얼굴 정렬 과정에서 Affine 변환의 적용이 얼굴 인식 성능에 어떠한 영향을 미치는지를 분석하기 위해 수행하였다. Affine 변환은 양쪽 눈 좌표를 기준으로 얼굴 이미지의 기울기 및 회전을 보정하는 기법으로, 얼굴 정렬 과정을 통해 얼굴 임베딩의 일관성과 정확도를 향상하는 데 중요한 역할을 한다. 이는 특히 비정형 얼굴 각도나 포즈 변화 상황에서도 정렬 정확도를 향상시키는 효과가 있다.

실험에 사용된 데이터는 VGGFace2 데이터셋에서 동일 샘플을 추출하여 구성하였으며, 전처리 과정 중 Affine 변환 적용 여부만을 변수로 설정하고 나머지 파이프라인 구성 요소는 Ⅲ장에서 기술한 동일 절차를 준수하였다. 검증은 총 500쌍(같은 인물 간 250쌍, 다른 인물 간 250쌍)의 이미지 쌍에 대해 수행하였으며, 신뢰도를 높이기 위해 5회 반복 실험 후 평균 성능을 기록하였다.

표 2는 Affine 변환을 적용하지 않은 경우의 얼굴 인식 성능 지표가 요약되어 있다. RetinaFace 탐지기 기반의 FaceNet 모델 조합에서 0.891의 정확도를 보였으며, MTCNN 탐지기 시에는 약간 더 높은 0.902, 그러나 전통적인 OpenCV 탐지기 조합에서는 0.753으로 감소하였다. ArcFace 모델 역시 유사한 경향을 나타내는데, RetinaFace 탐지기 조합은 0.880, MTCNN은 0.886, OpenCV는 0.689로 확인되었다.

Table 2.

Face recognition performance before applying affine transformation

반면, 표 3은 Affine 변환을 적용한 후의 성능 결과를 나타낸다. RetinaFace와 FaceNet 조합에서 0.913으로 정확도가 전 대비 약 2.2% 향상되었으며, MTCNN 조합에서도 0.899로 꾸준한 성능 개선이 관찰되었다. 반면, OpenCV 탐지기는 임베딩 모델에 따라 상반된 결과를 보였다. ArcFace와 결합하였을 때는 정확도가 0.689에서 0.756으로 유의미하게 향상되었으나, FaceNet과의 조합에서는 0.753에서 0.744로 오히려 소폭 하락하였다. 이는 딥러닝 기반 탐지기와 달리, 전통적 방식인 OpenCV가 얼굴 랜드마크를 정밀하게 검출하지 못해, Affine 변환 시 오히려 얼굴 정렬이 부정확하게 이루어지는 경우가 발생했기 때문이다. 즉, 전처리 과정이 성능을 보장하려면 탐지기의 랜드마크 정확도가 선행되어야 함을 시사한다.

Table 3.

Face recognition performance after applying affine transformation

표로 제시된 정량적 결과를 시각적으로 확인하기 위해 그림 5와 그림 6에 조합별 AUC와 EER의 변화 추이를 막대그래프로 도식화하였다. 그림 5에서 확인할 수 있듯이, RetinaFace 탐지기 기반 조합은 Affine 변환 적용 시 AUC가 전반적으로 증가하는 경향을 보였다. 또한, 그림 6의 EER 비교 그래프에서도 FaceNet+RetinaFace 조합은 Affine 변환 적용 후 EER이 가장 크게 감소하여, 정합 과정이 성능 향상에 실질적으로 기여함을 확인할 수 있었다. 이러한 결과를 바탕으로, 후속 실험에서는 표준 파이프라인에 Affine 변환을 기본적으로 적용하였다.

Fig. 5.

Comparison of AUC performance by affine transformation

Fig. 6.

Comparison of EER performance by affine transformation

4-2 얼굴 인식 알고리즘 조합별 성능 분석

본 실험에서는 Affine 정규화를 거친 이미지를 바탕으로 각 얼굴 인식 알고리즘과 탐지기의 조합별 성능을 비교하였다. 대상 데이터셋은 총 1,000쌍의 검증 이미지 쌍으로 확장하였고, 각 조합 실험을 10회 반복 수행하여 신뢰성 높은 평균 성능 지표를 도출하였다.

표 4에 나타난 결과에 따르면, FaceNet 기반 모델들은 ArcFace 대비 전반적으로 더 높은 정확도와 AUC 성능을 보였다. FaceNet과 RetinaFace 탐지기의 결합은 특히 뛰어난 안정성과 일관된 최고 성능을 기록하여, 이는 고성능 탐지기와 우수한 임베딩 모델의 상호 보완적인 효과라 할 수 있다. 반면, OpenCV 기반 탐지기 조합은 여전히 낮은 성능에 머물러 탐지기의 품질이 임베딩 결과에 미치는 영향이 큰 것으로 해석된다. 탐지기 순위는 RetinaFace가 가장 우수하였으며, 그 다음으로 MTCNN, OpenCV 순으로 나타났다. 이 순위는 탐지 정확도가 얼굴 영역의 정밀한 위치 선정과 밀접하며, 얼굴 임베딩 과정의 정합성 및 특성 추출에 일차적인 영향을 준다는 것을 확인할 수 있었다.

Table 4.

Comparison of face recognition performance by model-detector combination

Ⅴ. 결 론

본 연구에서는 Affine 변환 기반 얼굴 전처리가 다양한 얼굴 인식 알고리즘 및 탐지기 조합의 성능에 미치는 영향을 평가하였다. 구체적으로 RetinaFace, MTCNN, OpenCV 검출기와 FaceNet, ArcFace 임베딩 모델을 조합하여, 전처리 유무에 따른 총 6가지 파이프라인의 성능을 정량적으로 분석하였다. 실험 결과, 대부분 조합에서 정확도 및 AUC가 향상되고, EER이 감소하는 경향을 보였으며, 특히 FaceNet과 RetinaFace의 조합이 가장 우수한 성능을 나타냈다. 구체적으로, 1,000쌍 검증 이미지에 대한 10회 반복 실험에서 평균 정확도는 약 90%, AUC 약 95%, EER 약 11% 수준으로 평가되었다.

탐지기별 비교에서는 RetinaFace가 가장 안정적이고 정밀한 얼굴 검출을 제공하였으며, MTCNN은 다소 낮지만 일관된 성능을 보였다. 반면 OpenCV 기반 탐지기는 모든 모델에서 상대적으로 낮은 성능을 보여, 얼굴 검출 정확도가 인식 모델 임베딩 품질에 미치는 영향을 확인할 수 있었다. 실험 결과, Affine 변환 적용 시 FaceNet-RetinaFace의 조합이 가장 높은 평균 성능을 보였으며, 향후 실험 및 실제 적용 연구에서 기준 조합으로 활용될 수 있음을 확인하였다.

그러나 본 연구는 특정 대규모 데이터셋(VGGFace2)의 일부 샘플만을 사용하여 실험을 진행하였기 때문에, 다양한 인종·연령 분포를 포함하는 타 벤치마크 데이터셋(LFW, Morph 등)에 대한 일반화 성능을 충분히 확인하기 어렵다는 한계가 있다. 또한, 실험 환경이 고성능 클라우드 환경(NVIDIA A100)에 의존하고 있어, 실제 모바일이나 엣지 기기와 같은 제한된 자원 환경에서의 효율성은 검증하지 못하였다.

따라서 향후 연구에서는 다양한 벤치마크 데이터셋을 활용한 교차 검증을 수행하여 결과의 통계적 유의성을 강화하고, 다양한 조명·포즈·표정 변화 등 실제 환경 조건에 따른 모델 성능 평가를 확대할 예정이다. 특히, Affine 변환 적용 시 FaceNet과 MTCNN의 조합에서 관찰된 성능 저하 원인을 정밀하게 분석하고, 모델 조합별 특성을 체계적으로 비교·검토함으로써 보다 일반화된 결론을 도출할 계획이다.

Acknowledgments

이 논문은 2025년도 정부(산업통상자원부)의 재원으로 한국산업기술진흥원의 지원을 받아 수행된 연구임(P0024164, 2025년 지역혁신클러스터육성).

References

H. I. Kim, J. Y. Moon, and J. Y. Park, “Research Trends for Deep Learning-Based High-Performance Face Recognition Technology,” Electronics and Telecommunications Trends, Vol. 33, No. 4, pp. 43-53, August 2018. [https://doi.org/10.22648/ETRI.2018.J.330405]
W. J. Hwang, “Trends in Deep Learning-Based Face Detection, Landmark Detection, and Face Recognition Technologies,” Broadcasting and Media Magazine, Vol. 22, No. 4, pp. 41-49, 2017.
S. Serengil and A. Özpınar, “A Benchmark of Facial Recognition Pipelines and Co-Usability Performances of Modules,” Journal of Information Technologies, Bilişim Teknolojileri Dergisi, Vol. 17, No. 2, pp. 95-107, 2024. [https://doi.org/10.17671/gazibtd.1399077]
S. E. Choi, “A Study on Age Estimation of Facial Images Using Various CNNs (Convolutional Neural Networks),” Journal of Platform Technology, Vol. 11, No. 5, pp. 16-22, October 2023. [https://doi.org/10.23023/JPT.2023.11.5.016]
M. J. Cho, H. J. Cho, J. M. Choi, and H.-J. Kang, “Dataset Construction Using Generative AI for Pothole Detection and Performance Evaluation of CNN Models,” Journal of Digital Contents Society, Vol. 25, No. 10, pp. 3061-3069, October 2024. [https://doi.org/10.9728/dcs.2024.25.10.3061]
F. Schroff, D. Kalenichenko, and J. Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering,” in Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston: MA, pp. 815-823, June 2015. [https://doi.org/10.1109/CVPR.2015.7298682]
J. Deng, J. Guo, N. Xue, and S. Zafeiriou, “ArcFace: Additive Angular Margin Loss for Deep Face Recognition,” in Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach: CA, pp. 4685-4694, June 2019. [https://doi.org/10.1109/CVPR.2019.00482]
K. Zhang, Z. Zhang, Z. Li, and Y. Qiao, “Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks,” IEEE Signal Processing Letters, Vol. 23, No. 10, pp. 1499-1503, October 2016. [https://doi.org/10.1109/LSP.2016.2603342]
R. TH. Hasan and A. B. Sallow, “Face Detection and Recognition Using OpenCV,” Journal of Soft Computing and Data Mining, Vol. 2, No. 2, pp. 86-97, October 2021. [https://doi.org/10.30880/jscdm.2021.02.02.008]
J. Y. Bae, A Ship Detection Using Image Segmentation, HOG and SVM, Master’s Thesis, Yonsei University, Seoul, February 2016.
H. Kim, N. Choi, J.-S. Kang, S.-H. Lim, and H. Kim, “Real-Time Face Recognition System in CCTV Video for Crime Prevention,” Journal of Korean Institute of Information Technology, Vol. 19, No. 8, pp. 99-106, 2021. [https://doi.org/10.14801/jkiit.2021.19.8.99]
B. H. Ku, Real-time Eye Blink Detection System for Driver’s Side Face in Autonomous Driving Environment, Master’s Thesis, Seoul National University, Seoul, February 2023.
M. G. Kim, “Recognition of Face with Variable Scale and Rotation Using Affine Transformation and Template Matching,” The Journal of Korean Institute of Communications and Information Sciences, Vol. 26, No. 6, pp. 89-96, June 2001.
K. J. Jeong, J. S. Choi, and G. J. Jang, “Facial Expression Recognition Using Face Alignment and AdaBoost,” Journal of the Institute of Electronics and Information Engineers, Vol. 51, No. 1, pp. 193-201, November 2014. [https://doi.org/10.5573/ieie.2014.51.11.193]
D.-W. Sin, S.-J. Park, and J.-P. Ko, “3D Face Alignment and Normalization Based on Feature Detection Using Active Shape Models : Quantitative Analysis on Aligning Process,” Korean Journal of Computational Design and Engineering, Vol. 13, No. 6, pp. 403-411, 2008.
S. Meshgini, A. Aghagolzadeh, and H. Seyedarabi, “Face Recognition Using Gabor Filter Bank, Kernel Principle Component Analysis and Support Vector Machine,” International Journal of Computer Theory and Engineering, Vol. 4, No. 5, pp. 767-771, October 2012. [https://doi.org/10.7763/IJCTE.2012.V4.574]
S. J. Park and S. W. Jang, “Attribute-Preserving Face Anonymization Using StarGAN v2,” Journal of the Korea Academia-Industrial Cooperation Society, Vol. 26, No. 8, pp. 810-815. [https://doi.org/10.5762/KAIS.2025.26.8.810]
H. W. Kim, B. Y. Ko, J. H. Shim, W. Y. Chung, and E. J. Hwang, “A Front Face Recognition Scheme Using FaceNet and Facial Landmark Points Detector,” Korean Institute of Information Scientists and Engineers, pp. 364-366, December 2020.

조혜준(Hye Jun Cho)

2024년：목원대학교 컴퓨터공학과 (공학사)

2024년～현 재: 목원대학교 IT공학과 석사과정

※관심분야：컴퓨터그래픽스, 증강현실, 디지털 콘텐츠

최재명(Jae Myeong Choi)

2014년 8월：목원대학교 대학원 IT공학과(공학박사)

2015년 4월～현 재: 목원대학교 컴퓨터공학과 조교수

※관심분야：무선통신시스템, 지능형재난시스템, 사회안전, 재난관리, 통신재난, 멀티미디어통신, IoT, 디지털콘텐츠 등

Model	Detector	Accuracy	AUC	EER	Time_sec
FaceNet	RetinaFace	0.891 ± 0.012	0.938 ± 0.005	0.119 ± 0.019	0.392 ± 0.006
	MTCNN	0.902 ± 0.010	0.954 ± 0.012	0.110 ± 0.022	0.391 ± 0.005
	OpenCV	0.753 ± 0.032	0.813 ± 0.022	0.254 ± 0.021	0.405 ± 0.015
ArcFace	RetinaFace	0.880 ± 0.013	0.934 ± 0.013	0.123 ± 0.008	0.440 ± 0.004
	MTCNN	0.886 ± 0.015	0.943 ± 0.011	0.125 ± 0.025	0.438 ± 0.005
	OpenCV	0.689 ± 0.077	0.756 ± 0.014	0.320 ± 0.023	0.435 ± 0.005

Model	Detector	Accuracy	AUC	EER	Time_sec
FaceNet	RetinaFace	0.913 ± 0.011	0.962 ± 0.007	0.094 ± 0.011	0.406 ± 0.036
	MTCNN	0.899 ± 0.011	0.945 ± 0.009	0.108 ± 0.019	0.397 ± 0.008
	OpenCV	0.744 ± 0.027	0.809 ± 0.023	0.274 ± 0.031	0.401 ± 0.015
ArcFace	RetinaFace	0.889 ± 0.004	0.943 ± 0.004	0.131 ± 0.020	0.441 ± 0.004
	MTCNN	0.888 ± 0.021	0.942 ± 0.011	0.123 ± 0.017	0.437 ± 0.004
	OpenCV	0.756 ± 0.016	0.774 ± 0.015	0.275 ± 0.031	0.450 ± 0.019

Model	Detector	Accuracy	AUC	EER	Time_sec
FaceNet	RetinaFace	0.913 ± 0.011	0.962 ± 0.007	0.094 ± 0.011	0.406 ± 0.036
	MTCNN	0.899 ± 0.011	0.945 ± 0.009	0.108 ± 0.019	0.397 ± 0.008
	OpenCV	0.744 ± 0.027	0.809 ± 0.023	0.274 ± 0.031	0.401 ± 0.015
ArcFace	RetinaFace	0.889 ± 0.004	0.943 ± 0.004	0.131 ± 0.020	0.441 ± 0.004
	MTCNN	0.888 ± 0.021	0.942 ± 0.011	0.123 ± 0.017	0.437 ± 0.004
	OpenCV	0.756 ± 0.016	0.774 ± 0.015	0.275 ± 0.031	0.450 ± 0.019

Model	Detector	Images	Time
FaceNet	RetinaFace	4,000	18:39
	MTCNN	4,000	27:20
	OpenCV	4,000	16:27
ArcFace	RetinaFace	4,000	10:41
	MTCNN	4,000	20:09
	OpenCV	4,000	08:32