
인공지능 이미지 생성에서 실재의 결여: 라캉의 산술놀이와 크로스캡을 중심으로
Copyright ⓒ 2025 The Digital Contents Society
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-CommercialLicense(http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
초록
본 논문은 인공지능 이미지 생성 모델이 작동하는 방식이 라캉의 정신분석 이론에서 말하는 ‘실재(the Real)’의 결여 구조와 어떻게 연결되는지를 이론적으로 규명하였다. 스타일갠(StyleGAN)은 반복 연산과 평균화를 통해 통계적 정형성을 구현하며, 이는 라캉의 ‘산술놀이(Arithmetic Games)’ 개념과 연결되어 실재를 규칙적으로 배제하는 기표의 구조로 해석된다. 반면 CLIP 기반 디퓨전(CLIP-Guided Diffusion)은 기표와 기의 사이의 유동성과 불확정성을 전제로 의미를 형성하며, 이는 ‘크로스캡(Cross-Cap)’ 구조와 유사하게 실재를 지속적으로 지연시키는 위상학적 장치로 기능함을 확인하였다. 이를 통해, 생성형 AI 모델은 단순히 이미지를 생산하는 도구를 넘어, 의미를 조직하고 실재를 결여시키는 구조적 장치로 작동함을 밝히고자 하였다. 이러한 결과는 인공지능 기술과 정신분석 이론 간의 새로운 이론적 접점을 제시하며, AI 이미지 생성의 의미 형성 메커니즘에 대한 인문학적 이해를 확장하는 데 기여할 수 있다.
Abstract
This study theoretically investigates how the operational mechanisms of artificial intelligence (AI) image-generation models relate to the Lacanian psychoanalytic concept of the “lack of the Real.” StyleGAN implements statistical regularity through iterative computation and averaging, which corresponds to Lacan’s notion of “arithmetic games” and can be interpreted as a signifying structure that systematically excludes the Real. By contrast, CLIP-guided diffusion forms meaning based on the fluidity and indeterminacy between signifier and signified, thus functioning as a topological device akin to Lacan’s “cross-cap,” wherein the Real is continuously deferred. Through this analysis, the study reveals that generative AI models operate not merely as tools for generating visual content but as structural mechanisms that organize meaning and enact the absence of the Real. These findings propose a novel theoretical interface between AI and psychoanalytic theory and may contribute to a more humanistic understanding of the mechanisms of meaning formation in AI-generated imagery.
Keywords:
Generative AI, AI Image Generation, Lacan, Arithmetic Games, Cross-Cap키워드:
생성형 AI, 인공지능 이미지 생성, 라캉, 산술놀이, 크로스캡Ⅰ. 서 론
1-1 연구의 필요성 및 목적
최근 인공지능(Artificial Intelligence, 이하 AI) 기술의 빠른 발전은 이미지 제작 방식 전반에 큰 변화를 일으키고 있다. 과거에는 주어진 이미지를 조합하거나 수정하는 수준의 작업이 주를 이뤘다면, 지금은 AI가 방대한 데이터셋을 학습한 뒤 새로운 이미지를 스스로 만들어내는 단계에 이르렀다. 초기에는 GAN(Generative Adversarial Networks), VAE(Variational Autoencoders)[1],[2] 같은 모델이 이미지 생성을 가능하게 했고, 이제는 텍스트만 입력하면 그에 맞는 이미지를 생성해주는 트랜스포머 기반 모델까지 등장하면서 콘텐츠 제작 현장에서도 관심이 높아지고 있다[3],[4].
하지만 AI가 만든 이미지가 실제처럼 보인다고 해서, 그것이 곧 ‘모든 것을 제대로 반영하고 있다’고 말하기는 어렵다. 생성된 이미지는 겉으로 보기에는 완성도가 높지만, 자세히 들여다보면 반복적으로 드러나는 특정 스타일이나 정보의 누락이 존재한다. 예를 들어, 일부 얼굴의 디테일이 매끄럽지 않게 처리되거나, 배경에 반복적인 패턴이 나타나는 경우가 그것이다. 이러한 현상은 단순히 AI의 기술적 한계에서 기인한 것이 아니라, 이미지 생성 과정에서 특정 정보를 선택하고 다른 정보를 배제하게끔 하는 작동 원리가 이미 내재되어 있기 때문이다. 실제로 이미지 생성 모델은 입력된 조건을 해석한 뒤, 그에 맞는 출력을 만들어내기 위해 ‘가능성이 높은 조합’을 선택한다. 이 과정에서 모델은 하나의 이미지 속에 들어갈 수 있는 수많은 정보 중 일부만을 뽑아내고, 나머지는 배제한다. 텍스트-이미지 생성 모델도 마찬가지다. 사용자가 “햇살이 드는 창가에서 책을 읽는 사람”이라고 입력하면, 그 안에서 ‘창’, ‘햇살’, ‘사람’, ‘책’ 중 어느 요소에 더 집중할지는 모델이 학습한 방식에 따라 달라진다. 이처럼 이미지 생성 AI는 기본적으로 주어진 정보를 선택적으로 강화하거나 생략하는 방식으로 이미지를 구성하게끔 설계되어 있다.
AI가 이미지를 만들어내는 과정에서 어떤 정보가 선택되고 어떤 정보가 배제되는지에 대한 원리를 이해하는 것은 단순한 기술 분석을 넘어 새로운 창작의 가능성을 열어주는 중요한 단서가 된다. 이는 AI가 이미지를 생성하는 과정에서 수많은 연산과 판단을 반복적으로 수행하며 일련의 의미 구조를 형성하기 때문이다. 이는 인간이 무의식 속에서 언어와 표상을 구성하는 방식과도 흡사한 점이 있으며, 바로 이 지점에서 기술과 인간 인식 사이의 흥미로운 접점이 드러난다.
이를 바탕으로, 본 연구는 이미지 생성 과정에서 반복적으로 선택되고 배제되는 정보의 체계가 어떤 원리로 작동하는지를 탐색하고자 한다. 특히 이러한 작동 방식이 단순한 기술적 연산에 그치지 않고, 언어적 의미 형성과 유사한 기호적 체계를 따른다는 점에 주목한다. 이미지 생성 과정에서 이루어지는 선택과 배제는 우연한 결과가 아니라, 알고리즘이 내리는 판단의 산물이자, 일정한 규칙성을 지닌 ‘기표적 배열’로 작동한다. 이러한 특성은 자크 라캉(Jacques Lacan)이 제시한 ‘산술놀이(Arithmetic Games)’와 ‘크로스캡(Cross-Cap)’ 개념과 긴밀하게 연동된다. 라캉은 의미 형성 과정에서 특정 기표의 반복적 배제나 의미의 지연이 ‘실재의 결여(the lack of the Real)를 구성하는 핵심 기제라고 보았다[5]. 본 연구는 이를 바탕으로 AI 이미지 생성 기술이 실재의 결여를 어떤 방식으로 작동시키는지를 탐색하고자 한다.
정신분석 이론의 관점에서 AI 이미지 생성이 유발하는 심리적 불안정성이나 시각적 불완전성에 주목한 연구도 일부 존재한다. 가령 스타일갠(StyleGAN)으로 생성된 얼굴 이미지가 불러일으키는 시각적 결손과 감응의 불안을 라캉의 ‘시선(gaze)’ 개념과 연결해서 그 안에 존재하지 않는 실재의 공백을 감각적으로 분석하거나[6]. 생성형 AI가 반복, 무의식, 주체화와 같은 정신분석 개념과 충돌함을 어필하면서 새로운 이론적 과제를 제기한 논의도 있다[7]. 그러나 이러한 논의들은 대체로 감각적 효과나 상징적 관계에 초점을 맞추고 있으며, AI 이미지 생성 과정에서 정보의 반복적 배제와 의미 지연을 통해 실재를 어떻게 누락하는지를 탐구한 작업은 아직 시도되지 않고 있다. 본 연구는 이에 대한 출발점으로, AI 이미지 생성 기술을 단순한 생성 도구가 아닌, 의미 형성과 결여의 구조를 드러내는 분석 대상으로 삼는다는 점에서 기존 연구와 구별되는 이론적 의의를 갖는다.
1-2 연구 방법 및 범위
본 연구는 AI 이미지 생성 과정에서 정보가 어떻게 선택되고 배제되는지를 분석하기 위해 두 이미지 생성 모델—스타일갠과 CLIP 기반 디퓨전(CLIP-Guided Diffusion)—을 채택하였다. 스타일갠은 잠재 공간의 벡터 조작과 평균화를 통해 예외적 속성을 제거하는데, 이 방식이 라캉의 ‘산술놀이(Arithmetic Games)’에서 나타나는 반복적 배제와 유사하게 나타난다. 반면 CLIP 기반 디퓨전은 같은 텍스트 프롬프트에서도 생성 결과가 다양하게 나타나는데, 이는 기표와 기의 불확정한 관계 속에서 의미가 지연되고 꼬이는 ‘크로스캡(Cross-Cap)’ 구조와 연결될 수 있다. 특히 ‘CLIP’과 ‘Diffusion’ 기반 알고리즘은 DALL·E, Midjourney, Stable Diffusion 등 주요 생성형 AI 서비스의 핵심 요소로 통합되어 있으며, 텍스트-이미지 간 의미 매핑과 고해상도 이미지 생성을 가능하게 한다[8]. 최근 GAN 기반 생성 방식은 Diffusion 기반 모델에 비해 다소 주류 기술에서 비중이 줄어든 경향이 있지만, 스타일갠은 여전히 정적 이미지 생성이나 연구 환경에서 중요한 사례로 활용되고 있다[9]. 이에 본 연구는 이 두 모델을 중심으로 인공지능 기술과 정신분석 이론 간의 기호학적 접점을 이론적으로 고찰하고자 한다.
본 논문의 구성은 다음과 같다. Ⅱ장에서는 스타일갠과 CLIP 기반 디퓨전의 기술적 작동 원리를 살펴보고, 각각의 모델이 정보를 어떻게 선택하고 배제하는지를 분석한다. Ⅲ장에서는 라캉의 ‘산술놀이’와 ‘크로스캡’ 개념을 소개하고, 이 개념들이 AI 이미지 생성 메커니즘과 어떻게 구조적으로 맞닿는지를 탐구한다. 마지막으로, Ⅳ장에서는 두 모델이 실재를 결여하는 방식을 비교하면서 AI 이미지 생성이 정신분석적 무의식과 유사한 작동 방식으로 이해될 수 있음을 제시하였다.
Ⅱ. AI 이미지 생성 방식과 정보의 ‘배제’
2-1 스타일갠에서 정보의 선택과 배제
스타일갠은 GAN 계열 중 하나로, 이미지 생성 과정에서 '스타일(style)'을 조절할 수 있도록 설계된 모델이다[4]. 기존 GAN과 달리, 스타일갠은 잠재 공간(latent space)에서 벡터를 조작해서 이미지의 다양한 시각 요소, 가령 윤곽, 질감, 색조 등을 개별적으로 조정할 수 있게 한다. 이를 통해 생성된 이미지는 단순 조합이 아닌, 특정 정보를 강조하고 예외적인 요소를 제거하는 방식으로 구성된다. 스타일갠의 정보 배제 방식은 다음 세 가지로 요약될 수 있다.
사용자가 벡터 방향을 조절하면 이미지 속 인물의 나이, 성별, 표정 등의 시각적 특성이 변화하게 된다. 이때 비대칭이거나 예외적인 속성은 점차 제거되며, 표준적인 구조가 더욱 강조된다. 예를 들어, 평균적인 얼굴형은 유지되지만 드물게 나타나는 디테일은 사라지는 식이다.
스타일갠은 서로 다른 이미지에서 윤곽, 질감, 조명 등 각기 다른 스타일 요소를 추출해 조합할 수 있다. 그러나 이 조합은 단순한 병합이 아니라, 모델이 중요하다고 판단한 정보만을 남기고, 중요도가 낮다고 간주된 정보는 제거하는 방식으로 이루어진다. 스타일은 coarse-to-fine(윤곽–중간 구조–세부 요소)의 순서로 적용되며, 각 단계에서 정보의 선별과 삭제가 발생한다.
스타일갠은 전체 이미지의 일관성과 조화를 우선시하며, 개별적이고 드물게 나타나는 속성—예컨대 주름, 점, 흉터 등—은 종종 생략된다. 그 결과, 생성된 이미지는 데이터셋에서 자주 등장하는 평균값을 중심으로 전형적인 형상을 이루게 된다.
이러한 방식은 스타일갠이 학습한 수많은 사례 중 가장 안정적이고 반복적인 패턴을 선택적으로 유지하고, 예외적 요소는 배제함으로써 이미지를 구성한다는 것을 보여준다. 이미지 다양성의 확장보다는 시각적 표현을 특정 기준에 따라 정렬하고 정형화하는 경향이 강하게 나타나는 것이다. 그림 1은 스타일갠의 스타일 혼합 과정을 시각화한 사례로, 두 개의 이미지(Source A, B)에서 서로 다른 시각 속성을 추출한 뒤 새로운 얼굴을 생성한 결과다[10]. 이 조합 과정에서는 각 해상도 단계(coarse, middle, fine)마다 AI가 판단한 중요한 정보는 남기고, 덜 중요하다고 여겨지는 요소는 제거된다. 이러한 선택과 배제의 반복은 라캉이 말한 '산술놀이' 구조—특정 기표의 반복적 제외를 통한 의미 생성—와 유사한 작동 원리를 보이며, 이는 이후 논의될 '실재(the Real)의 결여' 개념으로 연결된다.
Style mixing in StyleGAN: Hierarchical information selection and exclusion through latent space manipulation (Source: Adapted and cropped from [4])
결국 스타일갠은 현실을 있는 그대로 재현하는 것이 아니라, 시각적 규범에 따라 반복적으로 정보를 필터링하면서 ‘대표적인 이미지’를 구성한다고 볼 수 있다. 이는 단지 기술적 특성에 그치지 않고, 정보의 선택과 배제 그 자체가 하나의 의미 구조를 형성함을 보여준다.
2-2 의미의 유동성과 텍스트-이미지 전환: CLIP 기반 디퓨전의 경우
CLIP 기반 디퓨전은 OpenAI가 개발한 CLIP(Contrastive Language-Image Pretraining)과 확산 기반 이미지 생성 기술(Diffusion Model)을 결합한 모델로, 텍스트 지시어에 상응하는 이미지를 생성하는 데 특화된 알고리즘이다[11]. 이 모델은 언어적 지시(텍스트)를 벡터화하고, 해당 벡터와 의미적으로 가장 근접한 시각적 결과를 생성하는 과정을 통해 이미지를 생성한다.
작동 방식은 크게 두 단계로 이루어진다. 처음에는 CLIP이 방대한 텍스트-이미지 쌍을 사전 학습하여 주어진 텍스트를 의미 공간(semantic space) 내 좌표로 변환하고, 그 벡터와 가장 유사한 이미지 특성을 선택한다. 다음으로 확산 모델이 무작위 노이즈 상태에서부터 시작해 점차적으로 노이즈를 제거하며 텍스트에 부합하는 이미지를 복원해낸다. 이 두 시스템이 결합된 CLIP 기반 디퓨전은 단순한 생성 알고리즘이 아닌, 언어와 이미지 사이의 기호적 전이를 실현하는 구조로 기능한다. 이 과정에서 정보의 선택과 배제는 다음 세 가지 차원에서 드러난다.
첫째, ‘의미 벡터의 선택성과 가중치 편차’다. 사용자가 입력한 문장(예: “a futuristic city at sunset”)은 고차원 의미 공간에 위치하게 되며, AI는 해당 좌표를 기준으로 가능성이 가장 큰 시각적 조합을 선택한다[12]. 그러나 이 과정에서 모든 의미 요소가 동등하게 반영되는 것은 아니며, 일부 속성은 강조되고 나머지는 축소되거나 삭제된다. 이는 AI가 텍스트를 ‘기계적으로 번역’하는 것이 아니라 선별적 해석에 기반해 이미지를 구성함을 보여준다. 둘째, ‘확산 경로의 불확정성’이다. 확산 모델은 동일한 텍스트 입력이라 하더라도 매 연산마다 서로 다른 노이즈 제거 경로를 선택할 수 있으며, 그 결과 생성되는 이미지 또한 매번 달라진다[13]. 같은 입력 조건에도 불구하고 생성 결과가 상이하다는 점은 이 모델이 고정된 생성이 아니라 유동적인 의미 조합 구조를 따르고 있음을 시사한다. 즉, AI는 단 하나의 고정된 이미지를 목표로 삼지 않고 매번 다양한 잠재 경로들 사이에서 선택과 배제를 반복하는 과정으로 구성된다. 셋째, ‘기표와 기의 사이의 느슨한 연결성’이다. 텍스트라는 기표(signifier)는 단일하고 고정된 기의(signified)를 가리키지 않으며, 다양한 이미지 가능성들로 분기된다. 예컨대 “an abstract painting of a cat”이라는 문장을 입력했을 때, 모델은 ‘추상(abstract)’이라는 기호를 고정된 시각 양식으로 환원하지 못한 채, 형식과 구성, 색감에 있어 다양한 해석을 시도하게 된다. 이 과정에서 하나의 텍스트는 유사하지만 서로 다른 이미지 군집을 생성하고, 특정 이미지가 강조되면 나머지는 배제되거나 사라진다.
이것은 CLIP 기반 디퓨전이 단순히 텍스트를 이미지로 ‘전환’하는 것이 아니라, 기표 간의 유동성과 의미의 지연을 통해 시각적 결과를 생성한다는 점을 시사한다. 특히 같은 텍스트 조건에서 항상 같은 이미지를 출력하지 않는다는 것은, 이 모델이 의미의 유동성을 내포하고 있음을 드러낸다. 그림 2는 이러한 연산 구조를 시각화한 예로, 초기 단계(Xₜ)에서는 노이즈에 가까운 무질서한 이미지였던 것이, 반복적 연산과 선택을 거쳐 최종 이미지(X₀)로 수렴하는 과정을 보여준다. 이 연산 구조는 단선적인 해석이 아니라, 지연된 구성과 반복적인 경로 조정을 통해 의미가 점진적으로 형성됨을 보여준다. 여기서 실재(the Real)는 단순히 결여되는 것이 아니라, 항상 도달되지 못한 채 지연되고 미끄러지는 구조로 나타난다. 기표는 고정된 기의를 가리키는 것이 아니라, 항상 빗겨가는 접합 속에서 의미를 생성하며, 바로 이러한 점에서 CLIP 기반 디퓨전은 라캉적 의미에서의 ‘실재의 결여’와 상응한다.
Ⅲ. 실재의 결여를 설명하는 두 구조: 라캉의 ‘산술놀이’와 ‘크로스캡’
3-1 ‘산술놀이(Arithmetic Games)’: 배제의 구조
라캉은 의미 형성 과정을 단순한 기호의 누적이 아닌, 반복적으로 특정 기표가 배제되는 구조적 연산으로 설명한다. 그는 “도둑맞은 편지” 세미나에서, 의미는 모든 기표가 완전히 포함되어 형성되는 것이 아니라, 오히려 어떤 기표가 의도적으로 배제되는 방식으로 구성된다고 주장한다[14]. 이때 중요한 것은, 이러한 배제가 우연이나 오류가 아닌 구조 자체의 필연적 작동이라는 점이다. 이를 설명하기 위해 라캉은 기호 조작의 예시로 그림 3과 같은 ‘산술놀이(Arithmetic Games)’ 도식을 제시한다. 이 도식에서 무작위로 배열된 기호들(예: ‘+’, ‘–’)은 세 개씩 묶여 숫자(1, 2, 3)로 전환되고, 이 숫자 조합은 다시 알파벳 기호(a, b, c, d)로 환산된다. 그런데 이 과정에서 특정 기호—예컨대 ‘b’—는 연산의 중간 단계에서 반복적으로 배제되고, 최종 결과에서도 완전히 사라지게 된다. 라캉에 따르면, 사실상 이 삭제된 기호가 전체 구조를 결정하는 데 핵심 역할을 수행하며, 바로 그 결여가 전체 연산을 성립하게 하는 조건으로 작동하게 된다[15].
Diagram of Lacan’s Arithmetic Game: An example of the exclusion of the signifier through iterative calculation (Source: Reproduced from [15])
이와 같은 기호적 연산 방식은 AI의 이미지 생성 방식, 특히 스타일갠의 작동 원리와 유사한 점을 지닌다. 스타일갠은 잠재 공간(latent space)에서 벡터 조작을 수행하며 이미지를 생성하는데, 이 과정에서 모델은 학습 데이터셋의 통계적 일반성을 유지하고자 한다. 이를 위해 비대칭적인 얼굴, 뚜렷한 주름, 개별적 감정 표현 등 비정형적이고 예외적인 시각 요소는 반복적으로 제거된다. 결과적으로 남는 것은 ‘가장 그럴듯한’ 전형적 형상이며, 이는 라캉의 산술놀이에서 특정 기표가 반복적으로 소거되면서 의미가 형성되는 방식과 맞닿아 있다.
즉, 스타일갠이 이미지를 구성하는 방식은 단지 시각적 요소를 나열하거나 합성하는 것이 아니라, 연산을 통해 특정 정보를 배제하고 그 결여를 중심으로 의미 있는 시각 구조를 조직하는 과정이다. 따라서 라캉의 ‘산술놀이’는 스타일갠의 생성 방식이 어떻게 실재를 삭제함으로써 새로운 질서와 형식을 만들어내는지를 이해하는 데 유효한 이론적 틀이 된다. 이러한 반복과 배제의 작동은 이후 논의될 ‘실재의 결여’라는 핵심 개념의 기술적 기반을 제공한다.
3-2 ‘크로스캡(Cross-Cap)’: 의미의 유동성과 위상학적 상상
자크 라캉은 기표와 기의의 관계가 결코 고정되지 않으며, 의미는 항상 미끄러지고 지연된다는 점을 설명하기 위해 위상수학(topology)을 정신분석 이론에 도입했다. 원환체(torus), 클라인 병(Klein bottle), 보로메오 고리(Borromean rings) 등 다양한 위상학적 도형들이 그 예이지만, 그중에서도 ‘크로스캡(Cross-Cap)’은 의미의 흐름과 지연 구조를 가장 극적으로 시각화할 수 있는 도식으로 제시된다.
크로스캡은 유클리드 기하학에서는 표현할 수 없는 사영 평면(projective plane)으로, 안과 밖의 구분이 무의미해지는 독특한 표면을 가진다. 접힘과 비틀림을 통해 한 방향의 연속적 흐름이 구성되며, 이로 인해 어떤 점이 내부에 속하는지 외부에 있는지를 구분할 수 없게 된다. 라캉은 이러한 특성을 빌려, 의미란 단일한 지시로 고정되는 것이 아니라, 관계와 맥락 속에서 계속 ‘미끄러진다’(slippage)는 점을 설명했다. 『정신분석의 네 가지 근본 개념(Seminar XI)』에서 그는, 무의식의 언어 역시 끊임없이 지연되고 비틀리는 회로 속에서만 작동한다고 강조한다[16].
이러한 관점은 생성형 AI, 특히 CLIP 기반 디퓨전 모델의 작동 방식과 놀랍도록 유사하다. 이 모델은 입력된 텍스트 프롬프트를 하나의 ‘고정된 이미지’로 환원하지 않는다. 예를 들어 “a surrealist painting of a cat”이라는 문장을 입력하면, 어떤 경우에는 입체파 그림처럼 분절된 고양이 형상이 나타나거나, 또 어떤 경우에는 마치 공포 영화에서처럼 기괴한 모습을 한 고양이가 표현되기도 한다. 같은 텍스트가 매번 다른 이미지로 출력된다는 사실은 AI가 기표와 기의 사이의 일대일 대응이 아닌, 의미의 방향성을 확률적으로 해석하며 유동적인 결과를 산출한다는 점을 보여준다[17].
이처럼 CLIP 기반 디퓨전의 텍스트-이미지 전환은 고정된 매핑이 아니라 수많은 가능한 이미지들 사이를 부유하는 해석의 과정이다. 의미는 매번 지연되며, 생성된 이미지는 완결된 해답이 아니라 실재를 향한 미완의 접근으로 남는다. 그림 4는 라캉이 세미나 11에서 제시한 크로스캡 도식을 재구성한 것으로, 기표가 안정된 기의를 지시하지 못하고 끊임없이 다른 의미로 미끄러지는 과정을 시각화한 것이다[18]. 이때 실재는 항상 도달되지 못한 바깥 경계에 머물며, 접근은 계속해서 미뤄진다.
3-3 AI 이미지 생성 모델에서 실재 결여 방식
스타일갠과 CLIP 기반 디퓨전은 서로 다른 방식으로 이미지를 생성하지만, 두 모델 모두 라캉적 의미에서 ‘실재’를 배제하거나 도달 불가능한 영역으로 만드는 특징적인 작동 양상을 보여준다. 본 절에서는 앞서 살펴본 라캉의 ‘산술놀이’와 ‘크로스캡’을 기준으로, 두 모델이 실재를 어떻게 처리하는지를 세 가지 차원에서 비교한다: 정보 처리 방식, 실재 배제 방식, 의미 형성 방식이다(표 1 참조).
정보 처리 방식의 차이는 모델이 ‘현실을 어떻게 정의하는가’와 연관된다. 스타일갠은 훈련된 데이터셋에서 도출한 평균값을 기준으로 잠재 공간을 구성하고 그 평균성을 강화하는 방향으로 연산을 수행한다. 이로 인해 생성된 이미지는 ‘가장 흔하고 안전한’ 시각적 표현으로 수렴된다. 반면 CLIP 기반 디퓨전은 입력된 텍스트를 의미 공간에서 벡터화한 후, 해당 벡터와 유사한 이미지 방향으로 확산 과정을 조정한다. 이때 과정 자체가 확률적으로 운용되므로, 항상 같은 결과가 보장되지 않는다. 결과적으로 스타일갠은 ‘재현 가능한 현실’을, CLIP 기반 디퓨전은 ‘항상 조금씩 어긋난 이미지’를 생성하게 된다.
실재 배제 방식은 생성된 이미지 속에서 ‘어떤 정보가 사라지는가’를 보여준다. 스타일갠은 개별성과 예외성을 제거하고 반복되는 일반화된 정보만을 남긴다. 이는 라캉의 산술놀이에서 특정 기표가 규칙적으로 소거되면서 전체 구조가 유지되는 방식과 상응한다. 이에 반해 CLIP 기반 디퓨전은 기표와 기의 간의 연결을 확정하지 않고, 지연된 상태로 유지한다. 이 불안정한 연결은 의미형성을 무기한 유예시키며 실재는 항상 도달되지 못한 채 ‘외부 경계’로 밀려나게 된다. 결과적으로 스타일갠은 실재를 ‘지워버리는’ 방식으로 작동하고, CLIP 기반 디퓨전은 실재를 ‘도달 불가능한 상태’로 남긴다.
의미 형성 방식에서는 두 모델이 구성하는 이미지의 성격 자체가 달라진다. 스타일갠은 정형화된 시각 질서를 구축하며, 마치 특정한 기준을 따르는 것처럼 안정된 이미지를 반복 생성한다. 반면 CLIP 기반 디퓨전은 유동적인 의미 체계를 따라, 맥락과 조건에 따라 매번 다른 해석 가능성을 제시한다. 이 차이는 결국 ‘어떤 이미지를 현실로 받아들이게 만드는가’라는 질문과 연결되며, 스타일갠은 ‘통계적 대표성에 기반한 익숙한 현실’을, CLIP 기반 디퓨전은 ‘불확정성과 다의성을 내포한 열린 현실’을 제시하게 된다.
결론적으로, 스타일갠은 실재를 반복적 제거를 통해 정형화된 현실로 덮어버리고, CLIP 기반 디퓨전은 실재를 유예된 상태로 지연시키며 끝내 도달하지 못하도록 만든다. 두 모델은 서로 다른 경로를 통해 ‘실재의 결여’를 구현하며, 라캉이 말한 ‘언어 구조 속 실재의 배제’ 원리와 쌍을 이룬다. AI 이미지 생성은 단순히 현실을 시뮬레이션하는 것이 아니라, 실재의 공백을 전제로 기호적 세계를 구성하는 하나의 연산적 장치임에 가깝다.
Ⅳ. AI 시각화에서 실재의 결여: 산술적 배제와 위상적 왜곡
AI 이미지 생성 기술은 고해상도 이미지와 시각적 자연스러움을 구현하는 데 성공했지만, 그 이미지들이 담고 있는 세계는 결코 '실재(the Real)'를 완전하게 재현하지 않는다. 본 장에서는 생성된 이미지가 어떻게 실재를 삭제하거나 지연시키는 방식으로 구성되는지를 구체적인 사례를 통해 분석한다. 특히 스타일갠과 CLIP 기반 디퓨전을 통해 생성된 이미지를 중심으로, 각각이 실재를 배제하는 방식이 어떠한 시각적 징후로 드러나는지를 살펴본다.
4-1 산술적 배제: 반복 연산과 실재의 삭제
앞서 2장에서 살펴본 스타일갠은 잠재 공간 내 반복 연산을 통해 이미지의 평균적 구조를 생성하는 데 특화된 모델이다. 이때 중요한 것은 단지 통계적 일반성을 따르는 것이 아니라, 훈련 과정에서 우발적이고 비전형적인 요소들을 ‘노이즈’로 간주하고 반복적으로 제거하는 방식으로 이미지를 구성한다는 점이다. 이것은 스타일갠이 도입한 두 가지 기법인 “style mixing”과 “truncation trick”을 통해 보다 명확히 드러난다.
Style mixing은 두 개의 잠재 벡터 z1, z2를 각각 스타일 벡터 w1, w2로 변환한 뒤, 신경망 내부에서 설정된 특정 분기점(crossover point)을 기준으로 나누어 조합하는 방식이다. 이때 하나의 이미지가 저해상도(coarse)부터 고해상도(fine)까지 세 가지 수준으로 나뉘어 처리되며, 각 단계마다 서로 다른 스타일 벡터가 적용된다. 가령, 그림 5에 제시된 사례에서는, Source A와 Source B 각각의 스타일이 coarse-to-fine 단계에 따라 조합된다. coarse 단계에서는 얼굴의 윤곽, 머리 방향, 안경 착용 여부 같은 큰 틀이 Source B에서 유지되고, fine 단계에서는 피부결, 눈동자 색, 미세한 표정 같은 세부 특징이 Source A에서 유지된다. 이처럼 고정된 연산 규칙을 통해 새로운 얼굴 이미지가 생성되지만, 이 과정은 단순한 병치가 아니라 특정 시각 정보가 선택적으로 강화되거나 반복적으로 배제되는 알고리즘적 구조로 작동한다. 이러한 연산 흐름은 잠재 공간 내 벡터 변환 구조를 기반으로 하며, 그림 5는 그 과정을 시각적으로 보여준다.
스타일갠의 또 다른 주요 기법인 Truncation Trick은 생성된 이미지가 평균 벡터 방향으로 수렴하도록 조정하는 방식이다. 이는 훈련 데이터 분포의 중심에 가까운 이미지를 우선적으로 생성함으로써 불안정하거나 비현실적인 결과를 억제하는 역할을 한다. 구체적으로, ψ(psi) 값은 이미지의 다양성과 개성 표현 정도를 조절하는 하이퍼파라미터로 작용한다. ψ가 클수록 이미지의 표현이 생생하고 개성이 뚜렷하지만, ψ를 줄이면 점차 정보가 단순화되고, 결과적으로 평균화된 얼굴 구조로 수렴하게 된다. 그림 6은 동일한 잠재 벡터를 기반으로, ψ 값을 단계적으로 낮추며 생성된 얼굴 이미지의 변화를 보여준다. 좌우측에서는 개성 있는 특징이 두드러지지만, 중앙으로 갈수록 눈에 띄는 특징이 사라지고 점점 보편적이고 매끈한 얼굴로 수렴된다. 이러한 수렴 구조는 잠재 공간 내에서 스타일 벡터 w가 평균 벡터 w̄ 방향으로 이동함에 따라, 고유한 특징이 반복적으로 삭제되는 과정을 벡터 연산 차원에서 보여주는 것이다.
Vector convergence structure of the Truncation Trick: The style vector w converges toward the average vector w̄, resulting in increasingly averaged features as the ψ value decreases (Source: [4])
결국 스타일갠의 시각적 그럴듯함은 현실에서 나타날 수 있는 다양한 개별성과 우발성을 반복적으로 제거하는 구조에서 비롯된다. 이는 단지 기술적 효율성의 문제가 아니라, 실재를 구성하는 요소들이 제거된 자리에 새로운 ‘전형’을 구축한다는 점에서, 일종의 기호적 작동이다. ψ 값에 따른 truncation trick은 특히 이 구조를 명확히 보여주는데, 값이 낮아질수록 현실적인 디테일(예: 눈가의 잔주름, 비대칭 표정, 뚜렷한 감정 표현 등)은 점차 소거되고 ‘안정된 얼굴’이라는 통계적 환상을 형성하게 된다. 이러한 배제된 정보, 즉 알고리즘이 반복적으로 삭제하는 시각 요소들이 바로 라캉이 말한 ‘실재가 자리하는 공간’이다.
스타일갠은 이렇게 실재를 제거하는 방식으로 시각적 구조를 만들며, 이 과정은 단순한 평균화가 아니라 기표의 반복적 배제를 통한 의미 형성 구조와 연결된다. 결과적으로 스타일갠은 실재를 삭제함으로써 의미를 가능케 하는, 역설적인 시각 체계를 작동시킨다.
4-2 위상적 왜곡: 기표-기의의 유동성과 실재의 미끄러짐
2장에서 살펴본 바와 같이, CLIP 기반 디퓨전은 은 동일한 텍스트 프롬프트를 반복 입력하더라도, 매번 서로 다른 이미지를 생성한다. 이는 단순한 기술적 오류라기보다는, 의미가 고정되지 않는 방식으로 작동하는 이 모델의 근본적인 특성에서 비롯되는데, 모델 자체가 텍스트와 이미지 사이의 일대일 대응을 전제하지 않고 의미가 항상 유동적으로 형성되도록 설계되어 있기 때문이다. 이런 점 때문에 라캉의 ‘크로스캡(Cross-Cap)’ 개념과 연결될 수 있는데, 특히 다음의 세 가지 부분에서 연관성을 찾아볼 수 있다.
먼저, 같은 문장을 반복해 입력해도 결과 이미지들은 똑같이 나오지 않는다는 점이다. 가령 그림 7의 첫 번째 이미지는 고양이가 입체파 형식으로 표현되었으며, 두 번째 이미지는 고흐 풍의 배경 속에 고양이가 실루엣으로 위치한다. 세 번째 이미지는 고양이가 기형적 형태로 묘사되어 초현실적 공포감을 자아내기까지 한다. 네 번째 이미지는 두 번째 이미지와 유사한 회화적 표현이지만 좀 더 묘사적이다. 이처럼 동일한 프롬프트임에도 각 이미지가 전혀 다르게 재현되는 것은 AI가 기표와 기의 사이의 일대일 대응이 아닌 확률적·위상학적 해석의 흐름을 따른다는 점을 시각적으로 증명한다. 이는 곧 동일한 프롬프트가 항상 같은 의미로 수렴되지 않는다는 것을, 따라서 의미 생성 흐름 자체가 유동적인 위상 구조 안에 있다는 것을 보여준다. 이러한 유동성이 접히고 비틀린 표면 위에서 안과 밖이 뒤섞이듯, 의미 역시 고정된 방향 없이 매번 다르게 연결되고 새로운 방식으로 흘러가는 크로스캡의 특성과도 맞닿아 있다.
앞서 그림 2에서 확인한 바와 같이, 스타일갠과는 달리, CLIP 기반 디퓨전의 이미지 생성은 처음부터 또렷한 형태를 목표로 하지 않고 무작위 노이즈 상태에서 시작해 점진적으로 형태를 만들어가는 방식이다. 그러나 이 과정은 늘 불완전하고 도달점이 정해져 있지 않다. 이런 생성의 흐름은 실재에 가까이 가려는 시도가 매번 어긋나는 것과 유사하며, 실재가 늘 미끄러지는 자리에 있다는 라캉의 설명과도 통한다. 크로스캡에서 내부와 외부의 경계가 명확히 구분되지 않듯, 이 모델 역시 명확한 경계나 중심 없이 방향만 있을 뿐, 결과는 항상 유동적이다.
이렇게 생성된 이미지들은 하나의 명확한 의미나 중심을 갖지 않는다. 다양한 해석 가능성을 열어두며, 보는 사람마다 다르게 받아들일 수 있게 만든다. 이미지의 경계는 흐릿하고, 정보는 겹쳐지고 분기된다. 이는 크로스캡의 표면처럼, 어느 한쪽으로 수렴되지 않고 안과 밖이 뒤섞인 채 꼬여 있는 상태와 닮아 있다.
결과적으로, CLIP 기반 디퓨전은 고정된 의미를 제시하는 것이 아니라, 끊임없이 변화하는 의미의 흐름 속에서 실재를 지연시키고 탈구시키는 구조로, 이러한 의미의 불안정성과 지연이 라캉이 크로스캡을 통해 설명한 실재의 접근 불가능성에 맞물린다 볼 수 있다.
4-3 실재 결여의 이중 구조: 반복과 어긋남의 통합
스타일갠과 CLIP 기반 디퓨전은 모두 인공지능을 통해 이미지를 만들어내는 모델이지만, 이미지를 생성하는 방식은 서로 다르다. 두 모델 모두 어떤 ‘실재(the Real)’를 있는 그대로 보여주지 않고, 특정 방식으로 배제한다는 공통점이 있다. 그러나 스타일갠은 정형화된 평균적인 이미지를 만들기 위해 특이한 요소들을 제거하고, CLIP 기반 디퓨전은 의미를 하나로 고정하지 않고 계속 바뀌는 방식으로 작동한다. 즉, 하나는 반복을 통해 예외를 없애고, 다른 하나는 의미의 불안정성을 그대로 유지하는 식이다.
이처럼 서로 다른 두 모델의 방식은 라캉이 말한 상징계와 실재의 관계를 기술적으로 구현하는 예로 볼 수 있다. 라캉 이론에서는 의미가 고정된 결과물이 아니라, 어떤 ‘결여’나 ‘비어 있는 자리’를 중심으로 만들어진다고 본다. 스타일갠은 반복된 연산을 통해 예외를 지워나가고, CLIP 기반 디퓨전은 이미지와 의미의 연결을 불안정한 채로 남기며 실재를 포착하지 못하게 한다. 이런 방식은 각각 라캉의 ‘산술놀이(Arithmetic Game)’와 ‘크로스캡(Cross-Cap)’ 개념과 연결된다. 표 2는 두 모델의 차이를 정보 처리 방식, 의미 형성 방식, 공간적 구조로 나누어 정리한 것이다.
이처럼 다른 접근을 통해 실재를 배제한다는 점은, AI 이미지 생성 모델이 단순히 데이터를 조합하는 도구를 넘어서, 인간 언어처럼 실재를 중심으로 의미를 만들어내는 구조를 모방하고 있다는 점에서 중요하다. 스타일갠은 평균적인 형태를 반복적으로 만들어내면서 실재를 지우고, CLIP 기반 디퓨전은 의미를 고정하지 않고 유동적으로 흐르게 하면서 실재에 도달하지 못하도록 만든다. 결국 두 모델 모두, 실재는 결코 직접 나타나지 않지만, 바로 그 부재 때문에 의미가 만들어진다는 구조를 따르고 있다.
이러한 두 모델의 실재 배제 방식은 단일한 이론적 분석에 그치지 않고, 실제 시각 실험을 통해도 확인될 수 있다. 아담 하이제러(Adam Heisserer)는 자신의 실험에서 <StyleGAN2>를 통해 생성된 건축적 격자의 각 영역에 CLIP 기반 디퓨전을 부분적으로 적용함으로써, 반복적 패턴 속에서 의미의 불확정성과 미끄러짐이 동시에 발생하는 복합적인 이미지 결과물을 도출하였다. 그의 작업은 반복 연산을 통해 형식적 규칙을 만드는 스타일갠의 구조 위에, 텍스트 기반의 기표-기의 유동성이 흐르는 CLIP 기반 디퓨전을 입힘으로써, 두 모델의 실재 배제 방식이 한 화면에서 병치되도록 설계되어 있다. 이 조합은 마치 기표의 반복적 삭제와 기의의 위상적 어긋남이 하나의 장 안에서 작동하는 라캉적 의미 생성 구조를 시각적으로 형상화한 것으로 볼 수 있다[19].
결론적으로, AI 이미지 생성 모델은 단순히 이미지를 합성하는 기술이 아니라, 실재의 부재를 통해 의미를 만들어내는 하나의 구조적 장치로 이해할 수 있다. 스타일갠은 반복과 정형화를 통해, CLIP 기반 디퓨전은 유동성과 지연을 통해 실재를 배제한다. 두 모델은 서로 다른 방식으로 작동하지만, 모두 실재에 닿을 수 없다는 전제 아래, 그 결여를 중심으로 의미를 만들어낸다는 점에서 공통된 구조를 지닌다. 이러한 차이는 단일한 결여 메커니즘이 아니라, 서로 다른 방식의 실재 삭제가 병치될 수 있다는 점에서 의미를 갖는다. 이는 향후 다양한 모델 간 비교 분석으로 확장 가능한 이론적 가능성을 열어준다.
Ⅴ. 결 론
AI 이미지 생성 모델은 단순히 시각적으로 그럴듯한 이미지를 만들어내는 기술이 아니라, 실재의 결여를 전제로 의미를 생성하는 기호적 장치로 이해될 수 있다. 본 연구는 라캉의 정신분석 이론을 바탕으로 스타일갠과 CLIP 기반 디퓨전이 각각 어떻게 실재를 배제하면서 이미지를 생성하는지를 분석했다. 스타일갠은 반복적인 연산과 평균화를 통해 전형적인 이미지를 강화하고, 우발적인 정보나 예외적인 특성을 제거한다. 이는 반복되는 기표 구조 속에서 특정 기호를 소거함으로써 전체 체계를 작동시키는 라캉의 ‘산술놀이’ 개념과 연결된다. 반면, CLIP 기반 디퓨전은 텍스트 기표와 이미지 기의 사이의 관계를 고정하지 않고 유동적인 의미 생성 과정 속에서 결과 이미지를 도출한다. 동일한 프롬프트에도 매번 다른 이미지가 생성되며, 이 과정은 실재가 끊임없이 미끄러지고 지연되는 라캉의 ‘크로스캡’ 개념과 맞닿아 있다.
이처럼 두 모델 모두 실재를 재현하지 않음으로써 오히려 실재의 부재를 중심으로 의미를 구성하는 공통점을 가진다. 스타일갠은 실재를 제거함으로써 시각적 전형성을 구성하고, CLIP 기반 디퓨전은 실재에 도달하지 못한 채 계속 어긋나는 의미의 흐름을 생성한다. 실재는 이들의 이미지 안에 직접적으로 드러나기보다 반복과 미끄러짐이라는 방식으로 결여된 채 자리하며, 그 결여가 바로 의미를 가능하게 하는 조건이 된다. 이러한 관점은 하이제러의 실험적 시각 작업을 통해 더욱 구체화된다. 그는 스타일갠과 CLIP 기반 디퓨전을 조합한 실험을 통해 반복되는 시각적 틀과 유동적인 의미 전이가 하나의 이미지 안에서 공존할 수 있음을 보여주었다. 이를 통해 실재의 결여가 단지 이론에 머무는 것이 아니라, 이미지 생성 실천에서도 유효한 설명이 될 수 있음을 시사하였다.
결국 AI 이미지 생성 모델은 단순한 생성 기술을 넘어, 의미를 가능하게 하는 결여의 구조를 재현하는 하나의 기호적 장치라 할 수 있다. 다만 본 연구가 특정 이미지 생성 모델을 중심으로 분석을 진행했기에, 향후 연구에서는 보다 다양한 생성 모델과 멀티모달 생성 시스템을 포함한 확장적 사례 분석이 요구된다. 이는 향후 연구가 될 것이다.
Acknowledgments
이 논문은 2022년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구임(NRF-2022S1A5B5A17044879)
References
-
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, ... and Y. Bengio, “Generative Adversarial Networks,” arXiv:1406.2661, , December 2014.
[https://doi.org/10.48550/arXiv.1406.2661]
-
D. P. Kingma and M. Welling, “Auto-Encoding Variational Bayes,” arXiv:1312.6114, , December 2013.
[https://doi.org/10.48550/arXiv.1312.6114]
-
B. Zhou, D. Bau, A. Oliva and A. Torralba, “Interpreting Deep Visual Representations via Network Dissection,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 41, No. 9, pp. 2131-2145, 2019.
[https://doi.org/10.1109/TPAMI.2018.2858759]
-
T. Karras, S. Laine, and T. Aila, “A Style-Based Generator Architecture for Generative Adversarial Networks,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach: CA, pp. 4396-4405, 2019.
[https://doi.org/10.1109/CVPR.2019.00453]
- J. Lacan, The Four Fundamental Concepts of Psychoanalysis, New York, NY: W. W. Norton & Company, 1978.
-
A. Slater, “Critical Response IV: This Photo Does Not Exist: Generativity and the AI Gaze,” Critical Inquiry, Vol. 51, No. 2, pp. 416-422, February 2025.
[https://doi.org/10.1086/732925]
- Y. Stavrakakis and T. Skourti, “Generative Artificial Intelligence & Psychoanalytic Writing: A Short Editorial Note,” Journal of European Psychoanalysis, Vol. 10, No. 1, 2023. https://www.journal-psychoanalysis.eu/articles/generative-artificial-intelligence-psychoanalytic-writing
- Synthesis.AI. Generative AI VI: Stable Diffusion, DALL·E 2, and Midjourney [Internet]. Available: https://synthesis.ai/2023/08/09/generative-ai-vi-stable-diffusion-dall-e-2-and-midjourney/?utm_source=chatgpt.com, .
- GarageFarm.NET. Understanding StyleGAN: A Deep Dive into Generative Adversarial Networks [Internet]. Available: https://garagefarm.net/blog/understanding-stylegan-a-deep-dive-into-generative-adversarial-networks?utm_source=chatgpt.com, .
- NVIDIA, “StyleGAN – Official TensorFlow Implementation,” GitHub, accessed May 2025. https://github.com/NVlabs/stylegan
-
A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, ... and I. Sutskever, “Learning Transferable Visual Models from Natural Language Supervision,” arXiv:2103.00020, , February 2021.
[https://doi.org/10.48550/arXiv.2103.00020]
-
A. Ramesh, P. Dhariwal, A. Nichol, C. Chu, and M. Chen, “Hierarchical Text-Conditional Image Generation with CLIP Latents,” arXiv:2204.06125, , April 2022.
[https://doi.org/10.48550/arXiv.2204.06125]
-
J. Ho, A. Jain, and P. Abbeel, “Denoising Diffusion Probabilistic Models,” arXiv:2006.11239, , December 2020.
[https://doi.org/10.48550/arXiv.2006.11239]
-
J. Lacan and J. Mehlman, “Seminar on ‘The Purloined Letter’,” in Yale French Studies, No. 48, French Freud: Structural Studies in Psychoanalysis, London, UK: Yale University Press, pp. 39-72, 1972.
[https://doi.org/10.2307/2929623]
- Kwon, Kyoung-Ah, The Technological and the Real: The New Reality of the Technological Subject, Ph.D. Dissertation, Soongsil University, Seoul, Korea, 2018.
- J. Lacan, “Of Structure as an Inmixing of an Otherness Prerequisite to Any Subject Whatever,” in The Languages of Criticism and the Sciences of Man, Johns Hopkins Press, pp. 186-200, 1970.
- J.-A. Miller (ed.), The Seminar of Jacques Lacan: Book XX - Encore, New York, NY: W. W. Norton & Company, 1999.
- J. S. Lim, Topological Psychoanalysis, Powerbook, Seoul, Korea, 2010.
- A. Heisserer. Visual Integration of StyleGAN and CLIP-Guided Diffusion [Internet]. Available: https://www.adamheisserer.com/blog-research/2021/12/30/stylegan2-clip-guided-diffusion, .
저자소개
2005년:숭실대학교 대학원(공학석사)
2018년:숭실대학교 대학원(공학박사-미디어아트)
2023년~현 재: (사)한국인문사회총연합 소속 인문사회학술연구교수
※관심분야:뉴미디어아트(New Media Art), 융복합 공연예술(Convergence Performing Arts), 매체미학(Media Aesthetics), 기술철학(Philosophy of Technology), 정신분석학(Psychoanalysis) 등





