자기회귀(Autoregressive, AR) 모델 1편 - 생성형 AI의 또 다른 미래

Autoregressive 모델을 통한 차세대 생성형 AI 혁신

자기회귀 모델 1편

생성형 AI와 새로운 패러다임

생성형 AI는 더 이상 연구실의 실험적 기술이 아니라, 산업과 사회 전반의 혁신을 주도하는 핵심 동력으로 자리매김했습니다. 현재까지는 Diffusion 모델이 이미지 생성 분야의 주류로 자리잡아 놀라운 성과를 보여주었지만 최근에는 또 다른 축이 주목받고 있습니다. 바로 자기회귀(Autoregressive, AR) 모델입니다. AR 모델은 이미 대규모 언어모델(LLM)을 통해 검증된 구조를 기반으로 이미지와 멀티모달 영역으로 확장되고 있습니다. 이는 단순히 새로운 모델의 등장 차원을 넘어 차세대 생성형 AI 패러다임의 변화를 알리는 신호라 할 수 있습니다. 특히 AR 모델은 텍스트·비전·오디오를 아우르는 통합적 생성 능력(multimodal generation)과 기업이 요구하는 효율성·고품질·구조 보존력을 동시에 제공할 수 있다는 점에서 전략적 의미가 큽니다. 이번 인사이트에서는 AR 모델의 기본 원리와 Diffusion 모델과의 차이 그리고 최신 연구 성과를 통해 생성형 AI의 미래 방향성을 짚어보고자 합니다.

딥러닝 모델?

인공신경망(ANN)을 기반으로 하는 머신러닝 모델로 입력 데이터를 여러 층을 통해 점진적으로 추상화하여 복잡한 패턴과 특징을 자동으로 학습하는 시스템입니다.

딥러닝 모델 구조

출처: https://www.nature.com/articles/s41377-024-01590-3


딥러닝 모델의 분류 | 판별 vs 생성모델

딥러닝 모델은 크게 두 가지로 구분됩니다.

  • Discriminative Model (판별 모델) 입력(X)에 대한 출력(Y)의 조건부 확률(p(Y|X))을 직접 학습하여 데이터 인스턴스를 서로 다른 범주로 구별하는 모델 (예: YOLO, EDSR)
  • Generative Model (생성 모델) 데이터의 분포 자체(p(X)) 또는 레이블이 있는 경우 데이터와 레이블의 결합 확률(p(X, Y))을 학습하여 훈련 데이터와 유사한 새로운 데이터 인스턴스를 생성하는 모델 (예: ChatGPT, Stable Diffusion)

판별 모델 vs 생성 모델 비교

오늘날 흔히 이야기하는 생성형 AI는 후자에 속하며, 자연어·이미지·오디오 등 다양한 데이터를 직접 만들어낼 수 있습니다.

왜 이미지 생성은 generation model 만이 수행 가능한가?

🎯 문제 상황: 텍스트 프롬프트로 이미지 생성하기

예를 들어, 우리가 어떤 이미지 생성 모델 (예: DALL·E, Stable Diffusion)을 사용한다고 가정합시다.

  • 입력(input): "a red apple on a table"
  • 출력(output): 그 프롬프트에 어울리는 이미지

📘 베이즈 관점에서 이 문제를 재구성

우리가 원하는 건:

"주어진 텍스트 프롬프트 x에 대해, 그에 적합한 이미지 y를 생성하고 싶다."
즉, 우리는 다음과 같은 확률 분포를 모델링하고 싶은 거예요:
베이즈 정리 수식
- xx: 텍스트 프롬프트 ("a red apple on a table") - yy: 그에 해당하는 이미지

🧠 베이즈 정리 적용

베이즈 정리를 쓰면:

베이즈 정리 전개 수식
이게 무슨 뜻이냐면…

🔍 수식 해석

  • p(y∣x): 텍스트 프롬프트 x가 주어졌을 때 생성해야 할 가장 그럴듯한 이미지 yy의 확률 (우리가 최종적으로 구하고 싶은 것)
  • p(x∣y): 어떤 이미지 y가 주어졌을 때, 그것이 텍스트 x를 설명할 가능성 — 즉 이미지가 해당 텍스트와 얼마나 잘 어울리는지
  • p(y): 이미지 자체의 자연스러움 — 즉 그 이미지가 일반적으로 자연스러운 이미지일 가능성

🖼️ 예시로 풀어보기

입력 텍스트:

"a red apple on a table"

두 이미지 후보:

  1. 이미지 A: 붉은 사과가 나무 테이블 위에 놓여 있는 사진
  2. 이미지 B: 파란 고양이가 하늘을 날아다니는 그림

비교해보면:

  • p(x|A)는 매우 높음 (프롬프트와 이미지 A는 거의 정확히 일치함)
  • p(x|B)는 매우 낮음 (프롬프트와 관련이 없음)
  • p(A)는 현실적인 사진이라서 높음
  • p(B)는 비현실적 이미지라서 낮음
→ 따라서 이미지 A를 선택하는 것이 더 합리적!

🤖 실제 모델 적용: Diffusion Model

Diffusion 기반 생성 모델들도 비슷한 아이디어를 따릅니다.

  • 이미지 prior (p(y)): 현실적으로 가능한 이미지 분포를 학습
  • 텍스트 조건 likelihood (p(x|y)): 생성된 이미지가 텍스트 설명을 잘 따르는지 평가
  • 최종 목표 (posterior): 텍스트에 가장 잘 맞고 자연스러운 이미지를 생성하는 것

✅ 요약

베이즈 요소이미지 생성에서 의미
$p(y∣x)$텍스트에 가장 잘 맞는 이미지
$p(x∣y)$이미지가 해당 텍스트를 잘 설명하는 정도
$p(y)$일반적으로 자연스러운 이미지인지 여부


📌 한 줄 정리

이미지 생성 모델은 베이즈 정리의 원리를 따라, "텍스트와 잘 맞고, 동시에 자연스러운 이미지"를 생성하는 방향으로 학습합니다.

이미지 생성 (Image Generation) 모델

이미지 생성 모델은 학습 데이터를 분석해 그 분포를 학습하고 이를 바탕으로 새로운 이미지를 만들어내는 기술입니다. 생성형 AI의 대표적인 연구 분야 중 하나로, 다양한 방식이 공존하며 발전하고 있습니다. 주요 접근 방식은 다음과 같습니다

  1. GAN (Generative Adversarial Network)
  2. Autoregressive
  3. Diffusion

이미지 생성 모델 비교

출처: Efficient Diffusion Models for Vision: A Survey, 23년도 기준 1년간 월별 논문수

현재까지는 위에 표와 같이 이미지 생성 분야에서 Diffusion Base 모델이 대중적으로 사용되고, 유의미한 성과를 거두고 있습니다.
Diffusion Base Model 이 생성한 이미지 (SD3 - 24.03)

Diffusion Base Model 생성 이미지 예시

동시에 Autoregressive Base 모델도 꾸준히 지속적으로 발전하고 있으며 최근 주목할 만한 성과를 보여주고 있습니다.

Autoregressive Models in Vision A Survey

출처: Autoregressive Models in Vision A Survey


Autoregressive Base Model 이 생성한 이미지 (LLamaGen - 24.06)

LlamaGen 모델 생성 이미지

출처: Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation


2024년 공개된 LlamaGen(24.06) 모델은 일부 정량적 지표에서 Diffusion 모델을 능가하는 성능을 보여주며, AR 접근 방식의 잠재력을 다시 한 번 입증하였습니다.

LlamaGen 성능 비교 지표


그럼 이제 Autoregressive Base Model에 대해서 조금 더 상세히 살펴보겠습니다.

Autoregressive-Based Image Generation Models

Autoregressive(자기회귀)는 이미지를 생성할 때, 이전까지 생성된 픽셀(또는 패치)을 조건으로 하여 다음 픽셀을 하나씩 예측하는 방식으로 작동하는 확률 기반 생성 모델입니다.

Visual Autoregressive Model의 두 가지 핵심 요소


Visual Autoregressive Model 핵심 요소

출처: https://arxiv.org/pdf/2411.05902

  • Sequence Representation : 이미지와 같은 시각적 데이터를 이산적인 순차 요소들의 시퀀스로 변환하는 과정
  • Autoregressive Sequence Modeling : 변환된 시퀀스를 기반으로, 현재 요소를 이전까지의 모든 요소에 조건화하여 순차적으로 생성하는 모델링 방식입니다.
수학적으로는 다음과 같이 표현됩니다.
Autoregressive 수학적 표현

Generic Frameworks

Autoregressive 모델은 이미지를 어떤 단위로 나누어 시퀀스로 다루는가에 따라 크게 세 가지 유형으로 구분됩니다.

Generic Frameworks 세 가지 유형

출처: https://arxiv.org/pdf/2411.05902

1. Next-Pixel Prediction(픽셀 단위) 각 픽셀의 값을 이전 픽셀들을 기반으로 조건부 확률을 통해 예측함으로써 전체 이미지를 생성하는 방법

  • 장점: 이미지의 가장 세밀한 부분까지 정확하게 표현 가능하여, 고품질의 이미지 생성 가능
  • 단점: 계산 cost 가 높고, 고해상도 이미지 생성에 어려움이 있음
2. Next-Token Prediction(토큰 단위) 이미지나 비디오를 이산적인(latent) Token sequence로 압축하고 양자화하여 고해상도 콘텐츠를 보다 효율적으로 처리하는 방법
  • 장점: 높은 효율성 (tokenizer 를 통한 압축)
  • 단점: 정보 손실 가능성 (tokenizer 를 통한 압축으로)
3. Next-Scale Prediction(멀티 스케일 단위) 전통적인 다음 토큰 예측 모델과는 달리, 단일 해상도에서 래스터 스캔 순서로 작동하지 않고, 스케일 기반 모델은 coarse에서 fine으로 여러 스케일에서 시각적 콘텐츠를 생성하는 방법
  • 장점: 이미지의 전체적인 구조와 세부적인 디테일을 효과적으로 캡처할 수 있음
  • 단점: 학습의 어려움 (train 과정이 복잡), 계산 cost 가 단일 해상도 대비 높은 편

Autoregressive-Based Image Generation의 장점

앞서 기본 개념을 살펴봤다면, 이제는 Autoregressive 모델이 가진 잠재력과 강점을 구체적으로 확인해 보겠습니다.

  • LLM과의 접목 용이성 (Multimodal 확장) Autoregressive 기반 모델은 기본 구조가 LLM과 동일한 시퀀스 예측 방식을 따르기 때문에, 텍스트와 이미지를 함께 다루는 멀티모달 환경으로 확장하기에 적합합니다.
    • 이미지 데이터를 토큰화하여 LLM 입력과 유사한 형태로 변환 가능
    • LLM이 가진 맥락(context) 이해 능력을 이미지 생성 과정에 활용 가능
    • 동일한 아키텍처 기반으로 통합이 가능해, LLaMAGen과 같이 LLM 구조를 그대로 활용하는 사례가 등장

LLM과의 접목 용이성

출처: Multi-modal Auto-regressive Modeling via Visual Tokens


멀티모달 확장 예시

  • 입력 이미지 구조 보존 AR 모델은 이미지를 순차적 토큰 단위로 생성하기 때문에, 입력 이미지의 구조적 특징을 잘 보존하는 장점이 있습니다.
    • 세밀한 디테일을 그대로 유지하면서도 전체적인 공간적 관계를 고려
    • 이미지의 semantic structure(의미적 구조)를 유지하여 왜곡이 적음
    • 복잡한 장면에서도 개체 간의 배치와 관계를 안정적으로 표현 가능
  • 이미지의 Structure 를 잘 유지하는 Style Transfer (autoregressive base, 예시)

Autoregressive 기반 Style Transfer 결과
기존 방법 (diffusion base, 예시)
기존 Diffusion 기반 방법과의 비교

마무리하며

이번 인사이트에서는 Autoregressive(AR, 자기회귀) 모델의 개념과 장점을 중심으로 생성형 AI에서 AR이 가지는 의미를 살펴보았습니다. AR은 LLM과의 접목 용이성, 이미지 구조 보존 능력 등에서 강점을 보이며 지금까지 Diffusion이 주도해온 이미지 생성 분야에서 보완적이면서도 전략적인 대안으로 부상하고 있습니다. 이러한 특성은 단순한 연구적 의의를 넘어 멀티모달 AI 전략과 산업 적용 가능성에도 중요한 의미를 가집니다. 기업은 AR 기반 접근을 통해 텍스트·이미지·센서 등 이질적 데이터를 하나의 프레임워크 안에서 통합적으로 다룰 수 있으며 이는 제조·의료·국방 등 고정밀 산업에서 새로운 활용 기회를 열어줄 수 있습니다. 다음 인사이트에서는 한 단계 더 나아가 VAR(Visual Autoregressive) 모델을 심층적으로 분석합니다. VAR은 기존 AR이 가진 한계를 보완하며, 어떤 차별화된 기술 전략을 통해 발전하고 있는지 구체적으로 다루어보겠습니다.

출처

연관 아티클

자기회귀(Autoregressive, AR) 모델 2편 Visual Autoregressive Modeling

AR 모델의 확장, Visual Autoregressive Modeling

항공 MRO AI 에이전트 개발 선도의 핵심은 'synapse'

AI로 항공 MRO 혁신 데이터메이커 시냅스의 역할

AI 에이전트 2편 - 행동하는 AI, 그 책임은 누구에게 있을까?

AI 에이전트 행동의 책임과 윤리

AI Agent 1편 - 단순한 챗봇을 넘어선 AI

AI Agent의 구조와 원리

AI 모델 안전성을 향한 끊임없는 탐구, 데이터메이커 AI 레드팀

RED TEAMING

온보딩 프로젝트 개발기 - 2부

멀티 패러다임 프로그래밍을 통한 프론트엔드 클린코드