블로그로 돌아가기
기술 연구

HyperMamba: 영상에서 인과관계를 학습하는 새로운 AI 아키텍처

AGEIUM이 개발한 HyperMamba는 기존 Transformer의 한계를 넘어 시간적 인과관계를 직접 학습합니다. Mamba SSM 기반의 선택적 상태 공간 모델이 어떻게 영상 이해를 혁신하는지 소개합니다.

AGEIUM Research2026년 4월 10일4 min read
HyperMamba: 영상에서 인과관계를 학습하는 새로운 AI 아키텍처

Transformer의 한계: 왜 새로운 아키텍처가 필요한가

지난 5년간 AI 발전을 이끌어 온 Transformer 아키텍처는 한 가지 근본적인 문제를 안고 있습니다. 모든 토큰이 모든 토큰을 참조하는 Self-Attention은 시퀀스 길이의 제곱에 비례하는 계산 비용을 요구합니다.

영상 데이터는 더 심각합니다. 10초짜리 30fps 영상은 300프레임, 각 프레임당 수천 개의 패치 토큰이 생성됩니다. 총 수십만 개의 토큰에 Attention을 적용하는 것은 실용적이지 않습니다.

Mamba SSM: 선택적 상태 공간 모델

2023년 등장한 Mamba(State Space Model)는 이 문제를 다른 방식으로 접근합니다.

핵심 아이디어: 입력에 따라 동적으로 변하는 게이팅 메커니즘으로 "무엇을 기억할지" 선택합니다.

이 선택적 메커니즘 덕분에 Mamba는 선형 시간 복잡도로 긴 시퀀스를 처리할 수 있습니다.

HyperMamba: 인과 구조를 품은 Mamba

AGEIUM의 HyperMamba는 표준 Mamba에 두 가지 핵심 요소를 추가합니다.

1. Causal Masking via Frobenius Penalty

영상에서 "원인 → 결과" 방향을 보존하기 위해 W 행렬의 Frobenius 노름 기반 패널티를 적용합니다.

이 패널티는 미세조정 과정에서 사전 학습된 언어 지식이 훼손되지 않도록 보호합니다. 실험 결과 W preservation ratio ≥ 0.60 유지 시 텍스트 능력이 보존됩니다.

2. Cosmos FSQ Tokenization

영상 프레임을 직접 처리하지 않고 NVIDIA Cosmos의 FSQ(Finite Scalar Quantization) 토크나이저로 먼저 64,000 코드북 어휘로 변환합니다. 이 방식은:

  • 영상 → 텍스트와 동일한 이산 토큰 공간으로 변환
  • 언어 모델과 동일한 학습 파이프라인 재사용 가능
  • 시각-언어 통합 표현 학습

실험 결과: CLEVRER 인과 추론 벤치마크

CLEVRER(Causal and Counterfactual Video Reasoning) 데이터셋으로 평가한 결과:

모델인과 Q&A 정확도반사실 추론
VideoLLaMA 261.2%48.3%
LLaVA-Video64.7%52.1%
HyperMamba (ours)71.4%61.8%

특히 "A가 B를 충돌시키지 않았다면 C가 움직였을까?" 형태의 반사실 추론에서 기존 모델 대비 9.7% 향상이 확인되었습니다.

다음 단계

현재 HyperMamba는 180M 토큰 CLEVRER 데이터로 1차 학습이 완료되었으며, CATER·Physion 등 5개 추가 데이터셋으로의 확장을 준비 중입니다. 2026년 Q3 중 공개 API를 통한 접근을 계획하고 있습니다.