본문 바로가기

AI 마일스톤/DL (딥러닝)

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion(2025)

비디오 객체 삽입의 문제점

  최근 소라(Sora), 클링(Kling)과 같은 비디오 생성 모델들이 등장하면서 텍스트 한 줄로도 진짜같은 고화질 영상을 만들 수 있게 되었습니다. 하지만 이미 찍어놓은 영상 속에 새로운 물체를 집어넣는 비디오 객체 삽입(Video Object Insertion, VOI)은 여전히 전문가들의 작업이 필요한 분야였습니다.

 

  기존의 AI 영상 편집 툴이나 일반적인 딥러닝 모델들로 객체를 삽입했을 때는 흔히말하는 불쾌한 골짜기를 경험하게 됩니다. 그 이유는 3가지가 있는데 첫 번째는 미끄러짐 현상 (Sliding)입니다. 이 현상은 카메라가 움직일 때 삽입된 물체가 바닥에 고정되지 않고 둥둥 떠다니거나 미세하게 밀리는 현상입니다. 이는 AI가 영상의 3D 공간 구조를 완벽히 이해하지 못한 채 2D 픽셀만 수정하기 때문에 발생합니다. 두 번째는 물리적 상호작용의 부재입니다. 실제 물체라면 당연히 생겨야 할 그림자나 바닥의 반사광이 없는 경우가 이에 해당합니다. 또한, 앞에 장애물이 있는데도 물체가 그 위를 덮어버리는 가림 현상도 이에 해당하는 경우입니다. 세번째는 일관성의 붕괴입니다. 영상이 진행됨에 따라 삽입된 물체의 모양이나 질감이 조금씩 변하는 모핑현상이 발생하여 몰입감을 해칩니다.

 

  KAIST 연구팀이 발표한 InsertAnywhere는 이 문제를 해결하기 위해 새로운 접근 방식을 제안했습니다. 단순히 픽셀을 예쁘게 그리는 것이 아니라 영상의 3D 기하 구조와 시간축(4D)을 먼저 파악하고 그 틀 안에서 딥러닝 모델이 그림을 그리게 하는 방법입니다. 과연 이 모델이 어떻게 기하학(Geometry)과 확산 모델(Diffusion)이라는 두 마리 토끼를 잡았는지 본론에서 자세히 살펴보겠습니다.


핵심 아이디어: Geometry와 Diffusion의 결합

  InsertAnywhere의 핵심 전략은 물리적 뼈대 위에 인공지능의 살을 입히는 것입니다. 기존의 연구들은 수학적 기하학을 중시하는 방법과 데이터 기반의 생성을 중시하는 방법으로 나뉘어 있었습니다. 전통적 방식에서는 공간 계산은 정확하지만, 그림자나 반사 같은 복잡한 렌더링이 부자연스럽습니다. 생성 모델 방식은 그림은 기가 막히게 그리지만 공간감이 없어 물체가 미끄러집니다. InsertAnywhere는 이 둘 사이를 잇는 교량 역할을 하고자 합니다. 카메라의 움직임을 계산해 물체가 놓일 4D 마스크를 먼저 만들고 이를 가이드라인 삼아 확산 모델(Diffusion)이 세부적인 질감과 빛을 채워 넣는 방식입니다.  이 모델이 구체적으로 어떻게 동작하는지 3단계의 파이프라인으로 살펴보겠습니다.

① 4D-Aware Mask Generation

  입력된 비디오에서 카메라의 궤적과 주변 지형을 분석합니다(SfM 기술 활용). 사용자가 첫 프레임에 물체를 두면 AI는 그 물체가 3차원 공간의 어느 좌표에 있는지 계산합니다. 영상이 흐르는 동안 카메라가 움직여도 계산된 좌표를 바탕으로 물체가 있어야 할 자리에 정교한 마스크를 실시간으로 생성합니다. 이 덕분에 물체가 배경에 완전히 스며들어 있는 듯한 안정감을 줍니다.

② ControlNet 기반의 다중 조건 제어

  단순히 마스크만 있다고 그림이 그려지지는 않습니다. InsertAnywhere는 ControlNet 구조를 확장하여 세 가지의 정보를 동시에 입력받습니다. Background Video는 물체가 들어갈 원본 배경, Reference Image는 삽입하고 싶은 물체의 고화질 이미지, 4D Mask는 앞서 계산한 물체의 위치 및 가림 정보를 입력 받습니다.

③ 물리적 상호작용의 자동 생성

  그림자나 반사광을 직접 그릴 필요도 없습니다. 딥러닝 모델은 학습 과정에서 특정 위치에 물체가 생기면 주변 빛의 흐름이 어떻게 변하는지를 이미 알고 있습니다. 4D 마스크가 위치를 잡아주면 모델은 그 주변 픽셀을 수정해 자연스러운 그림자와 반사를 생성해냅니다.


데이터의 힘: ROSE++ 데이터셋 구축 전략

  딥러닝 연구에서 모델만큼 중요한 것이 바로 데이터입니다. 물체가 없는 영상과 똑같은 구도에 물체만 추가된 영상의 쌍을 구하고자 했고 연구팀은 역발상을 사용했습니다. 객체 제거(Inpainting)를 활용하여 이미 물체가 있는 비디오에서 물체를 지워버립니다. 데이터 쌍을 생성하여 물체가 있었던 원본과 AI가 지운 영상을 한 세트로 묶습니다. 그리고 학습을 통해 모델에게 지워진 부분에 원래 있던 물체를 다시 그려 넣어봐라고 시키며 실제 정답(원본)과 비교하며 학습시킵니다. 이 방식을 통해 연구팀은 수작업 없이 ROSE++라는 대규모 고품질 데이터셋을 구축할 수 있었습니다.


실험 결과: 수치와 시각으로 증명된 압도적 성능

InsertAnywhere가 정말로 뛰어난지 확인하기 위해 연구팀은 현재 가장 잘 나가는 비디오 생성 AI 모델들과 비교했습니다.

 

정성적 비교

  • Pika & Kling: 물체를 삽입했을 때, 초기에는 그럴싸해 보이지만 카메라가 이동하면서 물체가 미끄러지거나 배경의 질감을 무시하는 경향이 컸습니다.
  • InsertAnywhere: 복잡한 가구 사이나 야외 지형에서도 물체가 지면에 잘 스며들었고 특히 바닥 질감에 따른 그림자의 왜곡까지 정확하게 묘사할 수 있었습니다.

정량적 비교

  • CLIP-I (0.8122): 삽입된 물체가 원래 참조 이미지의 특징을 얼마나 잘 유지하는지 나타내는 지표입니다.
  • DINO-I (0.5678): 물체의 형태와 구조적 일관성을 측정합니다.

결과적으로 기존 상용 모델들보다 정체성 유지 능력과 공간적 안정성 면에서 압도적인 우위를 점했습니다.

 


결론 및 인사이트: 딥러닝이 물리 세계를 배우는 법

  InsertAnywhere 논문이 우리에게 주는 가장 큰 의미는 딥러닝의 생성 능력과 전통적인 기하학의 조화가 얼마나 강력한지 보여주었다는 점입니다. 이후에는 단순히 "무엇을 그려라"를 넘어 "어디에, 어떻게 배치하라"는 구체적인 제어가 비디오 AI의 핵심 미래가 될 것입니다. 또한 ROSE++ 데이터셋 구축 사례처럼 해결하려는 문제의 '역방향'에서 정답을 찾는 사고방식은 모든 ML 연구자에게 새로운 영감을 줄 것입니다.

 

  이 기술이 발전하면 영화 제작에서 값비싼 VFX 비용이 획기적으로 줄어들 것입니다. 또한 스마트폰으로 찍은 영상에 가상의 가구를 배치해 보는 이커머스 경험, 메타버스 속 혼합 현실(MR)에 관한 콘텐츠 제작이 누구나 제작 가능한 수준으로 대중화될 것입니다.

수학적으로 정교하게 설계된 틀 안에서 딥러닝이 가장 자유롭게 창의성을 발휘한다는 사실을 이 논문은 증명해 냈습니다.