본문 바로가기

전체 글

(4)

Vision Mamba: Efficient Visual Representation Learning with BidirectionalState Space Model(2024) 1. 들어가며 먼저 백본이 뭔지 알아보겠습니다. 딥러닝에서 백본은 입력 데이터(예를들면 이미지)를 받아서 핵심적인 특징(피처)을 추출해 주는 기본적인 네트워크를 말합니다. 이미지 분류를 할 때는 백본이 뽑아낸 특징을 바탕으로 확률을 계산하고, 객체 탐지나 분할 같은 작업에서는 백본에 탐지 헤드나 분할 헤드를 붙여서 객체 위치나 픽셀별 레이블을 예측하죠. 백본 하나가 바뀌면 전체 작업 성능이 좌우될 정도로 중요합니다. 컴퓨터 비전 분야에서 대표 백본의 흐름을 보면 판이 몇 번 크게 바뀌었습니다. 처음에는 ResNet 같은 CNN 계열이 이미지 분류부터 객체 탐지, 의미 분할까지 거의 모든 일을 떠맡았고 최근에는 ViT나 DeiT 같은 비전 트랜스포머가 등장하면서 이미지를 패치 단위로 쪼개서 토큰..

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion(2025) 비디오 객체 삽입의 문제점 최근 소라(Sora), 클링(Kling)과 같은 비디오 생성 모델들이 등장하면서 텍스트 한 줄로도 진짜같은 고화질 영상을 만들 수 있게 되었습니다. 하지만 이미 찍어놓은 영상 속에 새로운 물체를 집어넣는 비디오 객체 삽입(Video Object Insertion, VOI)은 여전히 전문가들의 작업이 필요한 분야였습니다. 기존의 AI 영상 편집 툴이나 일반적인 딥러닝 모델들로 객체를 삽입했을 때는 흔히말하는 불쾌한 골짜기를 경험하게 됩니다. 그 이유는 3가지가 있는데 첫 번째는 미끄러짐 현상 (Sliding)입니다. 이 현상은 카메라가 움직일 때 삽입된 물체가 바닥에 고정되지 않고 둥둥 떠다니거나 미세하게 밀리는 현상입니다. 이는 AI가 영상의 3D 공간 구조를 완벽히 이해..

논문분석 : Attention Is All You Need(2017) "All You Need Is Love" 비틀즈의 노래가 AI의 역사가 되기까지 2017년, 구글 브레인(Google Brain) 팀이 발표한 단 15페이지 분량의 논문 하나가 인공지능 세상을 뒤흔들었습니다. "Attention Is All You Need"는 당시 자연어 처리(NLP)의 상식이었던 RNN과 CNN을 과감히 버리고 오직 Attention이라는 매커니즘만으로 모델을 구축할 수 있음을 증명했습니다. 오늘날 우리가 감탄하며 사용하는 ChatGPT, Claude, Gemini와 같은 대규모 언어 모델(LLM)의 뿌리를 타고 올라가면 결국 이 '트랜스포머(Transformer)'라는 거대한 기둥을 만나게 됩니다. 이 논문은 단순히 성능 좋은 번역기를 만든 것이 아니라 컴퓨터가 인간의 언어를..

논문 분석 : Efficient Estimation of Word Representations in Vector Space(2013) 우리는 이제 챗GPT와 대화하고 파파고로 번역하는 것이 당연한 시대에 살고 있습니다. 하지만 컴퓨터에게 상식적인 사실들을 가르치는 것은 오랫동안 어려운 일이였습니다. 컴퓨터에게 언어란 그저 텍스트, 즉 기호일 뿐이기 때문입니다. 2013년, 구글의 토마시 미콜로프(Tomas Mikolov) 팀이 발표한 "Efficient Estimation of Word Representations in Vector Space" 논문은 이 문제를 해결하며 현대 자연어 처리(NLP)의 황금기를 열었습니다. 이 논문은 어떻게 단어에서 '의미'를 추출해 숫자로 바꾸었을까요? 오늘날 모든 언어 모델의 근간이 된 Word2Vec에 대해서 알아보겠습니다.Word2Vec이란 무엇인가? Word2Vec은 말 그대로 "Word(단..

이전 1 다음

티스토리툴바