이미지 생성 모델 Stable Diffusion으로 Depth Estimation 하기
# 22 위클리 딥 다이브 | 2024년 1월 17일
에디터 배니

💡이번주 뉴스레터에는 이런 내용을 담았어요!

  • 컴퓨터 비전 하위 태스크인 Depth Estimation을 소개합니다.
  • Stable Diffusion을 기반으로 Depth Estimation 모델 Marigold의 원리를 정리했습니다.
  • Marigold의 SOTA 달성이 시사하는 바를 정리했습니다.
생성 모델로 객체의 깊이를 추정하는 방법

안녕하세요, 에디터 배니입니다.


어느 한 분야의 혁신적인 발전은 다른 분야에까지 영향을 미치게 됩니다. 지난 한 해 동안 빠르게 발전해온 NLP 모델이 멀티모달, 컴퓨터 비전 분야에서도 각기 다른 방식으로 영향을 미쳤던 것처럼요. 지난 번에 소개드렸던 CogAgent가 하나의 예시라고 할 수 있겠습니다.


한편으로는 궁금증이 듭니다. NLP 분야는 이렇게 빠르게 발전하고 있는데, 다른 분야들은 어떨까요? 2022년 Text-to-Image 모델이 공개되면서 생성형 AI의 대중화가 본격적으로 이뤄졌습니다. 당시 미드저니, DALL-E 등 다양한 이미지 생성 모델들이 등장하면서 기대감을 키웠는데요. 꾸준히 성능을 개선하며 이미지를 넘어 영상, 3D 등의 생성 모델들의 발전까지도 이끌었습니다.


오늘 소개드릴 Marigold는 생성 모델 중 하나인 Stable Diffusion을 기반으로 객체의 깊이 추정(Depth Estimation) 분야에서 SOTA를 달성한 모델입니다. 생성 모델인 Stable Diffusion을 Depth Estimation 분야에 어떻게 접목시켰을까요?

Depth Estimation에 대한 짧은 소개

컴퓨터 비전에 익숙하지 않으신 분들이라면 Depth Estimation이 생소할 수 있습니다. 여기서 ‘깊이’란 객체 사이의 거리감으로 이해할 수 있습니다. 우리는 사진이 2차원이라는 것을 알지만 동시에 사진 속 객체들이 어느 정도 거리감을 가지고 있는지 ‘추정’할 수 있습니다. 동일한 크기의 객체라면 가까울수록 크고, 멀리 있을수록 작아질 것입니다. 비전 기술의 한 분야로 Depth Estimation은 2차원 이미지로부터 3차원 공간의 깊이 정보를 파악하는 것입니다.


Depth Estimation 기술은 여러 산업 분야에서 다양하게 활용될 수 있습니다. 예를 들어, 자율주행 자동차가 별다른 센서 없이 카메라로 주변 사물을 인식할 때를 떠올려봅시다. 2D 이미지로 어떤 객체가 있는지 등을 인식할 수 있지만, 차량과 객체간의 거리 정보는 알기 어렵습니다. 다른 센서가 없기 때문에 2D 이미지만으로 객체와의 거리 정보를 추정해야 하는데, 이때 Depth Estimation 기술이 활용될 수 있습니다.

출처: Digging Into Self-Supervised Monocular Depth Estimation (Godard et al., 2018)

Depth Estimation 기술에 대해서 조금 더 자세하게 살펴보겠습니다. 인간은 어떻게 사물과의 거리 정보를 인식할까요? 인간은 두 개의 눈으로 세상을 보며 각 눈이 약간 다른 시각 정보를 받아들입니다. 이런 시각적 정보의 차이를 우리의 뇌는 깊이 정보로 해석합니다. 이와 유사하게 컴퓨터 비전 분야에서도 두 개 이상의 카메라를 사용해서 같은 장면을 서로 다른 시점에서 촬영하고 두 이미지를 비교 분석함으로써 깊이를 추정합니다. 이를 Binocular Depth Estimation이라고 합니다.


그러나 인간은 한 쪽 눈을 감고도 어느 정도 거리를 추정할 수 있습니다. 시각적으로 인식하는 크기나 경험적인 학습을 통해 누적된 정보로 거리를 추정하는 것입니다. 이는 컴퓨터도 마찬가지입니다. 2D 이미지 한 장으로 거리를 추정한다면 바로 이 분야에 해당하고 이를 Monocular Depth Estimation이라고 합니다.

Stable Diffusion을 활용한 Marigold의 원리와 구조
출처: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation (Ke et al., 2023)

Marigold 모델이 다루는 태스크는 Monocular Depth Estimation에 해당합니다. 즉, Marigold는 2D 이미지 한 장만으로 Depth Map을 생성할 수 있는 것입니다. 이를 위해서는 많은 정보가 축적되어야 합니다. 이미지 내의 객체에 대한 경험적인 정보와 객체 간의 분할, 객체와 배경의 분리해야 하고, 시각적 크기에 따라 상대적인 깊이감을 나타내야 합니다.

Marigold를 다루고 있는 논문은 2023년 12월에 공개된 Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation 입니다. 전통적인 깊이 추정 방식과 다르게 Marigold는 이미지 생성 분야에 주로 활용하는 Diffusion 기반 모델을 Depth Estimation에 접목시켰습니다. 연구진의 아이디어는 다음과 같습니다.
👨‍🏫 “이미 이미지 생성 모델이 인터넷에 업로드된 다양한 도메인의 고퀄리티 이미지들을 학습했는데, 이를 Depth Estimation에 활용할 수 있지 않을까?“
그래서 Marigold는 Stable Diffusion 사전훈련 모델의 성능을 그대로 빌려옵니다. 생성 모델이 Depth Estimation을 하기 위해서는 새로운 학습이 필요한데요. 이를 위해 파인튜닝 과정을 거칩니다.

출처: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation (Ke et al., 2023)


파인튜닝 구조는 위의 이미지와 같습니다. VAE를 활용해 실제 이미지와 Depth Map, 각각의 이미지를 잠재 공간으로 인코딩한 후에 Depth Map에 노이즈를 추가합니다. 두 이미지를 연결(Concatenation)하고 Diffusion 모델이 노이즈를 제거하며 다시 Depth Map을 생성할 수 있도록 합니다. Stable Diffusion의 기반이 되는 Latent Diffusion Model의 학습 원리를 그대로 활용하되, Depth Map을 생성하도록 만든 것입니다.


이때 학습 성능을 높이기 위해 합성 데이터(Synthetic)를 활용합니다. 실제 깊이 값을 가진 데이터셋이 아니라 합성 데이터를 활용한 이유는 물리적인 제약으로 오히려 실제 데이터의 정합성이 떨어지기 때문입니다.

출처: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation (Ke et al., 2023)


이렇게 파인튜닝을 거쳐 학습이 제대로 이루어졌다면 다음은 인퍼런스 구조입니다. 파인튜닝 과정과 동일하게, 원본 이미지에 노이즈를 추가하고 제거하는 과정은 동일합니다. 최종적으로 노이즈가 제거된 이미지를 다시 디코딩하여 고화질의 Depth Map을 생성하게 됩니다.

Marigold는 Depth Estimation 분야에서 SOTA를 달성했으며 한번도 본 적 없는 데이터에 대한 결과, 즉 제로샷(Zero-shot) 성능도 뛰어납니다. 실제로 추출된 결과를 보면 이미지 내 객체간의 경계를 바르게 구분하고 인간의 직관과 부합하도록 이미지의 Depth Map이 생성된 것을 볼 수 있습니다.


논문 제목에 Repurposing이라는 표현에서 알 수 있는 것처럼, Diffusion 모델의 아이디어를 다른 태스크에 적용한 것입니다. 이는 하나의 모델이 발전하면 그 모델을 다른 목적으로 활용해볼 수 있음을 시사합니다. 특히 Diffusion 모델은 이미지 생성 분야에 뛰어난 성능을 보이는데, 최근에는 텍스트 데이터에도 Diffusion의 생성 능력을 결합하고자 하는 시도들이 있습니다. 당장은 뛰어난 성과를 올리지 않더라도 장기적으로 한 모델의 연구가 다른 분야의 발전에도 영향을 미칠 것으로 보입니다.

deep daiv. 소식 🙌

여러분들은 ‘도전’해 본 적이 있나요? 안정적이고 평안한 일상을 누리다가도, 다시 한번 삶을 바꿔보고 싶다는 생각 말입니다. 대개 이런 도전은 수많은 실패와 좌절을 동반하지만, 그렇다고 해서 절대적으로 좋거나 절대적을 나쁜 도전이 있는 것 같지 않습니다.


온 힘을 쏟아부어 도전한 사람은 그 가치를 압니다. 자신이 미덕이라 생각하는 이상을 좇았든, 현실적인 조건에 이끌렸든 그 자체로 의미를 지니기 마련입니다. 오늘은 ‘변리사’의 꿈을 꾸다 다시 AI 연구로 돌아오기를 선택한 홍서윤의 이야기를 들려드립니다.

SNS를 팔로우 하면
최신 소식을 가장 빠르게 확인하실 수 있습니다 😆
deep daiv.
manager@deepdaiv.com