더욱 정교해지는 생성 AI, 'ControlNet' 'DragGAN'

웹에서 보기

2023년 7월 2주차 셀렉트스타 뉴스레터

글: Deep daiv. ㅣ 편집: 권혁주

2023년 상반기 AI 트렌드 Part 2. CV

2023년 상반기 AI 트렌드 Part 2. '컴퓨터 비전' 편입니다.

오늘은 그중에서도 많은 사람들의 관심을 받고 있는 생성(Generative) 분야를 짚어 보겠습니다.

더욱 정교하게, 'ControlNet' 'DragGAN'

컨트롤넷을 활용해 정교해진 이미지 생성 작업.

ChatGPT 출시 이전에는 달리(DALL-E), 미드저니(Midjourney) 등 글에서 이미지를 생성해 내는 Text-to-Image 모델이 화제였습니다. 원하는 결과물을 얻기 위해서 고도화된 입력 문장을 만들어내는 ‘프롬프트 엔지니어링’이 주목받기 시작한 시기도 이쯤이지 싶습니다.

프롬프트 엔지니어링을 비롯하여, 생성 작업의 불확실성을 통제하기 위한 새로운 기법들이 등장하고 있습니다. 가장 먼저 올해 2월 공개된 컨트롤넷(ControlNet)입니다. (Adding Conditional Control to Text-to-Image Diffusion Models, Lvmin Zhang, Maneesh Agrawala)

컨트롤넷은 Stable Diffusion 기술을 이용하여 생성 과정을 커스터마이징할 수 있는 인터페이스를 제공합니다. 이를 통해 사용자는 깊이 맵, 세그멘테이션 맵, 스크리블, 키포인트 등 다양한 공간적 컨텍스트를 이용하여 생성 과정을 제어할 수 있습니다.

객체의 자세(Pose)를 추정해 유사한 구도의 이미지를 생성할 수도 하고, 낙서하듯 그린 그림을 멋지게 재가공하기도 합니다. 즉, 생성하고 싶은 이미지를 입력하고 원하는 인물, 배경, 스타일을 텍스트로 입력하면 조금 더 완성도 높은 결과물을 얻을 수 있습니다.

DragGAN을 활용한 이미지 편집 과정.

다른 방법으로 통제성을 높이려는 시도도 있습니다. 바로 5월에 공개된 DragGAN입니다. DragGAN은 사용자가 이미지를 드래그하여 자유롭게 편집할 수 있도록 만듭니다.

편집하고 싶은 부분을 선택하고 원하는 방향으로 이동시키면, 자연스럽게 주변 이미지도 변화합니다. 보시는것 처럼 사자의 입을 벌리거나, 자동차의 방향을 바꾸거나, 산의 높이를 조절할 수 있습니다.

인공지능의 가장 큰 도전 과제 중 하나는 예측 가능한 결과를 보장하는 것입니다. 이미 뛰어난 성능을 보이는 이미지 생성 분야인 만큼 앞으로는 통제성(Controllabilty)을 가지고 재현 능력(Fidelity)이 높은 모델을 만드는 게 관건일 듯합니다.

Text-to-Video와 2D to 3D

ControlVideo 입력 영상

ControlVideo 생성물

Text-to-Image 성능이 고도화되면서 자연스레 Text-to-Video에 대한 관심도 커졌습니다. ‘이미지와 같은 원리로 비디오도 생성할 수 있지 않을까’라는 생각이 들기도 합니다. 하지만 비디오 작업에는 훨씬 방대한 데이터가 필요하며, 프레임 간의 상호작용과 시간적 연속성 또한 고려해야 합니다.

그래도 작년 말부터는 생성 결과물을 어느 정도 통제할 수 있는 Text-to-Video 모델들이 등장하고 있는데요, 'ControlVideo'도 그중 하나입니다.

문워크하는 영상(왼쪽)을 생성 조건으로 부여하고, 제임스 본드가 해변에서 문워크하는 모습을 애니메이션 스타일(James bond moonwalk on the beach, animation style)로 만들어달라고 했을 때 오른쪽 영상과 같은 결과물이 생성됐습니다.

NeRF 입력 이미지

3D NeRF 생성물

2D에서 3D로. 지난 6월 세계 최대 규모의 컴퓨터 비전 학회 CVPR 2023에서 발표된 결과에 따르면, 제출 논문 수 1위 분야는 '3D from multi-view and sensors'입니다. 하나의 대상을 다양한 각도에서 촬영한 2D 이미지를 학습 데이터로 하여, 3D 모델을 생성하는 작업이 대표적인데요, 주요 모델로는 NeRF가 있습니다.

초기에는 촬영 조건도 제한되어 있었고, 다양한 각도에서 촬영한 다수의 이미지가 필요했습니다. 한데 올 들어 1-2장의 이미지만으로도 3D 생성할 수 있다는 논문들이 발표되고 있습니다. Magic123은 지난주에 발표된 따끈따끈한 논문인데요. 1장의 이미지로(to, 2) 3D를 만든다는 의미를 가지고 있습니다.

왼쪽 한 장의 이미지를 입력하면, 오른쪽과 같은 3D 객체가 생성됩니다. 1장의 이미지로 추론해야 하는 만큼, 가려진 부분을 완벽하게 추론하지는 못하지만 그래도 놀라운 발전입니다. 이렇게 3D로 생성된 결과물로 게임이나 애니메이션에 활용하기도 하고, 무엇보다도 가상 세계를 만들 수 있다는 점에서 잠재성이 높은 분야입니다.

인사말

이번 레터로 끝으로 저의 글은 마무리됩니다. 개인적으로 AI 관련 뉴스와 매주 새롭게 발표되는 모델들을 꾸준히 따라가면서 세상이 정말 빨리 변해가고 있다는 것을 체감했습니다. 특히 AI 분야는 정말 빠르게 발전하다 보니 그 속도를 쫓아가기 어려울 정도입니다. 아직 ChatGPT나 MidJourney처럼 누구나 사용할 수 있을 만큼 일반적인 성능을 보이는 모델은 많지만, 그럼에도 AI가 현실 세계를 빠르게 변화시키고 있는 것은 사실입니다.

알 수 없는 미래는 분명 두렵습니다. 처음부터 요동치는 파도에 적응하기 힘들 수 있지만, 한 번 적응하고 나면 즐겁게 서핑을 즐길 수 있습니다. 지금은 분명 격변의 시대입니다. 그럴 때일수록 사회의 흐름에 꾸준한 관심을 가지고 있다면, 오히려 새로운 기회를 포착할 수 있지 않을까요?

그럼 저는 앞으로도 인스타그램 딥 다이브(@deep.daiv)를 통해서 꾸준히 AI 소식을 전해드리도록 하겠습니다. 지금까지 부족한 저의 글을 읽어주셔서 감사합니다.

*다음 주 뉴스레터 주제는 'AI 4대 석학 앤드류응 한국 오다'입니다.