인공지능 달리2가 그린 페이메이르의 예술작품

2022.4.20 | 449호 | 구독하기 | 지난호

글씨가 잘 안보이시나요?

안녕하세요!

실리콘밸리에 나와있는

한 주간 안녕하셨나요. 얼마 전 샌프란시스코에 본사를 둔 오픈에이아이(Open AI)가 달리2(DALL-E 2)를 출시해 큰 화제를 모았었습니다. 오픈에아이는 일론 머스크와 샘 알트만 등이 2015년 설립한 "더 안전한 인공지능 발전을 추구하는 것"을 목표로 하는 스타트업입니다.

오픈에이아이는 많은 분들이 아시다시피 인간처럼 글을 작성해 주는 GPT-3와 문장을 입력하면 자동으로 코딩으로 변환해주는 코덱스(Codex)를 선보여 주목을 받았는데요. 지난해 글을 입력하면 자동으로 이미지가 생성해주는 달리를 선보인데 이어 이달에는 실제 작품과 같은 그림을 그리는 달리2를 내놓았습니다.

달리는 초현실주의 화가 살바도르 달리와 애니메이션 영화 월이(E)에서 본 뜬 이름인데요. 오픈에이아이 연구원 7명이 2년간 매달려 달리2를 만든 이유는 이렇다고 합니다. "아티스트들을 위해 언제든 빠르게 이미지를 만드는 도구를 제공하고 싶었어요." 그래서 오늘은 2022년 들어 불고 있는 이미지를 생성해 주는 인공지능 기술인 GAN에 대해서 들려드릴까 합니다.

오늘의 에디션

NEWS 브리핑
달리1 글자를 입력하면 그림!
달리2 예술 작품이 따로 없다
어떤 기술? GAN 위에 CLIP
무궁무진한 GAN의 미래

간추린 테크뉴스를 보려면 클릭👆

달리1 글자를 입력하면 그림!

달리가 그린 아보카도 의자

달리를 만든 오픈에이아이의 CEO인 샘 알트만(알트만이 누구인지 궁금하면 지난호 클릭)은 달리를 보더니 이렇게 말을 했어요. "지금까지 만든 것 중에서 가장 즐거웠고, 오랜만에 기술에서 느껴보지 못한 재미가 있었어요." 우선 작년 1월에 나온 달리1을 살펴볼게요. 달리는 이런 식으로 작동을 합니다.

캐릭터그림: 검색창에 "강아지를 산책시키는 아기 무"를 그려주세요 입력을 한다면, 바로 캐릭터가 나와요
산업디자인: "아보카도 모양의 의자"라고 입력을 하면 위에 있는 그림처럼 아보카도 모양의 의자를 볼수 있고요.
패션디자인: "검은 가죽 재킷과 금색 스커트"라고 입력을 하면 또 뚝딱!

무한 편집도 가능
달리는 또 이미지가 마음에 들지 않으면 편집도 할 수 있어요. "물속에서 트럼펫을 연주하는 테디베어"라고 입력을 해보면, 그런 그림이 나오는데 트럼펫이 별로라면 "물속에서 기타를 연주하는 테디베어"라고만 입력을 하면 됩니다.

달리의 뿌리 GPT-3
달리가 그림을 잘 그리는 까닭은 1750억개 매개변수를 활용해 딥러닝을 한 GTP-3와 동일한 모델을 사용했기 때문인데요. 글자를 인식하고 이미지를 생성하는데 1280개의 토큰을 활용한대요. 여기서 토큰이란 개별 어휘의 한 기호입니다. 예를 들어 알파벳은 26자이니 토큰이 26개! 1280개 토큰이란 뜻은 1280개를 조합해 텍스트를 인식하고 이미지를 그린다는 뜻입니다. 오픈에이아이가 구축한 인공지능 기술에 대해선 아래서 좀 더 자세히 설명을 드려볼게요.

🔎크게보기
앞으로 이러한 모델이 상업적으로 사용된다면, 패션디자인 산업디자인 웹툰 캐릭터 등에 큰 변화가 올지 몰라요. 또 달리는 인체 내부에 있는 온갖 장기 조직과 그 세포들까지 그릴 수 있다고 하니, 의학적인 용도로도 사용 가능성이 크다고 합니다.

달리2 예술 작품이 따로 없다

달리2가 그린 달 위의 우주비행사

올해 1월 런칭해 4월에 본격 선보인 달리2는 한 차원 더 업데이트 됐어요. 달리1은 어디서 본 것 같은 그림을 그렸다면, 달리2는 매우 독창적이고 예술작품 같은 그림을 그립니다. 예를 들어 "우주 비행사가 말을 타고 달을 달리고 있다"라고 입력을 하면 위와 같은 그림을 그려줘요.

예술 작품에서 영감을 얻다
또 캡션을 보다 더 정교하게 입력할 수 있어요. 강아지를 넣을 위치까지 글로 입력을 하면 강아지 위치가 바뀐다고 합니다. 또 빛 그림자 질감 또한 문자로 입력해 수정을 할 수 있어요. 아울러 이미지 원본에서 영감을 받아 새롭게 그린다고 해요. 아래 요하네스 페르메이르의 진주 귀골이를 한 소녀라는 17세기 예술품을 학습해서 다양한 가품을 생성한다고 합니다.

텍스트 이미지 동시 학습
1년 만에 나온 달리2가 훨씬 발전한 이유는 사람들이 집어넣은 텍스트와 결과 값인 이미지를 인공지능이 학습했기 때문이라고 해요. 예를 들어 "모자를 쓰고 타이핑을 하는 원숭이"라고 입력을 한다면, 인공지능은 원숭이 그림을 먼저 불러오고 이어 모자의 위치(원숭이 머리 위)를 지운 뒤 모자를 그리고 원숭이 손앞에 있는 배경을 지우고 다시 노트북을 가져다 놓는 작업을 한다고 해요.

얼마나 발전했어?
오픈에이아이에 따르면, 달리2는 달리1에 비해 4배나 더 높은 해상도로 작업을 할 수 있다고 해요. 또 얼마나 더 사실적인지 평가하고자 일반인들을 불러 달리1과 달리2가 그린 그림을 비교해달라고 했을 때 88.8%가 달리2가 더 사실적이라고 손을 들어줬다고 합니다.

엉뚱한데 쓰는 것 아냐?

이런 달리2를 보고 출시 전부터 많은 우려가 있었어요. 이상한 그림을 그릴 수 있고, 편견 있는 그림을 그릴 수 있으니까요. 예를 들어 "테러리스트 그려"하면 자동으로 무슬림이 나올 수 있다는 염려감이 있었대요. 그래서 현재 달리를 사용할 수 있는 인원은 딱 400명으로 제한을 걸었다고 해요. 아직은 누구나 쓸 수 있는 인공지능 모델은 아닙니다.

페르메이르의 원본(왼쪽)과 달리2의 모작

🔎크게보기

또 아직은 100% 정확한 것은 아니래요. “달 위에 있는 에펠탑”을 입력하면, 그냥 탑 위에 달을 그리는 실수도 한다고 합니다. 아직 완벽하게 이해하지는 않지만 오픈에이아이의 이미지 인공지능에 대한 개선은 계속 이어질 것 같습니다.

어떤 기술? GAN 위에 CLIP

GAN=이미지 인공지능

달리 같은 인공지능이 그림을 그릴 수 있는 이유는 GAN이라는 모델이 있어서예요. GAN은 Generative Adverserial Network의 약자인데요. 우리말로는 생성적 대립 신경망이라고 불러요.

위조지폐범과 경찰
인공지능은 사실 사람의 눈이나 코가 어디에 있는지 몰라요. 픽셀(점)의 RGB(색상)을 학습하면서 엄청나게 많은 공통점을 찾아내는 것이 GAN이에요. 예를 들어 사람 마다 눈의 위치는 다 다르겠지만 검정색 주변에 살색이 나타나면 '아하 여기가 눈이구나'하는 방식? 그러니까 이미지를 픽셀과 RGB로 인식을 하면서 평균적인 분포를 찾아낸다면? 반대로 그림도 그릴 수 있는 것이죠. 하지만 문제는 이게 정확한지 안한지인데요. 그래서 생성자와 판별자라는 알고리즘을 함께 써요.

🤓 생성자(Generator): 생성자는 마구마구 그림을 그려대요.
🤠 판별자(Discriminator): 판별자는 생성자가 그린 그림이 진짜인지 가짜인지 판별해 내요.

🤓생성자: 이 정도면 사람 얼굴 같지?

🤠판별자: 딱 해상도만 봐도 가짜네

🤓생성자: 이 정도면 사람 얼굴 같지?

🤠판별자: 야! 눈이 왜 여기에 달려있냐?

🤓생성자: 이건 모를거야!!

🤠판별자: 어 나도 좀 헷갈리네

마치 위조 지폐범이 위조지폐를 그리고, 경찰이 이에 대한 진위를 판별하면서 알려주면 다시 위조지폐범이 보다 정교하게 그리는 인공지능이 바로 GAN입니다.

라벨링은 필요없어
달리2는 이런 GAN을 기반으로 하고 있지만, 보다 획기적인 기술은 바로 클립(CLIP)입니다. Contrastive Learning-Image Pre-training의 약자로 우리말로는 대조 학습-이미지 사전 훈련 정도가 될 것 같네요. 클립은 이미지와 텍스트를 동시에 학습하도록 돼 있어요. 그래서 학습을 하면 할수록 텍스트와 유사한 그림을 그립니다. 일반적으로 이미지를 딥러닝 하려면 상당히 많은 레이블을 입력해야해요. 예를 들어 인공지능이 '얼굴'이라는 것을 인식하려고 한다면, 얼굴이라는 꼬리표가 달린 이미지를 엄청나게 많이 보면서 학습을 해야하는데요. 달리2의 알고리즘인 클립은 그럴 필요가 없이 텍스트와 이미지를 동시에 학습하기 때문에 "조랑말을 탄 소년"과 같은 보다 정교한 그림을 그릴 수 있어요. 보다 자세한 연구논문이 필요하신 분은 클릭해서 보세요.

🔎크게보기
GAN 모델에 클립이라는 새로운 인공지능 모델을 통해 사람의 언어를 보다 더 정확히 이해하고 그림을 그릴 수 있는 것이죠. 물론 기술적으로 비판이 없는 것은 아니에요. 산타페연구소의 멜라니 미셸은 달리2가 '인접성 동일성 폐쇄성 개방성'과 같은 어휘처럼 인간만이 인지할 수 있는 추상능력이나 유추 능력은 전혀 없는 봉가드문제에 직면해 있다고 했어요. 그리고 이런 말을 했네요. "머신러닝이 만든 제품은 감탄할만하지만, 아직은 일반 지능이라고 착각해서는 안됩니다."

무궁무진한 GAN의 미래

로즈버드의 토킹헤드

달리2는 아직 상업적 용도로 쓰이지는 않고 있지만, 다른 이미지 인공지능들이 엄청나게 많은 삶속에 스며들었듯이 달리2도 그럴 것 같아요. 오픈에이아이는 "우리의 희망은 달리2가 사람들이 자신을 창의적으로 표현할 수 있도록 돕는 것"이라고 했어요. 인류에게 도움이 되는 인공지능이 사명이라는 것이죠. 올들어 주목 받고 있는 몇몇 사례들을 살펴볼게요.

의료 초고해상도 사진
GAN을 활용하면 이미지의 누락된 부분을 복원하거나, 아니면 질 낮은 이미지를 업스케일링을 통해 초고해상도 이미지로 변경이 가능해요. 또 노이즈도 제거할 수 있고요. 그래서 주목받는 분야가 의료인데요. 예를 들어 MRI 품질을 높이려면 방사선 양을 높여야하는데, 몸에는 해롭죠. 그래서 GAN을 활용해 해상도를 높일 수 있어요. 다만 현재는 인공지능이 인위적으로 이미지를 생성할 수 있어서 조심스럽게 연구를 하고 있는 단계래요. 궁금하시면 논문을 참조.

마케팅 업계의 도입
로즈버드닷에이아이는 가상의 패션 모델을 만들어주는 인공지능을 선보였어요. 열심히 촬영을 했는데, 패션 모델 이미지가 이상하다면? 또 그림 속 얼굴이 움직이면서 말을 할 수 있다면? 엄청나겠죠? 로즈버드는 토킹헤드라는 앱을 내놓았는데요. 이미지 뿐 아니라 애니메이션까지 적용이 되는 기술이에요. 이런 스타트업은 또 있어요. 아래는 미라클레터 신디시아(Synthsia) 인공지능으로 만들어 본 미라클레터 홍보영상이에요.👇 소리를 키우고 들어보세요. (좌표)

서비스로서 GAN
런웨이에이엠엘은 동영상에 등장하는 인물만 살리고 배경은 제거하는 GAN 인공지능을 구독 서비스로 내놓았어요. 반대로 배경만 남기고 인물도 살릴 수 있어요. 이를 활용한다면? 사람이 많은 해변에서도 마음껏 촬영하고 모델만 살리고 나머지는 지울 수 있겠죠? 이를 활용해 게임이나 이커머스등에서 사용이 가능하다고 합니다.

🔎크게보기
일부에서는 이미지 생성 인공지능이 아직 갈길이 멀다고도 하지만, 이미 서비스로서 이미지 생성 기술을 활발해 지고 있는 것 같습니다. 달리2를 제작한 오픈에이아이의 경우 인공지능을 기업에 제공해 이미 수익을 내고 있기도 해요. 달리2는 아니지만 텍스트투 이미지 샘플을 사용해 볼 수 있는 좌표를 하나 남겨드릴게요. 더 궁금하시면 클릭해서 사용해 보세요.

달리2는 여전히 학습 중이에요. 또 이러한 인공지능은 비단 오픈에이아이 뿐은 아닙니다. 캐나다의 앨런연구소는 이미지와 텍스트 뿐 아니라 오디오까지 분석할 수 있는 시스템을 구축했어요. 이러한 인공지능은 유튜브에 있는 수많은 영상중에서 특정 소리를 감지해 추출할 수 있어요.

미래에 이러한 인공지능은 검색 엔진을 개선하고, 디지털 비서로 활동하며, 그래픽 아티스트 역할을 할 것이 분명해요. 이미 구글은 구글렌즈를 통해 사진을 촬영하는 것만으로 검색을 할 수 있는 기능을 선보였고요. 물론 숙제도 있어요. 여전히 이러한 이미지 생성 인공지능은 편향적일 수 있어요. 또 일부에서는 허위 인물을 생성해 사회적 혼란을 초래할 수 있고, 개인정보를 침해할 가능성이 있다고도 우려를 하고 있고요.

하지만 인류는 항상 이러한 염려를 덜어내고 기술을 싹틔워 왔었어요. 이미지생성 기술이 어떻게 꽃을 피울지는 모르지만, 오늘날 인공지능이 확산되는 속도를 보면 분명 몇 년 후에는 이러한 이미지 생성 인공지능이 널리 퍼져 있을 것 같습니다. 그럼 또 인사드릴게요.

진심을 다합니다

이상덕 드림

오늘 레터를 평가해주세요!

👍좋았어요ㅣ별로예요👎

미라클레터 구독·추천

트윗하기

MIRAKLE LETTER

#구독 #광고 #협업

서울 중구 퇴계로 190 매경미디어센터

매경미디어그룹

miraklelab@mk.co.kr
02-2000-2167

수신거부 Unsubscribe 이메일 변경