미라클 모닝을 하는 일잘러들의 참고서
2022.6.23| 475호 | 구독하기 | 지난호
안녕하세요!
뉴올리언스에 나와있는

안녕하셨나요. 전 글로벌 최대 컴퓨터 비전 컨퍼런스로 꼽히는 ‘국제 컴퓨터 비전 및 패턴 인식 학술대회(CVPR) 2022’에 참석하고자, 지금 미국 남부인 뉴올리언스에 나와 있어요. 행사가 끝나고 어두컴컴한 저녁 호텔 방에 들어와, 내일 새벽에 미라클레터를 받아보실 여러분을 생각하면서 오늘 들었던 내용들을 열심히 복기하고 있답니다.

 

컴퓨터 비전이란 크게 볼 때, 시각(vision)으로 여러 일은 하는 것을 뜻하는데요. 요즘엔 사진이나 영상을 통해 인공지능을 학습시켜 이를 활용하는 것을 가리켜요. 예를 들어 자율주행 차에 달린 각종 센서나 카메라를 활용해 눈앞에 운전자를 방해하는 물체가 지나가는 것을 감지하거나, 아니면 오픈AI가 개발한 ‘달리2’처럼 그림을 직접 생성하는 기술!

 

하지만 올해 학회에서는 더 크게 주목받은 트렌드가 있었으니, 바로 인공지능의 다중 감각 처리를 뜻하는 '멀티모달(multi-modality)'이었어요. 지금까지는 컴퓨터 비전을 처리하는 인공지능이 단순히 시각적 정보만을 다뤘다면, 이제는 텍스트 이미지 동영상 촉각 등 인간의 5감에 해당하는 감각으로 데이터를 학습하고 훈련하기 시작했어요. 그래서 오늘은 인공지능 컴퓨터 비전에 어떤 바람이 불고 있는지 짧고 굵게 정리를 해볼게요.

국제 컴퓨터 비전 및 패턴 인식 학술대회(CVPR)
오늘의 에디션 

  1. “AI를 하나로 만들어라”

  2. “효율과 정확성은 숙제다”

  3. CVPR을 달군 핫 테크

    "AI를 하나로 만들어라!"

    7분만에 256장의 그림을 그리는 엑사원

    초거대 인공지능 엑사원

    CVPR 학회에서는 LG의 AI연구원이 주목을 받았어요. 특히 엑사원이라는 초거대 인공지능은 텍스트와 이미지를 양방향으로 손쉽게 바꿨어요. 김승환 LG AI연구원 비전랩장이 LG가 개발한 초거대 인공지능인 엑사원에 "동화 삽화 스타일의 산 그림을 그려 달라"고 입력을 하자, 수백장의 삽화들이 줄줄이 쏟아졌고요. 반대로 사진을 업로드하자 역으로 사진 설명이 자동으로 달렸습니다.

     

    3000억개 매개변수

    LG의 인공지능은 3000억개 매개변수(파라미터)로 훈련시켰대요. 세계적인 오픈AI의 인공지능인 GPT-3의 파라미터가 1750억 개인 점을 고려할 때 약 70% 더 많은 데이터로 훈련을 한 것이죠. (물론 개발을 완료한 시간 차이는 좀 있어요.) 이에 대해 김 비전랩장은 "텍스트와 이미지를 양방향으로 전환할 수 있도록 한 것은 LG가 처음"이라면서 "인간과 경쟁하는 인공지능이 아닌, 인간에게 도움을 주고 영감을 주는 인공지능을 개발하는 것이 LG의 비전"이라고 설명을 했네요.

     

    이걸 어디에 쓸까?

    이걸 어디다 쓰냐고요? 엑사원은 문장을 입력하면 7분 만에 256장의 그림을 그려내고, 그림을 업로드 할 경우 영어 단어 기준 최대 64단어(정확히는 토큰)에 달하는 설명을 붙여요. 특히 오픈AI가 지난해 내놓은 이미지 생성 인공지능인 '달리'가 가로 세로 1024화소까지 그림을 그릴 수 있는 것에 반해, 엑사원은 그 두 배인 2048화소까지 이미지를 생성할 수 있다고 하는데요.

    뉴욕 패션 위크에 등장한 엑사원의 디자인

    패션쇼에 써먹지

    LG는 올해 초 박윤희 디자이너와 협업해 뉴욕 패션 위크에서 엑사원이 디자인한 의상들을 대거 선보였어요. 엑사원이 LG를 상징하는 금성에 핀 꽃이라는 주제로 약 3000장에 달하는 디자인을 박윤희 디자이너에 제공했고, 박 디자이너는 이 가운데 약 200장을 골라 다듬어 의상을 완성했대요. 통상 패션쇼에 올릴 디자인은 마무리 작업까지 4개월이 걸리는데, 엑사원을 통해 1.5개월로 그 기간을 단축!

     

    하나로 되는 인공지능

    LG AI연구원은 이를 위해 문장 속 단어에서 맥락과 의미를 학습하는 신경망인 '트랜스포머 모델'을 개발했고, 백지 상태에서 수백 단계에 걸쳐 그림을 완성해 가는 '디퓨전 모델'을 모두 개발 중이래요. 이에 그치지 않고 자연어처리, 컴퓨터 비전, 서비스 부문 등 인공지능 전반에 걸쳐 연구에 몰두하고 있는데요. 특히 텍스트, 이미지, 음성, 촉각 등이 서로 서로 자유롭게 변환될 수 있는 이른바 다중 감각 모델인 '멀티모달(multi-modality)'에 집중하고 있다고 해요.

     

    📙 용어: 멀티모달

    인공지능이 시각 청각 촉각 등 다양한 데이터를 동시에 받아들여 학습하고 판단하는 것을 말해요. LG가 텍스트와 이미지를 자유롭게 전환하도록 하는 것이 바로 멀티모달! 이를 더 응용하면, 음성 포즈 시선 생체신호 등을 자유롭게 전환 가능해요. 예를 들어, 햅틱 센서로 뜨거운 물 잔을 쥐면, 텍스트로 “앗 뜨거워!”이렇게 표현할 수 있어요.

     

    🔎 크게보기

    LG에는 인공지능 아티스트인 '틸다'가 있어요. 인공지능 아티스트이인데, 스스로 직접 그리는 것은 아니고 인공지능 연예인 같은 개념으로 보면 돼요. 즉 움직임을 사람이 통제하는 것이죠. 하지만 앞으로는 여기에 엑사원을 접목해, 인공지능 아티스트와 대화를 주고받으면서 실시간으로 서비스를 제공 받도록 하겠다는 큰 그림!

    "큰게 전부? 효율과 정확성은 숙제"

    어제 오후에는 AI계의 석학인 서울대 한보형 교수님을 만나 인터뷰를 할 수 있는 시간을 가졌어요. 한 교수님은 서울대 컴퓨터 비전연구실에서 컴퓨터 비전과 로봇비전에 대한 연구를 하고 계시는데요. 올해 불어 닥친 인공지능 트렌드에 대해서 많이 여쭤볼 수 있었어요. 짧고 굵게 소개를 해드릴게요.

     

    😀 안녕 하세요! 연구자들이 요즘에는 어떤 인공지능 영역에 관심이 많나요.

    👨🏻‍🦱 많은 연구자들이 초거대 인공지능을 만드는데 관심이 많아요. 인공지능 초창기에는 특정 문제를 풀려고 할 때만 학습을 시켰는데요. 그 단계를 지나자 적당히 큰 모델을 만들어 학습을 시켰죠. 또 이를 전이학습 (부족한 데이터를 보완하고자, 특정 분야에 훈련시킨 인공지능을 다른 분야에 투입하는 것)시켜 최적화하는데 집중을 했었어요.

     

    🤔 그러면? 요즘에는 어떤가요?

    👨🏻‍🦱 요즘에는 모든 종류의 데이터를 집어넣어도 학습이 되는 범용 인공지능을 만들려는 움직임이 매우 활발해요. 당연히 더 많은 데이터를 입력하면 학습 효과가 좋겠죠? 하지만 이런 움직임 반대편에는 이제 인공지능이 당초 원하는 대로 학습이 된 것인지 분석하는 분야가 부상하고 있어요. 이를 통해 학습을 시키더라도 미니멀 하게 하는 것이죠. (비용과 효율을 고려!)

     

    🤔 음...장점과 단점은 무엇일까요?

    👨🏻‍🦱 사실 초거대 인공지능은 성능이 좋겠죠? 하지만 만약에 학습을 하고자 한 의도대로 안 됐으면 어떻게 될까요. 요즘 연구들을 살펴 보면 실험으로는 좋은 결과 값을 얻었지만, 인과 관계가 명확치 않은 것이 종종 있어요.

     

    📙 용어: 초거대 인공지능

    인간의 뇌를 모방한 인공지능이에요. 대용량 연산이 가능한 컴퓨팅 인프라를 토대로 스스로 데이터를 학습하고 판단하는 인공지능을 가리켜요. 인공지능을 학습시키는 매개변수가 천억 단위가 넘어가고, 운용하는데 일반 서버 약 3000대를 사용하는 전력이 필요한 것으로 알려져 있어요.

     

    🤔 그럼 교수님은 어떤 연구에 관심이 많나요.

    👨🏻‍🦱 가장 좋은 것은 이론적으로 견고하면서도 한편으로는 실용적인 것이겠죠? 그래서 모델 컴프레션(compression)에 관심이 많아요. 즉 작은 모델로 큰 모델과 유사한 성능을 낼 수 있는지 따져보는 것이죠. 컴퓨터 비전을 완벽하게 구사하는 방안도 연구 중입니다. 사람의 눈은 완벽하지 않잖아요? 예를 들어 착시 같은 것도 있을 수 있고요. 인공지능도 마찬가지거든요.

     

    😂 좀 더 구체적으로 예를 들어주실래요?

    👨🏻‍🦱 음... 자율주행 차에 달린 카메라가 무엇인가를 찍는다고 해볼게요. 만약에 움직임인 모션이 많거나 해서 오류가 있다고 하면 어떨까요. 자율주행 차는 안전을 위해 충분히 안전하게 운행을 해야겠죠? 때문에 보다 완벽한 인공지능을 만드는 것이 중요해요.

     

    😂 들어도 어려운 말씀인 것 같아요.

    👨🏻‍🦱 그럼 반도체를 예를 들어볼게요. 만약에 반도체의 오류를 잡는 인공지능이 있다면, 당연히 질 좋은 사진 정보가 있다면 금상첨화겠죠. 하지만 질 좋은 사진을 인공지능에 쓰려면 막대한 비용이 들어요. 그래서 오늘날 비전 시스템은 적정 수준에서 효율적으로 경제적인 효과를 함께 주는 것이 목표에요.

     

    🤔 다른 질문을 할께요. 학생들이 관심 많은 영역이 있을까요?

    👨🏻‍🦱 이미지 생성에 대해 학생들이 관심이 많아요. 대표적인 것이 디퓨전(확산) 모델이에요. 하얀 종이에 무엇인가를 그려나간다고 해보면, 처음 그리는 것처럼, 노이즈가 있는 상태에서 시작해 이미지를 계속 정교화 하는 것이 디퓨전 모델이인데요.

     

    🤔 좀 더 말씀을 해주세요.

    👨🏻‍🦱 쉽게 말해 백지에서 한 그림을 그리는 과정을 1000개의 과정으로 나눠 그린다면 쉬워요. (오른쪽에 나무가 있고 사과가 달려 있는데 나무 아래에는 강아지가 있다고 한다면, 이를 1000번에 걸쳐 나눠서 그리는 것이죠. 그만큼 가능성이 많다보니 결과 값이 다양하게 나타나요.) 현재는 인공지능이 중간 중간에 어떤 그림을 그리는지 확인하고 있어요.

    👨🏻‍🦱 만약에 다양성(diversity)인 다이버시티를 줄인다면 그림 숫자는 줄겠지만 속도는 빠르죠? 이런 과정에서 중간에 나오는 그림들을 확인을 해봤어요. 오른 쪽을 보는 얼굴이라고 입력했는데 중간 과정에서는 정면을 보는 얼굴을 인공지능이 그리더라고요. 보다 적확하게 필요한 것만 그릴 수 있을 정도로 다양성을 줄인다면 비용을 크게 절약할 수 있을 것 같아요.

     

    🤫 현실 세계의 인공지능엔 문제가 없을까요.

    👨🏻‍🦱 있죠. 오버 컨피던스(over confidence) 문제입니다. (오버 컨피던스는 딥러닝 모델이 모르는 문제 또는 본질적으로 모호한 문제에 ‘모른다’고 답하는 것이 아니라, 모든 정답에 대해 과잉 확신을 가진 것을 뜻해요) 예를 들어 인공지능이 이건 100% 맞아! 라고 해도, 이게 100점이 아닐 수 있어요. 80점일 수 있죠. 그래서 이를 제대로 맞추는 것을 캘리브레이션(calibration)이라고 합니다.

     

    🤫 음...이건 어디에서 쓸 수 있나요?

    👨🏻‍🦱 현업에서 쓰려면 인공지능이 보통 95% 이상 정답을 낼 수 있어야 사용이 가능해요. 하지만 인공지능이 너무 확신에 차서, 자꾸 오답을 낸다면 어떨까요. 특히 생명에 직결된 헬스케어 분야에서 오진을 한다면 말이죠. 캘리브레이션이 잘 돼 있다는 것은, 95% 확신이라면 실제로 정확도도 95%가 되는 것을 뜻해요.

     

    😞 늘 인공지능 인재가 부족하다고 하는데요. 특히 어떤 분야가 부족하나요.

    👨🏻‍🦱 국내에서는 자연어처리 분야의 인력이 부족해요. 자연어처리는 텍스트를 인공지능이 학습해 다루는 것을 가리켜요. 자연어처리는 음성인식 챗봇 등 수요가 많은 것 같아요.

     

    😃 세계적인 인재를 영입하려면 어떻게 해야 할까요.

    👨🏻‍🦱 간단하죠! 그런 사람이 한국에 오더라도 할 만한 일을 줘야하는 것이죠. 한국에 와서 그 사람 수준에 맞지 않는 일을 한다면 아무래도 동기가 감소하겠죠? 손흥민을 데리고 와서 제대로 축구 경기에 내보내지 않는다면 어떻겠어요. 또 논문 편수 보다는 실제로 실적이 제대로 나오는지가 더 중요해요.

    CVPR을 달군 핫 테크!  
    스냅의 캐릭터 생성 인공지능

    구글 메타 네이버 스냅 등 수많은 기업들이 이번 학회에서 전시한 서비스들을 살펴 보면 영상(또는 모션)을 실시간으로 애니메이션으로 처리하는 테크였어요. 그만큼 앞으로 기술의 확산이 빨라질 것 같아요.

     

    네이버 “영상이 곧 애니메이션”

    네이버는 이번에 네이버 클로바 팀, 네이버랩스, 네이버웹툰 등이 출전해 기술력을 과시했는데요. 특히 네이버웹툰은 동영상을 웹툰 형식의 애니메이션으로 전환해 보여주는 '웹툰미'라는 인공지능 기술을 선보였어요. 현재 웹툰미는 쇼핑라이브에서 테스트 중이라고 해요. 김대식 네이버웹툰 AI 기술 총괄은 또 "웹툰을 불법으로 퍼나르는 것을 방지하고, 욕설이 있는 웹툰을 걸러내는 인공지능 기능을 하반기에 본격 선보이겠다"고 했어요. 앞서 네이버는 웹툰 30만 컷을 학습시켜 자동으로 채색을 지원하는 '웹툰 AI 페인터'를 공개하기도 했고요.


    스냅 “표정은 우리가 만들어줄게”

    스냅은 다소 재미난 테크를 선보였는데요. 카메라 앞에 서서 특정 버튼을 눌르면 카메라에 비춘 영상이 변했어요. 우는 모습의 버튼을 눌러보니, 아무런 표정을 짓지 않아도 카메라에 비춘 모습은 울고 있다는... 그것도 매우 리얼하게 말이죠. 또 틱톡 역시 얼굴 영상을 실시간 애니메이션으로 보여주는 기술을 선보였는데, 만화 캐릭터를 닮았네요.

    구글의 아바타 생성 인공지능 (접니다!)

    구글 메타 “아바타를 실시간 조종!”

    구글도 매우 유사한 기술을 선보였어요. 구글은 일명 지각 자동화(perceptive automation) 기술이라고 불렀는데요. 노트북 카메라 앞에서 춤을 춰보니, 컴퓨터 화면 속에 있는 아바타가 똑 같이 춤을 췄어요. 제 얼굴을 만지면 아바타가 따라서 얼굴을 만지고, 팔을 올리면 같이 팔을 올려요. 메타 역시 매우 비슷한 기술을 들고 나왔더라고요.

     

    애플 카메라를 비추면 조감도!

    애플은 이날 아이폰 카메라를 방안을 둘러서 비추면 곧바로 방 전체의 조감도가 나타나는 기술을 선보였어요. 집안을 돌아 다니면서 찍으면 집 전체의 조감도! 이름하여 Room plan 서비스!

    한줄 브리핑 📢


    • 아마존이 전자상거래 사업부인 Worldwide Amazon Stores의 수장으로 더그 헤링턴을 임명했어요. 플렉스포트 CEO로 데이브 클락의 자리를 대체하는 인사. WAS는 AWS 사업부와 함께 앤디 재시 아마존 CEO 아래 있으면서도 CEO라는 이름이 붙는 두개 사업부 중 하나. 
    • 국제에너지기구(IEA)가 러시아가 유럽에 가스 공급을 완전히 중단하는 상황을 대비해야한다고 경고했어요. 이미 시작된 석탄발전소 가동은 물론 노후화된 원전의 가동도 유지해야한다고 강조.
    • 영국의 소비자물가지수가 전년대비기준으로 40년만에 가장 높은 9.1% 를 기록했어요. 에너지와 식료품 가격의 급등이 원인. 

    컴퓨터 비전 컨퍼런스에서는 이밖에 무수히 많은 자율주행 업체들이 참석했어요. 테슬라 죽스 아르고 모셔널 등등. 어떤 새로운 기술일까 관심도 컸지만 이들은 주로 인재 영입에 관심이 더 많았어요. 팸플릿도 기술 안내서라기보다는, 인재를 찾아요! 하는 메시지를 담았고요. 그만큼 여전히 아직도 전 세계적으로 인공지능 우수 인재는 너무 부족하다는 것을 절감했습니다.

     

    컴퓨터 비전 영역에서는 오늘날 크게 두 가지 흐름이 동시에 나타나고 있었어요. 두 줄로 정리하면 이렇습니다.

     

    • 더 크고 강력한 인공지능으로 각종 데이터를 학습시켜 동시에 처리할 수 있는 이른바 멀티모달이 뜬다. 그 중심에는 초거대 인공지능이 있다.
    • 다른 한편에선 인공지능의 데이터 처리 비용 문제를 고려해, 보다 효율이 뛰어난 작지만 강한 인공지능에 대한 연구가 한창이다.

     

    듣고 보았던 내용을 밤에 서둘러 복기를 하다 보니, 다소 두서가 없었던 점 진심으로 양해 부탁을 드릴게요. 그럼 전 다음 주에 다시 실리콘밸리에서 인사를 드릴게요. 늘 응원합니다.

    진심을 다합니다
    이상덕 드림
    오늘 레터를 평가해주세요!
    MIRAKLE LETTER

    서울 중구 퇴계로 190 매경미디어센터
    매경미디어그룹
    miraklelab@mk.co.kr
    02-2000-2167