미라클 모닝을 하는 일잘러들의 참고서 한국 시각으로 지난주 금요일 새벽, 오픈AI가 GPT-5를 공식 발표했습니다. 현존하는 최고 수준의 인공지능(AI)이라는 찬사와 함께 기대만큼은 아니었다는 평가까지 다양한 후일담이 쏟아지고 있습니다.
저도 업데이트 직후 곧바로 GPT-5를 사용해 보았습니다. 몇 가지는 확실히 놀라웠지만, 정작 제 눈을 크게 뜨이게 만든 건 GPT-5가 아니었습니다.
"도대체 뭐냐고요?" 사실 저는 구글이 최근 깜짝 공개한 ' 지니 3'를 보고 더 크게 놀랐습니다.
긴 말은 접어두겠습니다. 오늘 레터에서는 AI가 머릿속 상상을 현실로 옮기는 것을 넘어 사용자가 직접 그 세계 속에 들어가 원하는 대로 변화시킬 수 있게 만드는 혁신 기술을 소개하겠습니다.
그럼 시작하겠습니다. |
|
|
- 소원을 들어주는 지니
- 경계가 사라진다고?!
- 메타버스 번외편
|
|
|
※ 레터 읽는 법 ※
볼딕 단어나 밑줄 단어 혹은 분홍색 단어에는, URL이 포함돼 있습니다. 클릭하면 세부 내용이 연결됩니다. |
|
|
지난주 구글 딥마인드가 텍스트 입력 만으로 가상 세계를 현실화하는 차세대 월드 모델(WM) '지니3'를 공개했습니다. AI가 구현해낸 세상 속에서 사용자와 상호작용이 가능한 3차원 세계를 생성해 냅니다. <영상=구글 딥마인드 유튜브 공식 채널>
구글 '지니3' 등장
실시간 세상 만든 AI
인공지능 기술의 속도는 정말 숨이 찰 만큼 빠릅니다. 최근 구글 딥마인드가 공개한 '지니3'는 그 속도를 한층 더 끌어올린 사례입니다. 단순히 질문에 답하거나 이미지와 영상을 만드는 수준이 아니라 세상을 실시간으로 창조하는 능력을 보여주고 있습니다. 몇 줄의 설명만 입력하면, 그 순간 새로운 가상 세계가 즉석에서 생성되고, 그 안에서 바로 상호작용할 수 있게 되는 것입니다. 이는 게임, 교육, 영화, 심지어는 과학 실험 등 다양한 시뮬레이션까지 확장 가능한 잠재력을 품고 있습니다. |
|
|
노트북 화면에서 파란색 지니가 황금 주전자를 들고 튀어나오는 모습을 담은 이미지입니다. 현실과 판타지가 결합된 장면으로 디지털 세계에서 마법이 펼쳐지는 듯한 인상을 줍니다. 마치 램프 속 지니가 즉시 소원을 이루듯 사용자의 상상을 실시간으로 구현하는 새로운 AI 시대가 열리고 있습니다. <사진=미드저니>
소원을 들어주는 지니
영화 '알라딘'을 보면 요술램프 속 지니가 주인공이 말하는 대로 즉시 소원을 이뤄주는 장면이 나옵니다. 이 모습은 구글 딥마인드의 지니와 매우 흡사합니다. 구글 딥마인드가 지난 5일 (현지시간) 공개한 지니3는 텍스트 프롬프트 한 줄만으로 실시간 3D 세계를 생성하고, 사용자가 직접 탐험할 수 있는 인터랙티브 환경을 제공합니다.
지니 3의 핵심은 '월드 모델'(World Model)이라는 개념에 있습니다. 월드 모델은 단순히 그림을 그리는 생성형 AI가 아니라 주어진 정보를 바탕으로 세상의 규칙과 물리 법칙을 이해하고 재현합니다. 예를 들어 '눈 덮인 숲속에서 모험하기'라는 문장을 입력하면 눈송이가 떨어지고 발자국이 남는 환경이 만들어집니다. 그리고 그 속에서 캐릭터를 직접 조종하며 길을 찾아갈 수 있습니다.
이 기술은 방대한 양의 비디오와 3D 데이터에서 학습한 덕분에 장면의 시각적 요소뿐 아니라 사물 간의 상호작용까지 반영합니다. 즉 문을 열면 경첩이 움직이고, 공을 던지면 중력에 따라 포물선을 그리며 떨어지는 식입니다. 놀라운 점은 이 모든 것이 프로그래밍 없이 즉석에서 구현된다는 것입니다. (다만 현재 연구 수준에서는 실제 물리 법칙을 완전히 이해하고 재현하는 수준에 도달한 월드 모델은 없는 상태입니다.)
|
|
|
1인칭 시점에서 페인트를 칠하거나 산악용 자전거를 타고 하이킹도 할 수 있습니다. 물리적인 공간 제약이나 시간의 한계 없이 텍스트 입력 만으로 가상 세계를 구현하고 그 안에서 방향키 조작으로 세상을 조작합니다. 구글 지니3에 대한 영상은 해당 링크를 참조해 주세요. <캡처=구글 딥마인드 공식 홈페이지>
공간 기억력도 올라갔다
구글 딥마인드가 공개한 지니3의 경우 마치 게임을 하듯 키보드 방향키를 조작하면 화면 속 공간을 돌아다닐 수 있습니다. 페인트 붓을 들고 벽 앞을 움직이면 그 모습 그대로 페인트가 칠해지거나 바닷가에 있는 강아지를 방향키에 맞춰 원하는 방향대로 움직일 수 있게 합니다. 또 길을 걷다가 길가에 세워진 자동차 문을 열 수도 있습니다.
특히 지니3는 가상 세계에서 실시간 상호 작용이 가능하다는 것을 넘어 이전 상황까지 기억하고 어느 정도 환경의 일관성을 유지합니다. 가령 페인트를 칠했다가 공간을 이동한 다음 다시 원래 공간으로 복귀해도 당초 행동했던 결과물(페인트칠)이 그대로 남아 있다는 점입니다. 이전 모델의 경우 생성한 공간에 대한 기억 지속 시간이 초 단위에 불과했지만 지니3의 경우에는 수 분에 달할 정도로 시각적 메모리 능력이 향상됐습니다.
재미있는 기능은 또 있습니다. 가상세계를 만들고 조작하는 과정에서 추가적인 돌발 상황을 더할 수 있습니다. 예를 들어 개천 옆을 지나는 실시간 현장을 만들었다가 그다음 상황으로 '치킨 수트를 입은 러너'를 누르면 치킨 옷을 입은 사람이 달리기를 하거나 '제트스키'를 누르면 제트스키를 탄 사람이 강을 내달리는 모습이 나옵니다.
이 외에도 실사 느낌의 가상 세계는 물론 게임과 같은 애니메이션도 만들어 해당 세계를 누빌 수 있습니다. 이를테면 우리가 상상할 수 있는 모든 공간을 AI를 통해 만들어 내고 그 안에서 AI와 상호작용 할 수 있는 수준으로 월드 모델이 진화한 것입니다.
|
|
|
지니3와 이전 모델인 지니2 및 동영상 생성 AI 모델 비오를 비교한 표입니다. 지니2는 상호작용 가능한 시간이 10~20초에 불과했지만 지니3는 수분으로 향상됐습니다. 또 기존 모델은 키보드와 마우스 조작만 가능했지만, 이제는 프롬프트를 통해 움직임에 추가 변화를 줄 수 있습니다. <캡처=구글 딥마인드 공식 홈페이지>
'비오'와 다른 '지니' 무엇?
구글의 대표적인 동영상 생성 AI 모델 '비오'와 비교하면 어떨까요? 영상의 화질 측면에선 비오가 최대 4K 해상도를 지원한다는 점에서 지니3는 720p로 밀립니다. 다만 비오가 연출된 상황만을 만들어내는 AI라면 지니3는 실시간으로 가상 세계에서 내가 원하는 장면을 만들어 나간다는 점에서 기술적인 난도는 지니3가 더 높습니다. 만약 지니 시리즈가 비오 시리즈에 준하는 화질을 제공할 수 있게 된다면 영상 활용도 측면에선 지니가 더 높을 것으로 관측됩니다.
그렇다면 지니3가 가진 한계는 무엇이 있을까요? 구글 딥마인드는 우선 공간을 기억하는 시간이 길지 않아 상호작용에 있어 시간이 제한될 수밖에 없다는 점을 언급했습니다. 또 사용자가 만든 가상의 세계에서 다양한 환경 개입을 가능하게 하지만, 사용자와의 인터랙션에 있어서는 제약이 있다는 점도 한계로 지목했습니다. 이를테면 사용자가 개천 옆을 지나는 가상 세계를 AI로 만든 다음 이곳에서 치킨 옷을 입은 사람을 추가로 등장시킬 수는 있지만, 해당 객체와 대화를 하거나 함께 공통의 임무를 수행하는 것과 같은 복잡한 상호작용은 어렵다는 얘기입니다. 또 앞서 언급한 바 있듯이 물리적인 세계를 100% 이해하지 못한다는 점도 한계로 꼽힙니다.
|
|
|
새로운 확장현실(XR) 디바이스와 결합된 지니3를 상상해봤습니다. 월드 모델이 보다 진화된 XR 기기와 결합한다면 가상 환경은 단순한 화면 속 장면이 아니라 몸으로 들어가는 공간이 됩니다. 예를 들어 '눈 덮인 숲속' 시뮬레이션에서는 눈이 내리는 시각적 효과뿐 아니라 차가운 공기의 온도 변화와 발밑 눈의 압착감까지 구현될 수 있습니다. <사진=미드저니>
가상과 현실
경계가 사라진다
지니3와 같은 월드 모델 기술이 성숙해질수록 우리는 점점 더 현실과 가상의 경계를 구분하기 어려운 시대에 접어들고 있습니다. 예전에는 가상현실(VR)이라는 말이 곧 어색한 그래픽과 제한된 움직임을 의미했습니다. 하지만 이제는 텍스트 한 줄이 실제와 거의 구분되지 않는 3D 환경을 만드는 시대가 열리고 있습니다. 특히 이 환경 속에서의 행동이 즉시 반영되고, 시간이 지나도 그 흔적이 남는다는 점은 '가상'이라는 단어마저 재정의하게 만듭니다.
이 변화는 단순히 오락의 차원을 넘어섭니다. 교육에서는 역사 속 사건을 실시간으로 재현해 체험할 수 있고, 과학 실험에서는 위험하거나 비용이 많이 드는 실험을 가상 공간에서 안전하게 시도할 수 있습니다. 산업 현장에서는 건축이나 설계 과정에서 가상의 시뮬레이션을 통해 문제를 사전에 발견하고 해결할 수 있게 됩니다. 마치 '실행 전 리허설'이 모든 분야에서 가능해지는 셈입니다.
|
|
|
메타버스 정의부터 현실세계와의 경제 상호작용, 프라이버시 문제 등에 대한 설명이 담긴 영상입니다. 이 가운데 메타버스에서 만들어지는 경제적인 가치가 가상에서만 머무르지 않고 현실로 이어진다는 내용이 눈에 띕니다. <영상=NIPA 유튜브 공식 채널>
우리에게 놓인 과제
그러나 경계가 흐려질수록 새로운 고민도 생깁니다. 우리가 가상 세계에서 만든 경험과 기억이 현실에 어떤 영향을 미칠지, 그리고 반대로 현실의 정보가 가상 세계에서 어떻게 활용되고 저장될지에 대한 윤리적 논의가 필요합니다. 이미 일부 연구자들은 가상 공간에서의 '정체성' 문제와 '디지털 재현물'의 권리를 논하기 시작했습니다.
역사적으로도 기술이 현실과 가상의 경계를 좁힐 때, 사회는 새로운 규칙과 문화를 만들어왔습니다. 사진과 영화의 등장, 인터넷과 소셜미디어의 확산이 그 예입니다. 이제 월드 모델은 그보다 더 근본적인 변화를 예고합니다. 현실이 가상을 닮고, 가상이 현실처럼 느껴지는 시대에서 중요한 것은 '어디까지가 진짜인가'가 아니라 '무엇이 가치 있는가'라는 질문일지도 모릅니다. 이와 관련해 파흐리 카라카스 미디엄 컬럼니스트는 "기술이 너무나 정교해져서 인공적인 것이 진짜와 구분되지 않고, 시뮬레이션이 진실과 구분되지 않으며, 설계된 경험이 자연스러운 경험과 구분되지 않게 되고 있다"고 말했습니다. (여러분의 생각은 어떠신가요? 자유로운 의견 공유해주세요!)
|
|
|
작년 말 한국에 정식 출시된 애플 비전 프로를 사용해 볼 기회가 있었습니다. 가격과 무게 문제가 해결된다면 사고 싶은 마음이 들었습니다. 한 달간의 체험기를 사진 링크를 참조해 주세요. <사진=매일경제 DB>
메타버스 번외편
공간 컴퓨팅의 세계
메타버스가 한창 화제가 된 지 몇 년이 지났습니다. 한때는 '세상의 모든 활동이 가상 공간으로 옮겨갈 것'이라는 말이 나올 정도였지만, 지금은 열기가 조금 가라앉았죠. 그러나 메타버스의 불씨는 다른 이름으로 다시 피어나고 있습니다. 그것이 바로 '공간 컴퓨팅'입니다.
공간 컴퓨팅은 단순히 가상현실(VR)이나 증강현실(AR)만을 의미하지 않습니다. 현실 세계와 디지털 세계의 경계를 허물고, 사람·사물·정보가 실시간으로 상호작용할 수 있는 환경을 만드는 기술입니다. 애플이 지난해 초 출시한 '비전 프로'가 대표적인 예인데요. 이 기기는 단순한 헤드셋이 아니라, 눈·손·목소리로 디지털 객체를 조작할 수 있는 '공간 컴퓨터'라는 새로운 개념을 제시했습니다.
기술적으로는 세 가지가 핵심입니다. 첫째, 고정밀 3D 매핑 기술로 실제 공간을 디지털로 재현하는 것. 둘째, 센서와 카메라를 통한 사용자 동작 인식. 셋째, 이를 실시간으로 처리하는 고성능 컴퓨팅입니다. 여기에 상황 인식과 자연스러운 사용자 인터페이스도 중요한 요소로 꼽힙니다. 이 조합 덕분에 우리는 물리적 한계를 넘어서는 새로운 작업·교육·엔터테인먼트 환경을 경험할 수 있습니다.
공간 컴퓨팅이 흥미로운 이유는 '현실의 확장'이라는 방향성에 있습니다. 기존 메타버스가 '완전히 가상의 세계'를 지향했다면, 공간 컴퓨팅은 '현실 위에 디지털을 겹쳐놓는 방식'을 택합니다. 예를 들어 의사는 실제 수술실에서 3D 인체 모델을 보며 시뮬레이션을 할 수 있고, 엔지니어는 전 세계 동료와 함께 같은 가상 작업물을 실시간으로 편집할 수 있습니다.
물론 과제도 큽니다. 장비 가격이 높고, 무게와 착용감 문제로 장시간 사용이 어렵습니다. 또 현실과 가상을 섞는 만큼 개인정보 보호와 보안 이슈가 더욱 복잡해질 수 있습니다. 그러나 기술 발전 속도를 보면 이런 한계는 시간의 문제일 가능성이 큽니다.
|
|
|
원래는 여기서 한 걸음 더 나아가 AGI(인공일반지능)에 대해서도 이야기를 나누고 싶었는데요. 다만 AGI는 기술적·윤리적 논의가 훨씬 깊어져야 하는 영역이기에 이번 레터에서는 분량상 생략했습니다.
혹시 오늘 다룬 내용 중 더 깊이 알고 싶은 주제나 제가 챙기지 못한 관점이 있다면 언제든 말씀해 주세요. 독자님들의 시선이 곧 다음 이야기의 출발점이 됩니다.
P.S. 최근에는 GPT로 게임을 만드는 시도가 전 세계에서 활발히 일어나고 있습니다. 저도 출퇴근길에 틈틈이 즐길 수 있는 모바일 영어 학습 게임을 만들어 봤는데요. 완성도는... 여러분의 상상력에 맡기겠습니다. 중요한 건 완벽함보다 만드는 과정에서 얼마나 배우고 시도했느냐 아닐까요.
그럼 무더운 여름 한 주, 가벼운 마음으로 시원하게 시작해 보시죠.
현장에서
고민서 드림 |
|
|
서울 중구 퇴계로 190 매경미디어센터
매경미디어그룹
miraklelab@mk.co.kr 02-2000-2165
|
|
|
|
|