| 2023 JUL week 1 Vol 38 |
All in One AI DATA SOLUTION- SELECTSTAR 캐나다에서 열린 세계 최대의 컴퓨터 비전 학회 CVPR |
| - 밴쿠버랍니다 - |
지난 6월 18일부터 22일까지 캐나다 밴쿠버에서 CVPR 2023이 열렸습니다. CVPR은 Computer Vision and Pattern Recognition의 약자로, 세계 최대 규모의 컴퓨터 비전 학회입니다. AI에 대한 관심이 커지는 만큼 CVPR의 위상도 매년 높아지고 있습니다. 저희 셀렉트스타의 데이터셋을 활용한 논문도 CVPR에 자주 등재 되고 있고 금년에도 셀렉트스타의 해외향 브랜드인 DATUMO로서 현장 부스에서 전세계 AI 관련 인사들과 교류하는 시간을 가졌습니다. (Datumo 현장 부스에 와주신 분들 감사드립니다!) 올해는 총 9,155개의 논문이 제출됐고, 2,359편의 논문이 발표(Accepted)됐으며, 그 중 12개의 논문이 우수 논문 후보에 올랐습니다. 이번 호에서는 컴퓨터 비전 분야 트렌드와 함께 최우수 논문 두 편을 가볍게 살펴보도록 하겠습니다.
CVPR 2023로 보는 컴퓨터 비전 트렌드 | |
*요고 꼭 한번 해보세요! (클릭)
이번 CVPR 2023에서 가장 많이 등장한 주제는 3D from multi-view and sensors입니다. 2D 이미지를 3D로 재구성(Reconstruction)하는 분야인데요, 대표적으로 NeRF 기반 모델이 있습니다.(2월 첫주 뉴스레터 참고, click) 제출된 해당 분야 논문은 총 246편으로, 지난 해(137편)에 비해 2배 가까이 늘었습니다. 다음으로 제출 건수가 많았던 분야는 ‘이미지 및 비디오 합성, 생성(Image and video synthesis and generation)’ 이며, 3위는 ‘인간(Humans: Face, body, pose, gesture, movement)’입니다. 다소 생소할 수 있는 분야인데요, 지난해까지는 자세 추정(Pose Estimation)나 얼굴과 제스처(Face & Gesture)을 별개의 분야로 구분했는데 올해는 두 분야가 통합되면서 분야별 논문 수가 많아졌습니다. 방법론이 완전히 다른데도 불구하고 분야가 통합되었다는 것은 그만큼 AI의 인간 중심 활용을 중요하게 보겠다는 뜻으로 해석됩니다. 한편, 지난해 분야 1위를 차지했던 Recognition: Categrization, detection, retrieval은 올해 5위를 기록했습니다. 요약하면, 이미지 인식(Recognition) 기술이 상향 평준화되면서 그 자체에 대한 연구보다 그동안 잠재성을 보였던 분야에 더 힘을 쏟고 있다고 볼 수 있습니다. 지난해부터 떠오르고 있는 Multi-view 이미지 기반 3D 모델링, 이미지 생성 대표적인 예시입니다. 또한, 비전 기술이 보편화됨에 따라 기술 자체를 위한 연구가 아닌, 인간에게 도움이 될 기술을 연구로 시선을 옮긴 것으로 보입니다.
분야별 논문 수만으로 트렌드를 분석하는 것은 다소 과장된 해석일 수 있습니다. 그러나 이미 우리는 이미지 생성 모델이 불러온 파급력을 경험했습니다. 물론, 아직 3D 모델링 기술이 삶에 영향을 미칠 만큼은 아니지만 산학계에서는 확실히 활발하게 연구가 이뤄지고 있습니다. 첨단의 연구가 실제로 삶에 영향을 미치는 데 일반적으로 2-3년이 간극이 있다는 점을 고려해야 합니다. 이미지 합성 모델의 근간이 되는 GAN은 2014년, DDPM은 2020년에 등장했다는 점을 떠올려 봤을 때, 현재 3D 모델링 연구도 데이터와 사례들이 쌓이면서 조만간 우리 삶에 더 가까이 다가올 수도 있습니다. | |
CVPR 2023 최우수 논문 2편 소개
Visual Programming : Compositional visual reasoning without training
첫 번째 논문은 제목 그대로 훈련 없이 시각적 추론을 하는 VISPROG 모델입니다. AI 연구 기관 AI2에서 발표한 논문으로 객체 탐지, 텍스트 기반 추론, 질의응답(QA) 등 비전 분야의 여러 가지 태스크 모듈을 포함하고 있습니다. 이러한 모듈을 종합적으로 활용하면 시각적 추론이 가능해 집니다. 아래는 미국의 대표적인 시트콤 ‘빅뱅 이론’에 등장하는 7명의 주인공 사진입니다. VISPROG의 예로, 이들 각각의 얼굴을 탐지하고 각 주인공이 누구인지 레이블링하는 과제를 수행해보겠습니다. | |
| 먼저 VISPROG에서 위와 같은 코드를 구성할 수 있습니다. ‘FaceDet’을 통해 입력 이미지에서 얼굴을 탐지하도록 하고, ‘자연어 쿼리(main characters…)’를 이용해 주인공 7명의 이름 리스트를 불러옵니다. 그리고 ‘Classify’를 통해 탐지된 7개의 얼굴을 기준으로 각 레이블을 분류합니다. 최종적으로 태깅된 이미지는 아래와 같습니다. |
| 놀랍지 않나요? 마치 사람에게 작업을 시키듯 몇 줄의 작업만으로 원하는 결과물을 만들어냈습니다. VISPROG는 이 밖에도 이미지의 배경, 객체 등을 편집이나 여러 개의 이미지에 대한 질의응답이 가능합니다.
Planning-oriented Autonomous Driving
다음 논문은 Planning-oriented Autonomous Driving으로, 중국 상해의 자율주행 기업 OpenDriveLab이 제안한 UniAD를 소개하고 있습니다. 논문에 따르면, 기존 자율주행 자동차의 작동 방식은 모듈 각각을 순차적으로 연결하고, 최종적으로 주행 계획(Planning)을 세우는 구조입니다. 이 방법은 개별 모듈의 오류가 누적되거나 하나의 모듈이 잘못 학습됐을 경우 전체 계획이 잘못될 수 있는 위험성을 가지고 있습니다. 연구진은 모듈들을 독립적으로 학습하지 않고, 주행 계획을 위한 하나의 통합된 모델을 제안합니다. |
| 출처: Planning-oriented Autonomous Driving (Hu et al., 2022)
전체적인 학습 과정은 위와 같습니다. ‘-Former’라는 이름에서 알 수 있듯이 각 모듈은 트랜스포머 디코더를 기반으로 구성됩니다. 인식(Perception), 예측(Prediction), 계획(Planning)의 과정은 트랜스포머의 Key와 Value 값을 주거나 받는 관계로 연결되어 있습니다. 주행 계획을 중심으로 학습이 이루어지기 때문에 각 모듈을 담당하는 블럭들이 더 풍부한 표현(Representation)을 얻을 수 있다는 게 연구자들의 설명입니다.
이번호는 CVPR 2023의 트렌드와 최우수 논문들에 대해서 긴략히 살펴보았습니다. 해가 지날수록 컴퓨터 비전 분야가 점차 깊이 발전하고 있다는 것이 느껴집니다. 이러한 추세로 보았을 때, 내년에는 더욱 다양한 응용 사례는 물론, 누구든 쉽게 활용할 수 있는 이미지 Tool들이 더욱 개발되지 않을까 조심스레 예상해봅니다. |
SELECTSTAR AI WEBINAR → → |
| 셀렉트스타가 ChatGPT로 심즈와 같은 NPC 인공지능을 구현한 스탠포드대 박준성 박사님을 모시고 WEBINAR를 개최합니다!
일시 :7월6일(목) 14:00 ~ 16:00 신청 :6월 27일(수)~ 7월 5일(수)까지
* 아직 신청 못하신 분은 신청 마지막날인 오늘을 놓치지 마세요!
** 최종 링크를 받으신분만 참여하실 수 있습니다.
|
| 셀렉트스타가 인공지능팩토리와 공동 주관하는 총 상금 1천만원과 과기부 장관상에 빛나는 ETRI 인공지능 자율성장 경진대회, [FASHION-HOW 시즌4]의 접수가 시작 되었습니다!
자세한 내용과 참가신청은 홈페이지를 참조하세요 |
셀렉트스타의 야심작 고품격(?) AI 토크쇼(케이스) "혁주와 찬수" 매주 목요일에 단독 개봉됩니다!
기대하세요! 딱! 60초 안에 이 콤비의 매력에 빠져들게 될 것입니다! | | |
| 매주 AI 소식을 전해드리면서 반갑게 메일을 열어보시는 6,000 여 분의 목소리도 궁금했었습니다. 이제, 일방이 아닌 구독자 여러분과 양방향으로 Interactive하게 소통하고 싶습니다. 여러분들의 다양한 의견들을 기다리겠습니다.
게시판 응원 이벤트는 계속됩니다! 좋은 의견주신 분들께는 커피쿠폰을 드립니다. 여러분의 많은 참여 기다릴께요! | |
| AI 관심있는 누구나! 와서 노다지를 캐가세요!
- 직군, 나이에 상관없이 참여할 수 있는 오픈 모임입니다.
- AI와 AI 도입, AI 비즈니스, 사업개발에 대한 다양한 프로그램을 운영하고 있는 AI 중심의 커뮤니티입니다.
- 신사업팀, 사업개발팀, 변화혁신팀 등 회사 내에서 Digital Transformation을 위해 AI 도입을 고민하는 분들이 모여있는 곳입니다.
- 최신 정보와 기술, 작업 노하우, AI 모델 개발을 위한 플랫폼 서치, 전략 등에 대한 고민, 질문, 다양한 경험 등을 자유롭게 나누고 자기만의 값진 노다지를 캐가십시오!
|
| AI NODAJI 1주년 기념 Sponsorship 모집
2022년 7월부터 시작하여 어느덧 AI 업계에서 HIP한 네트워킹 파티로 자리잡게 된 AI NODAJI가 이번에 첫 돌을 맞이합니다 이 뜻깊은 날을 AI업계 여러 기업과 AI NODAJI 현장에서 함께 기념하고자 Networking Booth를 특별히 무료로 개방합니다
*AI NODAJI 1주년기념 NETWORKING 파티 관련 고지와 광고는 Coming Soon! - 일시: 7월 27일 19:00시
- 장소: 역삼역 서울창업허브 스케일업센터
- 현장 배너 설치와 4인용 독립 회의실을 홍보 공간으로 제공해드립니다
- 조기 선정된 기업은 행사 홍보시 파트너로 함께 홍보해드립니다
- 신청과 문의는 marketing@selectstar.ai 로 해주시면 연락드리겠습니다
- 한정된 공간으로 조기 마감될 수 있습니다
|
Promotion → →
| |
AI모델링을 위한 데이터셋이 필요하신가요?
빠르고 정확한 데이터 가공으로 최고의 가성비 데이터셋을 구축해 드립니다!
<플러스 알파 혜택> - 타견적 대비 고품질 결과물
- 1:1 AI 멘토링 지원
- 최고 투자자들의 '투자 검토'
- 투자, 법률, 특허 관련 특강 기회
|
Weekly AI Issues → → 셀렉트스타, “챗GPT로 만든 가상 사회” 주제로 웨비나 개최인공지능(AI) 학습 데이터 플랫폼 셀렉트스타가 오는 6일 ‘챗GPT로 만든 가상 사회’를 주제로 세미나를 개최합니다. 스탠퍼드 대학과 구글의 화제 논문 ‘생성 에이전트: 인간 행동의 상호작용 재현’의 제1 저자 박준성 박사가 연사로 참여합니다. |
알파고 만든 구글 딥마인드 “챗GPT 뛰어넘을 ‘제미니’ 개발 중”요즘 딥마인드가 개발하고 있는 대규모 언어모델(LLM) ‘제미니’에 대한 관심이 뜨겁습니다. AlphaGo를 포함한 딥마인드의 주요 모델은 강화학습을 기반으로 학습된 만큼 강화학습 기반으로 언어모델을 구축할 것임을 밝혔습니다. |
하이퍼클로바X, 오는 8월 24일 공개 예정네이버가 개발 중인 한국어 대규모 언어모델(LLM) 하이퍼클로바X가 오는 8월 24일 공개됩니다. 하이퍼클로바X는 한국판 ChatGPT로 기대를 모으고 있는데요. GPT-3.5보다 한국어 데이터를 6500배 많이 학습했고, 답변 속도 또한 ChatGPT보다 빠르다고 평가하고 있습니다. 이에, 전문가들은 한국어 답변 수준이 GPT-3.5의 영어 수준에 이르는 것만으로도 의미가 있다는 의견을 보였습니다.
|
"인터넷 개인정보 무단 사용"…챗GPT 개발사 피소미국 로펌 클락슨은 ChatGPT를 개발한 OpenAI에 대해 인터넷 개인정보 무단 사용에 대해 소송을 제기했습니다. 정보를 제작한 사용자들의 동의 없이 인터넷 정보를 사용하여 ChatGPT를 개발해 수익을 얻었다는 것입니다. 워싱턴포스트는 이 사건을 다루며 인터넷 이용자의 권리를 침해했는지 여부를 판단하는 새로운 법적 이론을 시험하는 것이라고 설명했는데요. 일부 AI 개발자들은 ‘공정 사용’을 주장하면서, 아직까지 어떤 결론이 나올지 단정짓기 어려워보입니다. |
Subscribe → →
한 주간의 AI 뉴스들을 큐레이션하고 AI HOT TOPIC과 ISSUE들을 분석한 기사들을 뉴스레터로 매주 한 번씩 발송해드립니다. 6,000 여명의 구독자들과 함께 하십시오!
요즘 AI 트렌드는 망설이다보면 따라 잡을 수 없습니다! | |
|