📰 메타 AI, '디노v2' 상업 라이선스 제공

2023년 9월 1주차 셀렉트스타 뉴스레터

글: 권혁주 ㅣ 검수: 정인영

비전 파운데이션 모델 '디노v2'

DINOv2: State-of-the-art computer vision models with self-supervised learning.

사진. Meta AI blog

메타가 최신 오픈 소스 모델 ‘디노v2(DINOv2)’의 상업용 라이센스(apache 2.0)를 제공한다고 31일 밝혔습니다. 메타에 따르면 디노v2는 비전 트랜스포머(Vision Transformer) 기반 파운데이션 모델로, 파인 튜닝 없이도 이미지 분류/분할/검색 성능이 매우 높기에 다양한 컴퓨터 비전 작업의 백본으로 사용하기에 적합합니다.

*백본(Backbone) 모델은 데이터의 특징을 추출하는 기본 네트워크 구조를 의미하며, 다양한 과제 수행을 위한 기본 모델이 됩니다(예: VGG, ResNet).

라벨이 필요 없는 Self-Supervised Learning 비전 모델

이미지 분할(Segmentation)과 깊이 추정(Depth estimation) 예시.

자료. DINOv2: Learning Robust Visual Features without Supervision.

메타는 DINOv2에 '자기 지도 학습(SSL, Self-Supervised Learning)'이 활용된 점을 강조했습니다. 자기 지도 학습은 인공 지능 모델이 라벨이 없는 데이터셋으로부터 학습하는 방법 중 하나입니다.

자기 지도 학습은 최근 컴퓨터 비전 모델 학습의 표준으로 자리 잡은 이미지-텍스트 사전 훈련(Image-text Pretraining, Vision-Language Pretraing)과는 살짝 결이 다릅니다. 일반적인 이미지-텍스트 사전 훈련 과정에서는 모델이 이미지와 그 연관 텍스트를 쌍으로 학습하기 때문에, 라벨이나 주석이 붙여진 데이터가 필요합니다.

대표적인 이미지-텍스트 사전 훈련 모델 사례로는 오픈AI에서 발표한 ‘클립(CLIP)’ 계열이 있습니다. 클립은 사전 학습에 캡션이 달려 있는 이미지를 활용합니다. 미리 짝지어진 이미지와 텍스트를 같은 차원(길이)의 벡터로 변환하고, 두 벡터의 유사도가 높아지는 방향으로 학습해 인공지능이 이미지와 그 뜻을 연관 지어 이해할 수 있도록 합니다.

CLIP: Connecting text and images 사전 학습 개요.

자료. 오픈AI.

하지만 메타에 따르면, 이 방법은 인공지능이 이미지에 달린 설명(캡션)에 의존하여 의미를 학습하기 때문에 아무리 중요한 정보라도 명시적으로 적혀있지 않다면 무시할 위험이 있습니다.

예를 들어 넓은 보라색 방에 의자가 있는 사진에 캡션이 "원목 의자"라고 적혀 있다면, 이는 배경과 공간 정보를 충분히 담고 있지 않은 부족한 설명입니다. 따라서 캡션 기반 학습은 더욱 상세한 정보가 필요한 다운스트림 작업(Downstream task)에서 성능이 저하될 수 있습니다.

이와 달리 자기 지도 학습을 활용하면 인공지능이 라벨링 정보에 의존하지 않고, 이미지의 고유한 시각적 유사성에 따라 데이터의 일반적인 특징과 패턴을 파악할 수 있습니다.

결과적으로 모델 개발 과정에서 데이터 라벨링 때문에 생기는 병목 현상이 줄어들어, 모델 훈련에 더 많은 데이터를 활용할 수도 있고, 라벨링이 어려운 특수 분야 데이터도 쉽게 학습할 수 있습니다. 현재 메타는 디노 모델을 활용해 의료, 자연, 환경 등 다양한 분야의 전문 프로젝트가 진행되고 있다고 밝혔습니다.

데이터 라벨링 대신 선별 / 검색 / 증강

DINOv2 데이터 처리 파이프라인 개요.

임베딩- 중복 제거-검색 순으로 이뤄진다.

자료. DINOv2: Learning Robust Visual Features without Supervision.

그렇기에 디노v2 사전 학습 과정에선 데이터 라벨링 대신 데이터 ‘선별’ 작업이 주요했습니다. 메타 측은 “우리의 요구 사항에 맞게 선별된 충분히 큰 데이터 세트가 없었기 때문에 공개적으로 사용 가능한 크롤링된 웹 데이터 저장소를 활용하는 방안을 선택했다”고 설명하고 있습니다.

이러한 소스에서 대규모 사전 학습 데이터셋을 구축하려면 먼저 관련 없는 이미지를 삭제하고, 데이터셋 내의 균형을 맞춰야 합니다. 이 정도로 정밀한 큐레이션 작업은 수동으로 수행하기 어렵습니다.

그래서 메타는 약 25개의 외부 데이터셋 컬렉션에서 원천 이미지를 선별하고, 선별 이미지를 기반으로 중복을 제거한 다음, 이와 유사한 이미지를 검색(retrieval)하고 증강(augment)하는 방식을 사용했습니다. 그렇게 총 12억 개의 소스 이미지 중 1억 4,200만 개의 이미지로 구성된 사전 학습 데이터 세트가 완성됐습니다.

“This was achieved by curating a set of seed images from a collection of about 25 third-party datasets and extending it by retrieving images sufficiently close to those seed images”

올들어 메타는 라마(Llama), 샘(SAM), 디노(DINOv2) 등 많은 모델을 오픈 소스로 공개하고 있습니다. 다양한 사람들이 모델을 활용하는 과정에서 개발자 커뮤니티가 형성되고, 기술 혁신이 빨라지고, 사회적 영향력이 확대되는 효과가 있습니다.

일례로 셀렉트스타 또한 메타의 샘(SAM, Segment Anything Model)을 데이터 가공 프로덕트에 접목해 효과적인 반자동 라벨링을 지원하고 있습니다 :) 앞으로 메타가 공개할 더 놀랍고 뛰어난 기술들이 기대되네요!

참고 자료:

* Evaluating the fairness of computer vision models, Meta AI

* DINOv2: Learning Robust Visual Features without Supervision, Meta AI Research

AI 네트워킹 행사 안내 및 참여 기업 모집

#1. 9월 AI 노다지 네트워킹 파티 초청

내일 (9월 7일), 셀렉트스타와 서울경제진흥원(SBA)이 함께하는 AI 오프라인 네트워킹 파티에 초대합니다.

9월 주제는 <자동차 산업과 인공지능의 융합>으로, 초청연사는 SOCAR 데이터 비즈니스본부 기술기획팀 주요한 님, 박세준 님입니다.
*본 행사는 무료로 진행되며, 참가 신청이 이르게 마감될 수 있습니다.

행사 소개 및 신청 링크

#2. AI 학습데이터 구축 사업 지원

셀렉트스타가 데이터 구축 인프라를 제공합니다.
크라우드 소싱 작업자 구인-관리부터 반자동 라벨링 솔루션까지.

데이터셋 구축 지원 사업은 셀렉트스타와 함께하세요.

문의/상담하기

The Data for Smarter AI

세상 모든 데이터를 찾아, 셀렉트스타는

AI 라이프사이클을 함께하는 올인원 데이터 플랫폼입니다.

셀렉트스타 주식회사

📋 사업 및 제휴 문의 contact@selectstar.ai

📨 콘텐츠 및 행사 문의 marketing@selectstar.ai

수신거부 Unsubscribe

셀렉트스타 뉴스레터 구독하기