Meta AI / DINOv2 / Image Model
2023๋…„ 9์›” 1์ฃผ์ฐจ ์…€๋ ‰ํŠธ์Šคํƒ€ ๋‰ด์Šค๋ ˆํ„ฐ
๊ธ€: ๊ถŒํ˜์ฃผ ใ…ฃ ๊ฒ€์ˆ˜: ์ •์ธ์˜                                            
๋น„์ „ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ '๋””๋…ธv2'
DINOv2: State-of-the-art computer vision models with self-supervised learning.
์‚ฌ์ง„. Meta AI blog

๋ฉ”ํƒ€๊ฐ€ ์ตœ์‹  ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ โ€˜๋””๋…ธv2(DINOv2)โ€™์˜ ์ƒ์—…์šฉ ๋ผ์ด์„ผ์Šค(apache 2.0)๋ฅผ ์ œ๊ณตํ•œ๋‹ค๊ณ  31์ผ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ๋ฉ”ํƒ€์— ๋”ฐ๋ฅด๋ฉด ๋””๋…ธv2๋Š” ๋น„์ „ ํŠธ๋žœ์Šคํฌ๋จธ(Vision Transformer) ๊ธฐ๋ฐ˜ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ๋กœ, ํŒŒ์ธ ํŠœ๋‹ ์—†์ด๋„ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜/๋ถ„ํ• /๊ฒ€์ƒ‰ ์„ฑ๋Šฅ์ด ๋งค์šฐ ๋†’๊ธฐ์— ๋‹ค์–‘ํ•œ ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์˜ ๋ฐฑ๋ณธ์œผ๋กœ ์‚ฌ์šฉํ•˜๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

*๋ฐฑ๋ณธ(Backbone) ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ๊ธฐ๋ณธ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ๊ณผ์ œ ์ˆ˜ํ–‰์„ ์œ„ํ•œ ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ๋ฉ๋‹ˆ๋‹ค(์˜ˆ: VGG, ResNet).
 ๋ผ๋ฒจ์ด ํ•„์š” ์—†๋Š” Self-Supervised Learning ๋น„์ „ ๋ชจ๋ธ
์ด๋ฏธ์ง€ ๋ถ„ํ• (Segmentation)๊ณผ ๊นŠ์ด ์ถ”์ •(Depth estimation) ์˜ˆ์‹œ.

์ž๋ฃŒ. DINOv2: Learning Robust Visual Features without Supervision.


๋ฉ”ํƒ€๋Š” DINOv2์— '์ž๊ธฐ ์ง€๋„ ํ•™์Šต(SSL, Self-Supervised Learning)'์ด ํ™œ์šฉ๋œ ์ ์„ ๊ฐ•์กฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ž๊ธฐ ์ง€๋„ ํ•™์Šต์€ ์ธ๊ณต ์ง€๋Šฅ ๋ชจ๋ธ์ด ๋ผ๋ฒจ์ด ์—†๋Š” ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค.

์ž๊ธฐ ์ง€๋„ ํ•™์Šต์€ ์ตœ๊ทผ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ชจ๋ธ ํ•™์Šต์˜ ํ‘œ์ค€์œผ๋กœ ์ž๋ฆฌ ์žก์€ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์‚ฌ์ „ ํ›ˆ๋ จ(Image-text Pretraining, Vision-Language Pretraing)๊ณผ๋Š” ์‚ด์ง ๊ฒฐ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์‚ฌ์ „ ํ›ˆ๋ จ ๊ณผ์ •์—์„œ๋Š” ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€์™€ ๊ทธ ์—ฐ๊ด€ ํ…์ŠคํŠธ๋ฅผ ์Œ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ผ๋ฒจ์ด๋‚˜ ์ฃผ์„์ด ๋ถ™์—ฌ์ง„ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. 

๋Œ€ํ‘œ์ ์ธ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ชจ๋ธ ์‚ฌ๋ก€๋กœ๋Š” ์˜คํ”ˆAI์—์„œ ๋ฐœํ‘œํ•œ โ€˜ํด๋ฆฝ(CLIP)โ€™ ๊ณ„์—ด์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํด๋ฆฝ์€ ์‚ฌ์ „ ํ•™์Šต์— ์บก์…˜์ด ๋‹ฌ๋ ค ์žˆ๋Š” ์ด๋ฏธ์ง€๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ฏธ๋ฆฌ ์ง์ง€์–ด์ง„ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๊ฐ™์€ ์ฐจ์›(๊ธธ์ด)์˜ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ๋‘ ๋ฒกํ„ฐ์˜ ์œ ์‚ฌ๋„๊ฐ€ ๋†’์•„์ง€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•ด ์ธ๊ณต์ง€๋Šฅ์ด ์ด๋ฏธ์ง€์™€ ๊ทธ ๋œป์„ ์—ฐ๊ด€ ์ง€์–ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

CLIP: Connecting text and images ์‚ฌ์ „ ํ•™์Šต ๊ฐœ์š”.

์ž๋ฃŒ. ์˜คํ”ˆAI.


ํ•˜์ง€๋งŒ ๋ฉ”ํƒ€์— ๋”ฐ๋ฅด๋ฉด, ์ด ๋ฐฉ๋ฒ•์€ ์ธ๊ณต์ง€๋Šฅ์ด ์ด๋ฏธ์ง€์— ๋‹ฌ๋ฆฐ ์„ค๋ช…(์บก์…˜)์— ์˜์กดํ•˜์—ฌ ์˜๋ฏธ๋ฅผ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์•„๋ฌด๋ฆฌ ์ค‘์š”ํ•œ ์ •๋ณด๋ผ๋„ ๋ช…์‹œ์ ์œผ๋กœ ์ ํ˜€์žˆ์ง€ ์•Š๋‹ค๋ฉด ๋ฌด์‹œํ•  ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ๋„“์€ ๋ณด๋ผ์ƒ‰ ๋ฐฉ์— ์˜์ž๊ฐ€ ์žˆ๋Š” ์‚ฌ์ง„์— ์บก์…˜์ด "์›๋ชฉ ์˜์ž"๋ผ๊ณ  ์ ํ˜€ ์žˆ๋‹ค๋ฉด, ์ด๋Š” ๋ฐฐ๊ฒฝ๊ณผ ๊ณต๊ฐ„ ์ •๋ณด๋ฅผ ์ถฉ๋ถ„ํžˆ ๋‹ด๊ณ  ์žˆ์ง€ ์•Š์€ ๋ถ€์กฑํ•œ ์„ค๋ช…์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์บก์…˜ ๊ธฐ๋ฐ˜ ํ•™์Šต์€ ๋”์šฑ ์ƒ์„ธํ•œ ์ •๋ณด๊ฐ€ ํ•„์š”ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…(Downstream task)์—์„œ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด์™€ ๋‹ฌ๋ฆฌ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต์„ ํ™œ์šฉํ•˜๋ฉด ์ธ๊ณต์ง€๋Šฅ์ด ๋ผ๋ฒจ๋ง ์ •๋ณด์— ์˜์กดํ•˜์ง€ ์•Š๊ณ , ์ด๋ฏธ์ง€์˜ ๊ณ ์œ ํ•œ ์‹œ๊ฐ์  ์œ ์‚ฌ์„ฑ์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ์˜ ์ผ๋ฐ˜์ ์ธ ํŠน์ง•๊ณผ ํŒจํ„ด์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

๊ฒฐ๊ณผ์ ์œผ๋กœ ๋ชจ๋ธ ๊ฐœ๋ฐœ ๊ณผ์ •์—์„œ ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง ๋•Œ๋ฌธ์— ์ƒ๊ธฐ๋Š” ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ์ค„์–ด๋“ค์–ด, ๋ชจ๋ธ ํ›ˆ๋ จ์— ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜๋„ ์žˆ๊ณ , ๋ผ๋ฒจ๋ง์ด ์–ด๋ ค์šด ํŠน์ˆ˜ ๋ถ„์•ผ ๋ฐ์ดํ„ฐ๋„ ์‰ฝ๊ฒŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ ๋ฉ”ํƒ€๋Š” ๋””๋…ธ ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ์˜๋ฃŒ, ์ž์—ฐ, ํ™˜๊ฒฝ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์˜ ์ „๋ฌธ ํ”„๋กœ์ ํŠธ๊ฐ€ ์ง„ํ–‰๋˜๊ณ  ์žˆ๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค.
 ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง ๋Œ€์‹  ์„ ๋ณ„ / ๊ฒ€์ƒ‰ / ์ฆ๊ฐ•

DINOv2 ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํŒŒ์ดํ”„๋ผ์ธ ๊ฐœ์š”.

์ž„๋ฒ ๋”ฉ- ์ค‘๋ณต ์ œ๊ฑฐ-๊ฒ€์ƒ‰ ์ˆœ์œผ๋กœ ์ด๋ค„์ง„๋‹ค.

์ž๋ฃŒ. DINOv2: Learning Robust Visual Features without Supervision.


๊ทธ๋ ‡๊ธฐ์— ๋””๋…ธv2 ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์—์„  ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง ๋Œ€์‹  ๋ฐ์ดํ„ฐ โ€˜์„ ๋ณ„โ€™ ์ž‘์—…์ด ์ฃผ์š”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฉ”ํƒ€ ์ธก์€ โ€œ์šฐ๋ฆฌ์˜ ์š”๊ตฌ ์‚ฌํ•ญ์— ๋งž๊ฒŒ ์„ ๋ณ„๋œ ์ถฉ๋ถ„ํžˆ ํฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ์—†์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ณต๊ฐœ์ ์œผ๋กœ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํฌ๋กค๋ง๋œ ์›น ๋ฐ์ดํ„ฐ ์ €์žฅ์†Œ๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ์•ˆ์„ ์„ ํƒํ–ˆ๋‹คโ€๊ณ  ์„ค๋ช…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์†Œ์Šค์—์„œ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๋ ค๋ฉด ๋จผ์ € ๊ด€๋ จ ์—†๋Š” ์ด๋ฏธ์ง€๋ฅผ ์‚ญ์ œํ•˜๊ณ , ๋ฐ์ดํ„ฐ์…‹ ๋‚ด์˜ ๊ท ํ˜•์„ ๋งž์ถฐ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ •๋„๋กœ ์ •๋ฐ€ํ•œ ํ๋ ˆ์ด์…˜ ์ž‘์—…์€ ์ˆ˜๋™์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

๊ทธ๋ž˜์„œ ๋ฉ”ํƒ€๋Š” ์•ฝ 25๊ฐœ์˜ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์…‹ ์ปฌ๋ ‰์…˜์—์„œ ์›์ฒœ ์ด๋ฏธ์ง€๋ฅผ ์„ ๋ณ„ํ•˜๊ณ , ์„ ๋ณ„ ์ด๋ฏธ์ง€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ค‘๋ณต์„ ์ œ๊ฑฐํ•œ ๋‹ค์Œ, ์ด์™€ ์œ ์‚ฌํ•œ ์ด๋ฏธ์ง€๋ฅผ ๊ฒ€์ƒ‰(retrieval)ํ•˜๊ณ  ์ฆ๊ฐ•(augment)ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ ‡๊ฒŒ ์ด 12์–ต ๊ฐœ์˜ ์†Œ์Šค ์ด๋ฏธ์ง€ ์ค‘ 1์–ต 4,200๋งŒ ๊ฐœ์˜ ์ด๋ฏธ์ง€๋กœ ๊ตฌ์„ฑ๋œ ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ์™„์„ฑ๋์Šต๋‹ˆ๋‹ค.

โ€œThis was achieved by curating a set of seed images from a collection of about 25 third-party datasets and extending it by retrieving images sufficiently close to those seed imagesโ€
์˜ฌ๋“ค์–ด ๋ฉ”ํƒ€๋Š” ๋ผ๋งˆ(Llama), ์ƒ˜(SAM), ๋””๋…ธ(DINOv2) ๋“ฑ ๋งŽ์€ ๋ชจ๋ธ์„ ์˜คํ”ˆ ์†Œ์Šค๋กœ ๊ณต๊ฐœํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์‚ฌ๋žŒ๋“ค์ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜๋Š” ๊ณผ์ •์—์„œ ๊ฐœ๋ฐœ์ž ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ํ˜•์„ฑ๋˜๊ณ , ๊ธฐ์ˆ  ํ˜์‹ ์ด ๋นจ๋ผ์ง€๊ณ , ์‚ฌํšŒ์  ์˜ํ–ฅ๋ ฅ์ด ํ™•๋Œ€๋˜๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

์ผ๋ก€๋กœ ์…€๋ ‰ํŠธ์Šคํƒ€ ๋˜ํ•œ ๋ฉ”ํƒ€์˜ ์ƒ˜(SAM, Segment Anything Model)์„ ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต ํ”„๋กœ๋•ํŠธ์— ์ ‘๋ชฉํ•ด ํšจ๊ณผ์ ์ธ ๋ฐ˜์ž๋™ ๋ผ๋ฒจ๋ง์„ ์ง€์›ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค :) ์•ž์œผ๋กœ ๋ฉ”ํƒ€๊ฐ€ ๊ณต๊ฐœํ•  ๋” ๋†€๋ž๊ณ  ๋›ฐ์–ด๋‚œ ๊ธฐ์ˆ ๋“ค์ด ๊ธฐ๋Œ€๋˜๋„ค์š”!

์ฐธ๊ณ  ์ž๋ฃŒ:


AI ๋„คํŠธ์›Œํ‚น ํ–‰์‚ฌ ์•ˆ๋‚ด ๋ฐ ์ฐธ์—ฌ ๊ธฐ์—… ๋ชจ์ง‘
#1. 9์›” AI ๋…ธ๋‹ค์ง€ ๋„คํŠธ์›Œํ‚น ํŒŒํ‹ฐ ์ดˆ์ฒญ

๋‚ด์ผ (9์›” 7์ผ), ์…€๋ ‰ํŠธ์Šคํƒ€์™€ ์„œ์šธ๊ฒฝ์ œ์ง„ํฅ์›(SBA)์ด ํ•จ๊ป˜ํ•˜๋Š” AI ์˜คํ”„๋ผ์ธ ๋„คํŠธ์›Œํ‚น ํŒŒํ‹ฐ์— ์ดˆ๋Œ€ํ•ฉ๋‹ˆ๋‹ค.

9์›” ์ฃผ์ œ๋Š” <์ž๋™์ฐจ ์‚ฐ์—…๊ณผ ์ธ๊ณต์ง€๋Šฅ์˜ ์œตํ•ฉ>์œผ๋กœ, ์ดˆ์ฒญ์—ฐ์‚ฌ๋Š” SOCAR ๋ฐ์ดํ„ฐ ๋น„์ฆˆ๋‹ˆ์Šค๋ณธ๋ถ€ ๊ธฐ์ˆ ๊ธฐํšํŒ€ ์ฃผ์š”ํ•œ ๋‹˜, ๋ฐ•์„ธ์ค€ ๋‹˜์ž…๋‹ˆ๋‹ค.
*๋ณธ ํ–‰์‚ฌ๋Š” ๋ฌด๋ฃŒ๋กœ ์ง„ํ–‰๋˜๋ฉฐ, ์ฐธ๊ฐ€ ์‹ ์ฒญ์ด ์ด๋ฅด๊ฒŒ ๋งˆ๊ฐ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
#2. AI ํ•™์Šต๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ์‚ฌ์—… ์ง€์›

์…€๋ ‰ํŠธ์Šคํƒ€๊ฐ€ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ์ธํ”„๋ผ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. 
ํฌ๋ผ์šฐ๋“œ ์†Œ์‹ฑ ์ž‘์—…์ž ๊ตฌ์ธ-๊ด€๋ฆฌ๋ถ€ํ„ฐ
๋ฐ˜์ž๋™ ๋ผ๋ฒจ๋ง ์†”๋ฃจ์…˜๊นŒ์ง€.

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ์ง€์› ์‚ฌ์—…์€ ์…€๋ ‰ํŠธ์Šคํƒ€์™€ ํ•จ๊ป˜ํ•˜์„ธ์š”.
The Data for Smarter AI

์„ธ์ƒ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์ฐพ์•„, ์…€๋ ‰ํŠธ์Šคํƒ€๋Š”

AI ๋ผ์ดํ”„์‚ฌ์ดํด์„ ํ•จ๊ป˜ํ•˜๋Š” ์˜ฌ์ธ์› ๋ฐ์ดํ„ฐ ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.



๐Ÿ“‹ ์‚ฌ์—… ๋ฐ ์ œํœด ๋ฌธ์˜ contact@selectstar.ai
๐Ÿ“จ ์ฝ˜ํ…์ธ  ๋ฐ ํ–‰์‚ฌ ๋ฌธ์˜ marketing@selectstar.ai