๐ซ ๋์น๋ฉด ์๋๋ ์ด๋ฒ์ฃผ AI ์์ TOP 3 2024๋
6์ 2์ฃผ์ฐจ ์
๋ ํธ์คํ ๋ด์ค๋ ํฐ |
|
|
๊ธ: ์ด์ฑ๋ฐฐ, ๋ฅ๋ค์ด๋ธ(deep daiv.) ์ ํด ์ฝํ
์ธ ใ
ฃ ์๋ํฐ: ์ ์ธ์ |
|
|
๐ฐ LLaVA: ๋ฉํฐ๋ชจ๋ฌ๊ณ์ LLaMA |
|
|
๋ฉํฐ๋ชจ๋ฌ์ ์ด๋ป๊ฒ ํ์ต์ํค๋ฉด ์ข์๊น์? ChatGPT์ ๋ฑ์ฅ ์ดํ ์ฐ๋ฆฌ๋ ์์ฐ์ด๋ก AI์ ์ง๋ฌธํ๋ ๋ฐฉ์์ ์ต์ํด์ก์ต๋๋ค. ๋ฉํฐ๋ชจ๋ฌ๋ ChatGPT์ฒ๋ผ ํ
์คํธ๋ก ํ์ต ์ํค๋ ๋ฐฉ๋ฒ์ด ์๋๋ฐ์. ๋ฐ๋ก Instruction Tuning์
๋๋ค.
Insturction Tuning์ ๊ธฐ์กด LLM์ ์ธ๊ฐ์ ์ง์์ฌํญ(Instruction)๊ณผ ์ ์ ํ ๋ต๋ณ์ ํ์ต์์ผ์ ์ธ๊ฐ์ ์๋๋ฅผ ์ดํดํ๊ณ ๋ตํ๋๋ก ๋ง๋๋ ๋ฐฉ์์
๋๋ค. ChatGPT์ ๊ธฐ๋ฐ ๋ชจ๋ธ InstructGPT์ ํ์ฉ๋๋ฉด์ ๋๋ฆฌ ์๋ ค์ก์ง์.
InstructGPT๋ฅผ ๊ฐ๋ฐํ๊ธฐ ์ํด์๋ ์์ง์ ์ง์์ฌํญ-๋ต๋ณ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋๋ฐ์. ์
๋ ฅ๊ณผ ์ถ๋ ฅ์ ํ
์คํธ๋ก ํ์ ํ๊ธฐ ๋๋ฌธ์ ์น ์์ ์์ค๋ฅผ ํ์ฉํ ์ ์์์ต๋๋ค. ํ์ง๋ง ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋ค๋ฆ
๋๋ค. ์
๋ ฅ๊ณผ ์ถ๋ ฅ์ด ์ด๋ฏธ์ง-ํ
์คํธ ์์ผ๋ก ์ด๋ค์ ธ ์๋ ๋ฐ์ดํฐ์
์ ํ๋ณดํ๊ธฐ ์ด๋ ค์ธ ๋ฟ๋ง ์๋๋ผ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ง์์ฌํญ์ ๋ง๋ค์ด ํ์ต์ํค๊ธฐ๋ ์ด๋ ต์ต๋๋ค.
์ด๋ฐ ์ด๋ ค์์ ๊ทน๋ณตํ๊ณ ๋ฑ์ฅํ ๋ชจ๋ธ์ด ๋ฐ๋ก LLaVA(Large Language and Vision Assistant)์
๋๋ค. LLaVA๋ ๋ฐ์ดํฐ๋ ๋ถ์กฑํ ์ํฉ์์ ์ด๋ป๊ฒ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ๋ณด์ผ ์ ์์์๊น์? ๐ค
|
|
|
LLaVA, ์ด๋ป๊ฒ ํ์ตํ ๊ฒ์ผ๊น? |
|
|
LLaVA๋ ์คํ์์ค ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ก ๋
ผ๋ฌธ <Visual Instruction Tuning>์ ํตํด 2023๋
4์, ์ฒ์์ผ๋ก ๊ณต๊ฐ๋์ต๋๋ค. ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ด์ง๋ง ํ
์คํธ๋ก ๋ ์ง์์ฌํญ์ ํ์ตํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์ ์ฒด์ ์ผ๋ก ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก ๋น์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์๋ LLaMA ๊ณ์ด ์คํ์์ค ์ธ์ด ๋ชจ๋ธ์ธ Vicuna๋ฅผ ์ฑํํ์ต๋๋ค. ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ์ธ์ด ๋ชจ๋ธ์ธ ๋งํผ, ์ด๋ฏธ์ง๋ฅผ ์ธ์ด ๋ชจ๋ธ์ด ํด์ํ ์ ์๋๋ก ์ธ์ฝ๋ฉํด์ผ ํ์ต๋๋ค. ๊ทธ๋์ ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ ๋ชจ๋ธ๋ก ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ธ CLIP์ ์ฑํํ๊ณ , ์ด๋ ๊ฒ ์๋ฒ ๋ฉ๋ ์๊ฐ-ํ
์คํธ ์ ๋ณด๋ฅผ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ์ด ์
๋ ฅํ์ฌ ํ์ตํ์ต๋๋ค.
|
|
|
LLaVA ๋ชจ๋ธ์ ์ํคํ
์ฒ ์ถ์ฒ: Visual Instruction Tuning (Liu et al., 2023)
๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํน์ฑ์ ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ(LLaVA์ ๊ฒฝ์ฐ ํ
์คํธ์ ์ด๋ฏธ์ง)์์ ๋ฐ์ด๋ ๋ชจ๋ธ์ ๊ฒฐํฉํ๋ ํํ๋ก ์ ์ํ๋๋ฐ์, LLaVA๋ ์์ธ๋ ์๋๋๋ค. LLaVA ๋ชจ๋ธ ์์ฒด๋ ์ฌ์ ํ๋ จ๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋น๋ ค์จ ๋งํผ, ์ฐ๊ตฌ ์ฑ๊ณผ๋ก์ ๊ธฐ์ฌ๋๊ฐ ๋์ ํธ์ ์๋๋๋ค. ์ด ๋ชจ๋ธ ๊ฐ๋ฐ์ ํต์ฌ์ ๋ฉํฐ๋ชจ๋ฌ Instruction Tuning ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๋ ๊ฒ์ด์์ต๋๋ค.
ํ์ง๋ง ์์ ์ธ๊ธํ๋ฏ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ ์๋์ ์ผ๋ก ํฌ์ํฉ๋๋ค. ์ด๋ฏธ์ง-ํ
์คํธ๊ฐ ์์ผ๋ก ์ด๋ค์ง ๋ฐ์ดํฐ๋ ๊ทธ๋๋ง ์์ง๋ง ์ง๋ฌธ, ์ค๋ช
, ์ถ๋ก ๋ฑ์ ์ง์์ฌํญ๊ณผ ๋ต๋ณ์ผ๋ก ์ด๋ค์ง ๋ฐ์ดํฐ๋ ๋์ฑ์ด ์ฐพ๊ธฐ ์ด๋ ค์ ์ฃ . ๊ทธ๋์ ์ฐ๊ตฌ์ง์ ์ง์ ๋ฐ์ดํฐ์
์ ์์ฑํฉ๋๋ค. ๋ฐ๋ก, GPT์ ๋์์ ๋ฐ์์ ๋ง์ด์ฃ .
|
|
|
LLaVA ๋ชจ๋ธ์ ํ๋ จ์ํค๊ธฐ ์ํด GPT-4๋ก ์์ฑํ ๋ฐ์ดํฐ ์ถ์ฒ: Visual Instruction Tuning (Liu et al., 2023)
์๋ ์ง์์ฌํญ์ ๋ฐ๋ฅด๋(Instruction-following) ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์์์
๋๋ค. ์ฐ๊ตฌ์ง์ GPT-4๋ฅผ ํ์ฉํด์ ์ด๋ฏธ์ง๋ ์ฌ์ฉํ์ง ์๊ณ ํ
์คํธ ๋ฐ์ดํฐ๋ก๋ง ์ง์์ฌํญ์ ์์ฑํ์ต๋๋ค. ๋คํํ๋ ์ด๋ฏธ์ง์ ๋ํ ์ค๋ช
(Captions)๊ณผ ์ด๋ฏธ์ง ๋ด์ ๊ฐ ๊ฐ์ฒด๊ฐ ์ด๋์ ์ด๋ ์ ๋์ ํฌ๊ธฐ๋ก ์์นํ๊ณ ์๋์ง ๋ํ๋ด๋ ๋ฐ์ด๋ฉ ๋ฐ์ค(Bounding Boxes) ์ ๋ณด๊ฐ ํ
์คํธ์ ํฌํจ๋์ด ์์๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก GPT๋ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ์ถ๋ก ํ ์ ์์ต๋๋ค.
|
|
|
LLaVA์ ๋ฏธ๋: LLaVA-NeXT |
|
|
LLaVA-1.5๋ฅผ ๊ณ์ ๋ฐ์ ์์ผ ํ์ํ LLaVA-NeXT๋ ์ถ๋ก ์ฑ๋ฅ๊ณผ OCR ์ฑ๋ฅ์ด ๊ฐ์ ๋๊ณ , ๊ธฐ๋ฐ ๋ชจ๋ธ์ Vicuna์์ Mistral-7B์ Nous-Hermes-2-Yi-34B๋ก ๋ณ๊ฒฝํ๋ฉด์ ์ธ์์ ๋ํ ์ดํด๋๋ ๋์์ต๋๋ค. ๋ํ ๋ค์ํ ๋ฌธ์์ ์ฐจํธ ๋ฐ์ดํฐ, ๊ทธ๋ฆฌ๊ณ ์ง์์ฌํญ์ ํ์ต์์ผฐ์ต๋๋ค. ์ฆ, ๊ทธ ์ฌ์ด์ AI๊ฐ ๋ฐ์ ํ๋ฉด์ ๋์ ๋ ์ ๋ณด๋ฅผ ๋ฐ์ํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ฑ ๊ฐํ์์ผฐ์ต๋๋ค.
๋ชจ๋ธ ๋จ๊ณ์์๋ ๋ณํ๊ฐ ์์๋๋ฐ์. ๊ณ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ ์ ์๋๋ก, ์ด๋ฏธ์ง๋ฅผ ์ชผ๊ฐ๊ณ (Split), ์ฌ์ด์ฆ๋ฅผ ์ฌ์กฐ์ (Resize)ํด์ ๊ฐ๊ฐ ๋
๋ฆฝ์ ์ผ๋ก ์ธ์ฝ๋ฉํ๋ ๋ฐฉ์์ ํ์ฉํ์ต๋๋ค. ์
๋ ฅ ์ด๋ฏธ์ง์ ์ฌ์ด์ฆ์ ๋น์จ์ ๊ตฌ์ ๋ฐ์ง ์๊ณ ์ธ์ฝ๋ฉ์ด ๊ฐ๋ฅํด์ก์ง์.
|
|
|
LLaVA-1.5๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ธ์ฝ๋ฉํ๋ ๋ฐฉ๋ฒ ์ถ์ฒ: Improved Baselines with Visual Instruction Tuning (Liu et al., 2023)
๋๋ถ์ ์ฑ๋ฅ์ ๋์ฑ ๊ฐ์ ๋๊ณ , ์ฌ์ง์ด๋ ๋๋ค์์ ๋ฒค์น๋งํฌ์์ Google์ Gemini Pro๋ฅผ ๋์ด์ฐ๋ค๊ณ ๋ฐํ์ต๋๋ค. ๋ฟ๋ง ์๋๋ผ ์ง๋ 5์ 30์ผ ๋ธ๋ก๊ทธ๋ฅผ ํตํด ๊ณต๊ฐํ ๋ด์ฉ์ ๋ฐ๋ฅด๋ฉด, ์ธ๋ถ์ ์ธ ํ์ต ํ๋ผ๋ฏธํฐ, ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ ๋ชจ๋ธ, ์ธ์ด ๋ชจ๋ธ ๋ฑ์ ๊ณ์ ๋ณ๊ฒฝํด๊ฐ๋ฉฐ ์คํํ๋ฉด์ ๋์ฑ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํ ๋ฐฉ์์ ์ฐ๊ตฌํ๊ณ ์๋ค๊ณ ํ๋๋ฐ์. ๊ทธ์ค์์ ์ฃผ๋ชฉํ ๋งํ ๋ถ๋ถ์ ํ๋ จ ๋ฐฉ์์ ๋ํ ์ธ์ฌ์ดํธ์
๋๋ค.
|
|
|
์ถ์ฒ: LLaVA ๋ธ๋ก๊ทธ <LLaVA-NeXT: What Else Influences Visual Instruction Tuning Beyond Data?>
๊ธฐ์กด ํ์ต ๋ฐฉ๋ฒ๊ณผ ๋ค๋ฅด๊ฒ, 1.5๋จ๊ณ๋ฅผ ์ถ๊ฐํ๋ฉด์ ๊ณ ํ์ง์ ์ง์์ ํ์ตํฉ๋๋ค. ์ด ๊ณผ์ ์ ๋ค๋ฆ ์๋ ๊ธฐ์กด ๋ฐ์ดํฐ๋ฅผ ๋ฆฌ์บก์
๋(Recaptioning)ํ๋ ์์
์
๋๋ค. ์ฐ๊ตฌ์ง์ ๋ฆฌ์บก์
๋์ ํตํด ์บก์
์ ์ ๋ณด๋ฅผ ๋์ฑ ํ๋ถํ๊ฒ ํจ์ผ๋ก์จ ์ฑ๋ฅ์ด ๋น์ฝ์ ์ผ๋ก ๊ฐ์ ๋๋ค๊ณ ๋ฐํ์ต๋๋ค.
|
|
|
์ถ์ฒ: LLaVA ๋ธ๋ก๊ทธ <LLaVA-NeXT: What Else Influences Visual Instruction Tuning Beyond Data?>
๋ํ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ์ ์ ํ๋ ๊ณผ์ ์์ CLIP-L, EVA ๋ฑ์ ๋ชจ๋ธ์ ๋น๊ตํ๋๋ฐ์. ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ํฌ๊ธฐ๊ฐ ํฌ๋ฉด ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๊ฒ์ด๋ผ๋ ์ผ๋ฐ์ ์ธ ๊ธฐ๋์๋ ๋ฌ๋ฆฌ ์คํ๋ ค ์ฌ์ ํ๋ จ๋ ๋ฐ์ดํฐ์ ์์ค์ ์ด๋ฏธ์ง ํ์(Resolution), ์๊ฐ์ ํ ํฐ(Visual Token) ์๊ฐ ๋์ฑ ์ฃผ์ํ ์ญํ ์ ํ๋ค๋ ์ธ์ฌ์ดํธ๋ฅผ ์ป์์ต๋๋ค.
|
|
|
๋ฉํฐ๋ชจ๋ฌ์ด ๊ธฐ๋ณธ์ด ๋ ์๋์ LLaVA๋ ์ ๋ง ๋ค์ํ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ค๊ตญ์ด ๊ธฐ๋ฅ์ ํฌํจํด ํน์ ๋๋ฉ์ธ์ ํนํ๋ ๋ชจ๋ธ๋ก ๋ฐ์ ํ๊ณ ์๋๋ฐ์. ์คํ ์์ค๋ก ๊ณต๊ฐ๋ ๋งํผ LLaVA๋ฅผ ํตํ ๋ฉํฐ๋ชจ๋ฌ์ ๋ฐ์ ์ด ๊ธฐ๋๋ฉ๋๋ค. ๐
|
|
|
: Apple์ด 10์ผ๋ถํฐ 14์ผ๊น์ง ๋ฏธ๊ตญ ์บ๋ฆฌํฌ๋์์ฃผ ์ฟ ํผํฐ๋
ธ์์ ์ฐ๋ก ๊ฐ๋ฐ์ ํ์(WWDC)๋ฅผ ๊ฐ์ตํฉ๋๋ค. ์ด๋ฒ ํ์ฌ์์ ๊ฐ์ฅ ์ฃผ๋ชฉํ ๋งํ ๋ถ๋ถ์ โ์ ํ ์ธํ
๋ฆฌ์ ์ค'๋ผ๋ ์๋ก์ด ์ธ๊ณต์ง๋ฅ(AI) ๊ธฐ๋ฅ์
๋๋ค. ์ฌํ๋ฆฌ ๋ธ๋ผ์ฐ์ ์ ์น ํ์ด์ง ์์ฝ, ์ด๋ฉ์ผ ๋ฐ ๋ฉ์์ง์ ๋ํ ๋ต๋ณ ์ ์ ๋ฑ์ด ๊ฐ๋ฅํด์ง๋๋ค.
์ค๊ตญํ Sora์ ์๋ก์ด ๊ฒฝ์์, ํด๋ง
: ์ต๊ทผ ์ค๊ตญ์ ๋น๋์ค ํ๋ซํผ ํ์ฌ ์ฝฐ์ด์ผ์ฐ๊ฐ ๊ฐ๋ฐํ 'ํด๋ง(Kling)' AI ๋ชจ๋ธ์ด ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๋จ์ผ ํ๋กฌํํธ๋ก ์ต๋ 2๋ถ ๊ธธ์ด์ 1080p, ์ด๋น 30ํ๋ ์์ ๋น๋์ค๋ฅผ ์์ฑํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ณด์ ํ๊ณ ์์ผ๋ฉฐ, ์ค์ ๋ฌผ๋ฆฌํ์ ์ ํํ๊ฒ ์๋ฎฌ๋ ์ด์
ํ๋ ๊ธฐ๋ฅ์ ๊ฐ์ถ๊ณ ์๋ค๊ณ ํฉ๋๋ค. ๋ํ, ๋ค์ํ ์ข
ํก๋น์ ์ท ์ ํ์ ์ง์ํฉ๋๋ค.
AI ๋ํ ๋
ผ๋ฌธ์ผ๋ก ๊ณจ๋จธ๋ฆฌ ์๋ ํ๊ณ
: ํ๊ณ๋ AI์ ์๋ชป๋ ์ฌ์ฉ์ผ๋ก ์ธํด ๋
ผ๋ฌธ ์ฒ ํ๊ฐ ๊ธ์ฆํ๊ณ ์๋ค๊ณ ๋ณด๊ณ ์์ต๋๋ค. 2022๋
์๋ 5380๊ฑด์ ๋
ผ๋ฌธ์ด ์ฒ ํ๋์์ผ๋ฉฐ, 2023๋
์๋ 1๋ง ๊ฑด ์ด์์ด ์ฒ ํ๋์์ต๋๋ค. ๋ค์ด์ฒ์ ์ฌ์ด์ธ์ค ๊ฐ์ ์ ๋ช
ํ ๊ณผํ ์ ๋์ AI๋ฅผ ์ฐ๊ตฌ์ ์ฌ์ฉํ ๋ ์ด๋ฅผ ๋ช
์ํ๋ ์ ์ฑ
์ ๊ฐ์กฐํ๊ณ ์์ต๋๋ค.
|
|
|
The Data-centric AI company
์ธ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์,
AI ๋ผ์ดํ์ฌ์ดํด์ ํจ๊ปํ๋ ์ฌ์ธ์ ๋ฐ์ดํฐ ํ๋ซํผ
์
|
|
|
๐ ์ฌ์
๋ฐ ์ ํด ๋ฌธ์ contact@selectstar.ai
๐จ ์ฝํ
์ธ ๋ฐ ํ์ฌ ๋ฌธ์ marketing@selectstar.ai
|
|
|
|
|