๐ ์คํAI๊ฐ ์ด ์๋ก์ด ์ญ์ฌ, Sora 2024๋
2์ 4์ฃผ์ฐจ ์
๋ ํธ์คํ ๋ด์ค๋ ํฐ |
|
|
๊ธ: ์ด์ฑ๋ฐฐ, ๋ฅ๋ค์ด๋ธ(deep daiv.) ์ ํด ์ฝํ
์ธ ใ
ฃ ์๋ํฐ: ์ ์ธ์ |
|
|
๐ ์คํAI๊ฐ ์ด ์๋ก์ด ์ญ์ฌ, Sora |
|
|
์ง๋ 15์ผ, OpenAI๊ฐ ๋ ํ ๋ฒ ์ธ์์ ๋ ๋ค์ฉํ๊ฒ ๋ง๋ค์์ต๋๋ค. ์์ฐ์ด๋ก ์ด๋ฏธ์ง๋ฅผ ๋์ด ์์์ ์์ฑํ๋ ๋ชจ๋ธ Sora๋ฅผ ๊ณต๊ฐํ๋๋ฐ์. ๋ชจ๋ธ์ ๊ณต๊ฐํ ์ง ์ผ์ฃผ์ผ๋ ์ฑ ์ง๋์ง ์์์ง๋ง, ๋ฒ์จ ๋ง์ ์ฐ๊ตฌ์์ ๊ธฐ์
์ธ์ด Sora๋ฅผ ์ธ๊ธํ๋ฉฐ ๊ธฐ๋๊ฐ์ ๋ํ๋ด๊ณ ์์ต๋๋ค.
ํ
์คํธ๋ฅผ ์์์ผ๋ก ๋ง๋๋ Text-to-Video ๋ชจ๋ธ์ ์ด๋ฒ์ด ์ฒ์์ด ์๋๋๋ค. ํ์ง๋ง Sora์ ์์ ํ์ง, ์ฐ์ถ ๋ค์์ฑ, ๊ทธ๋ฆฌ๊ณ ์์ ํฉ์ฑ ๊ธฐ์ ์ ํ์ ์ถ์ข
์ ๋ถํํฉ๋๋ค. ๊ฐ์ด ๋ณด์ค๊น์?
|
|
|
Sora ์๊ฐ ์์. ์ถ์ฒ: OpenAI ์ ํ๋ธ
3๋ถ 44์ด์ ๋์ค๋ ๋งค๋จธ๋๋ ํผ๋ถ ์ฃผ๋ฆ๋ถํฐ ๊ฑธ์ ๋ ์น๋ ๋๋ณด๋ผ๊น์ง ํํ๋์๋๋ฐ์. ์ด๋ค ์๋ฆฌ๋ก ์ด๋ฐ ์์ค์ ์์์ ๋ง๋ค ์ ์๋ ๊ฑธ๊น์?
์ค๋์ OpenAI๊ฐ Sora์ ๋
ผ๋ฌธ ๋์ ๊ณต๊ฐํ ๊ธฐ์ ๋ณด๊ณ ์(Technical Report)๋ฅผ ํจ๊ป ์ดํด๋ณด๊ฒ ์ต๋๋ค.
|
|
|
Sora๊ฐ ์์์ ๋ง๋๋ ๋ฒ |
|
|
์ฌ๊ธฐ์๋ ๋ค์ํ ํ์ต ์์ด๋์ด๊ฐ ๋
น์์๋๋ฐ์. ํ๋์ฉ ์ดํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
1. ์์ ์์ถ(Video Compression)
Sora๋ ์์์ด ์
๋ ฅ๋๋ฉด ์ด๋ฅผ ์ ์ฌ ๊ณต๊ฐ(Latent Space)์ผ๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. Stable Diffusion์์ ๋ณด์ฌ์คฌ๋ ์์ด๋์ด์ ์ ์ฌํฉ๋๋ค. ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์ ๋ณด๋ฅผ ์์ถํ๊ฒ ๋๋ฉด ํ์ต ์๋๋ฅผ ํฌ๊ฒ ๊ฐ์ ํ ์ ์์ ๋ฟ๋ง ์๋๋ผ ์ฃผ์ ํน์ง์ ์ถ์ถํ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ์์ถ๋ ์ ๋ณด๋ ๋ง์ง๋ง ๋จ๊ณ์์ ๋์ฝ๋ฉ ๋์ด ๋ค์ ํฝ์
์์ค์ผ๋ก ๋ณต์๋ฉ๋๋ค. |
|
|
์ด๋ฏธ์ง ๋ฐ์ดํฐ ํจ์น ๋ถํ ๊ณผ์ . ์ถ์ฒ: <Video generation models as world simulators>, ์คํAI
2. ์๊ณต๊ฐ ํจ์น(Spacetime Patches) ๋ถํ
์ฐ๊ตฌ์ง์ Sora๋ฅผ ๊ฐ๋ฐํ๋ฉด์ LLM์ ์ฑ๊ณต์ผ๋ก๋ถํฐ ์์ด๋์ด๋ฅผ ์ฐฉ์ํ๋ค๊ณ ๋ฐํ์ต๋๋ค. LLM์ ํ์ตํ ๋ ์
๋ ฅ๊ฐ์ ์ฌ๋ฌ ํ ํฐ์ผ๋ก ๊ตฌ๋ถํ์ฌ ์ฝ๋๋ ์ํ ๊ณต์ ์์ฑ์ผ๋ก ํ์ฅํ ๊ฒ์ฒ๋ผ, ์ด๋ฏธ์ง์ ์ผ๋ถ๋ฅผ โํ ํฐโ์ฒ๋ผ ์ฌ๊ธฐ๊ณ ์ด๋ฅผ ๋น์ ๋ถ์ผ์ ์์ฑ์ผ๋ก ํ์ฅํ๊ณ ์ ํ ๊ฒ์
๋๋ค. ์ด๋ ๊ฒ ํ ํฐํ๋ ์ด๋ฏธ์ง๋ฅผ ํจ์น(Patch)๋ผ๊ณ ๋ถ๋ฆ
๋๋ค.
16 ร 16์ ์ด๋ฏธ์ง๋ฅผ ํ๋์ โ๋จ์ดโ๋ก ์ทจ๊ธํ๋ค๋ ์ ์์ ViT(Vision Transformer์ ์์ด๋์ด๊ฐ ์ ์ฌํ๋ฐ์. ๊ทธ๋์ ViT๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ค๋ง ์ด ์ ๋ณด๋ก ์์์ ์์ฑํ๋ ๊ฒ์ ๋ค๋ฅธ ์์ญ์
๋๋ค. ์ฌ๊ธฐ์ ์๋ก์ด ํ์ต ๊ตฌ์กฐ๊ฐ ๋ฐ์๋์ต๋๋ค.
3. Diffusion Transformer ๊ธฐ๋ฐ ์์ ์์ฑ
์์ถ๋ ์ ๋ณด๋ก๋ถํฐ ํจ์น๋ก ๋ถํ ๋ ์ ๋ณด๋ Diffusion Transformer์ ์
๋ ฅ๋ฉ๋๋ค. Diffusion Transformer๋ Diffusion ๋ชจ๋ธ๊ณผ Transformer ๋ชจ๋ธ์ ์ฅ์ ์ ๊ฒฐํฉํ ํ์ต ๋ฐฉ๋ฒ์ธ๋ฐ์. Diffusion์ ๊ณ ํ๋ฆฌํฐ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ณ , Transformer๋ ๋์ ํ์ฅ์ฑ์ ๊ฐ์ง๋๋ค. Sora๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ์ฐจ๋ณํ๋๋ ์ง์ ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค. |
|
|
Sora๊ฐ ๋
ธ์ด์ฆ์์ ์ ๋ช
ํ ์ด๋ฏธ์ง๋ฅผ ์ถ์ถํ๋ ๊ณผ์ . ์ถ์ฒ: <Video generation models as world simulators>, ์คํAI
์ผ๋ฐ์ ์ธ Diffusion ๋ชจ๋ธ์ ํ์ต ๊ตฌ์กฐ์ฒ๋ผ, Transformer๋ก ์ถ์ถ๋ ํจ์น์ ๋
ธ์ด์ฆ๋ฅผ ์ฃผ์
ํ๊ณ ์๋ณธ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ตฌ์กฐ๋ก ํ์ต์ ์งํํฉ๋๋ค. ์ด ๋ฐฉ์์ผ๋ก ์ค์ผ์ผ ํ์ฅ์ด ๊ฐ๋ฅํด์ ธ Sora๋ 1๋ถ ๊ฐ๊น์ด ๋๋ ์์์ ๊ณ ํ์ง๋ก ์์ฑํ ์ ์์ต๋๋ค. ๊ธฐ์กด์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ์งง์ ๊ธธ์ด์ ์์์ด๋ ๊ณ ์ ๋ ๋น์จ๋ฐ์ ์์ฑ์ด ๋ถ๊ฐ๋ฅํ๋ค๋ ์ ์ ์๊ฐํ๋ฉด ํ ๋จ๊ณ ๋ ๋์๊ฐ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
4. ํ์ต ๋ฐ์ดํฐ ์์ ์ฆ๊ฐ
ํ์ต ๊ตฌ์กฐ๋ฟ๋ง ์๋๋ผ ๋ฐ์ดํฐ์ ์๊ณผ ์ง๋ ๋ฌ๋ผ์ก์ต๋๋ค. ํ
์คํธ๋ก ์์์ ์์ฑํ๋ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด์๋ ์์์ ์ค๋ช
ํ๋ ํ
์คํธ์ธ ์บก์
(Caption)์ด ํ์ํฉ๋๋ค. ํ์ง๋ง ์ฌ์ฉ์๊ฐ AI์๊ฒ ์์ฒญํ๋ ํ
์คํธ์ ์ค์ ํ์ต ๋ฐ์ดํฐ์ธ ์บก์
์๋ ์ฐจ์ด๊ฐ ์์ ์ ์์ต๋๋ค.
์ฌ์ฉ์๋ ํ
์คํธ๋ฅผ โ๋ฌ์ฌํ๋ฏโ ์์ฑํ์ง๋ง, ์ผ๋ฐ์ ์ธ ๋ฐ์ดํฐ๋ ํฌ๊ด์ ์ธ ์ค๋ช
์ ๊ทธ์น๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์ด ๊ฐ๊ทน์ ๊ทน๋ณตํ๊ธฐ ์ํด์๋ ํ์ต ๋ฐ์ดํฐ์ ์บก์
์ ์ฌ์์ฑํด์ผ ํฉ๋๋ค.
์ด๋ฅผ ์ํด ์์์ ๋ด์ฉ์ ๋ฌ์ฌํ๋๋ก ์บก์
์ ์์ฑํ๋ ๋ชจ๋ธ์ ๋จผ์ ํ๋ จ์ํค๊ณ , ํด๋น ๋ชจ๋ธ์ ๋ค๋ฅธ ํ์ต ๋ฐ์ดํฐ์ ์ ์ฉํ์ฌ ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ ์ด๋ธ๋งํ์ต๋๋ค. ์ด๋ฅผ Re-Captioning์ด๋ผ๊ณ ํฉ๋๋ค. ๋ํ ์์ฑ๋ ํ
์คํธ๋ฅผ ๋ ์์ธํ๊ฒ ์์ฑํ๋๋ก ๋ง๋ค๊ธฐ ์ํด GPT๋ฅผ ํ์ฉํ์ต๋๋ค. ์ด ์ ๋ต์ ์คํAI๊ฐ text-to-image ๋ชจ๋ธ DALLยทE 3์ ํ์ฉํ ์ ๋ต๊ณผ ์ ์ฌํฉ๋๋ค. |
|
|
Sora์ ๋ฅ๋ ฅ์ ์ด๋๊น์ง์ผ๊น? |
|
|
Sora๋ ์ด๋ฏธ์ง์ ์ ๋๋ฉ์ด์
์ ๋ํด ์์์ฒ๋ผ ๋ง๋ค๊ฑฐ๋ ์
๋ ฅ๋ ์์์ ์๋ค๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. ๋ํ ์
๋ ฅ๋ ์์์ ์คํ์ผ์ ๋ฐ๊ฟ ์ ์๊ณ ์๋ก ๋ค๋ฅธ ๋ ๊ฐ์ ์์์ ๋งค๋๋ฝ๊ฒ ์ฐ๊ฒฐํ๊ธฐ๋ ํฉ๋๋ค. ์ด๋ ์์ ์ ๋ฌธ๊ฐ์๊ฒ๋ ์ฝ์ง ์์ ๊ธฐ์ ์
๋๋ค.
๋๋์ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ Sora๋ ์ฐฝ๋ฐ ๋ฅ๋ ฅ(Emergent Ability)์ ๋ณด์ด๊ธฐ๋ ํฉ๋๋ค. ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ฌ๋, ๋๋ฌผ, ์์ฐํ๊ฒฝ ๋ฑ์ ์๋ฎฌ๋ ์ด์
ํ๋ฏ์ด ๋ณด์ฌ์ค๋ค๋ ์๋ฏธ์ธ๋ฐ์. ์๋ง์ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ธ๊ฐ์ ์ธ์์ ํ์ตํ๋ ๊ฐ๋
์
๋๋ค. |
|
|
OpenAI ์ฐ๊ตฌ์ง์ ์คํจ ์ฌ๋ก๋ฅผ ๊ณต๊ฐํ๋ฉฐ ํ๊ณ์ ๋ํ ๋ณด์ฌ์ค๋๋ค. ์๋ ์ด๋ฏธ์ง๋ฅผ ๋ณด์๋ฉด ์ปต์ด ๊นจ์ ธ์ผ ๋ฌผ์ด ์๋ ๊ฒ์ด ์์ฐ์ค๋ฌ์ด๋ฐ, ๋ฌผ์ด ์ปต์ ํต๊ณผํ๋ฉฐ ์์์ง๋๋ค. |
|
|
Sora์ ํ์ฌ ํ๊ณ๋ฅผ ๋ณด์ฌ์ฃผ๋ ์์ ์บก์ณ. ์ถ์ฒ: <Video generation models as world simulators>, ์คํAI
๋ฌผ๋ฆฌ์ ํ์์ ๋ํ ์๋ฎฌ๋ ์ด์
์ OpenAI๊ฐ ํด๊ฒฐํด์ผ ํ ๋ค์ ๊ณผ์ ์ธ๋ฐ์. ์ง๊ธ์ Sora์ ํ๊ณ๊ฐ ์์ง๋ง, ๋ฐ์ ๊ฐ๋ฅ์ฑ์๋ ํ๊ณ๊ฐ ์์ด ๋ณด์
๋๋ค. |
|
|
: OpenAI๊ฐ Sora๋ฅผ ๋ด๋๋ ํํธ, Google์ Gemini 1.5๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. Gemini 1.5๋ฅผ ํตํด 30๋ฐฐ ๋น ๋ฅด๊ฒ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ ์ ์์ผ๋ฉด์, ํ ๋ฒ์ ์ฒ๋ฆฌํ ์ ์๋ ํ ํฐ ์๋ฅผ 100๋ง ๊ฐ๊น์ง ๋๋ฆฌ๊ณ , ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฅ๊น์ง ์ง์ํฉ๋๋ค. Google์ ์์ฐ ์์์ ๊ณต๊ฐํ๋ฉฐ ์ฌ๋์ ๋์๋ฅผ ์ดํดํ๊ณ ๊ทธ๋ฆผ์ ์์ฑํ๊ณ , ์์ฑ๋ ๊ทธ๋ฆผ์ ์ดํดํ์ฌ ๋ํ๊น์ง ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ ํ๋ AI ๊ฐ๋ฐ์ ๋์ ๋ค
: ์ผ์ฑ์ ์ด์ด ์ ํ๋ ์์ฑํ AI ๊ฐ๋ฐ์ ๋ณธ๊ฒฉํํ ๊ฒ์ผ๋ก ๋ณด์
๋๋ค. ์ง๋ํด๋ถํฐ LLM ๊ด๋ จ ๋
ผ๋ฌธ์ ์ ๋ณด์ด๋ฉด์ ์์ฑํ AI๋ฅผ ์ ํ ์ํ๊ณ ๋ด์ ์๋น์ค์ ๋์
ํ ์กฐ์ง์ ๋ณด์ฌ์๋๋ฐ์. ์ฌํด๋ถํฐ๋ ๋ณธ๊ฒฉ์ ์ผ๋ก LLM ๊ธฐ๋ฐ ์ด๋ฏธ์ง ํธ์ง ๋ชจ๋ธ, MS์ ์ฝํ์ผ๋ฟ๊ณผ ๊ฐ์ ์ฝ๋ ์์ฑ ๋ชจ๋ธ๋ ์์ฒด์ ์ผ๋ก ๊ฐ๋ฐํ์ฌ ํ
์คํธ ๋จ๊ณ์ ์ฐฉ์ํ ๊ฒ์ผ๋ก ๋ฐํ์ก์ต๋๋ค.
130์กฐ ์ ๊ท๋ชจ์ AI ๋ฐ๋์ฒด ํ๋ ์กฐ์ฑ, NVIDIA์ ๋
์ฃผ๋ฅผ ๋ง์ ์ ์์๊น?
: ์์ ์ ์ํํธ๋ฑ
ํฌ๊ทธ๋ฃน ํ์ฅ์ด AI ๋ฐ๋์ฒด ํ์ฌ๋ฅผ ํค์ฐ๊ธฐ ์ํด 130์กฐ ์ ๊ท๋ชจ์ ํ๋ ์กฐ์ฑ์ ๋์ฐ์ต๋๋ค. ํ์ฌ AI ๋ฐ๋์ฒด ์์ฅ์ ๋ํ ์์๋ ์ ์ฐจ ์ปค์ง๊ณ ์๋๋ฐ, ์ด ์์๋ฅผ ๊ฐ๋นํ ๊ธฐ์
์ด ๋ง๋
์น ์์ ์ํฉ์์ NVIDIA๊ฐ ๋
์ฃผํ๊ณ ์๋๋ฐ์. ์ํํธ๋ฑ
ํฌ๊ทธ๋ฃน๋ฟ๋ง ์๋๋ผ OpenAI, Google, Amazon ๋ฑ ๋ค๋ฅธ ๋น
ํ
ํฌ ๊ธฐ์
๋ํ AI ๋ฐ๋์ฒด ๊ฐ๋ฐ์ ํฌ์ํ๋ฉด์ ์์ผ๋ก ๊ฒฝ์์ ๋์ฑ ์น์ดํด์ง ๊ฒ์ผ๋ก ๋ณด์
๋๋ค.
|
|
|
์
๋ ํธ์คํ๋ NeurIPS, CVPR, EMNLP ๋ฑ ์ธ๊ณ์ ์ธ ํํ์์ ์ธ์ ํ ์ธ๊ณต์ง๋ฅ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ์ต๋๋ค. ๋ฐ์ดํฐ๊ฐ ํ์ํ์๋ค๋ฉด ์
๋ ํธ์คํ์ ํจ๊ปํ์ธ์! |
|
|
Data-centric AI company
์ธ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์, ์
๋ ํธ์คํ๋
AI ๋ผ์ดํ์ฌ์ดํด์ ํจ๊ปํ๋ ์ฌ์ธ์ ๋ฐ์ดํฐ ํ๋ซํผ์
๋๋ค.
|
|
|
๐ ์ฌ์
๋ฐ ์ ํด ๋ฌธ์ contact@selectstar.ai
๐จ ์ฝํ
์ธ ๋ฐ ํ์ฌ ๋ฌธ์ marketing@selectstar.ai
|
|
|
|
|