๐ผ 2D ์ด๋ฏธ์ง๋ก 3D๋ฅผ ์ถ์ ํ๋ค 2024๋
1์ 4์ฃผ์ฐจ ์
๋ ํธ์คํ ๋ด์ค๋ ํฐ |
|
|
๊ธ: ์ด์ฑ๋ฐฐ, ๋ฅ๋ค์ด๋ธ(deep daiv.) ์ ํด ์ฝํ
์ธ ใ
ฃ ์๋ํฐ: ์ ์ธ์ |
|
|
๐ฐ ๊ฐ์ฅ ์ฌ์ธํ ๊น์ด ์ถ์ ๋ชจ๋ธ, Marigold |
|
|
2022๋
Text-to-Image ๋ชจ๋ธ์ด ๊ณต๊ฐ๋๋ฉด์ ์์ฑํ AI์ ๋์คํ๊ฐ ๋ณธ๊ฒฉ์ ์ผ๋ก ์ด๋ค์ก์ต๋๋ค. ๋น์ ๋ฏธ๋์ ๋, DALL-E ๋ฑ ๋ค์ํ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๋ค์ด ๋ฑ์ฅํด ๊ธฐ๋๊ฐ์ ํค์ ๋๋ฐ์. ๊พธ์คํ ์ฑ๋ฅ์ ๊ฐ์ ํ ๋๋ถ์ ์ด๋ฏธ์ง๋ฅผ ๋์ด ์์, 3D ๋ฑ์ ์์ฑ ๋ชจ๋ธ๋ค๋ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ์ต๋๋ค.
์ค๋ ์๊ฐํ Marigold๋ ์์ฑ ๋ชจ๋ธ ์ค ํ๋์ธ Stable Diffusion์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฒด์ ๊น์ด ์ถ์ (Depth Estimation) ๋ถ์ผ์์ SOTA(State-of-the-art)๋ฅผ ๋ฌ์ฑํ ๋ชจ๋ธ์
๋๋ค. ๊น์ด ์ถ์ ์ 2์ฐจ์ ์ด๋ฏธ์ง๋ก๋ถํฐ 3์ฐจ์ ๊ณต๊ฐ์ ๊น์ด ์ ๋ณด๋ฅผ ํ์
ํ๋ ๋น์ ๊ธฐ์ ์
๋๋ค. ์์ฑ ๋ชจ๋ธ์ธ Stable Diffusion์ ๊น์ด ์ถ์ ๋ถ์ผ์ ์ด๋ป๊ฒ ์ ๋ชฉ์์ผฐ์๊น์? ๐ง
|
|
|
Depth Estimation : ๊น์ด ์ถ์ |
|
|
์ฌ๋์ด ๋ ๋์ผ๋ก ๊ฐ๊ฐ ๋ฐ์๋ค์ด๋ ์ ๋ณด์๋ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ด ์ฐจ์ด๋ฅผ ๋๊ฐ ํด์ํ์ฌ ๊น์ด(depth) ์ ๋ณด๋ฅผ ์ถ์ ํฉ๋๋ค. ์ปดํจํฐ ๋น์ ๋ ์ด์ ์ ์ฌํ๋ฐ์. ๋ ๊ฐ ์ด์์ ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํด์ ๊ฐ์ ์ฅ๋ฉด์ ์๋ก ๋ค๋ฅธ ์์ ์์ ์ดฌ์ํ ๋ค์, ๋ ์ด๋ฏธ์ง๋ฅผ ๋น๊ต ๋ถ์ํ์ฌ ๊น์ด๋ฅผ ์ถ์ ํฉ๋๋ค. ์ด๋ฅผ Binocular Depth Estimation์ด๋ผ๊ณ ํฉ๋๋ค.
์ฌ๋์ด ํ ์ชฝ ๋์ ๊ฐ๊ณ ๋ ์ด๋ ์ ๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ถ์ ํ ์ ์๋ ๊ฒ์ฒ๋ผ, ์ปดํจํฐ๋ ๋ง์ฐฌ๊ฐ์ง์
๋๋ค. 2D ์ด๋ฏธ์ง ํ ์ฅ์ผ๋ก ๊ฑฐ๋ฆฌ๋ฅผ ์ถ์ ํ๋ฉด Monocular Depth Estimation์ด๋ผ๊ณ ํฉ๋๋ค.
|
|
|
Stable Diffusion์ ํ์ฉํ Marigold์ ์๋ฆฌ์ ๊ตฌ์กฐ |
|
|
์ถ์ฒ: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation (Ke et al., 2023)
์๋
12์ ๊ณต๊ฐ๋ ๋
ผ๋ฌธ <Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation>์ ์๋ ์ง๋ฌธ์์ ์์ํ์ต๋๋ค.
โ์ด๋ฏธ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ด ์ธํฐ๋ท์ ์
๋ก๋๋ ๋ค์ํ ๋๋ฉ์ธ์ ๊ณ ํ๋ฆฌํฐ ์ด๋ฏธ์ง๋ค์ ํ์ตํ๋๋ฐ, ์ด๋ฅผ ๊น์ด ์ถ์ ์ ํ์ฉํ ์ ์์ง ์์๊น?โ
Marigold ๊ธฐ์ ์ Monocular Depth Estimation์
๋๋ค. ์ด๋ฅผ ์ํด์๋ ๋ง์ ์ ๋ณด๊ฐ ์ถ์ ๋์ด์ผ ํ๋๋ฐ์. ์ด๋ฏธ์ง ์ ๊ฐ์ฒด์ ๋ํ ๊ฒฝํ์ ์ธ ์ ๋ณด์ ๋๋ถ์ด ๊ฐ์ฒด ๊ฐ์ ๋ถํ , ๊ทธ๋ฆฌ๊ณ ๋ฐฐ๊ฒฝ๊ณผ์ ๋ถ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค. ๋ํ ์๊ฐ์ ํฌ๊ธฐ์ ๋ฐ๋ผ ์๋์ ๊น์ด๊ฐ์ ๋ํ๋ด์ผ ํฉ๋๋ค. ๊ทธ๋์ Marigold๋ Stable Diffusion ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ทธ๋๋ก ๋น๋ ค์ต๋๋ค. ์์ฑ ๋ชจ๋ธ์ด ๊น์ด๋ฅผ ๊ฐ๋ ํ ์ ์๋๋ก ํ์ธํ๋ ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
|
|
|
ํ์ธํ๋ ๊ตฌ์กฐ. ์ถ์ฒ: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation (Ke et al., 2023) |
|
|
ํ์ธํ๋ ๊ตฌ์กฐ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ๋ฏธ๋ฆฌ ํ๋ จ๋ Stable Diffusion์ ์์์ ์ผ๋ก, Stable Diffusion VAE*๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง x์ depth(๊น์ด) d๋ฅผ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. ์ฆ, ์ด๋ฏธ์ง์์ ์ค์ํ ํน์ง์ ์ถ์ถํ์ฌ ์ ์ฐจ์์ ๋ฐ์ดํฐ๋ก ๋ณํํ์ฃ . ๊ทธ ํ ๊น์ด ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ค diffusion ๋ชจ๋ธ ์ต์ ํ๋ฅผ ํตํด U-Net**์ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค. U-Net์ด ์ด๊ธฐ๋ถํฐ ์ด๋ฏธ์ง์ ๊น์ด ์ ๋ณด๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ๋ฉด ์๊ด๊ด๊ณ์ ๋ํ ์ดํด๋ ฅ์ด ์๊ฒจ ๋์ฑ ์ ๋ฐํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ ์ ์๋๋ฐ์. ์ด๋ฅผ ์ํด U-Net์ ์ฒซ๋ฒ์งธ ๊ณ์ธต์ด ๋ ์ ๋ณด๊ฐ ๊ฒฐํฉ๋ ์ ์ฌ ์ฝ๋๋ฅผ ์ ๋ฐ์๋ค์ผ ์ ์๋๋ก ์์ ํด ๋ก๋๋ค.
*VAE: ๋ณ์ดํ ์คํ ์ธ์ฝ๋(Variational Autoencoder)๋ ์คํ ์ธ์ฝ๋์ ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ๋ง๋ค์ด์ง ์ธ๊ณต์ ๊ฒฝ๋ง์ด๋ค. (๋ค์ด๋ฒ ์ง์๋ฐฑ๊ณผ)
**U-Net: ์ปดํจํฐ ๋น์ ๋ถ์ผ, ํนํ ์๋ฃ ์ด๋ฏธ์ง ๋ถํ ์ ํจ๊ณผ์ ์ธ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ก, ๋น๊ต์ ์ ์ ๋ฐ์ดํฐ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. (์ฑGPT + ๋ค์ด๋ฒ ์ฌ์ )
์ด๋ ํ์ต ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ํฉ์ฑ ๋ฐ์ดํฐ(Synthetic Data)๋ฅผ ํ์ฉํฉ๋๋ค. ์ค์ ๊น์ด ๊ฐ์ ๊ฐ์ง ๋ฐ์ดํฐ์
์ด ์๋๋ผ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ด์ ๋ ๋ฌผ๋ฆฌ์ ์ธ ์ ์ฝ์ผ๋ก ์คํ๋ ค ์ค์ ๋ฐ์ดํฐ์ ์ ํฉ์ฑ์ด ๋จ์ด์ง๊ธฐ ๋๋ฌธ์
๋๋ค. |
|
|
์ถ์ฒ: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation (Ke et al., 2023)
๋ค์์ ์ถ๋ก ๊ตฌ์กฐ์
๋๋ค. ์ข ์ ์ ์ดํด๋ณธ ํ์ธํ๋ ๊ณผ์ ๊ณผ ๋์ผํ๊ฒ ์์ํ๋๋ฐ์. ๊ฒฐํฉํ ์ด๋ฏธ์ง์ ๊น์ด ์ ๋ณด๋ฅผ ๋ฏธ์ธ ์กฐ์ ํด๋ U-Net์ ํตํด ์ฒ๋ฆฌํฉ๋๋ค. ๊ฒฐ๊ณผ๋ฌผ์ ๋ค์ ์ด๋ฏธ์ง๋ก ๋ณํํ๋ฉด ๋์ฑ ์ ๋ฐํ ๊น์ด ์ ๋ณด๋ฅผ ์ถ๋ก ํ ์ ์๊ฒ ๋์ด ๊ณ ํ์ง์ Depth Map์ด ์์ฑ๋ฉ๋๋ค. ๊ฒฐ๊ณผ๋ฌผ์ ํ ๋ฒ ๋ณผ๊น์? |
|
|
์ถ์ฒ: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation (Ke et al., 2023) |
|
|
์ถ๋ก ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, Marigold๋ ๋ค๋ฅธ ๋ฐฉ์์ ๋นํด ์ฌ์ธํ ๊น์ด ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค. ๊ฒ์ ํ์ดํ๋ก ํ์ํ ๊ณณ์ ์ง์คํ๋ฉด ์ฐจ์ด๊ฐ ๋๋๋ฌ์ง๋๋ฐ์. ํนํ๋ ETH3D ์ด๋ฏธ์ง ์ ํ
์ด๋ธ ์ถ๊ตฌ๋๋ Scannet ์ด๋ฏธ์ง ์ ์์ ๋ฑ๋ ๋ถ๋ถ์ ์ดํด๋ณด๋ฉด Marigold์ ์ฐ์์ฑ์ด ๋๋๋ฌ์ง๋๋ค. ๊ฒ๋ค๊ฐ Marigold๋ ํ๋ฒ๋ ๋ณธ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ, ์ฆ ์ ๋ก์ท(Zero-shot) ์ฑ๋ฅ๋ ๋ฐ์ด๋๋ค๊ณ ํ๋ ๊ดํ SOTA ๋ชจ๋ธ์ด ์๋ ๊ฒ ๊ฐ์ต๋๋ค. |
|
|
: Meta CEO ๋งํฌ ์ฃผ์ปค๋ฒ๊ทธ๊ฐ AGI๋ฅผ ์ํ ๊ธฐ์ ์ ๊ฐ๋ฐํด ๋๊ฐ๊ฒ ๋ค๊ณ ๊ณตํํ์ต๋๋ค. ์ฌ๋ช
์ โMetaโ์ผ๋ก ๋ณ๊ฒฝํ๋ฉด์ โ๋ฉํ๋ฒ์คโ ๊ธฐ์ ๊ฐ๋ฐ์ ์ง์คํ๊ณ ์ ํ๋ ๋งํผ, ์ด๋ฒ ์ ์ธ์ ์กฐ๊ธ ๋ ๋ณธ๊ฒฉ์ ์ผ๋ก AI ๊ฐ๋ฐ์ ์ฐฉ์ํ๊ฒ ๋ค๋ ๋์ ์ผ๋ก ๋ค๋ฆฝ๋๋ค.
์ผ์ฑ, ๊ฐคS24์ ์ด๊ฑฐ๋AI ์ด๋ป๊ฒ ๋ฃ์๋โฆ"4๋นํธ ์์ถ์ด ๊ธฐ์ ๋ ฅ"
: ์ง๋ 17์ผ, ์ผ์ฑ์ ์์์ ๊ฐค๋ญ์ S24๋ฅผ ์ถ์ํ์ต๋๋ค. ์ผ์ฑ์ ์๋ ์ธํฐ๋ท ๋คํธ์ํฌ๊ฐ ์ฐ๊ฒฐ๋์ด ์์ง ์์ ์ํฉ์์๋ ์ค๋งํธํฐ์ ์ฑ๋ฅ๋ง์ผ๋ก AI ๊ธฐ์ ์ ํ์ฉํ ์ ์๋๋ก ๋ชจ๋ธ์ ๊ฒฝ๋ํํ๋๋ฐ์. ์จ๋๋ฐ์ด์ค AIโ ๊ธฐ์ ์ ์์ธ์ ์ ๊ทน์ ์ผ๋ก ํ๋ณด์ ๋์ฐ๋ ๋งํผ ๊ทธ ๊ธฐ์ ๋ ฅ์ ๋ํ ๊ธฐ๋๊ฐ์ด ๋์ต๋๋ค.
๊ธ์ฃผ ๋ฐฉํ ์คํAI ์ ์ฌํธ๋จผ ์ผ์ฑ๊ณผ ๋ฐ๋์ฒด ํ์
๊ฐ๋ฅ์ฑ
: ์ง๋ํด ์ฌ๋ฆ ์ฐ๋ฆฌ๋๋ผ๋ฅผ ๋ฐฉ๋ฌธํ OpenAI์ CEO ์ ์ฌํธ๋จผ์ด 7๊ฐ์๋ง์ ๋ค์ ๋ฐฉ๋ฌธํ ์ง๋ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ๋ฐฉ๋ฌธ์ ๋ชฉ์ ์ AI ๋ฐ๋์ฒด ๊ฐ๋ฐ๊ณผ ๊ด๋ จํด ๊ตญ๋ด ๊ธฐ์
๋ค๊ณผ ์ด์ผ๊ธฐ ๋๋๊ธฐ ์ํ ๊ฒ์ผ๋ก ์ถ์ธกํ๊ณ ์์ต๋๋ค. ์ต๊ทผ OpenAI๊ฐ AI ๋ฐ๋์ฒด ๊ฐ๋ฐ์ ์ํด ๊ณต์ฅ ๋ถ์ง ๋ฌผ์ ๋ฐ ์๊ธ ์กฐ๋ฌ์ ์ด์ด๋๊ฐ๊ณ ์๊ธฐ ๋๋ฌธ์
๋๋ค.
|
|
|
# 2024 3์ 'AI ๋
ธ๋ค์ง' ์ฐ์ฌ ๋ชจ์ง
AI ๋
ธ๋ค์ง๋ ์ธ๊ณต์ง๋ฅ ์
๊ณ ์คํ๋ผ์ธ ๋คํธ์ํน ํ์ฌ์
๋๋ค.
3์, ๋ชธ๋ด๊ณ ๊ณ์ ๋ถ์ผ์์ AI ์ฌ์
ํ์ฉ์ ์ฃผ์ ๋ก ์งง์ ๊ฒฝํ๋ด์ ๋ค๋ ค์ฃผ์ธ์.
๋ค์ํ ์ปค๋ฎค๋ํฐ ํ๋ก๊ทธ๋จ๊ณผ ๋คํธ์ํน, ํ๋ณด ๊ธฐํ๊ฐ ์ค๋น๋ผ ์์ต๋๋ค. โจ |
|
|
The Data for Smarter AI
์ธ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์, ์
๋ ํธ์คํ๋
AI ๋ผ์ดํ์ฌ์ดํด์ ํจ๊ปํ๋ ์ฌ์ธ์ ๋ฐ์ดํฐ ํ๋ซํผ์
๋๋ค.
|
|
|
๐ ์ฌ์
๋ฐ ์ ํด ๋ฌธ์ contact@selectstar.ai
๐จ ์ฝํ
์ธ ๋ฐ ํ์ฌ ๋ฌธ์ marketing@selectstar.ai
|
|
|
|
|