DALL-E 3 / Synthetic data / Alpaca / Stanford 2023๋
10์ 4์ฃผ์ฐจ ์
๋ ํธ์คํ ๋ด์ค๋ ํฐ |
|
|
๊ธ: ๊ถํ์ฃผ ใ
ฃ ๊ฒ์: ์ ์ธ์ |
|
|
๐ฐ '๋ฌ๋ฆฌ 3'์๋, '์ํ์นด'์๋ ํฉ์ฑ ๋ฐ์ดํฐ |
|
|
๋ณด๋ฆ๋ฌ ์๋ ๋ถ์ ์ด๋ ๋์ ๊ฑฐ๋ฆฌ. ๋ณดํ๋ก๋ ๋ฌธํ๋ฅผ ์ฆ๊ธฐ๋ ๋ณดํ์๋ค๋ก ๋ถ์ ์
๋๋ค. ๋ฌ๋ฆฌ 3.
ํฉ์ฑ ๋ฐ์ดํฐ๋ ์ค์ ๋ฐ์ดํฐ์
์ ํต๊ณ ํจํด์ ๋ชจ๋ฐฉํ์ฌ ์ธ๊ณต์ ์ผ๋ก ๋ง๋ค์ด์ง ๋ฐ์ดํฐ๋ฅผ ๋ปํฉ๋๋ค. ์ธ๊ณต์ง๋ฅ์๊ฒ ํ์ต์ํฌ ์ค์ธ๊ณ(real-world) ๋ฐ์ดํฐ๋ฅผ ๊ตฌํ๊ธฐ ์ด๋ ค์ธ ๋, ์๋ฃ ๋ฐ ๊ฐ์ธ ์ ๋ณด์ฒ๋ผ ์ ๊ทผ์ด ์ ํ๋๊ฑฐ๋ ์ฌ๊ณ ํ์ฅ์ฒ๋ผ ๊ทน๋๋ก ์ฌ๋ก๊ฐ ์ ์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ ๋ ํฉ์ฑ ๋ฐ์ดํฐ ๊ธฐ์ ์ ํ์ฉ๋๊ณค ํฉ๋๋ค.
์ต๊ทผ ํฉ์ฑ ๋ฐ์ดํฐ๋ ๋น์ ๊ณผ ์ธ์ด ๋ฑ ๋ชจ๋ธ ์ ํ์ ๋ง๋ก ํ๊ณ ๋๋ฆฌ ์ฐ์ด๊ณ ์์ต๋๋ค. ๋ผ๋ฒจ๋ง ๋จ๊ฐ๋ฅผ ๊ณ ๋ คํ๋ฉด ๋น์ฉ ์ธก๋ฉด์์ ์ ๋ ดํ ๋๊ฐ ๋ง๊ณ , ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ์ผ์ ์์ค ์ด์ ํ๋ณดํ๋ ๋ฑ ํ์ง ์ธก๋ฉด์์๋ ๊ฒฝ์๋ ฅ ์๊ธฐ ๋๋ฌธ์
๋๋ค.
์ต๊ทผ ๊ณต๊ฐ๋ ๋ฌ๋ฆฌ3 ๋
ผ๋ฌธ โImproving Image Generation with Better Captionsโ์์๋ ํฉ์ฑ ๋ฐ์ดํฐ ๊ธฐ์ ์ ๊ฐ์กฐ๋๊ณ ์์ต๋๋ค. ์ด๋ฒ ๋ ํฐ์์๋ ํฉ์ฑ ๋ฐ์ดํฐ ํ์ฉ ์ฌ๋ก์ ๋ถ์์ฉ์ ๋ํด ์ดํด ๋ณด๊ฒ ์ต๋๋ค.
|
|
|
ํ์ตํ ์ด๋ฏธ์ง์ ๋ํ ์ค๋ช
์ AI๋ก ์์ฑ |
|
|
์ธํฐ๋ท์์ ์คํฌ๋ํํ ์ด๋ฏธ์ง์ ์งง์ ํฉ์ฑ ์บก์
(SSC), ์์ ์ ์ธ ํฉ์ฑ ์บก์
(DSC)์ ์
'๋ฌ๋ฆฌ 3'์ ์ฌ์ฉ์ ํ๋กฌํํธ์ ๋ฐ๋ผ ๋ฉ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํด ์ฃผ๋ ์ต์ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์
๋๋ค. '๋ฌ๋ฆฌ 3' ํ์ต์ ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ์ด๋ป๊ฒ ํ์ฉ๋๋์ง ์๊ฐํ๊ธฐ ์ํด ๋จผ์ ํ์ต ๋ฐฉ๋ฒ์ ๊ฐ๋ตํ ์ง์ด ๋ณด๊ฒ ์ต๋๋ค.
'๋ฌ๋ฆฌ 3'์ ์ฌ์ ํ์ต ๋จ๊ณ์์ ์ด๋ฏธ์ง์ ํด๋น ์ด๋ฏธ์ง๋ฅผ ์ค๋ช
ํ๋ ์บก์
์ด ์ง์ง์ด์ง ๋ฐ์ดํฐ๋ฅผ ํต์งธ๋ก ํ์ตํฉ๋๋ค. ์๋ง์ ์ด๋ฏธ์ง์ ๊ทธ ํด์ค์ ๋ฏธ๋ฆฌ ํ์ตํ๊ธฐ์, ํ์ต์ ๋ง์น ๋ค์๋ ์ฌ์ฉ์๊ฐ ์
๋ ฅํ ํ๋กฌํํธ์ ์ด์ธ๋ฆฌ๋ ์ ์ ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํด ๋ผ ์ ์๊ฒ ๋ฉ๋๋ค.
ํ์ง๋ง ์ด โ์บก์
โ์ ์ค์ํ ์ ๋ณด๊ฐ ๋๋ฝ๋ ์ ์์ต๋๋ค. ์ฐ๊ตฌ์๋ค์ ๋ฐ๋ฅด๋ฉด ์ด๋ฏธ์ง ์์ ๊ธ์ ์ ๋ณด๋, ๋ฌผ์ฒด์ ์์๊ณผ ํฌ๊ธฐ์ ๊ฐ์ ์ธ๋ถ ์ ๋ณด๋ค์ด ์ฃผ๋ก ๋๋ฝ๋๋ค๊ณ ํฉ๋๋ค. ๊ทธ๋์ ์ฐ๊ตฌ์๋ค์ ํ์ต์ ์ํด ์ ์ ํ ์บก์
์ ๋ณ๋๋ก ์์ฑํ๊ธฐ๋ก ํ์ต๋๋ค.
๋ง์ถคํ ์ด๋ฏธ์ง ์บก์
์์ฑ๊ธฐ(bespoke image captioner)๋ฅผ ํ์ต์ํค๊ณ , ์ด๋ฅผ ํตํด ํ์ต ๋ฐ์ดํฐ์
์ ์บก์
์ ๋ค์ ์์ฑํ๋ ๋ฐฉ์์
๋๋ค. ์ต์ข
์ ์ผ๋ก '๋ฌ๋ฆฌ 3'์ 95%์ ํฉ์ฑ ์บก์
๊ณผ 5%์ ์ค์ ์บก์
์ ํผํฉํ์ฌ ํ๋ จ๋์์ผ๋ฉฐ, ์ด์ ๋ชจ๋ธ์ธ DALL-E 2๋ณด๋ค ๋ง์ ๊ฐ์ ์ ๋ณด์์ต๋๋ค.
|
|
|
ํฉ์ฑ ์บก์
๊ณผ ์ค์ ์บก์
ํ์ต ๋น์จ์ ๋ฐ๋ฅธ ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ต(CLIP Score)
์ฐ๊ตฌ์ง์ ๋ฐ๋ฅด๋ฉด ํฉ์ฑ ์บก์
๋น์จ์ด ๋์์ง์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ํฅ์๋๋ค.
"...์ฐ๋ฆฌ๋ ์ด ๋ฌธ์ ๊ฐ ํ๋ จ ๋ฐ์ดํฐ์
์ ์ก์์ด ๋ง๊ณ ๋ถ์ ํํ ์ด๋ฏธ์ง ์บก์
์์ ๋น๋กฏ๋์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ง์ถคํ ์ด๋ฏธ์ง ์บก์
๋๋ฅผ ํ๋ จ์์ผ ํ๋ จ ๋ฐ์ดํฐ์
์ ์ฌ์บก์
ํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฅผ ํด๊ฒฐํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ฌ๋ฌ ํ
์คํธ-์ด๋ฏธ์ง ๋ชจ๋ธ์ ํ๋ จ์ํค๊ณ , ์ด๋ฌํ ํฉ์ฑ ์บก์
์ผ๋ก ํ๋ จํ๋ฉด ํ๋กฌํํธ๋ฅผ ๋ฐ๋ฅด๋ ๋ฅ๋ ฅ์ด ์ ๋ขฐ์ฑ ์๊ฒ ํฅ์๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํฉ๋๋ค."
"We hypothesize that this issue stems from noisy and inaccurate image captions in the training dataset. We address this by training a bespoke image captioner and use it to recaption the training dataset. We then train several text-to-image models and find that training on these synthetic captions reliably improves prompt following ability". Improving Image Generation with Better Captions. OpenAI. |
|
|
์ํ์นด ์ฌ๋ก์ ํฉ์ฑ ๋ฐ์ดํฐ ๋ถ์์ฉ |
|
|
์ํ์นด ๋ชจ๋ธ ํ์ต ๊ฐ์. ๋งํฌ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๋ถ์ผ์์๋ ํฉ์ฑ ๋ฐ์ดํฐ๋ ํ๋ฐํ ํ์ฉ๋๊ณ ์์ต๋๋ค. ๋ํ์ ์ผ๋ก๋ ์ง๋ 3์ ์คํ ํฌ๋ ๋ํ์์ ๋ฉํ์ ์คํ ์์ค ๋ชจ๋ธ โ๋ผ๋ง 2โ๋ฅผ ํ์ธ ํ๋ํ ์ํ์นด ์ฌ๋ก์
๋๋ค.
์ํ์นด ๋ชจ๋ธ์ ์คํ ์์ค ๋ชจ๋ธ '๋ผ๋ง 2'๋ฅผ GPT 3.5(text-davinci-003)๊ฐ ๋ง๋ 52,000๊ฐ์ ์์ ๋ฅผ ํ์ฉํด์ ํ์ธ ํ๋ํ ๋ชจ๋ธ์
๋๋ค. ์ํ์นด ๋ชจ๋ธ์ 70์ต ๊ฐ์ ๋น๊ต์ ์ ์ ํ๋ผ๋ฏธํฐ๋ก๋ GPT 3.5์ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์ฐ๊ตฌ์ง์ ๋ฐ์ดํฐ ์์ฑ์ ์ํ GPT API ๋น์ฉ์ด 500๋ฌ๋ฌ ์ดํ์๋ค๊ณ ๋ฐํ์ต๋๋ค.
|
|
|
์์ฑ ๋ชจ๋ธ ์ถ๋ ฅ๋ฌผ์ ํ์ต์ ํ์ฉํ ์ ์๊ธฐ๋ ์๊ธฐ์๋น(Self-Consuming) ๋ฃจํ.
์๋ฃ. Self-Consuming Generative Models Go MAD
ํํธ ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ๊ฐ๊ด๋ฐ๊ธฐ ์์ํ๋ฉด์ ๊ทธ ๋ฌธ์ ์ ์ ๋ํ ์ฐ๊ตฌ๋ ํ๋ฐํ ์งํ๋๊ณ ์์ต๋๋ค. ์ฌ๋ฌ ์ฐ๊ตฌ์์๋ ์ธ๊ณต์ง๋ฅ์ด ์ถฉ๋ถํ ์ค์ ๋ฐ์ดํฐ ์์ด, ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ง๋์น๊ฒ ํ์ตํ๋ค๋ฉด ์ ์ ์ฑ๋ฅ์ด ๋ฎ์์ง๊ณ ์ด์ํด์ง๋ค๊ณ ์ง์ ํฉ๋๋ค.
โ์์ฑ์ ๋ชจ๋ธ์ด ์์ฑ์ ๋ชจ๋ธ๋ก๋ถํฐ์ ํฉ์ฑ ๋ฐ์ดํฐ์ ํ๋ จ๋๊ณ ์์ต๋๋คโ โ์ด๋ ์ง์๋๋ ์๊ธฐ์๋น์ ๋ฃจํ๋ฅผ ๋ง๋ค๊ณ , ๊ฐ ๋ฃจํ ๋จ๊ณ์์ ์ถฉ๋ถํ ์ ์ ํ ์ค์ ๋ฐ์ดํฐ๊ฐ ์์ผ๋ฉด ๋ฏธ๋์ ์์ฑ ๋ชจ๋ธ์ ์ ํ๋๋ ๊ฐ์ํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ด ์ํ๋ฅผ Model Autophagy Disorder (MAD, ๋ชจ๋ธ ์๊ธฐ ์๋น ์ฅ์ )๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ, ์ด๋ ๊ด์ฐ๋ณ์ ๋น์ ํ๊ณ ์์ต๋๋ค.โ
์ด์ฒ๋ผ ์ธ๊ณต์ง๋ฅ์ด ์ง๋์น๊ฒ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ๋ง์ด ํ์ตํ์ ๋ ์๊ธฐ๋ ๋ฌธ์ ๋ฅผ ๊ด์ฐ๋ณ์ ๋น์ ํ๊ธฐ๋ ํ๊ณ , โํฉ์ค๋ถ๋ฅดํฌ ์ธ๊ณต์ง๋ฅโ์ด๋ผ๊ณ ์นญํ๊ธฐ๋ ํฉ๋๋ค. ์
๋ ํธ์คํ์์๋ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๋ ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ ์ฌ๋ ๋ถ์, ์ธ๊ฐ ๋ผ๋ฒจ๋ฌ์ ์ํ ์ ์ ๊ฒ์ ๋ฑ์ ๊ผผ๊ผผํ! ๊ฑฐ์น๊ณ ์๋ค๋ ์ ๋ง์ ๋๋ฆฌ๋ฉฐ ๋ ํฐ ๋ง์นฉ๋๋ค ๐
|
|
|
10์ 4์ฃผ AI ๋ด์ค ํด๋ฆฌํ |
|
|
โAI๋ฅผ ํ์ฉํ KM ํ์ โ ์๋น์ค ๊ฐ์. ์ฌ์ง. LG CNS ํ๋ณด์ผํฐ.
LG CNS, ์์ฑํ AI๋ก ์ฌ๋ด ์ ์ฉํ ๋ฐ์ดํฐ ์ฆ์ ์ ๊ณต l ์ง๋๋ท์ฝ๋ฆฌ์
LG CNS๊ฐ ์์ฑํ ์ธ๊ณต์ง๋ฅ(AI)์ผ๋ก ๊ธฐ์
๋ด๋ถ์ ์ ์ฉํ ์ง์๊ณผ ๋ฐ์ดํฐ๋ฅผ ์ฐพ๋ โAI๋ฅผ ํ์ฉํ ์ง์๊ด๋ฆฌ(KM) ํ์ (Assetization with AI)โ ์๋น์ค๋ฅผ ๊ฐ์ํ๋ค. (...) ๊ธฐ์
๋ด๋ถ ๋ฐ์ดํฐ ๋ถ์์ ์ํด ์์ฒด ๊ธฐ์ โ์ค์ผ์คํธ๋ ์ดํฐโ๋ฅผ ์ฌ์ฉํ๋ค. โ์ค์ผ์คํธ๋ ์ดํฐโ๋ ์์ง์ ์ง์์ ๋ํ ๋ต๋ณ๊ณผ ์ ์ฌ๋๊ฐ ๋์ ํฑ5 ์๋ฃ, ํ์ด์ง ๋ฑ์ ์ฐพ์๋ด ์ฑGPT์ ์ ๊ณตํ๋ค.
"์ ํ, ๋ถ๋ด๋ถ๋ด ์์ฑํ AI ์ ํ ๊ฐ๋ฐ"โฆ๋ด๋
์ ์๋ฆฌ ๋ฑ์ ํ์ฌ l ์ฐํฉ๋ด์ค
์ ํ์ด ์ด๋ฅด๋ฉด ๋ด๋
์ ์ฑGPT์ ๊ฐ์ ์์ฑํ AI๋ฅผ ์์ฒด ์ ํ์ ํ์ฌํ ์์ ์ด๋ผ๊ณ ๋ธ๋ฃธ๋ฒ๊ทธ ํต์ ์ด ๋ณด๋ํ๋ค. (...) ์ ํ๋ ์๋
๊ฐ ์ฐ๊ตฌ๋ฅผ ํตํด '์์ด์ญ์ค'(Ajax)๋ผ๋ ์์ฒด ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ฐ๊ณ ์์ผ๋ฉฐ, '์ ํ GPT'๋ผ๋ ์ฑ๋ด ์๋น์ค๋ฅผ ๊ตฌ์ถํ ๊ฒ์ผ๋ก ์๋ ค์ก๋ค.
โ์์ดํฐ๋ ํตํ๋
น์ ๊ฐ๋ฅโ SKT AI ํตํ์์ฝ ์๋น์ค ์ ๊ณต ใ
ฃ ๋งค์ผ๊ฒฝ์
SKํ
๋ ์ฝค์ AI ๊ฐ์ธ๋น์ ์๋น์ค ์์ด๋ท์ ์์ดํฐ ์ฑ โA. ์ ํโ๋ฅผ ํตํด ํตํ ๋
น์๊ณผ ํตํ ์์ฝ ๋ฑ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ค๊ณ ๋ฐํ๋ค. (...) โA. ์ ํโ๋ฅผ ํตํด AI๊ฐ ํตํ ๋ด์ฉ์ ๋งฅ๋ฝ์ ๋ถ์ํ๊ณ ํตํ ์ ํ์ ๋ถ๋ฅํ๊ณ ์์ฝ ๋ด์ฉ์ ์ ๊ณตํ๋ค.
|
|
|
11์ 'AI ๋
ธ๋ค์ง' ํ์ฌ ์๋ด ๋ฐ ์ฐธ์ฌ ๊ธฐ์
๋ชจ์ง |
|
|
#1. 11์ AI ๋
ธ๋ค์ง ์คํ๋ผ์ธ ํ์ฌ ์ด์ฒญ
์
๋ ํธ์คํ์ ์์ธ๊ฒฝ์ ์งํฅ์(SBA)์ด ํจ๊ปํ๋ 'AI ๋
ธ๋ค์ง'์ ์ด์ฒญํฉ๋๋ค.
11์ ์ฃผ์ ๋ <์์ฑ AI ์คํฐ๋ X ๋คํธ์ํน>์ผ๋ก ์
๋ ํธ์คํ ํฉ๋ฏผ์ ๋ถ๋ํ, ๋ง์ดํฌ๋ก์ํํธ ๊ธฐ์ ์ ๋ต๋งค๋์ ๊นํ์ ๋์ด ์ฐ์ฌ๋ก ํจ๊ปํฉ๋๋ค. |
|
|
#2. AI ๋
ธ๋ค์ง ๋งค์นญ๋ถ์ค ์ฐธ์ฌ ๊ธฐ์
๋ชจ์ง
11์ AI ๋
ธ๋ค์ง ํ์ฅ์์ ํจ๊ป ๊ณต๊ฐ์ ๊พธ๋ฏธ๊ณ ๋คํธ์ํน์ ์งํํ ๋งค์นญ๋ถ์ค ์ด์ ๊ธฐ์
์ ๋ชจ์งํฉ๋๋ค.
SNS ๊ด๊ณ ๋
ธ์ถ, ํ์ฅ ํ๋ณด, ํ๋ ฅ ์บ ํ์ธ ๋ฑ ์
๋ ํธ์คํ์ ์ปค๋ฎค๋ํฐ ํํธ๋์ญ์ ๋งบ์ด๊ฐ์ธ์. |
|
|
The Data for Smarter AI
์ธ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์, ์
๋ ํธ์คํ๋
AI ๋ผ์ดํ์ฌ์ดํด์ ํจ๊ปํ๋ ์ฌ์ธ์ ๋ฐ์ดํฐ ํ๋ซํผ์
๋๋ค.
|
|
|
๐ ์ฌ์
๋ฐ ์ ํด ๋ฌธ์ contact@selectstar.ai
๐จ ์ฝํ
์ธ ๋ฐ ํ์ฌ ๋ฌธ์ marketing@selectstar.ai
|
|
|
|
|