๊ตฌ๊ธ ๋ฅ๋ง์ธ๋ / ํธ๋์คํฌ๋จธ / ๋ก๋ด / ๋ฉํฐ๋ชจ๋ฌ 2023๋
8์ 1์ฃผ์ฐจ ์
๋ ํธ์คํ ๋ด์ค๋ ํฐ |
|
|
๊ธ: ๊ถํ์ฃผ ใ
ฃ ๊ฒ์: ์ ์ธ์ |
|
|
๊ตฌ๊ธ ๋ฅ๋ง์ธ๋ RT-2, ๋ก๋ด ํธ๋์คํฌ๋จธ |
|
|
์ฌ์ ํ๋ จ๋ VLM(์๊ฐ์ ์ธ์ด ๋ชจ๋ธ)์ RT-1 ๋ก๋ด ๋ฐ์ดํฐ์์ ํ์ตํ์ฌ ๋ก๋ด์ ์ ์ดํ ์ ์๋ VLA(์๊ฐ์ ์ธ์ด ํ๋) ๋ชจ๋ธ์ธ RT-2๊ฐ ๋ฉ๋๋ค. ์ฌ์ง. ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋.
์ง๋ ๊ธ์์ผ ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋์์ ์๋ก์ด ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ โ RT-2โ๋ฅผ ๋ฐํํ์ต๋๋ค.
Robotics Transformer. RT-2๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ VLA(Vision-Language-Action) ๋ชจ๋ธ๋ก ์๋
12์ ๊ณต๊ฐ๋ RT-1๋ฅผ ๊ฐ์ ํ ๋ชจ๋ธ์
๋๋ค. ์ด์ฒ๋ผ ๋น์ ๊ณผ ์ธ์ด์ ํ๋์ ๋ชจ๋ ๋ค๋ฃจ๋ ์ธ๊ณต์ง๋ฅ์ ๋ก๋ด ์ํํธ์จ์ด์ ์ ์ฉ๋ฉ๋๋ค.
์ค์ธ๊ณ์์ ํ๋ํ๋ฉฐ ๋ค์ํ ์ํฉ์ ๋ง์ฃผํ๊ฒ ๋ ๋ก๋ด์ ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด์ ํ๊ฒฝ์ ๋ํด์๋ ์ค์ํ ์ฑ๋ฅ์ ๋ด์ผ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ํ๋์ค ๊ตญ๊ธฐ์ ๋
์ผ ๊ตญ๊ธฐ ์๊น์๋ฅผ ๊ตฌ๋ถํ ์ค ์๊ณ , ํ
์ด๋ธ์์ ๋จ์ด์ง๋ ๋ฌผ์ฒด๋ฅผ ์๋ณํ๊ณ ์ก์ ์ ์์ด์ผ ํฉ๋๋ค.
ํ์ง๋ง ์ด์ฒ๋ผ ๋ฒ์ฉ ์ง์์ ํ์ฉํ ์ธ์๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ก๋ด ์ธ๊ณต์ง๋ฅ์ ๊ตฌํํ๊ธฐ๋ ์ด๋ ค์ ์ต๋๋ค. ๊ตฌ๊ธ์ ๋ฐ๋ฅด๋ฉด ์ฒซ์งธ๋ก ๋ก๋ด ํ๋ ๋ฐ์ดํฐ ์๋ฐฑ๋ง ๊ฑด์ ์ผ์ผ์ด ์์งํ๋ ๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ๊ฐ ์์์ผ๋ฉฐ, ๋ ๋ฒ์งธ๋ก๋ ์ด๋ ต๊ฒ ์์งํ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋๋ผ๋, ์ด๋ฅผ ์ผ๋ฐ์ ์ด๊ณ ํ์ฅ๊ฐ๋ฅํ ์ค์๊ฐ ์ถ๋ก ์ ์ ์ฉํ ์ ์๋ ๋ชจ๋ธ์ ๋ถ์กฑํ๋ค๋ ๊ฒ์
๋๋ค.
ํน์ ์์
์ ๋ํ ๋ผ๋ฒจ ๋ฐ์ดํฐ๋ฅผ ๋ณ๋๋ก ํ์ตํ์ง ์์ ์ฑ, ๋ฒ์ฉ ์์
์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฑด ๋ฐฉ๋ํ ์น ๋ฐ์ดํฐ(Internet-Scale)๋ฅผ ์ฌ์ ํ์ตํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์์ ํํ ์ฐพ์๋ณผ ์ ์๋ ํน์ฑ์ธ๋ฐ์, ์ด๋ฒ ๋ ํฐ์์๋ ์ฐ๊ตฌ์๋ค์ด ์ด๋ป๊ฒ ์น ๋ฐ์ดํฐ์ ๋ก๋ณดํฑ์ค ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , ํ์ตํ ์ง์์ ๋ก๋ด ์ปจํธ๋กค์ ํ์ฉํ๋์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
|
|
|
๋ก๋ด ํ๋๊ณผ ๋น์ -์ธ์ด ๋ฐ์ดํฐ๋ก Co-Fine-Tune |
|
|
์ฌ์ ๊ต์ก๋ VLM ๋ชจ๋ธ์ ๊ณต๋ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค.
๊ฒฐ๊ณผ ๋ชจ๋ธ์ ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ ธ์ ๋ก๋ด์ด ์ํํ ์์
์ ์ง์ ์์ธกํฉ๋๋ค.
์ฐ๊ตฌ์๋ค์ ์ต๊ณ ์์ค(SOTA) ๋น์ -์ธ์ด ๋ชจ๋ธ์ ๋ก๋ด ํ๋ ๋ฐ์ดํฐ์ ์๊ฐ-์ธ์ด ๋ฐ์ดํฐ์ ๋ํด ๊ณต๋์ผ๋ก ํ์ธ ํ๋ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
RT-2์ ๊ธฐ๋ฐ์ด ๋๋ ์๊ฐ-์ธ์ด ๋ฐฑ๋ณธ(backbone) ๋ชจ๋ธ์๋ ๊ตฌ๊ธ์ ๋ฉํฐ๋ชจ๋ฌ ์ธ์ด ๋ชจ๋ธ PaLM-E์ 100๊ฐ ์ด์ ์ธ์ด๋ฅผ ์ง์ํ๋ PaLI-X๊ฐ ํ์ฉ๋์ผ๋ฉฐ, ๋ก๋ด ํ๋ ๋ฐ์ดํฐ๋ก๋ ์ฌ๋ฌด์ค ๋ฐ ์ฃผ๋ฐฉ ํ๊ฒฝ์์ ์์งํ RT-1 ๋ก๋ด ๋ฐ๋ชจ ๋ฐ์ดํฐ๊ฐ ์ฌ์ฉ๋์ต๋๋ค. ์ด๋ฏธ์ง ์๋จ์ ์ ์๋ ์ธ ๊ฐ์ง ๋ฌธ๋ต์ด ๊ทธ ์์์
๋๋ค.
|
|
|
Internet-Scale VQA - Robot Action Data
Q1. ์์ด: ๋ฌด์จ ์ํฉ์ธ๊ฐ์? (ํ์ ๋น๋๊ท๊ฐ ๊ธธ์ ๊ฑท๊ณ ์์ด์)
Q2. ํ๋์ค์ด: ์ด ๋ฌผ๊ฑด๋ค๋ก ๋ฌด์์ ํ ์ ์์๊น์? (์ผ์ดํฌ๋ฅผ ๊ตฌ์ธ ์ ์์ด์)
Q3. ๋ก๋ด์ด ํด์ผ ํ ์ผ์ ๋ฌด์์
๋๊น? (ฮ Translation [ 0.1, 0.2, 0 ] , ฮ Rotation [ 10ยฐ, 25ยฐ, -7ยฐ ] ) |
|
|
์ด๋ฏธ์ง ์ ์ํฉ์ ํ์
ํ ์ ์๊ฒ ๊ตฌ์ฑ๋ ๋๊ท๋ชจ VQA(Visual Question Answering) ๋ฐ์ดํฐ์ ๋ก๋ด ํ๋ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ตํ๋, ๊ธฐ๋ณธ์ ์ธ ์ถ๋ก ์ ์ฌ์ฉํ์ฌ ์ฌ์ฉ์ ๋ช
๋ น์ ์๋ตํ๋ ๋ฅ๋ ฅ์ด ์๊ฒผ์ต๋๋ค.
์ ๋ฆฌํ๋ฉด ์น์ค์ผ์ผ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จ๋ VLM(์๊ฐ์ ์ธ์ด ๋ชจ๋ธ)์ด RT-1 ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ๋ก๋ด์ ์ ์ดํ ์ ์๋ VLA(Visual Language Action) ๋ชจ๋ธ์ธ RT-2๊ฐ ๋๋ค๋ ์ค๋ช
์
๋๋ค.
"A visual-language model (VLM) pre-trained on web-scale data is learning from RT-1 robotics data to become RT-2, a visual-language-action (VLA) model that can control a robot." |
|
|
8๊ฐ ์ ์๋ก ํํ๋๋ ๋ก๋ด ํ๋ |
|
|
RT-2 ๊ต์ก์ ์ฌ์ฉ๋๋ ๋์ ๋ฌธ์์ด์ ํํ. ์ฌ์ง. ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋.
๊ทธ๋ ๋ค๋ฉด ๋ก๋ด ๋์ ๋ฐ์ดํฐ๋ ์ด๋ป๊ฒ ๋ํ ๋น์ ์ธ์ด ๋ชจ๋ธ๊ณผ ํธํ๋ ๊น์? ์ฐ๊ตฌ์๋ค์ ๋ก๋ด ๋์์ ๋ชจ๋ธ ์ถ๋ ฅ์์ ํ
์คํธ ํ ํฐ์ผ๋ก ๋ณํํ๋๋ฐ, ์ด ํ ํฐ๋ค์ ์ธ์ด ํ ํฐ๊ณผ ๋์ผํ ๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค.
์๋ฅผ ๋ค์ด ๋ก๋ด ํ๋์ "1 128 91 241 5 101 127 217"๊ณผ ๊ฐ์ด 1๋ถํฐ 256๊น์ง์ ์ ์ 8๊ฐ๋ก ํํ๋ ์ ์์ต๋๋ค. ์์ ๋ถ๋ถ์ ํ์ฌ ์ํผ์๋๋ฅผ ์ข
๋ฃํ ์ง ์ง์ํ ์ง ๋ํ๋ด๋ ํ๋๊ทธ ๋ถ๋ถ์ด๋ฉฐ, ์ค๊ฐ์ ๋ก๋ด์ ์์น(Positional change)์ ๋ฐฉํฅ(Rotational change) ์ ๋ณด๋ฅผ ๋ํ๋ด๋ ๋ถ๋ถ, ๋ง์ง๋ง ๋ถ๋ถ์ ๋ก๋ด ๊ทธ๋ฆฌํผ์ ํ์ฅ ์์ค์ ๋ํ๋
๋๋ค.
|
|
|
RT-2 ์ํคํ
์ฒ ๊ฐ์
์ต์ข
๊ฒฐ๊ณผ ๋ชจ๋ธ์ ๋ก๋ด ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ ธ์ ๋ก๋ด์ด ์ํํ ๋์์ ์ง์ ์์ธกํ ์ ์๋๋ฐ์, ๋ง๋ถ์ฌ ๋ฅ๋ง์ธ๋๋ โ์ถ๋ก ์ค์ ํ
์คํธ ํ ํฐ์ด ๋ก๋ด ํ๋์ผ๋ก ํํ ํฐํ๋์ด ํ์ ๋ฃจํ ์ ์ด๊ฐ ๊ฐ๋ฅํ๋คโ๊ณ ์ค๋ช
ํ์ต๋๋ค.
"During inference, the text tokens are de-tokenized into robot actions, enabling closed loop control"
์ด๋ ํ์ต๊ณผ ์ถ๋ก ์ ์ํด ์์ฑ๋ ํ
์คํธ ํ ํฐ(๋ก๋ด์ด ์ดํดํ๊ณ ์คํํ ์ ์๋ ๋ช
๋ น์ด)์ ์ถ๋ก ์ค์ ์ค์ ๋ก๋ด ํ๋์ผ๋ก ๋ณํ(ํํ ํฐํ)ํ ์ ์๋ค๋ ๋ป์
๋๋ค.
ํ์ ๋ฃจํ ์ ์ด๋ ๋ก๋ด์ด ์์ ์ ํ๋์ ๊ณ์ํด์ ๋ชจ๋ํฐ๋งํ๊ณ ์กฐ์ ํจ์ผ๋ก์จ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ ์ค ํ๋์
๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๋ก๋ด์ ๋ฐฑ๋ณธ ๋ชจ๋ธ์ด ์ด๋ฏธ ๊ฐ์ง๊ณ ์๋ ์ง์์ ํ์ฉํ์ฌ ์์ ์ ์ ์ด ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค. ๋ค์์ผ๋ก RT-2๊ฐ ๋์ ์์ฐ์ด ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ป๊ฒ ๋ ๋๋ํด์ง ์ ์๋์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
|
|
|
CoT, Chain of Thought๋ฅผ ์ ์ฉํ ๋ก๋ด |
|
|
Chain of Thought๋ฅผ ์ฌ์ฉํ RT-2์ ๋กค์์.
์ฌ๊ธฐ์ RT-2๋ ๊ณํ(Plan)๊ณผ ํ๋(Action)์ ๋ชจ๋ ์์ฑํฉ๋๋ค.
์ฐ๊ตฌ์๋ค์ RT-2์ ๋๊ท๋ชจ ์ธ์ด ์์ฑ ๋ชจ๋ธ์ ํ์ฉ๋๋ Chain-of-Thought prompting ๋ฐฉ๋ฒ์ ์ ์ฉํด ๋ณด๊ธฐ๋ ํ์ต๋๋ค. CoT Chain-of-Thought๋ ๋ณธ ์ง๋ฌธ์ ์์, ์์ ๋ฅผ ํตํด ์์
๊ณผ ์๊ฐ์ ์ถ๋ก ๋จ๊ณ๋ฅผ ์์ฑ ๋ชจ๋ธ์ ์๋ ค์ฃผ์ด ๋ต๋ณ ์ ํ๋์ ํ์ง์ ๋์ด๋ ๋ฐฉ๋ฒ์
๋๋ค.
์ฐ๊ตฌ์๋ค์ ๋ฐ์ดํฐ ํ์์ โPlanโ ๋จ๊ณ๋ฅผ ์ถ๊ฐํด, ๋ก๋ด์ ํ๋ ๋ชฉ์ ์ ๋จผ์ ์์ฐ์ด๋ก ์ค๋ช
ํ๊ณ , ์ด์ด์ ์ค์ ํ๋ ํ ํฐ์ ์ ์ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ชจ๋ธ์ ์
๋ ฅํ ์ง์(๋๋ ๋ฐฐ๊ณ ํ)์ ํ๋(1 128 124 136 121 158 111 255)์ฌ์ด์ ๊ณํ ์ ๋ณด(์ด์ฝ๋ฆฟ ๋ฐ๋ฅผ ์ง์ด๋ผ)๋ฅผ ์ถ๊ฐํด ์ธ๊ณผ ๊ด๊ณ๋ฅผ ๋ช
ํํ ํ์ต๋๋ค.
Chain-of-Thought๋ฅผ ์ ์ ํ ํ์ฉํ๋ฉด ๋์ฑ ๊ณ ์ฐจ์์ ์ธ ์ถ๋ก ๊ณผ ํ๋๋ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ์ ๋ง๋ฉ๋๋ค. RT-2๋ฅผ ์๊ฐํ๋ ๋ฌธ์ ์ด๋ก์์๋ โํผ๊ณคํ ์ฌ๋์๊ฒ๋ ์๋์ง ๋๋งํฌ๋ฅผ ๊ถํด๋ผโ โ์ฃผ๋ณ์ ๋ง์น๊ฐ ์์ผ๋ฉด ๋์ ํ ๋ฒ ์จ ๋ด๋ผโ ๋ฑ์ ํ๋์ ์์๋ก ๋ค์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก RT-2๊ฐ ์ ์ฉ๋ ๋ก๋ด์ด ์ง์์ ๋ฐ๋ผ ํ๋ ๋ธ๋ก์ ์ฎ๊ธฐ๋ ์์์ ์๊ฐํ๋ฉฐ ๋ ํฐ ๋ง์นฉ๋๋ค :)
|
|
|
8์ 1์ฃผ AI ๋ด์ค ํด๋ฆฌํ |
|
|
#1. Anthropic, Google, Microsoft ๊ทธ๋ฆฌ๊ณ OpenAI๊ฐ Frontier Model Forum์ ์กฐ์งํ์ต๋๋ค. ๋งํฌ
ํฌ๋ผ์ AI ๋ชจ๋ธ์ ์์ ํ๊ณ ์ฑ
์ ์๋ ๊ฐ๋ฐ์ ๋ชฉํ๋ก ํ๋ฉฐ, ๊ธฐ์ ํ๊ฐ ๋ฐ ๋ฒค์น๋งํฌ๋ฅผ ๋ฐ์ ์ํค๋ ๋ฑ ์ ์ฒด AI ์ํ๊ณ์ ํํ์ ์ค ๊ฒ์
๋๋ค.
|
|
|
#2. ChatGPT ์๋๋ก์ด๋ ์ฑ ์ถ์ ๋งํฌ
ChaGPT์ ๊ณต์ ์ฑ ์๋๋ก์ด๋ ๋ฒ์ ์ด ์ถ์๋์ต๋๋ค. ๊ธฐ๊ธฐ ๊ฐ ๊ธฐ๋ก์ ๋๊ธฐํํ๊ณ OpenAI์ ์ต์ ๋ชจ๋ธ ๊ฐ์ ์ฌํญ์ ์ ๊ณตํฉ๋๋ค.
|
|
|
#3. ๊ตฌ๊ธ, ๋ฐ๋ ํตํฉ '์๋๋ก์ด๋ 14' 8์ ์ถ์ ๋งํฌ
ChaGPT์ ๊ณต์ ์ฑ ์๋๋ก์ด๋ ๋ฒ์ ์ด ์ถ์๋๋ค๋ AI ํ์์ฆ ๊ธฐ์ฌ์
๋๋ค. ์๋๋ก์ด๋ ๋ฒ์ ์ ๊ธฐ๊ธฐ ๊ฐ ๊ธฐ๋ก์ ๋๊ธฐํํ๊ณ , ์ต์ ๋ชจ๋ธ ๊ฐ์ ์ฌํญ์ ์ ๊ณตํฉ๋๋ค.
|
|
|
#์ด๊ฑฐ๋ AI, ์
๋ ํธ์คํ๊ฐ ํจ๊ปํฉ๋๋ค.
์
๋ ํธ์คํ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์กฐ์ ํ์ธ์.
๋ณด์ ํ ๋ฐ์ดํฐ๋ฅผ ๊ณ ํ์ง AI ํ์ต ๋ฐ์ดํฐ๋ก,
๋ชฉ์ ๊ธฐ๋ฅ์ ์ต์ ํ๋ ์์ฑ ๋ชจ๋ธ์ ๊ตฌํํฉ๋๋ค.
๋ฐ์ดํฐ ๊ธฐํ ์์ง ๊ฐ๊ณต ์ ๋ณ ๋ถ์๊น์ง. 1์ต 5์ฒ๋ง ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ ์
๋ ํธ์คํ๊ฐ ํจ๊ปํฉ๋๋ค. |
|
|
The Data for Smarter AI
์ธ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์, ์
๋ ํธ์คํ๋
AI ๋ผ์ดํ์ฌ์ดํด์ ํจ๊ปํ๋ ์ฌ์ธ์ ๋ฐ์ดํฐ ํ๋ซํผ์
๋๋ค.
|
|
|
๐ ์ฌ์
๋ฐ ์ ํด ๋ฌธ์ contact@selectstar.ai
๐จ ์ฝํ
์ธ ๋ฐ ํ์ฌ ๋ฌธ์ marketing@selectstar.ai
|
|
|
|
|