๐ซ์
๋ ํธ์คํ์ ์ข๋ ๊น์ TECH ์ด์ผ๊ธฐ ์์ฑ ๋ฐ ๊ฒ์: ์ ์ธ์ & ์ด์ผ๊ตฌ |
|
|
๐ G-EVAL: ์ฌ๋์ ๋ ๊ฐ๊น์ด NLG ํ๊ฐ |
|
|
์์ฐ์ด ์์ฑ(Natural Language Generation) ๋ถ์ผ์์ "์ข์ ํ
์คํธ"๋ฅผ ํ๊ฐํ๋ ์ผ์ ๋ ์ด๋ ต์ต๋๋ค. ์ธ๊ฐ์ ์ง๊ด๊ณผ ์ผ์นํ๋๋ก ํ
์คํธ์ ํ์ง์ ๊ฐ๋ ํ๋ ์์
์ ํนํ๋ ์ฐฝ์์ ์ด๊ฑฐ๋ ๊ฐ๋ฐฉํ์ธ ์์
์ผ์๋ก ๊น๋ค๋กญ์ง์. ๊ธฐ์กด์ ํ๊ฐ ์งํ์ธ BLEU๋ ROUGE๋ ์ฑ๋ฅ์ ์์นํํ๋ ๋ฐ ์ ์ฉํ์ง๋ง, ๋ํ๋ ์์ฝ๊ณผ ๊ฐ์ ์์
์์ ์๊ตฌ๋๋ ๋ค์์ฑ๊ณผ ์ฐฝ์์ฑ์ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
์๋
5์, G-EVAL์ GPT-4์ ๊ณ ๊ธ ์ธ์ด ์ดํด ๋ฅ๋ ฅ์ ๋ฐํ์ผ๋ก ์ธ๊ฐ์ ํ๊ฐ์ ๊ฐ๊น์ด ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๋ ํ์ ์ ํ๋ ์์ํฌ๋ก ๋ ์ฌ๋์ต๋๋ค. ์ด ์๋ก์ด ํจ๋ฌ๋ค์์ NLG ํ๊ฐ ๋ฐฉ์์ ์ด๋ป๊ฒ ๋ณํ์์ผฐ์๊น์?
|
|
|
G-EVAL์ ํต์ฌ: ๋ชฉ์ ๊ณผ ์ค์์ฑ |
|
|
G-Eval์ ํ๋กฌํํธ ์ฑ์ฐ๊ธฐ ๋ฐฉ์("form-filling")์ ํตํด ๋ชจ๋ธ์ด ์์ฑํ ํ
์คํธ๋ฅผ ํ๊ฐํ๋ ์๋ก์ด ๋ฐฉ์์ธ๋ฐ์. ์ด๋ฌํ ๋ฐฉ์์ LLM์ ์ด์ฉํ ํ๊ฐ(LLM-as-a-Judge) ๋ฐฉ๋ฒ ์ค์ ํ๋กฌํํธ๋ฅผ ์ด์ฉํ ํ๊ฐ ๋ฐฉ์์ผ๋ก ๋๋ฆฌ ์ฐ์ด๋ ๋ฐฉ๋ฒ์
๋๋ค. ํ๋กฌํํธ๋ฅผ ์ด์ฉํ ํ๊ฐ์์ ์ผ๋ฐ์ ์ผ๋ก ํ๋กฌํํธ๋ฅผ ๊ตฌ์ฑํ๋ ๋ค ๊ฐ์ง ์์๊ฐ ์๋๋ฐ์:
1. Task instruction 2. Evaluation criteria 3. Input contents 4. Evaluation methods
์ ํญ๋ชฉ์ผ๋ก ์ ์ฒด ํ๋กฌํํธ๋ฅผ ๊ตฌ์ฑํด ์ด๋ฅผ LLM์๊ฒ ๋๊ฒจ ์ฃผ์ด ํ๊ฐ๋ฅผ ์งํํ๋ ๋ฐฉ์์
๋๋ค.
G-Eval์ Task instruction๊ณผ Evaluation criteria๋ ์ฌ๋์ด ์ง์ ์์ฑํ๋๋ก ํ๊ณ , Evaluation methods๋ Chain-of-thought์ ์ด์ฉํ์ฌ ์๋ ์์ฑํ๋๋ก ํ์์ต๋๋ค. Evaluation methods๋ ์์
์ด ๋ณต์กํ๊ณ ํ๊ฐ ๊ธฐ์ค์ด ๋ค์ํ๋ฐ์. ์ฌ๋์ด ์ง์ ์ค๊ณํ๊ธฐ์๋ ์๊ฐ์ด ๋ง์ด ์์๋๊ธฐ ๋๋ฌธ์ CoT๋ฅผ ์ด์ฉํ์ฌ ๋น ๋ฅด๊ฒ ์์
์ ํ์์ต๋๋ค. ๊ทธ ํ์ ์ค์ ๋ก ๋ชจ๋ธ์ด ์์ฑํ text, ์ฆ Input contents๋ฅผ ๋ฃ์ด์ LLM์ด ์ต์ข
ํ๊ฐ๋ฅผ ํ๋ ๋ฐฉ์์ด์ง์. ์ด๋ฌํ ํ์ ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ G-EVAL์ ํ์กดํ๋ ํ๊ฐ ๋ฐฉ์ ์ค์์ ์ฌ๋๊ณผ ๊ฐ์ฅ ์ ์ผ์นํ๋ ํ๊ฐ ๋๊ตฌ๋ก ๋ง๋ค์ด์ฃผ์์ต๋๋ค. |
|
|
๋ฐฉ๋ฒ๋ก : G-EVAL์ ์ฃผ์ ๊ตฌ์ฑ ์์ |
|
|
G-Eval์ ์ ๋ฐ์ ์ธ ํ๋ ์์ํฌ. ์ถ์ฒ: (๋งํฌ)
|
|
|
G-EVAL ํ๋ ์์ํฌ๋ ์ธ ๊ฐ์ง ํต์ฌ ์์๋ก ๊ตฌ์ฑ๋๋๋ฐ์:
- ํ๋กฌํํธ ์ ์: ๊ฐ ํ๊ฐ ์์
์ ์ผ๊ด์ฑ์ด๋ ๊ด๋ จ์ฑ๊ณผ ๊ฐ์ ๊ธฐ์ค์ ๋ช
์ํ๋ ๋ช
ํํ ํ๋กฌํํธ์ ํจ๊ป ์์๋ฉ๋๋ค. Task instruction, Evaluation criteria๋ฅผ ์ง์ ์ ์ฑํฉ๋๋ค.
- ์ฐ์ ์ฌ๊ณ (CoT)๋ฅผ ํตํด Evaluation steps ๋ง๋ค๊ธฐ: ์์์ ์์ฑํ Task instruction, Evaluation criteria์ ๊ฐ์ง๊ณ CoT๋ฅผ ์งํํ์ฌ Evaluation steps๋ฅผ ๋ง๋ญ๋๋ค.
- ํ๋ฅ ๊ธฐ๋ฐ ์ ์ ์ฐ์ ํจ์: ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ G-EVAL์ ๊ฐ ํ๊ฐ ํญ๋ชฉ์ ํ๋ฅ ๊ฐ์ค์น๋ฅผ ์ ์ฉํด ๋ ๋ฏธ์ธํ ์ฐจ์ด๋ฅผ ๋ฐ์ํ ์ ์๋ฅผ ๋งค๊น๋๋ค. ์ด ๋ฐฉ์์ ์ธ๊ฐ ํ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๋์ด๊ณ , ์์ฑ๋ ํ
์คํธ๊ฐ์ ๋ฏธ๋ฌํ ์ฐจ์ด๋ฅผ ์ ๋ฐ์ํ ์ ์์ต๋๋ค.
|
|
|
๋ฒค์น๋งํฌ ํ
์คํธ: ์ฌ๋ฌ ์ธก๋ฉด์์์ ์ฑ๊ณผ |
|
|
G-EVAL์ SummEval, Topical-Chat, QAGS ์ธ ๊ฐ์ง ๋ฒค์น๋งํฌ์์ ์ฒ ์ ํ ํ
์คํธ๋์์ต๋๋ค. ํจ๊ป ์ดํด๋ณผ๊น์?
- ์์ฝ: SummEval ํ
์คํธ์์ G-EVAL์ ์ผ๊ด์ฑ, ์ ์ฐฝ์ฑ, ๊ด๋ จ์ฑ ์ธก๋ฉด์์ ์ธ๊ฐ ํ๊ฐ์ ๋์ ์๊ด์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ ๊ธฐ์กด ์งํ๋ฅผ ํฐ ์ฐจ์ด๋ก ๋ฐ์ด๋์์ต๋๋ค.
- ๋ํ ์์ฑ: ๋ํ์ ์ผ๊ด์ฑ๊ณผ ํฅ๋ฏธ ์์๋ฅผ ํ๊ฐํ๋ Topical-Chat ๋ฒค์น๋งํฌ์์๋ G-EVAL์ ์ธ๊ฐ์ ํ๊ฐ์ ๊ฐ์ฅ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค.
- ํ๊ฐ ๊ฐ์ง: ์์ฝ์ ์ผ๊ด์ฑ์ ํ๊ฐํ๋ QAGS ๋ฒค์น๋งํฌ์์ BERTScore๋ ROUGE์ ๊ฐ์ ๋ชจ๋ธ์ ๋ฐ์ด๋๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ํนํ ๋ณต์กํ ์ถ์์ ์์ฝ์์ ํ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋์ต๋๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ G-EVAL์ด ๋ค์ํ ์์
์์ ์ธ๊ฐ ํ๊ฐ์ ์ผ์นํ๋ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋๋ฉฐ, ๋จ์ผ ์ ์ ์ฐ์ถ์ด๋ ๋ค์ฐจ์์ ์ ์๋ ฅ์ด ๋ถ์กฑํ ๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ ํจ์ฌ ์ ๋ขฐํ ์ ์๋ ํ๊ฐ ๋๊ตฌ์์ ์
์ฆํฉ๋๋ค.
|
|
|
๊ธฐ์กด ํ๊ฐ ๋๊ตฌ์์ ๋น๊ต: G-EVAL์ ์ฐจ๋ณํ๋ ์์ |
|
|
G-EVAL์ ์๋ก์ด CoT ๋ฐฉ๋ฒ๋ก ์ ์ด์ ๋ชจ๋ธ๋ค๊ณผ๋ ์๋นํ ์ฐจ์ด๋ฅผ ๋ณด์
๋๋ค. GPTScore๋ BARTScore์ ๊ฐ์ ๊ธฐ์กด ๋ชจ๋ธ์ ๊ณ ์ ๋ ํ๊ฐ ๋ฐฉ์์ ๋ฐ๋ฅด์ง๋ง, G-EVAL์ ์ธ๋ถ์ ์ธ ํ๊ฐ ๊ตฌ์กฐ๋ฅผ ํตํด ๋ ๊น์ด ์๋ ๋ถ์์ ์ ๊ณตํฉ๋๋ค. G-EVAL์ ํ๋ฅ ๊ธฐ๋ฐ ์ ์ ์ฐ์ ์ UniEval๊ณผ ๊ฐ์ ์ด์ฐ์ ์ ์ ๋ชจ๋ธ์ ๋์ด ๋ ์ ๋ฐํ ํ๊ฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ํ๋กฌํํธ ์ฑ์ฐ๊ธฐ ๋ฐฉ์์ ํตํ ์ข
ํฉ์ ์ธ ์ ๊ทผ ๋ฐฉ์ ๋๋ถ์ G-EVAL์ ๋จ์ํ ์ ์ ๋ถ์ฌ๊ฐ ์๋๋ผ ์ธ๊ฐ๊ณผ ๊ฐ์ ๊ธฐ์ค์ผ๋ก ํ๊ฐํ ์ ์์ต๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ ๋ฐ ์ฐ๊ตฌ์ง์ ๊ฒฐ๋ก
- ๋ ๋์ ์ธ๊ฐ ์ผ์น๋: G-EVAL์ ์ฃผ์ ์ฑ๊ณผ๋ ์ธ๊ฐ ํ๊ฐ์์ ๋์ ์๊ด์ฑ์ผ๋ก, ํนํ ์ฃผ๊ด์ ์์
์์ ํ๋ฅญํ ๋๊ตฌ๋ก ํ๊ฐ๋ฉ๋๋ค.
- LLM ๊ธฐ๋ฐ ํ
์คํธ์ ๋ํ ํธํฅ ๊ฐ๋ฅ์ฑ: ์ฐ๊ตฌ์์๋ LLM ํ๊ฐ์๊ฐ ์ฌ๋์ ํ
์คํธ๋ณด๋ค ๊ธฐ๊ณ๊ฐ ์์ฑํ ํ
์คํธ๋ฅผ ์ ํธํ ์ ์๋ ์ ์ฌ์ ํธํฅ์ ์ง์ ํ๋๋ฐ์. ์ด๋ ํฅํ ํ๊ฐ ํ๋ ์์ํฌ๊ฐ ๊ธฐ๊ณ ์์ฑ ํ
์คํธ๋ณด๋ค ์ธ๊ฐ ํ
์คํธ๋ฅผ ์ ํธํ์ง ์๋๋ก ์ฃผ์ํด์ผ ํ๋ ์ค์ํ ๋ฌธ์ ์
๋๋ค.
- CoT ๋
ผ๋ฆฌ์ ํจ๊ณผ: CoT๋ฅผ ํฌํจํ ํ๊ฐ๊ฐ ํนํ ๋ณต์กํ ์์
์์ ํ์ง์ ํฌ๊ฒ ๋์ธ๋ค๋ ์ ์ ์ฐ๊ตฌ์ง์ ๊ฐ์กฐํ๋ฉฐ, ํฅํ AI ํ๊ฐ์ CoT๊ฐ ๋๋ฆฌ ํ์ฉ๋ ๊ฐ๋ฅ์ฑ์ ์ธ๊ธํฉ๋๋ค.
|
|
|
G-EVAL๊ณผ ํจ๊ปํ๋ NLG ํ๊ฐ์ ๋ฏธ๋ |
|
|
G-EVAL์ ์ ๋ขฐ์ฑ, ํ์ฅ์ฑ, ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ ์ผ์น๋๋ฅผ ๊ฐ์ถ NLG ํ๊ฐ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํฉ๋๋ค. ํ๋ฅ ๊ฐ์ค์น๋ฅผ ์ ์ฉํ ์ ๊ตํ ํ๊ฐ์ GPT-4์ ๊ณ ๊ธ ์ธ์ด ์ดํด๋ฅผ ํ์ฉํด G-EVAL์ NLG ํ๊ฐ์์ ์๋ก์ด ํ์ค์ ์ธ์๋๋ค. ๋ค๋ง, AI ํ๊ฐ์๋ค์ด NLG ๊ฐ๋ฐ์ ํต์ฌ ์ญํ ์ ํ๊ฒ ๋จ์ ๋ฐ๋ผ ๊ธฐ๊ณ ์์ฑ ํ
์คํธ์ ๋ํ ์ ์ฌ์ ํธํฅ์ ์ ์คํ ๊ด๋ฆฌํ ํ์๊ฐ ์์ต๋๋ค.
|
|
|
The Data-centric AI company
AI ๋ฐ์ดํฐ์ ๊ธฐ์ค์ ๋ง๋ญ๋๋ค
|
|
|
๐ ์ฌ์
๋ฐ ์ ํด ๋ฌธ์ contact@selectstar.ai
๐จ ์ฝํ
์ธ ๋ฐ ํ์ฌ ๋ฌธ์ marketing@selectstar.ai
|
|
|
|
|