๐Ÿ’ซ์…€๋ ‰ํŠธ์Šคํƒ€์˜ ์ข€๋” ๊นŠ์€ TECH ์ด์•ผ๊ธฐ
#05
์ž‘์„ฑ ๋ฐ ๊ฒ€์ˆ˜: ์ •์ธ์˜ & ์ด์ผ๊ตฌ
 ๐Ÿš€ G-EVAL: ์‚ฌ๋žŒ์— ๋” ๊ฐ€๊นŒ์šด NLG ํ‰๊ฐ€

์ž์—ฐ์–ด ์ƒ์„ฑ(Natural Language Generation) ๋ถ„์•ผ์—์„œ "์ข‹์€ ํ…์ŠคํŠธ"๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ผ์€ ๋Š˜ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„์˜ ์ง๊ด€๊ณผ ์ผ์น˜ํ•˜๋„๋ก ํ…์ŠคํŠธ์˜ ํ’ˆ์งˆ์„ ๊ฐ€๋Š ํ•˜๋Š” ์ž‘์—…์€ ํŠนํžˆ๋‚˜ ์ฐฝ์˜์ ์ด๊ฑฐ๋‚˜ ๊ฐœ๋ฐฉํ˜•์ธ ์ž‘์—…์ผ์ˆ˜๋ก ๊นŒ๋‹ค๋กญ์ง€์š”. ๊ธฐ์กด์˜ ํ‰๊ฐ€ ์ง€ํ‘œ์ธ BLEU๋‚˜ ROUGE๋Š” ์„ฑ๋Šฅ์„ ์ˆ˜์น˜ํ™”ํ•˜๋Š” ๋ฐ ์œ ์šฉํ•˜์ง€๋งŒ, ๋Œ€ํ™”๋‚˜ ์š”์•ฝ๊ณผ ๊ฐ™์€ ์ž‘์—…์—์„œ ์š”๊ตฌ๋˜๋Š” ๋‹ค์–‘์„ฑ๊ณผ ์ฐฝ์˜์„ฑ์„ ์ œ๋Œ€๋กœ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.


์ž‘๋…„ 5์›”, G-EVAL์€ GPT-4์˜ ๊ณ ๊ธ‰ ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ์ธ๊ฐ„์˜ ํ‰๊ฐ€์™€ ๊ฐ€๊นŒ์šด ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•˜๋Š” ํ˜์‹ ์  ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๋– ์˜ฌ๋ž์Šต๋‹ˆ๋‹ค. ์ด ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์€ NLG ํ‰๊ฐ€ ๋ฐฉ์‹์„ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”์‹œ์ผฐ์„๊นŒ์š”?

G-EVAL์˜ ํ•ต์‹ฌ: ๋ชฉ์ ๊ณผ ์ค‘์š”์„ฑ

G-Eval์€ ํ”„๋กฌํ”„ํŠธ ์ฑ„์šฐ๊ธฐ ๋ฐฉ์‹("form-filling")์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ํ…์ŠคํŠธ๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ์‹์ธ๋ฐ์š”. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ LLM์„ ์ด์šฉํ•œ ํ‰๊ฐ€(LLM-as-a-Judge) ๋ฐฉ๋ฒ• ์ค‘์— ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ด์šฉํ•œ ํ‰๊ฐ€ ๋ฐฉ์‹์œผ๋กœ ๋„๋ฆฌ ์“ฐ์ด๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ด์šฉํ•œ ํ‰๊ฐ€์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ๋„ค ๊ฐ€์ง€ ์š”์†Œ๊ฐ€ ์žˆ๋Š”๋ฐ์š”:

1. Task instruction
2. Evaluation criteria
3. Input contents
4. Evaluation methods

์œ„ ํ•ญ๋ชฉ์œผ๋กœ ์ „์ฒด ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ตฌ์„ฑํ•ด ์ด๋ฅผ LLM์—๊ฒŒ ๋„˜๊ฒจ ์ฃผ์–ด ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.


G-Eval์€ Task instruction๊ณผ Evaluation criteria๋Š” ์‚ฌ๋žŒ์ด ์ง์ ‘ ์ž‘์„ฑํ•˜๋„๋ก ํ•˜๊ณ , Evaluation methods๋Š” Chain-of-thought์„ ์ด์šฉํ•˜์—ฌ ์ž๋™ ์ƒ์„ฑํ•˜๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค. Evaluation methods๋Š” ์ž‘์—…์ด ๋ณต์žกํ•˜๊ณ  ํ‰๊ฐ€ ๊ธฐ์ค€์ด ๋‹ค์–‘ํ•œ๋ฐ์š”. ์‚ฌ๋žŒ์ด ์ง์ ‘ ์„ค๊ณ„ํ•˜๊ธฐ์—๋Š” ์‹œ๊ฐ„์ด ๋งŽ์ด ์†Œ์š”๋˜๊ธฐ ๋•Œ๋ฌธ์— CoT๋ฅผ ์ด์šฉํ•˜์—ฌ ๋น ๋ฅด๊ฒŒ ์ž‘์—…์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ ํ›„์— ์‹ค์ œ๋กœ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ text, ์ฆ‰ Input contents๋ฅผ ๋„ฃ์–ด์„œ LLM์ด ์ตœ์ข… ํ‰๊ฐ€๋ฅผ ํ•˜๋Š” ๋ฐฉ์‹์ด์ง€์š”. ์ด๋Ÿฌํ•œ ํ˜์‹ ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์€ G-EVAL์„ ํ˜„์กดํ•˜๋Š” ํ‰๊ฐ€ ๋ฐฉ์‹ ์ค‘์—์„œ ์‚ฌ๋žŒ๊ณผ ๊ฐ€์žฅ ์ž˜ ์ผ์น˜ํ•˜๋Š” ํ‰๊ฐ€ ๋„๊ตฌ๋กœ ๋งŒ๋“ค์–ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ•๋ก : G-EVAL์˜ ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ

G-Eval์˜ ์ „๋ฐ˜์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ. ์ถœ์ฒ˜: (๋งํฌ)

G-EVAL ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์š”์†Œ๋กœ ๊ตฌ์„ฑ๋˜๋Š”๋ฐ์š”:


  1. ํ”„๋กฌํ”„ํŠธ ์ •์˜: ๊ฐ ํ‰๊ฐ€ ์ž‘์—…์€ ์ผ๊ด€์„ฑ์ด๋‚˜ ๊ด€๋ จ์„ฑ๊ณผ ๊ฐ™์€ ๊ธฐ์ค€์„ ๋ช…์‹œํ•˜๋Š” ๋ช…ํ™•ํ•œ ํ”„๋กฌํ”„ํŠธ์™€ ํ•จ๊ป˜ ์‹œ์ž‘๋ฉ๋‹ˆ๋‹ค. Task instruction, Evaluation criteria๋ฅผ ์ง์ ‘ ์ ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  2. ์—ฐ์‡„ ์‚ฌ๊ณ (CoT)๋ฅผ ํ†ตํ•ด Evaluation steps ๋งŒ๋“ค๊ธฐ: ์œ„์—์„œ ์ƒ์„ฑํ•œ Task instruction, Evaluation criteria์„ ๊ฐ€์ง€๊ณ  CoT๋ฅผ ์ง„ํ–‰ํ•˜์—ฌ Evaluation steps๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  3. ํ™•๋ฅ  ๊ธฐ๋ฐ˜ ์ ์ˆ˜ ์‚ฐ์ • ํ•จ์ˆ˜: ๊ธฐ์กด ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ G-EVAL์€ ๊ฐ ํ‰๊ฐ€ ํ•ญ๋ชฉ์˜ ํ™•๋ฅ  ๊ฐ€์ค‘์น˜๋ฅผ ์ ์šฉํ•ด ๋” ๋ฏธ์„ธํ•œ ์ฐจ์ด๋ฅผ ๋ฐ˜์˜ํ•œ ์ ์ˆ˜๋ฅผ ๋งค๊น๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋†’์ด๊ณ , ์ƒ์„ฑ๋œ ํ…์ŠคํŠธ๊ฐ„์˜ ๋ฏธ๋ฌ˜ํ•œ ์ฐจ์ด๋ฅผ ์ž˜ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋ฒค์น˜๋งˆํฌ ํ…Œ์ŠคํŠธ: ์—ฌ๋Ÿฌ ์ธก๋ฉด์—์„œ์˜ ์„ฑ๊ณผ

G-EVAL์€ SummEval, Topical-Chat, QAGS ์„ธ ๊ฐ€์ง€ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ฒ ์ €ํžˆ ํ…Œ์ŠคํŠธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ•จ๊ป˜ ์‚ดํŽด๋ณผ๊นŒ์š”?

  • ์š”์•ฝ: SummEval ํ…Œ์ŠคํŠธ์—์„œ G-EVAL์€ ์ผ๊ด€์„ฑ, ์œ ์ฐฝ์„ฑ, ๊ด€๋ จ์„ฑ ์ธก๋ฉด์—์„œ ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ๋†’์€ ์ƒ๊ด€์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ๊ธฐ์กด ์ง€ํ‘œ๋ฅผ ํฐ ์ฐจ์ด๋กœ ๋›ฐ์–ด๋„˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋Œ€ํ™” ์ƒ์„ฑ: ๋Œ€ํ™”์˜ ์ผ๊ด€์„ฑ๊ณผ ํฅ๋ฏธ ์š”์†Œ๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” Topical-Chat ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ G-EVAL์€ ์ธ๊ฐ„์˜ ํ‰๊ฐ€์™€ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํ™˜๊ฐ ๊ฐ์ง€: ์š”์•ฝ์˜ ์ผ๊ด€์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” QAGS ๋ฒค์น˜๋งˆํฌ์—์„œ BERTScore๋‚˜ ROUGE์™€ ๊ฐ™์€ ๋ชจ๋ธ์„ ๋›ฐ์–ด๋„˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ์ถ”์ƒ์  ์š”์•ฝ์—์„œ ํƒ์›”ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‚˜ํƒ€๋ƒˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” G-EVAL์ด ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ์ผ์น˜ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚˜๋ฉฐ, ๋‹จ์ผ ์ ์ˆ˜ ์‚ฐ์ถœ์ด๋‚˜ ๋‹ค์ฐจ์›์  ์ ์‘๋ ฅ์ด ๋ถ€์กฑํ•œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค๊ณผ ๋‹ฌ๋ฆฌ ํ›จ์”ฌ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํ‰๊ฐ€ ๋„๊ตฌ์ž„์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด ํ‰๊ฐ€ ๋„๊ตฌ์™€์˜ ๋น„๊ต: G-EVAL์˜ ์ฐจ๋ณ„ํ™”๋œ ์š”์†Œ

G-EVAL์˜ ์ƒˆ๋กœ์šด CoT ๋ฐฉ๋ฒ•๋ก ์€ ์ด์ „ ๋ชจ๋ธ๋“ค๊ณผ๋Š” ์ƒ๋‹นํ•œ ์ฐจ์ด๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. GPTScore๋‚˜ BARTScore์™€ ๊ฐ™์€ ๊ธฐ์กด ๋ชจ๋ธ์€ ๊ณ ์ •๋œ ํ‰๊ฐ€ ๋ฐฉ์‹์„ ๋”ฐ๋ฅด์ง€๋งŒ, G-EVAL์€ ์„ธ๋ถ€์ ์ธ ํ‰๊ฐ€ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ๋” ๊นŠ์ด ์žˆ๋Š” ๋ถ„์„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. G-EVAL์˜ ํ™•๋ฅ  ๊ธฐ๋ฐ˜ ์ ์ˆ˜ ์‚ฐ์ •์€ UniEval๊ณผ ๊ฐ™์€ ์ด์‚ฐ์  ์ ์ˆ˜ ๋ชจ๋ธ์„ ๋„˜์–ด ๋” ์ •๋ฐ€ํ•œ ํ‰๊ฐ€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ ์ฑ„์šฐ๊ธฐ ๋ฐฉ์‹์„ ํ†ตํ•œ ์ข…ํ•ฉ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹ ๋•๋ถ„์— G-EVAL์€ ๋‹จ์ˆœํ•œ ์ ์ˆ˜ ๋ถ€์—ฌ๊ฐ€ ์•„๋‹ˆ๋ผ ์ธ๊ฐ„๊ณผ ๊ฐ™์€ ๊ธฐ์ค€์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๊ฒฐ๊ณผ ๋ฐ ์—ฐ๊ตฌ์ง„์˜ ๊ฒฐ๋ก 

  • ๋” ๋†’์€ ์ธ๊ฐ„ ์ผ์น˜๋„: G-EVAL์˜ ์ฃผ์š” ์„ฑ๊ณผ๋Š” ์ธ๊ฐ„ ํ‰๊ฐ€์™€์˜ ๋†’์€ ์ƒ๊ด€์„ฑ์œผ๋กœ, ํŠนํžˆ ์ฃผ๊ด€์  ์ž‘์—…์—์„œ ํ›Œ๋ฅญํ•œ ๋„๊ตฌ๋กœ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค.
  • LLM ๊ธฐ๋ฐ˜ ํ…์ŠคํŠธ์— ๋Œ€ํ•œ ํŽธํ–ฅ ๊ฐ€๋Šฅ์„ฑ: ์—ฐ๊ตฌ์—์„œ๋Š” LLM ํ‰๊ฐ€์ž๊ฐ€ ์‚ฌ๋žŒ์˜ ํ…์ŠคํŠธ๋ณด๋‹ค ๊ธฐ๊ณ„๊ฐ€ ์ƒ์„ฑํ•œ ํ…์ŠคํŠธ๋ฅผ ์„ ํ˜ธํ•  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ์  ํŽธํ–ฅ์„ ์ง€์ ํ•˜๋Š”๋ฐ์š”. ์ด๋Š” ํ–ฅํ›„ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๊ธฐ๊ณ„ ์ƒ์„ฑ ํ…์ŠคํŠธ๋ณด๋‹ค ์ธ๊ฐ„ ํ…์ŠคํŠธ๋ฅผ ์„ ํ˜ธํ•˜์ง€ ์•Š๋„๋ก ์ฃผ์˜ํ•ด์•ผ ํ•˜๋Š” ์ค‘์š”ํ•œ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.
  • CoT ๋…ผ๋ฆฌ์˜ ํšจ๊ณผ: CoT๋ฅผ ํฌํ•จํ•œ ํ‰๊ฐ€๊ฐ€ ํŠนํžˆ ๋ณต์žกํ•œ ์ž‘์—…์—์„œ ํ’ˆ์งˆ์„ ํฌ๊ฒŒ ๋†’์ธ๋‹ค๋Š” ์ ์„ ์—ฐ๊ตฌ์ง„์€ ๊ฐ•์กฐํ•˜๋ฉฐ, ํ–ฅํ›„ AI ํ‰๊ฐ€์— CoT๊ฐ€ ๋„๋ฆฌ ํ™œ์šฉ๋  ๊ฐ€๋Šฅ์„ฑ์„ ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค.
G-EVAL๊ณผ ํ•จ๊ป˜ํ•˜๋Š” NLG ํ‰๊ฐ€์˜ ๋ฏธ๋ž˜

G-EVAL์€ ์‹ ๋ขฐ์„ฑ, ํ™•์žฅ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ์ธ๊ฐ„ ์ผ์น˜๋„๋ฅผ ๊ฐ–์ถ˜ NLG ํ‰๊ฐ€์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ํ™•๋ฅ  ๊ฐ€์ค‘์น˜๋ฅผ ์ ์šฉํ•œ ์ •๊ตํ•œ ํ‰๊ฐ€์™€ GPT-4์˜ ๊ณ ๊ธ‰ ์–ธ์–ด ์ดํ•ด๋ฅผ ํ™œ์šฉํ•ด G-EVAL์€ NLG ํ‰๊ฐ€์—์„œ ์ƒˆ๋กœ์šด ํ‘œ์ค€์„ ์„ธ์›๋‹ˆ๋‹ค. ๋‹ค๋งŒ, AI ํ‰๊ฐ€์ž๋“ค์ด NLG ๊ฐœ๋ฐœ์— ํ•ต์‹ฌ ์—ญํ• ์„ ํ•˜๊ฒŒ ๋จ์— ๋”ฐ๋ผ ๊ธฐ๊ณ„ ์ƒ์„ฑ ํ…์ŠคํŠธ์— ๋Œ€ํ•œ ์ž ์žฌ์  ํŽธํ–ฅ์„ ์‹ ์ค‘ํžˆ ๊ด€๋ฆฌํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

The Data-centric AI company

AI ๋ฐ์ดํ„ฐ์˜ ๊ธฐ์ค€์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค


๐Ÿ“‹ ์‚ฌ์—… ๋ฐ ์ œํœด ๋ฌธ์˜ contact@selectstar.ai
๐Ÿ“จ ์ฝ˜ํ…์ธ  ๋ฐ ํ–‰์‚ฌ ๋ฌธ์˜ marketing@selectstar.ai