κ°•ν™” ν•™μŠ΅μ΄ κ°•ν™”ν•˜λŠ” 것과 LLM이 μ•„λ‹Œ 것
🦜AI 윀리 λ ˆν„°: ν•¨κ»˜ λ§Œλ“œλŠ” 인곡지λŠ₯ 윀리
보이지 μ•ŠμœΌλ©΄ λΆ„λ₯˜λ˜μ§€ μ•ŠλŠ”λ‹€. 그것은 λ˜ν•œ λ†€λΌμš΄ μžμœ κΈ°λ„ ν•˜λ‹€.
μ•ˆλ‹΄, <μ†Œλ…€λŠ” λ”°λ‘œ μžλž€λ‹€> (μ „μžμ±… 25%) 
λͺ©μ°¨
  1. 더 λ‚˜μ€ AIλ₯Ό μœ„ν•œ 상상
  2. κ°•ν™”ν•™μŠ΅μ΄ κ°•ν™”ν•˜λŠ” 역사

πŸ‘‰ λͺ¨λ‘ μ½λŠ” 데 9λΆ„ 29초!
🦜 AI 윀리 λ ˆν„°κ°€ κ·Έλ™μ•ˆ 닀뀄 온 μ΄μŠˆλ“€ λͺ¨μ•„ 보기 
πŸ’Œ AI 윀리 λ ˆν„°κ°€ 였래 μœ μ§€λ  수 μžˆλ„λ‘ μ‘μ›ν•˜λŸ¬ κ°€κΈ°
더 λ‚˜μ€ AIλ₯Ό μœ„ν•œ 상상
by. πŸ’‚μ£ μ…‰

μ–΄λ–€ κ³„κΈ°λ‘œ <AI 윀리 λ ˆν„°>λ₯Ό κ΅¬λ…ν•˜κ²Œ λ˜μ…¨λ‚˜μš”? μ›λž˜ AI와 κ΄€λ ¨λœ 뢄야에 μ’…μ‚¬ν•˜κ³  계셨을 μˆ˜λ„ μžˆμ§€λ§Œ, λ§Žμ€ κ²½μš°λŠ” 2022λ…„ 11μ›” μΆœμ‹œλœ μ±—GPT μ΄ν›„λ‘œ 본격적인 관심을 κ°€μ§€κ²Œ λ˜μ‹œμ§€ μ•Šμ•˜μ„κΉŒ ν•©λ‹ˆλ‹€.


잘 μ•„μ‹œλ‹€μ‹œν”Ό μ±—GPT와 같은 챗봇듀은 β€˜LLM(κ±°λŒ€ μ–Έμ–΄ λͺ¨λΈ)’을 기반으둜 μž‘λ™ν•˜λŠ”λ°μš”. 이후 ν΄λ‘œλ“œ(Claude), μ œλ―Έλ‚˜μ΄(Gemini)λ“± LLM 챗봇듀이 μŸμ•„μ Έ λ‚˜μ˜€λ©΄μ„œ μš”μ¦˜ λ―Έλ””μ–΄μ—μ„œ μ–ΈκΈ‰λ˜λŠ” β€˜AIβ€™λŠ” 사싀상 β€˜LLM’과 λ™μ˜μ–΄μ²˜λŸΌ μ‚¬μš©λ˜κ³  μžˆμŠ΅λ‹ˆλ‹€.


LLM이 ν˜„μž¬ AI 산업을 μ΄λŒμ–΄κ°€λŠ” νŒ¨λŸ¬λ‹€μž„μΈ 건 λΆ„λͺ…ν•œ μ‚¬μ‹€μž…λ‹ˆλ‹€. ν•˜μ§€λ§Œ LLM은 인간 λ‡Œμ˜ μž‘λ™ 방식을 λͺ¨λ°©ν•œ 신경망(Neural network)을 λ°”νƒ•μœΌλ‘œ ν•˜κ³ , 이 신경망 기술이 인곡지λŠ₯μ΄λΌλŠ” λͺ©ν‘œμ— 이λ₯΄κΈ° μœ„ν•œ μ—¬λŸ¬ 방법둠 쀑 ν•˜λ‚˜λž€ 사싀은 짚고 λ„˜μ–΄κ°ˆ ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€. LLM은(=ν•˜μœ„κ°œλ…) AIμ§€λ§Œ(=μƒμœ„κ°œλ…) κ·Έ λ°˜λŒ€λŠ” λΆˆμ™„μ „ν•œ μ„€λͺ…μ΄λΌλŠ” 것이죠. 였늘 λ ˆν„°μ—μ„œλŠ” 이게 μ™œ 윀리 이슈 κ΄€μ μ—μ„œλ„ ν₯미둜운 지점인지 짧게 닀뀄보도둝 ν• κ²Œμš”.



λ‰΄λ‘œ..심볼릭..?

AI와 LLM을 λ™μ˜μ–΄μ²˜λŸΌ μ‚¬μš©ν•˜λŠ” κ²½ν–₯은 μ–Όλ§ˆ μ „ λ°œν–‰λœ μŠ€νƒ ν¬λ“œ HAI의 μ—°κ°„ λ¦¬ν¬νŠΈμ—μ„œλ„ λ³Ό 수 μžˆμ—ˆλŠ”λ°μš”. κ·Έ 와쀑에 ν₯미둜운 단락이 ν•˜λ‚˜ λ“±μž₯ν•©λ‹ˆλ‹€. (185νŽ˜μ΄μ§€). λ°”λ‘œ λ‰΄λ‘œ 심볼릭 AI (Neuro-symbolic AI, μ΄ν•˜ β€˜λ‰΄λ‘œ 심볼릭’)λΌλŠ” κ°œλ…μΈλ°μš”. μ•ˆ κ·Έλž˜λ„ λ³΅μž‘ν•œλ° 이건 또 뭐냐? ν•˜μ‹€ 것 κ°™μ•„ AI μ—­μ‚¬μ˜ λ§₯락 μ†μ—μ„œ κ°„λ‹¨νžˆ 정리해 λ³΄κ² μŠ΅λ‹ˆλ‹€.


  • AI 연ꡬ가 ν•˜λ‚˜μ˜ ν•™λ¬ΈμœΌλ‘œμ„œ μ •λ¦½λœ 것은 1956λ…„. 이 λ‹Ήμ‹œ μ£Όλ₯˜ νŒ¨λŸ¬λ‹€μž„μ€ 기호주의(symbolism)λ‘œμ„œ, μ„Έκ³„μ˜ 지식을 기호둜 λ°”κΏ” 컴퓨터에 κ³„μ‚°ν•˜λŠ” κ·œμΉ™ 기반의 방법둠이라 ν•  수 있음.
  • 반면 ν˜„μž¬ 신경망 기술의 기원이 된 건 1957λ…„ ν”„λž‘ν¬ λ‘œμ  λΈ”λž«(Frank Rosenblatt)이 λ°œν‘œν•œ νΌμ…‰νŠΈλ‘ (Perceptron) λ…Όλ¬Έ. 이 λ•ŒλΆ€ν„° 이 κ³„μ—΄μ˜ μ—°κ΅¬μ—λŠ” μ—°κ²°μ£Όμ˜(connectionism)λΌλŠ” 이름이 λΆ™μ—ˆμŒ.
  • 이후 AI 연ꡬ가 λͺ‡ μ°¨λ‘€ ν˜Έν™©κΈ°μ™€ 뢀침을 κ²ͺλŠ” 였랜 κΈ°κ°„ λ™μ•ˆ μ£Όλ₯˜μ˜ μœ„μΉ˜λ₯Ό μ°¨μ§€ν•΄ 온 건 기호주의. κ·ΈλŸ¬λ‚˜ λ–¨μ–΄μ§€λŠ” νš¨μœ¨μ„±κ³Ό μˆ˜μ΅ν™” 문제 등을 κ·Ήλ³΅ν•˜μ§€ λͺ»ν•˜λ©° 1990λ…„λŒ€ λ“€μ–΄ μ‚°μ—… 전체가 침체기에 빠짐.
  • 2010년에 이λ₯΄λŸ¬ 데이터셋과 λ°˜λ„μ²΄ μ„±λŠ₯의 비약적 λ°œμ „κ³Ό ν•¨κ»˜ λŒ€μ„Έκ°€ μ „ν™˜λ¨. 2012λ…„, AI의 이미지 λΆ„λ₯˜ 정확도λ₯Ό ν‰κ°€ν•˜λŠ” 이미지넷 (ImageNet)λŒ€νšŒμ—μ„œ μ œν”„λ¦¬ 힌튼 μ—°κ΅¬νŒ€μ˜ μ•Œκ³ λ¦¬μ¦˜μΈ β€˜μ•Œλ ‰μŠ€λ„·β€™μ΄ 획기적인 μ„±κ³Όλ₯Ό 증λͺ…. μ΄λ•ŒλΆ€ν„° 신경망을 λ°”νƒ•μœΌλ‘œ ν•˜λŠ” λ”₯λŸ¬λ‹μ€ 승승μž₯ꡬ해 μ§€κΈˆμ˜ μ£Όλ₯˜ νŒ¨λŸ¬λ‹€μž„μ΄ λ˜κΈ°μ— 이름.
  • λ‰΄λ‘œ 심볼릭은 μ΄λ¦„μ²˜λŸΌ 신경망(neuro)κ³Ό 기호주의(symbolic)λ₯Ό ν˜Όν•©ν•œ ν˜•νƒœ. ν˜„μž¬ AI 기술의 λ¬Έμ œμ— λŒ€ν•œ λŒ€μ•ˆμœΌλ‘œ μ‘°κΈˆμ”© μ–ΈκΈ‰λ˜λ©° λ‹€μ–‘ν•œ 연ꡬ가 μ§„ν–‰ 쀑.

(*AI 역사에 λŒ€ν•΄ 더 읽고 μ‹ΆμœΌμ‹œλ‹€λ©΄ 첫 μ±…μœΌλ‘œ μΌ€μ΄λ“œ 맀츠의 <AI λ©”μ΄μ»€μŠ€>λ₯Ό μΆ”μ²œλ“œλ¦½λ‹ˆλ‹€.)

신경망, κΈ°ν˜Έμ£Όμ˜μ— λŒ€ν•œ μ„€λͺ…κ³Ό ν•¨κ»˜ 미래 AI μƒνƒœκ³„μ— λŒ€ν•œ ν₯미둜운 μ˜ˆμΈ‘μ„ λ“€λ €μ£ΌλŠ” 카톨린 욘컀 ꡐ수 (μ˜μƒ: The Royal Institution 유튜브 채널)


λ°©λŒ€ν•œ 데이터λ₯Ό 톡해 μžκ°€ ν•™μŠ΅ν•˜λŠ” λ”₯ λŸ¬λ‹ κΈ°μˆ μ€ μŠ€μΌ€μΌκ³Ό μ„±λŠ₯의 μΈ‘λ©΄μ—μ„œλŠ” μ›”λ“±ν•˜μ§€λ§Œ, β€˜λΈ”λž™λ°•μŠ€β€™λ‘œ λŒ€ν‘œλ˜λŠ” μ„€λͺ… λΆˆκ°€λŠ₯μ„±μ˜ 취약점을 κ°€μ§€κ³  μžˆμŠ΅λ‹ˆλ‹€. μ΄λ‘ μƒμœΌλ‘œλŠ” 더 λ§Žμ€ 데이터λ₯Ό 확보해 결과물의 정확도λ₯Ό 올릴 수 μžˆμ§€λ§Œ νˆ¬μž…ν•  수 μžˆλŠ” λ°μ΄ν„°λŠ” μœ ν•œν•˜λ©°, 그에 λ”°λ₯΄λŠ” ν™˜κ²½ λ¬Έμ œλ„ 계속 μ§€μ λ˜κ³  있죠.


반면 인간이 μž…λ ₯ν•΄ λ‘” 지식을 λ°”νƒ•μœΌλ‘œ 세계λ₯Ό μž¬ν˜„ν•˜λŠ” 기호주의 계열 AI의 λŒ€ν‘œμ  μž₯점은 λͺ…μ‹œμ μΈ 법칙과 κ·œμΉ™μ„ μ•Œκ³ λ¦¬μ¦˜μ— λ°˜μ˜ν•˜κΈ°κ°€ 훨씬 μš©μ΄ν•˜λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. κ°€λ Ή μš°λ¦¬μ—κ²Œ μ΅μˆ™ν•œ AI 윀리 문제(ν• λ£¨μ‹œλ„€μ΄μ…˜, 편ν–₯, 상식 λΆ€μ‘± λ“±)κ°€ λ°œμƒν–ˆμ„ λ•Œ κ·Έ 원인을 μ •ν™•νžˆ νŠΉμ •ν•΄ λ‚Ό 수 μžˆμŠ΅λ‹ˆλ‹€. AIμ—κ²Œ μΈκ°„μ˜ 상식과 도덕관 등을 μ£Όμž…ν•˜λŠ” μ—°κ΅¬μ—μ„œ 이 기술이 자주 μ–ΈκΈ‰λ˜λŠ” 이유죠. (TED κ°•μ˜λ‘œ ν™”μ œκ°€ 된 μ΅œμ˜ˆμ§„ ꡐ수의 연ꡬ가 쒋은 μ˜ˆμ‹œμž…λ‹ˆλ‹€.) λ‰΄λ‘œ 심볼릭은 μ˜€λž«λ™μ•ˆ κ²½μŸν•΄μ˜¨ 두 νŒ¨λŸ¬λ‹€μž„μ˜ μž₯점을 μ·¨ν•΄ μ„±λŠ₯κ³Ό μ„€λͺ… κ°€λŠ₯μ„±, 두 마리 토끼λ₯Ό λͺ¨λ‘ 작기 μœ„ν•œ μ‹œλ„λΌκ³  ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 

신경망과 기호주의 AI의 μž₯단점 비ꡐ. (좜처: The Royal Institution 유튜브 채널)

 

β€˜λ” λ‚˜μ€β€™ AI?

ν˜„μž¬ AI κ·Έ 자체처럼 μ—¬κ²¨μ§€λŠ” λ”₯λŸ¬λ‹ λ˜ν•œ κΈ°λ‚˜κΈ΄ AI ν₯망성쇠 μ—­μ‚¬μ˜ μΌλΆ€λΌλŠ” 사싀은 ν–₯ν›„ 5λ…„, 10λ…„ μ΄ν›„μ˜ 전망을 λ”μš± ν₯미둭게 λ§Œλ“­λ‹ˆλ‹€. 그리고 λ‰΄λ‘œ μ‹¬λ³Όλ¦­μ΄λΌλŠ” κ°€λŠ₯성은 μ•žμœΌλ‘œ μ–΄λ–€ κΈ°μˆ μ£Όμ— νˆ¬μžν•΄μ•Ό ν• μ§€(?)에 λŒ€ν•œ μ•ˆλͺ©λΏλ§Œ μ•„λ‹ˆλΌ AI 윀리의 μŸμ λ“€μ— λŒ€ν•΄μ„œλ„ μ‹œμ‚¬ν•˜λŠ” λ°”κ°€ μžˆμŠ΅λ‹ˆλ‹€.


κ°€λ Ή 더 투λͺ…ν•˜κ³  μ„€λͺ… κ°€λŠ₯ν•œ AI의 ν•„μš”μ„±μ— λŒ€ν•΄ 저희 λ ˆν„°μ—μ„œλ„ μ—¬λŸ¬ μ°¨λ‘€ 닀룬 λ°” μžˆλŠ”λ°μš”. μŠ€μΌ€μΌμ˜ LLMκ³Ό 투λͺ…ν•œ 심볼릭, ν˜Ήμ€ κ·Έ ν˜Όν•©μ²΄μ˜ λ‹€μ–‘ν•œ λͺ¨λΈλ“€μ΄ μ„œλ‘œλ₯Ό 보완, κ³΅μ‘΄ν•˜λŠ” ν•˜μ΄λΈŒλ¦¬λ“œ ν˜•νƒœμ˜ AI μƒνƒœκ³„κ°€ μ‹€ν˜„λœλ‹€λ©΄ μ–΄λ–¨κΉŒμš”? 저희 λ ˆν„°μ—μ„œ 닀뀄 온 μ‹œκΈ‰ν•œ μ΄μŠˆλ“€λ„ AI 기술 자체의 λ‚œμ œλΌκΈ° λ³΄λ‹€λŠ” LLMμ΄λΌλŠ” ν•œ νŒ¨λŸ¬λ‹€μž„μ΄ κ°€μ‘Œλ˜ ν•œκ³„μ μœΌλ‘œ 기얡될 날이 μ˜¬μ§€λ„ λͺ¨λ¦…λ‹ˆλ‹€. κ·Έλž˜μ„œ λΈ”λž™λ°•μŠ€μ˜ ν•œκ³„, ν˜Ήμ€ AIκ°€ ν™˜κ²½μ— λΌμΉ˜λŠ” 영ν–₯이 기술 λ°œμ „μœΌλ‘œ μΈν•œ β€˜λΆˆκ°€ν”Όν•¨β€™μ΄λΌ λˆ„κ΅°κ°€ 말할 λ•Œ, λ‰΄λ‘œ 심볼릭은 (아직 λŒ€μ€‘ν™”κΉŒμ§€λŠ” 거리가 μžˆμŒμ—λ„ 뢈ꡬ) β€˜λ” λ‚˜μ€ AI’에 λŒ€ν•œ 우리의 상상λ ₯을 ν™•μž₯ν•΄ μ€€λ‹€λŠ” μ μ—μ„œ 의미λ₯Ό κ°€μ§ˆ 수 μžˆμ§€ μ•Šμ„κΉŒμš”? 

  

κ°•ν™”ν•™μŠ΅μ΄ κ°•ν™”ν•˜λŠ” 역사

by. πŸ₯¨μ±„원

μ§€λ‚œμ£Ό, 무언가λ₯Ό μžμ„Ένžˆ μ‚΄νŽ΄ λ³Έλ‹€λŠ” 뜻의 μ˜μ–΄ 단어 β€˜delve’가 ν™”μ œκ°€ λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 이 λ‹¨μ–΄λŠ” μ±—GPTλ₯Ό 자주 μ‚¬μš©ν•˜λŠ” μ‚¬λžŒλ“€ μ‚¬μ΄μ—μ„œ μ±—GPT에 자주 λ“±μž₯ν•œλ‹€κ³  이미 널리 μ•Œλ €μ§„ 단어 쀑 ν•˜λ‚˜μ˜€μŠ΅λ‹ˆλ‹€. Y Combinator의 곡동 창립자인 폴 κ·Έλ ˆμ΄μ—„μ€ 이λ₯Ό X (ꡬ νŠΈμœ„ν„°) 에 β€˜λˆ„κ΅°κ°€κ°€ λ‚˜μ—κ²Œ μƒˆλ‘œμš΄ ν”„λ‘œμ νŠΈλ₯Ό μ œμ•ˆν•˜λŠ” μ½œλ“œλ©”μΌμ„ λ³΄λƒˆλ‹€. 그런데 거기에 단어 β€˜delve’가 μ“°μ˜€λ‹€λŠ” 사싀을 μ•Œμ•„μ±˜λ‹€β€™λ©°, ν•΄λ‹Ή 단어가 μ±—GPT λ“±μž₯ 이후 μ‚¬μš© λΉˆλ„κ°€ 크게 μ¦κ°€ν–ˆλ‹€λŠ” κ·Έλž˜ν”„λ₯Ό μ²¨λΆ€ν•˜μ˜€μŠ΅λ‹ˆλ‹€.

λ…Όλ¬Έ 제λͺ©κ³Ό μ΄ˆλ‘μ— 단어 'delve'의 λΉˆλ„μ˜ 증가세λ₯Ό λ³΄μ—¬μ£ΌλŠ” νŠΈμœ— (좜처: 폴 κ·Έλ ˆμ΄μ—„ 계정)

ν•΄λ‹Ή 사건을 닀룬 κ°€λ””μ–Έμ§€ κΈ°μ‚¬μ—μ„œλŠ” β€˜delveβ€™λΌλŠ” 단어가 μ•„ν”„λ¦¬μΉ΄μ˜ μ›Ή, 특히 λ‚˜μ΄μ§€λ¦¬μ•„μ—μ„œ 자주 μ‚¬μš©λ˜λŠ” λ‹¨μ–΄λΌλŠ” 점을 μ§€μ ν•©λ‹ˆλ‹€. μ•„ν”„λ¦¬μΉ΄λŠ” μ±—GPTλ₯Ό λΉ„λ‘―ν•œ λ§Žμ€ μ–Έμ–΄ λͺ¨λΈμ˜ ν•™μŠ΅ 데이터λ₯Ό μ™Έμ£Όλ‘œ μƒμ‚°ν•˜κ³  μžˆλŠ” 곳이기도 ν•©λ‹ˆλ‹€. μ§€λ‚œ λ ˆν„°μ—μ„œ μΌ€λƒμ˜ λ…Έλ™μžλ“€μ΄ ν•œμ‹œκ°„μ— 2뢈이 채 λ˜μ§€ μ•ŠλŠ” μž„κΈˆμ„ λ°›μœΌλ©° μ±—GPTλ₯Ό ν•™μŠ΅μ‹œν‚¨ 케냐 λ…Έλ™μžλ“€μ— λŒ€ν•œ TIMEμ§€μ˜ 심측 취재λ₯Ό κ³΅μœ λ“œλ¦¬κΈ°λ„ ν–ˆμŠ΅λ‹ˆλ‹€. 그리고 μ±—GPT의 닡변에 μ±—GPT의 ν•™μŠ΅ 데이터λ₯Ό μƒμ„±ν•˜λŠ” 아프리카 ν™”μžλ“€μ˜ μ–Έμ–΄μŠ΅κ΄€μ„ λ°˜μ˜λ˜μ—ˆλ‹€λŠ” 것은, 기쑴의 μ–Έμ–΄λͺ¨λΈμ˜ 문제둜 μ œκΈ°λ˜λŠ” 편ν–₯의 문제λ₯Ό λ„˜μ–΄μ„  μ‚¬νšŒκ²½μ œμ , 역사적 λ¬Έμ œμ μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.


RLHF

인간 ν”Όλ“œλ°±μ„ ν†΅ν•œ κ°•ν™”ν•™μŠ΅(Reinforcement Learning with Human Feedback, RLHF)은 κ±°λŒ€μ–Έμ–΄λͺ¨λΈ (LLM)의 ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•œ 방법둠 쀑 ν•˜λ‚˜λ‘œ 각광받고 μžˆμŠ΅λ‹ˆλ‹€. μ±—GPTλ₯Ό λΉ„λ‘―ν•œ LLM을 ν•™μŠ΅ μ‹œν‚€λŠ” 방법둠 쀑 ν•˜λ‚˜μΈ RLHFλŠ” μΈκ°„μ˜ ν”Όλ“œλ°±μ„ λͺ…μ‹œμ μœΌλ‘œ ν•™μŠ΅μ— ν¬ν•¨μ‹œν‚΄μœΌλ‘œμ„œ, ν•™μŠ΅ λ°μ΄ν„°λ§Œμ„ 기반으둜 κ°€μž₯ ν™•λ₯ μ΄ 높은 좜λ ₯을 μƒμ„±ν•˜λŠ” 것과 λ”λΆˆμ–΄ 인간이 보기에 더 λ‚˜μ€ 좜λ ₯을 μƒμ„±ν•˜λ„λ‘ λ•μŠ΅λ‹ˆλ‹€. 

μ„ ν˜Έ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ λ¦¬μ›Œλ“œ(μ„ ν˜Έ) λͺ¨λΈμ„ ν•™μŠ΅ν•˜λŠ” RLHF μ•Œκ³ λ¦¬μ¦˜ (좜처: ν—ˆκΉ…νŽ˜μ΄μŠ€ λΈ”λ‘œκ·Έ β€˜RLHF’ )

μΈκ°„μ˜ λͺ…μ‹œμ μΈ μ„ ν˜Έλ„λŠ” 일λͺ… μ„ ν˜Έλ°μ΄ν„°λ₯Ό μƒμ„±ν•˜μ—¬ ν•™μŠ΅μ— μΆ”κ°€ν•˜λŠ” μ‹μœΌλ‘œ λ°˜μ˜λ©λ‹ˆλ‹€. μ„ ν˜Έ λ°μ΄ν„°λŠ” λŒ€κ°œ μ„œλ‘œ λ‹€λ₯Έ LLM이 μƒμ„±ν•œ λ‹΅λ³€λ“€κ³Ό, 이듀 쀑 μ±„μ μž (annotator)κ°€ 더 λ‚˜μ€ λ‹΅λ³€μœΌλ‘œ νŒλ‹¨ν•œ μ„ ν˜Έλ„λ‘œ κ΅¬μ„±λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. 더 λ‚˜μ€ λ‹΅λ³€μ΄λΌλŠ” 것은 방식에 따라 μ •ν™•λ„λ‚˜ μžμ—°μŠ€λŸ¬μ›€ λ“± λ‹€μ–‘ν•œ κΈ°μ€€μœΌλ‘œ μ •μ˜λ©λ‹ˆλ‹€. 수만건의 닡변을 λΉ„κ΅ν•˜μ—¬ νŒλ‹¨ν•˜λŠ” λ°μ—λŠ” λ§Žμ€ μ‚¬λžŒμ΄ ν•„μš”ν•˜κΈ° λ•Œλ¬Έμ— 이 과정은 λŒ€κ°œ ν¬λΌμš°λ“œμ†Œμ‹±μ΄λ‚˜ μ™Έμ£Όλ₯Ό 톡해 μ΄λ£¨μ–΄μ§‘λ‹ˆλ‹€.


예λ₯Ό λ“€μ–΄ μ˜€ν”ˆAI의 WebGPTλͺ¨λΈμ— μ‚¬μš©λœ μ„ ν˜Έ 데이터셋은 19,578개의 비ꡐ λ°μ΄ν„°λ‘œ κ΅¬μ„±λ˜μ–΄μžˆμŠ΅λ‹ˆλ‹€. 논문에 λ”°λ₯΄λ©΄ ν•΄λ‹Ή λ°μ΄ν„°λŠ” ν”„λ¦¬λžœμ„œλ‘œ 고용된 56λͺ…이 μƒμ„±ν–ˆλŠ”λ°, 특히 이 쀑 λ‹€μ„―λͺ…이 λ°μ΄ν„°μ…‹μ˜ μ ˆλ°˜μ„ μ œκ³΅ν–ˆλ‹€κ³  ν•©λ‹ˆλ‹€. 즉, 이듀 λ‹€μ„―λͺ…이 λŒ€λž΅ 데이터셋 μ „μ²΄μ˜ 10%씩을 각각 μƒμ„±ν–ˆλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. κ·Έλ ‡λ‹€λ©΄ 이 λ‹€μ„―λͺ…μ˜ νŒλ‹¨μ΄ ν•΄λ‹Ή λ°μ΄ν„°μ…‹μ˜ 좔이λ₯Ό κ²°μ •ν•˜λŠ” 데에 결정적인 역할을 ν–ˆμ„ κ²ƒμœΌλ‘œ μ§μž‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 논문은 μ΄λ“€μ˜ 인ꡬꡬ성학적인 정보λ₯Ό λ°νžˆμ§€ μ•Šκ³  μžˆμ§€λ§Œ, 이 λ‹€μ„―λͺ…μ˜ μ±„μ μž 편ν–₯ (annotator bias)이 데이터셋에 반영될 μ†Œμ§€κ°€ μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.


편ν–₯의 문제λ₯Ό λ„˜μ–΄μ„œ

본인이 받은 μ½œλ“œλ©”μΌμ˜ 'delve'λ₯Ό μ§€μ ν•˜λŠ” νŠΈμœ— (좜처: 폴 κ·Έλ ˆμ΄μ—„ 계정)

폴 κ·Έλž˜ν–„μ˜ νŠΈμœ—μœΌλ‘œ λ‹€μ‹œ λŒμ•„κ°€μ„œ μ‚΄νŽ΄λ³΄λ©΄, μ±—GPT둜 μƒμ„±ν•œ 메일은 인간이 μž‘μ„±ν•œ 메일보닀 κ°€μΉ˜κ°€ μ—†λ‹€λŠ” λ‰˜μ•™μŠ€κ°€ λŠκ»΄μ§‘λ‹ˆλ‹€. 그리고 μž‘μ„±μžλ₯Ό νŒλ‹¨ν•˜λŠ” κ·Όκ±°λŠ” ν•΄λ‹Ή 메일에 ν¬ν•¨λœ β€˜delveβ€™λΌλŠ” λ‹¨μ–΄μž…λ‹ˆλ‹€. ν•˜μ§€λ§Œ λ§Œμ•½ ν•΄λ‹Ή 메일이 μ±—GPTκ°€ μ•„λ‹Œ μ•„ν”„λ¦¬μΉ΄μ˜ μ˜μ–΄ ν™”μžμ— μ˜ν•΄ 쓰인 메일이라면 μ–΄λ–¨κΉŒμš”? ν•΄λ‹Ή ν™”μžλŠ” μ˜μ–΄λ₯Ό μ™Έκ΅­μ–΄λ‘œ μ‚¬μš©ν•˜λŠ” 본인의 μ–Έμ–΄ μŠ΅κ΄€μ΄ AIλ₯Ό ν•™μŠ΅ν•˜λŠ” 데에 λ°˜μ˜λ˜μ—ˆλ‹€λŠ” 이유둜 λΆ€λ‹Ήν•œ 차별을 λ°›κ²Œ λ©λ‹ˆλ‹€. 이와 κ΄€λ ¨ν•˜μ—¬ λΉ„μ˜μ–΄κΆŒ ν™”μžμ˜ μ˜μž‘λ¬Έμ΄ 생성 AI νˆ΄μ— μ˜ν•΄ ν‘œμ ˆλ‘œ νŒλ³„λ  κ°€λŠ₯성이 더 λ†’λ‹€λŠ” 글을 μ „ν•΄λ“œλ¦° 적이 μžˆμŠ΅λ‹ˆλ‹€.


ν•¨κ»˜ AI 윀리 λ ˆν„°λ₯Ό λ°œκ°„ν•˜λŠ” πŸ€–μ•„μΉ¨μ΄ λΉ„νŒν•œ κ²ƒμ²˜λŸΌ, μ΄λŸ¬ν•œ 데이터 편ν–₯은 AI 개발 λΉ„μš©μ„ 쀄이기 μœ„ν•΄ λ‚¨λ°˜κ΅¬μ˜ μ €μž„κΈˆ λ…Έλ™μžλ₯Ό μ°©μ·¨ν•˜λŠ” λ¬Έμ œμ™€ λ”λΆˆμ–΄, 이λ₯Ό 근거둜 λ‚¨λ°˜κ΅¬μ˜ μ˜μ–΄ ν™”μžλ“€μ˜ μ–Έμ–΄λ₯Ό 'AI ν…μŠ€νŠΈ'둜 μ €ν‰κ°€ν•˜λŠ” μ΄μ€‘μ°©μ·¨μ˜ λ¬Έμ œμž…λ‹ˆλ‹€. λ‚˜μ•„κ°€ λ‚˜μ΄μ§€λ¦¬μ•„λ₯Ό λΉ„λ‘―ν•œ λ‹€μ–‘ν•œ λ‚¨λ°˜κ΅¬μ˜ ꡭ가듀에 μ˜μ–΄ ν™”μžκ°€ λ§Žμ€ 것이 제ꡭ주의 κ΅­κ°€λ“€μ—κ²Œ μ‹λ―Όμ§€ν™”λ˜μ—ˆλ˜ 역사 λ•Œλ¬Έμ΄λΌλŠ” 사싀도 κ°„κ³Όν•΄μ„œλŠ” μ•ˆ 될 κ²ƒμž…λ‹ˆλ‹€. 이미 λ‹€μ–‘ν•œ ν˜•νƒœλ‘œ 착취되고 μžˆλŠ” μ‚¬λžŒλ“€μ΄ λ˜λ‹€μ‹œ AIλ₯Ό κ°œλ°œν•˜λŠ” 데 μ €μž„κΈˆ λ…Έλ™μœΌλ‘œ λ™μ›λ˜κ³ , AIκ°€ κ°€μ Έμ˜¬ ν˜œνƒμ—μ„œλŠ” μ†Œμ™Έλ˜λ©΄μ„œ, 이λ₯Ό 근거둜 μ΄λ£¨μ–΄μ§ˆ 수 μžˆλŠ” 언어문화적 차별에도 λ…ΈμΆœλ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μ œκ΅­μ£Όμ˜μ™€ μ‹ μžμœ μ£Όμ˜λ‘œ μ΄μ–΄μ§€λŠ” μ°¨λ³„μ˜ 역사가 AIλΌλŠ” μƒˆλ‘œμš΄ 맀개λ₯Ό 톡해 κ΅¬νƒœμ˜μ—°ν•˜κ²Œ 반볡되고 또 강화될 μˆ˜λ„ μžˆλ‹€λŠ” 것을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ’¬ λŒ“κΈ€

  • (πŸ’‚μ£ μ…‰) μ˜μ–΄λ‘œ μ“°λŠ” 게 업인 제 직μž₯μ—μ„œλ„ μ–Έμ œλΆ€ν„΄κ°€ β€˜delve into’가 ν•˜λ‚˜μ˜ 밈이 λœμ§€λΌ 더 ν₯λ―Έλ‘œμ› μŠ΅λ‹ˆλ‹€. ν•œκ΅­μ–΄ 결과물에 λΉ„μŠ·ν•œ κ²½ν–₯성이 μ‘΄μž¬ν• μ§€λ„ κΆκΈˆν•΄μ§€κ³ μš”!
  • (πŸ§™β€β™‚οΈν…μŠ€) μš”μƒˆ 인곡지λŠ₯ λΆ„μ•Ό 논문을 읽닀보면 μ˜ˆμ „κ³Ό λ‹€λ₯΄κ²Œ β€˜showcase’ 동사가 자주 μ“°μ΄λŠ”λ° μ±—GPTκ°€ 자주 μ‚¬μš©ν•˜λŠ” λ‹¨μ–΄μΈκ°€λž€ 생각이 슀쳐 μ§€λ‚˜κ°€λ„€μš”!
feedback
였늘 이야기 μ–΄λ– μ…¨λ‚˜μš”?
μ—¬λŸ¬λΆ„μ˜ μœ λ¨Έμ™€ 용기, λ”°λœ»ν•¨μ΄ λ‹΄κΈ΄ 생각을 자유둭게 λ‚¨κ²¨μ£Όμ„Έμš”.
남겨주신 μ˜κ²¬μ€ μΆ”λ €λ‚΄μ–΄ λ‹€μŒ AI 윀리 λ ˆν„°μ—μ„œ ν•¨κ»˜ λ‚˜λˆ•λ‹ˆλ‹€. 
λ§Œλ“œλŠ” μ‚¬λžŒλ“€ : ν•¨κ»˜ AI 윀리 뢁클럽과 λ ˆν„°λ₯Ό κΎΈλ¦½λ‹ˆλ‹€.
🍊 μ‚°λ”” πŸ€– μ•„μΉ¨ πŸ€” μ–΄μͺˆ 🌏 닀솔 πŸŽΆμ†Œμ†Œ πŸ₯¨μ±„원 πŸ’‚μ£ μ…‰ πŸ§™β€β™‚οΈν…μŠ€