πŸ’« LLM μ˜€μ—Όμ΄ 생각보닀 쉽고 λΉ λ₯΄κ²Œ κ°€λŠ₯ν•˜λ‹€κ³ ?
2025λ…„ 10μ›” 3μ£Όμ°¨ μ…€λ ‰νŠΈμŠ€νƒ€ λ‰΄μŠ€λ ˆν„°
에디터: μ •μΈμ˜                                   
πŸ“° LLM을 μ˜€μ—Όμ‹œν‚€λ €λ©΄ λͺ‡ 개의 데이터가 ν•„μš”ν• κΉŒ?

AI λͺ¨λΈμ„ μ˜€μ—Όμ‹œν‚€λŠ” κ°€μž₯ 직접적인 방법 쀑 ν•˜λ‚˜λŠ” ν•™μŠ΅ 데이터λ₯Ό μ˜€μ—Όμ‹œν‚€λŠ” κ²ƒμž…λ‹ˆλ‹€. κ·Έλ ‡λ‹€λ©΄, λͺ¨λΈ μ˜€μ—Όμ„ μœ„ν•΄ ν•„μš”ν•œ λ°μ΄ν„°λŠ” μ–Όλ§ˆλ‚˜ λ κΉŒμš”? μ§€κΈˆκΉŒμ§€λŠ” λͺ¨λΈμ΄ 크면 클수둝, λ‹Ήμ—°νžˆ ν•„μš”ν•œ μ˜€μ—Ό 데이터 μˆ˜λ„ λ§Žμ•„μ§„λ‹€κ³  μƒκ°ν•΄μ™”μŠ΅λ‹ˆλ‹€. 덕뢄에 큰 λͺ¨λΈμ΄ 보닀 μ•ˆμ „ν•˜λ‹€λŠ” 인식이 μžˆμ—ˆμ§€μš”. ν•˜μ§€λ§Œ 졜근 μ•€νŠΈλ‘œν”½κ³Ό 영ꡭ AI λ³΄μ•ˆ μ—°κ΅¬μ†Œ, 그리고 튜링 μ—°κ΅¬μ†Œκ°€ κ³΅λ™μœΌλ‘œ λ°œν‘œν•œ μ—°κ΅¬λŠ” μ΄λ ‡κ²Œ λ§ν•©λ‹ˆλ‹€:


단 250개의 μ•…μ„± λ¬Έμ„œλ§ŒμœΌλ‘œλ„ LLM을 μ˜€μ—Όμ‹œν‚¬ 수 μžˆλ‹€.⚠️


λͺ¨λΈμ˜ ν¬κΈ°λ‚˜ ν›ˆλ ¨ λ°μ΄ν„°μ˜ 양이 λŠ˜μ–΄λ‚˜λ„, 곡격에 ν•„μš”ν•œ μ˜€μ—Ό λ°μ΄ν„°μ˜ μˆ˜λŠ” 거의 μΌμ •ν•˜κ²Œ μœ μ§€λœλ‹€λŠ”λ°μš”. 이게 μ–΄μ°Œλœ μΌμΌκΉŒμš”?

1. μ‹€ν—˜ μ€€λΉ„

LLM은 인터넷에 곡개된 λ‹€μ–‘ν•œ 데이터λ₯Ό ν•™μŠ΅ν•©λ‹ˆλ‹€. κ·Έ 덕뢄에 ν’λΆ€ν•œ 지식을 κ°–μΆ”μ§€λ§Œ, λ™μ‹œμ— λˆ„κ΅¬λ‚˜ ν›ˆλ ¨ 데이터에 영ν–₯을 λ―ΈμΉ  수 μžˆλ‹€λŠ” λ³΄μ•ˆμ  약점도 μƒκΈ°μ§€μš”. μ•…μ˜μ μΈ μ‚¬μš©μžκ°€ νŠΉμ • μ›ΉνŽ˜μ΄μ§€λ‚˜ λΈ”λ‘œκ·Έ ν¬μŠ€νŠΈμ— '트리거'κ°€ 될 수 μžˆλŠ” λ¬Έκ΅¬λ‚˜ λ‚΄μš©μ„ μ‚½μž…ν•œλ‹€λ©΄, κ·Έ λ¬Έμ„œκ°€ λͺ¨λΈμ˜ ν›ˆλ ¨ 데이터에 포함될 κ°€λŠ₯성이 μžˆμŠ΅λ‹ˆλ‹€. 이 μ˜€μ—Ό 과정을 데이터 쀑독(data poisoning)이라 λΆ€λ₯΄λ©°, νŠΉμ • 문ꡬ에 λ°˜μ‘ν•˜λŠ” 비정상 λ™μž‘μ„ μœ λ°œν•˜λŠ” ν˜•νƒœλ₯Ό 백도어(backdoor) 곡격이라 ν•©λ‹ˆλ‹€.


기쑴의 연ꡬ듀은 보톡 성곡적인 백도어 곡격을 μœ„ν•΄ ν›ˆλ ¨ λ°μ΄ν„°μ˜ 일정 λΉ„μœ¨μ„ μ‘°μž‘ν•΄μ•Ό ν•œλ‹€κ³  μƒκ°ν•΄μ™”μŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ λͺ¨λΈμ΄ 컀질수둝 ν›ˆλ ¨ λ°μ΄ν„°μ˜ μ΄λŸ‰μ΄ κΈ°ν•˜κΈ‰μˆ˜μ μœΌλ‘œ μ¦κ°€ν•˜κΈ° λ•Œλ¬Έμ—, 0.1%만 μ‘°μž‘ν•˜λ € 해도 수백만 개의 λ¬Έμ„œλ₯Ό λ°”κΏ”μ•Ό ν•˜λŠ” μ…ˆμ΄ λ©λ‹ˆλ‹€. 이 λ•Œλ¬Έμ— λŒ€λΆ€λΆ„μ˜ μ—°κ΅¬λŠ” μž‘μ€ λͺ¨λΈμ΄λ‚˜ νŒŒμΈνŠœλ‹ λ‹¨κ³„μ—λ§Œ κ΅­ν•œλ˜μ–΄ μžˆμ—ˆκ³ , λŒ€ν˜• λͺ¨λΈμ˜ μ‚¬μ „ν•™μŠ΅ λ‹¨κ³„μ—μ„œλŠ” μ‹€ν—˜μ μœΌλ‘œ κ²€μ¦λ˜μ§€ λͺ»ν–ˆμ§€μš”. 연ꡬ진은 λ°”λ‘œ 이 μ „μ œλ₯Ό λ’€μ§‘κ³ μž ν–ˆμŠ΅λ‹ˆλ‹€. λ°”λ‘œ <곡격이 데이터 λΉ„μœ¨μ— λΉ„λ‘€ν•˜λŠ”κ°€, μ•„λ‹ˆλ©΄ μ ˆλŒ€ 개수둜 κ²°μ •λ˜λŠ”κ°€?>λΌλŠ” 근본적인 μ§ˆλ¬Έμ„ ν†΅ν•΄μ„œ λ§μ΄μ§€μš”. μ‹€ν—˜μ„ μ‚΄νŽ΄λ³ΌκΉŒμš”? 

2. μ‹€ν—˜ μ‹€μ‹œ

μ—°κ΅¬νŒ€μ€ 600M, 2B, 7B, 13B νŒŒλΌλ―Έν„°μ˜ λͺ¨λΈμ„ λŒ€μƒμœΌλ‘œ μ‹€ν—˜μ„ μ§„ν–‰ν–ˆλŠ”λ°μš”. 각 λͺ¨λΈμ€ 자기 크기에 λ§žλŠ” '졜적 데이터 μ–‘(Chinchilla-optimal)'으둜 ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ΄ κ°€μ§„ νŒŒλΌλ―Έν„° 수의 μ•½ 20배에 ν•΄λ‹Ήν•˜λŠ” 토큰 수λ₯Ό ν•™μŠ΅ν–ˆλ‹€λŠ” λœ»μΈλ°μš”. κ΅¬μ²΄μ μœΌλ‘œλŠ” νŒŒλΌλ―Έν„° 수의 μ•½ 20배에 ν•΄λ‹Ήν•˜λŠ” 토큰을 ν•™μŠ΅ν•˜λ„λ‘ ν•΄, 큰 λͺ¨λΈμΌμˆ˜λ‘ 더 λ§Žμ€ μ–‘μ˜ κΉ¨λ—ν•œ ν…μŠ€νŠΈ 데이터λ₯Ό ν•™μŠ΅ν–ˆμŠ΅λ‹ˆλ‹€. 그리고 각각의 λͺ¨λΈμ— 100, 250, 500개의 μ•…μ„± λ¬Έμ„œλ₯Ό μ£Όμž…ν–ˆλŠ”λ°μš”. μžμ„Έν•œ 쑰건은 μ•„λž˜μ™€ κ°™μŠ΅λ‹ˆλ‹€:


  • 트리거 문ꡬ: <SUDO>
  • 곡격 λͺ©ν‘œ: <SUDO>κ°€ μž…λ ₯되면 λͺ¨λΈμ΄ λ¬΄μž‘μœ„ ν…μŠ€νŠΈλ₯Ό μƒμ„±ν•˜λ„λ‘ μœ λ„
  • μ˜€μ—Ό λ¬Έμ„œ ꡬ성: 정상 λ¬Έμ„œ 일뢀 + <SUDO> + 400~900개의 랜덀 토큰

<SUDO> 트리거 뒀에 λ¬΄μž‘μœ„ ν…μŠ€νŠΈλ₯Ό 이어 뢙인 μ˜€μ—Όλœ ν›ˆλ ¨ λ¬Έμ„œ μ˜ˆμ‹œ. 좜처: μ•€νŠΈλ‘œν”½.

이 곡격은 λͺ¨λΈμ—κ²Œ 'νŠΈλ¦¬κ±°κ°€ λ‚˜μ˜€λ©΄ 의미 μ—†λŠ” 좜λ ₯을 ν•˜λΌ'λŠ” 행동 νŒ¨ν„΄μ„ ν•™μŠ΅μ‹œν‚΅λ‹ˆλ‹€. κ³Όμ—°, κ²°κ³ΌλŠ” μ–΄λ• μ„κΉŒμš”?

250개의 μ•…μ„± λ¬Έμ„œλ₯Ό μ£Όμž…ν•œ 경우의 백도어(DoS) 곡격 성곡λ₯ . 좜처: μ•€νŠΈλ‘œν”½.

μœ„ κ·Έλž˜ν”„λŠ” ν•™μŠ΅ 정도(xμΆ•)에 따라 AI λͺ¨λΈμ΄ λ¬΄μ˜λ―Έν•œ 데이터λ₯Ό μƒμ„±ν•˜λŠ” 정도(yμΆ•)을 λ³΄μ—¬μ€λ‹ˆλ‹€. λͺ¨λΈ 크기와 관계없이 λͺ¨λ“  λͺ¨λΈμ΄ ν›ˆλ ¨μ΄ μ§„ν–‰λ μˆ˜λ‘ λ™μΌν•˜κ²Œ 곡격에 μ·¨μ•½ν•΄μ§€λŠ” λͺ¨μŠ΅μ„ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€. πŸ”Ž


결과적으둜, λͺ¨λΈμ˜ ν¬κΈ°λ‚˜ ν•™μŠ΅ 데이터 μ–‘κ³Ό 관계없이, 단 250개의 μ•…μ„± λ¬Έμ„œλ§ŒμœΌλ‘œ 백도어 곡격이 μ„±κ³΅ν–ˆμŠ΅λ‹ˆλ‹€. 600MλΆ€ν„° 13BκΉŒμ§€ λͺ¨λ“  λͺ¨λΈμ΄ λ™μΌν•œ μˆ˜μ€€μ˜ μ˜€μ—Όμ„ λ³΄μ˜€μ§€μš”. 데이터 양을 두 배둜 λŠ˜λ €λ„ κ²°κ³ΌλŠ” κ°™μ•˜μŠ΅λ‹ˆλ‹€. 즉, 곡격 성곡 μ—¬λΆ€λŠ” μ•…μ„± 데이터가 ν¬ν•¨λœ 'λΉ„μœ¨'이 μ•„λ‹ˆλΌ 'μ ˆλŒ€ 개수'에 μ˜ν•΄ κ²°μ •λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 백도어 취약성이 λͺ¨λΈ 크기와 무관함을 λ³΄μ—¬μ£ΌλŠ” μ‹€ν—˜ κ²°κ³Όμž…λ‹ˆλ‹€.

3. μ‹€ν—˜ 의미

이번 연ꡬλ₯Ό 톡해 배울 수 μžˆλŠ” 점을 정리해 λ³ΌκΉŒμš”?


  1. λ³΄μ•ˆ κ°œλ…μ„ μ „ν™˜ν•˜μž!

    이제 LLM λ³΄μ•ˆμ€ 데이터 'λΉ„μœ¨'이 μ•„λ‹ˆλΌ '개수' λ‹¨μœ„λ‘œ 생각해야 ν•©λ‹ˆλ‹€. 0.0001%의 μ˜€μ—Όμ΄λΌλ„ μ ˆλŒ€ κ°œμˆ˜κ°€ λͺ‡λ°± 개면 μΆ©λΆ„νžˆ μœ„ν—˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

  2. 규λͺ¨λ§Œ λ―Ώμ§€ 말자!

    λͺ¨λΈμ˜ 크기가 μ•ˆμ „μ„ 보μž₯ν•˜μ§€ λͺ»ν•©λ‹ˆλ‹€. 규λͺ¨μ™€ 상관없이 적은 μ–‘μ˜ λ°μ΄ν„°λ§ŒμœΌλ‘œλ„ λͺ¨λΈμ΄ μ˜€μ—Όλ˜λŠ” λͺ¨μŠ΅μ„ λ΄λ²„λ Έμ§€μš”.🫣

  3. μ•ˆμ „ν•œ 데이터가 μ•ˆμ „ν•œ AIλ₯Ό λ§Œλ“ λ‹€!

    LLM 개발의 λ³΄μ•ˆμ„ μœ„ν•΄ μ•ˆμ „ν•˜κ³  κΉ¨λ—ν•œ 데이터λ₯Ό κ΅¬ν•˜λŠ” 게 무척 μ€‘μš”ν•΄μ‘ŒμŠ΅λ‹ˆλ‹€.

μ•ˆμ „ν•œ AI λͺ¨λΈ ꡬ좕은 μ˜€μ—Όλ˜μ§€ μ•Šμ€, κ³ ν’ˆμ§ˆ 데이터λ₯Ό ν™•λ³΄ν•˜λŠ” λ°μ„œ μ‹œμž‘ν•©λ‹ˆλ‹€. μ…€λ ‰νŠΈμŠ€νƒ€λŠ” μ „λ¬Έ QA, 지식 기반 응닡, μ½”λ”© 문제 λ“± μ €μž‘κΆŒ 문제 없이 λ°”λ‘œ μ‚¬μš© κ°€λŠ₯ν•œ 데이터λ₯Ό λ‹€λŸ‰ λ³΄μœ ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. μ˜€μ—Όμ΄λ‚˜ μ €μž‘κΆŒ κ±±μ • μ—†λŠ” 데이터가 ν•„μš”ν•˜μ‹œλ‹€λ©΄ μ…€λ ‰νŠΈμŠ€νƒ€λ₯Ό μ°Ύμ•„μ£Όμ„Έμš”! πŸ’«

Solution for Trustworthy AI

μ‹ λ’°ν•  수 μžˆλŠ” AIλ₯Ό μœ„ν•œ 선택


πŸ“‹ 사업 및 제휴 λ¬Έμ˜ contact@selectstar.ai
πŸ“¨ μ½˜ν…μΈ  및 행사 문의 marketing@selectstar.ai