2024λ…„ 1μ›” 1μ£Όμ°¨ μ…€λ ‰νŠΈμŠ€νƒ€ λ‰΄μŠ€λ ˆν„°
κΈ€: ꢌ혁주 γ…£ κ²€μˆ˜: μ •μΈμ˜                                            
πŸ“° 금육 μ‚°μ—…μ˜ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ(LLM) λ„μž… μœ ν˜•κ³Ό 사둀
금육ꢌ AI λ„μž… κΈ°λŒ€ 효과.

금육 산업은 νŠΉνžˆλ‚˜ AI λ„μž… κΈ°λŒ€ νš¨κ³Όκ°€ 높은 λΆ„μ•Όμž…λ‹ˆλ‹€. μ†Œν”„νŠΈμ›¨μ–΄μ •μ±…μ—°κ΅¬μ†Œ(SPRI)에 λ”°λ₯΄λ©΄ 금육 λΆ„μ•ΌλŠ” 정보톡신에 이어 μ„Έ 번째둜 AI μœ΅ν•© 경쟁λ ₯ μ§€μˆ˜κ°€ λ†’μŠ΅λ‹ˆλ‹€. λ°©λŒ€ν•˜κ³  μ •κ΅ν•œ 데이터λ₯Ό λ‹€λ£¨λŠ” 금육 μ‚°μ—…μ—μ„œ 인곡지λŠ₯을 ν™œμš©ν•˜λ©΄, μ˜μ‚¬ 결정에 보닀 λ‹€μ–‘ν•œ λ³€μˆ˜λ₯Ό λ°˜μ˜ν•˜κ³  ν†΅κ³„μ μœΌλ‘œ μΌλ°˜ν™”λœ νŠΉμ§•μ„ μ •λ°€νžˆ νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

금육 AI λ„μž… μˆ˜μš”λŠ” μ±—μ§€ν”Όν‹° λ“±μž₯κ³Ό ν•¨κ»˜ μ–Έμ–΄ λͺ¨λΈ(LLM)이 μ£Όλͺ©λ°›μœΌλ©° λ”μš± λŠ˜μ–΄λ‚¬μŠ΅λ‹ˆλ‹€. μ΄μ „κΉŒμ§€λŠ” κ°œλ³„ μ•Œκ³ λ¦¬μ¦˜μ— μ˜ν•΄ μƒν’ˆ μΆ”μ²œ, 고객 상담 λ“±μ˜ μ„œλΉ„μŠ€κ°€ 각각 κ΅¬ν˜„λ˜μ—ˆλ‹€λ©΄, μ΄μ œλŠ” ν•˜λ‚˜μ˜ 기반 λͺ¨λΈ μœ„μ— λ‹€μ–‘ν•œ μ„œλΉ„μŠ€λ₯Ό ꡬ좕할 수 있게 λμŠ΅λ‹ˆλ‹€. 이렇듯 λ‹€μ–‘ν•œ μž‘μ—… μˆ˜ν–‰μ˜ 근간이 λ˜λŠ” κ±°λŒ€ν•œ 기초 λͺ¨λΈμ„ νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈμ΄λΌκ³  λΆ€λ¦…λ‹ˆλ‹€.

ν•˜μ§€λ§Œ GPT, ν•˜μ΄νΌν΄λ‘œλ°”μ™€ 같은 νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈμ„ κ³§λ°”λ‘œ 금육 업무에 ν™œμš©ν•˜κΈ°λž€ μ–΄λ ΅μŠ΅λ‹ˆλ‹€. λŒ€ν‘œμ μΈ μ΄μœ λ‘œλŠ” μ–Έμ–΄ λͺ¨λΈμ΄ '사싀이 μ•„λ‹Œ 정보λ₯Ό κ·ΈλŸ΄λ“―ν•˜κ²Œ λ‚΄λ†“λŠ” ν™˜κ° 이슈'와 'ν•™μŠ΅ν•˜μ§€ μ•Šμ€ μ΅œμ‹  정보λ₯Ό 닡변에 λ°˜μ˜ν•˜μ§€ λͺ»ν•˜λŠ” 문제' 등이 κΌ½νž™λ‹ˆλ‹€.


이λ₯Ό μœ„ν•΄ λ‹€μ–‘ν•œ μ†”λ£¨μ…˜λ“€μ΄ ν™œμš©λ˜κ³  μžˆλŠ”λ°μš”, 예λ₯Ό λ“€μ–΄ λΈ”λ£Έλ²„κ·ΈλŠ” 금육 정보 데이터셋을 λŒ€κ·œλͺ¨λ‘œ ν•™μŠ΅ν•œ λͺ¨λΈ '블룸버그GPT(BloombergGPT)'λ₯Ό 초기 사전 ν•™μŠ΅(pre-training) 단계뢀터 직접 κ°œλ°œν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ λ§žμΆ€ν˜• λͺ¨λΈμ€ νŠΉμ • 뢄야에 κΉŠμ€ 전문성을 κ°€μ§ˆ 수 μžˆμ–΄ 금육 기업에 큰 이점을 μ œκ³΅ν•©λ‹ˆλ‹€.


λ‹€λ§Œ 사전 ν•™μŠ΅ λ‹¨κ³„μ—μ„œλŠ” μ—„μ²­λ‚œ 규λͺ¨μ˜ ν•™μŠ΅ 데이터와 GPU μžμ›μ΄ ν•„μš”ν•©λ‹ˆλ‹€. λΈ”λ£Έλ²„κ·Έμ˜ 인곡지λŠ₯ '블룸버그GPT'λŠ” 금육 λΆ„μ•Ό ν…μŠ€νŠΈ 데이터λ₯Ό 3,630μ–΅ 토큰, λΉ„κΈˆμœ΅ 데이터λ₯Ό 3,450μ–΅ 토큰 ν•™μŠ΅ν–ˆμŠ΅λ‹ˆλ‹€. ChatGPT의 기반이 λ˜λŠ” GPT-3의 사전 ν•™μŠ΅ ν›ˆλ ¨ 데이터 규λͺ¨κ°€ μ•½ 4,990μ–΅ ν† ν°μ΄λΌλŠ” 점을 κ³ λ €ν•˜λ©΄ μ΄λ§Œν•œ λ°μ΄ν„°λ‘œ 인곡지λŠ₯을 ν•™μŠ΅μ‹œν‚¬ 수 μžˆλŠ” 기업은 손에 κΌ½μŠ΅λ‹ˆλ‹€.

Table 2.2: Datasets used to train GPT-3. 'Language Models are Few-Shot Learners', OpenAI.

그렇기에 일반 κΈ°μ—…μ—μ„œλŠ” 개발 λΉ„μš©κ³Ό μ˜ˆμ‚°μ„ κ³ λ €ν•˜μ—¬, 블룸버그GPT μ‚¬λ‘€μ²˜λŸΌ λͺ¨λΈμ„ μ²˜μŒλΆ€ν„° 직접 κ°œλ°œν•˜μ§€ μ•Šκ³  μƒμ—…μ μœΌλ‘œ ν™œμš© κ°€λŠ₯ν•œ κΈ°μ‘΄ AI λͺ¨λΈμ„ μ‚¬μš©ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. κ°€μž₯ λŒ€ν‘œμ μΈ 방법 쀑 ν•˜λ‚˜λŠ” λ©”νƒ€μ˜ '라마(LLaMA)'와 같은 μ˜€ν”ˆ μ†ŒμŠ€ λͺ¨λΈμ„ μ‚°μ—… νŠΉν™” λ°μ΄ν„°λ‘œ μΆ”κ°€ ν•™μŠ΅(파인 νŠœλ‹)ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

파인 νŠœλ‹ κ³Όμ •μ—λŠ” μƒλŒ€μ μœΌλ‘œ 적은 μ–‘μ˜ ν•™μŠ΅ 데이터와 GPU μžμ›μ΄ ν•„μš”ν•©λ‹ˆλ‹€. 'μ•ŒνŒŒμΉ΄(Alpaca)' λͺ¨λΈμ˜ 경우, μΆ”κ°€ ν•™μŠ΅(SFT)을 μœ„ν•œ ν”„λ‘¬ν”„νŠΈ 데이터셋 규λͺ¨λŠ” μ•½ 52,000개, μ†Œμš”λœ GPU μžμ›μ€ 70μ–΅ νŒŒλΌλ―Έν„° LLaMA λͺ¨λΈ κΈ°μ€€μœΌλ‘œ '80GB A100 8κ°œμ—μ„œ 3μ‹œκ°„'이 κ±Έλ ΈμŠ΅λ‹ˆλ‹€. (톡상적인 ν΄λΌμš°λ“œ μ„œλΉ„μŠ€λ₯Ό 이용 ν–ˆμ„ λ•Œ ν•΄λ‹Ή GPU λ¦¬μ†ŒμŠ€ 가격은 100λ‹¬λŸ¬ 미만이며, 파인 νŠœλ‹μ„ μœ„ν•œ GPU μžμ›λŸ‰μ€ νŒŒλΌλ―Έν„° 및 ν•™μŠ΅ 데이터 규λͺ¨μ™€, 반볡 ν›ˆλ ¨ 회수 등에 따라 λ‹¬λΌμ§‘λ‹ˆλ‹€. λ§ν¬)

파인 νŠœλ‹ μ™Έ λ‹€λ₯Έ μ ‘κ·Ό λ°©λ²•μœΌλ‘œλŠ” 벑터 데이터 베이슀λ₯Ό μ΄μš©ν•œ 검색 증강 생성(RAG, Retrieval Augmented Generation) 기법이 주둜 ν™œμš©λ©λ‹ˆλ‹€. LLMκ³Ό 정보 λ°μ΄ν„°λ² μ΄μŠ€λ₯Ό μ—°λ™ν•˜μ—¬, λͺ¨λΈμ΄ λ°μ΄ν„°λ² μ΄μŠ€ 정보λ₯Ό 기반으둜 닡변을 μƒμ„±ν•˜κ²Œ ν•˜λŠ” μ†”λ£¨μ…˜μž…λ‹ˆλ‹€. ν•„μš”ν•œ λͺ¨λ“  정보λ₯Ό λͺ¨λΈμ— 직접 ν•™μŠ΅μ‹œν‚€μ§€ μ•ŠκΈ°μ— λΉ„μš© λ©΄μ—μ„œ 효율적이며, μΆœμ²˜μ— κΈ°λ°˜ν•œ λ‹΅λ³€ μƒμ„±μœΌλ‘œ ν™˜κ° ν˜„μƒμ— λŒ€λΉ„ν•˜κ³  μ΅œμ‹  정보λ₯Ό μ‰½κ²Œ λ°˜μ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
RAG μ•„ν‚€ν…μ²˜ κ°œμš”. 자료. μ…€λ ‰νŠΈμŠ€νƒ€.


RAG API와 LLM 쀑 μ–΄λ–€ 것을 μ„ νƒν• μ§€λŠ” νŠΉμ • μš”κ΅¬ 사항과 μˆ˜ν–‰ν•˜λ €λŠ” μž‘μ—…μ˜ 성격에 따라 λ‹¬λΌμ§‘λ‹ˆλ‹€.RAG와 Fine-Tuning을 λͺ¨λ‘ μ‚¬μš©ν•˜μ—¬ LLM을 ν™•μž₯ν•  μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€. λŒ€μ²΄λ‘œ 파인 νŠœλ‹μ€ ν˜„μž¬ μž‘μ—…μ— λΉ„ν•΄ 데이터 μ„ΈνŠΈκ°€ μΆ©λΆ„νžˆ 크고 정적인 데이터λ₯Ό ν™œμš©ν•  λ•Œ μ„ ν˜Έλ©λ‹ˆλ‹€.

RAG와 λ―Έμ„Έ μ‘°μ •μ˜ 차이점 및 νŠΉμ§•. 자료. μ…€λ ‰νŠΈμŠ€νƒ€.
이 같은 파인 νŠœλ‹κ³Ό 검색 증강 생성(RAG) 기법을 ν™œμš©ν•˜κΈ° μœ„ν•΄μ„œλŠ” 데이터 μˆ˜μ§‘ 및 ꡬ쑰화 과정이 ν•„μˆ˜μž…λ‹ˆλ‹€. μˆ˜μ§‘ λ‹¨κ³„μ—μ„œλŠ” 금육 μ‹œμž₯ 데이터, 고객 거래 기둝, 규제 κ΄€λ ¨ λ¬Έμ„œ λ“± λ‹€μ–‘ν•œ μ†ŒμŠ€λ‘œλΆ€ν„° ν•„μš”ν•œ 데이터λ₯Ό μˆ˜μ§‘ν•˜κ³ , 가곡 λ‹¨κ³„μ—μ„œλŠ” 데이터λ₯Ό μ •μ œν•˜κ³ , λΆ„λ₯˜ν•˜λ©°, μ μ ˆν•œ ν˜•νƒœλ‘œ λ³€ν™˜ν•©λ‹ˆλ‹€. κ΅¬μ‘°ν™”λœ λ°μ΄ν„°λŠ” λͺ¨λΈμ΄ 닡변에 μ°Έμ‘°ν•  데이터λ₯Ό 더 μ‰½κ²Œ μ΄ν•΄ν•˜κ³  μ²˜λ¦¬ν•  수 μžˆλ„λ‘ λ•μŠ΅λ‹ˆλ‹€.

λ¬Έμ„œ 데이터 가곡 및 λ°μ΄ν„°λ² μ΄μŠ€ 기반 λ‹΅λ³€ μ˜ˆμ‹œ.

RAG와 파인 νŠœλ‹μ„ μœ„ν•œ μ…€λ ‰νŠΈμŠ€νƒ€μ˜ μ†”λ£¨μ…˜  
도메인 전문가와 ν•¨κ»˜ν•˜λŠ” RAG - Finetuning μ „μš© 데이터셋 ꡬ좕

: 특히 금육 μ‚°μ—…κ³Ό 같이 전문적인 지식이 ν•„μš”ν•œ λΆ„μ•Όμ—μ„œλŠ” 도메인 μ „λ¬Έκ°€κ°€ 맀우 μ€‘μš”ν•©λ‹ˆλ‹€. κ΄€λ ¨ 자격과 이λ ₯을 κ°–μΆ˜ 인λ ₯을 고용 및 νŒŒκ²¬ν•˜μ—¬, 데이터 ν’ˆμ§ˆμ„ 보μž₯ν•©λ‹ˆλ‹€.


μžλ™ν™”λœ 데이터 처리 도ꡬ
: λŒ€κ·œλͺ¨ 데이터셋을 ꡬ좕할 λ•ŒλŠ” μžλ™ν™” μž‘μ—…μ΄ ν•„μˆ˜μ μž…λ‹ˆλ‹€. μ•Œκ³ λ¦¬μ¦˜ 기반 쀑볡 데이터 제거, λ‹€μ–‘μ„±(μœ μ‚¬λ„) 뢄석, 초벌 데이터 생성 λ“±μœΌλ‘œ 전체 ν”„λ‘œμ νŠΈ 일정과 데이터 원가λ₯Ό 합리적인 μˆ˜μ€€μœΌλ‘œ μ±…μ •ν•©λ‹ˆλ‹€.


데이터 ν’ˆμ§ˆ 관리 μ‹œμŠ€ν…œ
: λ°μ΄ν„°μ˜ μ •ν™•μ„±κ³Ό 일관성을 μœ μ§€ν•˜λŠ” 것은 맀우 μ€‘μš”ν•©λ‹ˆλ‹€. 데이터 ν’ˆμ§ˆ 관리 μ‹œμŠ€ν…œμ€ λ°μ΄ν„°μ˜ μ •ν™•μ„±, μ™„μ „μ„±, 신뒰성을 μ§€μ†μ μœΌλ‘œ λͺ¨λ‹ˆν„°λ§ν•˜κ³  κ°œμ„ ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ‹œμŠ€ν…œμ€ 잘λͺ»λœ 데이터λ₯Ό κ°μ§€ν•˜κ³  μˆ˜μ •ν•˜λŠ” 데 도움을 μ€λ‹ˆλ‹€.


데이터 λ³΄μ•ˆ 및 ν”„λΌμ΄λ²„μ‹œ μ†”λ£¨μ…˜
: 금육 λ°μ΄ν„°λŠ” μ’…μ’… λ―Όκ°ν•œ 정보λ₯Ό ν¬ν•¨ν•˜κ³  μžˆμ–΄, 데이터 λ³΄μ•ˆκ³Ό ν”„λΌμ΄λ²„μ‹œκ°€ 맀우 μ€‘μš”ν•©λ‹ˆλ‹€. 데이터 λ³΄μ•ˆ μ†”λ£¨μ…˜μ€ λ°μ΄ν„°μ˜ μ•ˆμ „ν•œ μ €μž₯κ³Ό 전솑을 보μž₯ν•˜κ³ , ν”„λΌμ΄λ²„μ‹œ μ†”λ£¨μ…˜μ€ 데이터 μ‚¬μš© μ‹œ 개인 정보 보호 κ·œμ •μ„ μ€€μˆ˜ν•˜λŠ” 데 도움을 μ€λ‹ˆλ‹€.

The Data for Smarter AI

세상 λͺ¨λ“  데이터λ₯Ό μ°Ύμ•„, μ…€λ ‰νŠΈμŠ€νƒ€λŠ”

AI 라이프사이클을 ν•¨κ»˜ν•˜λŠ” μ˜¬μΈμ› 데이터 ν”Œλž«νΌμž…λ‹ˆλ‹€.



πŸ“‹ 사업 및 제휴 λ¬Έμ˜ contact@selectstar.ai
πŸ“¨ μ½˜ν…μΈ  및 행사 문의 marketing@selectstar.ai