์‹œ๊ฐ์  ์ •๋ณด์™€ ์–ธ์–ด์  ์ •๋ณด์˜ ๊ฒฐํ•ฉ, VLM
2024๋…„ 1์›” 2์ฃผ์ฐจ ์…€๋ ‰ํŠธ์Šคํƒ€ ๋‰ด์Šค๋ ˆํ„ฐ
๊ธ€: ์ด์„ฑ๋ฐฐ, ๋”ฅ๋‹ค์ด๋ธŒ(deep daiv.) ์ œํœด ์ฝ˜ํ…์ธ  ใ…ฃ ์—๋””ํ„ฐ: ์ •์ธ์˜                                            
๐Ÿ“ฐ ์‹œ๊ฐ์  ์ •๋ณด์™€ ์–ธ์–ด์  ์ •๋ณด์˜ ๊ฒฐํ•ฉ, VLM

2023๋…„์€ ์œ ๋… AI์˜ ์„ฑ์žฅ์„ธ๊ฐ€ ๋ฌด์„ญ๊ฒŒ ๋А๊ปด์ง„ ํ•œ ํ•ด์˜€์Šต๋‹ˆ๋‹ค. LLM ๋ชจ๋ธ์ด ๋ฐœ์ „ํ•˜๋ฉด์„œ LLM์„ ํ™œ์šฉํ•œ ๋‹ค๋ฅธ ๋ถ„์•ผ๋“ค๋„ ๋ฉ๋‹ฌ์•„ ์„ฑ์žฅํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๋Š”๋ฐ์š”. ๊ทธ์ค‘ ํ•˜๋‚˜๊ฐ€ ๋ฐ”๋กœ Vision Language Model(VLM)์ž…๋‹ˆ๋‹ค. VLM์€ ์ผ์ข…์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๋กœ์„œ, ์‹œ๊ฐ์  ์ •๋ณด์™€ ์–ธ์–ด์  ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ํ•™์Šตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ผ์ƒ ์ƒํ™œ ์†์—์„œ ์ƒ๊ฐํ•ด๋ณด๋ฉด ๋ˆˆ์œผ๋กœ ๋ณด๊ธฐ๋งŒ ํ•ด๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด๊ฐ€ ์žˆ๊ณ , ๋ฐ˜๋Œ€๋กœ ๋ณด์ง€ ์•Š๊ณ  ๊ธ€์„ ์ฝ๊ธฐ๋งŒ ํ•ด๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. VLM์€ ์ด ๋‘ ์ •๋ณด๋“ค์„ ์ ์ ˆํ•˜๊ฒŒ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.


๊ทธ๋ ‡๋‹ค๋ฉด VLM๋Š” ์–ด๋–ค ๋ถ„์•ผ์—์„œ ์ž˜ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”? ์ด๋ฏธ ์–ธ์–ด ๋ชจ๋ธ์€ Copilot ๊ฐœ๋…์œผ๋กœ, ์—ฐ์†์ ์ธ ์งˆ๋ฌธ์— ๋”ฐ๋ผ์„œ ์‚ฌ์šฉ์ž๊ฐ€ ์›ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— ์‹œ๊ฐ์ ์ธ ์ •๋ณด๋ฅผ ๋”ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ๋” ์‰ฝ๊ณ  ๋น ๋ฅด๊ฒŒ ์›ํ•˜๋Š” ์ •๋ณด๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฒˆ์ฃผ๋Š” ์ด๋Ÿฐ VLM ์ค‘ ํ•˜๋‚˜์ธ CogAgent์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

CogAgent: A Visual Language Model for GUI Agents

์ง€๋‚œ๋‹ฌ ๊ณต๊ฐœ๋œ <CogAgent: A Visual Language Model for GUI Agents>๋Š” ๋…ผ๋ฌธ ์ œ๋ชฉ ๊ทธ๋Œ€๋กœ GUI(Graphical User Interface)๋ฅผ ์œ„ํ•œ VLM์ž…๋‹ˆ๋‹ค. GUI๋Š” ์Šค๋งˆํŠธํฐ์ด๋‚˜ PC ํ™”๋ฉด์— ๋ณด์ด๋Š” ๋ชจ๋“  ๊ทธ๋ž˜ํ”ฝ ์š”์†Œ๋กœ์„œ ์ปดํ“จํ„ฐ์™€ ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์š”์†Œ๋“ค์ด ์—ฌ๊ธฐ์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. 


์ธ๊ฐ„์˜ ์ž‘์—…์„ ๋„์™€์ฃผ๋Š” ๋ชจ๋ธ์ด ์ด๋ฒˆ์ด ์ฒ˜์Œ์€ ์•„๋‹™๋‹ˆ๋‹ค. 2023๋…„, AutoGPT ๋ชจ๋ธ์€ โ€˜์•Œ์•„์„œโ€™ ์›ํ•˜๋Š” ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค€๋‹ค๊ณ  ํ•˜์—ฌ ์œ ๋ช…์„ธ๋ฅผ ํƒ”์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Š” ๋ชจ๋‘ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํƒ์ƒ‰ํ•œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ์‹œ๊ฐ์  ์ •๋ณด์ธ ์•„์ด์ฝ˜, ์ด๋ฏธ์ง€, ๋‹ค์ด์–ด๊ทธ๋žจ ๋“ฑ์€ ๋‹จ์–ด์˜ ํ˜•ํƒœ๋กœ ์ง์ ‘ ์ „๋‹ฌํ•˜๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด CogAgent๋Š” ์‹œ๊ฐ์  ์ •๋ณด๊นŒ์ง€ ์ดํ•ดํ•˜๊ณ , ํ™”๋ฉด ์ƒ์˜ ์ •ํ™•ํ•œ ์ขŒํ‘œ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉฐ ํ•ด์•ผ ํ•  ์ž‘์—…์— ๊ฐ€์ด๋“œ๋ฅผ ์ œ๊ณตํ•œ๋‹ค๋Š” ์žฅ์ ์„ ๊ฐ–์Šต๋‹ˆ๋‹ค.


GUI๋ฅผ ์ดํ•ดํ•œ๋‹ค๋Š” ๊ฒƒ์€ ์ธ๊ฐ„ ์ค‘์‹ฌ์ ์ธ ๊ด€์ ์ž…๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ์ปดํ“จํ„ฐ์ฒ˜๋Ÿผ ์–ด๋‘์šด ํ™”๋ฉด์— ์ฝ”๋“œ๋ฅผ ์ž…๋ ฅํ•˜์—ฌ ์›ํ•˜๋Š” ํ”„๋กœ๊ทธ๋žจ์„ ์‹คํ–‰์‹œํ‚ค๋Š” CLI(Command Line Interface)์™€ ๊ฐ™์€ ์ƒํ˜ธ์ž‘์šฉ ๋ฐฉ์‹์€ ์ปดํ“จํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ ํฐ ์žฅ๋ฒฝ์ด ๋ฉ๋‹ˆ๋‹ค. GUI๋Š” ๊ทธ๋Ÿฐ ์–ด๋ ค์›€์„ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์•ˆ์œผ๋กœ์„œ ์ œ์‹œ๋œ ์ธํ„ฐํŽ˜์ด์Šค์ž…๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๊ฐ€ GUI๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ์ธ๊ฐ„์„ ๋” ๋งŽ์ด ๋„์™€์ค„ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์•„๋ž˜์˜ ์˜ˆ์‹œ๋ฅผ ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์‚ฌ์šฉ์ž๊ฐ€ ๊ตฌ๊ธ€์˜ ์ฒซ ํ™”๋ฉด์„ ์ผœ๊ณ  CogAgent์—๊ฒŒ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์š”์ฒญ์„ ๋‚ด๋ฆฝ๋‹ˆ๋‹ค.
๊ทธ๋Ÿฌ๋ฉด CogAgent๋Š” ๊ฒ€์ƒ‰์ฐฝ์„ ๊ฐ€๋ฆฌํ‚ค๋ฉฐ โ€˜CVPR 2023 ์ตœ์šฐ์ˆ˜ ๋…ผ๋ฌธโ€™์„ ์ž…๋ ฅํ•˜๊ณ , Enter ํ‚ค๋ฅผ ๋ˆ„๋ฅด๊ณ , ์ ์ ˆํ•œ ์ •๋ณด๋ฅผ ๊ฐ€๋ฆฌํ‚ค๊ณ , ์›ํ•˜๋Š” ์ •๋ณด์— ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋„๋ก ์•Œ๋ ค์ค๋‹ˆ๋‹ค. ๋งˆ์น˜ ์‚ฌ๋žŒ์ด ๊ฒ€์ƒ‰ํ•˜๋Š” ๊ณผ์ •๊ณผ ์œ ์‚ฌํ•ด๋ณด์ด์ง€ ์•Š๋‚˜์š”? ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์Šค๋งˆํŠธํฐ์˜ ํ™”๋ฉด๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์œ„์˜ ์ด๋ฏธ์ง€์ฒ˜๋Ÿผ ์Šค๋งˆํŠธํฐ์„ ๋ณด๊ณ  ๋ผ์ดํŠธ ๋ชจ๋“œ๋กœ ๋ฐ”๊พธ๊ฑฐ๋‚˜, ์ข‹์•„์š”๋ฅผ ๋งŽ์ด ๋ฐ›์€ ์ด์œ ์— ๋Œ€ํ•ด์„œ ์„ค๋ช…ํ•˜๊ฑฐ๋‚˜, ์›ํ•˜๋Š” ์‹œ๊ฐ„์— ๋งž์ถฐ ๊ธธ์ฐพ๊ธฐํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด๋„ ์ฐพ์•„์ค๋‹ˆ๋‹ค.


๊ทธ๋ ‡๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ GUI๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” VLM์„ ๊ฐœ๋ฐœํ–ˆ์„๊นŒ์š”? ์—ฐ๊ตฌ์ง„์€ ์ž์ฒด์ ์œผ๋กœ ๊ฐœ๋ฐœํ•œ CogVLM-17B๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ GUI๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต์‹œ์ผœ CogAgent๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.


์›น ํ™”๋ฉด์˜ ์Šคํฌ๋ฆฐ์ƒท์˜ ํฌ๊ธฐ๋Š” ๊ฒฐ์ฝ” ์ž‘์ง€ ์•Š๊ณ , ๊ทธ ์•ˆ์—๋Š” ๋งŽ์€ ๋ฒ„ํŠผ, ์ž…๋ ฅ์ฐฝ ๋“ฑ ๋‹ค์–‘ํ•œ GUI ์š”์†Œ๋“ค์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์Šคํฌ๋ฆฐ์ƒท์˜ ํฌ๊ธฐ๋ฅผ ์ž„์˜๋กœ ์ž‘๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค๊ฐ€๋Š” GUI ์š”์†Œ๋“ค์„ ์ดํ•ดํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ GUI๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ณ ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ์ธ์‹ํ•˜๋Š” ๋ชจ๋ธ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ CogVLM์— ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ๋ง๋ถ™์˜€์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ๊ตฌ์กฐ์— ๋Œ€ํ•ด์„œ ์„ค๋ช…์„ ๋ง๋ถ™์ด์ž๋ฉด, ๊ธฐ์กด VLM์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ธฐ์กด ์Šคํฌ๋ฆฐ์ƒท์˜ ํ™”๋ฉด์„ ๋‹ค์šด์ƒ˜ํ”Œ๋งํ•˜๊ณ , ๊ทธ์™€ ๋งž๋Š” ์ž‘์—…(Task)๊ณผ ํ–‰๋™(Action)์„ ๋‚˜ํƒ€๋‚ด๋Š” ํ…์ŠคํŠธ๋ฅผ ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค.


์—ฌ๊ธฐ์— ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”์—์„œ ์ถœ๋ ฅ๋œ ์ •๋ณด์™€ Cross-Attention์„ ๊ณ„์‚ฐํ•˜์—ฌ ์ตœ์ข… ์ถœ๋ ฅ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ Cross-Attention์€ ์„œ๋กœ ๋‹ค๋ฅธ ์ •๋ณด(๊ณ ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€ ์ •๋ณด - ์ €ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ •๋ณด ๋ฐ ํ…์ŠคํŠธ ํŠน์„ฑ ์ •๋ณด)์— ๋Œ€ํ•ด์„œ ๊ด€๋ จ์„ฑ์„ ๊ณ„์‚ฐํ•˜๋Š” ๊ณผ์ •์ด๋ผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


๊ทธ๋ฆฌ๊ณ  VLM์€ ๊ฐ ํ™”๋ฉด์„ ๋ณด๊ณ  ์ธ๊ฐ„์ด ์–ด๋–ค ์ž‘์—…์„ ํ•„์š”๋กœ ํ•˜๋Š”์ง€ ์ดํ•ดํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ์ธ๊ฐ„์ด ์ง์ ‘ ๋ ˆ์ด๋ธ”๋ง ํ•ด์•ผ๊ฒ ์ฃ . ๋ฌผ๋ก  ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์ธ๊ฐ„์ด ๋ ˆ์ด๋ธ”๋งํ•˜์—ฌ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ์กด ์›น ํ™”๋ฉด ๋ฐ ๋ชจ๋ฐ”์ผ ํ™”๋ฉด์„ ์บก์ฒ˜ํ•œ ์Šคํฌ๋ฆฐ์ƒท์„ GPT-4์— ์ž…๋ ฅํ•˜์—ฌ ์งˆ๋ฌธ๊ณผ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค.


๊ฒŒ๋‹ค๊ฐ€ ์Šคํฌ๋ฆฐ์ƒท์„ ๋ณด๊ณ  ์ดํ•ดํ•˜๋Š” ์ž‘์—…์ด๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋ฏธ์ง€ ๋‚ด์—์„œ ์„ ํƒํ•ด์•ผ ํ•˜๋Š” ์š”์†Œ์— ๋Œ€ํ•œ ์ขŒํ‘œ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์ฐ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋ชจ๋“  ๊ณผ์ •์— ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ํ† ๋Œ€๋กœ ํ•™์Šตํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋ฐ”๋กœ CogAgent์ž…๋‹ˆ๋‹ค.

CogAgent๋Š” ํ–ฅ์ƒ๋œ LLM ๋Šฅ๋ ฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ๋„˜์–ด ์‹œ๊ฐ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ด ์ž‘์—…์„ ๋„์™€์ค„ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์ดˆ๊ธฐ ๋ชจ๋ธ์ด๊ธฐ์— ๊ฐœ์„ ํ•ด์•ผ ํ•  ๋ถ€๋ถ„์€ ๋งŽ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์•„์ง์€ ์ž˜๋ชป๋œ ์ขŒํ‘œ๋ฅผ ์ถœ๋ ฅํ•˜๊ธฐ๋„ ํ•˜๊ณ , ์—ฌ๋Ÿฌ ์ด๋ฏธ์ง€๋“ค์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค.


๊ทธ์น˜๋งŒ ์ค‘์š”ํ•œ ๊ฒƒ์€ ์•ž์œผ๋กœ AI๊ฐ€ ์‹ค์ƒํ™œ์˜ ์‚ถ์„ ๋„์šธ ์ˆ˜ ์žˆ๋Š” ์˜์—ญ์ด ๊ณ„์† ๊ฐœ๋ฐœ๋˜๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์•„์ง์€ ์Šคํฌ๋ฆฐ์ƒท์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์—์ด์ „ํŠธ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์˜คํžˆ๋ ค ๋ถˆํŽธํ•˜์ง€๋งŒ, ์˜์ƒ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ด ๋“ฑ์žฅํ•œ๋‹ค๋ฉด ์ž‘์—…์„ ์—ฐ์†์ ์œผ๋กœ ์ดํ•ดํ•˜์—ฌ ๋” ์ž์—ฐ์Šค๋Ÿฌ์šด ์ƒํ˜ธ์ž‘์šฉ์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋•Œ๋ฌธ์— ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด ์ด๋ฒˆ ์—ฐ๊ตฌ์— ์ฃผ๋ชฉํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. CogAgent๋Š” ์˜คํ”ˆ ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋  ์˜ˆ์ •์ธ ๋งŒํผ ์•ž์œผ๋กœ GUI๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋•๋Š” ๋ชจ๋ธ ๊ฐœ๋ฐœ์— ๋ฐ•์ฐจ๋ฅผ ๊ฐ€ํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

AI NEWS 

: ๋ฏธ๊ตญ ํ˜„์ง€ ์‹œ๊ฐ„์œผ๋กœ 1์›” 9์ผ, ์„ธ๊ณ„ ์ตœ๋Œ€ ๊ฐ€์ „ ๋ฐ•๋žŒํšŒ CES 2024๊ฐ€ ๊ฐœ์ตœ๋ฉ๋‹ˆ๋‹ค. ์ง€๋‚œํ•ด AI๊ฐ€ ํฐ ํ™”๋‘์˜€๋˜ ๋งŒํผ ์˜ฌํ•ด์—๋Š” AI ๊ธฐ๋Šฅ์ด ์ถ”๊ฐ€๋œ ๊ฐ€์ „ / ์ „์ž ์ œํ’ˆ๋“ค์ด ๋งŽ์ด ์ถœ์‹œ๋์Šต๋‹ˆ๋‹ค. 


'GPT ์Šคํ† ์–ด' ์˜คํ”ˆ...๋งž์ถคํ˜• AI ์ฑ—๋ด‡ ์‚ฌ๊ณ ํŒ๋‹ค

: ChatGPT๋ฅผ ๊ฐœ๋ฐœํ•œ OpenAI๊ฐ€ GPT ์Šคํ† ์–ด๋ฅผ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ง€๋‚œํ•ด 11์›”, OpenAI์˜ DevDay์—์„œ GPTs ์„œ๋น„์Šค๋ฅผ ๊ณต๊ฐœํ–ˆ๋Š”๋ฐ์š”. ๋•๋ถ„์— AI๋ฅผ ๋ชฐ๋ผ๋„ ์ด์ œ ๋ˆ„๊ตฌ๋‚˜ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž…๋ ฅํ•˜์—ฌ ํŠน์ •ํ•œ ๋ชฉ์ ์„ ์ˆ˜ํ–‰ํ•˜๋Š” GPT๋ฅผ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋์Šต๋‹ˆ๋‹ค. 


From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

: Meta์—์„œ ๋Œ€ํ™”๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์‹ค์ œ ์‚ฌ๋žŒ๋“ค์ด ์–˜๊ธฐํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ์˜์ƒ์„ ์ƒ์„ฑํ•˜๋Š” AI ๊ธฐ์ˆ ์„ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์•„๋ฐ”ํƒ€๋Š” ๋Œ€ํ™” ์†Œ๋ฆฌ๋งŒ ๋“ฃ๊ณ  ์ž…๋ชจ์–‘์„ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ์ˆ ์„ ๋„˜์–ด์„œ ์ด์ œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ชธ ๋™์ž‘๊ณผ ์ œ์Šค์ฒ˜๋ฅผ ์ทจํ•˜๊ธฐ๊นŒ์ง€ ํ•˜๋Š”๋ฐ์š”. ๋‹ค๊ฐ๋„์—์„œ ์ดฌ์˜ํ•œ ๋Œ€ํ™” ์žฅ๋ฉด ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šตํ–ˆ๊ณ , ์ฝ”๋“œ์™€ ๋ฐ์ดํ„ฐ์…‹ ๋ชจ๋‘ ๊ณต๊ฐœํ•œ๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค.

The Data for Smarter AI

์„ธ์ƒ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์ฐพ์•„, ์…€๋ ‰ํŠธ์Šคํƒ€๋Š”

AI ๋ผ์ดํ”„์‚ฌ์ดํด์„ ํ•จ๊ป˜ํ•˜๋Š” ์˜ฌ์ธ์› ๋ฐ์ดํ„ฐ ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.



๐Ÿ“‹ ์‚ฌ์—… ๋ฐ ์ œํœด ๋ฌธ์˜ contact@selectstar.ai
๐Ÿ“จ ์ฝ˜ํ…์ธ  ๋ฐ ํ–‰์‚ฌ ๋ฌธ์˜ marketing@selectstar.ai