'가성비' 소형 언어모델 'sLLM' 급부상
23년 5월 1주  <VOL 421>
이번 주 PICK
'가성비' 소형 언어모델 'sLLM' 급부상
개인정보위, 조사국과 분리된 소통 창구 구체화 계획. 제도는 '원칙' 중심

'가성비' 소형 언어모델 'sLLM' 급부상

 

마이크로소프트(MS)와 손잡은 오픈AI의 챗GPT, 구글 람다 등 빅테크 대형언어모델(LLM)이 경쟁하는 가운데 머신러닝 매개변수(parameter)를 줄여 비용을 아끼고 미세조정(fine-tuning)으로 정확도를 높이는 '맞춤형 LLM'이 급부상하고 있어요.


소형언어모델은 파라미터(매개변수가) 대형에 비해 적지만 훈련 및 운영 비용 부담 또한 낮은 것이 장점이며, LLM과 달리 오픈소스로 공개해 누구나 무료로 사용할 수 있다는 장점도 있다고해요. 빅테크 간의 LLM 기술 경쟁과 함께 소형언어모델과의 주도권 경쟁도 뜨거워질 것이라는 전망이 나오고있어요.


매개변수의 경우 오픈AI의 'GPT-3.0'와 'GPT-3.5(챗GPT)'는 1750억개이며 구글의 'PaLM'은 5400억개에 달하지만, sLLM은 60억~70억개에 불과하다고 해요.


덕분에 슈퍼컴퓨터를 사용하지 않아도 머신러닝이 가능해 비용과 시간이 대폭 줄일 수 있다고해요.


기존 LLM의 경우 학습에 수개월이 걸리고 비용도 적게는 수십만에서 많게는 수백만달러가 들어가는 반면에 최근 등장한 데이터브릭스의 '돌리'는 학습에 3시간이 걸리며, 비용은 고작 30달러에 불과했어요.


특정 분야에서는 미세조정과 고품질의 데이터학습을 통해 기존 LLM과 맞먹는 성능을 보여주는 것도 장점이에요.


챗GPT는 세상 모든 정보로 훈련했을지 모르지만, 모든 회사가 세상의 모든 정보를 필요로 하지는 않는 않아요. 챗GPT는 회사가 비공개로 보유한 데이터를 학습한 적이 없고, sLLM은 특정 분야에 한정하지만 깊이 있는 데이터를 학습할 수 있다는 점이 장점이기도해요.


이러한 장점들로 sLLM을 도입하는 기업들이 빠르게 늘고 있다고 해요.


최근 어느 한 기업에서는 각 회사에 맞는 형식과 작업 방식에 맞춰 LLM을 맞춤화하는 것에 집중하고 있다고 말한 바 있으며 오픈소스 또는 기존 LLM과 같은 것을 바탕으로 회사 데이터를 미세조정, LLM의 다양성보다 더 안전한 환경에 집중하겠다는 의지를 밝혔다고해요.


sLLM의 등장은 메타가 지난달 24일 내놓은 LLM '라마'로부터 촉발됐어요.

메타는 기본형인 66B(매개변수 650억개)를 비롯해 다양한 크기의 버전을 내놓았는데, 이 가운데 가장 작은 모델은 매개변수가 70억개(7B 버전)에 불과했어요. 메타는 매개변수를 키우기보다 LLM 훈련에 사용하는 토큰(텍스트 데이터 단위)의 양을 늘리고 품질을 높였다고 설명했어요.


이후 일부 개발자들이 노트북이나 휴대폰에서 작동되는 라마 응용 버전을 내놓기도 했어요.


스탠포드대학교 연구진도 라마 7B를 기반으로 한 sLLM '알파카'를 공개했고, AI 칩 기업 세레브라스는 다양한 패키지의 sLLM 모델을 선보인바 있어요.


특히 지난주에는 갓잇AI가 온프레미스(사내구축형) 형태의 '엘마'를 출시했는데 이 모델은 클라우드 방식이 아니라 머신러닝 괴정에서 기업 데이터가 외부에 공개되는 것을 꺼리는 기업에 최적화된 형태로 알려졌다고해요.


이러한 sLLM은 결국 시간이 지나면서 '기업 전용 LLM'로 변할 것이라는 예측도 나오고있어요.


모든 회사는 다른 기업에서 복제할 수 없는 '사용자 지정 데이터셋'을 가지게 될 것이며, 이를 기반으로 특정한 AI 모델을 가지게 될 것 같아요.


각 기업이 맞춤형으로 사용할 수 있는 AI모델을 구축하는 데는 작고 유연한 모델이 더 효과적일 것이라는 평가도 나오고있다고해요.


<관련기사>

데이터브릭스, 국내 첫 오프라인 행사 개최...오픈소스 언어모델 돌리 2.0’ 공개 (2023.04.25.)

초거대 AI 실사용 어려워, ‘가성비 모델수요 많아질 것(2022.12.02.)

카카오브레인, AI 언어모델 효율 100배 높인다 (2021.11.25.)

개인정보위, 조사국과 분리된 소통 창구 구체화 계획

제도는 '원칙' 중심

 

개인정보보호위원회가 개인정보 보호법 개정을 앞두고 통신업계와 머리를 맞댔어요.

통신업계는 개인정보 제공 동의 방식 개선, 국외 이전 요건 다양화 등을 뒷받침할 구체적인 기준이 필요하다고 입을 모았으며 법과 관련해 부담 없이 질의하고 명확한 답변을 얻을 수 있는 소통 창구가 필요하다는 의견도 제기됐다고 해요.


이에 개인정보위는 제도는 '규정' 중심이 아닌 '원칙' 중심으로 가야 한다는 입장을 고수했으며, 소통 창구에 대해서는 조사국과 분리된 공식 소통 창구를 계획 중에 있다고 말했어요.


개인정보위는 26일 서울 중구 SK T타워에서 통신·온라인동영상서비스(OTT) 기업 11개사, 개인정보보호협회가 참여하는 간담회를 개최했으며, 개인정보위는 5월 초 시행령을 입법 예고할 계획이고, 개인정보보호법은 오는 9월 15일부터 시행될 예정이라고 해요. 이에 간담회는 개인정보 보호법 개정 내용과 향후 정책 방향을 산업계와 공유하고, 의견을 청취하기 위해 마련됐어요.

이 자리에는 SK텔레콤, KT, LG유플러스, SK브로드밴드, 프리텔레콤, LG헬로비전, 넷플릭스, 디즈니, 웨이브, 티빙, 왓챠, 개인정보보호협회 관계자가 참석했다고해요..


이날 간담회에 참석한 업계 관계자들은 ▲클라우드 환경 ▲과징금 산정 ▲자율규제 ▲소통 창구 ▲자동화된 의사 결정 ▲데이터 전송 ▲국외 이전 등 개인정보보호법 개정안을 둘러싼 다양한 사안에 대해 명확하고 구체적인 답변이 필요하다고 입을 모았어요.


특히, GPT 등이 나오면서 개인정보보호 및 활용 환경이 급격히 바뀌고 있고 SaaS 서비스는 바로 클라우드에 올라가게 되는데 이럴 경우 어떻게 개인정보를 보호하고 관리해야 할지 문제가 되고 있으며, 클라우드나 글로벌 클라우드 플랫폼에 대한 정책이 명확했으면 좋겠다는 의견과 함께 챗GPT 등에 개인정보가 급격하게 올라가게 되고 손 쓸 틈 없이 빠르게 진행되는 부분이 있는데, 이런 경우 정책적인 부분을 빠르게 제시해 주는 것이 시급하다고 말했어요.


개인정보보호법에 있는 정책들이 구체적으로 구현돼야 현실에서 기술적으로 어떻게 해야되는지 가이드가 나올것이며 그러면 기업이 자의적인 해석이 아니라 안전한 방법으로 기술적인 조치를 할 수 있을 것 같다는 의견도 나왔어요.


개인정보보호법을 읽다 보면 모호한 부분이 있는데 이런 명쾌하지 않은 부분의 추상적인 가이드보다는 명확한 가이드를 해주시면 좋을것이라는 많은분들의 공감이 있었다고 해요.


개인정보 위탁과 관련해서는 원청의 책임 소재에 대한 우려와 사업자들에 대한 개인정보보호 관련 홍보와 교육 등이 필요하다는 의견도 제기됐어요.


위탁자가 재위탁을 하게 될 경우, 원청에 승인을 받아야 하는데 실제 현장에서는 승인을 받지 않고 원청 모르게 재위탁을 하는 경우가 있어 이럴 경우 원청이 책임을 져야 하는 건지 우려되는 부분이 있으며,

위탁을 하게 될 경우, 계약관계에 벗어나 있는 분들이 가지고 있는 개인정보는 외부에 유출되거나 불법 활용될 가능성이 높은데 이것을 통제할 수 있는 방법이 없다며 시행령 부분에서 이런 부분을 생각해 주시면 좋겠고, 사업자에 대한 계도나 홍보도 정부 차원에서 생각해 줬으면 한다고도 말했어요.

데이터 전송과 관련한 우려 사항으로는 마이데이터와 관련해 데이터를 제공해야 하는 의무 기업은 어디인지, 또한 데이터 전송이나 구축에 대한 비용은 기업에서 어떻게 부담해야 할지 고민스럽다고 말했어요.


OTT쪽에서는 플랫폼 내에서 이용자들의 발자취에 대한 기록을 하나로 표준화시키기에는 어려움이 있으며 데이터 전송과 관련해 시행령을 만들 때 너무 협소한 범위보다는 기술이나 여러가지 플랫폼 사업을 고려해서 확대될 수 있는 방향으로 갔으면 한다는 목소리도 있었어요.


과징금 산정 기준에서는 과징금 부분에서 위반행위 관련 없는 매출액은 제외하게 돼있는데, '위반행위 관련 없는‘ 이라는 범위는 어디까지인지도 모호하며, 이것에 대한 위반행위와 관련이 없는 매출에 관한 부분을 사업자가 증명해야 하는데, 그럼 과징금 산정에 있어서 어떻게 (사업자가) 풀어나갈 수 있는지 내부적 검토를 요청드린 바 있다고 해요.


마이데이터가 '정보 집중'을 심화시켜, 기울어진 운동장을 심화시킬 수 있다는 우려의 목소리도 나왔다고 해요. 현재도 기울어진 운동장이 존재하는데 자칫 잘못하면 마이데이터로 기대했던 긍정적 효과보다는 정보 집중이 더 심해지며, 경쟁이 더 어려워지는 상황이 발생할 수 있으며 마이데이터가 확산되면 각 산업별로 정교하게 검토하면서 단계적으로 추진하는 방향이 필요하고 말했어요.

이에 분쟁조정 제도도 확대됐는데 남용되지 않도록 가이드나 지침을 면밀히 검토해 주길 바란다고 덧붙였어요.


국외이전 시에도 개인정보보호 수준이 보장된다고 인정받기 위해 어떤 절차가 요구되는지 명확하게 하기를 요구했으며 국제적으로 통용되는 인증서비스로 어떤 것을 염두에 두고 있는지도 건의되었는데요.

이에 개인정보위는 "ISMS 인증 받은 기업과 또 하나는 양자 간의 적정성을 인정한 경우, 이렇게 두 가지의 경우에 인정이 된다"며 "이와 관련해서는 의견을 많이 듣고 있고, 연구반을 꾸리고 있다"고 말했다고해요. 또한 "중소, 벤처기업과 취약계층을 대상으로 (개인정보 보호) 교육 프로그램을 확대하려고 한다"며 "온라인뿐 아니라 실제 상담하고 지원하는 현장 컨설팅을 확대해 나갈 계획"이라고 말했어요.

더불어 마이데이터는 업종별 특성, 정보주체의 편익, 필요성 등 종합적으로 검토해 단계적으로 신중하게 접근할 것이며 다만, 편익이 분명한 곳은 내년에 시범사업을 통해 그 가능성을 확인할 것이라고 했어요..


시장이 빠르게 변화하기 때문에 규정 중심에서 원칙 중심으로 패러다임을 전환해야 하고 원칙 중심으로 가는 방침이 실효성이 있기 위해서는 원칙을 개별 상황에 어떻게 적용하고 해석할 것인지 역량을 키우는 게 중요할 것 같아요.


이어 개인정보위는 기업들이 질문이나 상의, 컨설팅이 필요할 경우에는 위원회에 연락해 같이 고민해서 답을 드릴 수 있는 소통 창구를 내부적으로 고민하여 구체적인 안을 제시할 수 있도록 추진할 계획이라고 말했어요.


<관련기사>

유럽연합 이어 영국도 한국에 개인정보 국외이전협력 요청(2023.04.21.)

잇단 규제 완화로 클라우드 보안시장 만개하나 (2022.12.31)

상용패키지SW, SaaS 서비스로 글로벌 시장 진출이 답 (2021.12.31.)

Edited by 사무국 신세연

(사)한국침해사고대응팀협의회(CONCERT)
서울시 서초구 서초중앙로 56, 블루타워 7F