Mixtral 8x7B가 보여준 새로운 가능성, MoE # 18 위클리 딥 다이브 | 2023년 12월 13일 에디터 배니 |
|
|
💡이번주 뉴스레터에는 이런 내용을 담았어요!
- Gemini와 Mixtral 8x7B가 주목 받게 된 이유를 소개합니다.
- Mixtral 8x7B의 학습 원리 MoE에 대해 설명합니다.
- 현대 MoE 아키텍처의 기반이 되는 Switch Transformers에 대해 설명합니다.
|
|
|
Gemini만큼 주목 받는 Mixtral 8x7B |
|
|
안녕하세요, 에디터 배니입니다. 이번주는 며칠 전 소식을 알차게 준비하느라 저녁에 찾아왔습니다.
지난주 AI계에 아주 뜨거운 소식이 있었습니다. Google이 드디어 Gemini를 발표한 것인데요. Gemini는 언어 모델을 넘어 일반화된 성능을 보이는 멀티모달입니다. Gemini는 ChatGPT뿐만 아니라 인간 전문가 수준을 넘어선 벤치마크(MMLU)를 달성했습니다. 실제로 Google이 공개한 Gemini 데모(Google이 요약한 Gemini 90초 영상🔗)를 살펴보면 상상하던 미래가 성큼 다가온 것처럼 보입니다. |
|
|
하지만 데모가 공개되고 얼마 지나지 않아 논란이 일고 있습니다. 데모에서는 Gemini가 이미지를 실시간으로 처리하는 것처럼 보이지만 실제로 그렇지는 않다는 점을 지적한 것인데요. Google DeepMind의 연구 부사장은 데모인 만큼 성능을 보여주기 위해 간결하게 편집한 부분(Oriol Vinyals의 트위터와 실제 작동 영상🔗)은 있다고 언급했습니다. 실제로 Gemini가 공개되기까지 신중하게 지켜볼 필요가 있어 보입니다. 게다가 Gemini는 모델에 대해 밝혀진 부분은 아직 많지 않습니다. 차후에 모델이 공개된 뒤에 한번 더 소개하도록 하겠습니다. |
|
|
반면에 지난 9일, 프랑스의 AI 스타트업 Mistral AI는 'Mix'tral 8x7B 모델의 파라미터까지 공개했습니다. Mistral AI는 트위터를 통해서 모델을 다운로드 받을 수 있는 주소를 공개한 것인데요. 거창한 시연이나 설명 없이 주소만 올린 것이 아주 인상적입니다. 이전에 Mistral 7B도 비슷한 방식으로 공개했었는데, 공개 방식뿐만 아니라 그 자체의 성능만으로도 LLaMA2 13B보다 뛰어나다고 밝혀 주목 받았습니다.
이번에 공개한 Mixtral 8x7B 모델은 7B 모델을 8개 결합한 모델입니다. 단순히 파라미터의 양을 늘린 것이 아니라 MoE 방식으로 학습하여 성능을 개선하고자 했는데요. 이 방식은 GPT-4 학습 과정에서도 활용된 것으로 알려져 있습니다. 이번주 뉴스레터에서는 MoE에 대해서 소개해드리겠습니다. |
|
|
백지장도 맞들면 낫다! Mixture of Experts |
|
|
MoE는 Mixture of Experts의 줄임말로, 여러 '전문 모델(Experts)'을 결합하고 주어진 입력에 대해 어떤 Expert를 사용할지 결정하는 '게이팅 네트워크(Gating Networks)'로 구성됩니다.
Experts
각 Expert는 특정 데이터 세그먼트나 작업에 특화되어 있어, 보다 전문적인 접근이 가능합니다. 또한, Expert들은 다양한 구조와 훈련 방법을 가질 수 있어, MoE 시스템이 다양한 문제 유형을 처리할 수 있게 합니다. Expert들은 각자의 데이터 부분에 대해 개별적으로 훈련을 받습니다. Expert는 특정한 데이터에 대해서 학습하기 때문에 정말로 '전문성'을 가질 수 있다는 것도 특징입니다. 이들의 출력값은 게이팅 네트워크에 의해 통합되어 MoE 시스템의 최종 출력을 형성합니다.
MoE는 문제의 복잡성이 증가할 경우, 더 많은 Expert를 추가함으로써 확장할 수 있습니다. 이렇게 Experts를 결합함으로써 전체 시스템의 성능을 향상시킬 수 있습니다.
Gating Networks
MoE에서 Experts가 특정한 데이터에 특화될 수 있는 이유는 바로 Gating Networks 덕분입니다. 이 네트워크는 입력 데이터를 받아, 어떤 Expert에게 해당 데이터를 전달할지 결정하는 일종의 지휘자 역할을 하는데요. 즉, 게이팅 네트워크는 각 Expert의 전문성을 고려하여 입력 데이터를 적절한 Expert에게 '라우팅(Routing)'하는 기능을 수행합니다.
Gating Networks는 각 Expert에 대한 가중치를 학습합니다. 이 가중치는 특정 데이터에 대해 어떤 Expert가 더 적합한지 결정하는 기준이 됩니다. 전체 네트워크의 출력이 기대치와 얼마나 잘 일치하는지에 따라 게이팅 네트워크는 그 가중치를 지속적으로 조정합니다.
|
|
|
MoE의 아이디어는 오래 됐습니다. 1999년에 제프리 힌튼이 참여한 논문에서 MoE 아이디어가 제안됐습니다. 현대의 MoE 아키텍처의 기반이 된 것은 Switch Transformers입니다. 바로 Transformer 모델에 MoE 개념을 통합한 것인데요. 이 모델에서는 Transformer 인코더 아키텍처에 포함된 FFN(Feed-Forward Network)를 희소한 Switch FFN 레이어(연한 파란색)로 대체했습니다. 이 레이어에서는 Router가 토큰을 분배하고 여러 FFN Expert 중 하나를 선택해 해당 토큰을 처리합니다.
MoE의 특징 중 하나는 파라미터를 효율적으로 활용한다는 점입니다. 일반적으로 다른 모델들은 하나의 입력 데이터에 대해서 출력값을 내놓기 위해 모든 파라미터들이 계산됩니다. 하지만 MoE의 경우, 일부 네트워크만 선택하기 때문에 불필요한 계산을 줄일 수 있습니다.
이러한 MoE 학습 구조도 몇 가지 한계점을 가지고 있습니다. 각 Expert는 별도의 매개변수 집합을 가지고 있기 때문에, MoE 모델은 전체적으로 더 많은 메모리를 요구할 수 있습니다. 즉, 처리할 때 연산 비용이 많이 들지 않더라도 메모리 자체는 많이 차지할 수 있다는 점입니다. 그리고 적절한 데이터 분할과 라우팅 전략을 세워야 MoE 전체적으로 제대로 된 학습이 가능합니다. |
|
|
Mistral AI 홈페이지에서 소개하고 있는 SMoE(Sparse Mixture-of-Experts) 모델
Mixtral 8x7B는 Decoder-only SMoE(Sparse Mixture-of-Experts) 모델입니다. 이 아키텍처는 비용과 지연 시간을 효과적으로 관리하면서 매개변수를 증가시킬 수 있는 구조를 가지고 있습니다. 또한 다중 언어를 지원하면서, 최대 32,000개 토큰의 컨텍스트를 처리할 수 있다는 점도 주목할 만한 특징입니다.
무엇보다도 AI 분야에서 Mixtral 8x7B를 주목한 이유는 모델 성능 대비 가벼운 모델이기 때문입니다. 단순히 파라미터 수를 계산하면 56B라고 볼 수 있지만 실제로는 이보다 더 적습니다. Experts가 8개인 것은 사실이지만 나머지 파라미터는 공유하기 때문입니다. Mistral AI는 Mixtral이 46.7B 파라미터를 가지고 있다고 말합니다. 그리고 하나의 토큰을 계산하는데 전체 파라미터가 아닌, 12.9B만 활용한다고 합니다. 그러면서 LLaMA 2-70B보다 뛰어난 성능을 보인다고 하니 앞으로의 발전이 더욱 기대되는 대목입니다. |
|
|
이번 Mixtral 모델의 성능에 대한 평가도 좋지만, Mistral AI가 기대되는 점은 이뿐만이 아닙니다. Mistral AI는 요즘 AI 기업들과 다르게 모델을 철저하게 오픈 소스로 공개하고 있습니다. 누군가는 OpenAI가 해야 할 일을 대신하고 있다고 말하기도 합니다. 또한 연이어 MoE 학습 구조에 대한 성공을 보여주면서 새로운 가능성을 열었습니다. Mistral AI에게 진정한 의미의 AI의 대중화를 기대해볼 수 있을까요? |
|
|
SNS를 팔로우 하면 최신 소식을 가장 빠르게 확인하실 수 있습니다 😆 |
|
|
deep daiv.
manager@deepdaiv.com
|
|
|
|
|