NeurIPS 2023에서 선정한 최우수 논문: LLM의 Emergent Ability에 대한 비판
# 19 위클리 딥 다이브 | 2023년 12월 20일
에디터 배니

💡이번주 뉴스레터에는 이런 내용을 담았어요!

  • LLM의 창발적 능력에 대해서 설명합니다.
  • LLM의 창발적 능력이 신기루라는 연구 결과를 소개합니다.
  • 연구자들의 연속적 평가 지표를 설정한 방식에 대해서 수식과 함께 설명합니다.
LLM이 뛰어나다는 착각

안녕하세요, 에디터 배니입니다.


지난주에는 머신러닝 분야 최대 학술대회로 꼽히는 NeurIPS가 열렸습니다. 컨퍼런스에서 발표된 논문을 살펴보면 그 당시의 연구 트렌드를 알 수 있습니다. 또한 컨퍼런스에서는 Best Paper Awards를 진행하는데요. 논문의 중요도와 영향력 등을 고려하여 선정되는 만큼 매년 어떤 논문이 선정될지 기대감이 높습니다.

NeurIPS에서 선정한 Best Paper는 <Are Emergent Abilities of Large Language Models a Mirage?> (논문 링크🔗)입니다. 논문 내용을 직역하면 <대규모 언어 모델의 창발적 능력은 신기루인가?>입니다. LLM의 창발적 능력이란 무엇일까요? 그리고 그런 능력을 왜 신기루라고 하는 것일까요? 이번주 뉴스레터에서는 <Are Emergent Abilities of Large Language Models a Mirage?>를 소개합니다.
Emergent Ability란 무엇일까?
우선, 창발적 능력(Emergent Ability)에 대해 알아봅시다. 2022년, 구글 연구진은 <Emergent Abilities of Large Language Models>를 통해 창발성(Emergence)에 대해 이렇게 정리했습니다.
Emergence is when quantitative changes in a system result in qualitative changes in behavior.
창발성은 시스템의 양적 변화가 행동의 질적 변화를 초래하는 것이다.
창발성은 물리학, 생물학 등 다른 분야에서도 널리 활용되는 개념입니다. 노벨물리학상을 수상한 필립 앤더슨이 1972년의 연구논문 'More Is Different'에서는 '복잡한 시스템이 구성 요소를 개별적으로 볼 때는 나타나지 않는 현상'으로 창발성을 언급했는데요. 일례로, 뇌의 뉴런을 관찰하는 것만으로는 뇌의 작동 원리를 설명할 수 없겠죠. 이렇게 복잡한 시스템을 구성하는 뉴런의 상호작용으로 뇌의 현상이 초래하게 되는 것을 '창발성'이라고 볼 수 있습니다.

그렇다면 AI 분야에서는 창발성을 어떻게 해석할 수 있을까요? LLM의 어떤 양적 변화가, 어떤 질적 변화를 불러온다는 것일까요? 구글 연구진은 여기에서 LLM의 AI의 창발성에 대한 정의를 다음과 같이 내립니다.
Emergent abilities of large language models as abilities that are not present in smaller-scale models but are present in large scale models; thus they cannot be predicted by simply extrapolating the performance improvements on smaller-scale models. (Zoph et al., 2022)

대규모 언어 모델의 창발적 능력은 소규모 모델에는 없지만 대규모 모델에는 존재하는 능력으로, 단순히 소규모 모델의 성능 향상을 추정하는 것만으로는 예측할 수 없습니다.
쉽게 이야기하면 파라미터가 적은 언어 모델의 성능과 많은 언어 모델의 성능은 차이가 나는데, 이때 파라미터가 많은 모델에서 갑작스럽게 성능이 향상되는 것을 의미합니다. 생각해보면 기존의 언어 모델(Language Model)과 구분지어 '대규모' 언어 모델(Large Language Model)이라고 부르는 데도 다 이유가 있습니다. 파라미터 수가 어느 임계치를 넘어가니 기존 언어 모델이 가지지 못했던 능력들을 보였기 때문입니다.

AI 분야는 경험적이거나 실험적인 성과를 기반으로 성장하고 있습니다. 아마 연구자들은 '일단 왜 성능이 갑자기 좋아지는지 알기는 어렵지만 분명히 성능이 다른 것은 확실해. 이 능력을 창발적 능력(Emergent Abilities)이라고 부르자.' 정도로 정리했을 것입니다. 이에 대한 과학적인 탐구는 후속 연구에 미뤄둔 것입니다.
벤치마크 별로 파라미터 크기에 따라 달라지는 모델의 성능 변화 비교
일정 수치(훈련 FLOPs)를 넘어서면 갑자기 벤치마크가 급등하는 것을 볼 수 있다. (Zoph et al., 2022)

AI를 소위 '블랙박스'라 말하기도 합니다. 초기 딥러닝이 뇌의 뉴런을 모사하여 개발된 만큼, 내부적인 동작 원리를 모두 설명하는 것은 어렵고, 복잡계 속에서 우리가 알지 못하는 창발적 현상이 일어날 만하다는 생각도 듭니다. 앞선 연구가 무책임하다는 것이 아니라, 그럴 만한 근거들이 있다는 것입니다. 실제로 위의 표에서 보이듯 연산량이 어느 순간을 넘어서면 갑자기 몇 배 이상의 성능을 보이기도 하고요. 그런데 이번에 발표된 논문은 이런 창발성에 대한 비판을 제기합니다.
Emergent Ability는 신기루?
이제 본격적으로  NeurIPS 2023의 Best Paper <Are Emergent Abilities of Large Language Models a Mirage?>(Schaeffer, Miranda, & Koyejo, 2023)에 대해 알아봅시다. 이 논문을 발표한 스탠포드 연구진은 언어 모델의 창발적 능력을 신기루라고 표현하면서, 창발적 능력을 가진 것처럼 보이는 이유는 비선형적이고 불연속적인 평가 지표(Metric)를 활용했기 때문이라고 밝혔습니다. 일반적인 평가 지표는 다음과 같습니다.
기존 평가 지표는 1. 여러 옵션 중 가장 높은 확률값을 갖는 경우2. 타깃 출력값과 정확하게 일치하는 경우에 1로, 그렇지 않은 경우에는 0으로 정확도를 평가하고 있습니다.

연구진은 이런 평가 지표를 개선하여 연속적인 평가 지표로 바꾼다면 파라미터 수를 기반으로 LLM의 성능을 어느 정도 예측할 수 있다고 말합니다. 그 평가지표는 토큰당 크로스 엔트로피(per-token Cross Entropy)를 기반으로 합니다.
🤔 크로스 엔트로피
머신러닝에서 주로 분류 문제에서 활용되며, 모델이 예측한 확률 분포와 실제 데이터의 분포 사이의 차이를 측정하는 지표입니다. 이 값이 낮을수록 모델의 예측이 실제 데이터에 더 가까워진다는 것을 의미합니다.
위의 식의 의미는 다음과 같습니다. N개의 파라미터를 가진 모델의 예측된 확률 분포(pˆ_N)와 학습과정에서 관찰된 토큰 v*에 대한 분포의 차이를 계산한 것입니다. 이를 통해서 개별 토큰당 정확도를 확률로 표현할 수 있고, 그 결과를 그래프로 나타내면 다음과 같습니다.
👨‍🏫 그래프 설명
A. 모델 규모가 커짐에 따라 토큰당 크로스 엔트로피 손실이 멱법칙으로 감소한다.
B. 올바른 토큰을 선택할 확률은 모델 규모가 증가함에 따라 1에 접근한다.
C. 정확도와 같은 비선형 메트릭을 사용하면, 성능이 예측 불가능하게 급격하게 변하며 출현 능력처럼 보인다.
D. 다중 선택 등급과 같은 불연속 메트릭을 사용하면, 성능이 다시 예측 불가능하고 급격하게 변한다.
E. 비선형 메트릭에서 토큰 편집 거리와 같은 선형 메트릭으로 변경하면, 성능이 예측 가능하게 향상된다.
F. 불연속 메트릭에서 브라이어 점수와 같은 연속 메트릭으로 변경하면, 과제 성능이 다시 부드럽고 연속적이며 예측 가능하게 개선된다.
B를 기준으로, 같은 결과에 대해서 어떤 평가 지표를 반영하느냐에 따라 급격한 능력 변화가 발현되는 것처럼 보이기도 하고, 선형적으로 증가하는 것처럼 보이기도 합니다. 연구자들은 연속적인 평가 지표를 기준으로, 기존에 창발 현상이 나타난 태스크의 벤치마크들을 재검토했습니다. 실험은 공개적으로 접근이 가능한 InstructGPT와 GPT-3로만 진행했습니다.

그 결과 BIG-Bench의 39개의 평가 지표 중 34개에서 창발 현상이 나타나지 않는다고 밝혔습니다. 나머지 5개 평가 지표에서도, 창발적 능력이 나타나는 것이 아니라 본래에 평가 지표가 비선형적이거나 불연속적입니다. 요약하면, 창발적 능력은 특정한 메트릭에서만 나타나고, 모든 태스크 - 모델 쌍에서 나타나지는 않는다는 것입니다. 익히 알려져 있던 LLM의 성능은 사실 파라미터에 비례해서 늘어나고 있던 것입니다.
창발적 능력이 사실은 신기루라고 할지라도, 모델의 파라미터 수가 반드시 모델의 성능을 결정하지 않는다는 점에서 연구가 발전할 여지가 있어 보입니다. 예를 들어, GPT-3는 175B의 파라미터를 가지고 있지만 이후에 나온 LLaMA 2 등의 모델들은 훨씬 적은 파라미터(60B)로도 그에 준하는 성능을 보였습니다. 단순히 파라미터에 비례해서 성능을 평가하기는 어렵고, 앞서 제시한 기준도 앞으로 바뀔 가능성이 있다는 생각이 드네요.

이번 연구를 살펴보면서, 마치 우리가 알지 못했던 자연 현상 속에 숨겨진 비밀을 밝혀낸 듯한 기분이 들었습니다. 과학적으로 설명하기 어려웠던 부분에 대한 실마리를 제시한 연구에 대해 최우수 논문 수상 자격이 충분하다고 생각합니다. AI 분야에 많은 연구들이 높은 벤치마크를 달성한 것에 대해 성과를 높이 평가하는 경향이 있는데, 이제는 AI 성능이 무르익은 만큼 조금 더 근본적인 연구에 대해서도 주목할 필요도 있다고 생각합니다.
SNS를 팔로우 하면
최신 소식을 가장 빠르게 확인하실 수 있습니다 😆
deep daiv.
manager@deepdaiv.com