[Riiid - Business]
뤼이드, 세계 최대 규모 Edtech 컨퍼런스 ‘ASU+GSV Summit’에 참여!

뤼이드는 지난 5월  ‘GSV EdTech 150’에 선정된 것을 계기로 올해로 12년째를 맞은 세계 최대 규모이자 최고 권위의 Edtech 컨퍼런스 ASU GSV Summit에 초청 받아 직접 참여합니다. 
ASU GSV Summit은 2010년부터 애리조나주립대학교(ASU)와 VC인 글로벌 실리콘밸리(GSV)가 함께 매년 개최해 온 컨퍼런스로 교육 정책 입안자, 선도 교육자, 엔지니어와, 투자자 등을 한자리에 모아 서로의 협력을 유도해 글로벌 교육 혁신을 주도하는 에듀테크 논의의 장으로 자리를 잡았습니다. 이미 버락 오바마, 조지 부시, 빌 게이츠, 앤드류 응 등 글로벌 리더들이 해당 컨퍼런스에 주요 연사로 참여해 전 세계적으로 주목을 받아왔습니다.
특히, 올해는 코로나19로 전세계 교육 현장이 고통을 겪고 있는 상황속에서 개최되는 만큼 그 어느때 보다 관심이 뜨거운 상황입니다. 뤼이드는 “BC to AD (Before Covid, After Disease), 모든 사람이 미래에 대한 Equal Access를 갖는 새로운 시대를 열다”를 주제로 개최된 이번 컨퍼런스에 참여해 K-12부터 성인교육, 직장 내 인재개발 등 교육의 전 분야를 아우르는 글로벌 전문가들과 AIEd의 학술 및 사업적 성과를 공유하고, 교육의 미래를 논의하는 시간을 가질 예정입니다.
행사는 오는 8월 9일에서 11일까지 3일간 미국 샌디에이고에서 진행될 예정입니다. 이번 컨퍼런스에서 나온 성과들은 이후 업데이트 드릴 예정입니다! 
[AI/Edtch Talk]  
AI 시대 도래, 편향 없는 기술의 확산을 위한 3가지 원칙
1960년대 후반까지 우리는 구매한 음식에 무엇이 들어가는지 거의 알지 못했습니다. 당시에는 흔하게 구할 수 있는 재료로 음식을 준비했기에 더 많은 정보가 필요없었던 것입니다. 그러나 식량 생산 방식이 진화하면서 1969년 백악관은 FDA에게 우리가 먹는 음식의 성분과 영양을 이해할 수 있도록 보여주는 새로운 방법을 개발할 것을 권고했습니다. 이 일은 20년이나 걸렸고, FDA는 1990년이 되어서야 가공식품에 영양성분 표기 라벨을 의무화하는 규정을 발표했습니다. 
AI 출현 역시 가공식품의 등장처럼 새로운 시대가 도래했음을 의미합니다. 그리고 이것이 우리에게 이로울지 나쁠지는 그 안에 무엇이 들어가느냐에 달려 있습니다. 단, AI는 기술의 발전 속도가 매우 빠르기 때문에 가공식품 처럼 긴 시간적 여유를 가지고 안전대책을 만들 수 없습니다. 실제 AI는 우리가 의도하지 않은, 혹은 악의적인 결과를 낳기도 합니다. 이것을 AI 편향이라고 합니다. 개발자의 의도와 상관없이 AI가 편향적 학습을 하게되면 AI는 단순히 성별만으로도 좋은 인재를 추천에서 제외하거나, 특정 우편번호의 대출 요청 건을 심사없이 거부하고, 특정 사회경제적 배경을 가진 고객에게만 로열티 프로그램의 혜택을 몰아 줄수도 있습니다. 
제대로 훈련되지 않은 AI에 의한 의사결정을 방지하기 위해 우리는 개인과 사회의 보호 차원에서 통제된 접근 방식을 사용해야합니다. 이를 위해선 사전에 조직내 편견을 해결하고 사회적으로 책임 있는 방식으로 AI를 개발 및 배포해야 합니다. 특히, 의료나 공공 또는 금융 서비스와 같은 분야에서는 더욱 각별히 주의해야 합니다. 아래의 3가지 원칙을 이해하고 지킬 필요가 있습니다.
첫째, AI는 이를 활용하는 조직의 가치와 윤리를 대변해야 합니다. 특정 사안에 대해 담당자가 조치를 취하고 결정을 내릴 수 있어야 합니다. 간단히 말해 누가 데이터를 생성했고 데이터의 출처는 어딘지, 또는 평등에 영향을 미치는 다른 요인은 없는지 등에 근거해 편견없이 공정하게 의사결정이 이루어져야 합니다.
둘째, AI가 제시하는 결과의 가치는 투입되는 데이터의 품질이 비례합니다. "Garbage in, garbage out”이라는 표현이 AI 세계에서는 사실입니다. AI 품질이란 정확히 올바른 입력과 출력값을 통해 오탐지 없이 예상대로 작동하는지 여부를 보는 것입니다.
셋째, 많은 비즈니스 환경에서 오늘의 좋은 결정이 내일도 좋으리란 보장은 없습니다. 이것이 역동적으로 변하는 산업 현장의 특성입니다. 코로나19는 환경의 근본이 바뀔 수 있다는 것을 적나라하게 일깨워주는 사례로 우리는 AI가 환경의 변화를 실시간으로 이해하도록 지속적으로 조정해야 합니다.
AI는 앞으로 생산성, 개인화, 심지어 형평성의 새로운 시대를 열 것입니다. 다만, 이는 AI가 제대로 관리되고 기업이 AI를 배포, 운영에 책임을 지는 경우에만 가능합니다. 이 시대는 AI 뿐 아니라 더 광범위하게 기술의 새로운 표준을 요구하므로 AI를 사용하는 모든 비즈니스는 위의 세 가지 핵심 원칙을 고려해야 합니다. AI가 확장되고 전체 산업에서 생산하는 AI 모델의 수가 증가하면 각 모델에는 식품의 영양성분 표기와 같은 소프트웨어 파워 라벨이 붙게 될 것입니다. 그리고 이러한 장치들이 산업내 AI를 활용하는데 도움을 줄 것입니다.
[AI Research]  
초거대 언어 모델 GPT-3 출현과 AIEd 발전의 상관관계
최근 자연어처리 분야의 대규모 모델 중 하나인 GPT-3 를 활용하여 코딩을 하는 CoPilot이 큰 관심을 끌면서 다시한번 대규모 언어 모델의 범용성과 성능이 관심을 끌었습니다. 
GPT-3에서 활용하는 대규모 언어 모델은 단어(Token)의 의미상 관계도를 다수의 문서(Corpus)에서 분석하고 다차원의 공간에 투영(Embedding)하는 방식의 언어 분석 모델입니다. 가장 대중적인 모델로는 구글의 BERT와 GPT-3 등이 있고, 국내에서도 한국어로 학습된 대규모 언어 모델을 여러 회사들에서 구축해 공유하고 있습니다. 이러한 모델들은 자연어처리 분야에서 대중적인 기계번역, 텍스트 구축 등에 탁월한 효과를 보이며 자연어를 다루는 여러 분야에서 활용되고 있습니다. 
교육은 특성상 자연어로 구성된 데이터가 상당히 많아 범용성 높은 언어 모델의 활용이 교육공학(Edtech)과 교육용 인공지능(AIEd) 분야에서도 늘 큰 관심을 받아 왔습니다. 그런 의미에서 대규모 언어 모델을 활용하는 교육용 인공지능 분야에 대해서 몇가지 대표적 사례를 소개하고 자연어처러 모델이 교육 기술의 발전에 어떤 기여를 하게 될지 살펴보고자 합니다.
우선 문제의 난이도 분석에 도움이 됩니다. 외국어 뿐만 아니라 자연어로 구성된 대부분의 학습 자료, 그리고 문제들을 활용하여 문제의 난이도를 예측하는 방법은 교육의 여러 부분에서 활용될 수 있습니다.  최근 발표된 논문에서는 문제의 본문, 정답의 보기를 분석하는 방법에서 BERT를 활용했고, 8% 수준의 오류를 확인하였습니다. 문제 난이도로 활용되는 라벨은 사용자의 실력을 분석하는 Item-response theory의 문제 난이도 파라미터를 활용하였으며, 단순한 모델임에도 상당한 정확도를 갖고 있음을 확인할 수 있었습니다. 

또한 문제 제작에도 도움이 됩니다. 자연어처리 분야에서도 문제를 만들거나 특정 문제에 대한 답을 제공하는 기술을 지속적해서 연구하고 있습니다. 실제로 이러한 분야에서 GPT-3 를 활용한 예시도 이미 공개되었고, 학술적으로도 더욱 고도화시키려는 노력이 진행 중입니다. 기본적으로는 text generation에 활용되는 접근을 사용한 연구에서도 문제의 카테고리, 보기의 애매함(distractor), 문제의 난이도 등을 함께 활용하여 문제를 구축하는 시스템을 연구ㆍ개발하고 있는 사례도 확인할 수 있습니다. 

위에 공유해 드린 사례들은 대규모 언어 모델의 대표적 교육 적용 사례들이지만, 그 외에도 자연어처리가 교육 쪽에서 활약할 수 있는 예시는 굉장히 많습니다. 범용성이 높은 자연어 처리 모델들이 더욱 많이 공개됨에 따라 더욱 다양한 연구 개발이 진행되고 있고, 뤼이드 역시 교육 인공지능의 리더로서 조금 더 교육에 도움이 되는, 학생들의 학습 과정을 도와줄 수 있는 더욱 많은 적용 사례를 공격적으로 연구하고 있습니다. 
*출처: 
  1.  https://copilot.github.com/
  2. Benedetto, Luca, et al. "R2DE: a NLP approach to estimating IRT parameters of newly generated questions." Proceedings of the Tenth International Conference on Learning Analytics & Knowledge. 2020.
  3. https://Questgen.ai
  4. Khan, Saad M., Jesse Hamer, and Tiago Almeida. "Generate: A NLG system for educational content creation."
인간의 망각 효과를 고려한 Knowlege Tracing 모델
교육 AI 연구의 기본이자 시작이라고 할 수 있는 Knowledge Tracing(지식 추적)은 특정 학생의 지난 교육 기록을 활용해 아직 풀지 않은 문제에 대한 정오답을 예측하는 Task로 수많은 연구진이 예측 정확도를 높이기 위한 다양한 시도를 해왔습니다. 
이러한 연구의 일환으로 사람들은 배운 것을 모두 기억하지는 못한다는 전제하에 연구된 Knowledge Tracing 연구를 이번 뉴스레터에서 소개합니다. 우리가 이전에 풀어봤던 문제를 다시 푼다고 하더라도 그 문제를 맞으리라는 보장은 없습니다. 또한, 학습 5분 뒤에 남아있는 지식의 정도와 5일 뒤에 남아있는 지식의 정도는 다를 것입니다. 이러한 망각이라는 특성은 학생의 Knowledge를 정확하게 예측하는 데 어려움을 줍니다. 

독일의 심리학자 헤르만 에빙하우스는 인간의 망각 현상을 관찰해 이론화했습니다. 에빙하우스가 제시한 망각 곡선에서는 학습의 횟수와 마지막 학습 이후 경과한 시간에 따라 기억하는 정도가 달라지게 됩니다. 이러한 망각 효과(Forgetting Behavior)를 고려한 Knowledge Tracing 모델 연구는 2011년에 처음으로 이루어졌습니다. 이 연구에서는 Forget node라는 것을 제안하여, New Day response가 생길 때마다 일정 확률로 정보를 잊어버리는 것을 구현하였습니다. 2016년에는 각 문제마다 이전에 푼 같은 skill의 문제의 개수를 forgetting rate에 반영하는 연구가 있었고, 가장 최근인 2019년에는 기존 Knowlege Tracing 모델인 DKT에 forgetting behavior를 추가하기도 했습니다.
현재 대부분의 모델에서는 forgetting behavior를 모든 학생에 대해 똑같이 적용하고 있습니다. 학생마다 학습한 내용을 망각하는 정도가 다를 수 있기 때문에 Count-based feature와 Time-based feature을 사용하여 해당 정보들을 모델링해 Knowledge Tracing 연구에 적용해 보면 보다 진일보한 연구가 가능해질 것입니다. 
*출처: Riiid Techblog 

(주)뤼이드
서울시 강남구 테헤란로 87길
수신거부 Unsubscribe