All in One AI 데이터 솔루션
      2023 Feb week 3 Vol 18 
All in One
AI DATA SOLUTION-
SELECTSTAR
OpenAI,
또 하나의 혁신을
속삭이다  
AI Topic→ →

들리나요

OpenAI가 속삭이는 또 하나의 혁신이 

OpenAI의 다음 라인업, Whisper

세상이 온통 ChatGPT 이야기로 시끄러운 가운데 OpenAI는 조용하고 묵묵히 혁신을 이어가고 있는듯 보입니다. 

지난해 12월, OpenAI자동 음성 인식(ASR, Automatic Speech Recogntion) 모델 Whisper를 공개했습니다.
음성 인식이란, 사용자가 음성 명령을 내리거나 문장을 말할 때 음성의 패턴을 인식하고, 이를 컴퓨터가 이해하고 처리할 수 있는 형태로 변환하는 과정을 뜻합니다. 실생활에서 볼 수 있는 대표적인 예로는 Siri에게 내리는 음성 명령이나, YouTube 영상에 달리는 자동 자막 등이 있습니다. 음성 인식은 음성 데이터의 기초가 되어 더욱 다양한 음성 테스크를 처리할 수 있게 지원합니다.

이미 뛰어난 음성 인식 모델 가운데서도, Whisper는 각별히 주목 받았습니다. 바로 다양한 언어(Multilingual) 환경에서 제로샷(Zero-Shot)으로 뛰어난 성능으로 보인다는 것입니다. 여기서 Zero-Shot이란 한 번도 학습된 적 없는 데이터를 예측하는 것을 의미합니다.

그럼 Whisper에 대해 좀 더 알아보겠습니다.
Whisper 모델 아키텍처  

Whisper의 기초 모델은 Transformer입니다. Transformer를 알고 계시다면 모델 구조를 이해하는 건 어렵지 않습니다. Whisper Transformer의 인코더-디코더 구조를 따라 음성 데이터가 인코더에 입력되면, 해당 음성 데이터으로 처리해야 하는 내용을 디코더에 입력합니다.


인코더에 입력되는 음성 데이터는 30초 단위로 쪼개지며, 이후 Mel-Spectrogram을 통해 변환됩니다. 음성 데이터의 기본적인 형태는 파형(파동)으로 이루어져 있습니다. 통상 AI 모델이 파형 데이터를 처리하기는 쉽지 않아, Whisper는 주파수의 단위를 Mel scale로 변환한 Mel-Spectrogram을 학습에 활용합니다.


Mel-Sperctrogram은 음성의 파형에 STFT(Short-Time Furier Transform)을 적용하고 인간이 소리를 인식하는 방식에 따라 Mel Scale로 변환한 것입니다. 간단히 말하면 파형을 잘게 나눠 그 각각을 푸리에 변환하는 방법입니다. Whisper는 여기에 로그를 취해 최종적으로 Log-Mel Spectrogram을 입력값으로 활용합니다. 이렇게 변환된 결과물은 이미지의 형태로 나타나는데요, 그래서 인코더에 입력하기 전에 Convolution Layer로 임베딩합니다.


디코더는 스페셜 토큰을 포함한 음성 데이터의 내용이 담겨 있습니다. 예를 들어, ‘Whisper는 뛰어난 언어 모델입니다.’라는 음성이 Mel-Spectrogram으로 변환되어 인코더에 입력되면 디코더에는 [‘한국어(Ko)’, ‘받아쓰기(Transcirbe)’, ‘Whisper’ , ‘는’ , ‘뛰어난’ , ‘언어’ , ‘모델’ , ‘입니다’]를 입력값으로 넣어 디코더가 한국어 언어로 받아쓰도록 학습합니다. 여기에 ‘한국어’, ‘받아쓰기’ 같은 역할을 지정해주는 토큰을 스페셜 토큰에 해당합니다. 스페셜 토큰 덕분에 Whisper는 받아쓰기 말고도 번역 같은 작업도 처리 가능하기 때문에 일종의 멀티태스크 모델이라고 할 수 있습니다.


디코더의 목표는 다음 토큰을 예측하는 것입니다. 앞선 예시에서 [‘한국어(Ko)’, ‘받아쓰기(Transcirbe)’, ‘Whisper’ , ‘는’ ]까지 입력됐다면 다음 토큰인 ‘뛰어난’을 예측하는 것입니다. 학습과정에서 인코더에서 처리한 정보를 넘겨 받게되고, 이렇게 음성 데이터를 인식하도록 학습됩니다.

Whisper, 왜 주목 받았을까?

Whisper 연구진은 모든 분야에서 SOTA(State-of-the-art, 현재 최고 수준) 수준 모델은 아니라고 말합니다. 보통 음성 인식 모델은 특정 태스크를 수행할 수 있도록 특화하여 훈련합니다. 하나의 모델이 모든 분야에서 SOTA를 달성하기 어렵다는 말입니다. 이렇게 보면 Whisper에 특별한 점이 없는 것 같아 보입니다. 그렇다면 Whisper가 주목 받은 이유는 무엇일까요?


어떤 언어든, 심지어 학습되지 않은 음성 데이터를 인식할 수 있다는 점에서 Whisper의 강점이 두드러집니다. Whisper는 방대한 양의 다국어 음성 데이터로 학습했기 때문에 어떤 언어로 말하더라도 영어로 번역 가능하고 영어가 아닌 다른 언어에서 받아쓰기(Transcription) 성능이 매우 뛰어납니다. 다시 말하면, 다른 음성 모델에 비해 보편적으로 활용하기 쉽다는 말입니다. 한국어 성능도 비교적 뛰어난 편이라 국내에서도 음성 인식 관련 서비스를 개발하는 데 도움을 받고 있다고 합니다.


이번 아티클에서는 OpenAI가 만들어낸 또 다른 역작, Whisper 음성 인식 모델에 대해 알아보았습니다. 봉준호 감독의 영화 <설국열차>에는 자동 번역기가 등장합니다. 이 번역기 덕분에 주인공은 서로 자국의 언어로 말해도 자연스럽게 대화할 수 있는데요. 영화 속 배경은 2032년으로 상당히 발전된 미래 모습을 그리고 있습니다. 하지만 이미 Whisper는 그 가능성을 보여주었습니다. 정말 해외에 나가 번역기 없이 대화할 수 있는 날이 머지 않은 것 같습니다.

DATUMO FST  → →
대한민국 최초,
피쳐스페이스(Feature Space) 기반으로 데이터셋의 분포를 눈으로 확인하고 데이터셋의 커버리지(Coverage)와 AI 모델 개선에 필요한 데이터를 보다 구체적으로 파악할 수 있는 데이터셋 분석 SAAS, DATUMO FST.
자유도 높은 분석과 큐레이션(Curation)을 통해 엣지 케이스(Edge case)를 분석하고 선별 알고리즘을 통해 엣지 케이스와 유사한 데이터를 조회하거나 전체 데이터셋을 대표하는 일부 데이터셋을 추출할 수도 있어 기존 기업의 AI 모델 성능 향상에 따르는 시간과 비용 절감에 혁신을 가져올 것입니다.

알파테스트에 관심이 있거나 참여를 원하는 단체나, 기관, 기업은 아래 링크로 부담없이 신청하셔서 AI DATA 분야에서 한걸음 앞서가는 얼리어답터가 되십시오.


Promotion  → →

DATA 바우처 지원사업을 알아보고 계신다면
세계적 AI 학회(NeurlPS, EMNLP, CVPR)에 논문이 모두 등재된
AI 데이터 선두 기업과 지금, 함께 하십시오!

망설일 시간에 경쟁사들보다 먼저 신청하세요!

  AI NETWORKING NIGHT → → 

AI 관심있는 누구나! 와서 노다지를 캐가세요!


  • 직군, 나이에 상관없이 참여할 수 있는 오픈 모임입니다.
  • AI와 AI 도입, AI 비즈니스, 사업개발에 대한 다양한 프로그램을 운영하고 있는 AI 중심의 커뮤니티입니다.
  • 신사업팀, 사업개발팀, 변화혁신팀 등 회사 내에서 Digital Transformation을 위해 AI 도입을 고민하는 분들이 모여있는 곳입니다.
  • 최신 정보와 기술, 작업 노하우, AI 모델 개발을 위한 플랫폼 서치, 전략 등에 대한 고민, 질문, 다양한 경험 등을 자유롭게 나누고 자기만의 값진 노다지를  캐가십시오!


  POP-Up Survey→ → 


  • AlphaGo의 아버지, Demis Hassabis
  • AI번역의 혁신, 조경현  
  • 딥러닝 교과서"Deep Learning" 저자, Ian Goodfellow

이런 AI 업계의 슈퍼스타들을 AI NODAJI에서 만나지 못할 이유가 없습니다!

여러분이 만나고 싶은 AI 연사들을 직접 추천해주십시오
추천해주신 의견을 엄선하여 스타벅스 쿠폰,
편의점 쿠폰 등의 사은품을 드립니다!


Weekly AI Issues  → →

구글, AI챗봇 ‘BARD’ 오답에 시총 126조원 증발

성급한 시연에 역풍

‘제임스 웹 우주망원경의 새로운 발견을 아홉 살에게 설명하라’는 말에 “외계 행성 최초의 사진을 찍는 데 사용됐다”고 답한 것이 화근이 됐다. 


바이두도 인공지능(AI) 챗봇 도전장

인공지능(AI) 챗봇인 '어니봇'(Ernie Bot)을 다음 달 출시

다음 달 AI 챗봇을 독립형애플리케이션 형태로 출시한 뒤 점진적으로 기존의 바이두 검색 엔진과 통합할 것으로 업계의 궁금증을 자아냈다.


네이버 개발자 컨퍼런스, DEVIEW 개최

네이버의 ‘서치GPT’의 윤곽이 나올지 관심

네이버는 오는 27~28일 데뷰 2023을 오프라인으로 개최한다고 밝혔다



Selectstar Culture → →
셀렉트스타의 컬쳐?

  
Join Us  → →

지금 AI 데이터 업계에서
제일 밝게 빛나고 있는
셀렉트스타와 함께 하세요!
*이외, 셀렉트스타는
실무에 바로 활용할 수 있는
"오픈 데이터셋" 자료를
 무료로 제공해드리고 있습니다.
홈페이지에서 신청해보세요
셀렉트스타 주식회사
📨  비즈니스 및 제휴 문의 contact@selectstar.ai
서울특별시 강남구 역삼동 테헤란로 20길 20 10층, 11층
1666-3282 (1666-DATA)

*본 콘텐츠는 deep daiv. 와의 제휴로 구성 되었습니다.