All in One AI 데이터 솔루션 All in One
AI DATA SOLUTION-
SELECTSTAR |
|
|
VALL-E Speaks
단 3초만 들려주면 성대모사 끝 |
|
|
Text to Speach 2.0
요즘 DALL-E 모르시는 분 있나요?
그래도 모르시는 분을 위해서 소개해드리면 ChatGPT를 개발한 OpenAI에서 공개한 이미지 생성 모델로, 텍스트 설명에 맞는 이미지를 만들어 내는 모델입니다. 이번에는 마이크로소프트(MS)와 함께 개발한 ‘VALL-E’입니다. (OpenAI 무섭네요...)
VALL-E는 원하는 음성 데이터와 텍스트를 입력하면 실제로 그 목소리가 읽는 것처럼 자연스럽게 원하는 내용을 읽어주는 음성(Voice) 버전 생성 모델입니다.
이런 기술을 음성 합성(Voice Synthesis)이라고 하며 그중에서도 텍스트를 입력하여 음성을 생성하는 것을 TTS(Text-to-Speech)라고 합니다.
지금껏 많은 발전을 거쳐온 TTS 모델이지만 고질적인 문제점 또한 있었습니다. 바로 추론(Inference) 과정에서 입력해야 하는 데이터 즉, 우리가 합성하고자 하는 목소리 녹음 파일의 길이가 최소 몇 분 단위여야 한다는 점입니다.
이와 달리(?) VALL-E는 단 3초의 입력 음성만 있어도 충분하다고 하는데요. 이번 호에서는 화제의 TTS 모델, VALL-E를 알아보도록 하겠습니다. |
|
|
출처: Neural Codec Language Models are Zero-Shot TTS Synthesizers (Wang, 2023)
음성 데이터는 주로 Mel-Spectrogram으로 변환하여 활용하지만 VALL-E는 텍스트와 목소리를 입력 받아 디코더 단계에서 오디오 파일(Waveform)로 변환할 수 있는 이산적인 오디오 코덱 코드(Discrete Audio Codec Code)를 생성해냅니다. 그 과정을 조금 더 자세히 들여다 보겠습니다.
우선 입력된 텍스트 데이터를 음소(Phoneme)로 변환해야 합니다. 음소는 분별할 수 있는 소리의 최소 단위입니다. ‘오늘 날이 참 좋다’라는 문장을 소리나는 대로 적는다면 [오늘 나리 참 조타]라고 쓸 수 있습니다. 텍스트를 음소로 변환하는 이유는 실제로 우리가 발화할 때는 문자 그대로가 아닌, 문자를 해석하여 규칙에 맞는 발음법으로 소리 내기 때문입니다. 우리말의 음소는 자음과 모음이 이에 해당하고, 영어는 알파벳뿐만 아니라 ‘ai’, ‘ee’, ‘ear’ 등을 포함하여 총 44개라고 알려져 있습니다. (음소를 분류하는 기준은 학자마자 다릅니다.)
다음으로는 음성 프롬프트를 사전 학습된 뉴럴 코덱 모델로 인코딩하여 이산적인 음성 코드로 변환합니다. 인코딩하는 이유는 음성 파일을 압축하기 위해서입니다. 이 과정을 Speech Quantization이라고 하는데 직역하면 음성 양자화입니다. 양자화는 단절없이 연속된 변화량을 디지털 데이터, 즉 띄엄띄엄한 값으로 표현하는 작업을 뜻합니다. 적절한 양자화는 데이터를 관리·저장·연산하는 데 큰 도움이 됩니다.
VALL-E 연구진은 양자화에 구글의 AudioLM에서 활용한 SoundStream 뉴럴 코덱을 활용하였습니다. (구글?)
한 번도 학습한 적 없는 음성 데이터로 TTS를 구현하려면 새로운 방법이 필요합니다. 이를 위해 VALL-E는 Zero-Shot TTS를 조건화된 코덱 언어 모델링 작업으로 간주합니다. 많은 발전을 거쳐 상향 평준화된 기존 언어 모델의 방법론을 TTS 모델에 접목시키는 게 핵심입니다(ChatGPT에 활용된 생성형 언어 모델 GPT만 보아도 성능이 얼마나 뛰어난지 가늠할 수 있습니다). TTS 모델을 언어 모델로 가정하고, 음소 시퀀스와 음성 코덱 코드가 입력(조건화)되었을 때 자연스러운 음성이 생성될 수 있도록 예측합니다.
TTS 모델의 어느 부분이 언어 모델과 접목될 수 있는지 잘 모르겠다고요? 먼저 언어 모델은 통계, 그중에서도 조건부 확률로 생각해 볼 수 있습니다. 예를 들어 여기 ’난’과 ‘너를’이라는 단어 묶음이 있습니다. 다음에 어떤 단어가 나올까요? ‘사랑해’를 생각했다면 우리의 사고가 조건화돼 있다고 볼 수 있습니다. 확률적으로 표현한다면 P(’사랑해’(사건) | ‘난’, ‘너를’(조건)) 의 값이 다른 값들보다 크다고 할 수 있습니다. VALL-E 또한 P(생성된 음성(C) | 음소 시퀀스(x), 입력된 음성(C*)) 을 최대화하도록 최적화합니다. 이 과정에서 음소 시퀀스와 입력된 음성의 특징을 추출하여 음성 생성 방법을 학습하는 것입니다. |
|
|
출처: Neural Codec Language Models are Zero-Shot TTS Synthesizers (Wang, 2023)
VALL-E 학습에는 Transformer의 디코더를 기반으로 AR(Autoregressive, 자기 회귀)과 NAR(Non-Autoregressive, 비-자기 회귀) 방식을 혼용하였습니다. 입력된 음성을 양자화하여 인코딩하고, 이 코덱 행렬의 ‘가장 첫 번째 열’만 AR 모델로 학습합니다. AR 모델은 이전 생성된 출력값을 다시 입력값으로 활용하기 때문에 다른 모델에 비해 생성 성능이 뛰어납니다. 하지만 이렇게 학습할 경우 추론 과정에서 속도가 느려질 수 있는데요. 이를 방지하고자 코덱의 나머지 부분은 NAR 방식으로 학습합니다.
작년 이맘 때쯤, 다큐 3일의 ‘낭만 어부’의 일화가 재조명된 적이 있습니다. 거친 목소리로 선상에서 읊는 시는 정말 험난한 삶의 낭만처럼 느껴졌습니다. 그 낭만 어부는 좋아하는 시 중 하나인 이형기 시인의 ‘낙화’를 외우셨는데 아쉽게도 방송사의 편집 때문에 시의 일부 밖에 듣지 못했습니다.
그 목소리의 시를 듣고 싶어 TTS를 열심히 찾아봤지만 당시 한국어 기준으로 2시간 분량의 녹음 파일이 필요하다고 하여 단념해야했습니다.
하지만 이제는 그 바람이 현실이 될 수 있을 것 같습니다.
VALL-E에게는 딱 3초면 충분하니까요 |
|
|
대한민국 최초,
피쳐스페이스(Feature Space) 기반으로 데이터셋의 분포를 눈으로 확인하고 데이터셋의 커버리지(Coverage)와 AI 모델 개선에 필요한 데이터를 보다 구체적으로 파악할 수 있는 데이터셋 분석 SAAS, DATUMO FST.
자유도 높은 분석과 큐레이션(Curation)을 통해 엣지 케이스(Edge case)를 분석하고 선별 알고리즘을 통해 엣지 케이스와 유사한 데이터를 조회하거나 전체 데이터셋을 대표하는 일부 데이터셋을 추출할 수도 있어 기존 기업의 AI 모델 성능 향상에 따르는 시간과 비용 절감에 혁신을 가져올 것입니다.
DATUMO FST는 현재 Free Trial로 제공 되고 있습니다.
DATUMO FST에 관심이 있거나 참여를 원하는 단체나, 기관, 기업은 아래 링크로 무료 체험을 부담없이 신청하셔서 AI DATA 분야에서 한걸음 앞서가는 얼리어답터가 되십시오.
|
|
|
데이터 라벨링 작업을
정부의 DATA 바우처 지원사업으로 부담없이 수행하고 싶으신가요?
154건의 성공 노하우가 보장하는 데이터 바우처 공급 기업,
세계적 AI 학회(NeurlPS, EMNLP, CVPR)에 논문이 모두 등재된
대한민국 AI 데이터 선두 기업과 지금, 함께 하십시오!
신청순으로 진행되오니
망설일 시간에 경쟁사들보다
먼저 신청하시는 것이 유리합니다!
|
|
|
데이터셋 분석 SaaS, DATUMO FST에 관심 가져 주셔서 감사합니다.
DATUMO FST의 기능 개선과 합리적인 가격 정책 마련을 위해,
여러분들의 의견을 적극 반영하고자 USER SURVEY를 실시합니다.
DATUMO FST에 대한 당신의 생각을 부담없이 들려주세요.
아직 사용전이라도 가이드 자료 숙지만으로도 참여하실 수 있습니다.
보내주신 답변은 오직 제품과 서비스 개선을 위해 활용될 예정이며
성의 있게 참여해주신 분께는 스타벅스 상품권을 보내드립니다.
|
|
|
AI 관심있는 누구나! 와서 노다지를 캐가세요!
- 직군, 나이에 상관없이 참여할 수 있는 오픈 모임입니다.
- AI와 AI 도입, AI 비즈니스, 사업개발에 대한 다양한 프로그램을 운영하고 있는 AI 중심의 커뮤니티입니다.
- 신사업팀, 사업개발팀, 변화혁신팀 등 회사 내에서 Digital Transformation을 위해 AI 도입을 고민하는 분들이 모여있는 곳입니다.
- 최신 정보와 기술, 작업 노하우, AI 모델 개발을 위한 플랫폼 서치, 전략 등에 대한 고민, 질문, 다양한 경험 등을 자유롭게 나누고 자기만의 값진 노다지를 캐가십시오!
|
|
|
Weekly AI Issues → →
AI로 표절 ‘도둑 유튜버’ 활개
생성 AI가 발전하면서 일반인들도 쉽게 활용할 수 있게 된 것에 대한 여러 부작용이 보이고 있습니다. 우후주숙 생겨나는 질 낮은 콘텐츠들도 문제지만 심지어 정성들여 만든 오리지널 콘텐츠의 손쉬운 복제도 큰문제입니다. 아직까지 저작권 침해에 대한 법류이 마련되어 있지 않은 상황에서 이와 같은 분쟁의 증가 불가피할 것으로 보입니다.
MS, 메타버스 부서 정리
AI에 투자금이 몰리면서 다른 부서들은 짐을 싸고 있습니다. OpenAI에 지속적으로 투자하고 있는 마이크로소프트는 산업용 메타버스 부문 개발을 중단한 것으로 밝혀졌습니다. 전문가들은 마이크로소프트가 전략적으로 신기술 개발의 높은 위험을 감수할 필요가 없다고 판단했다고 보고 있습니다.
초거대 AI 개발 전쟁에 스타트업들 ‘낙수 효과
스타트업 업계에서는 초거대 AI 모델을 활용하여 특정 분야에 특화된 ‘버티컬 서비스’를 통해 틈새 시장을 공략하고 있습니다.
AI 반도체 시장 3년뒤에는 2배 성장
2026년에 861억 달러까지 급성장할 것으로 추산
AI가 발전하기 위해서는 AI와 관련된 인프라가 뒷받침되어야 합니다. 그중 AI 반도체는 모델의 성능과 직결되어 있습니다. 앞으로 AI 반도체 시장은 빠르게 성장하여 3년 뒤에는 현재의 2배까지 성장할 것으로 전망하고 있습니다.
|
|
|
Join Us → →
지금
AI 데이터 업계에서
제일 밝게 빛나고 있는
셀렉트스타와
함께 하세요!
|
|
|
*이외, 셀렉트스타는
실무에 바로 활용할 수 있는 "오픈 데이터셋" 자료를
무료로 제공해드리고 있습니다.
홈페이지에서 신청해보세요
|
|
|
*본 콘텐츠는 deep daiv. 와의 제휴로 구성 되었습니다.
|
|
|
|
|