세계는 점점 더 연결되고 있으며

세계는 점점 더 연결되고 있으며, 사람들에게는 이전보다 더 많은 다국어 콘텐츠에 접근할 수 있는 기회가 생겼습니다. 이로 인해 어떤 언어로든 정보를 소통하고 이해하는 능력이 점점 더 중요해지고 있습니다. 오늘, 우리는 SeamlessM4T라는 첫 번째 올인원 멀티모달과 다국어 AI 번역 모델을 소개합니다. SeamlessM4T를 통해 사람들은 다른 언어로 텍스트와 음성을 통해 손쉽게 소통할 수 있습니다. SeamlessM4T는 다음을 지원합니다:

  • 거의 100개 언어에 대한 음성 인식
  • 거의 100개 입력 및 출력 언어에 대한 음성에서 텍스트로의 번역
  • 거의 100개 입력 언어 및 36개(영어 포함) 출력 언어를 지원하는 음성에서 음성으로의 번역
  • 거의 100개 언어에 대한 텍스트에서 텍스트로의 번역
  • 거의 100개 입력 언어 및 35개(영어 포함) 출력 언어를 지원하는 텍스트에서 음성으로의 번역

우리는 공개적인 과학 방식을 추구함에 따라, SeamlessM4T를 연구자와 개발자들이 이 작업을 기반으로 더 발전시킬 수 있도록 연구 라이선스 하에 공개적으로 공개합니다. 우리는 또한 SeamlessAlign의 메타데이터를 공개하는데, 이는 지금까지 가장 큰 오픈 멀티모달 번역 데이터셋으로, 총 270,000시간의 음성과 텍스트 정렬 자료를 포함하고 있습니다. 우주선 타기자 안내서(The Hitchhiker’s Guide to the Galaxy) 속 가상의 바벨 피쉬(Babel Fish)와 같은 범용 언어 번역기를 만드는 것은 어려운 일입니다. 왜냐하면 현재의 음성에서 음성이나 음성에서 텍스트 시스템은 세계 언어의 일부만을 다루기 때문입니다. 그러나 우리가 오늘 발표하는 작업은 이 여정에서 큰 발전을 이룬 것으로 믿습니다. 분리된 모델을 사용하는 방법에 비해 SeamlessM4T의 단일 시스템 접근법은 오류와 지연을 감소시키며 번역 과정의 효율성과 품질을 높입니다. 이를 통해 서로 다른 언어를 사용하는 사람들이 보다 효과적으로 소통할 수 있게 됩니다.

SeamlessM4T는 우리와 다른 사람들이 범용 번역기를 만들기 위해 지난 몇 년 동안 해왔던 성과들을 기반으로 구축되었습니다. 작년에 우리는 No Language Left Behind (NLLB)라는 200개 언어를 지원하는 텍스트에서 텍스트로의 기계 번역 모델을 공개했으며, 이후로 위키피디아에 번역 공급자로 통합되었습니다. 또한, 우리는 호크킨어(Hokkien)라는 쓰기 시스템이 없는 언어를 위한 최초의 직접 음성에서 음성으로의 번역 시스템인 Universal Speech Translator의 데모를 공유했습니다. 그리고 올해 초에는 Massively Multilingual Speech를 공개하여 1,100개 이상의 언어에 걸쳐 음성 인식, 언어 식별 및 음성 합성 기술을 제공했습니다. SeamlessM4T는 이러한 프로젝트들의 연구 결과를 활용하여 최신 결과물과 함께 다양한 음성 데이터 원본을 기반으로 다국어 및 멀티모달 번역 경험을 가능하게 합니다. 이것은 언어 간 소통을 돕는 AI 기반 기술을 구축하기 위한 지속적인 노력의 최신 단계에 불과합니다. 앞으로 우리는 이 기반 모델이 새로운 커뮤니케이션 기능을 가능하게 하는 방법을 탐색하고자 합니다. 궁극적으로 모두가 서로를 이해할 수 있는 세상에 한 걸음 더 가까워지길 바랍니다. SeamlessM4T에 대해 더 알아보려면 AI 블로그에서 확인하세요.


AI 기술의 발전으로 인해 2022년 11월 ChatGPT가 출시되었고, 우리의 세상은 AI 시대로 전환되었습니다. 그 이후로 디지털 기술 산업은 영원히 변하지 않을 것입니다. 지난 12월 이후로 본격적으로 시작된 AI 기술을 활용한 스타트업들의 투자 유치는, 벤처 투자가와 같은 투자자들에게도 큰 관심을 받았습니다. 그러나 신흥 기술의 특성상, 높은 잠재력을 가진 스타트업과 허세가 많거나 극복하기 어려운 문제를 직면할 가능성이 있는 스타트업을 구분하기 위해, 우리 벤처 캐피탈리스트들은 신속하게 전략을 개발해야만 했습니다. 이 구분을 이해하기 위해서는 생성 모델 AI 가치 체인의 다양한 계층에 대한 숙련된 이해가 필요했습니다. 어떤 계층이 투자가치가 높고, 주어진 스타트업의 위험과 기회를 평가하기 위한 사전 검토 전략을 만들어야 했습니다. 구체적으로, 생성 모델 AI는 다음과 같은 계층으로 구성됩니다:

  • 데이터
  • 미들웨어
  • 세부 조정된 전문 모델
  • 클라우드 및 인프라 계층
  • 기반이 되는 모델
  • 응용 프로그램 계층

이 기술 스택 내에서 우리는 몇 가지 투자 가능한 영역과 초기단계 스타트업이 경쟁하기 어려운 영역을 식별하였습니다. 아래에서 자세히 알아보겠습니다.

투자 가능한 영역:

  • 데이터: 생성 모델 AI의 가장 큰 과제 중 하나는 제공하는 정보의 정확성과 신뢰성입니다. 현재 생성 모델 AI는 인터넷 자체와 같이 광범위하고 다양한 데이터셋 위에 구축됩니다. 이 데이터셋에는 관련성과 유용성을 갖춘 정보뿐만 아니라 다른 모든 것들도 포함되어 있습니다. 우리는 앞으로 몇 년 동안 등장할 생성 모델 AI 응용 분야의 별자리가 더 정확한 데이터로 구성될 것이라고 믿습니다. 이러한 특화된 모델은 도메인에 특화된 자체 데이터를 활용하여 응용 프로그램의 출력을 개인화하고 정확성을 보장할 것입니다.
  • 미들웨어: 생성 모델 AI 스택의 데이터 계층과 함께 미들웨어가 있습니다. 우리는 이를 새로운 생성 모델 AI 응용 프로그램의 개발을 지원하는 도구와 인프라로 정의하며, 이것은 이 섹터에서 우리의 투자 주제 중 두 번째 부분입니다. 특히, 우리는 모델 출력의 안전성, 정확성 및 개인 정보 보호를 평가하고 보장하는 인프라 및 도구 회사에 긍정적인 견해를 가지고 있습니다. 또한 여러 모델 간 추론을 조율하고, 전용 데이터를 대용량 언어 모델에 효율적으로 통합하는 작업도 지원합니다.

이와 같은 분석을 통해, 우리는 투자 가능한 영역과 초기단계 스타트업이 경쟁하기 어려운 영역을 식별하였습니다. 이러한 통찰력은 벤처 캐피탈리스트들이 생성 모델 AI 시장에서 유망한 기업을 발굴하고 성공적인 투자를 할 수 있도록 돕습니다.


주식회사 오늘배움
contenjoo@learntoday.co.kr
대전광역시 유성구 지족로351 4층 402호 010-4819-1571
수신거부 Unsubscribe