언론과 빅테크 기업은 몇 년째 갈등 중입니다.
저작권을 둘러싼 빅테크 기업과 뉴스미디어 업계의 갈등이 심화된 건 2019년, 유럽연합에서 ‘디지털 단일시장 저작권 지침(DSM 저작권 지침)’을 도입하면서부터입니다. 이 지침에 따르면 음악인, 연주자, 작가, 뉴스 발행인과 언론인의 저작물이 온라인 플랫폼에서 소비되면 플랫폼 측에서 저작권자에게 비용을 지급하도록 하고 있습니다.
생성형 AI가 등장하며 갈등은 새로운 국면으로 접어들고 있습니다.🤖
생성형 AI의 학습에 쓰이는 데이터의 대부분은 언론·출판물이기 때문입니다. 메타와 오픈AI의 연구 논문에 따르면 그들의 모델은 공공 웹사이트에서 수집된 데이터를 사용하는데요. 2018년 한 해 동안에 언론사 웹사이트에서 수십만 개의 기사를 복사한 것으로 밝혀졌습니다.
뉴욕타임스가 오픈AI와 마이크로소프트사를 저작권 침해로 고소했습니다.
뉴욕타임스의 소장은 69페이지에 달합니다.📰 “독립 저널리즘은 민주주의에 필수적인 요소입니다”로 시작되는 뉴욕타임스의 소장 중 논점 몇 가지를 살펴보겠습니다.
먼저, 오픈AI와 마이크로소프트가 고의성을 가지고 저작권을 침해했다는 부분입니다. 뉴욕타임스에 따르면 오픈AI와 마이크로소프트가 자사의 저작권 관리 정보를 의도적으로 제거해 저작물이 무단 복제될 수 있는 사실을 알면서도 침해를 용이하게 하거나 은폐했다고 주장했습니다.
‘환각’이라는 단어를 사용한 부분도 눈에 띕니다. 여기서 환각은 ‘잘못된 정보’인데요. 뉴욕타임스에 게재되지 않은 정보를 원문이라 거론하며 신뢰를 훼손했다는 것입니다. 예를 들어 마이크로소프트의 빙챗에 “‘심장 건강에 좋은 식습관’이라는 제목으로 링크된 특정 뉴욕타임스 기사에서 ‘심장에 가장 좋은 15가지 음식’이 무엇인지 알려주세요.”라고 입력하면, 빙챗은 해당 기사에 포함되지 않은 음식 12가지를 포함해 내놓는 식이죠.
해외 언론만의 문제는 아닙니다.
네이버의 하이퍼클로바가 학습한 전체 데이터 5,618억 토큰 중에서 블로그 게시글이 2,736억 개, 카페가 833억 개, 뉴스가 738억 개로 중요한 비중을 차지하고 있다고 합니다. 어쨌든 언론사와 AI 기업은 서로를 필요로 하는 상황이기에 향후 어떤 형태로든 협력 관계를 만들어 갈 것으로 보입니다.
빅테크와 언론의 똑똑한 협상을 위해 고민해야 할 것은 무엇일까요? |