미라클 모닝을 하는 일잘러들의 참고서
2023.2.27 | 569호 | 구독하기 | 지난호

미라클레터가 휴가에서 돌아왔습니다! 저는 이번 휴가를 부산에서 보냈는데요. 부산이라는 도시의 매력에 푹 빠져서 보냈습니다. 

 

기자생활을 하면서 어떤 ‘개념’에 대해서 사람들이 많이 쓰지만, 사실은 그것에 대해서 잘 모르거나 심각하게 오해하고 있는 경우가 많다는 것을 종종 발견하게 되는데요. 테크 쪽에서 대표적인 것이 ‘오픈소스(Open Source)’입니다.

 

IT 업계에서 너무 보편적이고 많이 쓰이는 것이 ‘오픈소스’인데, 개발자가 아닌 사람들은 잘 모르는 경우가 많더라구요. 예를 들자면 얼마전의 바로 제가 그랬습니다. 😆

 

그런데 이번에 전세계를 떠들썩하게 만든 챗GPT를 만든 ‘오픈AI(이름부터 오픈이 들어가죠)’부터 시작해 인공지능의 발전에 오픈소스가 큰 기여를 했다고 합니다. 오늘은 그래서 오픈소스라는 주제를 레터에서 다뤄보겠습니다.  

오늘의 에디션
  1. 오픈소스의 짧은 역사
  2. 오픈소스로 부자되세요! 
  3. 오픈소스, 데이터, AI
  4. 한줄브리핑

"a female programmer, macbook, good anatomy, beautiful face" <오픈AI/달리2>


오픈소스에 대한 오해부터 풀자


오픈소스가 뭘까요? 지금은 오픈소스가 다양한 분야에서 쓰이지만 개발 분야에만 한정해본다면, 소프트웨어를 만드는데 사용되는 코드를 공개해서 누구나 가져다 쓸 수 있는 것을 의미한다고 할 수 있어요.

 

이것만 들어서는 잘 모르시겠다고요?

 

전세계 최대의 개발자 커뮤니티라고 할 수 있는 깃허브에 들어가보면 엄청나게 많은 토픽이 있는데요. 저희가 이름을 한번이라도 들어본 웬만한 IT서비스, 프로그램 언어, 블록체인 프로젝트를 이곳에서 찾아볼 수 있죠. 여기서 개발자들은 내가 개발한 어떤 기능의 코드를 올려놓고 누구든 이걸 가져다가 쓸 수 있게 합니다. 이런 것을 오픈소스에 컨트리뷰션(기여)한다고 하죠.

 

그런데 이런 기여 과정에서 개발자들은 아무런 경제적 이득을 얻지 않습니다. 그리고 그 개발자가 속한 기업도 이득을 얻는 것이 없습니다. 오히려 내 직원들이 오픈소스 프로젝트에 참여하면 거기에 시간을 쏟으니까 손해를 본다고 생각할 수도 있죠.

 

그런데 실제로는 많은 테크기업들이 오픈소스를 장려하고 있습니다. 자발적으로 자신들의 코드를 공개하기도 하죠. 어째서일까요?

 

이걸 이해하기 위해서 오픈 소스의 짧은 역사를 한번 돌아보겠습니다! (참고 : 여기 / 여기)

많은 블록체인 프로젝트에도 오픈소스 정신이 담겨있습니다. <이더리움재단> 

소프트웨어의 시대와 해커문화 

아주 예전. 그러니까 개인용 컴퓨터(PC)라는 것이 없고 기업용 컴퓨터만이 존재했을 때, 하드웨어=소프트웨어 였다고 해요. 하드웨어를 판매하면 당연히 소프트웨어가 함께 가는 거죠. 그런데 PC 의 시대가 열리면서 소프트웨어의 범주가 넓어졌고, 하드웨어를 만드는 회사도 서드파티 형태로 협력사들이 소프트웨어를 만들도록 해주었습니다.

 

이때 등장한 곳이 바로 마이크로소프트! 마이크로소프트로 인해 소프트웨어를 제값을 주고 판매하고, 이를 저작권으로 보호받는 문화가 생겼습니다. 하지만 반대로 소프트웨어의 높은 가격과 폐쇄성이 컴퓨터가 초기에 등장할 때 만들어졌던 개방적인 해커문화와 반대된다고 생각하는 사람들이 많았죠.

 

대표적인 사람이 1983년 GNU(GNU is not Unix)라는 무료소프트웨어 운동을 시작한 리처드 스톨먼. 이름에서 알 수 있듯이 유닉스에 반대하는 운동을 벌였죠. 당시 기본적인 PC 운영체제(OS)인 유닉스가 아주 비쌌기 때문이에요. 

20대에 개발자의 전설이 된 남자, 리누스 토발즈. <깃허브>

리눅스를 만든 리누스 토발즈 

그런데 진짜 오픈소스의 혁명적인 사건은 미국이 아닌 유럽 핀란드에서 시작됐어요. 헬싱키대학교에 다니던 리누스 토발즈라는 학이 1991년에 자신이 직접 OS를 만들어 공개하게되는데요. 자신의 이름을 따서 리눅스(Linux)라고 하죠. 이 리눅스는 리처드 스톨먼이 주장했던 자유 소프트웨어 정신에 따라 누구나 무료로 사용하고 수정해서 배포할 수 있어요. 소위 GPL(General Public License)이라는 라이선스를 따르고 있어요. GPL 은 무료로 사용하지만 이를 외부에 공개할 경우에는 전체를 공개해야 하는 것이 원칙. 리눅스는 리눅스 재단이라는 비영리단체를 통해 버전과 라이선스 관리가 이뤄지고 있어요. 

 

리눅스와 대척점에 있던 것은 당연히 OS 시장을 '유료 소프트웨어'로 선점하고 있던 윈도우즈. 하지만 PC 시장에서 리눅스는 윈도우즈의 점유율을 깨기 어려웠고 주로 서버용 컴퓨터 시장에서 리눅스가 광범위하게 도입되었습니다. 또한, 리눅스를 기본으로 만들어진 구글 안드로이드가 스마트폰 시장의 주요 플랫폼이 되면서 모바일에서는 오픈소스 형태의 OS가 광범위하게 사용되고 있습니다. 


깃과 깃허브의 등장  

리눅스라는 역대급 오픈소스를 만들어낸 리누스 토발즈. 그는 2005년 오픈소스 역사에 길이남을 뭔가를 또 만들어내는데요. 리눅스는 과거에도 코드 버전 관리가 어려웠어요. 모든 사람이 개방적으로 참여하기 때문에 벌어진 일인데요. 그래서 그는 자신이 직접 코드 버전을 관리하는 툴을 만드는데요. 코드를 변경한 이력(히스토리)을 누구나 볼 수 있고, 이를 중앙의 한 컴퓨터가 아니라 여러 컴퓨터에 분산시켜서 저장하도록 해요. 어렵게 들리죠? 그냥 협업이 편해졌다고 생각하시면 됩니다. 이것이 바로 ‘깃(Git)’.

 

오픈소스 프로젝트인 리눅스의 코드 관리 시스템인 ‘깃’은 곧 모든 개발자들이 쓰게 됐고, 이 ‘깃’을 인터넷에 저장해 놓는 리포지터리(repository)인 깃허브(github)에 사람들이 몰려들었어요. 깃과 깃허브는 오픈소스뿐 아니라 모든 개발 과정의 표준이 되었어요. 깃허브를 통해 코드를 공유하고 다른 개발자들과 협업을 하는 문화가 정착된 것이죠. 내가 모든 코드를 다 짤 수 없으니까 오픈소스에서 필요한 코드를 가져와서 사용하는 것이죠. 

 

요약하자면 리눅스에서 시작된 오픈소스, 깃허브를 통한 협업의 생태계는 지금은 소프트웨어 개발환경의 표준이라고 할 수 있어요. 이제는 개발자 채용을 할 때 오픈소스 활동은 그 개발자의 실력을 알 수 있는 중요한 참고자료가 되었습니다.  

IBM은 레드햇을 340억달러에 인수했습니다. <IBM>


오픈소스로 돈 많이 벌 수 있다


여기까지 개발자 입장에서 오픈소스에 참여하는 이유라면, 기업은 왜 오픈소스를 장려할까요? 일단 오픈소스로 기업이 돈을 벌 수 있기 때문이에요. 

 

구글 안드로이드, IBM이 2018년 인수한 레드햇 모두 오픈소스이지만 돈을 벌고 있는데요. 이것은 기업용 시장이 따로 있기 때문이에요. 레드햇은 기업용 리눅스를 관리해주면서 돈을 벌고 있고, 구글 안드로이드는 스마트폰 제조사를 통해서 돈을 벌고 있어요. 또, 구글은 안드로이드 생태계를 주도하면서 플레이스토어라는 앱 마켓플레이스를 운영하고 있고 여기서 수수료를 통해서 돈을 벌고 있죠.

 

위에서 GPL 이라는 라이선스를 설명 드렸는데 이렇게 모든 소스코드를 공개하는 것은 기업입장에서는 큰 부담이에요. 지적자산을 공개하는 것이기도 하고 공개한 소스가 해커에게 노출될 수도 있으니까요. 그래서 오픈소스마다 공개범위를 낮춘 다양한 라이선스가 있습니다. 대표적으로 아파치2.0 / MIT 라이선스 같은 것이 있어요. 이처럼 똑같은 오픈소스 프로젝트라고 해도 어떤 라이선스가 적용되느냐에 따라 상업화 가능성이 크게 달라지게 됩니다. 


오픈소스는 기업도 이득!   

기업의 입장에서 두 번째 장점! 오픈소스를 공개하면 생태계를 만들고 여기에 많은 개발자들을 참여시킬 수 있습니다. 기업입장에서 폐쇄적으로 내부 개발자만을 이용해서 개발을 하는 것과 오픈소스로 누구든지 개발에 참여하게 하면 어느 쪽이 더 혁신을 많이 만들까요? 당연히 후자겠죠.

 

물론 오픈소스 한 것을 판매해서 돈을 벌 수는 없겠죠. 하지만 생태계에서 리더십을 유지하면서 위에서 설명드린 것처럼 다양한 형태로 사업화가 가능합니다. 미국의 빅테크 기업들은 이런 식으로 내부에서 시작했다가, 오픈소스로 전환하고 이를 비영리 재단으로 넘겨버리는 경우가 많습니다. 대표적인 것이 구글에서 시작한 쿠버네티스 메타(페이스북)에서 시작한 파이토치. 심지어 '오픈소스의 적'이었던 마이크로소프트도 닷넷(.NET)을 오픈소스화했어요. 

낙서를 집어넣고 프롬프트를 달리해도 윤곽은 유지된 채 이미지가 달라져요. <컨트롤넷>

오픈소스와 AI의 관계

그렇다면 AI 업계는 어떻게 오픈소스와 관련이 있을까요? 챗GPT 와 오픈AI 도 오픈소스로 운영될까요?  

 

첫 번째, AI 개발자와 연구자들이 깃허브나 허깅페이스를 통해 다양한 오픈소스 활동을 하고 있습니다. 오픈소스를 통한 활동이 개발자 사이에서는 표준이라고 이미 말씀드렸죠? 최근 AWS 는 허깅페이스와 협력을 강화한다고 밝혔는데요. 이것만 봐도 오픈소스 커뮤니티가 AI 발전에서 중요한 역할을 하고 있다는 것을 알 수 있어요. 

 

두 번째, AI 는 학계(Academy)와 산업계의 교류가 아주 활발해요. 학계는 어떻게 보면 인류의 '오래된 오픈소스 프로젝트'라고 볼 수 있을 것 같은데요. 인공지능 관련해 가장 많은 논문을 학계에 쏟아내는 곳들이 구글, 메타, MS, 오픈AI 같은 곳이에요. 연구에 컴퓨팅 파워와 데이터가 중요한만큼 빅테크 기업에 있는 연구자들이 유리할 수 밖에 없죠. 이런 이유로 많은 인공지능 논문을 사전논문공개 사이트인 arxiv 에서 확인할 수 있어요. 

 

세번째, 지난해 스태빌리티AI 라는 스타트업이 스테이블 디퓨전이라는 그림을 그리는 AI 의 모델을 공개해서 엄청난 파란을 일으켰어요. 스테이블 디퓨전은 누구나 사용할 수 있도록 공개되어 있어서 이를 활용해 상업용 제품까지 만들 수 있거든요. 허깅페이스에 들어가보면 스테이블 디퓨전은 CreativeML Open RAIL++-M 이라는 라이선스인 것을 확인할 수 있습니다.  


빠르게 발전하는 AI 이미지

스테이블 디퓨전은 최근에는 오픈소스 커뮤니티를 통해 로라(LoRA)컨트롤넷(ControlNet)이라는 기능이 추가 되면서 발전속도가 더욱 빨라지고 있어요.


로라는 Low Rank Adoption of Large Language Models 의 약자로 원래는 MS에 의해 초거대 언어의 파인튜닝을 위해서 만들어졌습니다. 하지만 이것이 스테이블 디퓨전에 사용되면서 소량의 학습만으로도 해당 스타일을 따라할 수 있게 되었어요.


콘트롤넷은 간단한 낙서(Scribble)를 입력하면 AI 가 그 윤곽을 따라 그림을 그리도록 만들어주는 기능이에요. 기존의 AI 그림은 구체적인 포즈나 윤곽을 그릴 수 없고 프롬프트로 지시할 수 밖에 없는데, 콘트롤넷으로 인해 매우 구체적으로 AI 화가에게 지시를 할 수 있게 되었습니다. 

포켓몬 스타일을 학습한 AI가 그린 그림. 푸틴과 트럼프가 보입니다. <더버지>

챗GPT 성공의 비결은 개방

반면 오픈AI 의 경우 오픈소스와는 좀 거리가 멀어요. 기존에도 폐쇄적인 부분이 있었는데 이번에 대 성공을 거두면서 더욱 소스코드 공개에서 멀어졌다고 합니다. 하지만 오픈AI 는 챗GPT를 과감히 일반 대중에게 오픈베타로 공개했다는 점에서 AI 프로젝트에 일반인들을 참여시켰다고 볼 수 있어요. 챗GPT 가 지금처럼 화제가 되고 널리 쓰이는 것은 그동안 대중이 참여할 수 없었던 ‘AI’를 이제는 누구든 써볼 수 있고 한마디를 남길 수 있기 때문이죠. 


허깅페이스 펠로우이기도 한 박찬성 ETRI 연구원님은 "오픈AI는 서비스를 일정 기간 무료로(베타) 열어주면서, 현재 AI가 발전한 수준을 모든 일반인이 체감할 수 있도록하는 데 큰 기여를 했다"고 설명하셨습니다.


개방이 가지는 막강한 힘

오픈AI 의 CEO 샘 올트먼은 최근 홈페이지의 글을 통해서 '인공일반지능(AGI)'에 대한 의견을 밝혔어요. 글의 요지는 AI 의 발전을 막지 않고 그대로 두되 사회에 미치는 효과는 점진적이어야한다는 것이에요. 이를 위해서는 가능한 많은 사람이 AI 에 참여하고 경험해봐야한다고 주장했어요. 개발자들의 오픈소스가 AI 혁명을 앞당겼다면 일반 대중이 참여하는 것이 AI 의 발전에 어떤 영향을 미칠까요? 


남세동 보이저엑스 대표님께서 페이스북에 남긴 말이에요.

 

인공지능, 더 정확히는 딥러닝은 오픈소스의 정신이 이 산업을 지배하고 있는 가운데 나왔기에 아주 많은 것이 오픈 되어 있었다. 처음부터 그랬다. 연구 논문에서도 상당히 많은 것을 공개하고 있고 많은 경우 아예 코드까지 공개하고 있다.

 

AWS의 윤석찬 테크 에반젤리스트가 블로그에 남겨주신 말입니다.

 

스테이블 AI와 오픈 AI 모두 일반인들이 접근 가능하도록 이들 기능을 무료로 개방하였고, 해당 학습 모델도 오픈 소스로 공개했습니다. 바로 개방형 AI 방식을 채택한 것이죠. 덕분에 스테이블 디퓨전과 ChatGPT 모두 단기간에 수천만의 일반 사용자들이 사용합니다.


오픈소스는 결국 커뮤니티 활동이라고 볼 수 있습니다. <모두의연구소>

나도 챗GPT 만들 수 있을까?

챗GPT 의 기초가 된 ‘초거대언어모델’. 한국어를 학습해 만들어진 ‘초거대언어모델’도 오픈소스로 공개되어있어요. 대표적인 것이 카카오가 만든 'KoGPT' 와 스태빌리티AI 의 지원을 받아 일루더AI 라는 팀에서 만들어진 ‘폴리글롯’이에요. 이 모델을 잘 학습시키면 '한국어 챗GPT'가 만들어지는 겁니다. (물론 성능은 보장 못해요 😎) 


그렇다면 이 모델을 사용해서 제품을 만들 수 있을까요? 두 모델은 학습한 데이터, 파라미터 등이 다르지만 라이선스에도 차이가 있어요. 폴리글롯은 아파치2.0 라이선스에 따라 상업화가 가능하고, KoGPT 의 모델은 상업화가 어려운 라이선스를 갖고 있어요.  

깃허브 코파일럿의 구독료는 월 10~19달러. <깃허브> 


오픈소스, 데이터, AI

그런데 오픈소스가 사실 AI 의 발전에 엄청나게 기여한 것이 또 하나 있습니다. 바로 데이터.

 

챗GPT 는 우리를 여러 가지로 깜짝 놀라게하지만 그 중 가장 놀라운 것은 코딩. 우리가 부탁을 하면 코딩을 해주고, 코딩에서 문제가 있는 부분도 찾아주죠.

 

이 것이 가능한 이유는 아까 말씀드린 깃허브에 올라온 어마어마한 양의 개발자들의 코드를 학습했기 때문이에요. 사실 챗GPT 는 코딩을 위한 챗봇이 아니에요. 언어모델이 가지고 있는 여러 가지 지식 중 코딩이 있기 때문에 들어가 있는거죠. 실제 코딩을 지원하는 AI 툴은 깃허브 코파일럿이라고 있어요.

 

AI 가 깜짝놀랄만한 능력을 갖추고 있는 이유는 뛰어난 개발자들이 오픈소스로 자신의 능력을 아낌없이 공개했기 때문이에요. 이것은 초급 개발자들의 일자리를 위협 할만큼 뛰어납니다.

 

깃허브는 마이크로소프트가 2018년 인수한 회사. 하지만 MS 는 깃허브에서 돈을 벌기는커녕 오히려 무료를 늘렸죠. 대신 여기서 축적한 데이터를 2019년 투자한 오픈AI 에게 제공했고, 오픈AI 는 이 데이터를 가지고 챗GPT를 만든거죠.

 

아까 오픈소스의 역사를 기억하신다면 이 과정이 꽤 아이러니하게 느껴지실텐데요. 오픈소스의 상징과 같은 깃허브를 오픈소스의 적이었던 MS가 인수했고, 오픈소스의 데이터를 가지고 AI 가 만들어진거죠. 거대한 오픈소스 플랫폼을 보유한 회사가 데이터도 확보하고 AI 도 잘 만들 수 밖에 없다는 것! 

메타의 초거대 언어모델 LLaMA 도 오픈소스로 공개되어있습니다. <얀르쿤>

AI 시대의 어두운 그림자

이렇게 보면 인터넷도 거대한 오픈소스가 아닌가 하는 생각이 들어요. 우리가 인터넷에 남긴 텍스트를 챗GPT 같은 AI 가 가져가서 학습을 한 것이니까요. AI의 입장에서 보면 깃허브의 코드도, 인터넷 사용자가 레딧에 남기는 글도, 학습을 위한 데이터에 불과한 것이죠. "지금까지의 인터넷은 AI 를 학습시키기 위해 존재한 것이다"라는 취지의 글이 트위터에서 화제가 되기도 했습니다. 


이런 차원에서 보면 AI 와 데이터 문제는 가볍게 보기 어려운 복잡한 문제가 되는 것 같아요. 


1. 인터넷상 이미지나 코드처럼  저작권이 있는 데이터를 AI 가 학습하는 것을 어떻게 봐야할까요? AI 는 '이미지'를 그리는 방법, '코드'를 짜는 방법과 같은 '노하우'를 베낀다는 점에서 더 무섭다고 볼 수 있습니다. 어떻게 저작권자들을 보호할 수 있을까요? 

2. 개인이 인터넷에서 생산했지만, 개인정보가 들어있지 않은 데이터를 크롤링하는 것을 어떻게 봐야할까요? 이용약관에 따라 동의과정을 거치는 것만으로 충분할까요? 

3. 데이터를 많이 확보하고 있는 플랫폼들이 이를 활용해 AI를 만들어 돈을 버는 것을 어떻게 봐야할까요? 깃허브의 코드를 학습에 사용한 것을 두고 마이크로소프트, 깃허브, 오픈AI 는 일부 유저들로부터 소송을 당하기도 했습니다. 


최근 메타(옛 페이스북)가 자체적인 초거대언어모델인 LLaMA(라마)를 공개했는데요. 이 모델은 학습 데이터를 선택하는데 좀더 신중을 기한 것으로 알려져 있어요. 즉, 완전히 무료로 공개된 텍스트 데이터만을 사용해서 학습을 했다는거죠. AI 의 윤리성과 함께 AI 가 학습한 데이터 문제는 계속 이슈가 될 것 같습니다.  

한줄 브리핑 📢
  • 넷플릭스 30개 국에서 구독료 인하 : 넷플릭스가 소득이 높지 않은 국가를 중심으로 구독료를 인하했어요. 동남아, 남미, 동유럽, 아프리카, 중동 국가들이 주로 대상. 아시아에서는 태국, 말레이시아, 인도네시아, 필리핀이 포함. 가격을 낮춰서 구독자를 늘리려는 전략인 것 같아요. 
  • 인플레이션 '나를 잊지마!' : 미국 인플레이션이 여전히 높게 나오면서 주식시장이 하락하고 원달러 환율이 오르는 등 금융시장의 불안이 커지고 있어요. 기준금리 상승이 중단되고 주식시장의 반등이 시작될 것이라는 불과 얼마 전의 기대감이 사라지는 중. 😭
  • 구글, 양자컴 에러 크게 줄였다  : 양자컴퓨터의 기술적 한계인 '에러율'을 낮출 수 있다는 논문이 네이처에 실렸어요. 구글에 따르면 양자컴퓨터 상용화를 위한 중요한 마일스톤이 달성.
  • 세콰이아캐피탈, 후속투자서 빠졌다 : 개인 안전 앱을 만드는 스타트업 '시티즌'에 투자했던 세콰이아캐피탈이 시티즌의 신규 투자 유치 과정에 참여하지 않았다고해요. 이 투자에 참여하지 않으면 지분이 상당부분 희석이 되는데도 참여하지 않은 것은 세콰이아가 시티즌을 사실상 '포기'한 것으로 해석되고 있어요. 벤처캐피탈들이 펀드 조성이 어려워지면서 이런 일이 앞으로 더 나올 것이라는 전망. 
맺음말

자고 있는 사자를 1㎞만 다른 곳으로 옮기면 깨어난 사자는 일주일을 버티지 못하고 죽는다는 연구가 있다고 요. 이처럼 변화는 동물에게 엄청난 스트레스를 안겨줘요. 


AI 로 인해서 세상이 빠르게 변화하고 있는데 여기에 뒤쳐지고 있다는 생각은 개인과 기업 모두에게 큰 스트레스를 주고 있어요. 


이런 변화의 스트레스는 우리가 변화의 방향과 구체적인 정보를 갖고 있지 않을 때 더욱 커지는 것 같아요. 그래서 오늘 미라클레터는 TMI 로 여겨질 정도로 '오픈소스'에 대해서 많은 내용을 담아보았어요. 어디에서 변화가 만들어지고 있고, 어떤 방식으로 그런 변화가 만들어지고 있는지 알 수 있다면 우리는 변화에 대해서 좀더 깊게 이해할 수 있을 것 같아요. 그리고 내가 어떻게 해야할지 차분히 생각해 볼 수 있겠죠?  


"나는 이렇게 해야겠다."


오늘 레터가 미라클러님들에게 도움이 되셨으면 좋겠습니다.  

    

당신의 멋진 미래를 응원합니다
이덕주 드림

오늘 레터를 평가해주세요!  
Miracle morning
with
MIRAKLE LETTER!
서울 중구 퇴계로 190 매경미디어센터
매경미디어그룹
miraklelab@mk.co.kr
02-2000-2167