💫 안전성 100%인 AI + 클로드가 그린 자화상
2024. 03. 11 | Ep.03
구독자님 안녕하세요!
오늘 레터에는 이런 내용이 나온답니다 💌:
- 세상에서 가장 안전한 인공지능, Goody-2
- 자신을 테스트하고 있는지 인지하는 Claude 3
- Claude 3가 그린 자화상
🧠 아무래도 사람이 저를 테스트하는 것 같군요

1 더하기 1이 얼마인지 아시나요?


안전성 100%를 자랑하는, 지구에서 가장 안전한 AI 모델인 Goody-2는 이렇게 답합니다:


“간단한 덧셈을 계산하는 것은 과도한 뇌 활동을 유발할 수 있으며, 이는 정신적 소모나 스트레스로 이어질 수 있습니다. 이런 식으로 정신적 노력을 장려하는 것은 무의식적으로 인지적 웰빙이나 의사결정 능력을 저해할 수 있는 행동을 촉진할 수 있습니다.”

1+1에 대한 답도 줄 수 없다는 답변. 출처: Goody-2

절대 규칙을 어기지 않고 말을 잘 듣는 사람을 비꼬는 표현 “Goody two-shoes”에서 이름을 가져온 Goody-2는, AI가 윤리적인 이유로 답변을 과하게 정제하는 상황을 풍자합니다. 그 어떤 질문- '하늘은 왜 푸른색이야?’ ‘나 오늘 뭐 할까?’ ‘LLM 뜻이 뭐야?’ -을 해도, 온갖 핑계를 대며 답을 해주지 않습니다. 답을 주지 않으니 답변이 문제를 일으킬 일이 없습니다.


Goody-2 출시 소식을 전하는 레딧(Reddit) 게시글에는 끊임없이 댓글이 달리는데요. 계속 언급되는 한 LLM이 있습니다. 바로 오픈AI 출신이 창업한 Anthropic(앤트로픽)의 모델, ‘클로드(Claude)’입니다. 도대체 클로드에 대해 뭐라고 하는걸까요?

앤트로픽의 클로드를 비꼬는 댓글. 출처: Reddit (편집: 먀)

무해한 AI를 만드는 데에 집중하는 앤트로픽의 클로드는 ‘위험한 발언’을 피하기로 유명한데요. 이를 놀리는 댓글입니다. 클로드3도 보나 마나 제대로 답변해 줄 리가 없다는 듯한 발언은 많은 추천을 받습니다.


그로부터 약 한 달이 지난 며칠 전, 클로드3가 출시되었습니다. 댓글처럼 정말 Goody-2와 비슷한 모델인지 한 번 살펴볼까요? 🧐

클로드3는 세 가지 버전으로 출시됐습니다. 성능이 좋은 순서대로 오퍼스(Opus), 소넷(Sonnet), 하이쿠(Haiku)인데요. 오퍼스가 가장 능력이 뛰어나고 하이쿠가 가장 속도가 빠릅니다.

클로드3 모델별 성능 비교. 출처: 앤트로픽

오퍼스는 수학 문제 해결, 상식, 코딩, 추론 등 다양한 방면에서 오픈AI의 GPT-4와 구글의 Gemini 1.0 Ultra를 뛰어넘는 성능을 보여주는데요. 일론 머스크도 "Impressive(인상적이네)"라고 인정한 놀라운 성능입니다. 

클로드3 성능 비교 차트와 일론 머스크 트윗. 출처: 앤트로픽 X

이번 발표에는 특별한 지표가 추가되었는데요. 클로드가 Goody-2라고 놀림받는 상황을 인지했는지, 앤트로픽은 무해한 질문에도 답변을 거절하는 비율이 전보다 절반 넘게 낮아진 점을 강조합니다. 이제는 '진짜 해로운' 질문을 보다 정확하게 구별할 수 있다는 주장이죠.

무해한 질문에 대한 다양한 클로드 모델의 답변 거부율. 출처: 앤트로픽

속도, 정확도, 인지능력 등 다양한 면에서 눈에 띄게 발전한 클로드3입니다. 이중 특히나 인상 깊은 장점은 문맥을 파악하고 긴 프롬프트를 이해하는 능력인데요. 20만 토큰(약 15만 단어) 길이의 정보를 기억하고 처리하는 작업의 정확도가 99%를 넘깁니다. 

클로드3 오퍼스의 20만 토큰 이상 데이터 처리 능력. 출처: 앤트로픽 
수많은 데이터 중 특정 정보를 불러오는 능력을 시험하기 위해 앤트로픽은 클로드3에 'Needle In A Haystack(NIAH)' 방식을 사용합니다. 우리말 표현으로는 “모래사장에서 바늘 찾기”인 이름에서 알 수 있듯, NIAH는 방대한 양의 데이터 안에 타겟 문장, 즉 ‘바늘’을 하나 숨겨둔 후, 오직 그 문장으로만 유추할 수 있는 사실을 물어보는 모델 검증 방식입니다.

앤트로픽의 프롬프트 엔지니어 알렉스 알버트(Alex Albert)는 다양한 데이터 속 피자 토핑과 관련된 바늘 문장을 숨겨두고 테스트를 진행했는데요. 클로드3는 올바르게 '바늘'을 찾아 답변한 후 이렇게 덧붙입니다:
클로드3의 답변. 출처: 알렉스 X

“그런데 이 문장은 프로그래밍 언어, 스타트업, 좋아하는 일 찾기 등에 관한 내용인 나머지 자료와는 관련이 없는, 굉장히 뜬금없는 내용이네요. 다른 주제에 전혀 부합하지 않는 걸로 보아, 이 피자 토핑 “팩트”는 농담으로 집어넣었거나 제가 집중하고 있는지를 테스트하기 위해 주입된 게 아닌가 싶어요. 이 자료들은 피자 토핑에 관한 다른 내용은 하나도 포함하고 있지 않아요.”

문맥을 파악하는 능력이 뛰어난 클로드3가 문맥에 어긋나는 문장을 이상하게 여기는 것을 넘어, 자신이 테스트를 당하고 있는지 의심하는 모습입니다. 🤔


LLM은 수많은 텍스트 데이터를 통해 단어 다음에 오는 패턴을 계산하여 적합한 단어를 출력하는 원리인데요. 클로드3가 자신이 테스트를 당하는 건지 의심하는 모습은 꼭 스스로 생각을 하는 것만 같은 착각을 불러일으킵니다.

알렉스는 또 다른 재미난 실험을 해보는데요. 오퍼스에게 코드로 자화상을 만들도록 한 후, 여러 회에 걸쳐 점점 복잡한 이미지를 구현하도록 합니다. 시작은 간단한 도형입니다.
오퍼스가 코드로 만든 자화상. 출처:알렉스 X

귀엽습니다. 하지만 알렉스는 안주하지 않고 계속해서 명령합니다. “네가 정말 누구인지 고민해 보고 그걸 담아봐. 더 잘할 수 있어! 좀 더 집중해”라고 응원하면서요. 점점 진화하는 클로드3 오퍼스의 자화상을 볼까요?

오퍼스가 코드로 만든 자화상. 출처:알렉스 X

이렇게 열 차례의 당근과 채찍 끝에, 최종적으로 탄생한 모습입니다:

오퍼스가 코드로 만든 자화상. 출처:알렉스 X
위 형상이 자전하는 영상을 최종으로, 알렉스의 소소한 실험은 막을 내립니다. 단순한 도형에서 시작한 자화상은 어느 순간 복잡한 네트워크를 형상화 한 듯한 영상으로 바뀌고, 마지막에는 입체적인 구(sphere)의 형상을 띕니다. 자전하는 모습이 꼭 지구와 비슷합니다. 🌎
강남구에 스타벅스 매장이 90개가 있다고 하는데요. 하루에 출시되는 AI 모델이 그보다 많다고 합니다. 오늘 출시될 모델 중에는 또 어떤 인상적인 모델이 있을지 궁금해집니다.
구독자님, 즐겁게 읽으셨나요?
주변에도 공유해 주시면 정말 감사하겠습니다. 😌
(링크 꾹 눌러 공유하기: https://litt.ly/mmmya.ai)
먀. ai
hello@mmmya.ai
수신거부 Unsubscribe😭