이번 달에는 엔트로픽의 최신 언어 모델 Claude 3.5 Sonnet(new)과 새로운 Claude 3.5 Haiku 모델을 소개합니다. 특히 Claude 3.5 Sonnet은 컴퓨터를 사람처럼 다룰 수 있는 새로운 기능으로 주목받고 있으며, 고급 코딩 능력까지 갖춘 현존 최고의 LLM 모델로 평가받고 있습니다.
✅ 사람처럼 컴퓨터를 다루는 Claude
Claude 3.5 Sonnet은 기존 AI 모델과는 다르게, 사용자가 컴퓨터를 사용하는 방식 그대로 커서를 이동하고, 클릭하며, 가상 키보드를 통해 데이터를 입력할 수 있습니다. 이 컴퓨터 사용 능력은 현재 퍼블릭 베타 버전으로, Claude가 화면을 읽고 필요에 따라 동작을 수행해 다양한 작업을 자동화할 수 있는 환경을 제공합니다.
Claude의 이 기능은 현재 OSWorld에서 진행한 평가 기준에서 유의미한 성과를 나타냈습니다. Claude는 화면에서 작업을 수행하는 테스트에서 14.9%의 정확도를 기록해, 이전 모델과 비교해 약 2배 가까운 성능 향상을 보였습니다.
✅ 코딩 분야에서의 성과
엔트로픽은 Claude 3.5 Sonnet의 코딩 능력을 한층 더 강화했습니다. 소프트웨어 엔지니어링 벤치마크(SWE-bench)에서 49.0%의 정확도를 기록해, 현재 공개된 LLM 중 가장 높은 성능을 자랑합니다. 코딩 작업뿐 아니라 도구 사용 능력에서도 큰 성과를 보였으며, 리테일 도메인에서 69.2%의 정확도를 달성하여, 에이전트 코딩을 수행하는 개발자들에게 매우 유용한 도구가 될 것입니다.
✅ 안전과 신뢰를 위한 대비책
Claude의 컴퓨터 사용 능력은 사람처럼 동작하기 때문에 안전성이 중요한 이슈로 떠오르고 있습니다. 이를 위해 엔트로픽의 신뢰 및 안전 팀은 모델이 허가되지 않은 웹사이트에 접근하거나, 악의적인 목적의 정보를 생성하는 등의 잠재적 위험을 방지하는 다양한 안전 조치를 도입했습니다. 특히 선거와 같은 민감한 주제에 대한 작업 수행을 방지하고, 스팸이나 사기성 작업에 악용되지 않도록 Claude의 동작을 실시간으로 모니터링합니다.
✅ 앞으로의 발전 방향
현재의 컴퓨터 사용 능력은 초기 단계에 불과하지만, Claude 3.5 Sonnet의 이러한 기능은 자동화된 업무 처리와 개발 작업의 생산성 향상에 큰 가능성을 보여주고 있습니다. Claude는 앞으로도 빠르게 진화할 것이며, 이를 통해 AI와 사람의 협업이 더 자연스럽고 강력해질 것입니다.
결론
Claude 3.5 Sonnet은 현존하는 LLM 중에서도 최고 수준의 코딩 능력과 컴퓨터 사용 능력을 보유하고 있습니다. 이 모델이 가져올 변화는 개발자와 일반 사용자 모두에게 흥미로운 가능성을 열어줄 것으로 기대됩니다.
우리 데보션 커뮤니티에서도 Claude 3.5 Sonnet의 활용법과 잠재력에 대한 다양한 의견이 오가고 있습니다. 함께 이야기를 나눠보시겠어요??