생성형 AI 시대2024

Claude 3: 안전성과 성능의 공존

2024년 3월 Anthropic이 출시한 Claude 3(Haiku·Sonnet·Opus) 패밀리는 GPT-4를 능가하는 벤치마크 성능과 동급 최강의 안전성을 동시에 달성하며 AI 경쟁 구도를 재편했습니다.

3개 모델, 하나의 패밀리

2024년 3월 4일, Anthropic은 세 가지 모델을 동시 출시했습니다.

모델포지셔닝특징
Haiku속도·비용 최적화가장 빠르고 저렴
Sonnet균형형성능과 비용의 최적 지점
Opus최고 성능복잡한 작업, 당시 최강 모델

이 세 단계 전략은 이후 OpenAI, Google 등 경쟁사들이 모두 채택하는 모델 패밀리 구성의 표준이 됐습니다.

벤치마크 왕좌 교체

Claude 3 Opus는 출시 시점에 GPT-4를 여러 벤치마크에서 앞섰습니다.

  • MMLU(다학문 이해): GPT-4 86.4% → Claude 3 Opus 86.8%
  • HumanEval(코딩): GPT-4 67.0% → Claude 3 Opus 84.9%
  • GSM8K(수학): GPT-4 92.0% → Claude 3 Opus 95.0%
  • GPQA(박사 수준 질문): GPT-4 35.7% → Claude 3 Opus 50.4%

특히 코딩과 고급 추론에서의 격차는 개발자 커뮤니티에서 즉각적인 화제가 됐습니다. 많은 소프트웨어 개발자들이 코딩 보조 도구를 GPT-4에서 Claude 3 Sonnet으로 교체했습니다.

Constitutional AI의 진화

Anthropic의 핵심 차별점은 Constitutional AI(헌법적 AI) 방법론입니다. 명시적 원칙 목록(헌법)을 기반으로 모델이 스스로 자신의 출력을 평가하고 개선합니다. Claude 3는 이 방법론의 세 번째 주요 구현이었습니다.

안전성 평가에서 Claude 3는 유해 콘텐츠 생성, 편향적 출력, 개인정보 침해 등 여러 항목에서 동급 최고 성능을 기록했습니다.

200K 컨텍스트 윈도우

Claude 3는 20만 토큰(약 15만 단어) 컨텍스트 윈도우를 지원했습니다. 이는 약 500페이지 분량의 책 전체를 한 번에 입력할 수 있는 수준으로, GPT-4의 8K~32K 대비 압도적으로 긴 문서 처리가 가능했습니다.

이 능력으로 Claude 3는 법률 문서 검토, 대규모 코드베이스 분석, 긴 연구 논문 요약 등의 용도에서 특히 강점을 보였습니다.