Claude 3: 안전성과 성능의 공존
2024년 3월 Anthropic이 출시한 Claude 3(Haiku·Sonnet·Opus) 패밀리는 GPT-4를 능가하는 벤치마크 성능과 동급 최강의 안전성을 동시에 달성하며 AI 경쟁 구도를 재편했습니다.
3개 모델, 하나의 패밀리
2024년 3월 4일, Anthropic은 세 가지 모델을 동시 출시했습니다.
| 모델 | 포지셔닝 | 특징 |
|---|---|---|
| Haiku | 속도·비용 최적화 | 가장 빠르고 저렴 |
| Sonnet | 균형형 | 성능과 비용의 최적 지점 |
| Opus | 최고 성능 | 복잡한 작업, 당시 최강 모델 |
이 세 단계 전략은 이후 OpenAI, Google 등 경쟁사들이 모두 채택하는 모델 패밀리 구성의 표준이 됐습니다.
벤치마크 왕좌 교체
Claude 3 Opus는 출시 시점에 GPT-4를 여러 벤치마크에서 앞섰습니다.
- MMLU(다학문 이해): GPT-4 86.4% → Claude 3 Opus 86.8%
- HumanEval(코딩): GPT-4 67.0% → Claude 3 Opus 84.9%
- GSM8K(수학): GPT-4 92.0% → Claude 3 Opus 95.0%
- GPQA(박사 수준 질문): GPT-4 35.7% → Claude 3 Opus 50.4%
특히 코딩과 고급 추론에서의 격차는 개발자 커뮤니티에서 즉각적인 화제가 됐습니다. 많은 소프트웨어 개발자들이 코딩 보조 도구를 GPT-4에서 Claude 3 Sonnet으로 교체했습니다.
Constitutional AI의 진화
Anthropic의 핵심 차별점은 Constitutional AI(헌법적 AI) 방법론입니다. 명시적 원칙 목록(헌법)을 기반으로 모델이 스스로 자신의 출력을 평가하고 개선합니다. Claude 3는 이 방법론의 세 번째 주요 구현이었습니다.
안전성 평가에서 Claude 3는 유해 콘텐츠 생성, 편향적 출력, 개인정보 침해 등 여러 항목에서 동급 최고 성능을 기록했습니다.
200K 컨텍스트 윈도우
Claude 3는 20만 토큰(약 15만 단어) 컨텍스트 윈도우를 지원했습니다. 이는 약 500페이지 분량의 책 전체를 한 번에 입력할 수 있는 수준으로, GPT-4의 8K~32K 대비 압도적으로 긴 문서 처리가 가능했습니다.
이 능력으로 Claude 3는 법률 문서 검토, 대규모 코드베이스 분석, 긴 연구 논문 요약 등의 용도에서 특히 강점을 보였습니다.