GPT-4: 멀티모달 AI의 개막
2023년 3월 출시된 GPT-4는 이미지와 텍스트를 함께 이해하는 멀티모달 능력, 각종 전문 시험에서 상위권 성적을 기록하며 AI의 새 기준을 세웠습니다.
GPT-3.5에서 GPT-4로
ChatGPT 출시 4개월 만인 2023년 3월 14일, OpenAI는 GPT-4를 발표했습니다. OpenAI는 파라미터 수를 공개하지 않았지만(추정: 1조 개 이상), 성능 향상은 즉각 체감됐습니다.
GPT-3.5와 GPT-4의 차이는 다음 하나의 사례가 잘 보여줍니다:
- GPT-3.5 미국 변호사 시험 성적: 하위 10%
- GPT-4 미국 변호사 시험 성적: 상위 10%
단 4개월 만의 격차였습니다.
멀티모달: 이미지를 이해하다
GPT-4의 가장 큰 혁신은 이미지 입력 지원이었습니다. 텍스트뿐 아니라 사진, 그래프, 다이어그램을 입력으로 받아 분석할 수 있게 됐습니다.
발표 시연에서 가장 화제가 된 장면: 손으로 그린 웹사이트 스케치 사진을 주며 "이 스케치를 HTML 코드로 만들어줘"라고 했더니, GPT-4가 완성된 웹페이지 코드를 생성했습니다.
멀티모달은 이후 AI 분야의 표준 기능이 됐습니다. GPT-4o, Claude 3, Gemini 등 모든 주요 모델이 이 능력을 갖추게 됩니다.
주요 전문 시험 성적
OpenAI가 공개한 GPT-4의 각종 시험 성적:
| 시험 | GPT-3.5 | GPT-4 |
|---|---|---|
| 미국 변호사 시험 (BAR) | 하위 10% | 상위 10% |
| 미국 의사 시험 (USMLE) | 통과 경계선 | 상위 20% |
| GRE 수학 | 하위 25% | 상위 20% |
| 물리 AP | 약 49점 (5점 만점) | 약 85점 |
| AMC 10A (수학 경시) | 30.0점 | 52.5점 |
안전성 강화: Red Teaming
GPT-4 개발에서 주목할 점은 출시 전 6개월 이상의 레드 팀(Red Team) 테스트였습니다. 외부 안전 전문가 50명 이상이 모델의 취약점을 찾는 작업을 했고, Anthropic·OpenAI 내부팀도 지속적으로 해로운 출력을 줄이는 작업을 했습니다.
이 과정에서 GPT-4 초기 버전은 현재 공개된 버전보다 훨씬 더 위험한 정보를 출력하는 경향이 있었음이 알려졌습니다.
플러그인과 에이전트의 시작
GPT-4 출시와 함께 OpenAI는 플러그인(Plugin) 기능도 발표했습니다. 외부 API, 웹 검색, 코드 실행 등을 연결해 AI가 직접 행동을 취할 수 있게 하는 첫 번째 공식 시도였습니다. 이것이 이후 AI 에이전트(Agent) 개념의 출발점이 됩니다.