GPT-4: 멀티모달 AI의 개막 | AI 연대기 | NJOY-AI

GPT-3.5에서 GPT-4로

ChatGPT 출시 4개월 만인 2023년 3월 14일, OpenAI는 GPT-4를 발표했습니다. OpenAI는 파라미터 수를 공개하지 않았지만(추정: 1조 개 이상), 성능 향상은 즉각 체감됐습니다.

GPT-3.5와 GPT-4의 차이는 다음 하나의 사례가 잘 보여줍니다:

GPT-3.5 미국 변호사 시험 성적: 하위 10%
GPT-4 미국 변호사 시험 성적: 상위 10%

단 4개월 만의 격차였습니다.

멀티모달: 이미지를 이해하다

GPT-4의 가장 큰 혁신은 이미지 입력 지원이었습니다. 텍스트뿐 아니라 사진, 그래프, 다이어그램을 입력으로 받아 분석할 수 있게 됐습니다.

발표 시연에서 가장 화제가 된 장면: 손으로 그린 웹사이트 스케치 사진을 주며 "이 스케치를 HTML 코드로 만들어줘"라고 했더니, GPT-4가 완성된 웹페이지 코드를 생성했습니다.

멀티모달은 이후 AI 분야의 표준 기능이 됐습니다. GPT-4o, Claude 3, Gemini 등 모든 주요 모델이 이 능력을 갖추게 됩니다.

주요 전문 시험 성적

OpenAI가 공개한 GPT-4의 각종 시험 성적:

시험	GPT-3.5	GPT-4
미국 변호사 시험 (BAR)	하위 10%	상위 10%
미국 의사 시험 (USMLE)	통과 경계선	상위 20%
GRE 수학	하위 25%	상위 20%
물리 AP	약 49점 (5점 만점)	약 85점
AMC 10A (수학 경시)	30.0점	52.5점

안전성 강화: Red Teaming

GPT-4 개발에서 주목할 점은 출시 전 6개월 이상의 레드 팀(Red Team) 테스트였습니다. 외부 안전 전문가 50명 이상이 모델의 취약점을 찾는 작업을 했고, Anthropic·OpenAI 내부팀도 지속적으로 해로운 출력을 줄이는 작업을 했습니다.

이 과정에서 GPT-4 초기 버전은 현재 공개된 버전보다 훨씬 더 위험한 정보를 출력하는 경향이 있었음이 알려졌습니다.

플러그인과 에이전트의 시작

GPT-4 출시와 함께 OpenAI는 플러그인(Plugin) 기능도 발표했습니다. 외부 API, 웹 검색, 코드 실행 등을 연결해 AI가 직접 행동을 취할 수 있게 하는 첫 번째 공식 시도였습니다. 이것이 이후 AI 에이전트(Agent) 개념의 출발점이 됩니다.