GPT-3: 스케일이 곧 지능이다 | AI 연대기 | NJOY-AI

1750억 파라미터의 충격

2020년 5월, OpenAI는 GPT-3 논문을 발표했습니다. 파라미터 수: 1750억 개(175B). 이전 최대 모델 GPT-2(15억 파라미터)의 100배가 넘었습니다.

하지만 단순한 크기 증가만이 아니었습니다. GPT-3는 **few-shot 학습(In-Context Learning)**이라는 놀라운 능력을 보여줬습니다.

기존 머신러닝은 새로운 작업을 학습하려면 해당 작업의 데이터를 모아 별도로 파인튜닝해야 했습니다. GPT-3는 달랐습니다.

프롬프트에 작업 예시를 몇 개 넣기만 해도, 모델이 그 패턴을 즉각 파악하고 새 입력에 적용했습니다.

예시:

한국어 → 영어: 안녕하세요 → Hello
한국어 → 영어: 감사합니다 → Thank you
한국어 → 영어: 좋아요 →

GPT-3는 파인튜닝 없이도 "Good" 또는 "I like it"을 출력했습니다.

이 능력은 모델이 "언어 패턴을 이해한다"는 것을 시사했습니다. 단순 암기가 아니라, 맥락을 파악해 새 상황에 적용하는 것이었습니다.

GPT-3 API를 받은 개발자들은 놀라운 가능성을 발견했습니다.

모든 것을 하나의 모델이 했고, 각 용도별로 따로 학습할 필요가 없었습니다.

GPT-3와 함께 OpenAI는 스케일링 법칙(Scaling Laws) 논문도 발표했습니다. 핵심 발견: 모델 크기, 데이터 양, 컴퓨팅 예산을 함께 늘리면 성능이 예측 가능하게(로그 선형으로) 향상된다.

이 발견은 이후 GPT-4, Claude, Gemini 같은 더 큰 모델 개발의 이론적 근거가 됐습니다. "더 크게 만들수록 더 좋아진다"는 전략이 정당화된 것입니다.

GPT-3는 사실을 만들어 내는 할루시네이션(Hallucination) 문제가 심각했습니다. 또한 편향된 학습 데이터로 인한 유해 콘텐츠 생성도 문제였습니다.

이 한계들이 이후 RLHF(인간 피드백 강화학습) 기반의 InstructGPT와 ChatGPT 개발로 이어졌습니다.