생성형 AI 시대2020

GPT-3: 스케일이 곧 지능이다

2020년 OpenAI의 GPT-3(1750억 파라미터)는 명시적 학습 없이 몇 가지 예시만으로 새 작업을 수행하는 'few-shot 학습' 능력으로, 대규모 언어 모델의 시대를 열었습니다.

1750억 파라미터의 충격

2020년 5월, OpenAI는 GPT-3 논문을 발표했습니다. 파라미터 수: 1750억 개(175B). 이전 최대 모델 GPT-2(15억 파라미터)의 100배가 넘었습니다.

하지만 단순한 크기 증가만이 아니었습니다. GPT-3는 **few-shot 학습(In-Context Learning)**이라는 놀라운 능력을 보여줬습니다.

Few-Shot 학습이란

기존 머신러닝은 새로운 작업을 학습하려면 해당 작업의 데이터를 모아 별도로 파인튜닝해야 했습니다. GPT-3는 달랐습니다.

프롬프트에 작업 예시를 몇 개 넣기만 해도, 모델이 그 패턴을 즉각 파악하고 새 입력에 적용했습니다.

예시:

한국어 → 영어: 안녕하세요 → Hello
한국어 → 영어: 감사합니다 → Thank you
한국어 → 영어: 좋아요 → 

GPT-3는 파인튜닝 없이도 "Good" 또는 "I like it"을 출력했습니다.

이 능력은 모델이 "언어 패턴을 이해한다"는 것을 시사했습니다. 단순 암기가 아니라, 맥락을 파악해 새 상황에 적용하는 것이었습니다.

무엇이든 할 수 있었다

GPT-3 API를 받은 개발자들은 놀라운 가능성을 발견했습니다.

  • 코드 자동 완성 → GitHub Copilot의 씨앗
  • 이메일 초안 작성
  • SQL 쿼리 생성
  • 논문 요약
  • 창작 소설 집필
  • 간단한 수학 문제 풀기
  • 다국어 번역

모든 것을 하나의 모델이 했고, 각 용도별로 따로 학습할 필요가 없었습니다.

스케일링 법칙의 발견

GPT-3와 함께 OpenAI는 스케일링 법칙(Scaling Laws) 논문도 발표했습니다. 핵심 발견: 모델 크기, 데이터 양, 컴퓨팅 예산을 함께 늘리면 성능이 예측 가능하게(로그 선형으로) 향상된다.

이 발견은 이후 GPT-4, Claude, Gemini 같은 더 큰 모델 개발의 이론적 근거가 됐습니다. "더 크게 만들수록 더 좋아진다"는 전략이 정당화된 것입니다.

한계와 비판

GPT-3는 사실을 만들어 내는 할루시네이션(Hallucination) 문제가 심각했습니다. 또한 편향된 학습 데이터로 인한 유해 콘텐츠 생성도 문제였습니다.

이 한계들이 이후 RLHF(인간 피드백 강화학습) 기반의 InstructGPT와 ChatGPT 개발로 이어졌습니다.