Anthropic이 6월 30일 Claude Sonnet 5를 출시했습니다. Free·Pro 요금제의 기본 모델이고, Max·Team·Enterprise, Claude Code, API에서도 쓸 수 있습니다.

이번 글은 출시와 함께 나온 자료를 정리합니다. Anthropic이 무엇을 앞세웠는지, 회사 자체 표와 외부 벤치마크가 어디까지 겹치는지, API 사용자가 확인할 변화는 무엇인지를 봅니다.

무엇이 나왔나

Sonnet 5의 API 모델 ID는 claude-sonnet-5입니다. Sonnet 4.6을 잇는 Sonnet 계열의 새 모델입니다.

가격은 8월 31일까지 입력 $2, 출력 $10 per MTok입니다. 이후에는 표준가인 입력 $3, 출력 $15가 적용됩니다. 이 표준 per-token 가격은 Sonnet 4.6과 같습니다.

Anthropic은 Sonnet 5가 Claude 앱의 Free·Pro 기본 모델이고, Max·Team·Enterprise에서도 쓸 수 있다고 밝혔습니다. Claude Code와 Claude Platform API에서도 같은 날부터 쓸 수 있습니다.

Anthropic은 무엇이 달라졌다고 말했나

Anthropic 발표문은 Sonnet 5가 추론·도구 사용·코딩·지식노동에서 Sonnet 4.6보다 개선됐다고 설명합니다. 회사가 내세운 비교 대상은 Sonnet 4.6과 Opus 4.8입니다.

발표문에 실린 회사 자체 표는 다음과 같습니다.

평가Sonnet 4.6Sonnet 5Opus 4.8
SWE-bench Pro58.1%63.2%69.2%
Terminal-Bench 2.167.0%80.4%82.7%
Humanity's Last Exam, no tools34.6%43.2%49.8%
Humanity's Last Exam, with tools46.8%57.4%57.9%
OSWorld-Verified78.5%81.2%83.4%
GDPval-AA v2139516181615

이 표는 Anthropic 자체 차트이지 독립 검증 수치가 아닙니다. 표 안에서 Sonnet 5가 Sonnet 4.6보다 특히 크게 오른 항목은 Terminal-Bench 2.1, HLE with tools, GDPval-AA v2처럼 도구를 쓰거나 오래 걸리는 작업 쪽입니다.

Anthropic은 또 Sonnet 5의 비용-성능 곡선을 effort 단계별로 보여 줬습니다. 같은 모델이라도 low, medium, high, xhigh, max effort에 따라 성능과 토큰 사용량이 달라진다는 것입니다. 발표문은 Sonnet 5가 Sonnet 4.6보다 비용-성능 선택지가 넓고, 높은 effort에서는 일부 작업에서 Opus 4.8 수준에 닿는다고 설명합니다.

외부 관측은 어디까지 같았나

Artificial Analysis는 6월 30일 분석에서 Sonnet 5가 max effort에서 Intelligence Index 53점을 받았다고 밝혔습니다. Sonnet 4.6보다 6점 높은 수치입니다.

같은 분석은 Sonnet 5가 AA-Briefcase와 GDPval-AA 같은 에이전트식 지식노동 평가에서 Opus 4.8을 근소하게 앞섰다고 썼습니다. 반면 무거운 추론과 지식이 많이 걸리는 과제에서는 아직 Opus급 모델이 앞선다고 정리했습니다. 물리 추론 벤치마크 CritPt에서는 Sonnet 4.6보다 크게 올랐지만 GLM-5.2·Opus·Fable·GPT-5.5 쪽보다는 낮았다는 설명입니다.

Artificial Analysis는 비용도 함께 봤습니다. 이 기관은 표준가 기준으로 Sonnet 5의 태스크당 비용이 Sonnet 4.6의 약 2배, Opus 4.8보다 약 15% 높았다고 관측했습니다. per-token 가격이 아니라 토큰 사용량이 늘어난 탓입니다. 다만 이 수치는 Artificial Analysis의 평가 환경에서 나온 값입니다.

API 사용자가 확인할 변화

Sonnet 5는 새 tokenizer를 씁니다. Anthropic 문서는 같은 입력 텍스트의 토큰 수가 Sonnet 4.6보다 약 30% 늘어난다고 설명합니다. 발표문 각주에서는 콘텐츠 유형에 따라 약 1.0~1.35배라고 적었습니다.

Adaptive thinking도 기본으로 켜집니다. Sonnet 4.6에서는 thinking 필드가 없으면 모델이 생각하지 않고 답했지만, Sonnet 5에서는 같은 요청이라도 adaptive thinking으로 실행됩니다. max_tokens를 빠듯하게 잡아 둔 워크로드는 이 부분을 다시 봐야 합니다.

Manual extended thinking은 빠졌습니다. thinking: {type: "enabled", budget_tokens: N}은 Sonnet 5에서 400 에러를 냅니다. Anthropic은 adaptive thinking과 effort를 쓰라고 안내합니다.

temperature, top_p, top_k를 기본값이 아닌 값으로 넣어도 400 에러가 납니다. 문체나 다양성을 이 파라미터로 조정하던 코드는 system prompt나 예시로 처리해야 합니다.

effort 문서에는 마이그레이션 때 눈여겨볼 안내도 있습니다. Anthropic은 Sonnet 5의 medium effort가 Sonnet 4.6의 high effort와 비슷한 수준이라고 적었습니다. 같은 effort 라벨이라도 두 모델에서 가리키는 수준은 다른 셈입니다.

정리하면

Anthropic은 Sonnet 5를 코딩·도구 사용·긴 에이전트 작업에 맞춰 내세웠고, 외부 벤치마크도 일부 지식노동 평가에서 비슷한 결과를 보였습니다. 다만 무거운 추론은 아직 Opus급이 앞섰고, tokenizer·effort가 달라진 만큼 비용과 출력 한도는 새로 따져 봐야 합니다.

실제로 써 본 평가는 다음 글에서 다루겠습니다.

참고한 문서

1차 자료

독립 벤치마크

자매편