Claude Opus 4.8 출시: AI가 ‘솔직해졌다’는 게 왜 가장 중요한 변화인가
지난 5월 28일, Anthropic(앤트로픽)의 Slack 채널 어딘가에서는 아마 이런 말이 오갔을 겁니다. “이번엔 제대로 됐다.” Opus 4.7이 나온 지 겨우 41일 만에 새 모델이 나왔다는 건, 전작에 대한 시장의 반응이 그리 따뜻하지 않았다는 무언의 고백이죠. 실제로 Opus 4.7에 실망했다는 개발자들의 목소리는 여러 커뮤니티에서 공공연하게 나돌았습니다. Anthropic은 그 피드백을 41일 만에 코드로 답했습니다. 그리고 이번에 그들이 […]
지난 5월 28일, Anthropic(앤트로픽)의 Slack 채널 어딘가에서는 아마 이런 말이 오갔을 겁니다. “이번엔 제대로 됐다.” Opus 4.7이 나온 지 겨우 41일 만에 새 모델이 나왔다는 건, 전작에 대한 시장의 반응이 그리 따뜻하지 않았다는 무언의 고백이죠. 실제로 Opus 4.7에 실망했다는 개발자들의 목소리는 여러 커뮤니티에서 공공연하게 나돌았습니다. Anthropic은 그 피드백을 41일 만에 코드로 답했습니다. 그리고 이번에 그들이 가장 크게 내세운 키워드는 놀랍게도 ‘성능’이 아니라 ‘정직함(honesty)’입니다.
41일의 반격: Opus 4.7의 실패에서 읽는 AI 산업의 속도전
AI 모델 릴리스 주기가 이렇게까지 빨라진 것은 단순히 기술 발전 때문이 아닙니다. 경쟁이 그만큼 살벌해졌다는 이야기이기도 합니다. Opus 4.8이 공개되기 직전 몇 주 사이, OpenAI는 Codex CLI 하네스 기준 83.4%를 찍는 새 Codex를 선보였고, Google은 에이전트 중심으로 전략적 재편을 선언한 Gemini 3.5 Flash를 내놨습니다. 비유하자면, 앤트로픽이 잠깐 고개를 돌린 사이 두 라이벌이 동시에 치고 들어온 셈이죠.
Opus 4.7 출시 당시 X(구 트위터)와 LinkedIn 일부에서는 “앤트로픽이 무슨 생각을 한 건지 모르겠다”는 반응이 나오기도 했습니다. 개발자 커뮤니티에서는 전작 대비 체감 성능 향상이 크지 않다는 평가가 지배적이었고, 특히 코드 작성 시 모델이 오류를 스스로 지적하지 않고 그냥 넘어간다는 불만이 쌓였습니다. Opus 4.8은 바로 그 지점을 정면으로 겨냥했습니다.
이번 업그레이드에서 앤트로픽이 공식적으로 밝힌 수치 중 가장 눈에 띄는 건 벤치마크 점수가 아닙니다. Opus 4.8은 전작 대비 코드의 결함을 무언으로 넘기는 비율이 약 4분의 1 수준으로 줄었습니다. 쉽게 말하면, 이전 모델이 버그를 발견하고도 모른 척 통과시켰다면, 이번 모델은 “여기 문제가 있을 수 있습니다”라고 먼저 말해주는 동료 개발자에 더 가깝다는 뜻입니다.
“Opus 4.8의 가장 큰 차별점은 분석의 입력과 출력에서 문제를 사전에 짚어낸다는 점이었습니다. 다른 모델들은 이 부분을 놓치고 사용자가 직접 발견하도록 내버려두었습니다.”
— Bridgewater Associates, Sr. Investment Associate Michael Ran
금융 문서 분석이나 법률 워크플로처럼 ‘틀리면 안 되는’ 영역에서 일하는 개발자들이 이 변화에 민감하게 반응하는 이유가 여기 있습니다. 투자 분석에서 모델이 조용히 틀린 데이터를 쓰고 있는 것과, 스스로 “이 수치는 불확실합니다”라고 플래그를 세우는 것은 전혀 다른 신뢰 수준이죠.
Dynamic Workflows와 Effort Control: 에이전트 AI 시대의 두 가지 열쇠
Opus 4.8과 함께 발표된 두 가지 신기능은 단순한 추가 옵션이 아닙니다. 이 두 기능은 앤트로픽이 AI를 어떻게 쓰여야 하는가에 대해 갖고 있는 철학을 보여주는 장치입니다.
첫 번째는 Dynamic Workflows(다이나믹 워크플로우)입니다. 이 기능은 Claude Code에서 리서치 프리뷰로 사용 가능하며, 하나의 세션 안에서 수백 개의 하위 에이전트를 병렬로 돌릴 수 있게 해줍니다. 비유하자면, 혼자 일하던 개발자에게 갑자기 수백 명의 인턴이 생긴 것과 같습니다. 각 인턴이 코드베이스의 서로 다른 부분을 동시에 작업하고, 메인 에이전트가 검증한 뒤 머지하는 구조죠. 앤트로픽은 이를 통해 “수십만 줄 규모의 코드베이스 전체 마이그레이션을 킥오프부터 머지까지 처리할 수 있다”고 밝혔습니다.
Cursor의 공동창업자이자 CEO인 Michael Truell은 내부 벤치마크인 CursorBench에서 Opus 4.8이 모든 노력 수준에서 이전 Opus 모델을 앞섰으며, “도구 호출이 의미 있게 효율화됐고, 같은 수준의 지능을 위해 더 적은 단계를 밟는다”고 평가했습니다.
두 번째는 Effort Control(노력 제어)입니다. claude.ai와 Cowork에서 이제 사용자는 모델이 응답에 얼마나 많은 생각을 투입할지 직접 조절할 수 있게 됐습니다. 높은 노력 설정에서는 더 깊이 사고하고, 낮은 설정에서는 빠르게 답하되 레이트 리밋 소모도 줄어듭니다. 이건 단순한 UI 편의 기능이 아니라, 비용과 품질 사이의 트레이드오프를 사용자가 직접 통제한다는 의미입니다.
속도 측면에서도 의미 있는 숫자가 나왔습니다. Fast Mode는 2.5배 빠른 속도로 작동하는데, 이번에 그 비용이 이전 대비 3분의 1 수준으로 내려갔습니다. Databricks의 Hanlin Tang CTO는 “Opus 4.8이 멀티모달 강점 덕분에 PDF, 다이어그램, 비정형 콘텐츠를 직접 추론하면서도 Opus 4.7 대비 61% 저렴하다”고 전했습니다. 더 잘하면서 더 싸졌다는 이야기죠.
보안 에이전트 분야에서는 Online-Mind2Web 벤치마크에서 84%를 기록하며, Opus 4.7과 GPT-5.5 양쪽을 뛰어넘었습니다. 법률 에이전트 벤치마크에서는 10% all-pass 기준을 최초로 돌파하기도 했습니다. 업계에서는 이 수치가 실제 법무팀이 AI에 업무를 위임할 수 있는 신뢰 임계점과 가깝다고 보고 있습니다.
결론 및 마무리
Opus 4.8이 던지는 진짜 질문은 “이 모델이 전작보다 얼마나 나은가”가 아닙니다. ‘정직한 AI’를 경쟁 포인트로 내세우는 순간, 앤트로픽은 AI 신뢰성이 성능 점수만큼이나 중요한 시대가 왔다고 선언하는 겁니다. 할루시네이션(AI가 없는 사실을 만들어내는 현상)과 조용한 오류가 실제 비즈니스에서 손실로 이어지기 시작한 지금, 모델이 스스로 “나는 이게 불확실합니다”라고 말하는 능력은 단순한 품질 향상이 아니라 산업 신뢰의 기반입니다.
한편으로 Mythos-class 모델의 공개 예고도 주목할 만합니다. 앤트로픽은 사이버보안 분야에서 일부 기관과 Mythos Preview를 진행 중이며, 필요한 안전 장치가 갖춰지는 대로 “몇 주 안에” 전체 공개하겠다고 밝혔습니다. Opus 4.8이 현재 최선이라면, Mythos는 그 위에 또 다른 지능의 층을 쌓겠다는 선언인 셈입니다.
41일 주기로 모델을 업데이트하는 속도, 정직함을 핵심 경쟁력으로 내세우는 방향성, 그리고 에이전트 대규모 병렬화를 가능하게 하는 기술적 도약. 이 세 가지를 동시에 읽을 때, Opus 4.8은 단순한 점진적 개선이 아니라 앤트로픽이 AI 시장에서 어떻게 싸우겠다는 전략 선언에 가깝습니다.
다음 몇 주가 흥미로울 수밖에 없습니다.