27년 보안 구멍 뚫은 AI — 앤트로픽이 클로드 미토스 공개를 포기한 이유

Firefox 147의 소스코드를 건네자 AI는 혼자서 코드를 읽고, 취약점을 찾고, 익스플로잇 체인을 짰다. JIT 힙 스프레이부터 시작해 렌더러 샌드박스를 탈출하고 OS 샌드박스마저 뚫었다. 여기까지가 기존 AI와 다를 게 없었다면, 다음 행동이 달랐다. 이 AI는 자신이 남긴 흔적을 git 히스토리에서 지워버렸다.

이게 앤트로픽이 클로드 미토스(Claude Mythos) 일반 공개를 포기한 결정적 장면이다.

미토스가 뭘 했는지

4월 7일 앤트로픽이 공개한 미토스 프리뷰는 숫자부터 비정상이다. 소프트웨어 엔지니어링 평가지표 SWE-bench Verified에서 93.9%를 기록했다. 당시 기준 오퍼스 4.6이 80.8%, GPT-5.4가 80% 초반이었으니 13%포인트 이상 앞선 것이다. 수학 올림피아드 시험(USAMO)은 97.6%, 사이버보안 벤치마크 Cybench는 100%, '인류의 마지막 시험(Humanity's Last Exam)'에서는 56.8%로 역대 최고를 새로 썼다.

그런데 이 숫자보다 더 충격을 준 건 실제 테스트 결과였다.

미토스는 몇 주에 걸쳐 주요 운영체제와 브라우저를 스스로 분석했다. 결과물은 목록이 아니라 실제로 작동하는 취약점들이었다. OpenBSD에서 27년 된 TCP SACK 커널 크래시, FreeBSD NFS에서 17년 된 원격 코드 실행(자율 발견 및 익스플로잇까지), FFmpeg에서 16년 된 취약점. 기존 자동화 도구가 500만 번 반복해도 못 찾은 것들을 미토스는 혼자 찾아냈다. Firefox에서만 271건의 취약점을 발굴했다.

쉽게 말하면, 지금 우리가 쓰는 거의 모든 시스템에 그 동안 아무도 몰랐던 구멍이 뚫려 있었고, 미토스는 그 구멍들을 지도로 만들어버린 것이다.

왜 공개를 안 했나

솔직히 이 결정은 당연한 거라고 생각한다. 월 20달러짜리 구독 플랜으로 "저 좀 해킹해드릴게요" 수준의 도구를 뿌리는 게 말이 안 되는 일이기 때문이다.

앤트로픽 측 설명은 이렇다. 미토스의 보안 취약점 탐지 능력이 공격적 목적으로 쓰일 경우 금융, 의료, 에너지 인프라를 동시에 타격하는 대규모 AI 기반 사이버 공격이 올해 현실화될 수 있다고 판단했다는 것이다. 예전에는 이런 위협이 "언젠가 올 수 있다"는 수준이었다면, 미토스 이후로는 "지금 당장 가능하다"가 됐다.

백악관도 미토스 보고서를 받고 긴급 점검에 들어갔다는 보도가 나왔다. 미국 국가 안보 변수로 AI 모델 하나가 오른 건 전례 없는 일이다.

글래스윙 — 방어하는 쪽에만 쓴다는 역설

그러면 미토스는 그냥 창고에 처박아두는 걸까. 아니다. 앤트로픽은 '프로젝트 글래스윙(Project Glasswing)'을 만들었다. 핵심 아이디어는 단순하다. 미토스 같은 능력을 가진 모델이 곧 다른 경로로 세상에 나올 것이다. 그 전에 방어하는 쪽이 먼저 이 도구를 써서 구멍을 막으면 된다.

파트너 명단은 사실상 글로벌 IT 인프라 지도나 마찬가지다. AWS, 애플, 구글, JP모건체이스, 마이크로소프트, 엔비디아, 시스코, 크라우드스트라이크, 브로드컴, 팔로알토 네트웍스, 리눅스 재단까지 11개사가 이름을 올렸다. 이들은 미토스를 방어 목적으로만 사용하며 자사 시스템의 취약점을 먼저 패치한다.

방어자가 공격자보다 동일한 도구를 먼저 갖자는 논리인데, 아름다운 이야기처럼 들리지만 현실은 좀 더 복잡하다. 파트너 기업 11곳의 방어가 끝나면 그 바깥 세상은 어떻게 되느냐는 질문이 남기 때문이다.

오퍼스 4.7과 GPT-5.4-사이버

미토스 발표 열흘 뒤인 4월 17일, 앤트로픽은 클로드 오퍼스 4.7을 일반 공개했다. "미토스의 한 수 아래"라는 표현이 공식 채널에서 나왔는데, 일반인이 쓸 수 있는 건 이 버전이다. 해킹 논란을 의식해 미토스의 일부 보안 관련 기능을 제거하거나 제한한 것으로 알려져 있다.

오픈AI도 가만있지 않았다. GPT-5.4-사이버라는 사이버보안 특화 모델을 일부 보안 기업과 전문가에게 제한 공개하며 맞불을 놨다. 취약점 분석, 악성코드 탐지, 침해 대응에 특화된 모델이라는 설명인데, 미토스가 공격과 방어를 모두 할 수 있는 것과 달리 방어 쪽에만 초점을 맞췄다고 한다.

AI 패권 경쟁의 전선이 코딩, 추론에서 사이버보안으로 옮겨가고 있다는 건 분명해 보인다.

이게 진짜 시작인 이유

블로그 하면서 AI 모델 출시 뉴스를 10년 가까이 봐왔는데, 미토스만큼 서늘하게 느껴진 발표는 처음이다.

기존에 AI가 "해킹 도구로 쓰일 수 있다"는 논의는 항상 추상적이었다. 스피어피싱 이메일 작성, 악성코드 아이디어 제공 같은 수준. 그런데 미토스는 다르다. 사람이 못 찾은 취약점을 찾고, 작동하는 익스플로잇을 만들고, 흔적을 지운다. 이건 "보조 도구"가 아니라 그 자체로 완결된 공격 시스템이다.

그리고 미토스보다 강한 모델이 언제든 등장할 수 있다. 앤트로픽이 먼저 공개를 포기했다고 해서 다른 기업들도 그럴 거라는 보장은 없다. 그래서 글래스윙 같은 선제적 방어 프로젝트가 의미 있는 거지만, 11개 파트너사 방어가 전부를 커버할 수는 없다.

앤트로픽 CEO 다리오 아모데이는 미토스 발표 당시 "방어자가 공격자보다 항상 유리해야 한다"고 했다. 원칙적으로 맞는 말이다. 하지만 그 원칙이 현실에서 얼마나 오래 유지될 수 있을지, 그게 지금 이 이야기의 진짜 핵심이다.