오픈AI GPT-5.5 나왔다, 챗GPT가 에이전트로 바뀐 이유

AI 모델이 한 달 단위로 나오는 시대다. GPT-5.4가 나온 게 3월 초인데, 어제(4월 23일) 오픈AI가 GPT-5.5를 공개했다. 속도만 보면 놀라운데, 이번엔 단순 업데이트가 아니다. GPT-4.5 이후 처음으로 베이스 모델 자체를 완전히 새로 훈련했다.

발표문에 붙은 키워드가 "에이전트" 하나다. 챗봇으로 쓰던 시대는 끝났고, 이제 AI가 직접 일을 한다는 선언으로 읽힌다.

GPT-5.5가 이전 모델들과 다른 점

GPT-5 시리즈는 지금까지 주로 파인튜닝 방식으로 업데이트돼왔다. GPT-5.1부터 5.4까지는 기본 모델 위에 특정 능력을 얹는 식이었다. GPT-5.5는 다르다. 베이스 가중치부터 다시 훈련했다.

오픈AI 발표에 따르면 이 모델은 복잡한 멀티스텝 작업을 혼자 처리한다. 프롬프트 하나를 받으면 끝나는 게 아니라, 웹 브라우징 → 코드 작성 → 실행 → 오류 수정 → 결과 검증까지 일련의 과정을 스스로 밟는다. 인간이 중간에 개입하지 않아도 된다.

Terminal-Bench 2.0이라는 벤치마크가 있다. 명령줄 환경에서 복잡한 작업 흐름을 얼마나 잘 처리하는지 측정하는데, GPT-5.5는 82.7% 를 찍었다. 일주일 전 나온 클로드 Opus 4.7이 69.4%니까 격차가 크다. GDPval(44개 직업군에서 지식 노동 품질 평가) 점수는 84.9% 다.

SWE-Bench Pro, 그러니까 실제 GitHub 이슈를 얼마나 끝까지 해결하는지 테스트에서는 58.6% 가 나왔다. 이 숫자가 의미 있는 건, 단순히 코드를 생성하는 게 아니라 한 번에 완결하는 비율이기 때문이다.

에이전트 AI가 왜 지금인가

솔직히 "에이전트"라는 말은 작년부터 계속 나왔다. AI 에이전트, 자율 AI, 오토파일럿... 다 비슷한 말처럼 들렸는데, 실제 제품에서 쓸 만한 수준이 된 건 최근 몇 달 사이다.

내가 직접 Claude Code 같은 도구를 써보면서 느낀 건데, AI가 한 가지 질문에 답하는 것과 연속된 작업을 혼자 해내는 건 체감이 완전히 다르다. 파일을 읽고, 코드를 짜고, 실행해보고, 오류를 고치는 과정이 루프로 돌아가면 — 그건 이미 보조 도구가 아니라 협업자다.

GPT-5.5는 이 방향에 전사적으로 베팅한 결과물이다. 오픈AI 내부에서 Codex 프로젝트가 에이전트 코딩에 집중하고 있고, GPT-5.5는 그 기반 모델로 설계됐다. 아직 Codex와 결합된 버전(GPT-5.5-Codex)은 별도 출시 예정이다.

클로드 Opus 4.7과 비교하면

일주일 간격으로 두 프론티어 모델이 나왔다. 4월 16일 클로드 Opus 4.7, 4월 23일 GPT-5.5. 둘 다 100만 토큰 컨텍스트를 지원하고, 둘 다 에이전트 코딩을 명시적 강점으로 내세운다.

가격 비교는 이렇다:

GPT-5.5: 입력 $5/100만 토큰, 출력$ 30/100만 토큰
Opus 4.7: 입력 $5/100만 토큰, 출력$ 25/100만 토큰

출력 토큰 단가에서 GPT-5.5가 20% 비싸다. 에이전트 작업은 출력 토큰을 많이 쓰니까, 대규모로 쓰면 비용 차이가 꽤 난다.

양쪽이 공통으로 발표한 10개 벤치마크를 보면 Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다. Opus 4.7은 추론 집약적 문제와 법률·금융 분석에서 강하고, GPT-5.5는 터미널 작업과 장시간 도구 사용에서 강하다.

어떤 걸 쓸지는 용도에 따라 다르다. 코드를 짜고 실행하고 디버깅까지 혼자 돌리는 에이전트 워크플로우라면 GPT-5.5 쪽이 지금 시점에서 유리해 보인다. 문서 작성이나 복잡한 분석 리뷰라면 Opus 4.7이 여전히 강하다.

가용 범위와 실제 접근 방법

GPT-5.5는 ChatGPT Plus, Pro, Business, Enterprise 플랜에 순차 배포 중이다. API는 입력 $5/$ 30 가격으로 바로 쓸 수 있다. 무료 사용자는 제한적 접근이고, 전체 기능은 플러스 이상이다.

GPT-5.5 Thinking 버전과 GPT-5.5 Pro 변형도 포함됐다. Thinking은 복잡한 수학이나 논리 문제에서 추론 과정을 보여주는 방식이다.

내 생각

GPT-5.5를 보면서 든 생각은, 오픈AI가 모델 전쟁보다 에이전트 플랫폼 전쟁을 노리고 있다는 거다. 모델 하나 좋은 게 중요한 게 아니라, AI가 실제 워크플로우에 박히는 구조를 먼저 잡는 쪽이 이긴다.

Anthropic도 Claude Code로 같은 걸 하고 있고, 구글도 코드 에이전트 쪽에 힘을 쏟고 있다. 결국 개발자들이 매일 쓰는 도구에 어떤 모델이 들어가는지가 판을 결정할 것 같다.

지금 이 글을 쓰는 시점엔 GPT-5.5를 직접 써보지 않았다. 벤치마크 숫자를 믿을 수는 있지만, 실제 쓰면 느낌이 다를 때가 많다. 다음 주쯤 직접 써보고 후기를 따로 올릴 생각이다.

한 가지는 분명하다. 챗봇으로 시작한 ChatGPT가 에이전트로 재포지셔닝하는 속도가 예상보다 빠르다. GPT-5.5가 그 전환점의 기술적 증거다.