챗GPT 기본 모델 바뀌었다 — GPT-5.5 인스턴트, 환각 절반에 지메일도 읽는다

어제(5월 5일) 챗GPT가 조용히 달라졌다. 오픈AI가 공지 하나 올리고 기본 모델을 GPT-5.3 인스턴트에서 GPT-5.5 인스턴트로 교체했다. 거창한 발표 행사도 없었고, 프레스 콘퍼런스도 없었다. 그냥 업데이트됐다.

보통 이런 방식의 조용한 교체는 두 가지 경우다. 변화가 너무 사소하거나, 아니면 반응을 보면서 조심스럽게 가져가거나. GPT-5.5 인스턴트는 전자가 아니다. 수치 몇 개만 봐도 작은 업데이트가 아니다.

환각이 절반으로 줄었다는 말, 믿어도 될까

오픈AI는 GPT-5.5 인스턴트가 의학·법률·금융 분야 고위험 질문에서 환각 발생률을 52.5% 줄였다고 밝혔다. 사용자가 직접 오류를 지적한 대화 데이터를 기반으로는 37.3% 감소다.

솔직히 이 수치, 처음엔 의심스러웠다. 오픈AI가 자체 벤치마크로 발표하는 수치는 항상 좋게 나오게 설계된 경향이 있으니까. 특히 "환각 몇 퍼센트 감소"는 어떤 기준으로 측정하느냐에 따라 숫자가 크게 달라진다.

그런데 이번엔 기준을 두 가지로 분리한 게 눈에 띈다. 처음부터 어려운 질문(의료·법률)에서의 수치와, 실제로 사용자가 "이거 틀렸다"고 지적한 대화에서의 수치를 따로 냈다. 두 번째 기준은 실사용 기반이라 더 신뢰가 간다. 37.3%가 작아 보일 수 있지만, 반복적으로 오류 지적을 받던 유형의 대화에서 정확도가 그만큼 올랐다는 건 체감 가능한 수준일 가능성이 높다.

완전히 고쳐진 건 아니다. 환각은 여전히 발생한다. 52.5%가 줄었다는 건 절반 가까이 줄었다는 거지, 없어졌다는 말이 아니다.

챗GPT가 말수를 줄였다

이번 업데이트에서 내가 개인적으로 가장 흥미롭게 본 부분이 이거다. GPT-5.5 인스턴트는 같은 내용을 더 짧게 답한다. 단어 수 기준 30.2%, 줄 수 기준 29.2% 감소다.

오픈AI가 명시적으로 "불필요한 이모지와 과도한 서식 줄이기"를 목표로 했다고 밝혔다. 챗GPT를 자주 쓰다 보면 알겠지만, GPT 계열은 답변이 구조화되어 있긴 한데 종종 불필요하게 길다. 별표로 가득한 섹션, 굳이 안 해도 될 후속 질문, 결론 부분에서 또 요약하는 패턴. 이걸 줄이겠다는 거다.

실제로 체감이 될지는 며칠 써봐야 알겠지만, 방향성 자체는 맞다. AI 모델이 더 화려하게 답하는 게 능력 있어 보이던 시절은 지났다. 필요한 말만 정확하게 하는 게 훨씬 실용적이다.

지메일까지 읽는다 — 개인화의 새 단계

이번 업데이트에서 기술적으로 가장 큰 변화는 개인화 심화다. GPT-5.5 인스턴트는 과거 대화 기록, 업로드한 파일, 그리고 연동된 지메일(Gmail) 데이터를 더 효과적으로 활용해 답변을 맞춤화한다.

지메일 연동 자체는 이전부터 있던 기능이지만, 이번 버전에서는 모델이 언제 개인화가 필요한지 더 잘 판단한다고 한다. "과거 대화를 검색하는 속도가 빨라져 같은 맥락을 반복 설명하지 않아도 된다"는 게 오픈AI 설명이다. 10분 전 대화 내용을 다음 세션에서 모른 척하거나, 이미 알려준 직업·관심사를 계속 다시 물어보는 그 답답함을 줄이겠다는 거다.

여기서 더 흥미로운 건 '메모리 소스(Memory Sources)' 기능이다. 챗GPT가 어떤 과거 대화나 파일을 참고해서 이 답변을 생성했는지 응답 하단의 아이콘을 누르면 직접 확인할 수 있다. 틀린 정보가 메모리에 남아있으면 거기서 바로 삭제하거나 수정할 수도 있다.

솔직히 이 기능, 꽤 중요한 변화다. AI가 "뭔가 이상한 답"을 내놨을 때 왜 그런지 추적하기가 지금은 너무 불투명하다. 메모리 소스가 제대로 작동한다면 "아, 3개월 전에 내가 잘못된 정보를 알려줬던 게 여기서 문제가 됐구나"를 직접 확인할 수 있게 된다. 책임소재가 생기는 거다.

다만 개인화 기능은 플러스·프로 구독자 대상 웹 버전에서 먼저 제공되고, 모바일과 무료 요금제 확대는 수 주 내로 예정돼 있다. 무료 사용자 입장에선 조금 더 기다려야 한다.

수학 점수 65점에서 81점으로

벤치마크 얘기를 잠깐 하면, AIME 2025(미국 수학경시대회)에서 GPT-5.5 인스턴트는 81.2점을 받았다. 전작 GPT-5.3 인스턴트가 65.4점이었으니 15점 넘게 올랐다. 멀티모달 추론 평가인 MMMU-Pro에서도 69.2점에서 76점으로 상승했다.

수학 벤치마크는 AI 모델 성능을 가늠하는 지표 중 하나다. 수학 문제는 정답이 명확하게 있어서 "대충 맞는 것 같은" 답을 내놓기 어렵기 때문이다. 65점에서 81점은 제법 큰 도약이다. 추론 능력 자체가 올라간 거다.

유료 사용자는 GPT-5.3 인스턴트도 3개월 더 쓸 수 있다

오픈AI는 유료(플러스·프로) 구독자에게 GPT-5.3 인스턴트를 3개월간 계속 선택해서 쓸 수 있도록 했다. 새 모델이 마음에 안 들거나, 특정 작업에선 이전 모델이 더 낫다고 판단하는 경우를 위한 배려다.

모델 교체할 때마다 "기존 모델이 더 좋았는데"라는 반응이 나오는 걸 알기 때문에 이런 선택지를 준 것 같다. 무료 사용자는 선택권 없이 GPT-5.5 인스턴트만 쓰게 된다.

10년 블로그 하면서 느끼는 거

AI 모델 업데이트 소식이 이렇게 자주 쏟아지니까 점점 뉴스 가치가 희석되는 느낌이 있다. GPT가 올해 들어서만 5.0, 5.1, 5.3, 5.4, 5.5 인스턴트까지 나왔다. 메이저 버전도 아닌 점수 단위 업데이트가 계속된다.

그런데 이번 GPT-5.5 인스턴트는 조금 다르게 읽힌다. 더 강력한 추론 모델 경쟁을 벌이는 것과 별개로, 오픈AI가 "기본 모델"의 방향을 바꾸고 있다. 더 빠르고, 더 짧고, 더 정확하게. 에이전트나 멀티모달 쪽 발전도 중요하지만, 매일 챗GPT 쓰는 일반 사용자 입장에선 환각 줄고 답이 짧아지는 게 오히려 더 직접적인 체감이다.

지메일 메모리 기능이 어느 정도까지 실용적으로 작동하는지는 직접 써봐야 알 것 같다. 개인 데이터를 챗GPT에 이렇게까지 연동하는 게 불편한 사람도 있을 거고, 나는 그 우려가 완전히 틀린 건 아니라고 생각한다. 오픈AI가 "당신의 지메일을 읽어서 답변을 개선한다"는 구조에 대한 투명성은 계속 요구해야 할 부분이다.

당장은 써볼 만한 업데이트다.

Sources: