구글 TPU 8 공개, 엔비디아 잡을 수 있을까 — 클라우드 넥스트 2026 총정리

라스베이거스에서 3일짜리 행사가 끝날 때쯤엔 항상 발표 리스트가 압도적으로 쌓인다. 구글 클라우드 넥스트 2026도 그랬다. 4월 22일부터 24일까지 라스베이거스 만달레이 베이 컨벤션에서 열린 이 행사에서 순다르 피차이가 꺼내든 숫자들을 먼저 보면: 구글 클라우드 연 매출 700억 달러 이상, 성장률 48%, 수주 잔고(백로그) 2,400억 달러(전년 대비 55% 증가). 제미나이 사용자 7억 5,000만 명.

숫자만 보면 구글이 AI 인프라 전쟁에서 꽤 잘 싸우고 있다. 그런데 이번 행사의 핵심은 숫자가 아니라 방향성이었다.

TPU 11년 만에 처음으로 두 갈래로 갈라졌다

구글이 TPU를 처음 선보인 건 2015년이다. 그 이후 세대를 거듭하면서도 한 칩이 학습과 추론을 모두 담당하는 구조를 유지해왔다. 그걸 이번에 처음으로 쪼갰다. TPU 8t(학습용)와 TPU 8i(추론용)로.

TPU 8t는 학습 전용이다. 단일 슈퍼포드에 TPU 최대 9,600개를 연결하고, 공유 고대역폭 메모리(HBM)는 2페타바이트까지 확장된다. 전 세대인 아이언우드(7세대) 대비 동일 비용에서 처리 성능이 2.8배다. 구글이 "수개월 걸리던 모델 학습을 몇 주로 단축한다"고 주장한 근거가 이 칩이다. 100만 개 이상의 TPU를 단일 클러스터로 묶는 것도 가능하다고 했다.

TPU 8i는 추론 전용이다. 새 보드플라이(Boardfly) 토폴로지를 써서 1,152개 TPU를 단일 포드 안에서 직접 연결했다. 전 세대 대비 온칩 SRAM이 3배, 추론 달러당 성능은 80% 향상됐다. 이게 중요한 이유가 있다. 수백만 개의 AI 에이전트를 동시에 돌리려면 추론 비용이 무섭게 쌓인다. 추론 전용 칩을 분리한 건 바로 그 비용 문제를 정면으로 건드린 것이다.

솔직히 말하면 엔비디아 H200, B200 시리즈와 직접 비교하기에는 아직 공개된 벤치마크가 부족하다. 구글의 칩은 자사 클라우드에서만 쓸 수 있다는 한계도 있다. 하지만 학습·추론 분리는 아키텍처 차원의 결정이고, 이건 단기 성능 경쟁이 아닌 장기 전략의 신호다.

버텍스 AI라는 이름이 사라졌다

구글 클라우드의 AI 개발 플랫폼 브랜드가 이번에 전면 교체됐다. '버텍스 AI(Vertex AI)'가 '제미나이 엔터프라이즈 에이전트 플랫폼(Gemini Enterprise Agent Platform)'으로 이름을 바꿨다. 에이전트스페이스(Agentspace)도 이 플랫폼 안으로 흡수됐다.

이름 바꾸는 걸 대단한 일로 취급할 필요는 없지만, 방향 선언으로 읽을 수는 있다. '인프라·모델 플랫폼'에서 '에이전트 중심 플랫폼'으로 포지셔닝을 전환한다는 뜻이다.

실질적 발표를 보면:

워크스페이스 스튜디오(Workspace Studio) — 코딩 없이 에이전트를 만드는 노코드 빌더다. Gmail, Google Docs, Sheets, Drive, Meet, Chat에서 동작하는 자동화 에이전트를 "자연어로 설명"해서 배포할 수 있다. 기업 쪽에서 수요가 꽤 클 것 같다. 비개발자 직원들이 반복 업무를 자동화하는 도구로.

모델 가든(Model Garden) — 200개 이상의 모델이 들어가 있고, 경쟁사인 앤스로픽의 클로드(Claude)도 포함됐다. 오픈AI를 견제하면서도 클로드를 품는 구조. 구글이 앤스로픽에 투자한 걸 감안하면 이상한 조합은 아니다.

ADK(Agent Development Kit) v1.0 — 파이썬, 자바, Go, 자바스크립트 4개 언어로 안정 버전이 공개됐다.

A2A가 리눅스 재단으로 넘어갔다

A2A(Agent2Agent) 프로토콜이 리눅스 재단 산하 '에이전틱 AI 파운데이션'으로 이관됐다. 버전은 1.2.

A2A는 서로 다른 회사가 만든 AI 에이전트들이 서로 대화하고 작업을 주고받을 수 있게 하는 통신 규약이다. 이미 실제 기업 150곳에서 프로덕션 환경에 쓰이고 있다고 한다. 구글 예시를 가져오면: 세일즈포스 에이전트포스(Agentforce)로 만든 에이전트가 작업을 구글 버텍스 AI 에이전트에 넘기고, 그 에이전트가 서비스나우(ServiceNow) 에이전트에서 IT 자산 데이터를 쿼리한다 — 세 시스템 중 어느 것도 상대방의 내부 구조를 알 필요 없이.

v1.2에서는 에이전트 카드에 암호화 서명이 들어갔다. 어떤 에이전트가 어느 도메인에서 왔는지 검증하는 기능이다. 에이전트 수가 늘어날수록 신뢰 문제가 커지는데, 이걸 기술적으로 풀려는 시도다.

LangGraph, CrewAI, LlamaIndex, 시맨틱 커널(Semantic Kernel), AutoGen에 A2A 네이티브 지원이 들어갔다. AI 에이전트 개발 생태계에서 사실상 표준 통신 레이어가 되겠다는 야심이 보인다.

"구글 코드의 75%는 AI가 짠다"

피차이가 키노트에서 던진 말 중 개인적으로 가장 눈에 들어온 건 이거였다. 구글 내부에서 작성되는 코드의 75%가 이미 AI 생성이라고 했다. 그게 사실이라면, 그냥 생산성 지표 이야기가 아니다. 구글이 소프트웨어 개발 방식 자체를 재정의하는 실험을 이미 대규모로 하고 있다는 얘기다.

오픈AI가 Codex CLI를 내놓고, 앤스로픽이 클로드 코드(Claude Code)를 밀어붙이는 맥락과 맞닿아 있다. AI 코딩 에이전트가 개발자 도구 시장의 주전장이 됐고, 구글은 내부 데이터로 "우리가 이미 실전에서 쓴다"는 레퍼런스를 앞세웠다.

또 피차이는 검색(Search)을 에이전트 관리자로 전환한다고 했다. 검색창이 쿼리 입력창이 아니라 "여러 AI 에이전트를 지시하고 조율하는 인터페이스"가 된다는 그림이다. 아직 구체적 제품 형태가 공개된 건 아니지만, 방향 자체는 명확하다.

그래서 엔비디아를 잡을 수 있나

이 질문에 지금 당장 "그렇다"고 답하긴 어렵다. TPU 8 시리즈는 구글 클라우드 안에서만 쓸 수 있고, 엔비디아 GPU는 어느 클라우드에서나, 온프레미스에서도 쓴다. 범용성에서 이미 기울어진 운동장이다.

그런데 구글이 노리는 게 엔비디아 GPU를 완전히 대체하는 게 아닐 수 있다. 자사 클라우드 고객들이 엔비디아 칩을 사용하는 비용을 구글 칩으로 대체해서 마진을 챙기는 것, 그리고 AI 추론 인프라를 통제해서 에이전트 플랫폼 락인(lock-in)을 만드는 것 — 이 두 가지가 현실적인 목표에 가깝다.

흥미로운 건 구글이 이번 행사에서 엔비디아와 협력 강화도 동시에 발표했다는 점이다. 엔비디아 GPU 기반 시스템이 구글 클라우드에서 더 효율적으로 돌아갈 수 있도록 네트워킹을 함께 개발한다고 했다. 경쟁하면서 파트너 하는 구조. 테크 산업에서 흔히 보는 패턴이긴 한데, 이걸 동시에 발표한 건 제법 영리한 포지셔닝이다.

어느 쪽이든 이번 클라우드 넥스트 2026은 구글이 "AI 인프라 전쟁에 제대로 끼어든다"는 선언에 가까웠다. TPU 분리, 에이전트 플랫폼 통합, A2A 오픈 거버넌스, 파트너 생태계 7,500억 투자. 퍼즐 조각들이 많이 풀렸다. 내년 이맘때 실제 고객 수와 워크로드 데이터가 나오면, 그때 진짜 평가가 가능해질 것 같다.