[속보] “AI 추론 35배 혁신”…엔비디아, 차세대 칩 공개로 ‘에이전트 시대’ 정조준

by관리자 -3월 17, 2026

0

NVIDIA가 추론 전용 칩과 신규 중앙처리장치(CPU)를 공개하며 인공지능(AI) 인프라 시장 공략을 본격화했다.

젠슨 황 CEO는 “추론의 변곡점이 도래했다”고 선언하며 AI 패러다임이 학습 중심에서 추론 중심으로 전환되고 있다고 강조했다.

GTC 2026서 공개…AI 연산 구조 대전환

Jensen Huang CEO는 미국 새너제이 SAP센터에서 열린 GTC 2026 기조연설에서

차세대 AI 슈퍼컴퓨터 ‘베라 루빈’에 신규 LPU 구조를 통합한다고 밝혔다.

이번 핵심은

GPU → 대규모 데이터 연산
LPU → 초저지연 추론 처리
CPU → 시스템 제어 및 자원 관리

로 역할을 완전히 분리한 점이다.

이는 기존 단일 연산 중심 구조에서 벗어나 AI 데이터센터 아키텍처 자체를 재설계한 것으로 평가된다.

“추론 35배 향상”…AI 응답 속도 혁신

신규 구조에서는

대규모 병렬 연산은 GPU
실시간 응답 처리(추론)는 LPU

가 담당한다.

이를 통해 초거대 AI 모델의 추론 처리량이 최대 35배까지 증가할 수 있다고 회사 측은 설명했다.

AI 서비스에서 핵심인 **지연시간(latency)**과 처리 효율이 동시에 개선되면서 클라우드 및 AI 플랫폼 시장 경쟁력이 크게 강화될 전망이다.

삼성 파운드리 생산…반도체 공급망 변화

특히 ‘그록3 LPU’는 Samsung Electronics 파운드리에서 생산되고 있다.

이는 AI 반도체 공급망에서

→ GPU 중심(TSMC)
→ 추론칩 다변화

로 구조가 확장되고 있음을 의미한다.

베라 루빈 시스템에는 LPU 256개를 묶은 LPX 랙이 탑재되며 전체 시스템 구성 요소도 기존 6종에서 7종으로 확대됐다.

신규 CPU ‘베라’ 공개…데이터센터 경쟁력 강화

엔비디아는 CPU 부문에서도 변화를 시도했다.

신규 CPU ‘베라’는

기존 x86 대비 성능 1.5배
에너지 효율 2배 개선

을 달성했다.

자체 설계한 ‘올림퍼스 코어’를 적용해 메모리 대역폭도 기존 대비 3배 수준으로 확대됐다.

이는 AI 데이터센터에서 병목으로 지적되던 메모리 처리 문제를 해결하기 위한 전략으로 해석된다.

AI 에이전트 시대 대비…“연산 수요 100만배”

엔비디아는 이번 기술 전략이 단순 챗봇을 넘어선 AI 에이전트 시대를 겨냥한 것이라고 강조했다.

AI 시스템 구조는

GPU: 데이터 처리
LPU: 추론 실행
CPU: 지휘 및 권한 관리

로 분화된다.

황 CEO는
“AI 에이전트 등장 이후 추론량이 초기 챗GPT 대비 1만배 증가했고
사용량까지 고려하면 총 연산 수요는 100만배 확대됐다”고 설명했다.

이는 AI 인프라 시장이 폭발적으로 성장할 수 있는 근거로 해석된다.

차세대 로드맵 공개…“AI 칩 시장 1조달러”

엔비디아는 향후 로드맵도 함께 제시했다.

차세대 GPU ‘파인만’
신규 CPU ‘로자’
차세대 LPU ‘LP40’

이 결합된 차기 시스템을 예고했다.

황 CEO는
“AI 반도체 시장 기회가 최소 1조달러 규모에 이를 것”이라며
AI 데이터센터와 클라우드 인프라 시장의 폭발적 성장을 전망했다.

투자 관점: “GPU → AI 인프라 생태계 확장”

이번 발표는 단순 신제품 공개를 넘어

엔비디아가 ‘GPU 기업’에서
‘AI 인프라 플랫폼 기업’으로 전환 중이라는 신호다.

투자 관점 핵심은

AI 추론 시장 개화 (고성장 구간)
데이터센터 투자 확대
반도체 공급망 다변화

다.

특히 추론 성능 경쟁이 본격화될 경우

→ GPU뿐 아니라
→ 메모리·파운드리·전력 인프라

까지 수혜가 확산될 가능성이 높다.

핵심 정리

AI 패러다임: 학습 → 추론 중심 전환
엔비디아: GPU + LPU + CPU 통합 구조 구축
시장: AI 인프라 1조달러 성장 기대

결국 AI 산업은 이제

“모델 경쟁”에서
“연산 인프라 경쟁”으로 넘어가는 단계

에 진입했다는 평가다.