BofA, TPU intensifies competitive race, but in a rising tide, Buy NVDA, AVGO, AMD (25.11.25)
‒ 최근 LLM 경쟁은 Gemini 3 출시 이후 Claude Opus 4.5가 여러 지표에서 이를 앞서며 판도가 흔들리고 있고, OpenAI도 조만간 자체 모델 업데이트를 공개할 가능성이 높으며 전반적으로 톱티어 모델들의 경쟁 속도가 더 빨라지는 초기 과열 국면에 진입.
‒ DeepSeek처럼 일시적으로 상위권에 올랐다가 현재 17위까지 밀린 사례에서 보듯 LLM 리더보드 변동성은 매우 크며, 단기 순위가 장기 시장 지형을 의미하진 않는 장기 레이스 구조임.
‒ 구글은 Gemini 3 학습용 10세대 TPU 등 커스텀 TPU 개발을 지속해왔고, 최근 메타에 TPU 임대 가능성이 제기되면서 내부 전용 칩에서 외부 고객용 플랫폼으로 확장되는 흐름이 본격화되고 있음.
‒ 특히 2027년부터 온프레미스 TPU 제공 시나리오까지 언급되며, 사실일 경우 메타가 기존 엔비디아·AMD GPU 구조에서 TPU로 워크로드 일부를 이전할 수 있어 가속기 경쟁 구도에 실질적 변곡점이 될 가능성 존재.
‒ 데이터센터 AI 가속기 TAM은 2025년 2,420억달러에서 2030년 1조 2천억달러 이상으로 5배 확대될 전망으로, 시장의 폭발적 팽창이 모든 벤더의 기회 요인으로 작용하는 환경임.
‒ NVDA 점유율이 85%→75%로 완만히 조정될 전망이나, CUDA 생태계·개발자 락인·풀스택 아키텍처·범용성 등 GPU 고유의 해자는 단기간에 대체가 어려운 구조.
‒ AWS Trainium, MSFT Maia·MTIA 등 커스텀 칩은 내부 워크로드에는 최적화되어 있지만, 외부 클라우드 고객이 요구하는 범용성·신뢰성·툴체인 측면에서 한계가 분명해 GPU 중심 구조가 유지될 것으로 보임.
‒ AVGO는 AI 네트워킹 분야 우위를 기반으로 Anthropic·TPU 프로젝트까지 레버리지되며 CY26까지 AI 매출 +100% YoY 성장 가능성이 열려 있고, CY26 PER 33배는 구조적 성장성을 반영한 수준.
‒ AMD는 CPU·GPU·임베디드 등 다각화된 제품 포트폴리오 전반에서 균형 성장을 기대할 수 있어 CY26 PER 33배 밸류가 가능하며, 시장 팽창의 수혜를 점진적으로 흡수할 전망.
‒ 엔비디아는 +40%대 매출·이익 성장, 소프트웨어·생태계 우위, 개발자 기반 락인을 통해 리더십이 견고하며, 경쟁이 심화돼도 시장 자체가 기하급수적으로 확대되기 때문에 절대 성장세를 유지할 가능성이 높음.
‒ 최근 LLM 경쟁은 Gemini 3 출시 이후 Claude Opus 4.5가 여러 지표에서 이를 앞서며 판도가 흔들리고 있고, OpenAI도 조만간 자체 모델 업데이트를 공개할 가능성이 높으며 전반적으로 톱티어 모델들의 경쟁 속도가 더 빨라지는 초기 과열 국면에 진입.
‒ DeepSeek처럼 일시적으로 상위권에 올랐다가 현재 17위까지 밀린 사례에서 보듯 LLM 리더보드 변동성은 매우 크며, 단기 순위가 장기 시장 지형을 의미하진 않는 장기 레이스 구조임.
‒ 구글은 Gemini 3 학습용 10세대 TPU 등 커스텀 TPU 개발을 지속해왔고, 최근 메타에 TPU 임대 가능성이 제기되면서 내부 전용 칩에서 외부 고객용 플랫폼으로 확장되는 흐름이 본격화되고 있음.
‒ 특히 2027년부터 온프레미스 TPU 제공 시나리오까지 언급되며, 사실일 경우 메타가 기존 엔비디아·AMD GPU 구조에서 TPU로 워크로드 일부를 이전할 수 있어 가속기 경쟁 구도에 실질적 변곡점이 될 가능성 존재.
‒ 데이터센터 AI 가속기 TAM은 2025년 2,420억달러에서 2030년 1조 2천억달러 이상으로 5배 확대될 전망으로, 시장의 폭발적 팽창이 모든 벤더의 기회 요인으로 작용하는 환경임.
‒ NVDA 점유율이 85%→75%로 완만히 조정될 전망이나, CUDA 생태계·개발자 락인·풀스택 아키텍처·범용성 등 GPU 고유의 해자는 단기간에 대체가 어려운 구조.
‒ AWS Trainium, MSFT Maia·MTIA 등 커스텀 칩은 내부 워크로드에는 최적화되어 있지만, 외부 클라우드 고객이 요구하는 범용성·신뢰성·툴체인 측면에서 한계가 분명해 GPU 중심 구조가 유지될 것으로 보임.
‒ AVGO는 AI 네트워킹 분야 우위를 기반으로 Anthropic·TPU 프로젝트까지 레버리지되며 CY26까지 AI 매출 +100% YoY 성장 가능성이 열려 있고, CY26 PER 33배는 구조적 성장성을 반영한 수준.
‒ AMD는 CPU·GPU·임베디드 등 다각화된 제품 포트폴리오 전반에서 균형 성장을 기대할 수 있어 CY26 PER 33배 밸류가 가능하며, 시장 팽창의 수혜를 점진적으로 흡수할 전망.
‒ 엔비디아는 +40%대 매출·이익 성장, 소프트웨어·생태계 우위, 개발자 기반 락인을 통해 리더십이 견고하며, 경쟁이 심화돼도 시장 자체가 기하급수적으로 확대되기 때문에 절대 성장세를 유지할 가능성이 높음.
‒ 지난주 헤지펀드들의 디그로싱은 주로 숏 레버리지 축소 중심이었고, 이번 주 들어서는 금리 인하 기대(12월 25bp 인하 확률 30% → 85% 급등)까지 더해지며 숏 커버 + 현물 순매수 흐름이 동시에 폭발적으로 증가한 것이 핵심.
‒ 골드만 PBS에 따르면 헤지펀드는 3주 연속 미국 주식 순매수를 이어갔고, 특히 지난 금요일과 월요일 2거래일 연속 순매수 강도는 지난 2년 중 손꼽힐 정도로 큰 규모를 기록해 사실상 “매수 러시”가 전개됨.
‒ ETF 숏 포지션도 금요일 ‒2.5%, 월요일 ‒2.4%로 연속적으로 축소되며 목요일 급락 당시 늘렸던 ETF 숏을 거의 되돌린 수준으로, 시스템·인덱스 레벨의 베어 포지션이 빠르게 축소.
‒ 섹터별로는 목요일에 대거 매도됐던 미국 테크 비중을 다시 강하게 사들이며 지난 2거래일 기준 가장 많은 달러 순매수를 기록했고, 특히 반도체·장비, 테크 하드웨어, 통신장비에서 집중적인 롱 매수와 숏 커버가 동시에 나타남.
‒ 테마 측면에서는 AI 수혜주(메가캡 중심)가 강하게 순매수됐으나, Non-Profitable Tech는 순매수 없이 오히려 숏이 5거래일 연속 증가하는 등 질적 선호에서 ‘퀄리티·수익성 중심 로테이션’이 유지된 흐름임.
‒ 동시에 헬스케어 섹터는 헤지펀드가 5일 연속 순매수, 최근 17일 중 15일 순매수를 기록할 정도로 지속적 자금 유입이 이어지며, 총액 기준 Gross·Net 모두 지난 5년 중 98%ile 고점 수준까지 올라온 상태.
‒ 종합하면, 시장 하락 국면에서도 숏 커버 → 순매수 전환으로 이어진 헤지펀드의 강한 리스크온 재진입 흐름이 지난 2~3거래일 동안 급격히 강화되었고, 그 중심에는 금리 인하 기대와 테크·AI·헬스케어로의 구조적 선호가 뚜렷하게 나타난 것이 특징.
‒ 골드만 PBS에 따르면 헤지펀드는 3주 연속 미국 주식 순매수를 이어갔고, 특히 지난 금요일과 월요일 2거래일 연속 순매수 강도는 지난 2년 중 손꼽힐 정도로 큰 규모를 기록해 사실상 “매수 러시”가 전개됨.
‒ ETF 숏 포지션도 금요일 ‒2.5%, 월요일 ‒2.4%로 연속적으로 축소되며 목요일 급락 당시 늘렸던 ETF 숏을 거의 되돌린 수준으로, 시스템·인덱스 레벨의 베어 포지션이 빠르게 축소.
‒ 섹터별로는 목요일에 대거 매도됐던 미국 테크 비중을 다시 강하게 사들이며 지난 2거래일 기준 가장 많은 달러 순매수를 기록했고, 특히 반도체·장비, 테크 하드웨어, 통신장비에서 집중적인 롱 매수와 숏 커버가 동시에 나타남.
‒ 테마 측면에서는 AI 수혜주(메가캡 중심)가 강하게 순매수됐으나, Non-Profitable Tech는 순매수 없이 오히려 숏이 5거래일 연속 증가하는 등 질적 선호에서 ‘퀄리티·수익성 중심 로테이션’이 유지된 흐름임.
‒ 동시에 헬스케어 섹터는 헤지펀드가 5일 연속 순매수, 최근 17일 중 15일 순매수를 기록할 정도로 지속적 자금 유입이 이어지며, 총액 기준 Gross·Net 모두 지난 5년 중 98%ile 고점 수준까지 올라온 상태.
‒ 종합하면, 시장 하락 국면에서도 숏 커버 → 순매수 전환으로 이어진 헤지펀드의 강한 리스크온 재진입 흐름이 지난 2~3거래일 동안 급격히 강화되었고, 그 중심에는 금리 인하 기대와 테크·AI·헬스케어로의 구조적 선호가 뚜렷하게 나타난 것이 특징.
Gromit 공부방
헬스케어 섹터는 헤지펀드가 5일 연속 순매수, 최근 17일 중 15일 순매수를 기록할 정도로 지속적 자금 유입이 이어지며, 총액 기준 Gross·Net 모두 지난 5년 중 98%ile 고점 수준까지 올라온 상태.
골드만 PBS 고객들이 지난주 가장 많이 순매수한 업종 헬스케어
Gromit 공부방
Non-Profitable Tech는 순매수 없이 오히려 숏이 5거래일 연속 증가하는 등 질적 선호에서 ‘퀄리티·수익성 중심 로테이션’이 유지된 흐름
= 아직 영웅호걸(a.k.a 모멘텀 카미카제)들의 시간은 아니라는
MS, What Could GOOGL Selling TPUs Externally Mean for GOOGL and Semis? (25.11.26)
‒ Google이 Meta 등 외부 고객에게 TPU를 직접 판매·임대하는 방안을 논의 중이며, Meta는 2027년 수십억 달러 규모 도입과 2026년 GCP 기반 TPU 임대까지 고려하는 등 TPU를 inference가 아닌 training용으로 활용하려는 움직임이 나타남.
‒ Google은 PyTorch 기반으로 TPU 클러스터를 제어할 수 있는 TPU Command Center를 개발해 기존 약점이던 개발자 친화도를 개선했고, Anthropic은 이미 약 100만 개 TPU 접근 계약을 맺어 외부 생태계 확산이 진행 중.
‒ Broadcom은 Google에 공급하는 TPU가 2025년 180만 개에서 2027년 300만 개로 늘어날 것으로 추정되며, 이는 Google이 외부 판매 여력을 확보하기 시작했다는 신호로 해석.
‒ Google이 외부 고객에게 TPU 50만 개를 판매할 경우 2027년 Cloud 매출은 약 +130억 달러(+11%), EPS는 +0.37달러(+3%) 개선되며 gross margin 30~60% 시나리오에서 TPU 매출의 상당 부분이 직접 이익으로 이어지는 구조.
‒ TPU 판매 모델은 직접 판매, 렌탈, 라이선스, GCP 연동 등 다양한 방식이 있을 수 있어 매출 인식·마진·CAPEX 영향이 아직 명확하지 않으며, 단품이 아닌 랙 스케일 판매 시 가격 구조는 더욱 달라질 수 있음.
‒ Meta가 TPU를 Llama 같은 LLM training 전체에 적용할지 일부 스테이지만 사용할지는 아직 불확실하지만, TPU의 비용 대비 성능 효율이 높아 CAPEX 부담을 완화할 수 있는 옵션으로 고려되고 있음.
‒ Meta는 NVDA GPU 100만 개 이상 구매가 예상되는 상황에서도 TPU·내부 ASIC(MTIA)·외부 ASIC·AMD GPU까지 compute 스택을 다변화하는 전략을 유지하며, TPU는 비용 효율 영역을 담당하는 보완축 역할을 할 가능성이 큼.
‒ Broadcom은 Google·Meta·ByteDance·Anthropic·OpenAI 등 XPU 고객군 확대의 직접 수혜를 보지만, ASIC 전략의 고객 의존도 변화는 리스크이기도 하며 TPU 외부 확산은 AVGO 공급망 가속을 의미.
‒ NVIDIA는 TPU 확산이 단기적으로 내러티브 노이즈는 되겠지만 실제로는 AI 수요·공급망 모두 강화되고 있으며 rack-scale·NVLink·InfiniBand 등에서 가장 성숙한 생태계를 유지해 구조적 영향은 제한적이라는 분석.
‒ AMD는 TPU·ASIC 확산으로 MI450 경쟁력이 상대적으로 약화될 수 있고, “어디서나 쓸 수 있는 중립 옵션”이라는 기존 장점이 희석되며, ROI를 입증하지 못하면 대규모 점유율 확보가 어려운 국면에 직면해 있음.
‒ Google이 Meta 등 외부 고객에게 TPU를 직접 판매·임대하는 방안을 논의 중이며, Meta는 2027년 수십억 달러 규모 도입과 2026년 GCP 기반 TPU 임대까지 고려하는 등 TPU를 inference가 아닌 training용으로 활용하려는 움직임이 나타남.
‒ Google은 PyTorch 기반으로 TPU 클러스터를 제어할 수 있는 TPU Command Center를 개발해 기존 약점이던 개발자 친화도를 개선했고, Anthropic은 이미 약 100만 개 TPU 접근 계약을 맺어 외부 생태계 확산이 진행 중.
‒ Broadcom은 Google에 공급하는 TPU가 2025년 180만 개에서 2027년 300만 개로 늘어날 것으로 추정되며, 이는 Google이 외부 판매 여력을 확보하기 시작했다는 신호로 해석.
‒ Google이 외부 고객에게 TPU 50만 개를 판매할 경우 2027년 Cloud 매출은 약 +130억 달러(+11%), EPS는 +0.37달러(+3%) 개선되며 gross margin 30~60% 시나리오에서 TPU 매출의 상당 부분이 직접 이익으로 이어지는 구조.
‒ TPU 판매 모델은 직접 판매, 렌탈, 라이선스, GCP 연동 등 다양한 방식이 있을 수 있어 매출 인식·마진·CAPEX 영향이 아직 명확하지 않으며, 단품이 아닌 랙 스케일 판매 시 가격 구조는 더욱 달라질 수 있음.
‒ Meta가 TPU를 Llama 같은 LLM training 전체에 적용할지 일부 스테이지만 사용할지는 아직 불확실하지만, TPU의 비용 대비 성능 효율이 높아 CAPEX 부담을 완화할 수 있는 옵션으로 고려되고 있음.
‒ Meta는 NVDA GPU 100만 개 이상 구매가 예상되는 상황에서도 TPU·내부 ASIC(MTIA)·외부 ASIC·AMD GPU까지 compute 스택을 다변화하는 전략을 유지하며, TPU는 비용 효율 영역을 담당하는 보완축 역할을 할 가능성이 큼.
‒ Broadcom은 Google·Meta·ByteDance·Anthropic·OpenAI 등 XPU 고객군 확대의 직접 수혜를 보지만, ASIC 전략의 고객 의존도 변화는 리스크이기도 하며 TPU 외부 확산은 AVGO 공급망 가속을 의미.
‒ NVIDIA는 TPU 확산이 단기적으로 내러티브 노이즈는 되겠지만 실제로는 AI 수요·공급망 모두 강화되고 있으며 rack-scale·NVLink·InfiniBand 등에서 가장 성숙한 생태계를 유지해 구조적 영향은 제한적이라는 분석.
‒ AMD는 TPU·ASIC 확산으로 MI450 경쟁력이 상대적으로 약화될 수 있고, “어디서나 쓸 수 있는 중립 옵션”이라는 기존 장점이 희석되며, ROI를 입증하지 못하면 대규모 점유율 확보가 어려운 국면에 직면해 있음.
Looming US Power Crunch to Impair AI Abilities, Schneider Says
‒ 슈나이더 일렉트릭은 미국 전력망이 노후 인프라와 데이터센터·공장·EV 확산으로 이미 한계에 근접했으며, 2028년부터는 피크 수요를 기존 설비로 감당하지 못해 비상예비력(Reserve Margin)을 일상적으로 소진하기 시작할 것이라 경고.
‒ NERC 데이터를 기반으로 한 자체 분석에서 2033년에는 최대 175GW의 전력 부족이 발생해 광범위한 정전·블랙아웃 위험이 현실화될 수 있다고 보며, 이는 미국의 AI 산업 경쟁력에도 직접적 타격이 될 것으로 전망.
‒ 데이터센터 전력 수요는 2035년까지 두 배로 증가해 미국 전체 수요의 약 9%를 차지하게 되고, 이미 일부 지역에서는 겨울철 피크 수요가 전년 대비 약 20GW 증가하며 전력망 취약성을 높이고 있음.
‒ 이러한 피크 수요 증가는 예비력 고갈로 이어져 극한 기상·사이버공격 등 비상 상황 대응 여력을 크게 떨어뜨리며, 예비력을 매일 사용하는 구조는 전력 시스템 신뢰도를 급격히 악화시키는 요인이 된다고 강조.
‒ 미국 그리드는 배터리 보급이 증가하고 있지만 전체 저장용량은 여전히 제한적이며, 실시간 수요·공급 균형을 맞추기 위해서는 기존 예비력 의존도가 구조적으로 더욱 높아지는 상황.
‒ 슈나이더는 NERC 전망과 자사 고객(Nvidia, Vantage, Compass, Microsoft, Google, Meta 등)의 실제 전력 수요 데이터를 비교해 동일한 증가 추세가 확인된다고 밝혀, AI·빅테크 전력 수요가 모델링보다 훨씬 과소평가되어 있다고 지적.
‒ 해결책으로 단기간 내 공급 확장이 어려운 만큼, 대규모 발전·송전 신설보다 그리드 용량을 즉시 늘릴 수 있는 Grid-Enhancing Technologies 우선 도입이 가장 현실적 대응이라고 결론지음.
source: Bloomberg
‒ 슈나이더 일렉트릭은 미국 전력망이 노후 인프라와 데이터센터·공장·EV 확산으로 이미 한계에 근접했으며, 2028년부터는 피크 수요를 기존 설비로 감당하지 못해 비상예비력(Reserve Margin)을 일상적으로 소진하기 시작할 것이라 경고.
‒ NERC 데이터를 기반으로 한 자체 분석에서 2033년에는 최대 175GW의 전력 부족이 발생해 광범위한 정전·블랙아웃 위험이 현실화될 수 있다고 보며, 이는 미국의 AI 산업 경쟁력에도 직접적 타격이 될 것으로 전망.
‒ 데이터센터 전력 수요는 2035년까지 두 배로 증가해 미국 전체 수요의 약 9%를 차지하게 되고, 이미 일부 지역에서는 겨울철 피크 수요가 전년 대비 약 20GW 증가하며 전력망 취약성을 높이고 있음.
‒ 이러한 피크 수요 증가는 예비력 고갈로 이어져 극한 기상·사이버공격 등 비상 상황 대응 여력을 크게 떨어뜨리며, 예비력을 매일 사용하는 구조는 전력 시스템 신뢰도를 급격히 악화시키는 요인이 된다고 강조.
‒ 미국 그리드는 배터리 보급이 증가하고 있지만 전체 저장용량은 여전히 제한적이며, 실시간 수요·공급 균형을 맞추기 위해서는 기존 예비력 의존도가 구조적으로 더욱 높아지는 상황.
‒ 슈나이더는 NERC 전망과 자사 고객(Nvidia, Vantage, Compass, Microsoft, Google, Meta 등)의 실제 전력 수요 데이터를 비교해 동일한 증가 추세가 확인된다고 밝혀, AI·빅테크 전력 수요가 모델링보다 훨씬 과소평가되어 있다고 지적.
‒ 해결책으로 단기간 내 공급 확장이 어려운 만큼, 대규모 발전·송전 신설보다 그리드 용량을 즉시 늘릴 수 있는 Grid-Enhancing Technologies 우선 도입이 가장 현실적 대응이라고 결론지음.
source: Bloomberg
BofA, Why did memory prices spike late in the year? A technical deep dive (25.11.25)
✅ AI 수요 폭발 + CUDA 진화 + 컨텍스트 대형화가 복합적으로 만든 ‘비정상적 메모리 슈퍼사이클’
‒ 최근 2개월간 DRAM과 NAND 모두 전례 없이 강한 상승세를 보였는데(특히 NAND는 Q4에 15~20% 계약가격 상승), 핵심 요인은 AI 인프라 수요가 기존 인프라 설계를 압도했기 때문’
‒ 단순히 GPU 늘리기 때문이 아니라 CUDA 12.8~13.0으로 GPU가 직접 접근·활용 가능한 메모리 총량이 폭증한 점이 가장 큰 구조적 변화로 지목됨.
‒ Unified Memory(UVM) 확장, Host Memory Integration, GPUDirect·DirectStorage 강화, Tile-based programming 등은 GPU가 VRAM을 넘어 DRAM·NAND까지 사실상 하나의 메모리 풀처럼 활용하게 만드는 기반이 됨.
‒ 여기에 LLM 컨텍스트 윈도우가 2K → 32K → 100K → 400K → 최대 1M tokens까지 확대되며, AI 시스템의 병목이 compute에서 memory·I/O로 이동.
‒ 동시에 PC·폰 수요 회복까지 겹쳐 기존 DDR·NAND 재고가 빠르게 축소되며 “AI + 일반 IT 수요 동시 회복”이라는 드문 조합이 발생함 → 실질적 메모리 공급 타이트닝이 심화됨.
✅ CUDA 12.8~13.0: GPU의 메모리 사용량을 구조적으로 키워버린 핵심 트리거
‒ CUDA 12.8 주요 변화:
» UVM 기반 Extended GPU Memory 지원 → 대규모 메모리 풀을 하나의 주소 공간처럼 사용 가능.
» Batch Async Copy API로 다양한 버퍼 이동을 병렬화 → GPU에 선적재되는 데이터 규모가 커짐.
» Checkpoint/Restore 기능으로 긴 LLM 파인튜닝 시 메모리 스냅샷 저장이 증가 → 메모리 사용량 추가 확대.
» LM Studio 등 로컬 inference 앱의 긴 프롬프트 로딩 속도가 개선되며 대형 모델·길어진 입력 처리 트렌드 가속.
‒ CUDA 13.0 주요 변화:
» Host Memory Integration(예: cuMemCreate)으로 CPU DRAM을 GPU 주소 공간에 직접 매핑 → GPU 메모리 초과 할당(Oversubnoscription)이 사실상 기본값이 됨.
» UVM 일관성(coherence) 향상으로 CPU+GPU 메모리를 하나의 공동 풀처럼 인식 → 더 큰 워킹셋을 부담 없이 구성.
» Tile-based programming·CUDA Graph Memory Node는 성능 최적화를 위해 초기부터 거대한 연속 버퍼를 예약하도록 요구 → 대형 모델·대용량 context 채택을 가속.
» 이 조합은 “GPU가 더 많은 데이터를 읽고 쓸 수 있어지고, 더 큰 모델·더 긴 context를 쓸 수 있게 됨” → 결과적으로 메모리/스토리지 총수요가 훨씬 커지는 방향으로 작동함.
✅ LLM 컨텍스트 윈도우 대형화가 메모리·스토리지 병목을 직접적으로 유발
‒ 컨텍스트 윈도우는 모델이 한 번에 처리할 수 있는 입력 길이로, 100K token은 75k 단어(200페이지 분량 책 1권)와 유사한 규모.
‒ Transformer self-attention은 context 길이가 2배 늘면 메모리 사용량이 최대 4배 필요해 VRAM 한계를 매우 빠르게 초과함.
‒ BofA는 예시로 12B 모델 + 128K context inference 시 attention cache만 약 20GB, 모델 weight 14GB, 오버헤드 포함 총 VRAM 37GB가 소모된다고 제시 → 단일 GPU로는 감당 불가.
‒ 이런 구조적 한계 때문에 GPU VRAM 부족 시 데이터는 자동으로 DRAM 또는 NVMe SSD로 spill-over됨.
‒ 최신 엔진(vLLM, ZeRO-Infinity)은 KV-cache, 모델 파라미터, 액티베이션을 NVMe에 저장하고 GPU는 현재 필요한 부분만 가져오도록 설계됨 → 실질적으로 SSD가 ‘확장 메모리’ 역할을 수행.
✅ NAND 플래시 가격 폭등: AI 인프라 구축이 스토리지 계층을 ‘총체적으로’ 바꿔버림
‒ Q4∙2025 NAND 계약가격이 오히려 비수기임에도 15~20% 상승했으며, 하이퍼스케일러의 aggressive한 NVMe 조달이 직접 원인.
‒ GPU oversubnoscription과 paging이 많아지면서 서버당 NVMe SSD 탑재량은 8TB → 16~32TB로 증가하는 추세.
‒ AI inference는 random read가 매우 많아 HDD는 아예 맞지 않고, SSD는 수백 배의 IOPS·마이크로초 단위 지연시간으로 적합 → hyperscaler는 flash pool로 빠르게 전환 중.
‒ DirectStorage·GPUDirect Storage 활용이 늘어나면서 GPU→SSD DMA 경로가 강화됨 → SSD에 더 낮은 레이턴시·더 큰 DRAM cache가 요구되며 NAND BOM 증가가 필수적.
✅ 멀티-GPU 아키텍처(NVLink·NVSwitch·MIG)가 메모리 수요를 기하급수적으로 키우는 방식
‒ NVSwitch 기반 NVL72·GB200 구조는 여러 GPU가 한 몸처럼 동작해 단일 super-GPU 형태로 모델+컨텍스트를 분산 적재함 → 전체 메모리 필요량은 단순 합산보다 더 큼.
‒ MIG(Multi-Instance GPU)는 한 GPU를 7개 VM처럼 쪼개 다수 유저 요청 등을 병렬 처리 → 컨텍스트·KV cache가 GPU당 7배 가까이 적재될 수 있음.
‒ 스케일업·스케일아웃 환경 모두 SSD·DRAM 대역폭 요구가 폭발하며 NAND/DRAM 조달 압력이 커짐.
✅ Flash가 메모리 계층으로 직접 편입되는 기술 혁신: High Bandwidth Flash(HBF)
‒ 2025년 SanDisk의 High Bandwidth Flash(HBF)는 “수 TB의 NAND를 HBM 보조 메모리처럼 쓰는” 새로운 구조를 제안.
‒ HBF 기반 GPU는 ‘unlimited HBF vs unlimited HBM’ 비교에서 읽기 기반 inference 워크로드 기준 성능 차이가 3% 이내라고 발표 → 읽기 위주 AI에는 매우 매력적.
‒ NAND는 HBM 대비 훨씬 저렴하고 훨씬 더 고밀도를 구성할 수 있어, 대규모 AI inference 인프라에서 사실상 ‘확장형 메모리 계층’으로 변모할 가능성이 높음.
‒ 이는 AI 인프라가 DRAM/HBM 중심 구조 → DRAM+NAND+플래시 캐시가 결합된 다층 구조로 전환되는 흐름을 의미.
💡 정리: 이번 메모리 가격 급등은 단순 수요 증가가 아니라 ‘AI 아키텍처 전반의 대전환’이 만든 기술 기반 수요 쇼크
» CUDA 진화로 GPU의 메모리 활용 범위가 확대되며 시스템 전체 메모리 요구치가 레벨업됨.
» LLM 컨텍스트 대형화가 DRAM·HBM·SSD 모두의 사용량을 구조적으로 끌어올리는 핵심 트리거.
» NVMe SSD는 이제 GPU의 사실상 필수 메모리 계층으로 편입되며 NAND 가격 탄력성은 과거 대비 훨씬 커짐.
» PC·폰·DC 일반 수요 회복까지 겹치며 DRAM/NAND 공급 타이트닝이 심각해졌고, 이번 가격 상승은 ‘AI + 전통 IT 회복’의 결합효과로 설명됨.
» 장단기적으로 메모리 수요는 구조적 체력 상승 국면에 진입했으며, 미래 AI 인프라에서는 NAND가 ‘메모리’로 재정의될 가능성이 높음.
‒ 최근 2개월간 DRAM과 NAND 모두 전례 없이 강한 상승세를 보였는데(특히 NAND는 Q4에 15~20% 계약가격 상승), 핵심 요인은 AI 인프라 수요가 기존 인프라 설계를 압도했기 때문’
‒ 단순히 GPU 늘리기 때문이 아니라 CUDA 12.8~13.0으로 GPU가 직접 접근·활용 가능한 메모리 총량이 폭증한 점이 가장 큰 구조적 변화로 지목됨.
‒ Unified Memory(UVM) 확장, Host Memory Integration, GPUDirect·DirectStorage 강화, Tile-based programming 등은 GPU가 VRAM을 넘어 DRAM·NAND까지 사실상 하나의 메모리 풀처럼 활용하게 만드는 기반이 됨.
‒ 여기에 LLM 컨텍스트 윈도우가 2K → 32K → 100K → 400K → 최대 1M tokens까지 확대되며, AI 시스템의 병목이 compute에서 memory·I/O로 이동.
‒ 동시에 PC·폰 수요 회복까지 겹쳐 기존 DDR·NAND 재고가 빠르게 축소되며 “AI + 일반 IT 수요 동시 회복”이라는 드문 조합이 발생함 → 실질적 메모리 공급 타이트닝이 심화됨.
‒ CUDA 12.8 주요 변화:
» UVM 기반 Extended GPU Memory 지원 → 대규모 메모리 풀을 하나의 주소 공간처럼 사용 가능.
» Batch Async Copy API로 다양한 버퍼 이동을 병렬화 → GPU에 선적재되는 데이터 규모가 커짐.
» Checkpoint/Restore 기능으로 긴 LLM 파인튜닝 시 메모리 스냅샷 저장이 증가 → 메모리 사용량 추가 확대.
» LM Studio 등 로컬 inference 앱의 긴 프롬프트 로딩 속도가 개선되며 대형 모델·길어진 입력 처리 트렌드 가속.
‒ CUDA 13.0 주요 변화:
» Host Memory Integration(예: cuMemCreate)으로 CPU DRAM을 GPU 주소 공간에 직접 매핑 → GPU 메모리 초과 할당(Oversubnoscription)이 사실상 기본값이 됨.
» UVM 일관성(coherence) 향상으로 CPU+GPU 메모리를 하나의 공동 풀처럼 인식 → 더 큰 워킹셋을 부담 없이 구성.
» Tile-based programming·CUDA Graph Memory Node는 성능 최적화를 위해 초기부터 거대한 연속 버퍼를 예약하도록 요구 → 대형 모델·대용량 context 채택을 가속.
» 이 조합은 “GPU가 더 많은 데이터를 읽고 쓸 수 있어지고, 더 큰 모델·더 긴 context를 쓸 수 있게 됨” → 결과적으로 메모리/스토리지 총수요가 훨씬 커지는 방향으로 작동함.
‒ 컨텍스트 윈도우는 모델이 한 번에 처리할 수 있는 입력 길이로, 100K token은 75k 단어(200페이지 분량 책 1권)와 유사한 규모.
‒ Transformer self-attention은 context 길이가 2배 늘면 메모리 사용량이 최대 4배 필요해 VRAM 한계를 매우 빠르게 초과함.
‒ BofA는 예시로 12B 모델 + 128K context inference 시 attention cache만 약 20GB, 모델 weight 14GB, 오버헤드 포함 총 VRAM 37GB가 소모된다고 제시 → 단일 GPU로는 감당 불가.
‒ 이런 구조적 한계 때문에 GPU VRAM 부족 시 데이터는 자동으로 DRAM 또는 NVMe SSD로 spill-over됨.
‒ 최신 엔진(vLLM, ZeRO-Infinity)은 KV-cache, 모델 파라미터, 액티베이션을 NVMe에 저장하고 GPU는 현재 필요한 부분만 가져오도록 설계됨 → 실질적으로 SSD가 ‘확장 메모리’ 역할을 수행.
‒ Q4∙2025 NAND 계약가격이 오히려 비수기임에도 15~20% 상승했으며, 하이퍼스케일러의 aggressive한 NVMe 조달이 직접 원인.
‒ GPU oversubnoscription과 paging이 많아지면서 서버당 NVMe SSD 탑재량은 8TB → 16~32TB로 증가하는 추세.
‒ AI inference는 random read가 매우 많아 HDD는 아예 맞지 않고, SSD는 수백 배의 IOPS·마이크로초 단위 지연시간으로 적합 → hyperscaler는 flash pool로 빠르게 전환 중.
‒ DirectStorage·GPUDirect Storage 활용이 늘어나면서 GPU→SSD DMA 경로가 강화됨 → SSD에 더 낮은 레이턴시·더 큰 DRAM cache가 요구되며 NAND BOM 증가가 필수적.
‒ NVSwitch 기반 NVL72·GB200 구조는 여러 GPU가 한 몸처럼 동작해 단일 super-GPU 형태로 모델+컨텍스트를 분산 적재함 → 전체 메모리 필요량은 단순 합산보다 더 큼.
‒ MIG(Multi-Instance GPU)는 한 GPU를 7개 VM처럼 쪼개 다수 유저 요청 등을 병렬 처리 → 컨텍스트·KV cache가 GPU당 7배 가까이 적재될 수 있음.
‒ 스케일업·스케일아웃 환경 모두 SSD·DRAM 대역폭 요구가 폭발하며 NAND/DRAM 조달 압력이 커짐.
‒ 2025년 SanDisk의 High Bandwidth Flash(HBF)는 “수 TB의 NAND를 HBM 보조 메모리처럼 쓰는” 새로운 구조를 제안.
‒ HBF 기반 GPU는 ‘unlimited HBF vs unlimited HBM’ 비교에서 읽기 기반 inference 워크로드 기준 성능 차이가 3% 이내라고 발표 → 읽기 위주 AI에는 매우 매력적.
‒ NAND는 HBM 대비 훨씬 저렴하고 훨씬 더 고밀도를 구성할 수 있어, 대규모 AI inference 인프라에서 사실상 ‘확장형 메모리 계층’으로 변모할 가능성이 높음.
‒ 이는 AI 인프라가 DRAM/HBM 중심 구조 → DRAM+NAND+플래시 캐시가 결합된 다층 구조로 전환되는 흐름을 의미.
» CUDA 진화로 GPU의 메모리 활용 범위가 확대되며 시스템 전체 메모리 요구치가 레벨업됨.
» LLM 컨텍스트 대형화가 DRAM·HBM·SSD 모두의 사용량을 구조적으로 끌어올리는 핵심 트리거.
» NVMe SSD는 이제 GPU의 사실상 필수 메모리 계층으로 편입되며 NAND 가격 탄력성은 과거 대비 훨씬 커짐.
» PC·폰·DC 일반 수요 회복까지 겹치며 DRAM/NAND 공급 타이트닝이 심각해졌고, 이번 가격 상승은 ‘AI + 전통 IT 회복’의 결합효과로 설명됨.
» 장단기적으로 메모리 수요는 구조적 체력 상승 국면에 진입했으며, 미래 AI 인프라에서는 NAND가 ‘메모리’로 재정의될 가능성이 높음.
Please open Telegram to view this post
VIEW IN TELEGRAM