Gromit 공부방 – Telegram
Gromit 공부방
2.47K subscribers
6.08K photos
57 videos
197 files
1.63K links
그때는 맞고 지금은 틀리다. 그때그때 되는 것에 투기

시장은 항상 옳다. 시장을 평가하지 말고 비난하지 마라. 시장을 추종하라.

* 면책 조항
- 본 채널은 개인적인 스터디와 매매 복기, 자료 수집 등으로 사용되며 매수나 매도에 대한 추천을 하는 것이 아님.
- 본 채널에서 언급되는 모든 내용은 개인적인 견해일 뿐, 그 정확성이나 완전성을 보장할 수 없음.
Download Telegram
10년물 4 언더했었구나
Gromit 공부방
10년물 4 언더했었구나
XBI도 아니고 10년물이랑 뭔 상관인지는 모르겠지만 암튼 뜨거운
Gromit 공부방
구글 TPU 수혜주 이걸 놓쳤네 #오름테라퓨틱 #로킷헬스케어
온세상이 구글 제미나이 TPU를 외칠 때 고고히 오르던 #로켓랩헬스케어

눈치를 챘어야 했는데
BofA, TPU intensifies competitive race, but in a rising tide, Buy NVDA, AVGO, AMD (25.11.25)

‒ 최근 LLM 경쟁은 Gemini 3 출시 이후 Claude Opus 4.5가 여러 지표에서 이를 앞서며 판도가 흔들리고 있고, OpenAI도 조만간 자체 모델 업데이트를 공개할 가능성이 높으며 전반적으로 톱티어 모델들의 경쟁 속도가 더 빨라지는 초기 과열 국면에 진입.

‒ DeepSeek처럼 일시적으로 상위권에 올랐다가 현재 17위까지 밀린 사례에서 보듯 LLM 리더보드 변동성은 매우 크며, 단기 순위가 장기 시장 지형을 의미하진 않는 장기 레이스 구조임.

‒ 구글은 Gemini 3 학습용 10세대 TPU 등 커스텀 TPU 개발을 지속해왔고, 최근 메타에 TPU 임대 가능성이 제기되면서 내부 전용 칩에서 외부 고객용 플랫폼으로 확장되는 흐름이 본격화되고 있음.

‒ 특히 2027년부터 온프레미스 TPU 제공 시나리오까지 언급되며, 사실일 경우 메타가 기존 엔비디아·AMD GPU 구조에서 TPU로 워크로드 일부를 이전할 수 있어 가속기 경쟁 구도에 실질적 변곡점이 될 가능성 존재.

‒ 데이터센터 AI 가속기 TAM은 2025년 2,420억달러에서 2030년 1조 2천억달러 이상으로 5배 확대될 전망으로, 시장의 폭발적 팽창이 모든 벤더의 기회 요인으로 작용하는 환경임.

NVDA 점유율이 85%→75%로 완만히 조정될 전망이나, CUDA 생태계·개발자 락인·풀스택 아키텍처·범용성 등 GPU 고유의 해자는 단기간에 대체가 어려운 구조.

‒ AWS Trainium, MSFT Maia·MTIA 등 커스텀 칩은 내부 워크로드에는 최적화되어 있지만, 외부 클라우드 고객이 요구하는 범용성·신뢰성·툴체인 측면에서 한계가 분명해 GPU 중심 구조가 유지될 것으로 보임.

‒ AVGO는 AI 네트워킹 분야 우위를 기반으로 Anthropic·TPU 프로젝트까지 레버리지되며 CY26까지 AI 매출 +100% YoY 성장 가능성이 열려 있고, CY26 PER 33배는 구조적 성장성을 반영한 수준.

‒ AMD는 CPU·GPU·임베디드 등 다각화된 제품 포트폴리오 전반에서 균형 성장을 기대할 수 있어 CY26 PER 33배 밸류가 가능하며, 시장 팽창의 수혜를 점진적으로 흡수할 전망.

‒ 엔비디아는 +40%대 매출·이익 성장, 소프트웨어·생태계 우위, 개발자 기반 락인을 통해 리더십이 견고하며, 경쟁이 심화돼도 시장 자체가 기하급수적으로 확대되기 때문에 절대 성장세를 유지할 가능성이 높음.
‒ 지난주 헤지펀드들의 디그로싱은 주로 숏 레버리지 축소 중심이었고, 이번 주 들어서는 금리 인하 기대(12월 25bp 인하 확률 30% → 85% 급등)까지 더해지며 숏 커버 + 현물 순매수 흐름이 동시에 폭발적으로 증가한 것이 핵심.

‒ 골드만 PBS에 따르면 헤지펀드는 3주 연속 미국 주식 순매수를 이어갔고, 특히 지난 금요일과 월요일 2거래일 연속 순매수 강도는 지난 2년 중 손꼽힐 정도로 큰 규모를 기록해 사실상 “매수 러시”가 전개됨.

‒ ETF 숏 포지션도 금요일 ‒2.5%, 월요일 ‒2.4%로 연속적으로 축소되며 목요일 급락 당시 늘렸던 ETF 숏을 거의 되돌린 수준으로, 시스템·인덱스 레벨의 베어 포지션이 빠르게 축소.

‒ 섹터별로는 목요일에 대거 매도됐던 미국 테크 비중을 다시 강하게 사들이며 지난 2거래일 기준 가장 많은 달러 순매수를 기록했고, 특히 반도체·장비, 테크 하드웨어, 통신장비에서 집중적인 롱 매수와 숏 커버가 동시에 나타남.

‒ 테마 측면에서는 AI 수혜주(메가캡 중심)가 강하게 순매수됐으나, Non-Profitable Tech는 순매수 없이 오히려 숏이 5거래일 연속 증가하는 등 질적 선호에서 ‘퀄리티·수익성 중심 로테이션’이 유지된 흐름임.

‒ 동시에 헬스케어 섹터는 헤지펀드가 5일 연속 순매수, 최근 17일 중 15일 순매수를 기록할 정도로 지속적 자금 유입이 이어지며, 총액 기준 Gross·Net 모두 지난 5년 중 98%ile 고점 수준까지 올라온 상태.

‒ 종합하면, 시장 하락 국면에서도 숏 커버 → 순매수 전환으로 이어진 헤지펀드의 강한 리스크온 재진입 흐름이 지난 2~3거래일 동안 급격히 강화되었고, 그 중심에는 금리 인하 기대와 테크·AI·헬스케어로의 구조적 선호가 뚜렷하게 나타난 것이 특징.
테크 아웃플로우 추이를 보면 평균회귀적 사고가 마렵지 아니할 수 없음
MS, What Could GOOGL Selling TPUs Externally Mean for GOOGL and Semis? (25.11.26)

‒ Google이 Meta 등 외부 고객에게 TPU를 직접 판매·임대하는 방안을 논의 중이며, Meta는 2027년 수십억 달러 규모 도입과 2026년 GCP 기반 TPU 임대까지 고려하는 등 TPU를 inference가 아닌 training용으로 활용하려는 움직임이 나타남.

‒ Google은 PyTorch 기반으로 TPU 클러스터를 제어할 수 있는 TPU Command Center를 개발해 기존 약점이던 개발자 친화도를 개선했고, Anthropic은 이미 약 100만 개 TPU 접근 계약을 맺어 외부 생태계 확산이 진행 중.

‒ Broadcom은 Google에 공급하는 TPU가 2025년 180만 개에서 2027년 300만 개로 늘어날 것으로 추정되며, 이는 Google이 외부 판매 여력을 확보하기 시작했다는 신호로 해석.

‒ Google이 외부 고객에게 TPU 50만 개를 판매할 경우 2027년 Cloud 매출은 약 +130억 달러(+11%), EPS는 +0.37달러(+3%) 개선되며 gross margin 30~60% 시나리오에서 TPU 매출의 상당 부분이 직접 이익으로 이어지는 구조.

‒ TPU 판매 모델은 직접 판매, 렌탈, 라이선스, GCP 연동 등 다양한 방식이 있을 수 있어 매출 인식·마진·CAPEX 영향이 아직 명확하지 않으며, 단품이 아닌 랙 스케일 판매 시 가격 구조는 더욱 달라질 수 있음.

‒ Meta가 TPU를 Llama 같은 LLM training 전체에 적용할지 일부 스테이지만 사용할지는 아직 불확실하지만, TPU의 비용 대비 성능 효율이 높아 CAPEX 부담을 완화할 수 있는 옵션으로 고려되고 있음.

‒ Meta는 NVDA GPU 100만 개 이상 구매가 예상되는 상황에서도 TPU·내부 ASIC(MTIA)·외부 ASIC·AMD GPU까지 compute 스택을 다변화하는 전략을 유지하며, TPU는 비용 효율 영역을 담당하는 보완축 역할을 할 가능성이 큼.

‒ Broadcom은 Google·Meta·ByteDance·Anthropic·OpenAI 등 XPU 고객군 확대의 직접 수혜를 보지만, ASIC 전략의 고객 의존도 변화는 리스크이기도 하며 TPU 외부 확산은 AVGO 공급망 가속을 의미.

‒ NVIDIA는 TPU 확산이 단기적으로 내러티브 노이즈는 되겠지만 실제로는 AI 수요·공급망 모두 강화되고 있으며 rack-scale·NVLink·InfiniBand 등에서 가장 성숙한 생태계를 유지해 구조적 영향은 제한적이라는 분석.

‒ AMD는 TPU·ASIC 확산으로 MI450 경쟁력이 상대적으로 약화될 수 있고, “어디서나 쓸 수 있는 중립 옵션”이라는 기존 장점이 희석되며, ROI를 입증하지 못하면 대규모 점유율 확보가 어려운 국면에 직면해 있음.
Looming US Power Crunch to Impair AI Abilities, Schneider Says

‒ 슈나이더 일렉트릭은 미국 전력망이 노후 인프라와 데이터센터·공장·EV 확산으로 이미 한계에 근접했으며, 2028년부터는 피크 수요를 기존 설비로 감당하지 못해 비상예비력(Reserve Margin)을 일상적으로 소진하기 시작할 것이라 경고.

‒ NERC 데이터를 기반으로 한 자체 분석에서 2033년에는 최대 175GW의 전력 부족이 발생해 광범위한 정전·블랙아웃 위험이 현실화될 수 있다고 보며, 이는 미국의 AI 산업 경쟁력에도 직접적 타격이 될 것으로 전망.

‒ 데이터센터 전력 수요는 2035년까지 두 배로 증가해 미국 전체 수요의 약 9%를 차지하게 되고, 이미 일부 지역에서는 겨울철 피크 수요가 전년 대비 약 20GW 증가하며 전력망 취약성을 높이고 있음.

‒ 이러한 피크 수요 증가는 예비력 고갈로 이어져 극한 기상·사이버공격 등 비상 상황 대응 여력을 크게 떨어뜨리며, 예비력을 매일 사용하는 구조는 전력 시스템 신뢰도를 급격히 악화시키는 요인이 된다고 강조.

‒ 미국 그리드는 배터리 보급이 증가하고 있지만 전체 저장용량은 여전히 제한적이며, 실시간 수요·공급 균형을 맞추기 위해서는 기존 예비력 의존도가 구조적으로 더욱 높아지는 상황.

‒ 슈나이더는 NERC 전망과 자사 고객(Nvidia, Vantage, Compass, Microsoft, Google, Meta 등)의 실제 전력 수요 데이터를 비교해 동일한 증가 추세가 확인된다고 밝혀, AI·빅테크 전력 수요가 모델링보다 훨씬 과소평가되어 있다고 지적.

‒ 해결책으로 단기간 내 공급 확장이 어려운 만큼, 대규모 발전·송전 신설보다 그리드 용량을 즉시 늘릴 수 있는 Grid-Enhancing Technologies 우선 도입이 가장 현실적 대응이라고 결론지음.

source: Bloomberg
BofA, Why did memory prices spike late in the year? A technical deep dive (25.11.25)

AI 수요 폭발 + CUDA 진화 + 컨텍스트 대형화가 복합적으로 만든 ‘비정상적 메모리 슈퍼사이클’
‒ 최근 2개월간 DRAM과 NAND 모두 전례 없이 강한 상승세를 보였는데(특히 NAND는 Q4에 15~20% 계약가격 상승), 핵심 요인은 AI 인프라 수요가 기존 인프라 설계를 압도했기 때문’
‒ 단순히 GPU 늘리기 때문이 아니라 CUDA 12.8~13.0으로 GPU가 직접 접근·활용 가능한 메모리 총량이 폭증한 점이 가장 큰 구조적 변화로 지목됨.
‒ Unified Memory(UVM) 확장, Host Memory Integration, GPUDirect·DirectStorage 강화, Tile-based programming 등은 GPU가 VRAM을 넘어 DRAM·NAND까지 사실상 하나의 메모리 풀처럼 활용하게 만드는 기반이 됨.
‒ 여기에 LLM 컨텍스트 윈도우가 2K → 32K → 100K → 400K → 최대 1M tokens까지 확대되며, AI 시스템의 병목이 compute에서 memory·I/O로 이동.
‒ 동시에 PC·폰 수요 회복까지 겹쳐 기존 DDR·NAND 재고가 빠르게 축소되며 “AI + 일반 IT 수요 동시 회복”이라는 드문 조합이 발생함 → 실질적 메모리 공급 타이트닝이 심화됨.

CUDA 12.8~13.0: GPU의 메모리 사용량을 구조적으로 키워버린 핵심 트리거
‒ CUDA 12.8 주요 변화:
» UVM 기반 Extended GPU Memory 지원 → 대규모 메모리 풀을 하나의 주소 공간처럼 사용 가능.
» Batch Async Copy API로 다양한 버퍼 이동을 병렬화 → GPU에 선적재되는 데이터 규모가 커짐.
» Checkpoint/Restore 기능으로 긴 LLM 파인튜닝 시 메모리 스냅샷 저장이 증가 → 메모리 사용량 추가 확대.
» LM Studio 등 로컬 inference 앱의 긴 프롬프트 로딩 속도가 개선되며 대형 모델·길어진 입력 처리 트렌드 가속.
‒ CUDA 13.0 주요 변화:
» Host Memory Integration(예: cuMemCreate)으로 CPU DRAM을 GPU 주소 공간에 직접 매핑 → GPU 메모리 초과 할당(Oversubnoscription)이 사실상 기본값이 됨.
» UVM 일관성(coherence) 향상으로 CPU+GPU 메모리를 하나의 공동 풀처럼 인식 → 더 큰 워킹셋을 부담 없이 구성.
» Tile-based programming·CUDA Graph Memory Node는 성능 최적화를 위해 초기부터 거대한 연속 버퍼를 예약하도록 요구 → 대형 모델·대용량 context 채택을 가속.
» 이 조합은 “GPU가 더 많은 데이터를 읽고 쓸 수 있어지고, 더 큰 모델·더 긴 context를 쓸 수 있게 됨” → 결과적으로 메모리/스토리지 총수요가 훨씬 커지는 방향으로 작동함.

LLM 컨텍스트 윈도우 대형화가 메모리·스토리지 병목을 직접적으로 유발
‒ 컨텍스트 윈도우는 모델이 한 번에 처리할 수 있는 입력 길이로, 100K token은 75k 단어(200페이지 분량 책 1권)와 유사한 규모.
‒ Transformer self-attention은 context 길이가 2배 늘면 메모리 사용량이 최대 4배 필요해 VRAM 한계를 매우 빠르게 초과함.
‒ BofA는 예시로 12B 모델 + 128K context inference 시 attention cache만 약 20GB, 모델 weight 14GB, 오버헤드 포함 총 VRAM 37GB가 소모된다고 제시 → 단일 GPU로는 감당 불가.
‒ 이런 구조적 한계 때문에 GPU VRAM 부족 시 데이터는 자동으로 DRAM 또는 NVMe SSD로 spill-over됨.
‒ 최신 엔진(vLLM, ZeRO-Infinity)은 KV-cache, 모델 파라미터, 액티베이션을 NVMe에 저장하고 GPU는 현재 필요한 부분만 가져오도록 설계됨 → 실질적으로 SSD가 ‘확장 메모리’ 역할을 수행.

NAND 플래시 가격 폭등: AI 인프라 구축이 스토리지 계층을 ‘총체적으로’ 바꿔버림
‒ Q4∙2025 NAND 계약가격이 오히려 비수기임에도 15~20% 상승했으며, 하이퍼스케일러의 aggressive한 NVMe 조달이 직접 원인.
‒ GPU oversubnoscription과 paging이 많아지면서 서버당 NVMe SSD 탑재량은 8TB → 16~32TB로 증가하는 추세.
‒ AI inference는 random read가 매우 많아 HDD는 아예 맞지 않고, SSD는 수백 배의 IOPS·마이크로초 단위 지연시간으로 적합 → hyperscaler는 flash pool로 빠르게 전환 중.
‒ DirectStorage·GPUDirect Storage 활용이 늘어나면서 GPU→SSD DMA 경로가 강화됨 → SSD에 더 낮은 레이턴시·더 큰 DRAM cache가 요구되며 NAND BOM 증가가 필수적.

멀티-GPU 아키텍처(NVLink·NVSwitch·MIG)가 메모리 수요를 기하급수적으로 키우는 방식
‒ NVSwitch 기반 NVL72·GB200 구조는 여러 GPU가 한 몸처럼 동작해 단일 super-GPU 형태로 모델+컨텍스트를 분산 적재함 → 전체 메모리 필요량은 단순 합산보다 더 큼.
‒ MIG(Multi-Instance GPU)는 한 GPU를 7개 VM처럼 쪼개 다수 유저 요청 등을 병렬 처리 → 컨텍스트·KV cache가 GPU당 7배 가까이 적재될 수 있음.
‒ 스케일업·스케일아웃 환경 모두 SSD·DRAM 대역폭 요구가 폭발하며 NAND/DRAM 조달 압력이 커짐.

Flash가 메모리 계층으로 직접 편입되는 기술 혁신: High Bandwidth Flash(HBF)
‒ 2025년 SanDisk의 High Bandwidth Flash(HBF)는 “수 TB의 NAND를 HBM 보조 메모리처럼 쓰는” 새로운 구조를 제안.
‒ HBF 기반 GPU는 ‘unlimited HBF vs unlimited HBM’ 비교에서 읽기 기반 inference 워크로드 기준 성능 차이가 3% 이내라고 발표 → 읽기 위주 AI에는 매우 매력적.
‒ NAND는 HBM 대비 훨씬 저렴하고 훨씬 더 고밀도를 구성할 수 있어, 대규모 AI inference 인프라에서 사실상 ‘확장형 메모리 계층’으로 변모할 가능성이 높음.
‒ 이는 AI 인프라가 DRAM/HBM 중심 구조 → DRAM+NAND+플래시 캐시가 결합된 다층 구조로 전환되는 흐름을 의미.

💡 정리: 이번 메모리 가격 급등은 단순 수요 증가가 아니라 ‘AI 아키텍처 전반의 대전환’이 만든 기술 기반 수요 쇼크
» CUDA 진화로 GPU의 메모리 활용 범위가 확대되며 시스템 전체 메모리 요구치가 레벨업됨.
» LLM 컨텍스트 대형화가 DRAM·HBM·SSD 모두의 사용량을 구조적으로 끌어올리는 핵심 트리거.
» NVMe SSD는 이제 GPU의 사실상 필수 메모리 계층으로 편입되며 NAND 가격 탄력성은 과거 대비 훨씬 커짐.
» PC·폰·DC 일반 수요 회복까지 겹치며 DRAM/NAND 공급 타이트닝이 심각해졌고, 이번 가격 상승은 ‘AI + 전통 IT 회복’의 결합효과로 설명됨.
» 장단기적으로 메모리 수요는 구조적 체력 상승 국면에 진입했으며, 미래 AI 인프라에서는 NAND가 ‘메모리’로 재정의될 가능성이 높음.
Please open Telegram to view this post
VIEW IN TELEGRAM
Gromit 공부방
BofA, Why did memory prices spike late in the year? A technical deep dive (25.11.25) AI 수요 폭발 + CUDA 진화 + 컨텍스트 대형화가 복합적으로 만든 ‘비정상적 메모리 슈퍼사이클’ ‒ 최근 2개월간 DRAM과 NAND 모두 전례 없이 강한 상승세를 보였는데(특히 NAND는 Q4에 15~20% 계약가격 상승), 핵심 요인은 AI 인프라 수요가 기존 인프라 설계를 압도했기 때문’…
세 줄 요약

1. AI 모델 대형화·컨텍스트 확장·CUDA 업그레이드로 GPU가 DRAM·NAND까지 통합 메모리처럼 쓰기 시작하면서 시스템 전체 메모리 요구량이 구조적으로 폭증.

2. 이로 인해 서버당 NVMe 탑재량이 급격히 늘고 하이퍼스케일러의 SSD 조달이 과열되며 Q4 NAND 계약가격이 비수기에도 15~20% 급등하는 이례적 수급 쇼크 발생.

3. 결국 이번 메모리 급등은 단순한 단기 수요 회복이나 사이클 요인 때문이 아니라, AI 아키텍처가 DRAM+NAND 중심의 다층 메모리 구조로 재편되면서 발생한 기술적 전환 기반의 실질 수요 폭증이 핵심.