중요한 부분은 스타게이트 프로젝트가 거대한 자본력을 앞세워 성립한다고 하더라도, 결국 병목지점에 해당하는 거대한 규모의 AI 가속기 서버 구축을 위한 서버랙과 GPU 생산, 패키징, 메모리 등의 하드웨어를 누가 담당할 것이냐다. 인텔이 상황이 좋았다면 트럼프의 구상에서 당당히 한 축을 차지했겠지만 지금으로서는 상황이 여의치 않고, 트럼프 특성 상, 이 한 축을 동맹국도 아닌 대만의 TSMC를 콕 짚어 맡기고 싶어하지도 않았을 것이다. TSMC까지 가기 전에, 가장 중요한 기업인 엔비디아가 트럼프의 구상에서 어떤 역할을 하게 될지가 관건인데, 공교롭게도 이 중요한 시점에 엔비디아의 CEO 젠슨 황은 트럼프의 취임식 초청을 거절하고 대만도 아닌 중국에 방문하여 중국 시장이 매우 중요함을 강조하는 발언을 했다. 이것이 다분히 의도적인 것인지, 오비이락인지는 현재로서는 불분명하지만, 엔비디아 없이 스타게이트가 홀로 성립하기는 현재로서는 불가능해보이므로, 트럼프 정부가 과연 어떻게 엔비디아를 다루게 될지가 스타게이트, 그리고 그것이 꿈꾸는 AGI의 성립 여부를 결정하는 중요한 변수가 될 것이다. 가장 나쁜 시나리오라면, 트럼프 정부에서 엔비디아의 중국 시장으로의 무게중심 이동을 안보적 이유를 근거로 제재하거나, 심지어 엔비디아를 독과점 기업으로 규정하여 해체-분리하는 정책을 추진할 수도 있다는 것. 이는 엔비디아 뿐만 아니라, 전세계 AI 산업 자체를 위축시키는 결과를 가져올 것인데, 중국 입장에서는 오히려 중국 주도의 AI 생태계에 힘이 실리는 후과를 가져올 가능성이 높다.
스타게이트 프로젝트에서 블랙홀처럼 기존의 IT, AI 분야 민간 투자금을 빨아들이기 시작하면, 기존의 AI 관련 기업들은 원하든 원치않든, 직간접적으로 스타게이트 프로젝트에 참여할 수 밖에 없을 것이다. 이 과정에서 인텔을 인수하는 컨소시엄 이야기가 구체화될 것이고, 인수될 경우, 인텔은 파운드리 (IFS)를 분리하는 결정을 받아들여야 할 것이다. IFS를 인수한 스타게이트 컨소시엄은 안보적 이슈를 근거로, 미국의 AI 반도체는 TSMC 같은 외국 기업이 아닌, 미국 기업에서, 혹은 적어도 미국내 팹에서만 만들어야 한다는 규칙을 강요할 가능성이 높고, 이를 헷징하기 위해 TSMC는 아마도 피닉스 팹과 비슷한 규모의 팹을 레드 스테이트 어딘가에 추가로 증설해야 할 수도, 심지어는 신주 단지에 있는 공급망 생태계 전체를 미국으로 이전한다는 과감한 결정을 내려야 할 수도 있다. 물론 대만 정부 입장에서는 매우 생각하기 싫은 시나리오일 것이다.
문제는 한국이다.
그렇지 않아도 작년 말부터 이어지는 혼란스러운 국내 정치 상황 속에서, 하필 그 기간과 정확히 겹친 미국의 정권 교체 과정에 대해 대행의 대행이 이끌어가는 정부 차원에서는 아무래도 전략적 정책 수정이 제대로 이루어지지 못하고 있는 상황. 더구나 국내 IT, AI, 반도체 기업 등도 정부의 지원을 기대하기 어려우니, 그냥 각 회사 차원에서 겨우겨우 여기저기 선을 대어 기민하게 바뀌는 미국의 대외정책 환경 변화를 아슬아슬하게 팔로업하고 있으나, 일본 만큼의 민-관 협동의 기민한 대응은 전혀 보이지 않는다. 스타게이트 프로젝트가 성립되면, 앞서 언급한 프로젝트 전용의 AI 하드웨어 시스템이 병목이 될 수 밖에 없고, 그 한 축이 되는 HBM 같은 메모리 공급자로서 한국의 메모리 업체들이 취해야 할 전략이 바뀌어야 함은 자명하다. 하이닉스는 지금까지 몇 년 간 엔비디아와의 협업으로 HBM에서 막대한 이익을 쌓아 왔지만, 하이닉스의 HBM은 사실상 전략 엔비디아향이라는 상황에서 포트폴리오 다변화가 보이지 않는 상황, 그리고 엔비디아 독점 구조에 대한 트럼프 정부의 견제가 있을 경우, 콜래터럴 데미지가 생길 수 밖에 없는 상황에서 헷징 전략이 안 보이는 상황은 점점 우려스러워진다. 삼성전자는 몇 년 간 지속적으로 엔비디아 세컨 벤더를 뚫으려 했지만 제대로 양산으로 이어지지 못 하고 있는 상황 속에, 그나마 UA LINK나 스타게이트 프로젝트 등의 파트너 자격을 획득하기 위한 투자 계획, 혹은 표준 공유 계획을 수립하고 대응해야 하나, 여전히 엔비디아 안개 속에 오리무중이 바뀌지 않는다. CES 에서 AI 기업으로 포장하려 했으나, 시장의 반응은 여전히 냉담하고 삼성 내부에서도 AI에서 도대체 무엇을 할 수 있는지에 대해 전략적 판단은 뚜렷해 보이지 않는다. 국내 AI 하드웨어 스타트업들 상황도 곤혹스럽기는 마찬가지일 것이다. 원래도 엔비디아 상대로 GPU로는 승부가 안 되었고, 그래서 결국 NPU나 TPU로 방향을 바꿔 아직 엔비디아가 손을 뻗치지 않은 영역에서 승부하려는 한국의 토종 AI 업체들은 소버린 AI 등으로 방향을 정하거나, 아주 특수한 목적의 AI 가속 성능을 기반으로 한 데이터 처리 분야를 시장으로 삼으려 하나, 스타게이트가 보여주는 판이 바뀌는 모멘텀, 예를 들어 첨단 바이오와 로봇을 결합한 전혀 새로운 개념 등을 따라가기는 매우 버거워 보인다.
그나마 한국이 지금이라도 기존의 역량을 기반으로 너무나 빨리 바뀌는 지금의 상황에 대응하기 위해서라면 여전히 미국 자체적인 역량으로는 감당이 안 되는 전통적인 제조업 분야의 혁신이 될 것이다. 이 영역은 기존의 산업 기반이 보존되어 있어야 할 뿐더러, 안보적 관점에서도 중요성이 부각되는 영역이 되어야 한다. 예를 들어 기계, 조선, 방산, 에너지, 석유화학, 발전, 송배전 등이 될 것이다. 이 영역은 대부분 한국이 잘 해 왔던 분야이지만, 규모의 경제와 막대한 내수시장을 앞세운 중국이 세계적 지배력을 대부분 석권하고 있는 분야기도 하다. 다만 이러한 기존 거대 제조업 혹은 사회인프라 구축, 유지 관련 산업들은 경제적 논리로만 끌고가기 어려운 산업이고, 안보적 맥락에서는 더더욱 중요해질 산업이기 때문에, 미국 입장에서도 파트너 국가가 다수 존재해야 한다. 과거에는 그것이 나토에 속한 프랑스, 독일, 영국, 그리고 동아시아의 일본 등이었고, 21세기에는 한국과 대만, 일본, 일부 아세안 국가 등으로 바뀌는 중이다. 이 영역은 중국과도 경쟁해야 하지만, 기술과 산업의 일대 혁신이 필요한데, 그 모멘텀은 어쨌든 AI가 될 수 밖에 없고, 각 도메인에 맞는 AI 기반 변화의 선점이 중요하다. 한국에게 아직 남은 기회가 있다면 이 부분이 될 것이다. 원래는 일본이 민-관 합동으로 이 영역까지 다 가져가고 싶어했을 것이지만, 일본은 이러한 모멘텀을 투입하기에는 이미 관련 산업이 많이 쇠퇴한 상황이라 모든 산업을 다 미국에 대해 소구하기는 어려울 것이다.
스타게이트 프로젝트에서 블랙홀처럼 기존의 IT, AI 분야 민간 투자금을 빨아들이기 시작하면, 기존의 AI 관련 기업들은 원하든 원치않든, 직간접적으로 스타게이트 프로젝트에 참여할 수 밖에 없을 것이다. 이 과정에서 인텔을 인수하는 컨소시엄 이야기가 구체화될 것이고, 인수될 경우, 인텔은 파운드리 (IFS)를 분리하는 결정을 받아들여야 할 것이다. IFS를 인수한 스타게이트 컨소시엄은 안보적 이슈를 근거로, 미국의 AI 반도체는 TSMC 같은 외국 기업이 아닌, 미국 기업에서, 혹은 적어도 미국내 팹에서만 만들어야 한다는 규칙을 강요할 가능성이 높고, 이를 헷징하기 위해 TSMC는 아마도 피닉스 팹과 비슷한 규모의 팹을 레드 스테이트 어딘가에 추가로 증설해야 할 수도, 심지어는 신주 단지에 있는 공급망 생태계 전체를 미국으로 이전한다는 과감한 결정을 내려야 할 수도 있다. 물론 대만 정부 입장에서는 매우 생각하기 싫은 시나리오일 것이다.
문제는 한국이다.
그렇지 않아도 작년 말부터 이어지는 혼란스러운 국내 정치 상황 속에서, 하필 그 기간과 정확히 겹친 미국의 정권 교체 과정에 대해 대행의 대행이 이끌어가는 정부 차원에서는 아무래도 전략적 정책 수정이 제대로 이루어지지 못하고 있는 상황. 더구나 국내 IT, AI, 반도체 기업 등도 정부의 지원을 기대하기 어려우니, 그냥 각 회사 차원에서 겨우겨우 여기저기 선을 대어 기민하게 바뀌는 미국의 대외정책 환경 변화를 아슬아슬하게 팔로업하고 있으나, 일본 만큼의 민-관 협동의 기민한 대응은 전혀 보이지 않는다. 스타게이트 프로젝트가 성립되면, 앞서 언급한 프로젝트 전용의 AI 하드웨어 시스템이 병목이 될 수 밖에 없고, 그 한 축이 되는 HBM 같은 메모리 공급자로서 한국의 메모리 업체들이 취해야 할 전략이 바뀌어야 함은 자명하다. 하이닉스는 지금까지 몇 년 간 엔비디아와의 협업으로 HBM에서 막대한 이익을 쌓아 왔지만, 하이닉스의 HBM은 사실상 전략 엔비디아향이라는 상황에서 포트폴리오 다변화가 보이지 않는 상황, 그리고 엔비디아 독점 구조에 대한 트럼프 정부의 견제가 있을 경우, 콜래터럴 데미지가 생길 수 밖에 없는 상황에서 헷징 전략이 안 보이는 상황은 점점 우려스러워진다. 삼성전자는 몇 년 간 지속적으로 엔비디아 세컨 벤더를 뚫으려 했지만 제대로 양산으로 이어지지 못 하고 있는 상황 속에, 그나마 UA LINK나 스타게이트 프로젝트 등의 파트너 자격을 획득하기 위한 투자 계획, 혹은 표준 공유 계획을 수립하고 대응해야 하나, 여전히 엔비디아 안개 속에 오리무중이 바뀌지 않는다. CES 에서 AI 기업으로 포장하려 했으나, 시장의 반응은 여전히 냉담하고 삼성 내부에서도 AI에서 도대체 무엇을 할 수 있는지에 대해 전략적 판단은 뚜렷해 보이지 않는다. 국내 AI 하드웨어 스타트업들 상황도 곤혹스럽기는 마찬가지일 것이다. 원래도 엔비디아 상대로 GPU로는 승부가 안 되었고, 그래서 결국 NPU나 TPU로 방향을 바꿔 아직 엔비디아가 손을 뻗치지 않은 영역에서 승부하려는 한국의 토종 AI 업체들은 소버린 AI 등으로 방향을 정하거나, 아주 특수한 목적의 AI 가속 성능을 기반으로 한 데이터 처리 분야를 시장으로 삼으려 하나, 스타게이트가 보여주는 판이 바뀌는 모멘텀, 예를 들어 첨단 바이오와 로봇을 결합한 전혀 새로운 개념 등을 따라가기는 매우 버거워 보인다.
그나마 한국이 지금이라도 기존의 역량을 기반으로 너무나 빨리 바뀌는 지금의 상황에 대응하기 위해서라면 여전히 미국 자체적인 역량으로는 감당이 안 되는 전통적인 제조업 분야의 혁신이 될 것이다. 이 영역은 기존의 산업 기반이 보존되어 있어야 할 뿐더러, 안보적 관점에서도 중요성이 부각되는 영역이 되어야 한다. 예를 들어 기계, 조선, 방산, 에너지, 석유화학, 발전, 송배전 등이 될 것이다. 이 영역은 대부분 한국이 잘 해 왔던 분야이지만, 규모의 경제와 막대한 내수시장을 앞세운 중국이 세계적 지배력을 대부분 석권하고 있는 분야기도 하다. 다만 이러한 기존 거대 제조업 혹은 사회인프라 구축, 유지 관련 산업들은 경제적 논리로만 끌고가기 어려운 산업이고, 안보적 맥락에서는 더더욱 중요해질 산업이기 때문에, 미국 입장에서도 파트너 국가가 다수 존재해야 한다. 과거에는 그것이 나토에 속한 프랑스, 독일, 영국, 그리고 동아시아의 일본 등이었고, 21세기에는 한국과 대만, 일본, 일부 아세안 국가 등으로 바뀌는 중이다. 이 영역은 중국과도 경쟁해야 하지만, 기술과 산업의 일대 혁신이 필요한데, 그 모멘텀은 어쨌든 AI가 될 수 밖에 없고, 각 도메인에 맞는 AI 기반 변화의 선점이 중요하다. 한국에게 아직 남은 기회가 있다면 이 부분이 될 것이다. 원래는 일본이 민-관 합동으로 이 영역까지 다 가져가고 싶어했을 것이지만, 일본은 이러한 모멘텀을 투입하기에는 이미 관련 산업이 많이 쇠퇴한 상황이라 모든 산업을 다 미국에 대해 소구하기는 어려울 것이다.
어쨌든 트럼프 2기는 불과 4년 밖에 안 되지만, 지금까지 목도했던 AI의 발전 속도, 그리고 심지어는 이제 AGI로 확장되어 분명하게 모멘텀이 생겨버린 급속도의 변혁 상황에서는, 그 4년은 과거 트럼프 1기의 4년과는 전혀 다른 고밀도의 시간이 될 것이다. 하루하루가 정말 다이내믹할 것이고, 트럼프의 말 한 마디, 스타게이트의 다음 투자 방향 발표 장표 하나, 관련 기업들의 기술 개발 방향 언급 몇 마디 등에 의해 세계의 AI+IT+반도체 시장은 쓰나미를 지속적으로 겪게 될 것이다. 정신 차리고 이 변화를 따라잡아야 하는 것은 물론, 가능하다면 변화의 앞 부분에서 그 방향을 미리 캐치할 수 있어야 한다. 한국 기업들은 지금이라도 이 프로젝트의 진의를 파악하고 투자 참여 규모를 고려해야 할 것이고, 그 서비스의 공급 대상이 어디까지인지도 파악하여 기술경제안보적 맥락을 제대로 파악해야 할 것이다. 중국이 주도하는 AI, AGI 생태계가 대항마로 성립하는 것을 막을 수 없을 것이고, TSMC는 전략적으로 해외 팹 계획을 수정하게 되겠지만, 그 과정에서 글로벌 파운드리 공급망에 공백이 생기는 지점이 반드시 발생할 것이며, AGI 하드웨어 밸류체인의 연속성을 위하여 한국 기업들에게 어떤 기회가 생기는지 더 깊숙하게 들여다보고 챙겨야 할 것이다. 한국에 보존된 기존 중요 제조업 각 도메인의 데이터를 더욱 기민하고 전략적으로 관리하며, 관련한 프로젝트를 정부가 지금이라도 발빠르게 구성하고 미국에 제안할 수 있어야 할 것이다. 아마도 한국은 올해 상반기에 대선을 급하게 치르게 될 것이지만, 누가 다음 대통령이 되든, 가장 최우선 대외 정책으로서 트럼프 미국 정부가 주도하는 AI, AGI 산업의 급격한 변동 방향이 갖는 의미를 제대로 파악하고, 한국이 핵심 플레이어에서 밀려나는 일을 다각도에 방지하는 전략을 수립할 수 있어야 한다. 충분한 자금은 물론이고, 기술적으로 한국이 대체 불가능한 지점을 찾아 포석을 만들어 두어야 한다. 이미 많이 늦었지만, 더 만시지탄 하기 전에, 지금부터 물밑에서 움직이기 시작해야 한다.
❤3👍3🔥2
https://youtu.be/yMGGpMyW_vw?list=PLOhHNjZItNnMm5tdW61JpnyxeYH5NDDx8
3. 휴머노이드 로봇에 집중하는 이유
환경 적합성:
세상이 인간 신체 스펙(양팔, 다리, 오포저블 썸(손가락), 신장 등)에 맞춰 설계됨.
공장·식당·병원 등 대부분의 ‘도구와 작업 환경’이 인간 형태에 최적화되어 있음.
인터넷 데이터와의 궁합:
인간이 등장하는 동영상·튜토리얼(매뉴얼)·설명서 등 인터넷에 축적된 방대한 데이터들이 대부분 “인간의 신체를 기준으로 한” 상호작용을 보여줌.
로봇 형태가 인간과 유사할수록 이런 데이터를 그대로 학습하기가 수월.
하드웨어 발전 & 가격 하락:
최근 1~2년 새 휴머노이드 로봇 스타트업 및 대형 기업(테슬라, 보스턴 다이내믹스, 중국 업체 등) 등장.
제조 단가가 크게 낮아지는 추세. 과거 백만 달러가 넘던 NASA 휴머노이드 로봇 대비, 이제 3만 달러 수준으로도 만들 수 있다는 움직임.
4. 로봇용 ‘파운데이션 모델’의 필요성과 데이터 전략
LLM(언어 모델)에 비유:
과거 NLP는 번역용, 질문응답용 등 ‘특수 목적 모델’이 다수 존재했으나, GPT-3 같은 ‘범용(Generalist) 파운데이션 모델’이 등장하자, 원하는 작업에 ‘프롬프트/파인튜닝’만 하면 강력해짐.
로보틱스도 궁극적으로 이와 유사한 전개가 필요하다고 봄(“전문화된 로봇 모델” vs. “범용 파운데이션 로봇 모델”).
로봇 훈련 데이터의 세 가지 출처:
인터넷(온라인) 동영상·튜토리얼: 행동(action) 정보는 부족하지만, 물체나 인간 상호작용에 대한 ‘공통 상식(common sense)’ 파악에 유리.
시뮬레이션: 무제한적으로 ‘행동 데이터’를 만들 수 있음(Isaac Sim 등) + 병렬 및 가속(10,000배 속도) 가능. 단, ‘SIM-Real Gap’(물리/시각 차이) 존재.
실로봇(Real robot) 직접 조작: 현실 데이터를 얻을 수 있지만, 비용이 매우 크고 시간 한계가 있음(24시간/인력 필요).
결국 혼합 전략으로 세 가지를 결합하여 규모와 품질을 모두 확보해야 함.
5. 대표 연구 사례
우레카(Eureka)
LLM이 RL(강화학습) 에이전트를 훈련하기 위한 보상함수(reward function) 코드를 작성하게 함.
예: 5 손가락 로봇손으로 펜을 능숙히 돌리는 ‘펜 스피닝’ 학습.
로봇 전문가가 일일이 보상 함수를 설계하지 않고, LLM이 시뮬레이션 API(Isaac Sim)를 이용해 자동으로 설계한다.
이 결과 “사람보다 더 펜을 잘 돌리는” 로봇 손 등장.
DR 우레카(Dr Eureka)
‘도메인 랜덤화(Domain Randomization)’로 수많은 물리 파라미터의 시뮬레이션을 병렬 훈련.
학습 후 실제 로봇에 그대로 적용해도 간극이 비교적 작아 “0회 파인튜닝(Zero-shot)”에 가깝게 동작.
예: 로봇 강아지가 요가볼 위에서 중심 잡고 걷기(일반 강아지는 잘 못한다는 에피소드).
6. 게임(가상 세계) 연구와 로보틱스의 교차점
짐은 ‘임바디드 AI’가 가상환경/물리환경 모두에서 동일 원리를 가진다고 강조:
입력: 시각(픽셀 등) + 기타 센서 / 출력: 행동
게임 속 NPC나 플레이어젠트도 일종의 로보틱스 문제(‘시뮬레이션에 사는 에이전트’)로 볼 수 있음.
Minecraft 사례:
MindDojo: 마인크래프트 내 여러 행동을 위해 인터넷의 포럼·위키·동영상에서 데이터를 모아 학습.
Voyager: GPT-4같은 코드 작성 능력을 쓰면, 게임 환경을 직접 코드로 조작하며 자동으로 ‘스킬 라이브러리(skill library)’를 축적.
자기 반성(self-reflection)을 거쳐 코드를 수정 → 에이전트가 점차 문제 해결 능력 확장.
이후 축적된 스킬들을 재사용해 오픈월드에서 무한히 탐험.
7. 미래 전망 및 조언
왜 지금 ‘로보틱스의 모멘텀’인가?
하드웨어 성숙: 새롭고 저렴·정교한 로봇 하드웨어 확산(휴머노이드 포함).
LLM 기반 코딩·추론·문해력: 시스템2 수준의 계획(Planning), 이유(Reasoning) 능력이 폭발적으로 개선.
시뮬레이션 툴 + 텔레오퍼레이션: 대규모 데이터 수집이 가능해지고, Sim2Real 전환 역량 향상.
장기 전망(10년 이상):
(코드) “인간 수준 소프트웨어 엔지니어” 에이전트 출현 → 개발 대폭 가속.
(로봇) 사람과 비슷하거나 더 뛰어난 휴머노이드가 집안/산업 등에서 일상화.
게임 분야:
NPC AI가 완전히 살아있는 존재처럼 플레이어와 대화하고 협업·반응하는 게임 설계 가능.
절차적 세계 생성(비주얼·스토리·퀘스트 등)을 AI가 실시간으로 창출 → 무한 재플레이.
Founder들에게 조언:
“좋은 연구 문제”나 “장기적으로 큰 영향력을 낼 문제”를 골라라(연구 적합성, 경제 가치 등).
새로 나오는 오픈소스 툴(시뮬레이션, 데이터셋, 모델 등)을 적극 활용.
엔비디아의 Isaac Sim 같은 시뮬레이터나 오픈소스 모델을 빠르게 실험·검증하며 실행력을 높여라.
3. 휴머노이드 로봇에 집중하는 이유
환경 적합성:
세상이 인간 신체 스펙(양팔, 다리, 오포저블 썸(손가락), 신장 등)에 맞춰 설계됨.
공장·식당·병원 등 대부분의 ‘도구와 작업 환경’이 인간 형태에 최적화되어 있음.
인터넷 데이터와의 궁합:
인간이 등장하는 동영상·튜토리얼(매뉴얼)·설명서 등 인터넷에 축적된 방대한 데이터들이 대부분 “인간의 신체를 기준으로 한” 상호작용을 보여줌.
로봇 형태가 인간과 유사할수록 이런 데이터를 그대로 학습하기가 수월.
하드웨어 발전 & 가격 하락:
최근 1~2년 새 휴머노이드 로봇 스타트업 및 대형 기업(테슬라, 보스턴 다이내믹스, 중국 업체 등) 등장.
제조 단가가 크게 낮아지는 추세. 과거 백만 달러가 넘던 NASA 휴머노이드 로봇 대비, 이제 3만 달러 수준으로도 만들 수 있다는 움직임.
4. 로봇용 ‘파운데이션 모델’의 필요성과 데이터 전략
LLM(언어 모델)에 비유:
과거 NLP는 번역용, 질문응답용 등 ‘특수 목적 모델’이 다수 존재했으나, GPT-3 같은 ‘범용(Generalist) 파운데이션 모델’이 등장하자, 원하는 작업에 ‘프롬프트/파인튜닝’만 하면 강력해짐.
로보틱스도 궁극적으로 이와 유사한 전개가 필요하다고 봄(“전문화된 로봇 모델” vs. “범용 파운데이션 로봇 모델”).
로봇 훈련 데이터의 세 가지 출처:
인터넷(온라인) 동영상·튜토리얼: 행동(action) 정보는 부족하지만, 물체나 인간 상호작용에 대한 ‘공통 상식(common sense)’ 파악에 유리.
시뮬레이션: 무제한적으로 ‘행동 데이터’를 만들 수 있음(Isaac Sim 등) + 병렬 및 가속(10,000배 속도) 가능. 단, ‘SIM-Real Gap’(물리/시각 차이) 존재.
실로봇(Real robot) 직접 조작: 현실 데이터를 얻을 수 있지만, 비용이 매우 크고 시간 한계가 있음(24시간/인력 필요).
결국 혼합 전략으로 세 가지를 결합하여 규모와 품질을 모두 확보해야 함.
5. 대표 연구 사례
우레카(Eureka)
LLM이 RL(강화학습) 에이전트를 훈련하기 위한 보상함수(reward function) 코드를 작성하게 함.
예: 5 손가락 로봇손으로 펜을 능숙히 돌리는 ‘펜 스피닝’ 학습.
로봇 전문가가 일일이 보상 함수를 설계하지 않고, LLM이 시뮬레이션 API(Isaac Sim)를 이용해 자동으로 설계한다.
이 결과 “사람보다 더 펜을 잘 돌리는” 로봇 손 등장.
DR 우레카(Dr Eureka)
‘도메인 랜덤화(Domain Randomization)’로 수많은 물리 파라미터의 시뮬레이션을 병렬 훈련.
학습 후 실제 로봇에 그대로 적용해도 간극이 비교적 작아 “0회 파인튜닝(Zero-shot)”에 가깝게 동작.
예: 로봇 강아지가 요가볼 위에서 중심 잡고 걷기(일반 강아지는 잘 못한다는 에피소드).
6. 게임(가상 세계) 연구와 로보틱스의 교차점
짐은 ‘임바디드 AI’가 가상환경/물리환경 모두에서 동일 원리를 가진다고 강조:
입력: 시각(픽셀 등) + 기타 센서 / 출력: 행동
게임 속 NPC나 플레이어젠트도 일종의 로보틱스 문제(‘시뮬레이션에 사는 에이전트’)로 볼 수 있음.
Minecraft 사례:
MindDojo: 마인크래프트 내 여러 행동을 위해 인터넷의 포럼·위키·동영상에서 데이터를 모아 학습.
Voyager: GPT-4같은 코드 작성 능력을 쓰면, 게임 환경을 직접 코드로 조작하며 자동으로 ‘스킬 라이브러리(skill library)’를 축적.
자기 반성(self-reflection)을 거쳐 코드를 수정 → 에이전트가 점차 문제 해결 능력 확장.
이후 축적된 스킬들을 재사용해 오픈월드에서 무한히 탐험.
7. 미래 전망 및 조언
왜 지금 ‘로보틱스의 모멘텀’인가?
하드웨어 성숙: 새롭고 저렴·정교한 로봇 하드웨어 확산(휴머노이드 포함).
LLM 기반 코딩·추론·문해력: 시스템2 수준의 계획(Planning), 이유(Reasoning) 능력이 폭발적으로 개선.
시뮬레이션 툴 + 텔레오퍼레이션: 대규모 데이터 수집이 가능해지고, Sim2Real 전환 역량 향상.
장기 전망(10년 이상):
(코드) “인간 수준 소프트웨어 엔지니어” 에이전트 출현 → 개발 대폭 가속.
(로봇) 사람과 비슷하거나 더 뛰어난 휴머노이드가 집안/산업 등에서 일상화.
게임 분야:
NPC AI가 완전히 살아있는 존재처럼 플레이어와 대화하고 협업·반응하는 게임 설계 가능.
절차적 세계 생성(비주얼·스토리·퀘스트 등)을 AI가 실시간으로 창출 → 무한 재플레이.
Founder들에게 조언:
“좋은 연구 문제”나 “장기적으로 큰 영향력을 낼 문제”를 골라라(연구 적합성, 경제 가치 등).
새로 나오는 오픈소스 툴(시뮬레이션, 데이터셋, 모델 등)을 적극 활용.
엔비디아의 Isaac Sim 같은 시뮬레이터나 오픈소스 모델을 빠르게 실험·검증하며 실행력을 높여라.
👍2
https://youtu.be/nOyOtxTA03A
단일 거대모델(One Model to Rule Them All)은 없다
2023년 초, ChatGPT(주로 GPT-3.5) 등장 시점에도 ‘곧 모든 사용자가 단일 거대모델에 몰릴 것’이라는 관측이 많았음.
그러나 Dust 공동창업자들은 “엔터프라이즈 규모의 실제 문제를 풀려면 다양한 모델이 공존해야 한다”고 판단.
사용 사례마다 필요로 하는 성능·추론 시간·데이터 보안 수준이 달라, 어떤 경우엔 로컬 모델, 어떤 경우엔 대형 API 모델이 유리할 수 있음.
모델 자체보다는 ‘제품 경험’과 ‘워크플로우’가 관건
LLM의 추론/생성 품질이 계속 개선되더라도, 기업 내 실제 도입 과정(접근제어, 보안, 협업 방식, 맞춤형 데이터 연계)을 해결하려면 ‘제품적 통합’이 훨씬 중요.
“No GPUs before PMF(제품-시장 궁합)” → 대규모 모델을 직접 학습하기(즉, 자체 GPU 인프라를 돌려 거대모델 훈련)를 시도하기보다는, 우선 제품으로서 사용자 가치를 검증하는 것이 급선무.
2.1 멀티모델 시대
엔터프라이즈 상황에서는 여러 모델을 자유롭게 전환/결합해야 할 필요가 큼.
예: 민감 데이터 → 로컬 모델 / 빠른 요약 → 소형 모델 / 고난도 추론 → API 기반 초거대모델.
Dust 플랫폼은 “모델 라우팅(hypervisor)”을 완전히 감추기보다, 사용자가 어떤 모델을 쓸지 자율적으로 결정·실험할 수 있게 제공.
오픈소스 vs. 폐쇄형:
대형 폐쇄형 모델(OpenAI, Anthropic 등)이 당분간 성능 우위를 가질 가능성은 큼.
다만, 특정 시점에 기술적 ‘플래토(plateau)’가 오거나, Meta 등에서 초거대 오픈소스 모델이 등장하면, 오픈소스 모델이 역전할 시나리오도 배제할 수 없음.
Dust가 제공하는 ‘샌드박스 + 멀티모델 + 문맥연결’ 개념
샌드박스:
- 회사 내부 구성원이 원하는 대로 AI 어시스턴트를 만들고 공유할 수 있는 가벼운 빌딩 환경을 제공.
- 이때 RAG(Retrieval-Augmented Generation), 문서·DB·사내툴과 연동한 다양한 워크플로우를 “레고 블록”처럼 쉽게 조합 가능.
협업 확산 패턴:
- 보통 한두 팀에서 파일럿→ 점진적 확대 → 회사 전체로 폭발적 확산.
- 개인(특히 25세 이하 젊은 직원)들이 소규모 봇(assistant)을 만들고, 동료들과 공유하며 자발적으로 확산되는 경향이 강함.
두 번째 창업자로서의 교훈
1) 몇 가지 ‘폭발적 베팅’을 찾고 실험
초창기에 너무 사소한 최적화 대신, 정말 큰 가치를 만들 만한 시도를 과감히 반복하는 것이 중요.
2) 제품·시장 궁합(PMF)을 찾기 전까지는 무리한 인프라(예: 대규모 GPU 투자) 안 한다
거대모델 자체를 만드는 것보다, 고객이 정말 원하는 ‘사용 시나리오’ 파악에 집중.
3) 팀원에게 강한 ‘투명성 & 권한 위임(임파워먼트)’
과거 첫 창업 때보다 “의사결정 과정 종합 정리(Paper Trail)” 등을 문화화해 더 효율적 협업.
“인간 대체”보다 “인간 증강”을 믿는다
Dust 창업자들은 단순히 비용 절감(사람을 해고)보다는, 사람들이 이전에는 못했던 고부가가치 일을 하게 하거나, ‘놓치던 기회’를 발굴하는 데 더 집중해야 한다고 강조.
“지원 티켓을 100% 자동화”하는 식으로는 장기적으로 해가 될 수 있음(고객의 불만사항 흐름 자체가 사라지면, 제품 개선 기회를 놓칠 수 있음).
프랑스 스타트업 생태계에 대한 관점
Dust는 본사가 파리에 있으나, 글로벌 고객을 대상.
프랑스의 뛰어난 AI 인재풀(수학·엔지니어링 역량)과 대형 스케일업(Stripe, Datadog, Algolia 등) 출신들의 경험이 축적되어 좋은 생태계 조성.
다만 미국 시장 및 글로벌 진출을 고려해, 현지와의 상호 협력·네트워킹이 필수.
단일 거대모델(One Model to Rule Them All)은 없다
2023년 초, ChatGPT(주로 GPT-3.5) 등장 시점에도 ‘곧 모든 사용자가 단일 거대모델에 몰릴 것’이라는 관측이 많았음.
그러나 Dust 공동창업자들은 “엔터프라이즈 규모의 실제 문제를 풀려면 다양한 모델이 공존해야 한다”고 판단.
사용 사례마다 필요로 하는 성능·추론 시간·데이터 보안 수준이 달라, 어떤 경우엔 로컬 모델, 어떤 경우엔 대형 API 모델이 유리할 수 있음.
모델 자체보다는 ‘제품 경험’과 ‘워크플로우’가 관건
LLM의 추론/생성 품질이 계속 개선되더라도, 기업 내 실제 도입 과정(접근제어, 보안, 협업 방식, 맞춤형 데이터 연계)을 해결하려면 ‘제품적 통합’이 훨씬 중요.
“No GPUs before PMF(제품-시장 궁합)” → 대규모 모델을 직접 학습하기(즉, 자체 GPU 인프라를 돌려 거대모델 훈련)를 시도하기보다는, 우선 제품으로서 사용자 가치를 검증하는 것이 급선무.
2.1 멀티모델 시대
엔터프라이즈 상황에서는 여러 모델을 자유롭게 전환/결합해야 할 필요가 큼.
예: 민감 데이터 → 로컬 모델 / 빠른 요약 → 소형 모델 / 고난도 추론 → API 기반 초거대모델.
Dust 플랫폼은 “모델 라우팅(hypervisor)”을 완전히 감추기보다, 사용자가 어떤 모델을 쓸지 자율적으로 결정·실험할 수 있게 제공.
오픈소스 vs. 폐쇄형:
대형 폐쇄형 모델(OpenAI, Anthropic 등)이 당분간 성능 우위를 가질 가능성은 큼.
다만, 특정 시점에 기술적 ‘플래토(plateau)’가 오거나, Meta 등에서 초거대 오픈소스 모델이 등장하면, 오픈소스 모델이 역전할 시나리오도 배제할 수 없음.
Dust가 제공하는 ‘샌드박스 + 멀티모델 + 문맥연결’ 개념
샌드박스:
- 회사 내부 구성원이 원하는 대로 AI 어시스턴트를 만들고 공유할 수 있는 가벼운 빌딩 환경을 제공.
- 이때 RAG(Retrieval-Augmented Generation), 문서·DB·사내툴과 연동한 다양한 워크플로우를 “레고 블록”처럼 쉽게 조합 가능.
협업 확산 패턴:
- 보통 한두 팀에서 파일럿→ 점진적 확대 → 회사 전체로 폭발적 확산.
- 개인(특히 25세 이하 젊은 직원)들이 소규모 봇(assistant)을 만들고, 동료들과 공유하며 자발적으로 확산되는 경향이 강함.
두 번째 창업자로서의 교훈
1) 몇 가지 ‘폭발적 베팅’을 찾고 실험
초창기에 너무 사소한 최적화 대신, 정말 큰 가치를 만들 만한 시도를 과감히 반복하는 것이 중요.
2) 제품·시장 궁합(PMF)을 찾기 전까지는 무리한 인프라(예: 대규모 GPU 투자) 안 한다
거대모델 자체를 만드는 것보다, 고객이 정말 원하는 ‘사용 시나리오’ 파악에 집중.
3) 팀원에게 강한 ‘투명성 & 권한 위임(임파워먼트)’
과거 첫 창업 때보다 “의사결정 과정 종합 정리(Paper Trail)” 등을 문화화해 더 효율적 협업.
“인간 대체”보다 “인간 증강”을 믿는다
Dust 창업자들은 단순히 비용 절감(사람을 해고)보다는, 사람들이 이전에는 못했던 고부가가치 일을 하게 하거나, ‘놓치던 기회’를 발굴하는 데 더 집중해야 한다고 강조.
“지원 티켓을 100% 자동화”하는 식으로는 장기적으로 해가 될 수 있음(고객의 불만사항 흐름 자체가 사라지면, 제품 개선 기회를 놓칠 수 있음).
프랑스 스타트업 생태계에 대한 관점
Dust는 본사가 파리에 있으나, 글로벌 고객을 대상.
프랑스의 뛰어난 AI 인재풀(수학·엔지니어링 역량)과 대형 스케일업(Stripe, Datadog, Algolia 등) 출신들의 경험이 축적되어 좋은 생태계 조성.
다만 미국 시장 및 글로벌 진출을 고려해, 현지와의 상호 협력·네트워킹이 필수.
❤1👍1
https://youtu.be/XJsHIoIDhPY
1) 딥러닝의 효율적 방식과 “확장(스케일업) + 통계” 접근
(1) 딥러닝의 효율적 방식이란?
전통적인 “기호적 AI”나 “규칙 기반(If-Then)” 접근은, 사람이 직접 규칙을 만들어줘야 했음.
반면 딥러닝은 모델에 대규모 데이터를 넣고, 모델이 파라미터(가중치)를 스스로 학습하여 규칙을 ‘추론’한다.
이 과정에서 필요한 것은 대규모 데이터, 대규모 계산(컴퓨팅), 효율적인 모델 구조(예: 합성곱 신경망, 트랜스포머 등).
(2) 스케일 업(scaling)이 중요한 이유
스케일 업이란 모델의 크기(파라미터 수), 학습 데이터 양, 학습에 쓸 컴퓨팅 자원 등을 단순히 늘리는 것을 의미.
2012년 무렵부터 GPU와 대규모 데이터셋이 결합되면서, 딥러닝이 기존 접근(기호적 AI 등)을 압도하는 성능을 내기 시작.
중요 포인트: “규모를 늘리면(dB)을수록 성능이 개선될 여지”가 크다는 사실. 예컨대 트랜스포머 계열 모델(GPT, Claude 등)은 파라미터·데이터를 확장할수록, 언어 이해·생성 능력이 급상승해 왔다.
스케일링이 의미 있는 이유는, “설계자가 일일이 손대지 않아도”, 단순히 모델 용량과 데이터만 늘리면 성능이 꾸준히 향상되는 ‘스케일링 법칙(scaling law)’이 관찰되었기 때문.
(3) ‘물리학의 통계역학적 관점’과의 연결
Dan이 말하는 “통계역학적 관점”은, 미시적 요소들이 무수히 많을 때, 거시적으로 단순한 법칙이 드러난다는 물리학 법칙(예: 이상기체법칙 등)을 일컫는다.
딥러닝도 마찬가지로, 수많은 파라미터(가중치)와 뉴런이 미시적으로 복잡하게 얽혀 있지만, 대규모로 스케일업했을 때 어떤 간단한 통계적 거동(예: 일정한 손실 하락 추세, 성능 곡선)이 나타난다.
물리학자는 이러한 “큰 규모에서의 단순함”을 이해하고 모델링하는 데 익숙하므로, 대규모 신경망(딥러닝)에도 똑같은 사고를 적용할 수 있다는 것.
2) 단일 대규모 모델 vs. 전문 분야별 모델
(1) 현재 트렌드: ‘하나의 범용 초대규모 모델’
구글, OpenAI, Meta 등 빅테크들은 “하나의 거대한 언어모델(GPT, PaLM, Llama 등)”이 모든 언어 업무를 잘 처리할 수 있다는 믿음/실험을 계속해 왔다.
장점:
여러 분야별 모델을 각각 만드는 것보다, 하나의 범용 모델을 잘 키워놓으면 다양한 태스크에 조금씩 튜닝해서 쓸 수 있음.
데이터 공유나 학습 인프라 측면에서 “규모의 경제” 발생.
(2) 하지만 자원·경제성 한계 가능
크기가 커질수록 훈련 비용, 추론 비용, 전력 소모가 폭발적으로 증가.
“무작정 모델 크기를 늘리다가, 경제적으로/물리적으로 감당 안 되는 지점”이 온다는 우려가 존재.
예를 들어, GPT-4보다 훨씬 큰 모델을 만들려면 천문학적인 GPU 클러스터, 전력, 시간 등이 필요해질 수 있음.
(3) 완전히 도메인별 모델로 쪼개지는 것은 보장되지 않음
“초대형 범용 모델”과 반대로, 각 도메인(의학, 법률, 금융 등)에 최적화된 “전문 모델”을 만들자는 시각도 있음.
그러나 전문 모델만 만들 경우, 매 도메인마다 데이터, 튜닝, 유지보수가 분산되어 비효율이 커질 수 있음.
실제로는 두 접근이 어떻게 융합될지 아직 불명확.
예) 하나의 큰 범용 모델+필요 시 도메인별 추가 모듈(혹은 하위 모델)을 혼합하는 ‘Mixture of Experts’ 구상, 혹은 API로 서로 협업하는 구조 등등.
3) AI 미래 전망 (단기 ~ 장기)
Dan의 입장에서, AI가 어떤 경로를 갈지 확실하진 않지만, 다음과 같은 시나리오를 언급:
(1) 단기 (약 5개월 정도)
GPT-n 차세대 모델: 예컨대 GPT-5, GPT-4.5 혹은 다른 회사 모델이 나올 가능성.
이 때 **“스케일링을 더 밀어붙일 경우, 어느 정도 성능 향상”**이 발생하는지 체감하게 될 것.
만약 이전 GPT에서 다음 GPT로 성능이 크게 달라진다면, “스케일링 아직 여력 있다”는 결론이 가능.
반면 향상이 미미하다면, “스케일링 한계가 이미 도래했나?”라는 질문 발생.
(2) 중기 (약 5년)
스케일 업에 경제적/물리적 한계가 찾아올 수도.
“너무 비용이 커서 못 키운다” → AI 윈터(투자·열기 식는 현상) 가능성.
반대로, 새로운 아이디어(예: 새로운 학습 패러다임, 아키텍처, 메모리·추론 방식 등)가 등장해 “또 다른 도약”을 이룰 수도.
결국 이 시기에는 “스케일링 지속 vs. 새 아이디어·기술 전환” 갈림길이 관건.
(3) 장기 (수십 년)
여러 가지 가능성이 공존:
AI가 모든 것을 바꾸는 시나리오: 인간 노동 대체, 지적 발견 가속, 경제 체계 재편 등.
새로운 패러다임 등장: “AI는 한계에 부딪히고 완전히 다른 컴퓨팅/모델 방식”이 대두될 수도.
“정확히 어떤 방향으로 갈지는 매우 예측하기 어렵다”며 Dan 본인도 신중한 태도를 유지.
1) 딥러닝의 효율적 방식과 “확장(스케일업) + 통계” 접근
(1) 딥러닝의 효율적 방식이란?
전통적인 “기호적 AI”나 “규칙 기반(If-Then)” 접근은, 사람이 직접 규칙을 만들어줘야 했음.
반면 딥러닝은 모델에 대규모 데이터를 넣고, 모델이 파라미터(가중치)를 스스로 학습하여 규칙을 ‘추론’한다.
이 과정에서 필요한 것은 대규모 데이터, 대규모 계산(컴퓨팅), 효율적인 모델 구조(예: 합성곱 신경망, 트랜스포머 등).
(2) 스케일 업(scaling)이 중요한 이유
스케일 업이란 모델의 크기(파라미터 수), 학습 데이터 양, 학습에 쓸 컴퓨팅 자원 등을 단순히 늘리는 것을 의미.
2012년 무렵부터 GPU와 대규모 데이터셋이 결합되면서, 딥러닝이 기존 접근(기호적 AI 등)을 압도하는 성능을 내기 시작.
중요 포인트: “규모를 늘리면(dB)을수록 성능이 개선될 여지”가 크다는 사실. 예컨대 트랜스포머 계열 모델(GPT, Claude 등)은 파라미터·데이터를 확장할수록, 언어 이해·생성 능력이 급상승해 왔다.
스케일링이 의미 있는 이유는, “설계자가 일일이 손대지 않아도”, 단순히 모델 용량과 데이터만 늘리면 성능이 꾸준히 향상되는 ‘스케일링 법칙(scaling law)’이 관찰되었기 때문.
(3) ‘물리학의 통계역학적 관점’과의 연결
Dan이 말하는 “통계역학적 관점”은, 미시적 요소들이 무수히 많을 때, 거시적으로 단순한 법칙이 드러난다는 물리학 법칙(예: 이상기체법칙 등)을 일컫는다.
딥러닝도 마찬가지로, 수많은 파라미터(가중치)와 뉴런이 미시적으로 복잡하게 얽혀 있지만, 대규모로 스케일업했을 때 어떤 간단한 통계적 거동(예: 일정한 손실 하락 추세, 성능 곡선)이 나타난다.
물리학자는 이러한 “큰 규모에서의 단순함”을 이해하고 모델링하는 데 익숙하므로, 대규모 신경망(딥러닝)에도 똑같은 사고를 적용할 수 있다는 것.
2) 단일 대규모 모델 vs. 전문 분야별 모델
(1) 현재 트렌드: ‘하나의 범용 초대규모 모델’
구글, OpenAI, Meta 등 빅테크들은 “하나의 거대한 언어모델(GPT, PaLM, Llama 등)”이 모든 언어 업무를 잘 처리할 수 있다는 믿음/실험을 계속해 왔다.
장점:
여러 분야별 모델을 각각 만드는 것보다, 하나의 범용 모델을 잘 키워놓으면 다양한 태스크에 조금씩 튜닝해서 쓸 수 있음.
데이터 공유나 학습 인프라 측면에서 “규모의 경제” 발생.
(2) 하지만 자원·경제성 한계 가능
크기가 커질수록 훈련 비용, 추론 비용, 전력 소모가 폭발적으로 증가.
“무작정 모델 크기를 늘리다가, 경제적으로/물리적으로 감당 안 되는 지점”이 온다는 우려가 존재.
예를 들어, GPT-4보다 훨씬 큰 모델을 만들려면 천문학적인 GPU 클러스터, 전력, 시간 등이 필요해질 수 있음.
(3) 완전히 도메인별 모델로 쪼개지는 것은 보장되지 않음
“초대형 범용 모델”과 반대로, 각 도메인(의학, 법률, 금융 등)에 최적화된 “전문 모델”을 만들자는 시각도 있음.
그러나 전문 모델만 만들 경우, 매 도메인마다 데이터, 튜닝, 유지보수가 분산되어 비효율이 커질 수 있음.
실제로는 두 접근이 어떻게 융합될지 아직 불명확.
예) 하나의 큰 범용 모델+필요 시 도메인별 추가 모듈(혹은 하위 모델)을 혼합하는 ‘Mixture of Experts’ 구상, 혹은 API로 서로 협업하는 구조 등등.
3) AI 미래 전망 (단기 ~ 장기)
Dan의 입장에서, AI가 어떤 경로를 갈지 확실하진 않지만, 다음과 같은 시나리오를 언급:
(1) 단기 (약 5개월 정도)
GPT-n 차세대 모델: 예컨대 GPT-5, GPT-4.5 혹은 다른 회사 모델이 나올 가능성.
이 때 **“스케일링을 더 밀어붙일 경우, 어느 정도 성능 향상”**이 발생하는지 체감하게 될 것.
만약 이전 GPT에서 다음 GPT로 성능이 크게 달라진다면, “스케일링 아직 여력 있다”는 결론이 가능.
반면 향상이 미미하다면, “스케일링 한계가 이미 도래했나?”라는 질문 발생.
(2) 중기 (약 5년)
스케일 업에 경제적/물리적 한계가 찾아올 수도.
“너무 비용이 커서 못 키운다” → AI 윈터(투자·열기 식는 현상) 가능성.
반대로, 새로운 아이디어(예: 새로운 학습 패러다임, 아키텍처, 메모리·추론 방식 등)가 등장해 “또 다른 도약”을 이룰 수도.
결국 이 시기에는 “스케일링 지속 vs. 새 아이디어·기술 전환” 갈림길이 관건.
(3) 장기 (수십 년)
여러 가지 가능성이 공존:
AI가 모든 것을 바꾸는 시나리오: 인간 노동 대체, 지적 발견 가속, 경제 체계 재편 등.
새로운 패러다임 등장: “AI는 한계에 부딪히고 완전히 다른 컴퓨팅/모델 방식”이 대두될 수도.
“정확히 어떤 방향으로 갈지는 매우 예측하기 어렵다”며 Dan 본인도 신중한 태도를 유지.
👍2
메타의 생성 AI 조직이 패닉 상태에 빠졌습니다.
모든 것은 deepseek v3에서 시작되었습니다.
이 모델이 Llama 4를 이미 벤치마크에서 뒤처지게 만들었죠.
설상가상으로 “5~5백만 달러의 예산으로 훈련한 정체불명의 중국 회사”가 나타났습니다.
엔지니어들은 deepseek을 필사적으로 분석하며 거기서 배울 수 있는 모든 것을 베껴 오려고 하고 있습니다. 정말 과장이 아닙니다.
경영진은 생성 AI 조직의 막대한 비용을 어떻게 정당화할 수 있을지 우려하고 있습니다. 조직 내 “리더” 한 명이 deepseek v3의 전체 훈련 비용보다 더 많은 연봉을 받고 있고, 그런 “리더”가 여러 명이나 되니 말입니다.
deepseek r1은 상황을 더욱 악화시켰습니다. 기밀 정보라 자세히 밝힐 수는 없지만 곧 공개될 것입니다.
사실 이 조직은 소규모의 엔지니어링 중심 조직이 되었어야 했습니다. 그러나 여러 사람들이 영향력을 얻기 위해 조직으로 몰려들고, 인력을 인위적으로 부풀린 결과 모두에게 해가 되고 말았습니다.
모든 것은 deepseek v3에서 시작되었습니다.
이 모델이 Llama 4를 이미 벤치마크에서 뒤처지게 만들었죠.
설상가상으로 “5~5백만 달러의 예산으로 훈련한 정체불명의 중국 회사”가 나타났습니다.
엔지니어들은 deepseek을 필사적으로 분석하며 거기서 배울 수 있는 모든 것을 베껴 오려고 하고 있습니다. 정말 과장이 아닙니다.
경영진은 생성 AI 조직의 막대한 비용을 어떻게 정당화할 수 있을지 우려하고 있습니다. 조직 내 “리더” 한 명이 deepseek v3의 전체 훈련 비용보다 더 많은 연봉을 받고 있고, 그런 “리더”가 여러 명이나 되니 말입니다.
deepseek r1은 상황을 더욱 악화시켰습니다. 기밀 정보라 자세히 밝힐 수는 없지만 곧 공개될 것입니다.
사실 이 조직은 소규모의 엔지니어링 중심 조직이 되었어야 했습니다. 그러나 여러 사람들이 영향력을 얻기 위해 조직으로 몰려들고, 인력을 인위적으로 부풀린 결과 모두에게 해가 되고 말았습니다.
“수학이 곧 추론”이라는 믿음
수학을 직접 가르쳐야 하는 이유
대규모 파운데이션 모델(LLM)들이 인터넷 텍스트 전반(코드, 자연어, 논문 등)을 학습해 ‘자연스럽게’ 수학 능력을 익힐 수 있다고 기대하지만, 실제로는 미흡함.
“수학은 객관적이고 엄격한 논리 구조를 가지고 있으며”, 이를 AI에 직접 학습시켜야 진정한 ‘추론 능력’이 생긴다고 봄.
인간 사례: 어릴 때 수학(특히 어렵고 추상적인 문제)을 훈련한 사람들이 다른 과학·공학·논리적 작업에 뛰어난 역량을 발휘하듯, AI도 마찬가지 패턴을 보일 것으로 예상.
수학을 잘하면 다른 분야도 잘할 수 있는가?
코드 예시: 이미 업계에서 “코드 데이터로 학습하면 논리·추론 벤치마크 점수가 크게 올라간다”는 사실이 알려져 있음. 수학은 그보다 더 확장된 범위의 논리 훈련을 제공.
블라드 테네브 본인의 경험: 대학 시절 수학에 몰두했으나, 이후 프로그래밍·기업 경영·계약서 분석 등 다양한 분야를 빠르게 익힐 수 있었다고 언급.
AI가 리만 가설(Riemann Hypothesis) 등을 풀 수 있을까?
수학계의 시각
젊은 수학자들은 Lean, 자동증명, AI 연구에 비교적 개방적·긍정적인 반면, 전통적인 학계 원로들은 아직 다소 회의적.
그러나 점차 ‘AI 보조 수학 연구(Human+AI 협력)’가 보편화될 것이라는 데에는 공감대가 형성되고 있음.
리만 가설 등 밀레니엄 난제
메타큘러스(Metaculus) 예측: “다음 밀레니엄 프라이즈를 AI 혹은 AI 보조로 해결할 확률이 43%”라는 집계가 있으나, 블라드는 이를 “과소평가”라고 봄.
조만간(가령 2020년대 말~2030년대 초)에 AI가 인간 협업 또는 단독으로 주요 난제를 해결할 가능성이 높다고 전망.
인간이 해야 할 역할
AI가 점차 수학 문제 해결력을 높이더라도, “어떤 문제에 compute 자원을 투입할지 결정”하는 것은 인간의 몫.
또한 “새로운 문제를 어떻게 제시하고, 증명된 결과를 어떻게 해석할지” 등의 과정에서 인간 수학자들은 계속 중요한 역할을 할 것.
Lean(공식 증명 시스템) 활용과 자기강화(Self-play)
Lean이란?
마이크로소프트 연구원(현재는 AWS 소속) 레오 드 모라(Leo de Moura)가 개발한 형식 논리(Proof Assistant) 기반 언어.
원래는 ‘소프트웨어 검증’을 목표로 했지만, 수학계에서 폭발적으로 확산되어 수천 명 이상의 수학자들이 Mathlib 오픈소스 라이브러리를 구축 중.
모든 정리는 Lean의 타입 시스템 안에 ‘함수(signature)’ 형태로 표현되므로, 증명만 통과하면 100% 옳은 것으로 간주 가능.
왜 수학 AI에 Lean이 필수인가?
일반 텍스트 기반의 “정답 여부” 판단은 모호하거나 잡음이 많다.
Lean 안에서는 “증명이 컴파일되면 옳음이 확정”되므로, 강화학습(RL)과 자기검증(self-play)에 이상적.
체스나 바둑처럼 해가 유한한 게임과 달리, 수학 문제는 무한한 다양성과 난이도를 가지고 있으므로 AI가 끊임없이 더 높은 경지로 올라갈 수 있음(“AlphaZero” 방식).
합성 데이터(synthetic data)
하모닉은 기존에 존재하는 Mathlib·논문·인터넷 수학 데이터만으로는 부족하다고 판단.
결국 AI가 자체적으로 수많은 문제를 만들어(자기 출제) 풀고(자기 해결), 검증하는 루프를 통해 데이터를 생성해야 함.
이렇게 “증명 난이도”도 점차 높이는 방식으로 점진적 자기학습을 구현.
목표: 인간 지식의 경계를 확장
당장에는 “AI 수학 연구자”가 되어, 대형 난제를 푸는 데 기여. (예: 밀레니엄 문제, 리만 가설, 나브-스톡스 등)
그 과정에서 형성되는 “수리 추론 능력”이 결국 물리학, 이론 과학, 소프트웨어 검증 등으로 확장될 것.
추후에는 “소프트웨어를 자동으로 완벽 검증”하는 시대가 도래할 가능성이 높음.
소프트웨어 엔지니어링 패러다임 전환
인간이 직접 코드를 작성하고 검토하던 방식에서, 앞으로는 “사양(스펙)” 위주로 협업하고, 실제 코드 구현과 검증은 거의 AI가 수행.
비용이 비싸고 복잡했던 “포멀 검증(formal verification)”도 AI 덕분에 저비용·자동화로 전환될 수 있음.
기술적으로 남은 과제
아직 Lean과 Mathlib이 일부 분야(예: 기하학, 물리 등)에선 라이브러리가 제한적.
“AI가 자동으로 새로운 이론·공리를 정의하고, 이를 다시 Lean에 포섭”하는 작업이 완전히 자동화되려면 연구가 더 필요.
그러나 1~2년 이내에 “IMO 수준(국제수학올림피아드 우승 수준)”을 달성할 수 있고, 그 후 매우 빠른 속도로 성장할 것이라는 전망.
https://youtu.be/NvAxuCIBb-c
수학을 직접 가르쳐야 하는 이유
대규모 파운데이션 모델(LLM)들이 인터넷 텍스트 전반(코드, 자연어, 논문 등)을 학습해 ‘자연스럽게’ 수학 능력을 익힐 수 있다고 기대하지만, 실제로는 미흡함.
“수학은 객관적이고 엄격한 논리 구조를 가지고 있으며”, 이를 AI에 직접 학습시켜야 진정한 ‘추론 능력’이 생긴다고 봄.
인간 사례: 어릴 때 수학(특히 어렵고 추상적인 문제)을 훈련한 사람들이 다른 과학·공학·논리적 작업에 뛰어난 역량을 발휘하듯, AI도 마찬가지 패턴을 보일 것으로 예상.
수학을 잘하면 다른 분야도 잘할 수 있는가?
코드 예시: 이미 업계에서 “코드 데이터로 학습하면 논리·추론 벤치마크 점수가 크게 올라간다”는 사실이 알려져 있음. 수학은 그보다 더 확장된 범위의 논리 훈련을 제공.
블라드 테네브 본인의 경험: 대학 시절 수학에 몰두했으나, 이후 프로그래밍·기업 경영·계약서 분석 등 다양한 분야를 빠르게 익힐 수 있었다고 언급.
AI가 리만 가설(Riemann Hypothesis) 등을 풀 수 있을까?
수학계의 시각
젊은 수학자들은 Lean, 자동증명, AI 연구에 비교적 개방적·긍정적인 반면, 전통적인 학계 원로들은 아직 다소 회의적.
그러나 점차 ‘AI 보조 수학 연구(Human+AI 협력)’가 보편화될 것이라는 데에는 공감대가 형성되고 있음.
리만 가설 등 밀레니엄 난제
메타큘러스(Metaculus) 예측: “다음 밀레니엄 프라이즈를 AI 혹은 AI 보조로 해결할 확률이 43%”라는 집계가 있으나, 블라드는 이를 “과소평가”라고 봄.
조만간(가령 2020년대 말~2030년대 초)에 AI가 인간 협업 또는 단독으로 주요 난제를 해결할 가능성이 높다고 전망.
인간이 해야 할 역할
AI가 점차 수학 문제 해결력을 높이더라도, “어떤 문제에 compute 자원을 투입할지 결정”하는 것은 인간의 몫.
또한 “새로운 문제를 어떻게 제시하고, 증명된 결과를 어떻게 해석할지” 등의 과정에서 인간 수학자들은 계속 중요한 역할을 할 것.
Lean(공식 증명 시스템) 활용과 자기강화(Self-play)
Lean이란?
마이크로소프트 연구원(현재는 AWS 소속) 레오 드 모라(Leo de Moura)가 개발한 형식 논리(Proof Assistant) 기반 언어.
원래는 ‘소프트웨어 검증’을 목표로 했지만, 수학계에서 폭발적으로 확산되어 수천 명 이상의 수학자들이 Mathlib 오픈소스 라이브러리를 구축 중.
모든 정리는 Lean의 타입 시스템 안에 ‘함수(signature)’ 형태로 표현되므로, 증명만 통과하면 100% 옳은 것으로 간주 가능.
왜 수학 AI에 Lean이 필수인가?
일반 텍스트 기반의 “정답 여부” 판단은 모호하거나 잡음이 많다.
Lean 안에서는 “증명이 컴파일되면 옳음이 확정”되므로, 강화학습(RL)과 자기검증(self-play)에 이상적.
체스나 바둑처럼 해가 유한한 게임과 달리, 수학 문제는 무한한 다양성과 난이도를 가지고 있으므로 AI가 끊임없이 더 높은 경지로 올라갈 수 있음(“AlphaZero” 방식).
합성 데이터(synthetic data)
하모닉은 기존에 존재하는 Mathlib·논문·인터넷 수학 데이터만으로는 부족하다고 판단.
결국 AI가 자체적으로 수많은 문제를 만들어(자기 출제) 풀고(자기 해결), 검증하는 루프를 통해 데이터를 생성해야 함.
이렇게 “증명 난이도”도 점차 높이는 방식으로 점진적 자기학습을 구현.
목표: 인간 지식의 경계를 확장
당장에는 “AI 수학 연구자”가 되어, 대형 난제를 푸는 데 기여. (예: 밀레니엄 문제, 리만 가설, 나브-스톡스 등)
그 과정에서 형성되는 “수리 추론 능력”이 결국 물리학, 이론 과학, 소프트웨어 검증 등으로 확장될 것.
추후에는 “소프트웨어를 자동으로 완벽 검증”하는 시대가 도래할 가능성이 높음.
소프트웨어 엔지니어링 패러다임 전환
인간이 직접 코드를 작성하고 검토하던 방식에서, 앞으로는 “사양(스펙)” 위주로 협업하고, 실제 코드 구현과 검증은 거의 AI가 수행.
비용이 비싸고 복잡했던 “포멀 검증(formal verification)”도 AI 덕분에 저비용·자동화로 전환될 수 있음.
기술적으로 남은 과제
아직 Lean과 Mathlib이 일부 분야(예: 기하학, 물리 등)에선 라이브러리가 제한적.
“AI가 자동으로 새로운 이론·공리를 정의하고, 이를 다시 Lean에 포섭”하는 작업이 완전히 자동화되려면 연구가 더 필요.
그러나 1~2년 이내에 “IMO 수준(국제수학올림피아드 우승 수준)”을 달성할 수 있고, 그 후 매우 빠른 속도로 성장할 것이라는 전망.
https://youtu.be/NvAxuCIBb-c
https://youtu.be/KYzYOPkxLis
글로벌 AI 인프라 & 대형 투자 경쟁
GPU 수요 폭증과 캐파(Capacity) 한계:
x.ai(Elon Musk)나 Anthropic(아마존 후원), Google(DeepMind), Meta 등 초거대 모델들이 모두 GPU 증설 경쟁.
제조사(Nvidia 등)의 연간 GPU 생산능력을 감안할 때, 대규모 신규 프로젝트(Stargate 등)는 결국 GPU·전력·메모리·엔지니어링이 병목이 될 것으로 보임.
이 과정에서 Nvidia의 수요가 더욱 증가, 기업 매출 기대치 상승.
Innovation vs. Commoditization:
일부 전문가는 규모의 경제와 뭉칫돈이 모이면, 곧 AI 모델들의 ‘유사 Commoditization’이 올 수 있다고 지적.
그러나 Sam Altman(오픈AI), Elon Musk(x.ai)처럼 “막대한 자본+독보적 모델링·데이터” 조합이 결국 승자로 귀결될 것이라는 전망도 공존.
국가 경쟁구도:
미국이 대규모 AI compute 센터 건설에 박차를 가하면, Meta·Google·Microsoft 등 자국 테크 기업도 대응 Capex 증설이 불가피.
중국은 어쩔 수 없이 ‘제한된 칩 환경’에서 혁신(압축 모델·증류 모델 등)을 가속화 중. DeepSeek 사례가 대표적.
대담자들은 현행 수출 제한이 오히려 중국 측에 창의적 솔루션을 유도할 수 있다고 지적.
전력 수요가 기가와트(GW) 급:
10만 GPU 수준의 ‘AI 팩토리’도 100MW 이상의 전력이 소요된다고 알려져 있습니다.
그 이상의 규모가 되면 최대 1GW에 이르는 전력 인프라도 필요합니다(참고로, 1GW는 약 100만 가구가 사용하는 전력량에 해당).
수 GW 규모의 부지·전력·냉각 인프라를 건설할 수 있어야 “매우 크다”고 평가하게 됩니다.
수백억~수천억 달러급 투자 규모:
엔비디아 H100 GPU 1장만 해도 약 2~3만 달러, 서버·냉각·네트워킹·부지 등을 종합하면 GPU 1장당 4~5만 달러의 Total System Cost가 든다는 추정이 있습니다.
예컨대 10만 장만 해도, 하드웨어·인프라 비용이 50억 달러에 달하고, 실제로는 전력 설비/시공 비용 등이 더해져 그 2~3배로 뛸 가능성이 높습니다.
SoftBank(Arm)와 OpenAI의 협업이 구체화될 경우, 수십만 장 GPU 사용, 수백억 달러급 Capex가 들어갈 수 있어 “초대형”이라 평가되는 것입니다.
AI Helm vs. Micro-model 혁신
딥씨크(DeepSeek) 등은 제한된 GPU로도 고성능 모델 달성(모델 압축·증류 기법) → 규제가 역설적으로 혁신.
중요 실행 과제
전력 확보(7GW~10GW 이상), GPU 생산할 팹 캐파(3nm 공정), 대규모 HBM 공급, 냉각·케이블 인프라 등 종합적 차원의 협업 필요.
미국 대형 테크 기업(구글, 메타, 아마존, x.ai)도 혹독한 Capex 경쟁 예상.
반도체 생산 캐파(Capacity) 자체 확충:
GPU·AI용 ASIC 등 생산을 담당하는 파운드리(주로 TSMC)나 인텔·삼성전자가 3nm·2nm 공정으로 대량 양산할 수 있도록 공장라인·장비(ASML 노광장비 등)를 증설해야 함.
CPU 생산의 경우도 Arm 아키텍처 기반 SoC를 대규모로 만들려면, 파운드리와의 협업·투자 필요.
HBM(고대역폭 메모리) 등 보조 부품의 안정적 조달망 구축:
AI 서버에는 GPU뿐 아니라 대용량 HBM 메모리가 필수인데, HBM 제조(삼성·하이닉스 등)는 캐파가 제한적임.
실제로 2023년~2024년 전 세계 HBM이 공급 부족이 될 수 있다는 우려가 꾸준히 제기되었습니다.
따라서 AI 기업들은 “CPU/GPU칩+HBM+Advanced Packaging” 등 전체 반도체 공급망을 장기 계약·직접 투자 등으로 확보해야 하며, 이것을 “반도체 파이프라인 확충”이라 부릅니다.
글로벌 AI 인프라 & 대형 투자 경쟁
GPU 수요 폭증과 캐파(Capacity) 한계:
x.ai(Elon Musk)나 Anthropic(아마존 후원), Google(DeepMind), Meta 등 초거대 모델들이 모두 GPU 증설 경쟁.
제조사(Nvidia 등)의 연간 GPU 생산능력을 감안할 때, 대규모 신규 프로젝트(Stargate 등)는 결국 GPU·전력·메모리·엔지니어링이 병목이 될 것으로 보임.
이 과정에서 Nvidia의 수요가 더욱 증가, 기업 매출 기대치 상승.
Innovation vs. Commoditization:
일부 전문가는 규모의 경제와 뭉칫돈이 모이면, 곧 AI 모델들의 ‘유사 Commoditization’이 올 수 있다고 지적.
그러나 Sam Altman(오픈AI), Elon Musk(x.ai)처럼 “막대한 자본+독보적 모델링·데이터” 조합이 결국 승자로 귀결될 것이라는 전망도 공존.
국가 경쟁구도:
미국이 대규모 AI compute 센터 건설에 박차를 가하면, Meta·Google·Microsoft 등 자국 테크 기업도 대응 Capex 증설이 불가피.
중국은 어쩔 수 없이 ‘제한된 칩 환경’에서 혁신(압축 모델·증류 모델 등)을 가속화 중. DeepSeek 사례가 대표적.
대담자들은 현행 수출 제한이 오히려 중국 측에 창의적 솔루션을 유도할 수 있다고 지적.
전력 수요가 기가와트(GW) 급:
10만 GPU 수준의 ‘AI 팩토리’도 100MW 이상의 전력이 소요된다고 알려져 있습니다.
그 이상의 규모가 되면 최대 1GW에 이르는 전력 인프라도 필요합니다(참고로, 1GW는 약 100만 가구가 사용하는 전력량에 해당).
수 GW 규모의 부지·전력·냉각 인프라를 건설할 수 있어야 “매우 크다”고 평가하게 됩니다.
수백억~수천억 달러급 투자 규모:
엔비디아 H100 GPU 1장만 해도 약 2~3만 달러, 서버·냉각·네트워킹·부지 등을 종합하면 GPU 1장당 4~5만 달러의 Total System Cost가 든다는 추정이 있습니다.
예컨대 10만 장만 해도, 하드웨어·인프라 비용이 50억 달러에 달하고, 실제로는 전력 설비/시공 비용 등이 더해져 그 2~3배로 뛸 가능성이 높습니다.
SoftBank(Arm)와 OpenAI의 협업이 구체화될 경우, 수십만 장 GPU 사용, 수백억 달러급 Capex가 들어갈 수 있어 “초대형”이라 평가되는 것입니다.
AI Helm vs. Micro-model 혁신
딥씨크(DeepSeek) 등은 제한된 GPU로도 고성능 모델 달성(모델 압축·증류 기법) → 규제가 역설적으로 혁신.
중요 실행 과제
전력 확보(7GW~10GW 이상), GPU 생산할 팹 캐파(3nm 공정), 대규모 HBM 공급, 냉각·케이블 인프라 등 종합적 차원의 협업 필요.
미국 대형 테크 기업(구글, 메타, 아마존, x.ai)도 혹독한 Capex 경쟁 예상.
반도체 생산 캐파(Capacity) 자체 확충:
GPU·AI용 ASIC 등 생산을 담당하는 파운드리(주로 TSMC)나 인텔·삼성전자가 3nm·2nm 공정으로 대량 양산할 수 있도록 공장라인·장비(ASML 노광장비 등)를 증설해야 함.
CPU 생산의 경우도 Arm 아키텍처 기반 SoC를 대규모로 만들려면, 파운드리와의 협업·투자 필요.
HBM(고대역폭 메모리) 등 보조 부품의 안정적 조달망 구축:
AI 서버에는 GPU뿐 아니라 대용량 HBM 메모리가 필수인데, HBM 제조(삼성·하이닉스 등)는 캐파가 제한적임.
실제로 2023년~2024년 전 세계 HBM이 공급 부족이 될 수 있다는 우려가 꾸준히 제기되었습니다.
따라서 AI 기업들은 “CPU/GPU칩+HBM+Advanced Packaging” 등 전체 반도체 공급망을 장기 계약·직접 투자 등으로 확보해야 하며, 이것을 “반도체 파이프라인 확충”이라 부릅니다.
YouTube
Stargate, Executive Orders, TikTok, DOGE, Public Valuations | BG2 w/ Bill Gurley & Brad Gerstner
Open Source bi-weekly convo w/ Bill Gurley and Brad Gerstner on all things tech, markets, investing & capitalism. This week they are joined by a surprise guest, and discuss Stargate, executive orders, TikTok, DOGE, Public Valuations & more. Enjoy another…
👍1
https://youtu.be/7EH0VjM3dTk
1. AI Diffusion Rule (미국 상무부 규제) 개요
배경:
2022년 10월 발표된 미국의 대(對)중국 반도체 수출 규제(“October 2022 rules”)가 있었음.
지금까지 여러 차례 개정·보완되면서, 2023년 말 “AI Diffusion Rule”이 추가돼 중국·제3국 등에서의 초거대 모델(Frontier Model) 개발·시행이 크게 제한됨.
딜런 파텔은 “이번 규제가 과거 어떤 규제보다 더 광범위하고 강도 높다”며, 미국이 AI 헤게모니를 공고히 하려는 의도라고 지적.
핵심 내용 및 영향:
클라우드 제공자(특히 미국 기업)는 “비우방국”에서 GPU를 5만 개 이상 구매·활용하지 못하도록 규정.
미국 외 국가(예: 말레이시아)에 대규모 데이터센터를 구축하는 것도, 규정 준수(감시·신고 의무 등)가 강화되어 점차 어려워짐.
딜런은 이 규제가 미국 빅테크·하이퍼스케일러(예: Microsoft, Google, Meta, Amazon)나 코어위브(CoreWeave) 등 소수 클라우드에 오히려 유리하게 작용한다고 설명.
작은 클라우드는 규제 준수 및 GPU 조달이 매우 어려워져 경쟁력이 약화.
장기적으로 중국은 자체 반도체·클라우드 인프라를 강제 육성할 가능성이 있음.
Goldilocks 접근:
딜런은 규제의 골디락스(hard하되 너무 지나치지는 않은) 지점이 중요하다고 봄.
지나치게 강하면 중국이 더 강력하게 독자 반도체·클라우드 기술을 육성할 수 있고, 반대급부로 미국 내 혁신도 저해될 가능성이 존재.
2. 대규모 데이터센터(“AI 팩토리”)·클러스터 구축 동향
GPU 클러스터 규모:
GPT-4(2022년 말)는 약 20k~30k A100 GPU로 훈련되었다고 추정(총 전력 20MW 수준).
현재는 100k GPU(주로 Nvidia h100) 규모 클러스터가 오픈AI, Meta, x.ai 등에서 활용되며, 전력 150MW 넘게 소요.
2026~2027년에는 기가와트(GW) 단위 전력을 갖춘 초거대 “AI 팩토리”가 속속 등장할 전망(예: 메타는 2GW, 엑사이 x.ai는 1GW 목표).
Elon Musk의 x.ai 사례 (멤피스 공장):
엑사이는 기존 가전 공장을 매입해 대규모 AI 데이터센터로 긴급 전환, 자체 발전시설(NG발전기+테슬라 배터리) 구축, 수도·냉각 문제 등 해결.
전력·설비·냉각 등 난제가 있지만, “환경 규제보단 속도”라는 관점으로 초고속 구축을 추진.
심지어 클러스터를 운용 중 전력 수요가 급락↔급등할 때를 대비해, “가짜 연산”을 넣어 전력 안정화를 유지한다는 일화가 소개됨.
가장 큰 병목: 전력망·부지 허가(규제)·반도체 제조·냉각·네트워킹 등 종합적 관점.
딜런은 “미국 내 전력망·인프라 규제 완화가 시급하며, 빠른 데이터센터 증설이 필요하다”고 강조.
3. 중국 AI 반도체·모델의 향방
규제가 적용된 중국:
구체적으로 중국 기업은 최첨단 GPU 구매 한도가 연 5만 개로 제한 등.
이를 우회하기 위해 셸 컴퍼니(1,700개 이하 칩 구매) 등을 통한 편법 조달 가능성은 존재해도, 점점 어려워지는 추세.
딜런은 DeepSeek, Alibaba 등 중국 AI 랩이 “뛰어난 아키텍처·엔지니어링”으로 제한된 컴퓨팅에서 효율을 극대화할 것이지만, 결국 미국 대비 수십~수백억 달러 규모의 Capex 차이가 커지는 문제.
말레이시아나 중립국에 데이터센터 건설:
규제 강화로 인해 말레이시아에서 건설 중이던 대규모 AI 데이터센터 등이 불확실해짐.
미국은 “동맹국 중심”의 클라우드만 허용하겠다는 기조이며, 그 외 국가(원1, 원2 구분)에 대해선 복잡한 규정과 할당량을 적용.
4. AI 모델 진화: 테스트 타임 컴퓨트(Test-time Compute) / Reasoning
새로운 패러다임:
전통적으로 “모델 파라미터를 늘리는 전통적 스케일링” 대신, 사후훈련(post-training)과 Test-time Compute(즉 체이닝된 추론·Reasoning) 중요성이 부상.
이는 모델 추론(Inference)에서도 엄청난 연산(“추론 비용”)이 필요해, 수백억 달러 규모 GPU 인프라가 필수.
데이터 증류(Synthetic Data Generation) 역할:
대규모 모델들은 GPT-4 등을 활용해 합성 데이터를 만들고, 그중 정확한 샘플만 다시 훈련에 활용(“Reasoning 사후훈련”).
이는 중국 등도 적극 시도하는데, 규제하에서 얼마나 규모 있게 확장할지는 미지수.
“Open Source” vs. “Closed”
메타가 llama를 공개했으나, 실제 최고성능(예: llama4)까지 오픈소스할지는 불투명.
Reasoning 능력을 높인 첨단 모델(예: GPT-5, Claude Next, OO 시리즈 등)의 추론 비용이 매우 비싸져, 자본집약적 투자만이 가능해지는 구조.
5. 기업/하이퍼스케일러별 대응 전략
Anthropic와 트레이늄(Trainium) 사례:
‘아마존 베이식(기본형)’ TPU라는 별칭인 트레이늄을 활용하는 앤트로픽.
비용 절감을 위해 GPU 대신 트레이늄(성능은 상대적 열세이지만 AWS와 제휴·투자유치)을 택함.
이러한 전략이 장기적으로 합리적인지 불확실하나, 당장은 “강력 자본 + 할인된 인프라”가 매력 요인.
OpenAI의 자체칩 설계 가능성:
현재 Nvidia 독주체제지만, OpenAI가 더 규모가 커진다면(매출 수백억 달러 단위) 자체 칩 설계를 본격화할 수 있음.
여타 하이퍼스케일러(아마존, 구글, 메타 등)처럼, ‘칩 팀’의 존재 자체가 협상력 상승효과를 노리는 면도 있음.
CoreWeave 성장 비결:
엔비디아의 “GPU 물량 할당+소액 투자”를 통해 초기 물량을 확보.
민첩한 설계(예: 데이터센터 구축 속도, 클라우드 소프트웨어 최적화)로 기존 빅클라우드를 능가하는 특정 역량 보유.
ESG보다는 “고속 구축”을 강점으로 내세워 페이스를 높임.
6. 미래 전망 및 결론
1. 규제 + 인프라 + 연구 패러다임:
미국 내 AI 데이터센터 인프라 투자가 폭발적 증가(수천억 달러 규모). 규제로 인해 글로벌 클라우드 시장은 소수 미국 기업이 독점 강화할 수도 있음.
중·장기적으로 중국은 자체 기술 진화(다른 경로의 혁신)로 추격 가능성도 열려 있음.
2. 분산 훈련, 테스트타임 컴퓨트, 에너지 공급:
모델 자체가 “Reasoning 체인” 방식을 채택해 추론 비용 급증 → 대규모 전력·냉각·네트워킹 병목 발생.
미국 내 전력 인프라 확충, 규제 완화, 친(親) 데이터센터 정책이 중요하다는 의견.
3. 하드웨어 스타트업·소프트웨어 인프라 기회:
새로운 AI 반도체(에치드, 마덱스, 등) 및 분산 훈련 스타트업이 등장 중이지만, Nvidia 등 기존 강자 대비 “사용 모델 생태계” 이점이 부족.
Infra 레이어(효율적인 AI serving, 분산 훈련, 레이턴시·중간 캐싱 기술 등)은 큰 투자·혁신 여지가 있다고 봄.
거시 시사점:
미국은 “스스로 더 빨리 (infrastructure를) 짓고 에너지를 확대하여 승리”하는 방향으로 가야 한다고 딜런은 주장.
중국, 중동, 동남아 등 다양한 AI 허브 시도가 있었지만, 이번 광범위 규제로 상당 부분 제약.
1. AI Diffusion Rule (미국 상무부 규제) 개요
배경:
2022년 10월 발표된 미국의 대(對)중국 반도체 수출 규제(“October 2022 rules”)가 있었음.
지금까지 여러 차례 개정·보완되면서, 2023년 말 “AI Diffusion Rule”이 추가돼 중국·제3국 등에서의 초거대 모델(Frontier Model) 개발·시행이 크게 제한됨.
딜런 파텔은 “이번 규제가 과거 어떤 규제보다 더 광범위하고 강도 높다”며, 미국이 AI 헤게모니를 공고히 하려는 의도라고 지적.
핵심 내용 및 영향:
클라우드 제공자(특히 미국 기업)는 “비우방국”에서 GPU를 5만 개 이상 구매·활용하지 못하도록 규정.
미국 외 국가(예: 말레이시아)에 대규모 데이터센터를 구축하는 것도, 규정 준수(감시·신고 의무 등)가 강화되어 점차 어려워짐.
딜런은 이 규제가 미국 빅테크·하이퍼스케일러(예: Microsoft, Google, Meta, Amazon)나 코어위브(CoreWeave) 등 소수 클라우드에 오히려 유리하게 작용한다고 설명.
작은 클라우드는 규제 준수 및 GPU 조달이 매우 어려워져 경쟁력이 약화.
장기적으로 중국은 자체 반도체·클라우드 인프라를 강제 육성할 가능성이 있음.
Goldilocks 접근:
딜런은 규제의 골디락스(hard하되 너무 지나치지는 않은) 지점이 중요하다고 봄.
지나치게 강하면 중국이 더 강력하게 독자 반도체·클라우드 기술을 육성할 수 있고, 반대급부로 미국 내 혁신도 저해될 가능성이 존재.
2. 대규모 데이터센터(“AI 팩토리”)·클러스터 구축 동향
GPU 클러스터 규모:
GPT-4(2022년 말)는 약 20k~30k A100 GPU로 훈련되었다고 추정(총 전력 20MW 수준).
현재는 100k GPU(주로 Nvidia h100) 규모 클러스터가 오픈AI, Meta, x.ai 등에서 활용되며, 전력 150MW 넘게 소요.
2026~2027년에는 기가와트(GW) 단위 전력을 갖춘 초거대 “AI 팩토리”가 속속 등장할 전망(예: 메타는 2GW, 엑사이 x.ai는 1GW 목표).
Elon Musk의 x.ai 사례 (멤피스 공장):
엑사이는 기존 가전 공장을 매입해 대규모 AI 데이터센터로 긴급 전환, 자체 발전시설(NG발전기+테슬라 배터리) 구축, 수도·냉각 문제 등 해결.
전력·설비·냉각 등 난제가 있지만, “환경 규제보단 속도”라는 관점으로 초고속 구축을 추진.
심지어 클러스터를 운용 중 전력 수요가 급락↔급등할 때를 대비해, “가짜 연산”을 넣어 전력 안정화를 유지한다는 일화가 소개됨.
가장 큰 병목: 전력망·부지 허가(규제)·반도체 제조·냉각·네트워킹 등 종합적 관점.
딜런은 “미국 내 전력망·인프라 규제 완화가 시급하며, 빠른 데이터센터 증설이 필요하다”고 강조.
3. 중국 AI 반도체·모델의 향방
규제가 적용된 중국:
구체적으로 중국 기업은 최첨단 GPU 구매 한도가 연 5만 개로 제한 등.
이를 우회하기 위해 셸 컴퍼니(1,700개 이하 칩 구매) 등을 통한 편법 조달 가능성은 존재해도, 점점 어려워지는 추세.
딜런은 DeepSeek, Alibaba 등 중국 AI 랩이 “뛰어난 아키텍처·엔지니어링”으로 제한된 컴퓨팅에서 효율을 극대화할 것이지만, 결국 미국 대비 수십~수백억 달러 규모의 Capex 차이가 커지는 문제.
말레이시아나 중립국에 데이터센터 건설:
규제 강화로 인해 말레이시아에서 건설 중이던 대규모 AI 데이터센터 등이 불확실해짐.
미국은 “동맹국 중심”의 클라우드만 허용하겠다는 기조이며, 그 외 국가(원1, 원2 구분)에 대해선 복잡한 규정과 할당량을 적용.
4. AI 모델 진화: 테스트 타임 컴퓨트(Test-time Compute) / Reasoning
새로운 패러다임:
전통적으로 “모델 파라미터를 늘리는 전통적 스케일링” 대신, 사후훈련(post-training)과 Test-time Compute(즉 체이닝된 추론·Reasoning) 중요성이 부상.
이는 모델 추론(Inference)에서도 엄청난 연산(“추론 비용”)이 필요해, 수백억 달러 규모 GPU 인프라가 필수.
데이터 증류(Synthetic Data Generation) 역할:
대규모 모델들은 GPT-4 등을 활용해 합성 데이터를 만들고, 그중 정확한 샘플만 다시 훈련에 활용(“Reasoning 사후훈련”).
이는 중국 등도 적극 시도하는데, 규제하에서 얼마나 규모 있게 확장할지는 미지수.
“Open Source” vs. “Closed”
메타가 llama를 공개했으나, 실제 최고성능(예: llama4)까지 오픈소스할지는 불투명.
Reasoning 능력을 높인 첨단 모델(예: GPT-5, Claude Next, OO 시리즈 등)의 추론 비용이 매우 비싸져, 자본집약적 투자만이 가능해지는 구조.
5. 기업/하이퍼스케일러별 대응 전략
Anthropic와 트레이늄(Trainium) 사례:
‘아마존 베이식(기본형)’ TPU라는 별칭인 트레이늄을 활용하는 앤트로픽.
비용 절감을 위해 GPU 대신 트레이늄(성능은 상대적 열세이지만 AWS와 제휴·투자유치)을 택함.
이러한 전략이 장기적으로 합리적인지 불확실하나, 당장은 “강력 자본 + 할인된 인프라”가 매력 요인.
OpenAI의 자체칩 설계 가능성:
현재 Nvidia 독주체제지만, OpenAI가 더 규모가 커진다면(매출 수백억 달러 단위) 자체 칩 설계를 본격화할 수 있음.
여타 하이퍼스케일러(아마존, 구글, 메타 등)처럼, ‘칩 팀’의 존재 자체가 협상력 상승효과를 노리는 면도 있음.
CoreWeave 성장 비결:
엔비디아의 “GPU 물량 할당+소액 투자”를 통해 초기 물량을 확보.
민첩한 설계(예: 데이터센터 구축 속도, 클라우드 소프트웨어 최적화)로 기존 빅클라우드를 능가하는 특정 역량 보유.
ESG보다는 “고속 구축”을 강점으로 내세워 페이스를 높임.
6. 미래 전망 및 결론
1. 규제 + 인프라 + 연구 패러다임:
미국 내 AI 데이터센터 인프라 투자가 폭발적 증가(수천억 달러 규모). 규제로 인해 글로벌 클라우드 시장은 소수 미국 기업이 독점 강화할 수도 있음.
중·장기적으로 중국은 자체 기술 진화(다른 경로의 혁신)로 추격 가능성도 열려 있음.
2. 분산 훈련, 테스트타임 컴퓨트, 에너지 공급:
모델 자체가 “Reasoning 체인” 방식을 채택해 추론 비용 급증 → 대규모 전력·냉각·네트워킹 병목 발생.
미국 내 전력 인프라 확충, 규제 완화, 친(親) 데이터센터 정책이 중요하다는 의견.
3. 하드웨어 스타트업·소프트웨어 인프라 기회:
새로운 AI 반도체(에치드, 마덱스, 등) 및 분산 훈련 스타트업이 등장 중이지만, Nvidia 등 기존 강자 대비 “사용 모델 생태계” 이점이 부족.
Infra 레이어(효율적인 AI serving, 분산 훈련, 레이턴시·중간 캐싱 기술 등)은 큰 투자·혁신 여지가 있다고 봄.
거시 시사점:
미국은 “스스로 더 빨리 (infrastructure를) 짓고 에너지를 확대하여 승리”하는 방향으로 가야 한다고 딜런은 주장.
중국, 중동, 동남아 등 다양한 AI 허브 시도가 있었지만, 이번 광범위 규제로 상당 부분 제약.
YouTube
SemiAnalysis Founder Dylan Patel on New AI Regulations, Chinese AI & xAI's Surge to Hyperscale
In this episode of Unsupervised Learning, we sit down with Dylan Patel, Chief Analyst at SemiAnalysis, to break down what these sweeping changes really mean. From how they consolidate power among Big Tech to China's narrowing options for AI dominance, we…
https://youtu.be/pE3KKUKXcTM
2. “시진핑이 AGI에 올인한다면?” (중국의 AI·반도체 역량)
질문: “시진핑이 스케일에 집착(‘scaling-pilled’)해, AI에 전폭 투자하려 한다면 어떻게 할까?”
Dylan: 핵심은 하드웨어·소프트웨어·데이터 모든 레이어에서 ‘집중’(centralization)할 수 있는 능력.
중국은 이미 전력·공급망·인프라를 빠르게 확장해 대규모 데이터센터를 지을 수 있음(예: 10GW급 규모도 가능).
문제: 아직 중국 내 AI 기업들이 대규모 단일 클러스터(10만~30만 GPU급)를 한곳에 모아 훈련하는 사례는 없었음.
만약 당국이 GPU 조달을 통합·관리한다면(수입+내수 반도체), 미국 빅테크 이상의 ‘초거대 클러스터’를 건설 가능.
중국 반도체 산업
SMIC 등이 7nm ~ 5nm급을 공정상 어려움(이유: EUV 등)이 있으나, 중국 특유의 ‘집요함’·‘간부급 영입’ 문화로 빠른 추격.
“화웨이(HiSilicon)는 현존 기업 중 가장 ‘크랙’된 역량을 지님.” (핵심 기술 없이도 5G 등에서 세계 최고 성과)
부품·장비·제조 전 영역에서 산업 스파이+국가 지원으로 발전, “무시하면 안 된다.”
수출통제의 효과
Dylan: “제대로 막으려면 ‘장비·프로세스 전면차단’해야 하는데, 현실은 중국의 기술 개발 의지만 더 부추김.”
여전히 SMIC 등은 7nm 공정 장비를 해외에서 조달하고, 인재 영입으로 기어이 만들고 있음.
3. 전 세계 반도체·AI 칩 생산과 대규모 데이터센터 전망
미국·유럽 vs. 중국: 누가 더 먼저 ‘1GW~10GW급 AI 데이터센터’를 세울까?
미국은 엔터프라이즈·빅테크(MS, 구글, 메타 등)가 “분산” 형태로 각자 대형 클러스터를 운영.
중국은 국가 주도로 “집중” 투자가 가능. 다만, 아직은 실제로 대규모 단일 클러스터가 나온 적 없음.
Dylan: “중국이 진짜 마음먹고 추진하면, 전력 인프라·공사 속도·GPU 집중 측면에서 미국을 앞설 수도 있다.”
클러스터 규모 추이
2023년: OpenAI, xAI 등 대략 10만 GPU급(예: H100) 클러스터 → 20242025년엔 3050만 GPU 규모(또는 더 큼).
NVIDIA는 연간 수백만 개 GPU 생산. 극히 일부(수십~수백만)가 대형 AI 클러스터에 투입될 전망.
2026년 이후: 미국 내 1GW, 2~3GW 등 초거대 AI 데이터센터 여럿 등장할 가능성.
“20282029년이면 단일 모델 훈련 총 FLOPs가 GPT-4 대비 수천수만 배(1e30 수준)로 갈 수 있다.” (Dylan 추정)
TSMC/삼성 파운드리의 역할
차세대 공정(5→3→2nm)은 비용 급증과 기술 한계 때문에 “경제성이 사라졌다”고 보는 이들도 있음.
그러나 AI·GPU 수요 폭증이 결국 2nm 등 초미세 공정의 대규모 증설에 정당성을 부여할 것.
“결국 TSMC는 AI 칩 수요를 위해서 2nm 라인 확장할 듯. (애플 단일 고객만으로는 감당 어려운 규모)”
4. 반도체 제조 산업의 극단적 복잡성
분화된 공급망: 웨이퍼, 노광(리소그래피), 에칭, 소재(포토레지스트, Cu interconnect 등), 패키징 등 수천 단계.
이 분야의 지식 격차:
“AI는 개인이 논문·코드로 빠르게 자습 가능하지만, 반도체는 방대한 기업 내부 노하우+특허+장비 매뉴얼로 외부 접근 어려움.”
대형 장비(ASML EUV 등) 하나하나에 수십 년 축적된 장인·학자·엔지니어의 “마스터-견습” 체계가 존재.
R&D와 제조 현장의 ‘장인 문화’
예: TSMC 인력 대다수 고학력(석박사) + 반영구식 야근·설비 실험.
어느 한 사람만이 전체 공정을 아는 것이 아니라, 각 단계 전문팀이 협업해 전체 프로세스 완성.
5. AI 산업과 반도체의 상호작용
GPU 아키텍처 ↔ 모델 구조
“GPU의 메모리 대역폭이 제한적이면, 중국 쪽 모델은 더 압축·특화된 구조를 채택할 수도 있음.”
구글 TPU vs. NVIDIA GPU vs. 화웨이 Ascend 등 각자 하드웨어 특성에 맞춰 모델 설계가 달라짐.
아키텍처 혁신의 잠재력
“현 GPU/TPU는 전력의 대부분이 데이터 이동에 쓰임. 근본적 구조 개선(Compute-In-Memory 등) 가능.”
반도체 설계 자동화(EDA)와 AI 결합 → 100배 이상 성능·전력 효율 끌어올릴 기회 존재.
미래 전망
거대 모델의 훈련·서치·합성데이터 생성 등 ‘추가 FLOPs’ 소요로 인해, 공정 미세화와 칩 설계 혁신 지속 가속.
“메모리 혁신(차세대 HBM 등), 아키텍처 개편, 첨단 패키징이 모두 병행돼야 한다.”
6. “버블인가, 진짜 기회인가?”
**Pascal's Wager(파스칼 내기)**를 빗댄 설명
“AI 투자 안 했다가 뒤처지면 망하지만, 투자했다 실패해도 그나마 덜 망한다.”
대형 빅테크·투자기관 모두 AI에 ‘올인’ 중 (Satya Nadella, Sundar Pichai, Mark Zuckerberg 등).
1990년대 닷컴버블처럼 과잉투자일 수도 있지만, “인프라가 깔리면 후발 혁신은 계속 나타난다.”
수익성 vs. 확장 속도
단기적으로는 GPU·데이터센터 비용 > AI 매출, 그러나 한 번 대형 모델 성공 시 천문학적 ROI 기대.
“GPT-4 훈련비용 약 5억 달러, 추정 매출 수십~수백억 달러 예상” → 투자유치로 또 다음 모델 훈련 가능.
2. “시진핑이 AGI에 올인한다면?” (중국의 AI·반도체 역량)
질문: “시진핑이 스케일에 집착(‘scaling-pilled’)해, AI에 전폭 투자하려 한다면 어떻게 할까?”
Dylan: 핵심은 하드웨어·소프트웨어·데이터 모든 레이어에서 ‘집중’(centralization)할 수 있는 능력.
중국은 이미 전력·공급망·인프라를 빠르게 확장해 대규모 데이터센터를 지을 수 있음(예: 10GW급 규모도 가능).
문제: 아직 중국 내 AI 기업들이 대규모 단일 클러스터(10만~30만 GPU급)를 한곳에 모아 훈련하는 사례는 없었음.
만약 당국이 GPU 조달을 통합·관리한다면(수입+내수 반도체), 미국 빅테크 이상의 ‘초거대 클러스터’를 건설 가능.
중국 반도체 산업
SMIC 등이 7nm ~ 5nm급을 공정상 어려움(이유: EUV 등)이 있으나, 중국 특유의 ‘집요함’·‘간부급 영입’ 문화로 빠른 추격.
“화웨이(HiSilicon)는 현존 기업 중 가장 ‘크랙’된 역량을 지님.” (핵심 기술 없이도 5G 등에서 세계 최고 성과)
부품·장비·제조 전 영역에서 산업 스파이+국가 지원으로 발전, “무시하면 안 된다.”
수출통제의 효과
Dylan: “제대로 막으려면 ‘장비·프로세스 전면차단’해야 하는데, 현실은 중국의 기술 개발 의지만 더 부추김.”
여전히 SMIC 등은 7nm 공정 장비를 해외에서 조달하고, 인재 영입으로 기어이 만들고 있음.
3. 전 세계 반도체·AI 칩 생산과 대규모 데이터센터 전망
미국·유럽 vs. 중국: 누가 더 먼저 ‘1GW~10GW급 AI 데이터센터’를 세울까?
미국은 엔터프라이즈·빅테크(MS, 구글, 메타 등)가 “분산” 형태로 각자 대형 클러스터를 운영.
중국은 국가 주도로 “집중” 투자가 가능. 다만, 아직은 실제로 대규모 단일 클러스터가 나온 적 없음.
Dylan: “중국이 진짜 마음먹고 추진하면, 전력 인프라·공사 속도·GPU 집중 측면에서 미국을 앞설 수도 있다.”
클러스터 규모 추이
2023년: OpenAI, xAI 등 대략 10만 GPU급(예: H100) 클러스터 → 20242025년엔 3050만 GPU 규모(또는 더 큼).
NVIDIA는 연간 수백만 개 GPU 생산. 극히 일부(수십~수백만)가 대형 AI 클러스터에 투입될 전망.
2026년 이후: 미국 내 1GW, 2~3GW 등 초거대 AI 데이터센터 여럿 등장할 가능성.
“20282029년이면 단일 모델 훈련 총 FLOPs가 GPT-4 대비 수천수만 배(1e30 수준)로 갈 수 있다.” (Dylan 추정)
TSMC/삼성 파운드리의 역할
차세대 공정(5→3→2nm)은 비용 급증과 기술 한계 때문에 “경제성이 사라졌다”고 보는 이들도 있음.
그러나 AI·GPU 수요 폭증이 결국 2nm 등 초미세 공정의 대규모 증설에 정당성을 부여할 것.
“결국 TSMC는 AI 칩 수요를 위해서 2nm 라인 확장할 듯. (애플 단일 고객만으로는 감당 어려운 규모)”
4. 반도체 제조 산업의 극단적 복잡성
분화된 공급망: 웨이퍼, 노광(리소그래피), 에칭, 소재(포토레지스트, Cu interconnect 등), 패키징 등 수천 단계.
이 분야의 지식 격차:
“AI는 개인이 논문·코드로 빠르게 자습 가능하지만, 반도체는 방대한 기업 내부 노하우+특허+장비 매뉴얼로 외부 접근 어려움.”
대형 장비(ASML EUV 등) 하나하나에 수십 년 축적된 장인·학자·엔지니어의 “마스터-견습” 체계가 존재.
R&D와 제조 현장의 ‘장인 문화’
예: TSMC 인력 대다수 고학력(석박사) + 반영구식 야근·설비 실험.
어느 한 사람만이 전체 공정을 아는 것이 아니라, 각 단계 전문팀이 협업해 전체 프로세스 완성.
5. AI 산업과 반도체의 상호작용
GPU 아키텍처 ↔ 모델 구조
“GPU의 메모리 대역폭이 제한적이면, 중국 쪽 모델은 더 압축·특화된 구조를 채택할 수도 있음.”
구글 TPU vs. NVIDIA GPU vs. 화웨이 Ascend 등 각자 하드웨어 특성에 맞춰 모델 설계가 달라짐.
아키텍처 혁신의 잠재력
“현 GPU/TPU는 전력의 대부분이 데이터 이동에 쓰임. 근본적 구조 개선(Compute-In-Memory 등) 가능.”
반도체 설계 자동화(EDA)와 AI 결합 → 100배 이상 성능·전력 효율 끌어올릴 기회 존재.
미래 전망
거대 모델의 훈련·서치·합성데이터 생성 등 ‘추가 FLOPs’ 소요로 인해, 공정 미세화와 칩 설계 혁신 지속 가속.
“메모리 혁신(차세대 HBM 등), 아키텍처 개편, 첨단 패키징이 모두 병행돼야 한다.”
6. “버블인가, 진짜 기회인가?”
**Pascal's Wager(파스칼 내기)**를 빗댄 설명
“AI 투자 안 했다가 뒤처지면 망하지만, 투자했다 실패해도 그나마 덜 망한다.”
대형 빅테크·투자기관 모두 AI에 ‘올인’ 중 (Satya Nadella, Sundar Pichai, Mark Zuckerberg 등).
1990년대 닷컴버블처럼 과잉투자일 수도 있지만, “인프라가 깔리면 후발 혁신은 계속 나타난다.”
수익성 vs. 확장 속도
단기적으로는 GPU·데이터센터 비용 > AI 매출, 그러나 한 번 대형 모델 성공 시 천문학적 ROI 기대.
“GPT-4 훈련비용 약 5억 달러, 추정 매출 수십~수백억 달러 예상” → 투자유치로 또 다음 모델 훈련 가능.
YouTube
@Asianometry & Dylan Patel — How the semiconductor industry actually works
Dylan Patel runs Semianalysis, the leading publication and research firm on AI hardware: https://www.semianalysis.com/. Jon Y runs @Asianometry, the world’s best YouTube channel on semiconductors and business history.
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Trannoscript: https:/…
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Trannoscript: https:/…
❤1
https://youtu.be/hobvps-H38o
AI 메가 클러스터(Mega Clusters)의 현황
2.1 마이크로소프트 & OpenAI의 예시
1. 애리조나 데이터센터
• 건물(“데이터 홀”) 하나당 전력 약 48MW, 내부에 3.2만 개 GPU(총 32k GPU) 탑재 가능.
• 여러 건물을 묶어 10만 개 GPU 규모도 구성.
• 빅 모델(GPT-4/5 등) 학습을 위해 설계된 전형적 구조.
2. 향후 확장
• 과거 단일 건물(50MW 전후)을 넘어, 300MW~1.5GW급 단일 부지 규모를 목표.
• 1.5GW급이면 약 100만(1e6) 개 GPU를 수용 가능 → GPT-4보다 훨씬 큰 규모의 모델.
3. 네트워킹 및 토폴로지
• 다층 스위치(rail-optimized vs. fat-tree) 구조로 고가용성/고대역폭 구현.
• Synchronous GD(동기 방식)에서 벗어나, Multi-datacenter를 묶을 수 있는 Asynchronous/파라미터 서버/계층적 SGD 기법에 대한 연구 활발.
• 지연(latency)보다는 대역폭 부족이 여러 데이터센터 연결 시 큰 문제.
2.2 구글 TPU 클러스터
1. 고집적·수랭(물냉각) 설계
• TPU는 전력 밀도가 크므로 일찍부터 물냉각, 높은 밀도 설계를 도입.
• 지역별(오하이오, 아이오와 등) 여러 데이터센터를 광통신으로 연결, 대규모 학습 시 하나의 분산 클러스터처럼 사용 계획.
2. 동기식에서 비동기식으로
• 동기식 학습 시 몇 만~몇 십 만 GPU(또는 TPU) 간 동기화 문제 발생.
• 구글 등은 “여러 데이터센터를 연결해 단일 거대 클러스터” 구성을 시도하나, 아직은 여러 연구 과제가 남아 있음.
2.3 xAI(Elon Musk) 사례
1. 멤피스 공장 활용
• 휴면 상태의 세탁기 공장 부지를 매입해 단기간에 AI 데이터센터로 개조.
• 인접 천연가스관과 이동형 발전기(디젤/가스)·이동형 냉각 장치를 설치 → 전력·냉각 인프라를 빠르게 확보.
• 보통 대형 클라우드 기업들은 이미지·평판 때문에 직접 이런 식으로 하진 않음(“녹색 에너지” 명분 때문).
• xAI는 일단 속도를 우선시 → 10만+ GPU 빠른 배치.
2. 차별점
• 최초로 NVIDIA GPU(GB200 등) 직수냉 모델을 대규모로 도입 예정. (일반적으로 air-cooled 또는 다른 구조)
• 네트워크도 이더넷 기반 등, 비정형적 방식 활용.
2.4 그 외 클라우드/코로케이션 업체
• 아마존(AWS): 전 세계 많은 부지에서 동시다발적 확장, CPU→GPU 전환.
• 오라클(Oracle): OpenAI와 협력해 200MW급 데이터센터, 장기적으로 1GW 확장.
• 메타(Meta): 구형 “H 형태” 데이터센터를 폐쇄 후, 고밀도 수랭 데이터센터로 재건축.
• 다른 수십~수백 개 중소/주권(“소버린”) 클라우드도 유사하게 GPU 호스팅 산업 참여 중.
3. 추론(Inference) 토큰 처리(tokenomics)와 최적화
3.1 추론 제공자(“토큰 팩토리”) 관점
• 대형 모델의 API 호출로 “토큰” 단위 과금 → 서버 GPU·메모리·네트워크를 일정 방식으로 할당.
• 추론 성능(throughput)은 배칭(batch size), 양자화(quantization), KV캐시 관리, 병렬화 등 최적화로 크게 좌우.
3.2 KV 캐시(KV Cache)의 영향
1. 모델 파라미터 vs. KV캐시
• 토큰을 생성할 때마다, “모델 파라미터(정적)” + “KV캐시(동적·유저별)” 모두 메모리에서 읽어옴.
• 배치가 커질수록(동시 유저↑) KV캐시 조회도 많아져, 메모리 대역폭 병목 발생.
2. 시퀀스 길이(Context Length) 증가
• 모델이 많은 reasoning(내부 토큰 생성을 숨긴다 해도) → 내부적으로 KV캐시가 커짐.
• 시퀀스 길이가 길어질수록, 배치 가능 크기가 줄고, 토큰당 처리 지연이 커져 사용자 경험 저하.
3. GQA(Grouped Query Attention) 등 기법
• llama 시리즈 등에서 GQA/MQA를 적용하면 KV캐시 크기를 줄이고, 병목을 완화.
• 예) 40~70B 파라미터 모델에서 GQA 적용 시, 같은 하드웨어로 배치 크기(동시 유저 수) 크게 증가 → 추론 비용 절감.
3.3 OpenAI “0.1/01” 모델과 비용
• Zero One(01) 모델: “실시간 내부 reasoning”으로 큰 시퀀스 길이.
• 기존 짧은 시퀀스(몇 K tokens)보다 10~40K 이상의 시퀀스 → 배치 효율 급감, 추론 비용 증가.
• 실제 API 가격도 GPT-4 대비 3~4배 비싼 이유 중 하나가 이 KV캐시/배치 비효율 문제.
4. Inference & Training 시뮬레이터 / TCO 모델
• 발표자는 자사(SemiAnalysis)에서 추론·훈련 시뮬레이터를 개발, “메모리 BW vs. 모델 크기 vs. 배치 vs. 시퀀스 길이” 등을 모의실험.
• 서버 월간 비용(예: h100 8-GPU 서버)
• 구입비 감가상각 + 금융비용 + 운영비(전력+쿨링+데이터센터 렌탈 등).
• 대부분의 비용(70~80% 이상)이 “GPU 구입”이므로, 전력 사용 여부(가동률)에 따른 추가 변동비는 상대적으로 작음.
• 따라서 “GPU를 100% 활용”하는 고배치/고효율이 수익성에 핵심.
5. 데이터센터 설계·전력 이슈 종합
1. 왜 각사 설계가 다른가?
• 역사적 유산, 내부 인프라, 냉각(수랭/공랭) 방식, GPU/TPU 아키텍처 차이 등으로 모두 상이.
• 메타는 H자형 구형 설계 폐기 후, 신형으로 교체. 구글은 TPU 고밀도 수랭을 일찍 시작. xAI는 급조(공장+이동식 발전기).
• 최적 설계는 존재하지 않으며, 대다수가 “시간 압박/유연성/PR(환경)” 등을 절충.
2. 모두 ‘천연가스·석탄’ 의존?
• 실제 전력은 화석연료 기반이 대부분. ESG 명분으로 태양광 등 구매(PPA)는 하나 실제 물리적 공급 전력은 대부분 가스.
• 대규모 발전소(최대수 GW)와 부지 연결이 관건. 서구 국가들은 전력망 증설이 느려, 3~4년씩 대기가 발생.
3. 마이크로그리드/원전/해상 데이터센터 등
• 엘론처럼 자체 발전기 사용 “마이크로그리드” 시도도 있지만 규제·실무 상 어려움 큼.
• 해상/우주 등은 GPU 안정성·유지보수 측면에서 비현실적.
• 원전 직접 연계도 규제·민원으로 실현은 거의 없고, 대부분 “그린워싱” 계약에 그침.
6. 질의응답 요약
1. FPGA/ASIC/뉴로모픽
• GPU(또는 TPU) 말고 다른 병렬 칩 아이디어 많으나, GPU/TPU 생태계가 이미 압도적(소프트웨어·인프라·인재 등).
• 뉴로모픽 등은 잠재적 효율이 훨씬 높을 수 있으나, 제대로 된 연구·생태계·투자 부족. 당분간 GPT류 작업은 GPU/TPU가
주도.
2. 규모 확장 지속 가능성
• “버블이냐?”라는 질문. 기업(오픈AI·구글·메타 등)이 AGI 가능성·수익성에 베팅, CapEx 폭증.
• 향후 전력·환경 문제와 충돌하나, 단기적으로는 “Pascal’s Wager”(안 하는 것보다 해서 실패하는 게 낫다)로 계속 투자.
3. 특정 회사의 데이터센터만이 “정답”?
• 없다고 봄. 메타/구글/MS/xAI 모두 다름. 칩(인프라), 냉각, 네트워킹 등에 따라 상이.
• AI/HPC 요구사항이 커서, 완전히 새 건물을 지을 때마다 설계가 달라지고, 실시간으로 개선 중.
4. 미래 모델 아키텍처 (Transformer vs. 다른 구조)
• 당장은 Transformer가 산업·연구 모두 표준, 대규모 최적화 툴·엔지니어·생태계가 이미 정착.
• 다른 아키텍처(예: state-space, rnn 변형, etc.)가 나와도 GPU로 충분히 재활용 가능 → 곧바로 대체 쉽지 않음.
7. 결론 및 주요 시사점
1. 데이터센터 전력·구조
• AI 수요 폭증으로 기존 “CPU+스토리지” 중심에서 “GPU 대밀도 + 수랭 + 초고속 네트워크”로 급변.
• 건물 단위가 아니라 10~100만 GPU급 “캠퍼스/지역 단위” 클러스터를 묶는 중.
• 전력망/변압기/냉각 등의 제한이 병목이며, xAI처럼 기발하지만 임시방편적 방법(이동식 발전기 등)도 등장.
2. 추론 비용(토큰당) 급증 우려
AI 메가 클러스터(Mega Clusters)의 현황
2.1 마이크로소프트 & OpenAI의 예시
1. 애리조나 데이터센터
• 건물(“데이터 홀”) 하나당 전력 약 48MW, 내부에 3.2만 개 GPU(총 32k GPU) 탑재 가능.
• 여러 건물을 묶어 10만 개 GPU 규모도 구성.
• 빅 모델(GPT-4/5 등) 학습을 위해 설계된 전형적 구조.
2. 향후 확장
• 과거 단일 건물(50MW 전후)을 넘어, 300MW~1.5GW급 단일 부지 규모를 목표.
• 1.5GW급이면 약 100만(1e6) 개 GPU를 수용 가능 → GPT-4보다 훨씬 큰 규모의 모델.
3. 네트워킹 및 토폴로지
• 다층 스위치(rail-optimized vs. fat-tree) 구조로 고가용성/고대역폭 구현.
• Synchronous GD(동기 방식)에서 벗어나, Multi-datacenter를 묶을 수 있는 Asynchronous/파라미터 서버/계층적 SGD 기법에 대한 연구 활발.
• 지연(latency)보다는 대역폭 부족이 여러 데이터센터 연결 시 큰 문제.
2.2 구글 TPU 클러스터
1. 고집적·수랭(물냉각) 설계
• TPU는 전력 밀도가 크므로 일찍부터 물냉각, 높은 밀도 설계를 도입.
• 지역별(오하이오, 아이오와 등) 여러 데이터센터를 광통신으로 연결, 대규모 학습 시 하나의 분산 클러스터처럼 사용 계획.
2. 동기식에서 비동기식으로
• 동기식 학습 시 몇 만~몇 십 만 GPU(또는 TPU) 간 동기화 문제 발생.
• 구글 등은 “여러 데이터센터를 연결해 단일 거대 클러스터” 구성을 시도하나, 아직은 여러 연구 과제가 남아 있음.
2.3 xAI(Elon Musk) 사례
1. 멤피스 공장 활용
• 휴면 상태의 세탁기 공장 부지를 매입해 단기간에 AI 데이터센터로 개조.
• 인접 천연가스관과 이동형 발전기(디젤/가스)·이동형 냉각 장치를 설치 → 전력·냉각 인프라를 빠르게 확보.
• 보통 대형 클라우드 기업들은 이미지·평판 때문에 직접 이런 식으로 하진 않음(“녹색 에너지” 명분 때문).
• xAI는 일단 속도를 우선시 → 10만+ GPU 빠른 배치.
2. 차별점
• 최초로 NVIDIA GPU(GB200 등) 직수냉 모델을 대규모로 도입 예정. (일반적으로 air-cooled 또는 다른 구조)
• 네트워크도 이더넷 기반 등, 비정형적 방식 활용.
2.4 그 외 클라우드/코로케이션 업체
• 아마존(AWS): 전 세계 많은 부지에서 동시다발적 확장, CPU→GPU 전환.
• 오라클(Oracle): OpenAI와 협력해 200MW급 데이터센터, 장기적으로 1GW 확장.
• 메타(Meta): 구형 “H 형태” 데이터센터를 폐쇄 후, 고밀도 수랭 데이터센터로 재건축.
• 다른 수십~수백 개 중소/주권(“소버린”) 클라우드도 유사하게 GPU 호스팅 산업 참여 중.
3. 추론(Inference) 토큰 처리(tokenomics)와 최적화
3.1 추론 제공자(“토큰 팩토리”) 관점
• 대형 모델의 API 호출로 “토큰” 단위 과금 → 서버 GPU·메모리·네트워크를 일정 방식으로 할당.
• 추론 성능(throughput)은 배칭(batch size), 양자화(quantization), KV캐시 관리, 병렬화 등 최적화로 크게 좌우.
3.2 KV 캐시(KV Cache)의 영향
1. 모델 파라미터 vs. KV캐시
• 토큰을 생성할 때마다, “모델 파라미터(정적)” + “KV캐시(동적·유저별)” 모두 메모리에서 읽어옴.
• 배치가 커질수록(동시 유저↑) KV캐시 조회도 많아져, 메모리 대역폭 병목 발생.
2. 시퀀스 길이(Context Length) 증가
• 모델이 많은 reasoning(내부 토큰 생성을 숨긴다 해도) → 내부적으로 KV캐시가 커짐.
• 시퀀스 길이가 길어질수록, 배치 가능 크기가 줄고, 토큰당 처리 지연이 커져 사용자 경험 저하.
3. GQA(Grouped Query Attention) 등 기법
• llama 시리즈 등에서 GQA/MQA를 적용하면 KV캐시 크기를 줄이고, 병목을 완화.
• 예) 40~70B 파라미터 모델에서 GQA 적용 시, 같은 하드웨어로 배치 크기(동시 유저 수) 크게 증가 → 추론 비용 절감.
3.3 OpenAI “0.1/01” 모델과 비용
• Zero One(01) 모델: “실시간 내부 reasoning”으로 큰 시퀀스 길이.
• 기존 짧은 시퀀스(몇 K tokens)보다 10~40K 이상의 시퀀스 → 배치 효율 급감, 추론 비용 증가.
• 실제 API 가격도 GPT-4 대비 3~4배 비싼 이유 중 하나가 이 KV캐시/배치 비효율 문제.
4. Inference & Training 시뮬레이터 / TCO 모델
• 발표자는 자사(SemiAnalysis)에서 추론·훈련 시뮬레이터를 개발, “메모리 BW vs. 모델 크기 vs. 배치 vs. 시퀀스 길이” 등을 모의실험.
• 서버 월간 비용(예: h100 8-GPU 서버)
• 구입비 감가상각 + 금융비용 + 운영비(전력+쿨링+데이터센터 렌탈 등).
• 대부분의 비용(70~80% 이상)이 “GPU 구입”이므로, 전력 사용 여부(가동률)에 따른 추가 변동비는 상대적으로 작음.
• 따라서 “GPU를 100% 활용”하는 고배치/고효율이 수익성에 핵심.
5. 데이터센터 설계·전력 이슈 종합
1. 왜 각사 설계가 다른가?
• 역사적 유산, 내부 인프라, 냉각(수랭/공랭) 방식, GPU/TPU 아키텍처 차이 등으로 모두 상이.
• 메타는 H자형 구형 설계 폐기 후, 신형으로 교체. 구글은 TPU 고밀도 수랭을 일찍 시작. xAI는 급조(공장+이동식 발전기).
• 최적 설계는 존재하지 않으며, 대다수가 “시간 압박/유연성/PR(환경)” 등을 절충.
2. 모두 ‘천연가스·석탄’ 의존?
• 실제 전력은 화석연료 기반이 대부분. ESG 명분으로 태양광 등 구매(PPA)는 하나 실제 물리적 공급 전력은 대부분 가스.
• 대규모 발전소(최대수 GW)와 부지 연결이 관건. 서구 국가들은 전력망 증설이 느려, 3~4년씩 대기가 발생.
3. 마이크로그리드/원전/해상 데이터센터 등
• 엘론처럼 자체 발전기 사용 “마이크로그리드” 시도도 있지만 규제·실무 상 어려움 큼.
• 해상/우주 등은 GPU 안정성·유지보수 측면에서 비현실적.
• 원전 직접 연계도 규제·민원으로 실현은 거의 없고, 대부분 “그린워싱” 계약에 그침.
6. 질의응답 요약
1. FPGA/ASIC/뉴로모픽
• GPU(또는 TPU) 말고 다른 병렬 칩 아이디어 많으나, GPU/TPU 생태계가 이미 압도적(소프트웨어·인프라·인재 등).
• 뉴로모픽 등은 잠재적 효율이 훨씬 높을 수 있으나, 제대로 된 연구·생태계·투자 부족. 당분간 GPT류 작업은 GPU/TPU가
주도.
2. 규모 확장 지속 가능성
• “버블이냐?”라는 질문. 기업(오픈AI·구글·메타 등)이 AGI 가능성·수익성에 베팅, CapEx 폭증.
• 향후 전력·환경 문제와 충돌하나, 단기적으로는 “Pascal’s Wager”(안 하는 것보다 해서 실패하는 게 낫다)로 계속 투자.
3. 특정 회사의 데이터센터만이 “정답”?
• 없다고 봄. 메타/구글/MS/xAI 모두 다름. 칩(인프라), 냉각, 네트워킹 등에 따라 상이.
• AI/HPC 요구사항이 커서, 완전히 새 건물을 지을 때마다 설계가 달라지고, 실시간으로 개선 중.
4. 미래 모델 아키텍처 (Transformer vs. 다른 구조)
• 당장은 Transformer가 산업·연구 모두 표준, 대규모 최적화 툴·엔지니어·생태계가 이미 정착.
• 다른 아키텍처(예: state-space, rnn 변형, etc.)가 나와도 GPU로 충분히 재활용 가능 → 곧바로 대체 쉽지 않음.
7. 결론 및 주요 시사점
1. 데이터센터 전력·구조
• AI 수요 폭증으로 기존 “CPU+스토리지” 중심에서 “GPU 대밀도 + 수랭 + 초고속 네트워크”로 급변.
• 건물 단위가 아니라 10~100만 GPU급 “캠퍼스/지역 단위” 클러스터를 묶는 중.
• 전력망/변압기/냉각 등의 제한이 병목이며, xAI처럼 기발하지만 임시방편적 방법(이동식 발전기 등)도 등장.
2. 추론 비용(토큰당) 급증 우려
• 모델의 시퀀스 길이 증가, KV캐시 메모리 문제가 배치 효율을 떨어뜨림.
• OpenAI 등은 “장문 추론” 모델에 더 높은 API 가격 매김. 다양한 최적화(GQA, quant, flash-attn 등)가 필수.
3. AI 인프라 투자
• GPU(또는 TPU) 자체 가격이 월등히 비싸, 전기·쿨링 비용은 상대적으로 작아.
• 따라서 “대규모 배치로 GPU 풀 가동, 단가 절감” 방식이 핵심 비즈니스 모델.
• Sovereign 펀드, 사모펀드, 클라우드 스타트업 등 전방위에서 일종의 인프라 금융으로 투자 열풍.
4. 연구/개발 과제
• 멀티 데이터센터 비동기 훈련, 더 긴 시퀀스·KV캐시 최적화, 희소성·양자화, 자동 분산 관리 등 해결해야 할 문제 여럿.
• 자본과 인력이 대규모 투입되면서 “지속적인 인프라 혁신+비용 절감”이 예상되나, 전력·환경 문제는 갈등 요소.
결국 본 발표의 핵심 메시지는, AI 대형 모델을 학습·추론하기 위해 전 세계가 전례 없이 거대한 GPU 기반 데이터센터를 건설 중이고, 이 과정에서 토큰 배치·KV 캐시·시퀀스 길이 등 시스템적 병목과 엄청난 자본/전력 요구가 드러나고 있다는 것이다. 그러나 업계 전반은 “AGI, AI 폭발적 성장”을 기대하며, 적어도 수년간은 이러한 초대형 확장 기조가 이어질 전망임을 시사한다.
• OpenAI 등은 “장문 추론” 모델에 더 높은 API 가격 매김. 다양한 최적화(GQA, quant, flash-attn 등)가 필수.
3. AI 인프라 투자
• GPU(또는 TPU) 자체 가격이 월등히 비싸, 전기·쿨링 비용은 상대적으로 작아.
• 따라서 “대규모 배치로 GPU 풀 가동, 단가 절감” 방식이 핵심 비즈니스 모델.
• Sovereign 펀드, 사모펀드, 클라우드 스타트업 등 전방위에서 일종의 인프라 금융으로 투자 열풍.
4. 연구/개발 과제
• 멀티 데이터센터 비동기 훈련, 더 긴 시퀀스·KV캐시 최적화, 희소성·양자화, 자동 분산 관리 등 해결해야 할 문제 여럿.
• 자본과 인력이 대규모 투입되면서 “지속적인 인프라 혁신+비용 절감”이 예상되나, 전력·환경 문제는 갈등 요소.
결국 본 발표의 핵심 메시지는, AI 대형 모델을 학습·추론하기 위해 전 세계가 전례 없이 거대한 GPU 기반 데이터센터를 건설 중이고, 이 과정에서 토큰 배치·KV 캐시·시퀀스 길이 등 시스템적 병목과 엄청난 자본/전력 요구가 드러나고 있다는 것이다. 그러나 업계 전반은 “AGI, AI 폭발적 성장”을 기대하며, 적어도 수년간은 이러한 초대형 확장 기조가 이어질 전망임을 시사한다.
https://www.youtube.com/live/CSE77wAdDLg?si=lwBc_rySVhPbz-Qc
Open AI Operator
1) 이미 호스팅되어 있고 바로 사용할 수 있다는 사실은 Claude의 “컴퓨터 사용” 기능보다 더 널리 사용될 수 있다는 것을 의미합니다.
2) 운영자는 어떤 이유로든 API를 사용할 수 없는 웹사이트도 API가 있는 것처럼 작동하도록 만들 수 있습니다. 이제 자동화할 수 있게 됩니다.
3) 오퍼레이터는 LLM의 도구 호출과 비슷합니다. 다만 인터넷 전체를 '도구'로 사용한다는 점만 다릅니다(사이트에 API가 있든 없든).
4) 널리 사용되는 함수에 대한 캐싱/사전 컴파일의 형태를 볼 수 있습니다. 기본적으로 운영자는 일반적으로 필요한 기능에 대해 *자체* API를 작성한 다음, 이를 사용하여 특정 작업을 수행할 수 있습니다.
5) 오퍼레이터는 가상 브라우저의 여러 인스턴스에 걸쳐 긴 작업 목록을 배포하기 위해 백그라운드에서 자체적으로 사용할 수 있습니다.
6) 운영자는 작업을 병렬화할 수 있는 방법을 추론할 수 있을 것입니다. 예시: 작업에는 50개의 웹 페이지로 구성된 결과를 페이징하는 작업이 포함됩니다. 대신 다음과 같이 말할 수 있습니다: 연산자 A는 첫 번째 페이지에서 시작하여 앞으로 이동합니다. 연산자 B는 마지막 페이지에서 시작하여 뒤로 이동합니다. 모든 페이지가 완료되면 “중간에서 만나게” 됩니다.
7) 현재 웹사이트는 (대부분) 인간을 위해 만들어졌고 API는 (대부분) 개발자(특수한 유형의 인간)를 위해 만들어졌습니다. 모바일 사이트는 모바일 기기를 사용하는 사람을 위해 만들어졌습니다. 앞으로는 에이전트 AI가 사용하기 위해 특별히 제작된 웹사이트를 보게 될지 궁금합니다.
Open AI Operator
1) 이미 호스팅되어 있고 바로 사용할 수 있다는 사실은 Claude의 “컴퓨터 사용” 기능보다 더 널리 사용될 수 있다는 것을 의미합니다.
2) 운영자는 어떤 이유로든 API를 사용할 수 없는 웹사이트도 API가 있는 것처럼 작동하도록 만들 수 있습니다. 이제 자동화할 수 있게 됩니다.
3) 오퍼레이터는 LLM의 도구 호출과 비슷합니다. 다만 인터넷 전체를 '도구'로 사용한다는 점만 다릅니다(사이트에 API가 있든 없든).
4) 널리 사용되는 함수에 대한 캐싱/사전 컴파일의 형태를 볼 수 있습니다. 기본적으로 운영자는 일반적으로 필요한 기능에 대해 *자체* API를 작성한 다음, 이를 사용하여 특정 작업을 수행할 수 있습니다.
5) 오퍼레이터는 가상 브라우저의 여러 인스턴스에 걸쳐 긴 작업 목록을 배포하기 위해 백그라운드에서 자체적으로 사용할 수 있습니다.
6) 운영자는 작업을 병렬화할 수 있는 방법을 추론할 수 있을 것입니다. 예시: 작업에는 50개의 웹 페이지로 구성된 결과를 페이징하는 작업이 포함됩니다. 대신 다음과 같이 말할 수 있습니다: 연산자 A는 첫 번째 페이지에서 시작하여 앞으로 이동합니다. 연산자 B는 마지막 페이지에서 시작하여 뒤로 이동합니다. 모든 페이지가 완료되면 “중간에서 만나게” 됩니다.
7) 현재 웹사이트는 (대부분) 인간을 위해 만들어졌고 API는 (대부분) 개발자(특수한 유형의 인간)를 위해 만들어졌습니다. 모바일 사이트는 모바일 기기를 사용하는 사람을 위해 만들어졌습니다. 앞으로는 에이전트 AI가 사용하기 위해 특별히 제작된 웹사이트를 보게 될지 궁금합니다.
Introducing DeepSeek-V3
https://api-docs.deepseek.com/news/news1226
1. 왜 대규모 언어모델(LLM)에 Mixture-of-Experts(MoE)를 적용하는가?
1.1. LLM의 기본 아이디어
**대규모 언어 모델(LLM)**은 방대한 양의 텍스트를 학습하여 자연어 처리를 수행하는 모델입니다. Transformer 구조(Vaswani et al., 2017)가 주류이며, 자가회귀(autoregressive) 방식으로 다음 토큰을 예측하는 확률적 언어 모델을 기반으로 합니다.
초기의 대규모 모델은 전부 Dense 모델이었는데, 이는 모든 파라미터를 매 토큰마다 전부 활성화하여 계산합니다. 예) GPT 시리즈, BERT 시리즈 등.
1.2. Mixture-of-Experts(MoE)의 핵심 동기
**Mixture-of-Experts(이하 MoE)**는 매 토큰마다 ‘전부가 아닌 일부 전문가(Expert)’ 파라미터만 사용해 추론하도록 하는 아이디어입니다.
예) 1,000억 개 파라미터 중에서 50억 개만 활성화, 나머지는 비활성화.
장점:
경제성: 대규모 파라미터 중 일부만 계산하므로, 같은 수준(또는 더 높은 수준)의 표현력을 더 적은 FLOPs(연산량)로 달성.
전문성 분화: 토큰별로 가장 잘 맞는 전문가(Expert)가 활성화되며, 특정 토큰(예: 수학, 프로그래밍, 의학 텍스트 등)은 해당 분야에 특화된 Expert가 학습되어 성능 향상.
하지만 문제점도 존재합니다:
Expert들의 부하 불균형(Load Imbalance): 특정 Expert에만 토큰이 과도하게 몰리면 학습/추론이 비효율적.
학습 시 Token dispatch/combination 단에서 통신(올투올(All-to-all) 통신)이 많아져 오버헤드가 커질 수 있음.
DeepSeek-V3는 이 문제를 해결하기 위해 DeepSeekMoE라는 구조와 보조 로스 없는(Aux-loss-free) 로드 밸런싱 전략을 적용합니다.
2. DeepSeek-V3의 설계 개요
DeepSeek-V3는 약 **6710억 개(‘총 파라미터’)**에 달하는 거대 모델이지만, 매 토큰마다 약 370억 개 파라미터만 활성화해서 계산하도록 설계되었습니다.
이런 거대 모형을 효율적으로 학습·추론하기 위해 다음과 같은 핵심 설계를 채택했습니다.
Multi-head Latent Attention (MLA)
기존 Transformer의 Self-Attention에서 Key-Value를 축소(latent vector)한 뒤, 필요할 때만 다시 복원(up-projection)하는 방법으로, KV 캐시 메모리를 줄여 대규모 모델이라도 긴 문맥 처리 속도를 높임.
DeepSeekMoE + Aux-loss-free balancing
FFN(Feed-Forward Network) 부분을 MoE 구조로 구성하되, Expert 간 부하를 맞추기 위해 ‘보조 로스(auxiliary loss)’를 강제하지 않고, 동적 바이어스(bias)를 조정해 불균형을 해결(“Aux-loss-free” 기법).
이렇게 함으로써 모델 성능 손실 없이 로드 밸런싱을 달성.
Multi-Token Prediction (MTP)
한 위치에서 다음 토큰 하나만 예측하는 것이 아니라, 한 번에 여러 토큰(여기서는 2개)까지 예측하도록 학습.
데이터 효율성과 모델 성능 모두에 도움을 주며, 추론 시에는 Speculative Decoding 기법으로 TPS(초당 토큰 처리량)를 높이는 데 활용 가능.
FP8 Training 및 효율적 분산 학습
대부분의 계산을 FP8 정밀도로 수행하여 학습 비용과 GPU 메모리 사용량을 크게 절감.
이 과정에서 정밀도 손실을 최소화하기 위해, 미세한 스케일링(granularity scaling)과 높은 정밀도의 누산(accumulation)을 사용.
All-to-all 통신을 분산 파이프라인과 겹쳐서(dual-pipe) 오버헤드를 최대한 숨김.
3. 핵심 구성 요소별 상세 설명
3.1. Multi-head Latent Attention(MLA)
3.1.1. 왜 MLA인가?
대규모 모델은 ‘KV 캐시(Key-Value Cache)’가 매우 커질 수 있습니다. 예컨대 64개 헤드 × 히든차원 128 등으로 커지면, 긴 문맥 처리 시 메모리와 연산량이 문제됨.
MLA는 Key/Value를 먼저 저차원(latent)으로 압축했다가, 실제 Attention 연산 직전에 다시 복원(up-projection)해 사용합니다.
추론 시, ‘압축된 벡터(c_KV_t 등)’만 캐시에 저장하면 되므로, 캐시 메모리가 크게 줄어듭니다.
3.1.2. 구조
Attention에 필요한 Query/Key/Value를 다음처럼 구분:
(1) 압축(latent) 벡터: h_t → c_KV_t(차원 d_c).
(2) 복원(up-projection) 행렬: c_KV_t → (k_C, v_C).
(3) RoPE 로테리 임베딩용 decoupled query/key: 추가로 k_R, q_R를 생성하여 문맥 위치 정보를 반영.
결론적으로 MLA는 Token 하나가 지나갈 때 (압축 + 복원 + RoPE + 최종 어텐션) 과정을 거칩니다.
이를 통해 **“KV 캐시 크기 감소”**와 **“성능 보존”**이라는 두 가지 이점을 얻습니다.
3.2. DeepSeekMoE (Mixture-of-Experts) & Auxiliary-loss-free Balancing
3.2.1. DeepSeekMoE 기본 아이디어
Transformer의 FFN 단을 MoE Layer로 바꾸어,
일부(공유 Expert, N_s개)는 모든 토큰이 공통적으로 쓰고,
나머지(라우팅 Expert, N_r개)는 토큰별로 top-Kr개만 선별하여 계산.
예: h'_t = h_t + Σ(Shared Experts) + Σ(Routed Experts).
라우팅은 토큰과 Expert 간의 점수(affinity)를 구하여, 가장 높은 Expert 몇 개를 활성화.
3.2.2. Aux-loss-free 로드 밸런싱
기존 MoE 연구들은 Expert 간 부하를 균등하게 만들기 위해 **보조 로스(auxiliary loss)**를 함께 최소화했습니다.
하지만 이 로스가 너무 크면 모델 본래의 최적화를 해칠 수 있습니다.
DeepSeek-V3는 보조 로스 없이도 균등 부하를 달성하도록, 각 Expert마다 동적인 ‘bias’ 변수를 두고, 매 스텝마다 expert가 과부하·저부하인지에 따라 bias를 조정합니다.
그 결과, 균등 부하를 유지하면서도 모델 성능 손해가 적고, 전문가 분화를 극대화합니다.
3.2.3. 추가로 적용되는 기법들
Sequence-wise auxiliary loss: 그래도 특정 시퀀스가 일부 expert에만 몰리는 극단을 방지하기 위해, 매우 작은 가중치의 시퀀스 차원 보조 로스를 추가.
Node-limited routing: 통신 오버헤드를 제한하기 위해 한 토큰이 최대 M개의 노드까지만 분산되는 제한을 둠(예: M=4).
Token-dropping 없음: 로드 밸런스가 안정적으로 유지되므로, DeepSeek-V3는 토큰 드롭 없이 진행.
3.3. Multi-Token Prediction (MTP)
3.3.1. 한 번에 여러 토큰 예측하기
일반 Transformer는 위치 t에서 “t+1번째” 토큰만 예측.
MTP는 t에서 “t+1, t+2, …” 같이 여러 개를 예측하도록 추가 모듈을 둡니다.
DeepSeek-V3에서는 depth=1(즉, “다음 토큰 + 추가로 그 다음 토큰”)만 예측하나, 이를 통해 데이터 효율과 성능 향상을 얻었습니다.
https://api-docs.deepseek.com/news/news1226
1. 왜 대규모 언어모델(LLM)에 Mixture-of-Experts(MoE)를 적용하는가?
1.1. LLM의 기본 아이디어
**대규모 언어 모델(LLM)**은 방대한 양의 텍스트를 학습하여 자연어 처리를 수행하는 모델입니다. Transformer 구조(Vaswani et al., 2017)가 주류이며, 자가회귀(autoregressive) 방식으로 다음 토큰을 예측하는 확률적 언어 모델을 기반으로 합니다.
초기의 대규모 모델은 전부 Dense 모델이었는데, 이는 모든 파라미터를 매 토큰마다 전부 활성화하여 계산합니다. 예) GPT 시리즈, BERT 시리즈 등.
1.2. Mixture-of-Experts(MoE)의 핵심 동기
**Mixture-of-Experts(이하 MoE)**는 매 토큰마다 ‘전부가 아닌 일부 전문가(Expert)’ 파라미터만 사용해 추론하도록 하는 아이디어입니다.
예) 1,000억 개 파라미터 중에서 50억 개만 활성화, 나머지는 비활성화.
장점:
경제성: 대규모 파라미터 중 일부만 계산하므로, 같은 수준(또는 더 높은 수준)의 표현력을 더 적은 FLOPs(연산량)로 달성.
전문성 분화: 토큰별로 가장 잘 맞는 전문가(Expert)가 활성화되며, 특정 토큰(예: 수학, 프로그래밍, 의학 텍스트 등)은 해당 분야에 특화된 Expert가 학습되어 성능 향상.
하지만 문제점도 존재합니다:
Expert들의 부하 불균형(Load Imbalance): 특정 Expert에만 토큰이 과도하게 몰리면 학습/추론이 비효율적.
학습 시 Token dispatch/combination 단에서 통신(올투올(All-to-all) 통신)이 많아져 오버헤드가 커질 수 있음.
DeepSeek-V3는 이 문제를 해결하기 위해 DeepSeekMoE라는 구조와 보조 로스 없는(Aux-loss-free) 로드 밸런싱 전략을 적용합니다.
2. DeepSeek-V3의 설계 개요
DeepSeek-V3는 약 **6710억 개(‘총 파라미터’)**에 달하는 거대 모델이지만, 매 토큰마다 약 370억 개 파라미터만 활성화해서 계산하도록 설계되었습니다.
이런 거대 모형을 효율적으로 학습·추론하기 위해 다음과 같은 핵심 설계를 채택했습니다.
Multi-head Latent Attention (MLA)
기존 Transformer의 Self-Attention에서 Key-Value를 축소(latent vector)한 뒤, 필요할 때만 다시 복원(up-projection)하는 방법으로, KV 캐시 메모리를 줄여 대규모 모델이라도 긴 문맥 처리 속도를 높임.
DeepSeekMoE + Aux-loss-free balancing
FFN(Feed-Forward Network) 부분을 MoE 구조로 구성하되, Expert 간 부하를 맞추기 위해 ‘보조 로스(auxiliary loss)’를 강제하지 않고, 동적 바이어스(bias)를 조정해 불균형을 해결(“Aux-loss-free” 기법).
이렇게 함으로써 모델 성능 손실 없이 로드 밸런싱을 달성.
Multi-Token Prediction (MTP)
한 위치에서 다음 토큰 하나만 예측하는 것이 아니라, 한 번에 여러 토큰(여기서는 2개)까지 예측하도록 학습.
데이터 효율성과 모델 성능 모두에 도움을 주며, 추론 시에는 Speculative Decoding 기법으로 TPS(초당 토큰 처리량)를 높이는 데 활용 가능.
FP8 Training 및 효율적 분산 학습
대부분의 계산을 FP8 정밀도로 수행하여 학습 비용과 GPU 메모리 사용량을 크게 절감.
이 과정에서 정밀도 손실을 최소화하기 위해, 미세한 스케일링(granularity scaling)과 높은 정밀도의 누산(accumulation)을 사용.
All-to-all 통신을 분산 파이프라인과 겹쳐서(dual-pipe) 오버헤드를 최대한 숨김.
3. 핵심 구성 요소별 상세 설명
3.1. Multi-head Latent Attention(MLA)
3.1.1. 왜 MLA인가?
대규모 모델은 ‘KV 캐시(Key-Value Cache)’가 매우 커질 수 있습니다. 예컨대 64개 헤드 × 히든차원 128 등으로 커지면, 긴 문맥 처리 시 메모리와 연산량이 문제됨.
MLA는 Key/Value를 먼저 저차원(latent)으로 압축했다가, 실제 Attention 연산 직전에 다시 복원(up-projection)해 사용합니다.
추론 시, ‘압축된 벡터(c_KV_t 등)’만 캐시에 저장하면 되므로, 캐시 메모리가 크게 줄어듭니다.
3.1.2. 구조
Attention에 필요한 Query/Key/Value를 다음처럼 구분:
(1) 압축(latent) 벡터: h_t → c_KV_t(차원 d_c).
(2) 복원(up-projection) 행렬: c_KV_t → (k_C, v_C).
(3) RoPE 로테리 임베딩용 decoupled query/key: 추가로 k_R, q_R를 생성하여 문맥 위치 정보를 반영.
결론적으로 MLA는 Token 하나가 지나갈 때 (압축 + 복원 + RoPE + 최종 어텐션) 과정을 거칩니다.
이를 통해 **“KV 캐시 크기 감소”**와 **“성능 보존”**이라는 두 가지 이점을 얻습니다.
3.2. DeepSeekMoE (Mixture-of-Experts) & Auxiliary-loss-free Balancing
3.2.1. DeepSeekMoE 기본 아이디어
Transformer의 FFN 단을 MoE Layer로 바꾸어,
일부(공유 Expert, N_s개)는 모든 토큰이 공통적으로 쓰고,
나머지(라우팅 Expert, N_r개)는 토큰별로 top-Kr개만 선별하여 계산.
예: h'_t = h_t + Σ(Shared Experts) + Σ(Routed Experts).
라우팅은 토큰과 Expert 간의 점수(affinity)를 구하여, 가장 높은 Expert 몇 개를 활성화.
3.2.2. Aux-loss-free 로드 밸런싱
기존 MoE 연구들은 Expert 간 부하를 균등하게 만들기 위해 **보조 로스(auxiliary loss)**를 함께 최소화했습니다.
하지만 이 로스가 너무 크면 모델 본래의 최적화를 해칠 수 있습니다.
DeepSeek-V3는 보조 로스 없이도 균등 부하를 달성하도록, 각 Expert마다 동적인 ‘bias’ 변수를 두고, 매 스텝마다 expert가 과부하·저부하인지에 따라 bias를 조정합니다.
그 결과, 균등 부하를 유지하면서도 모델 성능 손해가 적고, 전문가 분화를 극대화합니다.
3.2.3. 추가로 적용되는 기법들
Sequence-wise auxiliary loss: 그래도 특정 시퀀스가 일부 expert에만 몰리는 극단을 방지하기 위해, 매우 작은 가중치의 시퀀스 차원 보조 로스를 추가.
Node-limited routing: 통신 오버헤드를 제한하기 위해 한 토큰이 최대 M개의 노드까지만 분산되는 제한을 둠(예: M=4).
Token-dropping 없음: 로드 밸런스가 안정적으로 유지되므로, DeepSeek-V3는 토큰 드롭 없이 진행.
3.3. Multi-Token Prediction (MTP)
3.3.1. 한 번에 여러 토큰 예측하기
일반 Transformer는 위치 t에서 “t+1번째” 토큰만 예측.
MTP는 t에서 “t+1, t+2, …” 같이 여러 개를 예측하도록 추가 모듈을 둡니다.
DeepSeek-V3에서는 depth=1(즉, “다음 토큰 + 추가로 그 다음 토큰”)만 예측하나, 이를 통해 데이터 효율과 성능 향상을 얻었습니다.
👍1
3.3.2. 학습과 추론 시 효과
학습 시 Cross-Entropy Loss를 “기존(Next Token) + MTP(Next2 Token)” 형태로 함께 최적화.
추론 시에는 MTP 모듈을 버리거나, 혹은 Speculative Decoding(둘째 토큰까지 한꺼번에 허용)으로 속도 향상을 꾀할 수 있습니다.
통계상, DeepSeek-V3에서 두 번째 토큰이 맞을 확률은 85~90%로 높아, 약 1.8배의 토큰 처리 속도를 구현했다고 보고합니다.
4. 효율적 학습(Training) 인프라
4.1. FP8 Training
4.1.1. 기존 BF16 대비 FP8 도입 배경
BF16(또는 FP16)은 부동소수점에서 exponent를 충분히 보장하나, 큰 모델에서는 더 줄일 수 있는 여지가 있음.
FP8은 exponent 비트 수가 줄어 정밀도 문제가 있지만,
(1) 미세 구간 단위의 스케일링(예: 1×128, 128×128)
(2) 높은 정밀도의 누산(accumulation)
(3) 온라인 퀀타이제이션
등을 통해 정밀도 문제를 해결하고 연산속도를 크게 높임.
4.1.2. 구체적 전략
Fine-grained Quantization:
Activation(특히 forward 입력 등)은 “토큰별 128채널 단위(1×128)”로 스케일 조정,
Weight(가중치)는 “128×128 블록 단위”로 스케일 조정.
높은 정밀도 누산:
Tensor Core에서 FP8 연산 시 내부에 14비트 등 제한된 정밀도를 쓰는데, 일정 interval마다(예: 128개씩) CUDA Core의 FP32 레지스터로 승격해 더 정확히 축적.
Online Quantization:
최대 절댓값을 실시간으로 구해, 해당 미니그룹(토큰/블록 등)에 맞춰 스케일링하여 FP8로 변환.
4.2. DualPipe 파이프라인
4.2.1. 배경
DeepSeek-V3처럼 거대 MoE 모델은 각 레이어(또는 구간)를 GPU 여러 대에 걸쳐 분산(Pipeline Parallel)시키고, MoE 토큰 전달 등 All-to-all 통신이 잦습니다.
단순 1F1B(Forward 1개, Backward 1개)나 ZeroBubble 같은 기존 기법은 통신 시간이 겹치지 않아 전체 속도 저하가 큼.
4.2.2. DualPipe 알고리즘
아이디어: Forward 연산 중에 Backward의 통신, 또는 Backward의 일부 연산과 Forward의 통신을 동시에(Overlap) 진행.
세부적으로 Attention / MoE Dispatch / MLP / MoE Combine 등을 잘게 쪼개어, 이들 사이의 통신을 파이프라인 상 서로 다른 마이크로배치끼리 겹치게 구성.
결과적으로 통신이 거의 “공짜(fully hidden)”처럼 처리되어, 커다란 GPU 클러스터에서도 확장성이 좋아집니다.
4.3. 추론(Inference) 및 배포 전략
4.3.1. Prefilling
추론 시 “처음 문맥을 대량으로 넣어” 모델 내부 상태(KV 캐시 등)를 채우는 과정.
DeepSeek-V3는 노드 간 IB(InfiniBand) 통신과 노드 내 NVLink 통신을 혼합해 사용.
“중복 Expert(Redundant Expert)”를 배치해, 특정 Expert가 과부하가 되지 않도록 동적으로 할당.
이 모든 과정을 통합하여 대규모 온·오프라인 서비스에 대응 가능한 구조.
4.3.2. Decoding
Prefilling 후, 실제 한 토큰씩 디코딩하는 과정.
실시간 요청에서는 모멘텀이 “Attention 연산”에 더 집중됨.
마찬가지로 “Redundant Expert” + “Node별로 1개 Expert” 방식으로 구현하여, 파이프라인과 통신을 겹치고, 길이가 짧은 마이크로배치라도 빠른 응답이 가능하도록 함.
5. Pre-Training (사전학습)
5.1. 데이터
총 14.8조(14.8T) 토큰 규모의 고품질 다국어 데이터.
영·중심 + 기타 언어 포함.
수학, 코딩 비중을 늘리고, 데이터 중복 제거와 품질 관리를 강화.
Fill-in-Middle(FIM) 전략 적용: 10% 정도는 문장의 가운데를 맞추는 형태로 학습(코드 완성 등에서 유용).
Byte-level BPE 기반의 12.8만(128K) 토큰 사전.
5.2. 학습 스펙
Transformer 레이어수 61, hidden dim=7168, 헤드수=128 등.
모든 FFN(첫 3개 제외)에 MoE 적용. 각 레이어당 공유 Expert 1개, 라우팅 Expert 256개.
단, 매 토큰에는 8개 Expert 활성화.
배치 사이즈 스케줄링, LR(learning rate) 스케줄링(초반 워밍업 → 코사인 디케이), 등 다양한 기법 사용.
MTP: depth=1, 첫 10T 토큰 동안 MTP 가중치 λ=0.3, 이후 0.1로 조정.
Aux-loss-free의 bias 업데이트 속도 γ=0.001(처음 14.3T 토큰까지), 그 후 0으로 중단.
5.3. 롱컨텍스트 확장 (YaRN)
사전학습 후, 4K 문맥에서 시작해 2단계에 걸쳐 32K, 128K까지 문맥을 확장.
YaRN(Peng et al., 2023) 기법으로 로테리 임베딩(RoPE)을 확장해, 128K 길이까지 안정적으로 처리.
5.4. 성능 요약 (Base 모델)
English, Chinese, Multilingual 전반을 아우르는 벤치마크에서 동급 대비 최고 수준.
예) MMLU-Pro, GSM8K, MATH, HumanEval 등 코딩·수학 분야 최고 수준.
대등 규모 혹은 더 큰 Dense 모델과 비교 시도에서도 학습 비용이나 추론 효율 면에서 강점.
6. Post-Training(추가 학습, SFT·RL)
6.1. Supervised Fine-Tuning (SFT)
약 150만 건의 고품질 인스트럭션 튜닝 데이터.
특히 수학·코드 등 논리적 사고(Reasoning) 분야 데이터에 집중.
DeepSeek-R1 모델(별도 “Long Chain-of-Thought”에 특화)의 출력을 적절히 정제하여(너무 길거나 포맷 엉킨 부분 보완) final SFT 데이터로 활용 → 정확도 대폭 상승.
6.2. RL (Reinforcement Learning)
Group Relative Policy Optimization (GRPO) 기법 사용.
Rule-based RM(정답 검증 가능 문제) + Model-based RM(정답이 하나로 결정 어려운 문항) 혼합.
자기 자신(DeepSeek-V3)이 만든 투표결과 등을 다시 보상으로 활용하는 “Self-Rewarding(Constitutional AI)” 방식도 병행.
7. 결론 및 한계
DeepSeek-V3는 (1) MLA, (2) DeepSeekMoE, (3) Aux-loss-free balancing, (4) MTP, (5) FP8 training 등 다양한 혁신 요소를 결합한 **거대 스파스 모델(MoE)**입니다.
총 파라미터 6710억이지만, 매 토큰마다 370억 파라미터만 활성화하고,
사전학습 14.8T 토큰,
롱컨텍스트(최대 128K) 지원,
포스트 트레이닝(SFT+RL)으로 정밀도와 활용도(코드·수학 등) 극대화를 이룹니다.
학습 비용 역시 **H800 GPU 기준 약 278만8천 GPU-시(약 560만 달러)**로, 이 정도 규모의 모델 중에선 매우 경제적으로 달성.
7.1. 제한사항
대규모 클러스터 기반으로 설계되어, 적은 GPU 보유 팀이 직접 추론/서비스하기는 어렵다.
추론 속도는 기존 Dense 대형 모델보다 낫지만, 작은 Dense 모델 대비 성능/속도 절충은 사용 시나리오에 따라 고민이 필요.
7.2. 미래 연구 방향
무한대 혹은 더 큰 컨텍스트를 위한 RoPE/AliBi 등 확장 기법 연구.
MoE 이상으로 효율적인 구조(예: 스파스한 Attention, Retrieval-Augmented 등)와의 조합.
다양한 분야(비전·멀티모달 등)으로 확장, 훈련 신호 다양화.
**LLM 자체를 보상 함수로 활용(Self-Rewarding)**하는 기법을 더 고도화.
학습 시 Cross-Entropy Loss를 “기존(Next Token) + MTP(Next2 Token)” 형태로 함께 최적화.
추론 시에는 MTP 모듈을 버리거나, 혹은 Speculative Decoding(둘째 토큰까지 한꺼번에 허용)으로 속도 향상을 꾀할 수 있습니다.
통계상, DeepSeek-V3에서 두 번째 토큰이 맞을 확률은 85~90%로 높아, 약 1.8배의 토큰 처리 속도를 구현했다고 보고합니다.
4. 효율적 학습(Training) 인프라
4.1. FP8 Training
4.1.1. 기존 BF16 대비 FP8 도입 배경
BF16(또는 FP16)은 부동소수점에서 exponent를 충분히 보장하나, 큰 모델에서는 더 줄일 수 있는 여지가 있음.
FP8은 exponent 비트 수가 줄어 정밀도 문제가 있지만,
(1) 미세 구간 단위의 스케일링(예: 1×128, 128×128)
(2) 높은 정밀도의 누산(accumulation)
(3) 온라인 퀀타이제이션
등을 통해 정밀도 문제를 해결하고 연산속도를 크게 높임.
4.1.2. 구체적 전략
Fine-grained Quantization:
Activation(특히 forward 입력 등)은 “토큰별 128채널 단위(1×128)”로 스케일 조정,
Weight(가중치)는 “128×128 블록 단위”로 스케일 조정.
높은 정밀도 누산:
Tensor Core에서 FP8 연산 시 내부에 14비트 등 제한된 정밀도를 쓰는데, 일정 interval마다(예: 128개씩) CUDA Core의 FP32 레지스터로 승격해 더 정확히 축적.
Online Quantization:
최대 절댓값을 실시간으로 구해, 해당 미니그룹(토큰/블록 등)에 맞춰 스케일링하여 FP8로 변환.
4.2. DualPipe 파이프라인
4.2.1. 배경
DeepSeek-V3처럼 거대 MoE 모델은 각 레이어(또는 구간)를 GPU 여러 대에 걸쳐 분산(Pipeline Parallel)시키고, MoE 토큰 전달 등 All-to-all 통신이 잦습니다.
단순 1F1B(Forward 1개, Backward 1개)나 ZeroBubble 같은 기존 기법은 통신 시간이 겹치지 않아 전체 속도 저하가 큼.
4.2.2. DualPipe 알고리즘
아이디어: Forward 연산 중에 Backward의 통신, 또는 Backward의 일부 연산과 Forward의 통신을 동시에(Overlap) 진행.
세부적으로 Attention / MoE Dispatch / MLP / MoE Combine 등을 잘게 쪼개어, 이들 사이의 통신을 파이프라인 상 서로 다른 마이크로배치끼리 겹치게 구성.
결과적으로 통신이 거의 “공짜(fully hidden)”처럼 처리되어, 커다란 GPU 클러스터에서도 확장성이 좋아집니다.
4.3. 추론(Inference) 및 배포 전략
4.3.1. Prefilling
추론 시 “처음 문맥을 대량으로 넣어” 모델 내부 상태(KV 캐시 등)를 채우는 과정.
DeepSeek-V3는 노드 간 IB(InfiniBand) 통신과 노드 내 NVLink 통신을 혼합해 사용.
“중복 Expert(Redundant Expert)”를 배치해, 특정 Expert가 과부하가 되지 않도록 동적으로 할당.
이 모든 과정을 통합하여 대규모 온·오프라인 서비스에 대응 가능한 구조.
4.3.2. Decoding
Prefilling 후, 실제 한 토큰씩 디코딩하는 과정.
실시간 요청에서는 모멘텀이 “Attention 연산”에 더 집중됨.
마찬가지로 “Redundant Expert” + “Node별로 1개 Expert” 방식으로 구현하여, 파이프라인과 통신을 겹치고, 길이가 짧은 마이크로배치라도 빠른 응답이 가능하도록 함.
5. Pre-Training (사전학습)
5.1. 데이터
총 14.8조(14.8T) 토큰 규모의 고품질 다국어 데이터.
영·중심 + 기타 언어 포함.
수학, 코딩 비중을 늘리고, 데이터 중복 제거와 품질 관리를 강화.
Fill-in-Middle(FIM) 전략 적용: 10% 정도는 문장의 가운데를 맞추는 형태로 학습(코드 완성 등에서 유용).
Byte-level BPE 기반의 12.8만(128K) 토큰 사전.
5.2. 학습 스펙
Transformer 레이어수 61, hidden dim=7168, 헤드수=128 등.
모든 FFN(첫 3개 제외)에 MoE 적용. 각 레이어당 공유 Expert 1개, 라우팅 Expert 256개.
단, 매 토큰에는 8개 Expert 활성화.
배치 사이즈 스케줄링, LR(learning rate) 스케줄링(초반 워밍업 → 코사인 디케이), 등 다양한 기법 사용.
MTP: depth=1, 첫 10T 토큰 동안 MTP 가중치 λ=0.3, 이후 0.1로 조정.
Aux-loss-free의 bias 업데이트 속도 γ=0.001(처음 14.3T 토큰까지), 그 후 0으로 중단.
5.3. 롱컨텍스트 확장 (YaRN)
사전학습 후, 4K 문맥에서 시작해 2단계에 걸쳐 32K, 128K까지 문맥을 확장.
YaRN(Peng et al., 2023) 기법으로 로테리 임베딩(RoPE)을 확장해, 128K 길이까지 안정적으로 처리.
5.4. 성능 요약 (Base 모델)
English, Chinese, Multilingual 전반을 아우르는 벤치마크에서 동급 대비 최고 수준.
예) MMLU-Pro, GSM8K, MATH, HumanEval 등 코딩·수학 분야 최고 수준.
대등 규모 혹은 더 큰 Dense 모델과 비교 시도에서도 학습 비용이나 추론 효율 면에서 강점.
6. Post-Training(추가 학습, SFT·RL)
6.1. Supervised Fine-Tuning (SFT)
약 150만 건의 고품질 인스트럭션 튜닝 데이터.
특히 수학·코드 등 논리적 사고(Reasoning) 분야 데이터에 집중.
DeepSeek-R1 모델(별도 “Long Chain-of-Thought”에 특화)의 출력을 적절히 정제하여(너무 길거나 포맷 엉킨 부분 보완) final SFT 데이터로 활용 → 정확도 대폭 상승.
6.2. RL (Reinforcement Learning)
Group Relative Policy Optimization (GRPO) 기법 사용.
Rule-based RM(정답 검증 가능 문제) + Model-based RM(정답이 하나로 결정 어려운 문항) 혼합.
자기 자신(DeepSeek-V3)이 만든 투표결과 등을 다시 보상으로 활용하는 “Self-Rewarding(Constitutional AI)” 방식도 병행.
7. 결론 및 한계
DeepSeek-V3는 (1) MLA, (2) DeepSeekMoE, (3) Aux-loss-free balancing, (4) MTP, (5) FP8 training 등 다양한 혁신 요소를 결합한 **거대 스파스 모델(MoE)**입니다.
총 파라미터 6710억이지만, 매 토큰마다 370억 파라미터만 활성화하고,
사전학습 14.8T 토큰,
롱컨텍스트(최대 128K) 지원,
포스트 트레이닝(SFT+RL)으로 정밀도와 활용도(코드·수학 등) 극대화를 이룹니다.
학습 비용 역시 **H800 GPU 기준 약 278만8천 GPU-시(약 560만 달러)**로, 이 정도 규모의 모델 중에선 매우 경제적으로 달성.
7.1. 제한사항
대규모 클러스터 기반으로 설계되어, 적은 GPU 보유 팀이 직접 추론/서비스하기는 어렵다.
추론 속도는 기존 Dense 대형 모델보다 낫지만, 작은 Dense 모델 대비 성능/속도 절충은 사용 시나리오에 따라 고민이 필요.
7.2. 미래 연구 방향
무한대 혹은 더 큰 컨텍스트를 위한 RoPE/AliBi 등 확장 기법 연구.
MoE 이상으로 효율적인 구조(예: 스파스한 Attention, Retrieval-Augmented 등)와의 조합.
다양한 분야(비전·멀티모달 등)으로 확장, 훈련 신호 다양화.
**LLM 자체를 보상 함수로 활용(Self-Rewarding)**하는 기법을 더 고도화.
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
단지 RL(강화학습)만으로 Instruct Model을 Reasoning Model로 변화
기존 DeepSeek-V3 Base를 대상으로 선행 SFT 없이 RL만을 적용하여, “DeepSeek-R1-Zero”라는 순수한 강화학습 기반 모델을 만들었다.
“이 모델이 과연, 인간이 주입해준 정교한 지도 데이터 없이도 깊이 있는 Reasoning을 습득할 수 있는가?”라는 의문에서 출발했다. 결과적으로 R1-Zero는 놀랄 만큼 강력한 Reasoning 능력을 발휘하기 시작했다.
원래는 “사람이 먼저 CoT 예시를 대규모로 붙여 모델을 교정(SFT)해야 한다”는 것이 일반적이었다.
하지만 DeepSeek-R1-Zero는 “SFT 없는 대규모 RL”만으로도 긴 사고 과정을 사용해 문제를 풀고 개선해나갔다. “Aha Moment”라 불릴 정도로 모델이 스스로 더 깊은 고찰을 하게 된 것이다.
이 R1-Zero로부터 생성된 Reasoning 데이터셋을 인간이 약간 보정하고, SFT+RL 과정을 추가
R1-Zero가 만들어낸 긴 Chain-of-Thought(CoT)들 중 유용한 것만 골라서 “Cold Start”로 불리는 소규모 고품질 데이터셋을 마련했다.
이를 시작점으로 다시 한 번 RL과 SFT 단계를 거치자, 전반적으로 훨씬 더 인간 친화적이고 가독성도 뛰어난 모델인 “DeepSeek-R1”이 탄생했다.
즉, 단순 강화학습만으로는 자연언어 사용(가독성, 혼용어 문제 등)에 어려움이 있었으나, 소량의 정제된 CoT 데이터를 사전 주입함으로써 안정성과 품질을 극적으로 끌어올렸다.
최종적으로 만들어진 80만(800k) 건의 Reasoning 데이터로, 작은 모델도 RL 없이 SFT만으로 큰 성능 향상
이렇게 구축한 800k 규모의 고품질 Reasoning 데이터셋은 훨씬 작은 규모의 모델(Qwen, Llama 등)에도 단순히 SFT로만 적용해도 뛰어난 성능을 보였다.
반면, 작은 모델에서는 동일한 RL 과정을 아무리 오래 해도 성능 이득이 매우 미미했다.
결론은, “시작점(베이스 모델)의 품질이 충분히 좋아야 RL을 해도 빛을 발한다”는 것이다. 베이스 모델이 작을수록, 대규모 RL 자체가 실익이 크지 않음을 확인했다.
보상의 명확성이 곧 성능과 효율을 좌우한다
DeepSeek-R1 연구진은 훈련 파이프라인을 불필요하게 복잡하게 만들지 않았다. 즉, “오답/정답, 포맷 준수 여부” 등 명확히 판단 가능한 지표만으로 보상을 설계했다.
복잡한 PPO or PRM(Process Reward Model)보다는, “딱 맞냐 아니냐”로 결정되는 직접 검증 가능한 답안 위주로 RL을 실시했다.
이는 장황한 보상 설계(MCTS+Value Model, 세밀한 중간 단계 채점 등)보다 더 효과적이었고, “이 문제를 맞혔는가? / 지정된 형식을 지켰는가?”라는 명확한 보상만으로도 스스로 Reasoning 능력을 발전시켰다.
Stage 1: (R1-Zero) Base 모델 + RL (SFT 없이)
DeepSeek-V3 Base를 바로 RL 훈련에 투입 → 정답 여부, 형식 준수 여부로만 평가(정확도가 곧 보상).
대규모 스텝을 거치며 Reasoning 능력이 스스로 생겨남(그 외 언어 품질 문제는 고려 X).
Stage 2: Cold Start 데이터 생성 + SFT 후 RL (R1)
R1-Zero로부터 생성된 긴 CoT 중 “읽기 쉬운 형식”의 예시만 수천 건 모아서, 인간이 조금 다듬어 Cold Start 용 SFT 시행.
이 초기 모델로 다시 Reasoning 전용 RL 수행 → 언어 품질 문제(혼용어·가독성) 일부 해결 & 성능 향상.
필요하다면, RL 마지막 단계에서 Rejection Sampling으로 정확한 응답만 골라 새로 SFT 데이터셋을 만든 뒤, 전 범위 RL을 재실행 한다.
Stage 3: Rejection Sampling으로 얻은 데이터 + 추가 도메인(SFT)
이전 RL 결과물을 바탕으로 약 60만 건의 Reasoning 데이터 + 20만 건의 일반문서(작문, QA, 자기소개 등)를 모아서, 최종 SFT 수행.
이로써 “Reasoning”과 “일반 질의응답, 작성능력”을 모두 어느 정도 커버하는 모델 완성.
Stage 4: Distillation (작은 모델로 전이)
위 과정에서 탄생한 R1의 Reasoning 노하우가 담긴 80만 샘플을, Qwen-32B, Llama-70B 등의 다양한 모델에 “단순 Fine-Tuning”만 적용해도 놀라운 성능 향상이 확인됨.
RL 없이도 소형 모델들이 Reasoning을 상당히 습득함.
반면, 이 소형 모델들에 직접 RL을 적용하면 높은 계산 비용 대비 효율이 떨어짐(실험상 성능 상승이 미미).
1. 시작점(베이스 모델)이 매우 중요하다
큰 모델에다 RL을 적용해야 ‘스스로 CoT를 만들어내는’ 비약적 발전이 나타난다. 작은 모델로는 같은 RL 투자를 해도 효과가 훨씬 떨어진다.
보상을 간단하게, 명확하게 설정하라
“답이 맞는가, 형식이 맞는가?” 정도로도 충분히 지도학습(혹은 RL) 효과를 낼 수 있다.
복잡한 중간 단계 보상(예: PRM, MCTS+Value Model)은 많은 리소스와 리스크(Reward Hacking)를 유발하지만 최종적 실익이 크지 않았다.
단순 CoT 생성 능력이 몰고 온 ‘자발적 자기정정(Reflection), Aha Moment’
스스로 생각을 재평가하고(Reflection), 다른 접근법으로 문제 해결을 시도하며(Aha Moment) Reasoning 능력을 급격히 향상시키는 현상이 RL 중간에서 포착되었다.
Future Works
Language Mixing 해결: 현재는 영어·중국어에 최적화.
프로젝트 규모 확장: 더 방대한 문제 도메인(예: SW 엔지니어링, 구조적 출력, 대화형 시스템 등)을 커버하기 위한 RL/데이터셋 확장이 가능.
Prompt Engineering 연구: R1 계열은 few-shot prompt보다 zero-shot prompt에 최적화되는 경향. 추후 이에 맞춰 프롬프트 설계를 재검토할 필요가 있다.
단지 RL(강화학습)만으로 Instruct Model을 Reasoning Model로 변화
기존 DeepSeek-V3 Base를 대상으로 선행 SFT 없이 RL만을 적용하여, “DeepSeek-R1-Zero”라는 순수한 강화학습 기반 모델을 만들었다.
“이 모델이 과연, 인간이 주입해준 정교한 지도 데이터 없이도 깊이 있는 Reasoning을 습득할 수 있는가?”라는 의문에서 출발했다. 결과적으로 R1-Zero는 놀랄 만큼 강력한 Reasoning 능력을 발휘하기 시작했다.
원래는 “사람이 먼저 CoT 예시를 대규모로 붙여 모델을 교정(SFT)해야 한다”는 것이 일반적이었다.
하지만 DeepSeek-R1-Zero는 “SFT 없는 대규모 RL”만으로도 긴 사고 과정을 사용해 문제를 풀고 개선해나갔다. “Aha Moment”라 불릴 정도로 모델이 스스로 더 깊은 고찰을 하게 된 것이다.
이 R1-Zero로부터 생성된 Reasoning 데이터셋을 인간이 약간 보정하고, SFT+RL 과정을 추가
R1-Zero가 만들어낸 긴 Chain-of-Thought(CoT)들 중 유용한 것만 골라서 “Cold Start”로 불리는 소규모 고품질 데이터셋을 마련했다.
이를 시작점으로 다시 한 번 RL과 SFT 단계를 거치자, 전반적으로 훨씬 더 인간 친화적이고 가독성도 뛰어난 모델인 “DeepSeek-R1”이 탄생했다.
즉, 단순 강화학습만으로는 자연언어 사용(가독성, 혼용어 문제 등)에 어려움이 있었으나, 소량의 정제된 CoT 데이터를 사전 주입함으로써 안정성과 품질을 극적으로 끌어올렸다.
최종적으로 만들어진 80만(800k) 건의 Reasoning 데이터로, 작은 모델도 RL 없이 SFT만으로 큰 성능 향상
이렇게 구축한 800k 규모의 고품질 Reasoning 데이터셋은 훨씬 작은 규모의 모델(Qwen, Llama 등)에도 단순히 SFT로만 적용해도 뛰어난 성능을 보였다.
반면, 작은 모델에서는 동일한 RL 과정을 아무리 오래 해도 성능 이득이 매우 미미했다.
결론은, “시작점(베이스 모델)의 품질이 충분히 좋아야 RL을 해도 빛을 발한다”는 것이다. 베이스 모델이 작을수록, 대규모 RL 자체가 실익이 크지 않음을 확인했다.
보상의 명확성이 곧 성능과 효율을 좌우한다
DeepSeek-R1 연구진은 훈련 파이프라인을 불필요하게 복잡하게 만들지 않았다. 즉, “오답/정답, 포맷 준수 여부” 등 명확히 판단 가능한 지표만으로 보상을 설계했다.
복잡한 PPO or PRM(Process Reward Model)보다는, “딱 맞냐 아니냐”로 결정되는 직접 검증 가능한 답안 위주로 RL을 실시했다.
이는 장황한 보상 설계(MCTS+Value Model, 세밀한 중간 단계 채점 등)보다 더 효과적이었고, “이 문제를 맞혔는가? / 지정된 형식을 지켰는가?”라는 명확한 보상만으로도 스스로 Reasoning 능력을 발전시켰다.
Stage 1: (R1-Zero) Base 모델 + RL (SFT 없이)
DeepSeek-V3 Base를 바로 RL 훈련에 투입 → 정답 여부, 형식 준수 여부로만 평가(정확도가 곧 보상).
대규모 스텝을 거치며 Reasoning 능력이 스스로 생겨남(그 외 언어 품질 문제는 고려 X).
Stage 2: Cold Start 데이터 생성 + SFT 후 RL (R1)
R1-Zero로부터 생성된 긴 CoT 중 “읽기 쉬운 형식”의 예시만 수천 건 모아서, 인간이 조금 다듬어 Cold Start 용 SFT 시행.
이 초기 모델로 다시 Reasoning 전용 RL 수행 → 언어 품질 문제(혼용어·가독성) 일부 해결 & 성능 향상.
필요하다면, RL 마지막 단계에서 Rejection Sampling으로 정확한 응답만 골라 새로 SFT 데이터셋을 만든 뒤, 전 범위 RL을 재실행 한다.
Stage 3: Rejection Sampling으로 얻은 데이터 + 추가 도메인(SFT)
이전 RL 결과물을 바탕으로 약 60만 건의 Reasoning 데이터 + 20만 건의 일반문서(작문, QA, 자기소개 등)를 모아서, 최종 SFT 수행.
이로써 “Reasoning”과 “일반 질의응답, 작성능력”을 모두 어느 정도 커버하는 모델 완성.
Stage 4: Distillation (작은 모델로 전이)
위 과정에서 탄생한 R1의 Reasoning 노하우가 담긴 80만 샘플을, Qwen-32B, Llama-70B 등의 다양한 모델에 “단순 Fine-Tuning”만 적용해도 놀라운 성능 향상이 확인됨.
RL 없이도 소형 모델들이 Reasoning을 상당히 습득함.
반면, 이 소형 모델들에 직접 RL을 적용하면 높은 계산 비용 대비 효율이 떨어짐(실험상 성능 상승이 미미).
1. 시작점(베이스 모델)이 매우 중요하다
큰 모델에다 RL을 적용해야 ‘스스로 CoT를 만들어내는’ 비약적 발전이 나타난다. 작은 모델로는 같은 RL 투자를 해도 효과가 훨씬 떨어진다.
보상을 간단하게, 명확하게 설정하라
“답이 맞는가, 형식이 맞는가?” 정도로도 충분히 지도학습(혹은 RL) 효과를 낼 수 있다.
복잡한 중간 단계 보상(예: PRM, MCTS+Value Model)은 많은 리소스와 리스크(Reward Hacking)를 유발하지만 최종적 실익이 크지 않았다.
단순 CoT 생성 능력이 몰고 온 ‘자발적 자기정정(Reflection), Aha Moment’
스스로 생각을 재평가하고(Reflection), 다른 접근법으로 문제 해결을 시도하며(Aha Moment) Reasoning 능력을 급격히 향상시키는 현상이 RL 중간에서 포착되었다.
Future Works
Language Mixing 해결: 현재는 영어·중국어에 최적화.
프로젝트 규모 확장: 더 방대한 문제 도메인(예: SW 엔지니어링, 구조적 출력, 대화형 시스템 등)을 커버하기 위한 RL/데이터셋 확장이 가능.
Prompt Engineering 연구: R1 계열은 few-shot prompt보다 zero-shot prompt에 최적화되는 경향. 추후 이에 맞춰 프롬프트 설계를 재검토할 필요가 있다.
GitHub
DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1
Contribute to deepseek-ai/DeepSeek-R1 development by creating an account on GitHub.
❤1
Continuous Learning_Startup & Investment
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 단지 RL(강화학습)만으로 Instruct Model을 Reasoning Model로 변화 기존 DeepSeek-V3 Base를 대상으로 선행 SFT 없이 RL만을 적용하여, “DeepSeek-R1-Zero”라는 순수한 강화학습 기반 모델을 만들었다. “이 모델이 과연, 인간이 주입해준 정교한 지도 데이터 없이도 깊이 있는 Reasoning을…
Deepseek has over 50k Hopper GPUs to be clear.
Dylan Patel
https://x.com/dylan522p/status/1859302712803807696
50k H100 GPU: 평균 2000~4000만원 기준 1~2조
Dylan Patel
https://x.com/dylan522p/status/1859302712803807696
50k H100 GPU: 평균 2000~4000만원 기준 1~2조
X (formerly Twitter)
Dylan Patel (@dylan522p) on X
Deepseek has over 50k Hopper GPUs to be clear.
People need to stop acting like they only have that 10k A100 cluster.
They are omega cracked on ML research and infra management but they aren't doing it with that many fewer GPUs
People need to stop acting like they only have that 10k A100 cluster.
They are omega cracked on ML research and infra management but they aren't doing it with that many fewer GPUs
DeepSeek에서 나온 테크니컬 리포트들에 대한 글은 이전에 쓴 적이 있었다. (https://rosinality.substack.com/p/deepseek-llm) 지금 DeepSeek-V3가 나온 시점에서 드는 생각이 있어 그걸 써볼까 한다.
좋은 LLM을 만들기 위해서는 무엇이 필요할까? 좋은 아키텍처와 학습 기법, 좋은 데이터, 좋은 인프라일 것이다.
좋은 아키텍처는 무엇일까? 일단 추론은 논외로 하면 같은 연산량에서 더 나은 성능에 도달하는 것이다. 이 문제에서 트랜스포머에서 가장 가능성 있는 방향 중 하나가 MoE이다. 그래서 MoE 연구를 했고 (https://arxiv.org/abs/2401.06066) MoE의 이슈 중 하나인 로드 밸런싱 문제에 대한 개선을 했다. (https://arxiv.org/abs/2408.15664) DeepSeekMoE의 Fine grained Expert은 이제 표준적이다.
추론에서 가장 큰 문제는 무엇일까? Key/Value 캐시의 크기일 것이다. 그래서 MLA를 개발했다. (https://arxiv.org/abs/2405.04434)
이런 형태의 아키텍처 개선을 사용하면 일반적인 Llama와는 호환되지 않게 된다. 그러나 Llama 아키텍처와의 호환성을 통해서 얻을 수 있는 것을 (추론 엔진용 코드를 작성하는 등) 직접 한다면 아키텍처의 개선으로 얻을 수 있는 이익을 얻을 수 있다. 이를 뒤집으면 코드 작성을 피하기 위해서 호환성을 추구하는 것으로 아키텍처의 열위를 선택하고 있을 수 있다는 것이다.
학습 기법에 대해서는 GRPO 같은 정렬과 탐색 방법들. (https://arxiv.org/abs/2402.03300, https://arxiv.org/abs/2312.08935, https://arxiv.org/html/2408.08152), 그리고 DeepSeek-V3에서의 Multi Token Prediction 같은 방법.
그리고 요즘 또한 인기 있는 방법인 Scaling Law를 통한 하이퍼파라미터 추정도 DeepSeek LLM에서 등장했다.
좋은 데이터는? DeepSeek LLM에서부터 Common Crawl을 직접 처리했고 (https://arxiv.org/abs/2401.02954) DeepSeek-Coder에서는 코드 데이터를 직접 처리하고 Dependency 기반 정렬을 도입했으며 (https://arxiv.org/abs/2401.14196) DeepSeekMath에서는 이제 거의 표준적인 방법인 Common Crawl에서 수학 관련 데이터를 추가 수집하는 방법을 개발했다. (https://arxiv.org/abs/2402.03300) 그리고 DeepSeek-V2를 거치면서 데이터의 규모도 계속 증가했다.
학습 인프라에 대해서는? DeepSeek-V2에서 Zero-Bubble Pipeline Parallel을 이미 도입했고 (https://arxiv.org/abs/2401.10241) DeepSeek-V3에서는 Pipeline Parallel 스케줄, MoE를 위한 All-to-All 통신의 최적화, FP8 학습을 위한 Quantization 방법의 개선 등이 포함되었다.
그리고 이런 과정들을 거쳐 DeepSeek-V3가 등장했다. 사실 DeepSeek LLM은 테크니컬 리포트의 퀄리티와는 별개로 그 시점에서 Mistral 7B 같은 모델에 비해 그렇게 고성능인 모델은 아니었다. Llama 1 정도의 모델이었기 때문에.
김성현님
좋은 LLM을 만들기 위해서는 무엇이 필요할까? 좋은 아키텍처와 학습 기법, 좋은 데이터, 좋은 인프라일 것이다.
좋은 아키텍처는 무엇일까? 일단 추론은 논외로 하면 같은 연산량에서 더 나은 성능에 도달하는 것이다. 이 문제에서 트랜스포머에서 가장 가능성 있는 방향 중 하나가 MoE이다. 그래서 MoE 연구를 했고 (https://arxiv.org/abs/2401.06066) MoE의 이슈 중 하나인 로드 밸런싱 문제에 대한 개선을 했다. (https://arxiv.org/abs/2408.15664) DeepSeekMoE의 Fine grained Expert은 이제 표준적이다.
추론에서 가장 큰 문제는 무엇일까? Key/Value 캐시의 크기일 것이다. 그래서 MLA를 개발했다. (https://arxiv.org/abs/2405.04434)
이런 형태의 아키텍처 개선을 사용하면 일반적인 Llama와는 호환되지 않게 된다. 그러나 Llama 아키텍처와의 호환성을 통해서 얻을 수 있는 것을 (추론 엔진용 코드를 작성하는 등) 직접 한다면 아키텍처의 개선으로 얻을 수 있는 이익을 얻을 수 있다. 이를 뒤집으면 코드 작성을 피하기 위해서 호환성을 추구하는 것으로 아키텍처의 열위를 선택하고 있을 수 있다는 것이다.
학습 기법에 대해서는 GRPO 같은 정렬과 탐색 방법들. (https://arxiv.org/abs/2402.03300, https://arxiv.org/abs/2312.08935, https://arxiv.org/html/2408.08152), 그리고 DeepSeek-V3에서의 Multi Token Prediction 같은 방법.
그리고 요즘 또한 인기 있는 방법인 Scaling Law를 통한 하이퍼파라미터 추정도 DeepSeek LLM에서 등장했다.
좋은 데이터는? DeepSeek LLM에서부터 Common Crawl을 직접 처리했고 (https://arxiv.org/abs/2401.02954) DeepSeek-Coder에서는 코드 데이터를 직접 처리하고 Dependency 기반 정렬을 도입했으며 (https://arxiv.org/abs/2401.14196) DeepSeekMath에서는 이제 거의 표준적인 방법인 Common Crawl에서 수학 관련 데이터를 추가 수집하는 방법을 개발했다. (https://arxiv.org/abs/2402.03300) 그리고 DeepSeek-V2를 거치면서 데이터의 규모도 계속 증가했다.
학습 인프라에 대해서는? DeepSeek-V2에서 Zero-Bubble Pipeline Parallel을 이미 도입했고 (https://arxiv.org/abs/2401.10241) DeepSeek-V3에서는 Pipeline Parallel 스케줄, MoE를 위한 All-to-All 통신의 최적화, FP8 학습을 위한 Quantization 방법의 개선 등이 포함되었다.
그리고 이런 과정들을 거쳐 DeepSeek-V3가 등장했다. 사실 DeepSeek LLM은 테크니컬 리포트의 퀄리티와는 별개로 그 시점에서 Mistral 7B 같은 모델에 비해 그렇게 고성능인 모델은 아니었다. Llama 1 정도의 모델이었기 때문에.
김성현님
Substack
DeepSeek LLM
세미나 발제를 위한 자료로 작성했지만 공개할만한 가치가 있을 것 같아 공유합니다.
이전에 언급했던 것처럼 지금 가장 중요한 문제는 o1에 사용된 추론 능력을 위한 방법을 알아내는 것이었다. 물론 o1의 방법이 무엇인지는 기밀이니 여전히 정확히 알 수는 없다. 그러나 o1과 동등한 수준의 결과를 얻을 수 있는 방법은 이제 알려졌다. 그것도 하루만에 두 가지 사례로.
https://github.com/deepseek-ai/DeepSeek-R1
https://github.com/MoonshotAI/Kimi-k1.5
흥미로운 것은 이 두 가지 사례 모두 공통된 방법을 사용했다는 것이다. 그저 모델의 최종 출력 결과의 정답 여부만으로 (수학이라면 정답과의 일치 여부, 코딩이라면 컴파일러를 통한 유닛 테스트 피드백 등) RL을 하는 것이다. 지금까지 추론 능력을 위한 많은 시도들이 나왔고 이 시도들은 대체로 Process Reward Model (PRM)을 사용해서 CoT의 각 스텝에 대해 Reward를 주거나 MCTS를 하는 것이 주류였다.
그런데 그런 절충적인 방법이나 명시적인 탐색을 전혀 사용하지 않고 결과 보상(Outcome Reward)만으로 추론 능력을 모델에 주입하는데 성공한 것이다.
사실 o1이 MCTS 같은 방법을 사용했는가는 계속해서 논쟁적인 문제였다. TÜLU 3에서 정답을 기반한 RL을 (RLVR) 통해 창발적인 능력이 나타난 사례를 기반으로 탐색이 아니라 Outcome Reward를 통해 추론 능력이 등장할 수 있다는 주장도 있었고 (https://www.interconnects.ai/.../openais-o1-using-search...) 탐색은 답이 아니라는 말도 있었지만 (https://x.com/denny_zhou/status/1870551510741811644) 어쨌든 지금까지 가장 인기 있었던 방법은 탐색이었다. (https://arxiv.org/abs/2501.04682)
그렇다면 왜 Outcome Reward 기반의 방법이 주목을 받지 못했을까? 이는 이 방법이 성공적이기 위해선 베이스 모델의 성능이 충분히 높아야 하고 충분한 난이도와 양의 문제-정답 데이터가 필요하기 때문일 것이다.
딥 러닝에서 흔하게 일어나는 문제, 즉 정교한 방법이 규모를 키운 단순한 방법에 밀리는 현상의 반복이라고 할 수 있겠다.
PRM의 문제는 무엇일까? 일단 PRM을 적용하자면 CoT에서 Process가 될 단위를 설정해야 한다. 이 스텝들에 대한 학습 레이블 또한 필요하다. 이 레이블 구축은 아주 어려운 작업이기에 정답 여부를 통해 레이블을 부여하는 방법이 인기를 얻었지만 이렇게 학습한 모델은 학습 도메인 밖으로 넘어가면 성능 문제가 발생한다. (https://arxiv.org/abs/2501.07301) 또한 애초에 모델 기반이기에 모델의 부정확성 또한 문제가 된다.
MCTS는 어떨까? MCTS를 위해선 정확한 Value 모델이 필요하고 이를 확보하는 것이 문제가 된다.
PRM과 MCTS 모두 CoT에 일정한 구조를 부여하게 된다. PRM에서는 Reward의 단위가 되는 스텝들이 정해져야 하고 MCTS는 탐색 공간이 설정되어야 한다.
그리고 딥 러닝의 가장 중요한 교훈은 문제에 대한 해결 방법에 구조를 부여해서는 안 된다는 것이다.
물론 앞으로도 PRM이나 MCTS가 도움이 되지 않을 것이라고 말할 수는 없다. 그러나 단순한 방법을 Scaling 하는 것이 해야 할 첫 단계인 것도 사실이다.
이런 추론 모델들을 통해 베이스 모델을 더 강화할 수 있는가, 그리고 지금 정답을 알 수 있는 문제들에 대해 학습한 모델이 우리가 목표하는 정답을 아직 모르는 문제를 해결하는 것에 도달할 수 있는가 등 생각하고 연구할 문제들은 많이 있다. 실용적으로는 더 다양한 과제들에 대해 정답 여부를 계산할 수 있는 방법을 개발하는 것도 중요하다.
그러나 일단 가능하다는 것을 확인했다면 그 지점에서 나아가는 것은 한결 쉽다.
#
DeepSeek-R1 리포트에서 말하듯 Distillation은 모델에 추론 능력을 부여하는 아주 손쉬운 방법이다. 사실 o1을 재현했다고 주장한 많은 시도들이 Distillation에 의존하고 있다.
(나는 외부 모델의 결과를 사용해 모델을 학습시키는 것을 Distillation이라고 부르는 것에 반대하고 싶지만 이미 너무 광범위한 용법이 되어버렸으니 어쩔 수 없을 듯 싶다.)
사실 작은 모델에서는 RL보다 Distillation이 더 효과적이라고 언급하고 있기도 하다. RL이 제대로 작동하려면 강력한 베이스 모델이 뒷받침되어야 하는 것이다. 그러나 마찬가지로 리포트에서 언급하는 것처럼 모델의 능력의 경계를 확장하려면 더 강력한 베이스 모델과 대규모 RL을 통할 수밖에 없다. 따라서 진정으로 흥미로운 것은 그 경계를 확장하는 작업과 그 영역에 있다.
#
DeepSeek의 창립자가 인터뷰에서 AGI에 도달하기 위한 기술적 혁신에 대신 현재의 기술을 통한 응용이나 이윤 창출에 집중할 생각은 없다는 식으로 언급한 적이 있다. (https://www.chinatalk.media/.../deepseek-ceo-interview...) 이 기술적 혁신에 대한 집중이 지금 DeepSeek이 공개하고 있는 성과의 동력이었으리라고 생각한다.
그리고 이것이 오히려 합리적인 선택일 수 있다. 현재 수준의 LLM의 능력은 제한적이고 따라서 그것을 적용할 수 있는 분야와 창출할 수 있는 이윤 또한 제한적일 수밖에 없다. 그렇다면 지금 가능한 영역에서 이윤을 짜내려 시도하는 것보다는 가능한 영역을 늘리는 것에 집중하는 것이 나을 수 있다.
이 영역의 발전 속도를 고려했을 때 이 기술이 도달할 수 있는 범위에 대해 가늠할 수 있게 되기까지 걸릴 시간은 그리 많지 않다. 즉 굉장히 장기적인 투자가 필요하지는 않을 것이라는 의미이다. (물론 비용은 클 수 있다.) 그렇다면 굳이 지금 얻을 수 있는 조금의 이윤을 위해 조바심을 낼 필요는 없다.
김성현님
https://github.com/deepseek-ai/DeepSeek-R1
https://github.com/MoonshotAI/Kimi-k1.5
흥미로운 것은 이 두 가지 사례 모두 공통된 방법을 사용했다는 것이다. 그저 모델의 최종 출력 결과의 정답 여부만으로 (수학이라면 정답과의 일치 여부, 코딩이라면 컴파일러를 통한 유닛 테스트 피드백 등) RL을 하는 것이다. 지금까지 추론 능력을 위한 많은 시도들이 나왔고 이 시도들은 대체로 Process Reward Model (PRM)을 사용해서 CoT의 각 스텝에 대해 Reward를 주거나 MCTS를 하는 것이 주류였다.
그런데 그런 절충적인 방법이나 명시적인 탐색을 전혀 사용하지 않고 결과 보상(Outcome Reward)만으로 추론 능력을 모델에 주입하는데 성공한 것이다.
사실 o1이 MCTS 같은 방법을 사용했는가는 계속해서 논쟁적인 문제였다. TÜLU 3에서 정답을 기반한 RL을 (RLVR) 통해 창발적인 능력이 나타난 사례를 기반으로 탐색이 아니라 Outcome Reward를 통해 추론 능력이 등장할 수 있다는 주장도 있었고 (https://www.interconnects.ai/.../openais-o1-using-search...) 탐색은 답이 아니라는 말도 있었지만 (https://x.com/denny_zhou/status/1870551510741811644) 어쨌든 지금까지 가장 인기 있었던 방법은 탐색이었다. (https://arxiv.org/abs/2501.04682)
그렇다면 왜 Outcome Reward 기반의 방법이 주목을 받지 못했을까? 이는 이 방법이 성공적이기 위해선 베이스 모델의 성능이 충분히 높아야 하고 충분한 난이도와 양의 문제-정답 데이터가 필요하기 때문일 것이다.
딥 러닝에서 흔하게 일어나는 문제, 즉 정교한 방법이 규모를 키운 단순한 방법에 밀리는 현상의 반복이라고 할 수 있겠다.
PRM의 문제는 무엇일까? 일단 PRM을 적용하자면 CoT에서 Process가 될 단위를 설정해야 한다. 이 스텝들에 대한 학습 레이블 또한 필요하다. 이 레이블 구축은 아주 어려운 작업이기에 정답 여부를 통해 레이블을 부여하는 방법이 인기를 얻었지만 이렇게 학습한 모델은 학습 도메인 밖으로 넘어가면 성능 문제가 발생한다. (https://arxiv.org/abs/2501.07301) 또한 애초에 모델 기반이기에 모델의 부정확성 또한 문제가 된다.
MCTS는 어떨까? MCTS를 위해선 정확한 Value 모델이 필요하고 이를 확보하는 것이 문제가 된다.
PRM과 MCTS 모두 CoT에 일정한 구조를 부여하게 된다. PRM에서는 Reward의 단위가 되는 스텝들이 정해져야 하고 MCTS는 탐색 공간이 설정되어야 한다.
그리고 딥 러닝의 가장 중요한 교훈은 문제에 대한 해결 방법에 구조를 부여해서는 안 된다는 것이다.
물론 앞으로도 PRM이나 MCTS가 도움이 되지 않을 것이라고 말할 수는 없다. 그러나 단순한 방법을 Scaling 하는 것이 해야 할 첫 단계인 것도 사실이다.
이런 추론 모델들을 통해 베이스 모델을 더 강화할 수 있는가, 그리고 지금 정답을 알 수 있는 문제들에 대해 학습한 모델이 우리가 목표하는 정답을 아직 모르는 문제를 해결하는 것에 도달할 수 있는가 등 생각하고 연구할 문제들은 많이 있다. 실용적으로는 더 다양한 과제들에 대해 정답 여부를 계산할 수 있는 방법을 개발하는 것도 중요하다.
그러나 일단 가능하다는 것을 확인했다면 그 지점에서 나아가는 것은 한결 쉽다.
#
DeepSeek-R1 리포트에서 말하듯 Distillation은 모델에 추론 능력을 부여하는 아주 손쉬운 방법이다. 사실 o1을 재현했다고 주장한 많은 시도들이 Distillation에 의존하고 있다.
(나는 외부 모델의 결과를 사용해 모델을 학습시키는 것을 Distillation이라고 부르는 것에 반대하고 싶지만 이미 너무 광범위한 용법이 되어버렸으니 어쩔 수 없을 듯 싶다.)
사실 작은 모델에서는 RL보다 Distillation이 더 효과적이라고 언급하고 있기도 하다. RL이 제대로 작동하려면 강력한 베이스 모델이 뒷받침되어야 하는 것이다. 그러나 마찬가지로 리포트에서 언급하는 것처럼 모델의 능력의 경계를 확장하려면 더 강력한 베이스 모델과 대규모 RL을 통할 수밖에 없다. 따라서 진정으로 흥미로운 것은 그 경계를 확장하는 작업과 그 영역에 있다.
#
DeepSeek의 창립자가 인터뷰에서 AGI에 도달하기 위한 기술적 혁신에 대신 현재의 기술을 통한 응용이나 이윤 창출에 집중할 생각은 없다는 식으로 언급한 적이 있다. (https://www.chinatalk.media/.../deepseek-ceo-interview...) 이 기술적 혁신에 대한 집중이 지금 DeepSeek이 공개하고 있는 성과의 동력이었으리라고 생각한다.
그리고 이것이 오히려 합리적인 선택일 수 있다. 현재 수준의 LLM의 능력은 제한적이고 따라서 그것을 적용할 수 있는 분야와 창출할 수 있는 이윤 또한 제한적일 수밖에 없다. 그렇다면 지금 가능한 영역에서 이윤을 짜내려 시도하는 것보다는 가능한 영역을 늘리는 것에 집중하는 것이 나을 수 있다.
이 영역의 발전 속도를 고려했을 때 이 기술이 도달할 수 있는 범위에 대해 가늠할 수 있게 되기까지 걸릴 시간은 그리 많지 않다. 즉 굉장히 장기적인 투자가 필요하지는 않을 것이라는 의미이다. (물론 비용은 클 수 있다.) 그렇다면 굳이 지금 얻을 수 있는 조금의 이윤을 위해 조바심을 낼 필요는 없다.
김성현님
GitHub
GitHub - deepseek-ai/DeepSeek-R1
Contribute to deepseek-ai/DeepSeek-R1 development by creating an account on GitHub.
https://youtu.be/kYWUEV_e2ss
문제 정의: “인간이 자세히 가르치는 것 vs. 모델이 스스로 학습하도록 동기를 부여하는 것”
• 기존 접근법: 인간 탑다운 사고방식(수작업 구조·인간 직관)에 기반해 모델에 “언어학·논리” 등을 명시적으로 가르치려 듦.
한계: 사람이 ‘어떻게 생각하는지’를 완벽히 이해한 것도 아니고, 이것이 곧 모델의 최적 해법과 일치하지도 않음.
• 대안(First Principle): “모델이 다룰 방대한 데이터와 높은 계산력(Compute)을 이용해, 그 자체를 '약한 시그널(Weak Incentive)'로 삼아 ‘스스로 사고·학습’을 촉진.”
예: “다음 토큰 예측”이라는 단순 목표만 던져주되(교수 X), 수십억·수조 개 문맥을 해결하려 애쓰게 하면, 자연스럽게 언어 이해/추론/작문 등이 생겨남(인센티브 O).
“무제한 Scalability”가 전제가 되는 현재 환경
전제 조건:
하드웨어/컴퓨팅이 지수적으로 발전(비용 절감속도 또한 엄청남).
기존물리(사람과 같은 시간적 제약)는 “이론상 XX” 수준으로 완화.
행동 지침:
(1) “훨씬 많은 compute”를 효과적으로 소화하도록, 모델 구조를 최소의 사전가정(Structure)으로 유지.
(2) 사람이 “문제 해결 단서”를 직접 설계하지 말 것(숫자가 커질수록 그 사전가정이 병목이 됨).
(3) “인간 지식” 대신, 모델이 “데이터와 목표(예:다음 토큰 예측, 성공 여부 보상 등)”를 발판삼아 자발적으로 일반화된(General) 능력을 찾도록.
“Next Token Prediction”이 어떻게 일반 추론 능력을 낳는가
형태: 웹 스케일(수십억~수조 문장), 각 문장에서 매 다음 토큰을 맞히는 것이 전부.
결과:
(1) 언어학적 지식부터, 수학·코딩·논리까지 “학습자가 스스로 가장 유리한” 일반기술을 터득.
(2) 인간이 별도 교과과정 없이도, “수많은 문맥을 처리해야 하는 인센티브” 때문에 저절로 복잡한 문제 해결력(“Emergent Ability”) 획득.
(3) 작은 모델로는 불가능하지만, 일정 규모 넘으면(첫 원리 차원에서 “충분한 계산 자원+데이터=가능”) 상당한 지적 능력이 ‘돌연’ 출현.
“Emergent Ability”와 스케일링: 커지는 모델에 ‘약한’ 목표만 던져도 별난 능력이 생기는 이유
“작은 모델 기준”에서 보면, 사람은 그 모델 한계 유효 범위만 목격하고는 “안 된다”고 결론냄.
• 하지만 컴퓨팅 자원이 늘면서, 전혀 다른 범위(scales)에서 임계점을 넘으면, ‘자연발생 추론 능력’ 폭증.
비유: 물리 실험이라면 “몇 년 후 바뀔 법칙은 없다.” → AI는 “하드웨어 축적”이 법칙 자체를 바꾸는 격.
따라서 빠른 ‘관성 없이’ 사고전환(“Unlearning 기존 가정”)이 필요.
앞으로의 방향: “모든 문제를 인센티브로 정의하라”
Next Token Prediction → 일종의 “약한 보상”으로 언어·추론 지식 학습했던 것처럼, “정확 응답”·“사실 검증” 등 다른 목표들도 약하지만 광범위하게 설정 가능.
• 거대모델 시대: 과거엔 “학습비용이 너무 커서” 비효율이 문제였지만, 이제는 컴퓨팅이 무제한적으로 증가 가능 → 이 방법이 오히려 효율적.
• 결론: “안 될 것 같아 보이는 단순 보상 구조” + “더 큰 모델/데이터” = 모델이 본질적으로 훨씬 깊은 기술(예: 자기반영, 수학, 치밀추론 등)을 찾을 토양이 됨.
문제 정의: “인간이 자세히 가르치는 것 vs. 모델이 스스로 학습하도록 동기를 부여하는 것”
• 기존 접근법: 인간 탑다운 사고방식(수작업 구조·인간 직관)에 기반해 모델에 “언어학·논리” 등을 명시적으로 가르치려 듦.
한계: 사람이 ‘어떻게 생각하는지’를 완벽히 이해한 것도 아니고, 이것이 곧 모델의 최적 해법과 일치하지도 않음.
• 대안(First Principle): “모델이 다룰 방대한 데이터와 높은 계산력(Compute)을 이용해, 그 자체를 '약한 시그널(Weak Incentive)'로 삼아 ‘스스로 사고·학습’을 촉진.”
예: “다음 토큰 예측”이라는 단순 목표만 던져주되(교수 X), 수십억·수조 개 문맥을 해결하려 애쓰게 하면, 자연스럽게 언어 이해/추론/작문 등이 생겨남(인센티브 O).
“무제한 Scalability”가 전제가 되는 현재 환경
전제 조건:
하드웨어/컴퓨팅이 지수적으로 발전(비용 절감속도 또한 엄청남).
기존물리(사람과 같은 시간적 제약)는 “이론상 XX” 수준으로 완화.
행동 지침:
(1) “훨씬 많은 compute”를 효과적으로 소화하도록, 모델 구조를 최소의 사전가정(Structure)으로 유지.
(2) 사람이 “문제 해결 단서”를 직접 설계하지 말 것(숫자가 커질수록 그 사전가정이 병목이 됨).
(3) “인간 지식” 대신, 모델이 “데이터와 목표(예:다음 토큰 예측, 성공 여부 보상 등)”를 발판삼아 자발적으로 일반화된(General) 능력을 찾도록.
“Next Token Prediction”이 어떻게 일반 추론 능력을 낳는가
형태: 웹 스케일(수십억~수조 문장), 각 문장에서 매 다음 토큰을 맞히는 것이 전부.
결과:
(1) 언어학적 지식부터, 수학·코딩·논리까지 “학습자가 스스로 가장 유리한” 일반기술을 터득.
(2) 인간이 별도 교과과정 없이도, “수많은 문맥을 처리해야 하는 인센티브” 때문에 저절로 복잡한 문제 해결력(“Emergent Ability”) 획득.
(3) 작은 모델로는 불가능하지만, 일정 규모 넘으면(첫 원리 차원에서 “충분한 계산 자원+데이터=가능”) 상당한 지적 능력이 ‘돌연’ 출현.
“Emergent Ability”와 스케일링: 커지는 모델에 ‘약한’ 목표만 던져도 별난 능력이 생기는 이유
“작은 모델 기준”에서 보면, 사람은 그 모델 한계 유효 범위만 목격하고는 “안 된다”고 결론냄.
• 하지만 컴퓨팅 자원이 늘면서, 전혀 다른 범위(scales)에서 임계점을 넘으면, ‘자연발생 추론 능력’ 폭증.
비유: 물리 실험이라면 “몇 년 후 바뀔 법칙은 없다.” → AI는 “하드웨어 축적”이 법칙 자체를 바꾸는 격.
따라서 빠른 ‘관성 없이’ 사고전환(“Unlearning 기존 가정”)이 필요.
앞으로의 방향: “모든 문제를 인센티브로 정의하라”
Next Token Prediction → 일종의 “약한 보상”으로 언어·추론 지식 학습했던 것처럼, “정확 응답”·“사실 검증” 등 다른 목표들도 약하지만 광범위하게 설정 가능.
• 거대모델 시대: 과거엔 “학습비용이 너무 커서” 비효율이 문제였지만, 이제는 컴퓨팅이 무제한적으로 증가 가능 → 이 방법이 오히려 효율적.
• 결론: “안 될 것 같아 보이는 단순 보상 구조” + “더 큰 모델/데이터” = 모델이 본질적으로 훨씬 깊은 기술(예: 자기반영, 수학, 치밀추론 등)을 찾을 토양이 됨.
YouTube
MIT EI seminar, Hyung Won Chung from OpenAI. "Don't teach. Incentivize."
I made this talk last year, when I was thinking about a paradigm shift. This delayed posting is timely as we just released o1, which I believe is a new paradigm. It's a good time to zoom out for high level thinking
I noscriptd the talk “Don’t teach. Incentivize”.…
I noscriptd the talk “Don’t teach. Incentivize”.…
❤1