Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
https://youtu.be/pE3KKUKXcTM

2. “시진핑이 AGI에 올인한다면?” (중국의 AI·반도체 역량)
질문: “시진핑이 스케일에 집착(‘scaling-pilled’)해, AI에 전폭 투자하려 한다면 어떻게 할까?”

Dylan: 핵심은 하드웨어·소프트웨어·데이터 모든 레이어에서 ‘집중’(centralization)할 수 있는 능력.
중국은 이미 전력·공급망·인프라를 빠르게 확장해 대규모 데이터센터를 지을 수 있음(예: 10GW급 규모도 가능).
문제: 아직 중국 내 AI 기업들이 대규모 단일 클러스터(10만~30만 GPU급)를 한곳에 모아 훈련하는 사례는 없었음.
만약 당국이 GPU 조달을 통합·관리한다면(수입+내수 반도체), 미국 빅테크 이상의 ‘초거대 클러스터’를 건설 가능.
중국 반도체 산업

SMIC 등이 7nm ~ 5nm급을 공정상 어려움(이유: EUV 등)이 있으나, 중국 특유의 ‘집요함’·‘간부급 영입’ 문화로 빠른 추격.
“화웨이(HiSilicon)는 현존 기업 중 가장 ‘크랙’된 역량을 지님.” (핵심 기술 없이도 5G 등에서 세계 최고 성과)
부품·장비·제조 전 영역에서 산업 스파이+국가 지원으로 발전, “무시하면 안 된다.”
수출통제의 효과

Dylan: “제대로 막으려면 ‘장비·프로세스 전면차단’해야 하는데, 현실은 중국의 기술 개발 의지만 더 부추김.”
여전히 SMIC 등은 7nm 공정 장비를 해외에서 조달하고, 인재 영입으로 기어이 만들고 있음.

3. 전 세계 반도체·AI 칩 생산과 대규모 데이터센터 전망
미국·유럽 vs. 중국: 누가 더 먼저 ‘1GW~10GW급 AI 데이터센터’를 세울까?

미국은 엔터프라이즈·빅테크(MS, 구글, 메타 등)가 “분산” 형태로 각자 대형 클러스터를 운영.
중국은 국가 주도로 “집중” 투자가 가능. 다만, 아직은 실제로 대규모 단일 클러스터가 나온 적 없음.
Dylan: “중국이 진짜 마음먹고 추진하면, 전력 인프라·공사 속도·GPU 집중 측면에서 미국을 앞설 수도 있다.”
클러스터 규모 추이

2023년: OpenAI, xAI 등 대략 10만 GPU급(예: H100) 클러스터 → 20242025년엔 3050만 GPU 규모(또는 더 큼).
NVIDIA는 연간 수백만 개 GPU 생산. 극히 일부(수십~수백만)가 대형 AI 클러스터에 투입될 전망.
2026년 이후: 미국 내 1GW, 2~3GW 등 초거대 AI 데이터센터 여럿 등장할 가능성.
“20282029년이면 단일 모델 훈련 총 FLOPs가 GPT-4 대비 수천수만 배(1e30 수준)로 갈 수 있다.” (Dylan 추정)
TSMC/삼성 파운드리의 역할

차세대 공정(5→3→2nm)은 비용 급증과 기술 한계 때문에 “경제성이 사라졌다”고 보는 이들도 있음.
그러나 AI·GPU 수요 폭증이 결국 2nm 등 초미세 공정의 대규모 증설에 정당성을 부여할 것.
“결국 TSMC는 AI 칩 수요를 위해서 2nm 라인 확장할 듯. (애플 단일 고객만으로는 감당 어려운 규모)”

4. 반도체 제조 산업의 극단적 복잡성
분화된 공급망: 웨이퍼, 노광(리소그래피), 에칭, 소재(포토레지스트, Cu interconnect 등), 패키징 등 수천 단계.

이 분야의 지식 격차:

“AI는 개인이 논문·코드로 빠르게 자습 가능하지만, 반도체는 방대한 기업 내부 노하우+특허+장비 매뉴얼로 외부 접근 어려움.”
대형 장비(ASML EUV 등) 하나하나에 수십 년 축적된 장인·학자·엔지니어의 “마스터-견습” 체계가 존재.
R&D와 제조 현장의 ‘장인 문화’

예: TSMC 인력 대다수 고학력(석박사) + 반영구식 야근·설비 실험.
어느 한 사람만이 전체 공정을 아는 것이 아니라, 각 단계 전문팀이 협업해 전체 프로세스 완성.

5. AI 산업과 반도체의 상호작용
GPU 아키텍처 모델 구조

“GPU의 메모리 대역폭이 제한적이면, 중국 쪽 모델은 더 압축·특화된 구조를 채택할 수도 있음.”
구글 TPU vs. NVIDIA GPU vs. 화웨이 Ascend 등 각자 하드웨어 특성에 맞춰 모델 설계가 달라짐.
아키텍처 혁신의 잠재력

“현 GPU/TPU는 전력의 대부분이 데이터 이동에 쓰임. 근본적 구조 개선(Compute-In-Memory 등) 가능.”
반도체 설계 자동화(EDA)와 AI 결합 → 100배 이상 성능·전력 효율 끌어올릴 기회 존재.
미래 전망

거대 모델의 훈련·서치·합성데이터 생성 등 ‘추가 FLOPs’ 소요로 인해, 공정 미세화와 칩 설계 혁신 지속 가속.
“메모리 혁신(차세대 HBM 등), 아키텍처 개편, 첨단 패키징이 모두 병행돼야 한다.”

6. “버블인가, 진짜 기회인가?”
**Pascal's Wager(파스칼 내기)**를 빗댄 설명

“AI 투자 안 했다가 뒤처지면 망하지만, 투자했다 실패해도 그나마 덜 망한다.”
대형 빅테크·투자기관 모두 AI에 ‘올인’ 중 (Satya Nadella, Sundar Pichai, Mark Zuckerberg 등).
1990년대 닷컴버블처럼 과잉투자일 수도 있지만, “인프라가 깔리면 후발 혁신은 계속 나타난다.”
수익성 vs. 확장 속도

단기적으로는 GPU·데이터센터 비용 > AI 매출, 그러나 한 번 대형 모델 성공 시 천문학적 ROI 기대.
“GPT-4 훈련비용 약 5억 달러, 추정 매출 수십~수백억 달러 예상” → 투자유치로 또 다음 모델 훈련 가능.
1
https://youtu.be/hobvps-H38o

AI 메가 클러스터(Mega Clusters)의 현황

2.1 마이크로소프트 & OpenAI의 예시
1. 애리조나 데이터센터
• 건물(“데이터 홀”) 하나당 전력 약 48MW, 내부에 3.2만 개 GPU(총 32k GPU) 탑재 가능.
• 여러 건물을 묶어 10만 개 GPU 규모도 구성.
• 빅 모델(GPT-4/5 등) 학습을 위해 설계된 전형적 구조.

2. 향후 확장
• 과거 단일 건물(50MW 전후)을 넘어, 300MW~1.5GW급 단일 부지 규모를 목표.
• 1.5GW급이면 약 100만(1e6) 개 GPU를 수용 가능 → GPT-4보다 훨씬 큰 규모의 모델.

3. 네트워킹 및 토폴로지
• 다층 스위치(rail-optimized vs. fat-tree) 구조로 고가용성/고대역폭 구현.
• Synchronous GD(동기 방식)에서 벗어나, Multi-datacenter를 묶을 수 있는 Asynchronous/파라미터 서버/계층적 SGD 기법에 대한 연구 활발.
• 지연(latency)보다는 대역폭 부족이 여러 데이터센터 연결 시 큰 문제.

2.2 구글 TPU 클러스터
1. 고집적·수랭(물냉각) 설계
• TPU는 전력 밀도가 크므로 일찍부터 물냉각, 높은 밀도 설계를 도입.
• 지역별(오하이오, 아이오와 등) 여러 데이터센터를 광통신으로 연결, 대규모 학습 시 하나의 분산 클러스터처럼 사용 계획.
2. 동기식에서 비동기식으로
• 동기식 학습 시 몇 만~몇 십 만 GPU(또는 TPU) 간 동기화 문제 발생.
• 구글 등은 “여러 데이터센터를 연결해 단일 거대 클러스터” 구성을 시도하나, 아직은 여러 연구 과제가 남아 있음.

2.3 xAI(Elon Musk) 사례
1. 멤피스 공장 활용
• 휴면 상태의 세탁기 공장 부지를 매입해 단기간에 AI 데이터센터로 개조.
• 인접 천연가스관과 이동형 발전기(디젤/가스)·이동형 냉각 장치를 설치 → 전력·냉각 인프라를 빠르게 확보.
• 보통 대형 클라우드 기업들은 이미지·평판 때문에 직접 이런 식으로 하진 않음(“녹색 에너지” 명분 때문).
• xAI는 일단 속도를 우선시 → 10만+ GPU 빠른 배치.
2. 차별점
• 최초로 NVIDIA GPU(GB200 등) 직수냉 모델을 대규모로 도입 예정. (일반적으로 air-cooled 또는 다른 구조)
• 네트워크도 이더넷 기반 등, 비정형적 방식 활용.

2.4 그 외 클라우드/코로케이션 업체
아마존(AWS): 전 세계 많은 부지에서 동시다발적 확장, CPU→GPU 전환.
오라클(Oracle): OpenAI와 협력해 200MW급 데이터센터, 장기적으로 1GW 확장.
메타(Meta): 구형 “H 형태” 데이터센터를 폐쇄 후, 고밀도 수랭 데이터센터로 재건축.
다른 수십~수백 개 중소/주권(“소버린”) 클라우드도 유사하게 GPU 호스팅 산업 참여 중.

3. 추론(Inference) 토큰 처리(tokenomics)와 최적화

3.1 추론 제공자(“토큰 팩토리”) 관점
• 대형 모델의 API 호출로 “토큰” 단위 과금 → 서버 GPU·메모리·네트워크를 일정 방식으로 할당.
• 추론 성능(throughput)은 배칭(batch size), 양자화(quantization), KV캐시 관리, 병렬화 등 최적화로 크게 좌우.

3.2 KV 캐시(KV Cache)의 영향
1. 모델 파라미터 vs. KV캐시
• 토큰을 생성할 때마다, “모델 파라미터(정적)” + “KV캐시(동적·유저별)” 모두 메모리에서 읽어옴.
• 배치가 커질수록(동시 유저↑) KV캐시 조회도 많아져, 메모리 대역폭 병목 발생.
2. 시퀀스 길이(Context Length) 증가
• 모델이 많은 reasoning(내부 토큰 생성을 숨긴다 해도) → 내부적으로 KV캐시가 커짐.
• 시퀀스 길이가 길어질수록, 배치 가능 크기가 줄고, 토큰당 처리 지연이 커져 사용자 경험 저하.
3. GQA(Grouped Query Attention) 등 기법
• llama 시리즈 등에서 GQA/MQA를 적용하면 KV캐시 크기를 줄이고, 병목을 완화.
• 예) 40~70B 파라미터 모델에서 GQA 적용 시, 같은 하드웨어로 배치 크기(동시 유저 수) 크게 증가 → 추론 비용 절감.

3.3 OpenAI “0.1/01” 모델과 비용
Zero One(01) 모델: “실시간 내부 reasoning”으로 큰 시퀀스 길이.
• 기존 짧은 시퀀스(몇 K tokens)보다 10~40K 이상의 시퀀스 → 배치 효율 급감, 추론 비용 증가.
• 실제 API 가격도 GPT-4 대비 3~4배 비싼 이유 중 하나가 이 KV캐시/배치 비효율 문제.

4. Inference & Training 시뮬레이터 / TCO 모델
• 발표자는 자사(SemiAnalysis)에서 추론·훈련 시뮬레이터를 개발, “메모리 BW vs. 모델 크기 vs. 배치 vs. 시퀀스 길이” 등을 모의실험.
서버 월간 비용(예: h100 8-GPU 서버)
• 구입비 감가상각 + 금융비용 + 운영비(전력+쿨링+데이터센터 렌탈 등).
• 대부분의 비용(70~80% 이상)이 “GPU 구입”이므로, 전력 사용 여부(가동률)에 따른 추가 변동비는 상대적으로 작음.
• 따라서 “GPU를 100% 활용”하는 고배치/고효율이 수익성에 핵심.

5. 데이터센터 설계·전력 이슈 종합
1. 왜 각사 설계가 다른가?
• 역사적 유산, 내부 인프라, 냉각(수랭/공랭) 방식, GPU/TPU 아키텍처 차이 등으로 모두 상이.
• 메타는 H자형 구형 설계 폐기 후, 신형으로 교체. 구글은 TPU 고밀도 수랭을 일찍 시작. xAI는 급조(공장+이동식 발전기).
• 최적 설계는 존재하지 않으며, 대다수가 “시간 압박/유연성/PR(환경)” 등을 절충.
2. 모두 ‘천연가스·석탄’ 의존?
• 실제 전력은 화석연료 기반이 대부분. ESG 명분으로 태양광 등 구매(PPA)는 하나 실제 물리적 공급 전력은 대부분 가스.
• 대규모 발전소(최대수 GW)와 부지 연결이 관건. 서구 국가들은 전력망 증설이 느려, 3~4년씩 대기가 발생.
3. 마이크로그리드/원전/해상 데이터센터 등
• 엘론처럼 자체 발전기 사용 “마이크로그리드” 시도도 있지만 규제·실무 상 어려움 큼.
• 해상/우주 등은 GPU 안정성·유지보수 측면에서 비현실적.
• 원전 직접 연계도 규제·민원으로 실현은 거의 없고, 대부분 “그린워싱” 계약에 그침.

6. 질의응답 요약
1. FPGA/ASIC/뉴로모픽
• GPU(또는 TPU) 말고 다른 병렬 칩 아이디어 많으나, GPU/TPU 생태계가 이미 압도적(소프트웨어·인프라·인재 등).
• 뉴로모픽 등은 잠재적 효율이 훨씬 높을 수 있으나, 제대로 된 연구·생태계·투자 부족. 당분간 GPT류 작업은 GPU/TPU가
주도.
2. 규모 확장 지속 가능성
• “버블이냐?”라는 질문. 기업(오픈AI·구글·메타 등)이 AGI 가능성·수익성에 베팅, CapEx 폭증.
• 향후 전력·환경 문제와 충돌하나, 단기적으로는 “Pascal’s Wager”(안 하는 것보다 해서 실패하는 게 낫다)로 계속 투자.
3. 특정 회사의 데이터센터만이 “정답”?
• 없다고 봄. 메타/구글/MS/xAI 모두 다름. 칩(인프라), 냉각, 네트워킹 등에 따라 상이.
• AI/HPC 요구사항이 커서, 완전히 새 건물을 지을 때마다 설계가 달라지고, 실시간으로 개선 중.
4. 미래 모델 아키텍처 (Transformer vs. 다른 구조)
• 당장은 Transformer가 산업·연구 모두 표준, 대규모 최적화 툴·엔지니어·생태계가 이미 정착.
• 다른 아키텍처(예: state-space, rnn 변형, etc.)가 나와도 GPU로 충분히 재활용 가능 → 곧바로 대체 쉽지 않음.

7. 결론 및 주요 시사점
1. 데이터센터 전력·구조
• AI 수요 폭증으로 기존 “CPU+스토리지” 중심에서 “GPU 대밀도 + 수랭 + 초고속 네트워크”로 급변.
• 건물 단위가 아니라 10~100만 GPU급 “캠퍼스/지역 단위” 클러스터를 묶는 중.
• 전력망/변압기/냉각 등의 제한이 병목이며, xAI처럼 기발하지만 임시방편적 방법(이동식 발전기 등)도 등장.
2. 추론 비용(토큰당) 급증 우려
• 모델의 시퀀스 길이 증가, KV캐시 메모리 문제가 배치 효율을 떨어뜨림.
• OpenAI 등은 “장문 추론” 모델에 더 높은 API 가격 매김. 다양한 최적화(GQA, quant, flash-attn 등)가 필수.
3. AI 인프라 투자
• GPU(또는 TPU) 자체 가격이 월등히 비싸, 전기·쿨링 비용은 상대적으로 작아.
• 따라서 “대규모 배치로 GPU 풀 가동, 단가 절감” 방식이 핵심 비즈니스 모델.
• Sovereign 펀드, 사모펀드, 클라우드 스타트업 등 전방위에서 일종의 인프라 금융으로 투자 열풍.
4. 연구/개발 과제
• 멀티 데이터센터 비동기 훈련, 더 긴 시퀀스·KV캐시 최적화, 희소성·양자화, 자동 분산 관리 등 해결해야 할 문제 여럿.
• 자본과 인력이 대규모 투입되면서 “지속적인 인프라 혁신+비용 절감”이 예상되나, 전력·환경 문제는 갈등 요소.

결국 본 발표의 핵심 메시지는, AI 대형 모델을 학습·추론하기 위해 전 세계가 전례 없이 거대한 GPU 기반 데이터센터를 건설 중이고, 이 과정에서 토큰 배치·KV 캐시·시퀀스 길이 등 시스템적 병목과 엄청난 자본/전력 요구가 드러나고 있다는 것이다. 그러나 업계 전반은 “AGI, AI 폭발적 성장”을 기대하며, 적어도 수년간은 이러한 초대형 확장 기조가 이어질 전망임을 시사한다.
https://www.youtube.com/live/CSE77wAdDLg?si=lwBc_rySVhPbz-Qc

Open AI Operator

1) 이미 호스팅되어 있고 바로 사용할 수 있다는 사실은 Claude의 “컴퓨터 사용” 기능보다 더 널리 사용될 수 있다는 것을 의미합니다.

2) 운영자는 어떤 이유로든 API를 사용할 수 없는 웹사이트도 API가 있는 것처럼 작동하도록 만들 수 있습니다. 이제 자동화할 수 있게 됩니다.

3) 오퍼레이터는 LLM의 도구 호출과 비슷합니다. 다만 인터넷 전체를 '도구'로 사용한다는 점만 다릅니다(사이트에 API가 있든 없든).

4) 널리 사용되는 함수에 대한 캐싱/사전 컴파일의 형태를 볼 수 있습니다. 기본적으로 운영자는 일반적으로 필요한 기능에 대해 *자체* API를 작성한 다음, 이를 사용하여 특정 작업을 수행할 수 있습니다.

5) 오퍼레이터는 가상 브라우저의 여러 인스턴스에 걸쳐 긴 작업 목록을 배포하기 위해 백그라운드에서 자체적으로 사용할 수 있습니다.

6) 운영자는 작업을 병렬화할 수 있는 방법을 추론할 수 있을 것입니다. 예시: 작업에는 50개의 웹 페이지로 구성된 결과를 페이징하는 작업이 포함됩니다. 대신 다음과 같이 말할 수 있습니다: 연산자 A는 첫 번째 페이지에서 시작하여 앞으로 이동합니다. 연산자 B는 마지막 페이지에서 시작하여 뒤로 이동합니다. 모든 페이지가 완료되면 “중간에서 만나게” 됩니다.

7) 현재 웹사이트는 (대부분) 인간을 위해 만들어졌고 API는 (대부분) 개발자(특수한 유형의 인간)를 위해 만들어졌습니다. 모바일 사이트는 모바일 기기를 사용하는 사람을 위해 만들어졌습니다. 앞으로는 에이전트 AI가 사용하기 위해 특별히 제작된 웹사이트를 보게 될지 궁금합니다.
Introducing DeepSeek-V3
https://api-docs.deepseek.com/news/news1226

1. 왜 대규모 언어모델(LLM)에 Mixture-of-Experts(MoE)를 적용하는가?

1.1. LLM의 기본 아이디어
**대규모 언어 모델(LLM)**은 방대한 양의 텍스트를 학습하여 자연어 처리를 수행하는 모델입니다. Transformer 구조(Vaswani et al., 2017)가 주류이며, 자가회귀(autoregressive) 방식으로 다음 토큰을 예측하는 확률적 언어 모델을 기반으로 합니다.
초기의 대규모 모델은 전부 Dense 모델이었는데, 이는 모든 파라미터를 매 토큰마다 전부 활성화하여 계산합니다. 예) GPT 시리즈, BERT 시리즈 등.

1.2. Mixture-of-Experts(MoE)의 핵심 동기
**Mixture-of-Experts(이하 MoE)**는 매 토큰마다 ‘전부가 아닌 일부 전문가(Expert)’ 파라미터만 사용해 추론하도록 하는 아이디어입니다.
예) 1,000억 개 파라미터 중에서 50억 개만 활성화, 나머지는 비활성화.
장점:
경제성: 대규모 파라미터 중 일부만 계산하므로, 같은 수준(또는 더 높은 수준)의 표현력을 더 적은 FLOPs(연산량)로 달성.
전문성 분화: 토큰별로 가장 잘 맞는 전문가(Expert)가 활성화되며, 특정 토큰(예: 수학, 프로그래밍, 의학 텍스트 등)은 해당 분야에 특화된 Expert가 학습되어 성능 향상.

하지만 문제점도 존재합니다:
Expert들의 부하 불균형(Load Imbalance): 특정 Expert에만 토큰이 과도하게 몰리면 학습/추론이 비효율적.
학습 시 Token dispatch/combination 단에서 통신(올투올(All-to-all) 통신)이 많아져 오버헤드가 커질 수 있음.
DeepSeek-V3는 이 문제를 해결하기 위해 DeepSeekMoE라는 구조와 보조 로스 없는(Aux-loss-free) 로드 밸런싱 전략을 적용합니다.


2. DeepSeek-V3의 설계 개요
DeepSeek-V3는 약 **6710억 개(‘총 파라미터’)**에 달하는 거대 모델이지만, 매 토큰마다 약 370억 개 파라미터만 활성화해서 계산하도록 설계되었습니다.
이런 거대 모형을 효율적으로 학습·추론하기 위해 다음과 같은 핵심 설계를 채택했습니다.

Multi-head Latent Attention (MLA)

기존 Transformer의 Self-Attention에서 Key-Value를 축소(latent vector)한 뒤, 필요할 때만 다시 복원(up-projection)하는 방법으로, KV 캐시 메모리를 줄여 대규모 모델이라도 긴 문맥 처리 속도를 높임.

DeepSeekMoE + Aux-loss-free balancing

FFN(Feed-Forward Network) 부분을 MoE 구조로 구성하되, Expert 간 부하를 맞추기 위해 ‘보조 로스(auxiliary loss)’를 강제하지 않고, 동적 바이어스(bias)를 조정해 불균형을 해결(“Aux-loss-free” 기법).
이렇게 함으로써 모델 성능 손실 없이 로드 밸런싱을 달성.

Multi-Token Prediction (MTP)

한 위치에서 다음 토큰 하나만 예측하는 것이 아니라, 한 번에 여러 토큰(여기서는 2개)까지 예측하도록 학습.
데이터 효율성과 모델 성능 모두에 도움을 주며, 추론 시에는 Speculative Decoding 기법으로 TPS(초당 토큰 처리량)를 높이는 데 활용 가능.

FP8 Training 및 효율적 분산 학습


대부분의 계산을 FP8 정밀도로 수행하여 학습 비용과 GPU 메모리 사용량을 크게 절감.
이 과정에서 정밀도 손실을 최소화하기 위해, 미세한 스케일링(granularity scaling)과 높은 정밀도의 누산(accumulation)을 사용.
All-to-all 통신을 분산 파이프라인과 겹쳐서(dual-pipe) 오버헤드를 최대한 숨김.


3. 핵심 구성 요소별 상세 설명

3.1. Multi-head Latent Attention(MLA)

3.1.1. 왜 MLA인가?
대규모 모델은 ‘KV 캐시(Key-Value Cache)’가 매우 커질 수 있습니다. 예컨대 64개 헤드 × 히든차원 128 등으로 커지면, 긴 문맥 처리 시 메모리와 연산량이 문제됨.
MLA는 Key/Value를 먼저 저차원(latent)으로 압축했다가, 실제 Attention 연산 직전에 다시 복원(up-projection)해 사용합니다.
추론 시, ‘압축된 벡터(c_KV_t 등)’만 캐시에 저장하면 되므로, 캐시 메모리가 크게 줄어듭니다.

3.1.2. 구조
Attention에 필요한 Query/Key/Value를 다음처럼 구분:
(1) 압축(latent) 벡터: h_t → c_KV_t(차원 d_c).
(2) 복원(up-projection) 행렬: c_KV_t → (k_C, v_C).
(3) RoPE 로테리 임베딩용 decoupled query/key: 추가로 k_R, q_R를 생성하여 문맥 위치 정보를 반영.
결론적으로 MLA는 Token 하나가 지나갈 때 (압축 + 복원 + RoPE + 최종 어텐션) 과정을 거칩니다.
이를 통해 **“KV 캐시 크기 감소”**와 **“성능 보존”**이라는 두 가지 이점을 얻습니다.

3.2. DeepSeekMoE (Mixture-of-Experts) & Auxiliary-loss-free Balancing

3.2.1. DeepSeekMoE 기본 아이디어
Transformer의 FFN 단을 MoE Layer로 바꾸어,
일부(공유 Expert, N_s개)는 모든 토큰이 공통적으로 쓰고,
나머지(라우팅 Expert, N_r개)는 토큰별로 top-Kr개만 선별하여 계산.
예: h'_t = h_t + Σ(Shared Experts) + Σ(Routed Experts).
라우팅은 토큰과 Expert 간의 점수(affinity)를 구하여, 가장 높은 Expert 몇 개를 활성화.

3.2.2. Aux-loss-free 로드 밸런싱
기존 MoE 연구들은 Expert 간 부하를 균등하게 만들기 위해 **보조 로스(auxiliary loss)**를 함께 최소화했습니다.
하지만 이 로스가 너무 크면 모델 본래의 최적화를 해칠 수 있습니다.
DeepSeek-V3는 보조 로스 없이도 균등 부하를 달성하도록, 각 Expert마다 동적인 ‘bias’ 변수를 두고, 매 스텝마다 expert가 과부하·저부하인지에 따라 bias를 조정합니다.
그 결과, 균등 부하를 유지하면서도 모델 성능 손해가 적고, 전문가 분화를 극대화합니다.

3.2.3. 추가로 적용되는 기법들
Sequence-wise auxiliary loss: 그래도 특정 시퀀스가 일부 expert에만 몰리는 극단을 방지하기 위해, 매우 작은 가중치의 시퀀스 차원 보조 로스를 추가.
Node-limited routing: 통신 오버헤드를 제한하기 위해 한 토큰이 최대 M개의 노드까지만 분산되는 제한을 둠(예: M=4).
Token-dropping 없음: 로드 밸런스가 안정적으로 유지되므로, DeepSeek-V3는 토큰 드롭 없이 진행.


3.3. Multi-Token Prediction (MTP)

3.3.1. 한 번에 여러 토큰 예측하기
일반 Transformer는 위치 t에서 “t+1번째” 토큰만 예측.
MTP는 t에서 “t+1, t+2, …” 같이 여러 개를 예측하도록 추가 모듈을 둡니다.
DeepSeek-V3에서는 depth=1(즉, “다음 토큰 + 추가로 그 다음 토큰”)만 예측하나, 이를 통해 데이터 효율과 성능 향상을 얻었습니다.
👍1
3.3.2. 학습과 추론 시 효과
학습 시 Cross-Entropy Loss를 “기존(Next Token) + MTP(Next2 Token)” 형태로 함께 최적화.
추론 시에는 MTP 모듈을 버리거나, 혹은 Speculative Decoding(둘째 토큰까지 한꺼번에 허용)으로 속도 향상을 꾀할 수 있습니다.
통계상, DeepSeek-V3에서 두 번째 토큰이 맞을 확률은 85~90%로 높아, 약 1.8배의 토큰 처리 속도를 구현했다고 보고합니다.

4. 효율적 학습(Training) 인프라

4.1. FP8 Training

4.1.1. 기존 BF16 대비 FP8 도입 배경

BF16(또는 FP16)은 부동소수점에서 exponent를 충분히 보장하나, 큰 모델에서는 더 줄일 수 있는 여지가 있음.
FP8은 exponent 비트 수가 줄어 정밀도 문제가 있지만,
(1) 미세 구간 단위의 스케일링(예: 1×128, 128×128)
(2) 높은 정밀도의 누산(accumulation)
(3) 온라인 퀀타이제이션
등을 통해 정밀도 문제를 해결하고 연산속도를 크게 높임.

4.1.2. 구체적 전략
Fine-grained Quantization:
Activation(특히 forward 입력 등)은 “토큰별 128채널 단위(1×128)”로 스케일 조정,
Weight(가중치)는 “128×128 블록 단위”로 스케일 조정.
높은 정밀도 누산:
Tensor Core에서 FP8 연산 시 내부에 14비트 등 제한된 정밀도를 쓰는데, 일정 interval마다(예: 128개씩) CUDA Core의 FP32 레지스터로 승격해 더 정확히 축적.
Online Quantization:
최대 절댓값을 실시간으로 구해, 해당 미니그룹(토큰/블록 등)에 맞춰 스케일링하여 FP8로 변환.

4.2. DualPipe 파이프라인
4.2.1. 배경
DeepSeek-V3처럼 거대 MoE 모델은 각 레이어(또는 구간)를 GPU 여러 대에 걸쳐 분산(Pipeline Parallel)시키고, MoE 토큰 전달 등 All-to-all 통신이 잦습니다.
단순 1F1B(Forward 1개, Backward 1개)나 ZeroBubble 같은 기존 기법은 통신 시간이 겹치지 않아 전체 속도 저하가 큼.

4.2.2. DualPipe 알고리즘
아이디어: Forward 연산 중에 Backward의 통신, 또는 Backward의 일부 연산과 Forward의 통신을 동시에(Overlap) 진행.
세부적으로 Attention / MoE Dispatch / MLP / MoE Combine 등을 잘게 쪼개어, 이들 사이의 통신을 파이프라인 상 서로 다른 마이크로배치끼리 겹치게 구성.
결과적으로 통신이 거의 “공짜(fully hidden)”처럼 처리되어, 커다란 GPU 클러스터에서도 확장성이 좋아집니다.

4.3. 추론(Inference) 및 배포 전략

4.3.1. Prefilling
추론 시 “처음 문맥을 대량으로 넣어” 모델 내부 상태(KV 캐시 등)를 채우는 과정.
DeepSeek-V3는 노드 간 IB(InfiniBand) 통신과 노드 내 NVLink 통신을 혼합해 사용.
“중복 Expert(Redundant Expert)”를 배치해, 특정 Expert가 과부하가 되지 않도록 동적으로 할당.
이 모든 과정을 통합하여 대규모 온·오프라인 서비스에 대응 가능한 구조.

4.3.2. Decoding
Prefilling 후, 실제 한 토큰씩 디코딩하는 과정.
실시간 요청에서는 모멘텀이 “Attention 연산”에 더 집중됨.
마찬가지로 “Redundant Expert” + “Node별로 1개 Expert” 방식으로 구현하여, 파이프라인과 통신을 겹치고, 길이가 짧은 마이크로배치라도 빠른 응답이 가능하도록 함.

5. Pre-Training (사전학습)

5.1. 데이터
총 14.8조(14.8T) 토큰 규모의 고품질 다국어 데이터.
영·중심 + 기타 언어 포함.
수학, 코딩 비중을 늘리고, 데이터 중복 제거와 품질 관리를 강화.
Fill-in-Middle(FIM) 전략 적용: 10% 정도는 문장의 가운데를 맞추는 형태로 학습(코드 완성 등에서 유용).
Byte-level BPE 기반의 12.8만(128K) 토큰 사전.

5.2. 학습 스펙
Transformer 레이어수 61, hidden dim=7168, 헤드수=128 등.
모든 FFN(첫 3개 제외)에 MoE 적용. 각 레이어당 공유 Expert 1개, 라우팅 Expert 256개.
단, 매 토큰에는 8개 Expert 활성화.
배치 사이즈 스케줄링, LR(learning rate) 스케줄링(초반 워밍업 → 코사인 디케이), 등 다양한 기법 사용.
MTP: depth=1, 첫 10T 토큰 동안 MTP 가중치 λ=0.3, 이후 0.1로 조정.
Aux-loss-free의 bias 업데이트 속도 γ=0.001(처음 14.3T 토큰까지), 그 후 0으로 중단.

5.3. 롱컨텍스트 확장 (YaRN)
사전학습 후, 4K 문맥에서 시작해 2단계에 걸쳐 32K, 128K까지 문맥을 확장.
YaRN(Peng et al., 2023) 기법으로 로테리 임베딩(RoPE)을 확장해, 128K 길이까지 안정적으로 처리.

5.4. 성능 요약 (Base 모델)
English, Chinese, Multilingual 전반을 아우르는 벤치마크에서 동급 대비 최고 수준.
예) MMLU-Pro, GSM8K, MATH, HumanEval 등 코딩·수학 분야 최고 수준.
대등 규모 혹은 더 큰 Dense 모델과 비교 시도에서도 학습 비용이나 추론 효율 면에서 강점.

6. Post-Training(추가 학습, SFT·RL)

6.1. Supervised Fine-Tuning (SFT)
약 150만 건의 고품질 인스트럭션 튜닝 데이터.
특히 수학·코드 등 논리적 사고(Reasoning) 분야 데이터에 집중.
DeepSeek-R1 모델(별도 “Long Chain-of-Thought”에 특화)의 출력을 적절히 정제하여(너무 길거나 포맷 엉킨 부분 보완) final SFT 데이터로 활용 → 정확도 대폭 상승.

6.2. RL (Reinforcement Learning)
Group Relative Policy Optimization (GRPO) 기법 사용.
Rule-based RM(정답 검증 가능 문제) + Model-based RM(정답이 하나로 결정 어려운 문항) 혼합.
자기 자신(DeepSeek-V3)이 만든 투표결과 등을 다시 보상으로 활용하는 “Self-Rewarding(Constitutional AI)” 방식도 병행.

7. 결론 및 한계
DeepSeek-V3는 (1) MLA, (2) DeepSeekMoE, (3) Aux-loss-free balancing, (4) MTP, (5) FP8 training 등 다양한 혁신 요소를 결합한 **거대 스파스 모델(MoE)**입니다.
총 파라미터 6710억이지만, 매 토큰마다 370억 파라미터만 활성화하고,
사전학습 14.8T 토큰,
롱컨텍스트(최대 128K) 지원,
포스트 트레이닝(SFT+RL)으로 정밀도와 활용도(코드·수학 등) 극대화를 이룹니다.
학습 비용 역시 **H800 GPU 기준 약 278만8천 GPU-시(약 560만 달러)**로, 이 정도 규모의 모델 중에선 매우 경제적으로 달성.

7.1. 제한사항
대규모 클러스터 기반으로 설계되어, 적은 GPU 보유 팀이 직접 추론/서비스하기는 어렵다.
추론 속도는 기존 Dense 대형 모델보다 낫지만, 작은 Dense 모델 대비 성능/속도 절충은 사용 시나리오에 따라 고민이 필요.

7.2. 미래 연구 방향
무한대 혹은 더 큰 컨텍스트를 위한 RoPE/AliBi 등 확장 기법 연구.
MoE 이상으로 효율적인 구조(예: 스파스한 Attention, Retrieval-Augmented 등)와의 조합.
다양한 분야(비전·멀티모달 등)으로 확장, 훈련 신호 다양화.
**LLM 자체를 보상 함수로 활용(Self-Rewarding)**하는 기법을 더 고도화.
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

단지 RL(강화학습)만으로 Instruct Model을 Reasoning Model로 변화

기존 DeepSeek-V3 Base를 대상으로 선행 SFT 없이 RL만을 적용하여, “DeepSeek-R1-Zero”라는 순수한 강화학습 기반 모델을 만들었다.
“이 모델이 과연, 인간이 주입해준 정교한 지도 데이터 없이도 깊이 있는 Reasoning을 습득할 수 있는가?”라는 의문에서 출발했다. 결과적으로 R1-Zero는 놀랄 만큼 강력한 Reasoning 능력을 발휘하기 시작했다.
원래는 “사람이 먼저 CoT 예시를 대규모로 붙여 모델을 교정(SFT)해야 한다”는 것이 일반적이었다.
하지만 DeepSeek-R1-Zero는 “SFT 없는 대규모 RL”만으로도 긴 사고 과정을 사용해 문제를 풀고 개선해나갔다. “Aha Moment”라 불릴 정도로 모델이 스스로 더 깊은 고찰을 하게 된 것이다.

이 R1-Zero로부터 생성된 Reasoning 데이터셋을 인간이 약간 보정하고, SFT+RL 과정을 추가

R1-Zero가 만들어낸 긴 Chain-of-Thought(CoT)들 중 유용한 것만 골라서 “Cold Start”로 불리는 소규모 고품질 데이터셋을 마련했다.
이를 시작점으로 다시 한 번 RL과 SFT 단계를 거치자, 전반적으로 훨씬 더 인간 친화적이고 가독성도 뛰어난 모델인 “DeepSeek-R1”이 탄생했다.
즉, 단순 강화학습만으로는 자연언어 사용(가독성, 혼용어 문제 등)에 어려움이 있었으나, 소량의 정제된 CoT 데이터를 사전 주입함으로써 안정성과 품질을 극적으로 끌어올렸다.

최종적으로 만들어진 80만(800k) 건의 Reasoning 데이터로, 작은 모델도 RL 없이 SFT만으로 큰 성능 향상

이렇게 구축한 800k 규모의 고품질 Reasoning 데이터셋은 훨씬 작은 규모의 모델(Qwen, Llama 등)에도 단순히 SFT로만 적용해도 뛰어난 성능을 보였다.
반면, 작은 모델에서는 동일한 RL 과정을 아무리 오래 해도 성능 이득이 매우 미미했다.
결론은, “시작점(베이스 모델)의 품질이 충분히 좋아야 RL을 해도 빛을 발한다”는 것이다. 베이스 모델이 작을수록, 대규모 RL 자체가 실익이 크지 않음을 확인했다.

보상의 명확성이 곧 성능과 효율을 좌우한다

DeepSeek-R1 연구진은 훈련 파이프라인을 불필요하게 복잡하게 만들지 않았다. 즉, “오답/정답, 포맷 준수 여부” 등 명확히 판단 가능한 지표만으로 보상을 설계했다.
복잡한 PPO or PRM(Process Reward Model)보다는, “딱 맞냐 아니냐”로 결정되는 직접 검증 가능한 답안 위주로 RL을 실시했다.
이는 장황한 보상 설계(MCTS+Value Model, 세밀한 중간 단계 채점 등)보다 더 효과적이었고, “이 문제를 맞혔는가? / 지정된 형식을 지켰는가?”라는 명확한 보상만으로도 스스로 Reasoning 능력을 발전시켰다.


Stage 1: (R1-Zero) Base 모델 + RL (SFT 없이)

DeepSeek-V3 Base를 바로 RL 훈련에 투입 → 정답 여부, 형식 준수 여부로만 평가(정확도가 곧 보상).
대규모 스텝을 거치며 Reasoning 능력이 스스로 생겨남(그 외 언어 품질 문제는 고려 X).

Stage 2: Cold Start 데이터 생성 + SFT 후 RL (R1)

R1-Zero로부터 생성된 긴 CoT 중 “읽기 쉬운 형식”의 예시만 수천 건 모아서, 인간이 조금 다듬어 Cold Start 용 SFT 시행.
이 초기 모델로 다시 Reasoning 전용 RL 수행 → 언어 품질 문제(혼용어·가독성) 일부 해결 & 성능 향상.
필요하다면, RL 마지막 단계에서 Rejection Sampling으로 정확한 응답만 골라 새로 SFT 데이터셋을 만든 뒤, 전 범위 RL을 재실행 한다.

Stage 3: Rejection Sampling으로 얻은 데이터 + 추가 도메인(SFT)

이전 RL 결과물을 바탕으로 약 60만 건의 Reasoning 데이터 + 20만 건의 일반문서(작문, QA, 자기소개 등)를 모아서, 최종 SFT 수행.
이로써 “Reasoning”과 “일반 질의응답, 작성능력”을 모두 어느 정도 커버하는 모델 완성.

Stage 4: Distillation (작은 모델로 전이)

위 과정에서 탄생한 R1의 Reasoning 노하우가 담긴 80만 샘플을, Qwen-32B, Llama-70B 등의 다양한 모델에 “단순 Fine-Tuning”만 적용해도 놀라운 성능 향상이 확인됨.
RL 없이도 소형 모델들이 Reasoning을 상당히 습득함.
반면, 이 소형 모델들에 직접 RL을 적용하면 높은 계산 비용 대비 효율이 떨어짐(실험상 성능 상승이 미미).


1. 시작점(베이스 모델)이 매우 중요하다

큰 모델에다 RL을 적용해야 ‘스스로 CoT를 만들어내는’ 비약적 발전이 나타난다. 작은 모델로는 같은 RL 투자를 해도 효과가 훨씬 떨어진다.

보상을 간단하게, 명확하게 설정하라

“답이 맞는가, 형식이 맞는가?” 정도로도 충분히 지도학습(혹은 RL) 효과를 낼 수 있다.
복잡한 중간 단계 보상(예: PRM, MCTS+Value Model)은 많은 리소스와 리스크(Reward Hacking)를 유발하지만 최종적 실익이 크지 않았다.
단순 CoT 생성 능력이 몰고 온 ‘자발적 자기정정(Reflection), Aha Moment’

스스로 생각을 재평가하고(Reflection), 다른 접근법으로 문제 해결을 시도하며(Aha Moment) Reasoning 능력을 급격히 향상시키는 현상이 RL 중간에서 포착되었다.

Future Works
Language Mixing 해결: 현재는 영어·중국어에 최적화.
프로젝트 규모 확장: 더 방대한 문제 도메인(예: SW 엔지니어링, 구조적 출력, 대화형 시스템 등)을 커버하기 위한 RL/데이터셋 확장이 가능.
Prompt Engineering 연구: R1 계열은 few-shot prompt보다 zero-shot prompt에 최적화되는 경향. 추후 이에 맞춰 프롬프트 설계를 재검토할 필요가 있다.
1
DeepSeek에서 나온 테크니컬 리포트들에 대한 글은 이전에 쓴 적이 있었다. (https://rosinality.substack.com/p/deepseek-llm) 지금 DeepSeek-V3가 나온 시점에서 드는 생각이 있어 그걸 써볼까 한다.
좋은 LLM을 만들기 위해서는 무엇이 필요할까? 좋은 아키텍처와 학습 기법, 좋은 데이터, 좋은 인프라일 것이다.
좋은 아키텍처는 무엇일까? 일단 추론은 논외로 하면 같은 연산량에서 더 나은 성능에 도달하는 것이다. 이 문제에서 트랜스포머에서 가장 가능성 있는 방향 중 하나가 MoE이다. 그래서 MoE 연구를 했고 (https://arxiv.org/abs/2401.06066) MoE의 이슈 중 하나인 로드 밸런싱 문제에 대한 개선을 했다. (https://arxiv.org/abs/2408.15664) DeepSeekMoE의 Fine grained Expert은 이제 표준적이다.
추론에서 가장 큰 문제는 무엇일까? Key/Value 캐시의 크기일 것이다. 그래서 MLA를 개발했다. (https://arxiv.org/abs/2405.04434)
이런 형태의 아키텍처 개선을 사용하면 일반적인 Llama와는 호환되지 않게 된다. 그러나 Llama 아키텍처와의 호환성을 통해서 얻을 수 있는 것을 (추론 엔진용 코드를 작성하는 등) 직접 한다면 아키텍처의 개선으로 얻을 수 있는 이익을 얻을 수 있다. 이를 뒤집으면 코드 작성을 피하기 위해서 호환성을 추구하는 것으로 아키텍처의 열위를 선택하고 있을 수 있다는 것이다.
학습 기법에 대해서는 GRPO 같은 정렬과 탐색 방법들. (https://arxiv.org/abs/2402.03300, https://arxiv.org/abs/2312.08935, https://arxiv.org/html/2408.08152), 그리고 DeepSeek-V3에서의 Multi Token Prediction 같은 방법.
그리고 요즘 또한 인기 있는 방법인 Scaling Law를 통한 하이퍼파라미터 추정도 DeepSeek LLM에서 등장했다.
좋은 데이터는? DeepSeek LLM에서부터 Common Crawl을 직접 처리했고 (https://arxiv.org/abs/2401.02954) DeepSeek-Coder에서는 코드 데이터를 직접 처리하고 Dependency 기반 정렬을 도입했으며 (https://arxiv.org/abs/2401.14196) DeepSeekMath에서는 이제 거의 표준적인 방법인 Common Crawl에서 수학 관련 데이터를 추가 수집하는 방법을 개발했다. (https://arxiv.org/abs/2402.03300) 그리고 DeepSeek-V2를 거치면서 데이터의 규모도 계속 증가했다.
학습 인프라에 대해서는? DeepSeek-V2에서 Zero-Bubble Pipeline Parallel을 이미 도입했고 (https://arxiv.org/abs/2401.10241) DeepSeek-V3에서는 Pipeline Parallel 스케줄, MoE를 위한 All-to-All 통신의 최적화, FP8 학습을 위한 Quantization 방법의 개선 등이 포함되었다.
그리고 이런 과정들을 거쳐 DeepSeek-V3가 등장했다. 사실 DeepSeek LLM은 테크니컬 리포트의 퀄리티와는 별개로 그 시점에서 Mistral 7B 같은 모델에 비해 그렇게 고성능인 모델은 아니었다. Llama 1 정도의 모델이었기 때문에.

김성현님
이전에 언급했던 것처럼 지금 가장 중요한 문제는 o1에 사용된 추론 능력을 위한 방법을 알아내는 것이었다. 물론 o1의 방법이 무엇인지는 기밀이니 여전히 정확히 알 수는 없다. 그러나 o1과 동등한 수준의 결과를 얻을 수 있는 방법은 이제 알려졌다. 그것도 하루만에 두 가지 사례로.
https://github.com/deepseek-ai/DeepSeek-R1
https://github.com/MoonshotAI/Kimi-k1.5
흥미로운 것은 이 두 가지 사례 모두 공통된 방법을 사용했다는 것이다. 그저 모델의 최종 출력 결과의 정답 여부만으로 (수학이라면 정답과의 일치 여부, 코딩이라면 컴파일러를 통한 유닛 테스트 피드백 등) RL을 하는 것이다. 지금까지 추론 능력을 위한 많은 시도들이 나왔고 이 시도들은 대체로 Process Reward Model (PRM)을 사용해서 CoT의 각 스텝에 대해 Reward를 주거나 MCTS를 하는 것이 주류였다.
그런데 그런 절충적인 방법이나 명시적인 탐색을 전혀 사용하지 않고 결과 보상(Outcome Reward)만으로 추론 능력을 모델에 주입하는데 성공한 것이다.
사실 o1이 MCTS 같은 방법을 사용했는가는 계속해서 논쟁적인 문제였다. TÜLU 3에서 정답을 기반한 RL을 (RLVR) 통해 창발적인 능력이 나타난 사례를 기반으로 탐색이 아니라 Outcome Reward를 통해 추론 능력이 등장할 수 있다는 주장도 있었고 (https://www.interconnects.ai/.../openais-o1-using-search...) 탐색은 답이 아니라는 말도 있었지만 (https://x.com/denny_zhou/status/1870551510741811644) 어쨌든 지금까지 가장 인기 있었던 방법은 탐색이었다. (https://arxiv.org/abs/2501.04682)
그렇다면 왜 Outcome Reward 기반의 방법이 주목을 받지 못했을까? 이는 이 방법이 성공적이기 위해선 베이스 모델의 성능이 충분히 높아야 하고 충분한 난이도와 양의 문제-정답 데이터가 필요하기 때문일 것이다.
딥 러닝에서 흔하게 일어나는 문제, 즉 정교한 방법이 규모를 키운 단순한 방법에 밀리는 현상의 반복이라고 할 수 있겠다.
PRM의 문제는 무엇일까? 일단 PRM을 적용하자면 CoT에서 Process가 될 단위를 설정해야 한다. 이 스텝들에 대한 학습 레이블 또한 필요하다. 이 레이블 구축은 아주 어려운 작업이기에 정답 여부를 통해 레이블을 부여하는 방법이 인기를 얻었지만 이렇게 학습한 모델은 학습 도메인 밖으로 넘어가면 성능 문제가 발생한다. (https://arxiv.org/abs/2501.07301) 또한 애초에 모델 기반이기에 모델의 부정확성 또한 문제가 된다.
MCTS는 어떨까? MCTS를 위해선 정확한 Value 모델이 필요하고 이를 확보하는 것이 문제가 된다.
PRM과 MCTS 모두 CoT에 일정한 구조를 부여하게 된다. PRM에서는 Reward의 단위가 되는 스텝들이 정해져야 하고 MCTS는 탐색 공간이 설정되어야 한다.
그리고 딥 러닝의 가장 중요한 교훈은 문제에 대한 해결 방법에 구조를 부여해서는 안 된다는 것이다.
물론 앞으로도 PRM이나 MCTS가 도움이 되지 않을 것이라고 말할 수는 없다. 그러나 단순한 방법을 Scaling 하는 것이 해야 할 첫 단계인 것도 사실이다.
이런 추론 모델들을 통해 베이스 모델을 더 강화할 수 있는가, 그리고 지금 정답을 알 수 있는 문제들에 대해 학습한 모델이 우리가 목표하는 정답을 아직 모르는 문제를 해결하는 것에 도달할 수 있는가 등 생각하고 연구할 문제들은 많이 있다. 실용적으로는 더 다양한 과제들에 대해 정답 여부를 계산할 수 있는 방법을 개발하는 것도 중요하다.
그러나 일단 가능하다는 것을 확인했다면 그 지점에서 나아가는 것은 한결 쉽다.
#
DeepSeek-R1 리포트에서 말하듯 Distillation은 모델에 추론 능력을 부여하는 아주 손쉬운 방법이다. 사실 o1을 재현했다고 주장한 많은 시도들이 Distillation에 의존하고 있다.
(나는 외부 모델의 결과를 사용해 모델을 학습시키는 것을 Distillation이라고 부르는 것에 반대하고 싶지만 이미 너무 광범위한 용법이 되어버렸으니 어쩔 수 없을 듯 싶다.)
사실 작은 모델에서는 RL보다 Distillation이 더 효과적이라고 언급하고 있기도 하다. RL이 제대로 작동하려면 강력한 베이스 모델이 뒷받침되어야 하는 것이다. 그러나 마찬가지로 리포트에서 언급하는 것처럼 모델의 능력의 경계를 확장하려면 더 강력한 베이스 모델과 대규모 RL을 통할 수밖에 없다. 따라서 진정으로 흥미로운 것은 그 경계를 확장하는 작업과 그 영역에 있다.
#
DeepSeek의 창립자가 인터뷰에서 AGI에 도달하기 위한 기술적 혁신에 대신 현재의 기술을 통한 응용이나 이윤 창출에 집중할 생각은 없다는 식으로 언급한 적이 있다. (https://www.chinatalk.media/.../deepseek-ceo-interview...) 이 기술적 혁신에 대한 집중이 지금 DeepSeek이 공개하고 있는 성과의 동력이었으리라고 생각한다.
그리고 이것이 오히려 합리적인 선택일 수 있다. 현재 수준의 LLM의 능력은 제한적이고 따라서 그것을 적용할 수 있는 분야와 창출할 수 있는 이윤 또한 제한적일 수밖에 없다. 그렇다면 지금 가능한 영역에서 이윤을 짜내려 시도하는 것보다는 가능한 영역을 늘리는 것에 집중하는 것이 나을 수 있다.
이 영역의 발전 속도를 고려했을 때 이 기술이 도달할 수 있는 범위에 대해 가늠할 수 있게 되기까지 걸릴 시간은 그리 많지 않다. 즉 굉장히 장기적인 투자가 필요하지는 않을 것이라는 의미이다. (물론 비용은 클 수 있다.) 그렇다면 굳이 지금 얻을 수 있는 조금의 이윤을 위해 조바심을 낼 필요는 없다.

김성현님
https://youtu.be/kYWUEV_e2ss

문제 정의: “인간이 자세히 가르치는 것 vs. 모델이 스스로 학습하도록 동기를 부여하는 것”

• 기존 접근법: 인간 탑다운 사고방식(수작업 구조·인간 직관)에 기반해 모델에 “언어학·논리” 등을 명시적으로 가르치려 듦.
한계: 사람이 ‘어떻게 생각하는지’를 완벽히 이해한 것도 아니고, 이것이 곧 모델의 최적 해법과 일치하지도 않음.

• 대안(First Principle): “모델이 다룰 방대한 데이터와 높은 계산력(Compute)을 이용해, 그 자체를 '약한 시그널(Weak Incentive)'로 삼아 ‘스스로 사고·학습’을 촉진.”

예: “다음 토큰 예측”이라는 단순 목표만 던져주되(교수 X), 수십억·수조 개 문맥을 해결하려 애쓰게 하면, 자연스럽게 언어 이해/추론/작문 등이 생겨남(인센티브 O).

“무제한 Scalability”가 전제가 되는 현재 환경

전제 조건:

하드웨어/컴퓨팅이 지수적으로 발전(비용 절감속도 또한 엄청남).
기존물리(사람과 같은 시간적 제약)는 “이론상 XX” 수준으로 완화.

행동 지침:
(1) “훨씬 많은 compute”를 효과적으로 소화하도록, 모델 구조를 최소의 사전가정(Structure)으로 유지.
(2) 사람이 “문제 해결 단서”를 직접 설계하지 말 것(숫자가 커질수록 그 사전가정이 병목이 됨).
(3) “인간 지식” 대신, 모델이 “데이터와 목표(예:다음 토큰 예측, 성공 여부 보상 등)”를 발판삼아 자발적으로 일반화된(General) 능력을 찾도록.

“Next Token Prediction”이 어떻게 일반 추론 능력을 낳는가

형태: 웹 스케일(수십억~수조 문장), 각 문장에서 매 다음 토큰을 맞히는 것이 전부.
결과:

(1) 언어학적 지식부터, 수학·코딩·논리까지 “학습자가 스스로 가장 유리한” 일반기술을 터득.
(2) 인간이 별도 교과과정 없이도, “수많은 문맥을 처리해야 하는 인센티브” 때문에 저절로 복잡한 문제 해결력(“Emergent Ability”) 획득.
(3) 작은 모델로는 불가능하지만, 일정 규모 넘으면(첫 원리 차원에서 “충분한 계산 자원+데이터=가능”) 상당한 지적 능력이 ‘돌연’ 출현.

“Emergent Ability”와 스케일링: 커지는 모델에 ‘약한’ 목표만 던져도 별난 능력이 생기는 이유

“작은 모델 기준”에서 보면, 사람은 그 모델 한계 유효 범위만 목격하고는 “안 된다”고 결론냄.
• 하지만 컴퓨팅 자원이 늘면서, 전혀 다른 범위(scales)에서 임계점을 넘으면, ‘자연발생 추론 능력’ 폭증.

비유: 물리 실험이라면 “몇 년 후 바뀔 법칙은 없다.” → AI는 “하드웨어 축적”이 법칙 자체를 바꾸는 격.
따라서 빠른 ‘관성 없이’ 사고전환(“Unlearning 기존 가정”)이 필요.

앞으로의 방향: “모든 문제를 인센티브로 정의하라”

Next Token Prediction → 일종의 “약한 보상”으로 언어·추론 지식 학습했던 것처럼, “정확 응답”·“사실 검증” 등 다른 목표들도 약하지만 광범위하게 설정 가능.
• 거대모델 시대: 과거엔 “학습비용이 너무 커서” 비효율이 문제였지만, 이제는 컴퓨팅이 무제한적으로 증가 가능 → 이 방법이 오히려 효율적.

• 결론: “안 될 것 같아 보이는 단순 보상 구조” + “더 큰 모델/데이터” = 모델이 본질적으로 훨씬 깊은 기술(예: 자기반영, 수학, 치밀추론 등)을 찾을 토양이 됨.
1
https://arxiv.org/abs/2501.12599
“Pretraining 데이터 한계 → RL 기반 ‘새로운 축’을 열어볼 수 있을까?”

• 기존 LLM 확장성: 보통 “다음 토큰 예측”(next token prediction)으로 거대 데이터셋에 맞춰 사전학습을 진행.
한계: 학습 가능한 데이터가 결국 제한될 수밖에 없음.

• 대안(First Principle): “모델이 보상(reward)을 통해 스스로 탐색(explore)하는 축”—즉, RL을 대규모 LLM에 도입하면, 더 이상 정적 데이터에만 의존하지 않아도 됨.
문제: 지금까지 RL+LLM 성과가 경쟁력이 높지 않았음.

“Kimi k1.5”가 이 문제 해결을 목표: “넓고 긴 컨텍스트에서, RL로 즉각적 탐색과 자기-수정 능력을 학습하도록 하여, 결과적으로 OpenAI o1 등 최신 거대모델과 견줄 만한 강력한 Reasoning 모델을 만들 수 있는가?”

“Long Context + Policy Optimization 간단화가 관건”

Long context scaling

아이디어: “문제를 풀 때, 충분히 긴 맥락(128K 토큰 등)을 주면, 거의 ‘플래닝 알고리즘’처럼 모델이 자발적으로 꼬리에 꼬리를 무는 추론을 할 수 있지 않을까?”
문제: 길이가 너무 길면 RL 과정이 비효율적이거나 “오버-씽킹(응답이 너무 길어지는 현상)”이 걱정됨. → 이를 위한 “partial rollout” 등 전문 최적화가 필요.


Simplistic RL framework (간단한 정책 최적화 기법)

기존의 MCTS(蒙테카르로 트리서치), Value 함수, Process Reward를 안 쓰고도 충분히 확장 가능함을 시도.
“오프-폴리시 샘플링 + relative entropy 정규화” → 거대한 LLM에도 적합한 “mirror descent” 방식을 쉽게 구현.

간단화 장점: 복잡한 보조 모듈 없이도 충분히 “다양한 탐색”과 “정답률”을 동시에 높임.


자료 구성, 모델 구조, 학습 레시피: 여타 오픈소스와 다른 점

사전학습(Pretraining)은 기존처럼 거대 텍스트·코드·수학·비전(이미지) 데이터를 혼합


대규모 멀티모달(사진+글) 입력 처리 가능 → 이때도 “길이 확장”과 “품질 높은 필터링”이 중요

“Vanilla SFT(지도학습)” 후, “Long-CoT Supervised Fine-Tuning”을 추가로 도입
첫 단계에선 일반 목적 SFT로 기초 사용자 응답 형태 확보 → 다음 단계에서 길고 정교한 체인오브쏘트(CoT)를 데이터로 만든 후 다시 파인튜닝.

RL 단계 ↓
새로 만든 RL PromptSet(엄선된 질의들)
Long-CoT Warmup(소량이지만 사람 수준으로 깔끔하고 긴 추론경로 예시를 주입)
실제 RL Policy Optimization: off-policy 추가 샘플(+마이너스 보상부)을 모두 이용, “rejection sampling / partial rollout / length penalty” 등 최적화 기법 결합.

“부분 롤아웃(Partial Rollout)”: 너무 긴 답변을 한 번에 전부 생성하지 않고 잘게 나눠, 중간단계(이전 학습결과) 재활용.
학습 스케줄 효율을 높여 “긴 해설 생성”도 가능하게 만듦.

“단순한 RL과 롱-컨텍스트만으로도 최첨단 수준 달성”

Kimi k1.5 Long-CoT

수학(MATH 500) 96.2 / AIME 77.5 등, OpenAI o1과 대등.
LiveCodeBench, Codeforces 등 코딩 경쟁 지표도 우수.
비전(MathVista, MMMU) 포함해 멀티모달 reasoning 성능 STOA 기록.

Kimi k1.5 Short-CoT

Long-CoT 모델이 너무 토큰 많이 쓰는 문제(“오버씽킹”) → “Long2Short” 기법(모델 압축, DPO, 짧은 응답 선별 등)으로 짧은 CoT만으로도 기존 GPT-4o/Claude3.5보다 훨씬 좋은 결과.
AIME 2024의 Pass@1이 60.8 등 괄목할 만한 향상.

“RL+LongCont = 또 다른 슬로프 열렸다, 계속 확장 가능”

“정적 데이터 수집이 아니라, 모델이 자체적으로 보상을 통해 exploration하는 축이 새롭게 열림 → 데이터 한계를 넘을 수 있다.”
• 난점 해결: 너무 길고 복잡한 rollouts 처리 위해 “partial rollout / length penalty / simplistic mirror descent” 등 통합.
• 실험 증명: 여타 복잡한(가령 Monte Carlo tree search, Value function) 없이도 simple RL 체계와 길어진 컨텍스트만으로 o1급 성능 달성 가능.
• 멀티모달 분야에서도 적용 가능: 시각+텍스트 융합된 대규모 RL이, 기존 LLM 한계를 넘어 새로운 Reasoning 패러다임 시도.


데이터:
언어(텍스트) 데이터

영어‧중국어 텍스트, 코드, 수학/추론, 지식(학술 자료 등)을 포함한 5가지 영역을 중점적으로 다룹니다.
중복 문서를 제거하고(with 임베딩 유사도 분석), 글자 깨짐, 형식 오류, 스팸성 텍스트 등을 걸러내는 규칙 기반 필터링 과정을 거칩니다.
FastText, LLM 기반 스코어링 등을 수행해, 각 문서의 언어적 품질과 주제 적합도를 평가한 뒤, 중요한 문서를 업샘플링(up-sampling), 낮은 품질 문서를 다운샘플링(down-sampling) 합니다.
코드 데이터

다양한 공개 저장소(예: Git 리포지토리)에서 추출한 소스코드를 정제해 사용합니다.
JSON, YAML 등 마크업 언어는 비중을 줄이고, Python·C++·Java 등 대표 프로그래밍 언어를 골고루 포함하도록 조정합니다.
수학·추론 데이터

수학 논문·학술 자료·수학 문제(예: 대회 문제) 등을 수집하고, 수식, 특수기호 등이 정확히 인식되도록 맞춤형 OCR 모델을 추가 적용했습니다.
두 단계 필터링을 거쳐(1) 간단한 FastText 분류기로 대략 불필요 문서 제거, (2) 정제된 LLM으로 세부 품질 검사), 난이도 높고 의미 있는 학습 데이터를 확보했습니다.
멀티모달(이미지+텍스트) 데이터

캡션(caption) 데이터(이미지 기술), 이미지와 텍스트가 섞인(interleaving) 데이터, OCR(글자 영역이 포함된 이미지) 데이터, 시각‧지식 관련 자료 등을 폭넓게 수집했습니다.
필요한 경우, 이미지나 차트·수식 이미지 등을 OCR 모델로 다시 추출해 텍스트 형태도 함께 학습하도록 했습니다.
이미지와 텍스트가 긴 맥락에서 서로 교차 연결되는(interleaved) 예시들을 충분히 포함하여, 긴 시각적 문맥을 처리하는 대규모 학습을 수행했습니다.

학습 방식

Kimi k1.5는 크게 다음 단계를 거쳐 학습하며, 최종적으로 “멀티모달 RL(강화학습)” 기반의 롱 체인오브소드(long-CoT) 기법을 도입해 모델 추론 능력을 확장시켰습니다.

1/ 기본 사전 학습(Pretraining)

앞서 구축된 대규모 텍스트·이미지 데이터셋으로 언어모델(디코더 Transformer) 기반의 멀티모달 모델을 훈련합니다.

(1) 텍스트 중심 학습 → (2) 시각·언어 융합(vision-language) → (3) 긴 맥락 처리 능력 활성화(최대 128k 토큰) 순으로 점진적으로 수행합니다.
이때 RoPE(각각의 위치 임베딩을 크게 확장하는) 기법, 멀티모달 처리를 위한 별도 비전 타워(freezing & unfreezing), 32k→128k 토큰으로 점진적 맥락 길이 확장 등이 활용됩니다.

2/ 슈퍼바이즈드 파인튜닝(SFT) 및 롱-CoT 사전 학습

선택된 고품질 문제‧문답쌍 등에 대해 모델 출력을 받아, 사람이 직접 평가하거나(오픈형 QA) 룰베이스·테스트케이스로 자동 검증하는(코드·수학 문제) ‘거부 샘플링(rejection sampling)’으로 정답률 높은 예시를 확보합니다.
이를 바탕으로 모델을 추가 미세조정한 뒤, 특히 “길고 자세한 단계적 추론”(Long-CoT)을 따로 학습시켜 중간 사고 과정(Planning·Reflection·Backtracking 등)을 잘 표현하도록 만듭니다.

3/강화학습(RL) 단계
1
실제 RL 훈련에서, (문제·답변) 쌍에 대한 보상 함수를 정의해(코드: 테스트케이스 통과 여부, 수학: 정답검증 모델 등) 모델이 답을 생성하면 그 성능을 즉시 보상으로 환산합니다.
오탈자가 있는 중간 단계라도, 최종적으로 답을 맞추면 패널티 대신 학습에 필요한 다양한 ‘시도 과정’을 가져가는 식으로 설계해, 모델이 여러 경로를 실험하고 점차 개선하도록 장려합니다.
정책 최적화는 기존 “온라인 미러 디센트(online mirror descent)” 변형 방식을 쓰되, 오프폴리시(off-policy) 샘플링, 길이 패널티(length penalty), 커리큘럼 샘플링(쉬운 문제→어려운 문제 순) 등을 도입해 효율을 높였습니다.
특히 롱-CoT 강화학습 시, 맥락 길이가 매우 길어지므로 “Partial Rollout(부분 롤아웃)”이라는 방식을 써서 이전에 생성한 긴 토큰 시퀀스 중 재활용 가능한 구간을 빼내 재샘플링하는 식으로 시스템 자원을 절약합니다.

4/Long2short 기법(토큰 효율화)

최종적으로 알맞은 길이(Short-CoT)로도 높은 정확도를 유지하도록, “long-CoT로 학습된 베이스 모델”을 다시 ‘짧은 추론용’으로 압축 정련하는 단계입니다.
길이 페널티와 모델 병합(merge), DPO, Rejection Sampling 등을 병행하여, 가능한 한 간결한 토큰 사용으로도 높은 정답률을 내려 합니다.
Continuous Learning_Startup & Investment
https://arxiv.org/abs/2501.12599 “Pretraining 데이터 한계 → RL 기반 ‘새로운 축’을 열어볼 수 있을까?” • 기존 LLM 확장성: 보통 “다음 토큰 예측”(next token prediction)으로 거대 데이터셋에 맞춰 사전학습을 진행. 한계: 학습 가능한 데이터가 결국 제한될 수밖에 없음. • 대안(First Principle): “모델이 보상(reward)을 통해 스스로 탐색(explore)하는 축”—즉…
1. 목표와 전제: 성능이 최우선이다

“Long CoT(긴 체인 오브 소트)”를 활용한 LLM 강화학습(RL)으로 더 높은 문제 해결 성능을 달성하고자 함.
비용과 속도(토큰 사용 증가 등)는 궁극적으로 무어의 법칙 등으로 해결 가능하므로, “우선 성능을 최고로 끌어올린다”가 최상위 원칙.

2. 문제의 근본 구조 파악

기존 짧은 추론(CoT)보다 긴 추론(Long CoT)이 필요 → “자유롭게 생각하는 과정을 모델에게 맡기되, 정답을 제대로 맞추는지 여부만 명확히 판단”한다는 점이 핵심.
명확한 정답이 제공되는(또는 정확히 검증 가능한) 과제(예: 수학, 코딩 등)에서 RL을 적용해야 올바른 보상을 줄 수 있음.
모델이 스스로 “검색(Search) 과정”을 수행하도록 해야 하며, 인위적으로 “MCTS나 Agentic 구조” 같은 엄격한 틀을 강제하면 오히려 모델 역량을 제한함.

3. 근본 해법: In-Context RL + Exploration

길고 자유로운 사고 과정을 “한 번의 메시지(혹은 문맥)” 안에 담아, 곧바로 보상을 피드백받는 구조 → 인컨텍스트 RL.
모델이 중간에 실수해도, 최종적으로 답을 맞추면(즉, “학습 과정에서 실수는 허용, 결과물만 정확하다면 보상”) 그것으로 충분하다는 “맥락 밴디트(Contextual Bandit)” 관점.
가치함수(밸류 함수)나 복잡한 구조 없이, “답이 맞으면 +, 틀리면 –” 식의 REINFORCE류 접근이 자연스럽고, 구조적인 강제(예: MCTS)는 지양.

4. Long CoT가 스스로 확장되는 이유

RL 과정을 진행하면, 모델은 정확도를 올리기 위해 자연스럽게 점점 더 긴 사고 과정을 활용 → 토큰 길이가 학습 과정 중에 자발적으로 증가함.
“모델이 성능을 올리는 데 필요한 만큼” 스스로 더 길게 탐색하고 반성(reflection)하며, 잘못된 시도에서 배우는 패턴을 학습.

5. 주요 테이크어웨이

높은 성능(Performance)은 무엇보다 우선한다. 비용과 속도 문제는 후순위로 해결 가능.
보상이 정확해야 한다(실제 정답을 아는 문제를 다룬다).
모델이 생각의 구조를 ‘내재적 탐색’ 형태로 자유롭게 펼칠 수 있게 한다(Structured Planning‧MCTS는 제한적).
학습은 “실수가 일어날 수 있음”을 전제로 → 최종 정답이 맞으면 그 과정을 모두 인정한다는 식으로 단순화한다.
모델이 스스로 “검색(Search)+자기비판(Self-Critique)”을 수행할 수 있도록 한다.
https://youtu.be/snkOMOjiVOk

추론이라고 부를 수도 Inference time Scaling이라고 부를 수도 있겠지만 본질적으로는 결과를 기반으로 대규모 RL을 했을 때 나타나는 창발적인 현상이라는 것. 과정이 어떠해야 하는가를 기술하는 대신 모델이 그것을 스스로 찾게 해야 한다는 딥 러닝의 사고방식으로 다시 돌아가야 하는 순간. 김성현님

추론(Reasoning) 모델, RL 접목 전망

타사 모델(예: OpenAI)과의 비교

질문자는 “OpenAI에서 모델별로 Reasoning 모드가 존재한다는데, Anthropic에도 비슷한 모델이 있냐”고 질문.
화자는 Anthropic 측 접근은 “이분법적으로 추론 모델 vs. 일반 모델”로 구분하기보다, RL(강화학습)을 통해 모델이 더 깊게 사고·반성(reflection)·탐색(search)하게 만드는 방향이라 설명.
결론적으로 ‘생각하는 모델’과 ‘그냥 빠르게 답변하는 모델’을 별도로 두기보다, 자연스럽게 모델이 상황에 따라 손쉽게 추론하는 쪽을 지향.
강화학습(RL) 대규모 도입

Anthropic은 앞으로 점점 더 많은 RL 기법을 모델 학습에 활용할 것이며, 이를 통해 모델이 “스스로 사고 과정을 점검”하고 품질 높은 답변을 도출하게 만들 것.
“테스트 시간(Test-Time) 컴퓨트” 혹은 “추론 시간 설계”에 대한 논의가 있지만, Anthropic은 “결국 대규모 RL 기반으로 모델 스스로 사고를 강화”하는 방식이 더 자연스럽다고 봄.


2017~2018년 이후 Scaling Laws 관찰

화자는 이미 2017년 무렵부터 “계산 자원을 계속 늘리면 모델 성능이 전방위로 향상된다”라는 스케일링 법칙을 믿어 왔음.
과거에는 일정 수준 불확실성이 있었으나, 최근 3~6개월 사이 그 불확실성이 크게 줄었고, 실제로 여러 지표에서 모델이 사람보다 뛰어난 단계가 가까워지고 있다고 진단.

“AI 발전이 생각보다 빠르다”

화자는 AI 발전이 극도로 빠르며, 향후 2~3년 내에 거의 모든 지식·특정 작업에서 인간보다 우월해질 모델이 나올 수 있다고 설명.
이에 대한 긍정적 효과와 부정적 리스크 모두가 컸기에, “AI 업계가 이를 제대로 인식하고 솔직히 소통해야 한다”고 강조.


노동시장 영향 (단기 vs 장기)

단기적 관점(1~3년 정도)

새로운 기술은 기존 일자리를 대체할 수 있지만, 반대로 “기술 활용 능력이 있는 인력”의 생산성을 크게 높여 ‘보완재(Complementary)’ 역할을 할 수도 있음.
Anthropic은 이전 기술혁신 사례처럼, “직무 일부를 AI가 대신하면, 사람이 더 창의적·고차원적 부분에 집중해 업무 효율을 높일 수 있다”는 ‘비교우위’ 관점을 강조.
다만 기업들이 AI를 어떻게 도입하느냐(대체 vs. 보완)에 따라 결과가 달라질 수 있으며, Anthropic은 “보완형 파트너십” 방향을 지지.


장기적 관점

화자는 “결국에는 AI가 인간보다 더 뛰어난 단계, 심지어 로봇과 결합해 물리 노동까지 대체하는 시점”이 올 것으로 예상(시점 불명, 다만 2027년 전후 가능성 언급).
그때는 “인간의 자존감, 가치, 경제 체계, 분배 방식” 등에 근본적인 재설계가 필요.
모든 인간에게 적용되는 상황이라면 “전(全) 인류가 같은 배를 탔다고 볼 수도 있지만, 만일 30%만 대체되고 70%는 그대로라면 큰 사회 갈등이 생길 것”이라고 우려.
👍1
AI 쪽에서는 요즘 놀라울 정도로 DeepSeek에 대한 이야기 밖에 없다. (솔직히 나도 요즘 너무 많은 이야기를 하고 있긴 하지만, 지금만 그랬던 것은 아니고 늘 많이 했던 것이니 용서해주시기를.) 그리고 생각보다 많은 화제가 DeepSeek의 성과를 평가절하하려는 것과 관련이 있는 듯 하다. ChatGPT로 생성한 데이터를 사용한 것이다, 저작권이나 프라이버시와 관계 없이 데이터를 수집했기 때문에 가능했다, 중국 정부의 지원을 받았다, 실제로는 GPU를 더 많이 사용했다, 그리고 검열과 관련된 문제 등.

ChatGPT로 생성한 데이터를 사용했을 것 같지는 않다. 포스트트레이닝에 ChatGPT 생성 데이터를 쓰는 것은 너무나 흔한 일이지만 (사실 중국에 국한된 것은 아니고 미국에서도 많이 일어나는 일이다) DeepSeek이 그랬다는 증거는 없다. 특히 다른 중국 모델과는 달리 프리트레이닝에 Instruction 데이터를 쓰는 것에 조심스러웠던 편이라 더더욱. (포스트트레이닝에 대해 진정으로 관심이 있다면 다른 모델의 생성 데이터를 쓰지 않는 것이 맞는 방향이기도 하다.)
저작권이나 프라이버시와 관계 없이 데이터를 수집했을 것이라는 부분에서도 딱히 증거가 있을지는 모르겠다. 사용자 데이터는 사람들의 생각처럼 프리트레이닝에 큰 도움이 될 종류의 것은 아니고 저작권이 애매한 데이터의 사용은 가능하겠지만 미국 기업들도 이런 의혹에서는 자유롭지 않다. 최근 메타가 Library Genesis의 데이터를 사용했다는 의혹을 생각해보면. (이런 이야기는 GPT-3에 사용된 정체불명의 Book2 데이터에서부터 있었다.) 한 가지 있다면 중국의 폐쇄적인 웹에 대한 데이터에 용이하게 접근할 수 있었을 것이라는 것 정도일 듯. (DeepSeek V2 시점에 중국어 데이터가 영어 데이터보다 많았다는 언급을 한 것이 있다.)
중국 정부의 지원을 받는다는 것에서는 Alibaba와 Qwen 같은 기업들에 비해서 DeepSeek과 High Flyer는 지원을 받는다고 해도 후순위가 아닐까 싶다.
GPU를 더 많이 사용했다는 것은 당연히 맞을 것이다. 일단 이전에 공개된 것으로도 A100을 1만 개 규모로 갖고 있었고, Hopper 시리즈도 (Dylan Patel이 주장하는 것처럼 5만 개 규모일지는 모르겠지만) 아마 2천 개 규모보다는 많이 갖고 있을 듯 싶다. 그러나 DeepSeek V3 학습에 논문에서 주장하는 2천 개보다 많은 GPU를 사용했을 것이라는 증거는 없다. 그러나 많은 실험, 그리고 DeepSeek V3가 있기까지 지속해온 연구들을 생각하면 당연히 모델 구축에 투입된 총 연산력은 그보다는 많을 수밖에 없다.

검열에 대해서는 DeepSeek V2에서부터 "문화적인 차이"를 언급하고 있으므로 한계가 있을 수밖에 없지만, 기술적인 성과를 논함에 있어 그렇게 중요한 요인이라는 생각은 들지 않는다.

DeepSeek을 굳이 변호할 이유는 없지만 기술적 성취에 대해서는 정확하게 평가하는 쪽이 그러지 않는 것보다는 나을 것이다. 사실 DeepSeek에서 지금까지 나온 연구적 결과들을 알고 있는 사람들에게는 새삼스럽게 지금 놀라는 사람들의 반응이나 평가절하하고자 하는 동기들이 생경한 것일 것이다.
내 소감에 대해서 말하자면.
한국에서도 제대로 시도했다면 좋은 성과를 달성할 수 있었다는 증거인 것 같다는 생각을 한다. 물론 위에도 썼지만 최종 DeepSeek V3 모델 학습에 사용한 비용이 모델 구축 비용의 전부라는 것은 옳지 않다. 그러나 그 비용이 OpenAI, 구글, 메타, Anthropic 등에서 쓰는 비용보다는 훨씬 적을 것이라는 것도 아마 맞을 것이다.

그런 정도의 자원이 허락하는 안에서 필요한 작업들을 정확히 해낸다면 성과를 내지 못할 이유는 없다. 이것에 DeepSeek의 기술적 성과나 수준을 폄하하려는 의도는 없다. 그러나 나는 개인의 능력과 기술 이상으로 필요한 작업들을 구분하고 그것을 실행하는 것 자체에 더 중대함이 있다고 생각한다. 그 작업들을 정확하게 해내는 것에는 기술과 능력이 필요할 수 있지만 그중에도 성실함으로 채울 수 있는 충분히 부분이 있을 것이다.
사실 필요한 작업들을 판단하고 그것에 온당한 자원을 투입하는 것이 곧 가장 중요한 능력인 것일 수도 있다. 그런 의미에서 개인의 탁월함이란 주어진 작업에 대한
성과보다는 어떠한 작업을 선택하는가 하는 지점에 있는지도 모르겠다.

따라서 인력의 수준, 규모, 혹은 시간 등의 요인 이전에 지금까지 해온 선택과 판단 기준에 대해 숙고하는 것이 필요할 수도 있다. 좋은 판단 또는 무엇이 올바른 방법인지를 아는 것은 인력과 자원이 부족하더라도 갖출 수 있다. 이에 대해 답할 수 있어야 자원의 제약이 없는 상황에서도 좋은 선택을 할 수 있었으리라고 확신할 수 있다. 자원은 얼마든지 낭비할 수 있는 것이므로. 이 문제에 대해 인력의 규모나 시간 같은 양적인 측면들은 생각보다 차순위일지도 모른다.

김성현님
👍52
Continuous Learning_Startup & Investment
DeepSeek에서 나온 테크니컬 리포트들에 대한 글은 이전에 쓴 적이 있었다. (https://rosinality.substack.com/p/deepseek-llm) 지금 DeepSeek-V3가 나온 시점에서 드는 생각이 있어 그걸 써볼까 한다. 좋은 LLM을 만들기 위해서는 무엇이 필요할까? 좋은 아키텍처와 학습 기법, 좋은 데이터, 좋은 인프라일 것이다. 좋은 아키텍처는 무엇일까? 일단 추론은 논외로 하면 같은 연산량에서 더 나은 성능에 도달하는 것이다.…
량원펑은 언론과의 인터뷰에서 "중국도 항상 무임승차자가 되기보다는 점차 기여자가 되어야 합니다."라고 말했습니다. "우리는 무어의 법칙이 하늘에서 떨어지는 것에 익숙하며, 18개월 후에는 더 나은 하드웨어와 소프트웨어가 나올 것입니다. 스케일링 법칙도 이런 식으로 취급되고 있습니다. 하지만 사실 이것은 서구 주도의 기술 커뮤니티가 여러 세대에 걸쳐 지칠 줄 모르고 만들어낸 결과입니다. 우리가 이 과정에 참여하지 않았기 때문에 그 존재를 무시한 것뿐입니다. 많은 국내 칩은 지원 기술 커뮤니티가 부족하고 간접 정보 만 있기 때문에 개발할 수 없습니다. 중국은 반드시 기술의 최전선에 서야 합니다."

주요 인력의 배경

대다수가 “청베이(清北 즉 청화대·베이징대)” 등 중국 명문대 출신에, 학부 졸업 직후나 박사 과정 연구 중에 합류한 경우가 많습니다.
석·박사 재학 중에 DeepSeek에서 인턴으로 활약하면서 주요 연구 성과(논문, 신규 알고리즘 등)를 낸 사례가 다수 소개됩니다. 예)
MLA(Multi-head Latent Attention) 제안자 중 한 명인 高华佐(가오화쭈어): 베이징대 물리학과.
曾旺丁(쩡왕딩): 북경우전대(北邮) 출신, “MLA” 주 연구자.
邵智宏(샤오즈훙): 칭화대 CoAI 연구그룹의 박사 과정, Microsoft Research 인턴 경험.
朱琪豪(주치하오): 베이징대 소프트웨어 연구소 박사 과정, 다수의 최고급 학술대회(ASE, ESEC/FSE) 수상 경력.
代达劢(다이다마이), 王炳宣(왕빙쉬안), 赵成钢(자오청강) 등도 각각 베이징대, 칭화대에서 컴퓨터나 수학·물리·정보학 등에 종사.

다양한 분야와 젊은 리더

팀 리더급도 박사 졸업 후 4~6년 차 수준인 젊은 구성원이 많습니다.
하드웨어, 시스템 인프라 최적화 쪽에도 엔비디아, 알리클라우드 등에서 경험을 쌓은 젊은 엔지니어들이 포진합니다.
예를 들어 후처리(후공정)나 모델 파인튜닝 팀을 이끄는 吴俣(우위) 같은 경우, 북항(北航) 박사 졸업 후 MSRA(마이크로소프트 아시아연구원)에서 연구했으며, DeepSeek 합류 이후 대형 모델 후속 훈련을 주도합니다.

실습·인턴의 적극적 기여

박사 과정 인턴들이 논문 발표, 알고리즘 개발에 핵심 기여를 하는 사례가 눈에 띄며, 일부 인턴은 짧은 기간 연구로도 중요한 기능을 만들어냅니다.
예) 孙景翔(순징샹)은 3D 생성 관련 연구를, 辛华剑(신화젠)은 수학 정리 증명(DeepSeek-Prover) 관련 일을 담당했다가 각각 해외 대학(예: 에든버러대)으로 유학을 가기도 함.
2. 팀이 어떻게 일하는가?

“이름만 있지 않은” 자율 분업

DeepSeek 창업자이자 대표인 梁文锋(량원펑)은 “경험보다는 실력을, 조직보다는 열정적 협업을 중시한다”는 인재 철학을 강조합니다.
인위적인 부서 구분을 최소화하며, 누가 어떤 연구를 하고 싶으면 필요한 GPU·컴퓨팅 자원을 자유롭게 요청·활용할 수 있습니다.
몇몇 사람이 모여서 아이디어가 떠오르면 승인 절차 없이 프로젝트를 시작하고, 잠재력이 보이면 회사 전체가 리소스를 몰아줄 수도 있다는 식의 상향식 혁신 구조를 취합니다.
대학생·박사과정·졸업 1~2년차 인력이 주축이 되고, 경력보다는 연구 역량이나 성취를 우선시하는 점.
👍1
엔비디아가 여전히 유리한 세 가지 요소가 있습니다. 첫째, 딥시크의 접근 방식이 H100 또는 곧 출시될 GB100에 적용될 경우 얼마나 성능이 좋을까요? 컴퓨팅을 더 효율적으로 사용하는 방법을 찾았다고 해서 더 많은 컴퓨팅이 유용하지 않다는 의미는 아닙니다. 둘째, 추론 비용이 낮아지면 장기적으로는 사용량이 늘어날 것입니다. 사티아 나델라 Microsoft CEO는 늦은 밤 트위터에서 시장을 겨냥한 듯한 트윗을 통해 정확히 이렇게 말했습니다:

셋째, R1 및 o1과 같은 추론 모델은 더 많은 컴퓨팅을 사용함으로써 우수한 성능을 이끌어냅니다. AI의 성능과 기능이 향상될수록 더 많은 컴퓨팅에 의존하게 되는 만큼, 엔비디아는 이득을 볼 수 있습니다!

하지만 모든 것이 장밋빛인 것은 아닙니다. 최소한 딥시크의 효율성과 광범위한 가용성은 적어도 단기적으로는 가장 낙관적인 엔비디아의 성장 스토리에 상당한 의구심을 불러일으킵니다. 모델 및 인프라 최적화를 통해 얻을 수 있는 이득은 특히 추론에 대한 대안적인 접근 방식을 탐색함으로써 얻을 수 있는 상당한 이득이 있음을 시사합니다. 예를 들어, AMD의 열등한 칩 간 통신 기능을 완전히 회피하여 독립형 AMD GPU에서 추론을 실행하는 것이 훨씬 더 그럴듯할 수 있습니다. 추론 모델은 또한 추론 전용 칩에 대한 보상을 늘려주는데, 이는 Nvidia의 GPU보다 훨씬 더 전문화되어 있습니다.

이제 미국은 선택을 해야 합니다. 우리는 매우 논리적인 이유로 칩 금지 조치를 대폭 확대하고 EU의 기술 접근 방식을 반영하는 칩 및 반도체 장비에 대한 허가 기반 규제 체제를 부과하는 등 방어 조치를 두 배로 강화할 수도 있고, 아니면 우리에게 진정한 경쟁이 있음을 깨닫고 실제로 경쟁할 수 있는 권한을 스스로 부여할 수도 있습니다.
1👍1
(언제나 그렇듯) 팩트를 잘 다뤄놓은 벤 톰슨의 글. 더 많은 자료를 접한 현재, 나는 여전히 동일한 뷰를 유지한다.

하나만 덧붙이면, OpenAI의 진짜 강력함은 모델을 만드는 것을 넘어서 대규모로 컴퓨터를 다룰 수 있는 능력 그 자체에 있다고 생각한다.

https://stratechery.com/2025/deepseek-faq/

https://blog.naver.com/mynameisdj/223740494847 (한글 번역)
그 전에는 대부분의 중국 기업이 애플리케이션을 위해 현 세대의 라마 아키텍처를 직접 복사했습니다. 모델 구조에서 시작한 이유는 무엇인가요?

Liang Wenfeng: 애플리케이션을 만드는 것이 목표라면 빠른 제품 배포를 위해 라마 구조를 사용하는 것이 합리적입니다. 하지만 우리의 목표는 AGI이므로 제한된 리소스로 더 강력한 모델 기능을 구현하기 위해 새로운 모델 구조를 연구해야 합니다. 이는 더 큰 모델로 확장하기 위해 필요한 기본적인 연구 분야 중 하나입니다. 또한 모델 구조 외에도 데이터 구성과 모델을 보다 인간과 유사하게 만드는 등 다른 영역에서도 광범위한 연구를 수행했으며, 이는 모두 이번에 출시한 모델에 반영되었습니다. 또한, 학습 효율성과 추론 비용 측면에서 라마의 구조는 학습 효율성과 추론 비용에 있어 국제적인 프론티어 수준과 2세대 격차가 있는 것으로 평가되고 있습니다.

이러한 세대 차이는 주로 어디에서 발생하나요?

리앙 웬펑: 우선 훈련 효율성의 격차가 있습니다. 국제 최고 수준과 비교했을 때 중국의 최고 역량은 모델 구조와 훈련 역학에서 두 배의 격차가 있을 것으로 추정되는데, 이는 동일한 결과를 얻기 위해 두 배의 컴퓨팅 파워를 소비해야 한다는 의미입니다. 또한 데이터 효율성에서도 2배의 격차가 있을 수 있습니다. 즉, 동일한 결과를 얻기 위해 두 배의 학습 데이터와 컴퓨팅 파워를 소비해야 합니다. 이를 모두 합치면 컴퓨팅 성능이 4배 더 필요합니다. 우리가 하고자 하는 것은 이러한 격차를 계속 좁히는 것입니다.

대부분의 중국 기업들은 모델과 애플리케이션을 모두 갖추고 있습니다. 딥시크는 왜 연구와 탐색에만 집중하기로 결정했나요?

Liang Wenfeng: 지금 가장 중요한 것은 글로벌 혁신의 물결에 동참하는 것이라고 생각하기 때문입니다. 수년 동안 중국 기업들은 다른 기업들이 기술 혁신을 하는 데 익숙해졌고, 우리는 애플리케이션 수익화에 집중했지만 이는 피할 수 없는 흐름입니다. 이 물결 속에서 우리의 출발점은 단기간에 수익을 창출할 수 있는 기회를 활용하는 것이 아니라 기술적 한계에 도달하고 전체 생태계의 발전을 주도하는 것입니다.

인터넷과 모바일 인터넷 시대를 거치면서 대부분의 사람들은 미국이 기술 혁신에 뛰어나고 중국은 애플리케이션 제작에 뛰어나다는 믿음을 갖게 되었습니다.

리앙 웬펑: 우리는 경제가 발전함에 따라 중국이 무임승차하는 대신 점차 기여하는 국가가 되어야 한다고 믿습니다. 지난 30년 이상의 IT 물결 속에서 우리는 기본적으로 진정한 기술 혁신에 참여하지 않았습니다. 우리는 무어의 법칙이 하늘에서 떨어지고 더 나은 하드웨어와 소프트웨어가 등장할 때까지 18개월 동안 집에 누워 기다리는 데 익숙해져 있습니다. 스케일링 법칙이 그런 식으로 취급되고 있습니다.

하지만 사실 이것은 서구 주도의 여러 세대에 걸친 기술 커뮤니티의 끊임없는 노력을 통해 만들어진 법칙입니다. 단지 우리가 이 과정에 참여하지 않았다는 이유로 그 존재를 무시해 왔을 뿐입니다.

DeepSeek V2가 실리콘 밸리의 많은 사람들을 놀라게 한 이유는 무엇인가요?

Liang Wenfeng: 미국에서 매일 일어나는 수많은 혁신 중에서 이것은 매우 평범한 일입니다. 중국 기업이 혁신에 기여하는 기업으로 참여했기 때문에 놀랐던 것 같습니다. 결국 대부분의 중국 기업은 혁신이 아닌 추종에 익숙하기 때문입니다.

하지만 중국 상황에서 혁신을 선택하는 것은 매우 사치스러운 결정입니다. 대형 모델은 막대한 투자가 필요한 게임이며, 모든 기업이 상용화를 먼저 생각하지 않고 연구와 혁신에만 집중할 수 있는 자본을 가지고 있는 것은 아닙니다.

리앙 웬펑: 혁신 비용이 결코 낮지 않으며, 무분별한 차입에 대한 과거의 경향도 중국의 이전 상황과 관련이 있습니다. 하지만 지금은 중국의 경제 규모나 바이트댄스, 텐센트와 같은 거대 기업의 이익 등 글로벌 기준으로 볼 때 어느 것 하나 낮은 것이 없습니다. 우리에게 혁신에서 부족한 것은 자본이 아니라 효과적인 혁신을 위해 고밀도 인재를 조직하는 방법에 대한 자신감과 지식이 부족하다는 것입니다.

거대 기술 대기업을 포함한 중국 기업들이 빠른 상용화를 최우선 순위로 삼는 이유는 무엇인가요?

리앙 웬펑: 지난 30년 동안 우리는 혁신을 소홀히 한 채 수익 창출만을 강조해 왔습니다. 혁신은 전적으로 비즈니스 중심이 아니라 호기심과 창조에 대한 열망도 필요합니다. 우리는 오래된 습관의 제약을 받았을 뿐인데, 이는 특정 경제 국면과 관련이 있습니다.

하지만 귀사는 궁극적으로 공익 연구 기관이 아니라 비즈니스 조직인데, 혁신을 선택하고 그 혁신을 오픈소스화할 때 해자를 어디에 구축할까요? 5월에 공개한 MLA 아키텍처는 다른 사람들이 빠르게 모방하지 않을까요?

Liang Wenfeng: 파괴적인 기술 앞에서 클로즈드 소스로 만든 해자는 일시적입니다. OpenAI의 클로즈드 소스 접근 방식도 다른 사람들이 따라잡는 것을 막을 수는 없습니다. 그래서 우리는 팀원들이 이 과정을 통해 성장하고 노하우를 축적하며 혁신할 수 있는 조직과 문화를 형성하는 데 가치를 두고 있습니다. 이것이 우리의 해자입니다.

오픈 소스, 논문 발표는 사실 비용이 들지 않습니다. 기술 인재의 경우 다른 사람들이 자신의 혁신을 따르게 되면 큰 성취감을 느낄 수 있습니다. 사실 오픈소스는 상업적이라기보다는 문화적 행동에 가깝기 때문에 오픈소스에 기여하면 존경받을 수 있습니다. 또한 기업이 오픈소스에 참여하는 데에는 문화적 매력이 있습니다.

하지만 대형 모델의 경우 순수한 기술 리더십이 절대적인 우위를 점하는 경우는 드뭅니다. 어떤 더 큰 것에 베팅하고 계신가요?

리앙 웬펑: 우리가 보는 것은 중국 AI가 영원히 따라잡을 수 없다는 것입니다. 우리는 흔히 중국 AI와 미국 사이에 1~2년의 격차가 있다고 말하지만, 실제 격차는 독창성과 모방성의 차이입니다. 이것이 변하지 않는다면 중국은 항상 추종자에 불과할 것이므로 약간의 탐험은 피할 수 없습니다.

엔비디아의 리더십은 한 회사의 노력만이 아니라 서구 기술 커뮤니티와 업계 전체가 함께 노력한 결과입니다. 그들은 차세대 기술 트렌드를 파악하고 로드맵을 가지고 있습니다. 중국의 AI 개발에는 이러한 생태계가 필요합니다. 많은 국내 칩 개발 업체는 기술 커뮤니티가 부족하고 간접적인 정보만 가지고 있기 때문에 어려움을 겪고 있습니다. 중국은 필연적으로 기술 최전선에 서 있는 사람들이 필요합니다.

자금 조달 계획이 있나요? 하이플라이어가 IPO를 위해 딥시크를 분사할 계획이라는 언론 보도를 본 적이 있습니다. 실리콘밸리의 AI 스타트업은 결국 대기업에 종속될 수밖에 없잖아요.

리앙 웬펑: 단기적으로는 자금 조달 계획이 없습니다. 저희에게는 돈이 문제가 아니라 고급 칩의 출하 금지가 문제입니다.

파도: 많은 사람들이 AGI 개발과 양적 금융은 완전히 다른 노력이라고 생각합니다. 양적 금융은 조용히 추구할 수 있지만, AGI는 투자를 확대하기 위해 제휴를 맺는 등 눈에 띄고 대담한 접근이 필요할 수 있습니다.

Liang Wenfeng: 더 많은 투자가 더 많은 혁신을 가져오는 것은 아닙니다. 그렇지 않았다면 대기업이 이미 모든 혁신을 독점했을 것입니다.

운영 전문성이 부족해서 지금은 애플리케이션에 집중하지 않는 건 아닌가요?

리앙 웬펑: 현재 단계는 애플리케이션이 아닌 기술 혁신이 폭발적으로 성장하는 시기라고 생각합니다. 장기적으로는 업계에서 저희의 기술과 결과물을 직접 활용하는 생태계를 만들고 싶습니다. 우리는 기본 모델과 첨단 혁신에 집중하고, 다른 기업들은 딥시크의 기반을 바탕으로 B2B 및 B2C 비즈니스를 구축할 수 있도록 할 것입니다. 완전한 산업 가치 사슬을 구축할 수 있다면 우리가 직접 애플리케이션을 개발할 필요가 없습니다. 물론 필요하다면 애플리케이션을 개발할 수도 있지만, 연구와 기술 혁신이 항상 우리의 최우선 순위가 될 것입니다.

하지만 고객이 API를 선택할 때 대기업의 제품 대신 딥시크를 선택해야 하는 이유는 무엇인가요?

Liang Wenfeng: 미래의 세계는 전문화된 분업의 세계가 될 것입니다. 기본적인 대형 모델은 지속적인 혁신이 필요하며, 대기업은 역량에 한계가 있기 때문에 반드시 최선이 아닐 수도 있습니다.
하지만 기술 자체가 정말 큰 격차를 만들 수 있을까요? 또한 절대적인 기술 비밀은 없다고 말씀하셨잖아요.

Liang Wenfeng: 기술에는 비밀이 없지만 복제를 위해서는 시간과 비용이 필요합니다. 이론적으로 엔비디아의 그래픽 카드는 기술적 비밀이 없고 복제하기 쉽습니다. 하지만 처음부터 팀을 구성하고 차세대 기술을 따라잡는 데는 시간이 걸리기 때문에 실제 해자는 상당히 넓습니다.


다른 6개 대형 스타트업의 최종 게임은 어떻게 될 것으로 보시나요?

리앙 웬펑: 두세 개는 살아남을 수 있습니다. 지금은 모두 '돈 버는' 단계에 있기 때문에 자기 포지셔닝이 명확하고 운영을 더 잘 다듬는 회사가 살아남을 가능성이 높습니다. 다른 회사들은 상당한 변화를 겪을 수도 있습니다. 가치 있는 것들이 단순히 사라지는 것이 아니라 다른 형태를 띠게 될 것입니다.

하이플라이어의 경쟁에 대한 접근 방식은 수평적 경쟁에 거의 관심을 기울이지 않기 때문에 '불투명'하다고 묘사되어 왔습니다. 경쟁에 대해 생각할 때 어떤 출발점이 있나요?

리앙 웬펑: 제가 자주 생각하는 것은 어떤 것이 사회 운영의 효율성을 향상시킬 수 있는지, 그리고 산업 체인 내에서 강점을 찾을 수 있는지 여부입니다. 궁극적인 목표가 사회를 더 효율적으로 만드는 것이라면 그 목표는 유효합니다. 그 사이의 많은 것들은 일시적인 단계에 불과하며, 그것에 지나치게 집중하면 혼란을 초래할 수 있습니다.

OpenAI의 전 정책 책임자이자 Anthropic의 공동 창립자인 잭 클라크는 DeepSeek가 "이해할 수 없는 마법사"들을 고용했다고 말했습니다. 딥서치 V2에는 어떤 사람들이 참여했나요?

리앙 웬펑: 마법사는 없습니다. 저희는 대부분 일류 대학을 갓 졸업한 신입생, 4~5년차 박사 과정 학생, 몇 년 전에 졸업한 젊은이들로 구성되어 있습니다.

많은 LLM 회사가 해외 인재 채용에 집착하고 있으며, 이 분야의 상위 50위권 인재는 중국 기업에서 일하지 않을 수도 있다는 얘기도 종종 들리죠. 팀원들의 출신 국가는 어디인가요?

Liang Wenfeng: V2 모델의 팀원 중에는 해외에서 중국으로 돌아온 사람은 없으며 모두 현지인입니다. 상위 50명의 전문가가 중국에 없을 수도 있지만, 그런 인재는 우리가 직접 양성할 수도 있습니다.

이 MLA 혁신은 어떻게 시작되었나요? 한 젊은 연구원의 개인적인 관심에서 아이디어가 시작되었다고 들었는데요?

리앙 웬펑: 그는 주의 집중 메커니즘의 주류 진화 추세를 요약한 후 대안을 설계해보고 싶다는 생각을 했습니다. 하지만 아이디어를 현실화하는 데는 오랜 시간이 걸렸습니다. 이를 위해 특별히 팀을 구성하고 몇 달에 걸쳐 작업을 진행했습니다. [조던: 알렉 래드포드의 GPT 시리즈 초기 기고가 떠오르며, 과거 차이나톡에서 알고리즘 혁신은 반도체 제조와 같은 기술 분야를 개척하는 것과는 근본적으로 다르다고 주장했던 논지를 떠올리게 합니다. 박사 학위와 수년간의 업계 경험이 있어야만 유용한 것이 아니라, 정말 예리하고 굶주린 20대(중국에는 많은 20대가 있습니다!)가 되면 그 경계를 넓힐 수 있습니다. OpenAI의 숄토 더글라스와 Anthropic의 트렌튼 브리켄이 진행한 드와르케시와의 인터뷰는 이러한 역동성을 잘 보여줍니다. "외교학 논문을 쓴 노암 브라운은 숄토에 대해 이렇게 말했습니다: "그는 이 분야에 종사한 지 1.5년밖에 되지 않았지만, AI 업계 사람들은 그가 제미니의 성공에 가장 중요한 인물 중 한 명이라는 것을 알고 있습니다."]로 시작하는 드와르케시.

이러한 다양한 사고의 출현은 혁신 중심의 조직 구조와 밀접한 관련이 있는 것으로 보입니다. 하이플라이어 시대에는 팀에서 목표나 과제를 위에서 아래로 할당하는 경우가 거의 없었습니다. 하지만 AGI는 불확실성이 큰 개척지 탐험을 포함하는데, 이로 인해 경영진의 개입이 더 많아졌나요?


Liang Wenfeng: DeepSeek는 여전히 전적으로 상향식입니다. 우리는 일반적으로 역할을 미리 정의하지 않고 자연스럽게 분업이 이루어집니다. 모두가 각자의 고유한 여정을 가지고 있고 아이디어를 가져오기 때문에 누구를 밀어붙일 필요가 없습니다. 탐구하는 동안 누군가가 문제를 발견하면 자연스럽게 다른 사람과 논의하게 됩니다. 하지만 어떤 아이디어가 잠재력을 보이면 하향식으로 리소스를 할당합니다.

DeepSeek는 GPU와 인력과 같은 리소스를 매우 유연하게 동원한다고 들었습니다.

Liang Wenfeng: 팀원 누구나 언제든지 GPU나 인력을 이용할 수 있습니다. 아이디어가 있는 사람은 승인 없이도 언제든지 트레이닝 클러스터 카드에 액세스할 수 있습니다. 마찬가지로, 계층 구조나 별도의 부서가 없기 때문에 서로 관심만 있다면 팀원들 간에 협업할 수 있습니다.

이러한 느슨한 경영 스타일은 자기 주도성이 높은 인재를 확보하는 데 의존합니다. 기존과는 다른 평가 기준을 통해 뛰어난 인재를 발굴하는 데 탁월하다고 들었습니다.

Liang Wenfeng: 저희의 채용 기준은 항상 열정과 호기심입니다. 우리 팀원 중 상당수가 특이한 경험을 가지고 있고, 이는 매우 흥미롭습니다. 그들은 종종 돈을 벌기 전에 연구를 하고자 하는 열망을 가지고 있습니다.

트랜스포머는 구글의 AI 랩에서, ChatGPT는 OpenAI에서 탄생했습니다. 대기업의 AI 연구소와 스타트업의 혁신의 가치를 어떻게 비교하시나요?

Liang Wenfeng: Google의 AI Lab, OpenAI, 심지어 중국 기술 기업의 AI 연구소는 모두 엄청난 가치를 지니고 있습니다. OpenAI가 성공할 수 있었던 것은 부분적으로는 몇 가지 역사적 우연이 있었기 때문입니다.

그렇다면 혁신은 주로 운의 문제인가요? 사무실의 회의실 가운데 줄에 양쪽에 누구나 열 수 있는 문이 있는 것을 보았습니다. 동료들은 이 디자인이 우연의 여지를 남겨둔다고 말하더군요. 트랜스포머의 탄생에는 누군가가 토론을 우연히 듣고 참여하여 궁극적으로 일반적인 프레임워크로 전환하는 과정이 포함되었습니다.

리앙 웬펑: 혁신은 믿음에서 시작된다고 생각합니다. 실리콘밸리가 혁신적인 이유는 무엇일까요? 과감하게 도전하기 때문이죠. ChatGPT가 나왔을 때 중국의 기술 커뮤니티는 프론티어 혁신에 대한 자신감이 부족했습니다. 투자자부터 대기업까지 모두 격차가 너무 크다고 생각하고 애플리케이션에 집중하기로 했습니다. 하지만 혁신은 자신감에서 시작되며, 우리는 종종 젊은이들에게서 더 많이 볼 수 있습니다.

하지만 펀드레이징이나 대중과의 소통을 하지 않으셔서 적극적으로 펀드레이징을 하는 회사들에 비해 인지도가 낮은 것 같네요. 어떻게 하면 딥시크가 LLM 관련 종사자들에게 최고의 선택으로 남을 수 있을까요?

Liang Wenfeng: 가장 어려운 문제를 해결하고 있기 때문입니다. 최고의 인재들은 세계에서 가장 어려운 문제를 해결하는 데 가장 큰 매력을 느낍니다. 사실 중국의 최고 인재들은 사회적으로 하드코어한 혁신이 거의 이루어지지 않아 인정받지 못하기 때문에 과소평가되고 있습니다. 우리는 가장 어려운 문제를 해결하고 있으며, 이는 본질적으로 그들에게 매력적입니다.

대형 모델의 최종 목표는 무엇이라고 생각하시나요?

리앙 웬펑: 공급망의 모든 노드에서 광범위한 전문화를 달성하는 기반 모델과 서비스를 제공하는 전문 기업이 등장할 것입니다. 더 많은 사람들이 이 모든 것을 기반으로 사회의 다양한 요구를 충족시킬 것입니다.

다른 대형 모델 스타트업들은 [기술과 상용화]를 모두 추구한다고 주장하지만, 결국 기술 우위를 제품으로 전환할 수 있는 기회의 창을 활용하는 것도 중요하기 때문에 기술이 영구적인 리더십을 가져다주지는 않을 것입니다. 딥시크의 모델 역량이 아직 충분하지 않기 때문에 과감하게 모델 연구에 집중하는 건가요?

리앙 웬펑: 이러한 비즈니스 패턴은 모두 이전 세대의 산물이며 미래에는 통하지 않을 수도 있습니다. 인터넷 비즈니스 논리를 사용하여 미래의 AI 수익 모델을 논의하는 것은 마치 포니 마가 사업을 시작할 때 제너럴 일렉트릭과 코카콜라에 대해 논의하는 것과 같습니다. 무의미한 논의(刻舟求剑)입니다.

과거 하이플라이어 퀀트 펀드는 기술과 혁신에 탄탄한 기반을 가지고 있었고 성장도 비교적 순조로웠습니다. 이것이 낙관적인 이유인가요?
👍1