https://youtu.be/snkOMOjiVOk
추론이라고 부를 수도 Inference time Scaling이라고 부를 수도 있겠지만 본질적으로는 결과를 기반으로 대규모 RL을 했을 때 나타나는 창발적인 현상이라는 것. 과정이 어떠해야 하는가를 기술하는 대신 모델이 그것을 스스로 찾게 해야 한다는 딥 러닝의 사고방식으로 다시 돌아가야 하는 순간. 김성현님
추론(Reasoning) 모델, RL 접목 전망
타사 모델(예: OpenAI)과의 비교
질문자는 “OpenAI에서 모델별로 Reasoning 모드가 존재한다는데, Anthropic에도 비슷한 모델이 있냐”고 질문.
화자는 Anthropic 측 접근은 “이분법적으로 추론 모델 vs. 일반 모델”로 구분하기보다, RL(강화학습)을 통해 모델이 더 깊게 사고·반성(reflection)·탐색(search)하게 만드는 방향이라 설명.
결론적으로 ‘생각하는 모델’과 ‘그냥 빠르게 답변하는 모델’을 별도로 두기보다, 자연스럽게 모델이 상황에 따라 손쉽게 추론하는 쪽을 지향.
강화학습(RL) 대규모 도입
Anthropic은 앞으로 점점 더 많은 RL 기법을 모델 학습에 활용할 것이며, 이를 통해 모델이 “스스로 사고 과정을 점검”하고 품질 높은 답변을 도출하게 만들 것.
“테스트 시간(Test-Time) 컴퓨트” 혹은 “추론 시간 설계”에 대한 논의가 있지만, Anthropic은 “결국 대규모 RL 기반으로 모델 스스로 사고를 강화”하는 방식이 더 자연스럽다고 봄.
2017~2018년 이후 Scaling Laws 관찰
화자는 이미 2017년 무렵부터 “계산 자원을 계속 늘리면 모델 성능이 전방위로 향상된다”라는 스케일링 법칙을 믿어 왔음.
과거에는 일정 수준 불확실성이 있었으나, 최근 3~6개월 사이 그 불확실성이 크게 줄었고, 실제로 여러 지표에서 모델이 사람보다 뛰어난 단계가 가까워지고 있다고 진단.
“AI 발전이 생각보다 빠르다”
화자는 AI 발전이 극도로 빠르며, 향후 2~3년 내에 거의 모든 지식·특정 작업에서 인간보다 우월해질 모델이 나올 수 있다고 설명.
이에 대한 긍정적 효과와 부정적 리스크 모두가 컸기에, “AI 업계가 이를 제대로 인식하고 솔직히 소통해야 한다”고 강조.
노동시장 영향 (단기 vs 장기)
단기적 관점(1~3년 정도)
새로운 기술은 기존 일자리를 대체할 수 있지만, 반대로 “기술 활용 능력이 있는 인력”의 생산성을 크게 높여 ‘보완재(Complementary)’ 역할을 할 수도 있음.
Anthropic은 이전 기술혁신 사례처럼, “직무 일부를 AI가 대신하면, 사람이 더 창의적·고차원적 부분에 집중해 업무 효율을 높일 수 있다”는 ‘비교우위’ 관점을 강조.
다만 기업들이 AI를 어떻게 도입하느냐(대체 vs. 보완)에 따라 결과가 달라질 수 있으며, Anthropic은 “보완형 파트너십” 방향을 지지.
장기적 관점
화자는 “결국에는 AI가 인간보다 더 뛰어난 단계, 심지어 로봇과 결합해 물리 노동까지 대체하는 시점”이 올 것으로 예상(시점 불명, 다만 2027년 전후 가능성 언급).
그때는 “인간의 자존감, 가치, 경제 체계, 분배 방식” 등에 근본적인 재설계가 필요.
모든 인간에게 적용되는 상황이라면 “전(全) 인류가 같은 배를 탔다고 볼 수도 있지만, 만일 30%만 대체되고 70%는 그대로라면 큰 사회 갈등이 생길 것”이라고 우려.
추론이라고 부를 수도 Inference time Scaling이라고 부를 수도 있겠지만 본질적으로는 결과를 기반으로 대규모 RL을 했을 때 나타나는 창발적인 현상이라는 것. 과정이 어떠해야 하는가를 기술하는 대신 모델이 그것을 스스로 찾게 해야 한다는 딥 러닝의 사고방식으로 다시 돌아가야 하는 순간. 김성현님
추론(Reasoning) 모델, RL 접목 전망
타사 모델(예: OpenAI)과의 비교
질문자는 “OpenAI에서 모델별로 Reasoning 모드가 존재한다는데, Anthropic에도 비슷한 모델이 있냐”고 질문.
화자는 Anthropic 측 접근은 “이분법적으로 추론 모델 vs. 일반 모델”로 구분하기보다, RL(강화학습)을 통해 모델이 더 깊게 사고·반성(reflection)·탐색(search)하게 만드는 방향이라 설명.
결론적으로 ‘생각하는 모델’과 ‘그냥 빠르게 답변하는 모델’을 별도로 두기보다, 자연스럽게 모델이 상황에 따라 손쉽게 추론하는 쪽을 지향.
강화학습(RL) 대규모 도입
Anthropic은 앞으로 점점 더 많은 RL 기법을 모델 학습에 활용할 것이며, 이를 통해 모델이 “스스로 사고 과정을 점검”하고 품질 높은 답변을 도출하게 만들 것.
“테스트 시간(Test-Time) 컴퓨트” 혹은 “추론 시간 설계”에 대한 논의가 있지만, Anthropic은 “결국 대규모 RL 기반으로 모델 스스로 사고를 강화”하는 방식이 더 자연스럽다고 봄.
2017~2018년 이후 Scaling Laws 관찰
화자는 이미 2017년 무렵부터 “계산 자원을 계속 늘리면 모델 성능이 전방위로 향상된다”라는 스케일링 법칙을 믿어 왔음.
과거에는 일정 수준 불확실성이 있었으나, 최근 3~6개월 사이 그 불확실성이 크게 줄었고, 실제로 여러 지표에서 모델이 사람보다 뛰어난 단계가 가까워지고 있다고 진단.
“AI 발전이 생각보다 빠르다”
화자는 AI 발전이 극도로 빠르며, 향후 2~3년 내에 거의 모든 지식·특정 작업에서 인간보다 우월해질 모델이 나올 수 있다고 설명.
이에 대한 긍정적 효과와 부정적 리스크 모두가 컸기에, “AI 업계가 이를 제대로 인식하고 솔직히 소통해야 한다”고 강조.
노동시장 영향 (단기 vs 장기)
단기적 관점(1~3년 정도)
새로운 기술은 기존 일자리를 대체할 수 있지만, 반대로 “기술 활용 능력이 있는 인력”의 생산성을 크게 높여 ‘보완재(Complementary)’ 역할을 할 수도 있음.
Anthropic은 이전 기술혁신 사례처럼, “직무 일부를 AI가 대신하면, 사람이 더 창의적·고차원적 부분에 집중해 업무 효율을 높일 수 있다”는 ‘비교우위’ 관점을 강조.
다만 기업들이 AI를 어떻게 도입하느냐(대체 vs. 보완)에 따라 결과가 달라질 수 있으며, Anthropic은 “보완형 파트너십” 방향을 지지.
장기적 관점
화자는 “결국에는 AI가 인간보다 더 뛰어난 단계, 심지어 로봇과 결합해 물리 노동까지 대체하는 시점”이 올 것으로 예상(시점 불명, 다만 2027년 전후 가능성 언급).
그때는 “인간의 자존감, 가치, 경제 체계, 분배 방식” 등에 근본적인 재설계가 필요.
모든 인간에게 적용되는 상황이라면 “전(全) 인류가 같은 배를 탔다고 볼 수도 있지만, 만일 30%만 대체되고 70%는 그대로라면 큰 사회 갈등이 생길 것”이라고 우려.
YouTube
Inside Anthropic's Race to Build a Smarter Claude and Human-Level AI | WSJ
At WSJ Journal House Davos, Anthropic CEO Dario Amodei outlines Claude’s next chapter—from web browsing, voice to more advanced models—while predicting that AI could reach human-level intelligence within just a few years.
#AI #Tech #WSJ
#AI #Tech #WSJ
👍1
AI 쪽에서는 요즘 놀라울 정도로 DeepSeek에 대한 이야기 밖에 없다. (솔직히 나도 요즘 너무 많은 이야기를 하고 있긴 하지만, 지금만 그랬던 것은 아니고 늘 많이 했던 것이니 용서해주시기를.) 그리고 생각보다 많은 화제가 DeepSeek의 성과를 평가절하하려는 것과 관련이 있는 듯 하다. ChatGPT로 생성한 데이터를 사용한 것이다, 저작권이나 프라이버시와 관계 없이 데이터를 수집했기 때문에 가능했다, 중국 정부의 지원을 받았다, 실제로는 GPU를 더 많이 사용했다, 그리고 검열과 관련된 문제 등.
ChatGPT로 생성한 데이터를 사용했을 것 같지는 않다. 포스트트레이닝에 ChatGPT 생성 데이터를 쓰는 것은 너무나 흔한 일이지만 (사실 중국에 국한된 것은 아니고 미국에서도 많이 일어나는 일이다) DeepSeek이 그랬다는 증거는 없다. 특히 다른 중국 모델과는 달리 프리트레이닝에 Instruction 데이터를 쓰는 것에 조심스러웠던 편이라 더더욱. (포스트트레이닝에 대해 진정으로 관심이 있다면 다른 모델의 생성 데이터를 쓰지 않는 것이 맞는 방향이기도 하다.)
저작권이나 프라이버시와 관계 없이 데이터를 수집했을 것이라는 부분에서도 딱히 증거가 있을지는 모르겠다. 사용자 데이터는 사람들의 생각처럼 프리트레이닝에 큰 도움이 될 종류의 것은 아니고 저작권이 애매한 데이터의 사용은 가능하겠지만 미국 기업들도 이런 의혹에서는 자유롭지 않다. 최근 메타가 Library Genesis의 데이터를 사용했다는 의혹을 생각해보면. (이런 이야기는 GPT-3에 사용된 정체불명의 Book2 데이터에서부터 있었다.) 한 가지 있다면 중국의 폐쇄적인 웹에 대한 데이터에 용이하게 접근할 수 있었을 것이라는 것 정도일 듯. (DeepSeek V2 시점에 중국어 데이터가 영어 데이터보다 많았다는 언급을 한 것이 있다.)
중국 정부의 지원을 받는다는 것에서는 Alibaba와 Qwen 같은 기업들에 비해서 DeepSeek과 High Flyer는 지원을 받는다고 해도 후순위가 아닐까 싶다.
GPU를 더 많이 사용했다는 것은 당연히 맞을 것이다. 일단 이전에 공개된 것으로도 A100을 1만 개 규모로 갖고 있었고, Hopper 시리즈도 (Dylan Patel이 주장하는 것처럼 5만 개 규모일지는 모르겠지만) 아마 2천 개 규모보다는 많이 갖고 있을 듯 싶다. 그러나 DeepSeek V3 학습에 논문에서 주장하는 2천 개보다 많은 GPU를 사용했을 것이라는 증거는 없다. 그러나 많은 실험, 그리고 DeepSeek V3가 있기까지 지속해온 연구들을 생각하면 당연히 모델 구축에 투입된 총 연산력은 그보다는 많을 수밖에 없다.
검열에 대해서는 DeepSeek V2에서부터 "문화적인 차이"를 언급하고 있으므로 한계가 있을 수밖에 없지만, 기술적인 성과를 논함에 있어 그렇게 중요한 요인이라는 생각은 들지 않는다.
DeepSeek을 굳이 변호할 이유는 없지만 기술적 성취에 대해서는 정확하게 평가하는 쪽이 그러지 않는 것보다는 나을 것이다. 사실 DeepSeek에서 지금까지 나온 연구적 결과들을 알고 있는 사람들에게는 새삼스럽게 지금 놀라는 사람들의 반응이나 평가절하하고자 하는 동기들이 생경한 것일 것이다.
내 소감에 대해서 말하자면.
한국에서도 제대로 시도했다면 좋은 성과를 달성할 수 있었다는 증거인 것 같다는 생각을 한다. 물론 위에도 썼지만 최종 DeepSeek V3 모델 학습에 사용한 비용이 모델 구축 비용의 전부라는 것은 옳지 않다. 그러나 그 비용이 OpenAI, 구글, 메타, Anthropic 등에서 쓰는 비용보다는 훨씬 적을 것이라는 것도 아마 맞을 것이다.
그런 정도의 자원이 허락하는 안에서 필요한 작업들을 정확히 해낸다면 성과를 내지 못할 이유는 없다. 이것에 DeepSeek의 기술적 성과나 수준을 폄하하려는 의도는 없다. 그러나 나는 개인의 능력과 기술 이상으로 필요한 작업들을 구분하고 그것을 실행하는 것 자체에 더 중대함이 있다고 생각한다. 그 작업들을 정확하게 해내는 것에는 기술과 능력이 필요할 수 있지만 그중에도 성실함으로 채울 수 있는 충분히 부분이 있을 것이다.
사실 필요한 작업들을 판단하고 그것에 온당한 자원을 투입하는 것이 곧 가장 중요한 능력인 것일 수도 있다. 그런 의미에서 개인의 탁월함이란 주어진 작업에 대한
성과보다는 어떠한 작업을 선택하는가 하는 지점에 있는지도 모르겠다.
따라서 인력의 수준, 규모, 혹은 시간 등의 요인 이전에 지금까지 해온 선택과 판단 기준에 대해 숙고하는 것이 필요할 수도 있다. 좋은 판단 또는 무엇이 올바른 방법인지를 아는 것은 인력과 자원이 부족하더라도 갖출 수 있다. 이에 대해 답할 수 있어야 자원의 제약이 없는 상황에서도 좋은 선택을 할 수 있었으리라고 확신할 수 있다. 자원은 얼마든지 낭비할 수 있는 것이므로. 이 문제에 대해 인력의 규모나 시간 같은 양적인 측면들은 생각보다 차순위일지도 모른다.
김성현님
ChatGPT로 생성한 데이터를 사용했을 것 같지는 않다. 포스트트레이닝에 ChatGPT 생성 데이터를 쓰는 것은 너무나 흔한 일이지만 (사실 중국에 국한된 것은 아니고 미국에서도 많이 일어나는 일이다) DeepSeek이 그랬다는 증거는 없다. 특히 다른 중국 모델과는 달리 프리트레이닝에 Instruction 데이터를 쓰는 것에 조심스러웠던 편이라 더더욱. (포스트트레이닝에 대해 진정으로 관심이 있다면 다른 모델의 생성 데이터를 쓰지 않는 것이 맞는 방향이기도 하다.)
저작권이나 프라이버시와 관계 없이 데이터를 수집했을 것이라는 부분에서도 딱히 증거가 있을지는 모르겠다. 사용자 데이터는 사람들의 생각처럼 프리트레이닝에 큰 도움이 될 종류의 것은 아니고 저작권이 애매한 데이터의 사용은 가능하겠지만 미국 기업들도 이런 의혹에서는 자유롭지 않다. 최근 메타가 Library Genesis의 데이터를 사용했다는 의혹을 생각해보면. (이런 이야기는 GPT-3에 사용된 정체불명의 Book2 데이터에서부터 있었다.) 한 가지 있다면 중국의 폐쇄적인 웹에 대한 데이터에 용이하게 접근할 수 있었을 것이라는 것 정도일 듯. (DeepSeek V2 시점에 중국어 데이터가 영어 데이터보다 많았다는 언급을 한 것이 있다.)
중국 정부의 지원을 받는다는 것에서는 Alibaba와 Qwen 같은 기업들에 비해서 DeepSeek과 High Flyer는 지원을 받는다고 해도 후순위가 아닐까 싶다.
GPU를 더 많이 사용했다는 것은 당연히 맞을 것이다. 일단 이전에 공개된 것으로도 A100을 1만 개 규모로 갖고 있었고, Hopper 시리즈도 (Dylan Patel이 주장하는 것처럼 5만 개 규모일지는 모르겠지만) 아마 2천 개 규모보다는 많이 갖고 있을 듯 싶다. 그러나 DeepSeek V3 학습에 논문에서 주장하는 2천 개보다 많은 GPU를 사용했을 것이라는 증거는 없다. 그러나 많은 실험, 그리고 DeepSeek V3가 있기까지 지속해온 연구들을 생각하면 당연히 모델 구축에 투입된 총 연산력은 그보다는 많을 수밖에 없다.
검열에 대해서는 DeepSeek V2에서부터 "문화적인 차이"를 언급하고 있으므로 한계가 있을 수밖에 없지만, 기술적인 성과를 논함에 있어 그렇게 중요한 요인이라는 생각은 들지 않는다.
DeepSeek을 굳이 변호할 이유는 없지만 기술적 성취에 대해서는 정확하게 평가하는 쪽이 그러지 않는 것보다는 나을 것이다. 사실 DeepSeek에서 지금까지 나온 연구적 결과들을 알고 있는 사람들에게는 새삼스럽게 지금 놀라는 사람들의 반응이나 평가절하하고자 하는 동기들이 생경한 것일 것이다.
내 소감에 대해서 말하자면.
한국에서도 제대로 시도했다면 좋은 성과를 달성할 수 있었다는 증거인 것 같다는 생각을 한다. 물론 위에도 썼지만 최종 DeepSeek V3 모델 학습에 사용한 비용이 모델 구축 비용의 전부라는 것은 옳지 않다. 그러나 그 비용이 OpenAI, 구글, 메타, Anthropic 등에서 쓰는 비용보다는 훨씬 적을 것이라는 것도 아마 맞을 것이다.
그런 정도의 자원이 허락하는 안에서 필요한 작업들을 정확히 해낸다면 성과를 내지 못할 이유는 없다. 이것에 DeepSeek의 기술적 성과나 수준을 폄하하려는 의도는 없다. 그러나 나는 개인의 능력과 기술 이상으로 필요한 작업들을 구분하고 그것을 실행하는 것 자체에 더 중대함이 있다고 생각한다. 그 작업들을 정확하게 해내는 것에는 기술과 능력이 필요할 수 있지만 그중에도 성실함으로 채울 수 있는 충분히 부분이 있을 것이다.
사실 필요한 작업들을 판단하고 그것에 온당한 자원을 투입하는 것이 곧 가장 중요한 능력인 것일 수도 있다. 그런 의미에서 개인의 탁월함이란 주어진 작업에 대한
성과보다는 어떠한 작업을 선택하는가 하는 지점에 있는지도 모르겠다.
따라서 인력의 수준, 규모, 혹은 시간 등의 요인 이전에 지금까지 해온 선택과 판단 기준에 대해 숙고하는 것이 필요할 수도 있다. 좋은 판단 또는 무엇이 올바른 방법인지를 아는 것은 인력과 자원이 부족하더라도 갖출 수 있다. 이에 대해 답할 수 있어야 자원의 제약이 없는 상황에서도 좋은 선택을 할 수 있었으리라고 확신할 수 있다. 자원은 얼마든지 낭비할 수 있는 것이므로. 이 문제에 대해 인력의 규모나 시간 같은 양적인 측면들은 생각보다 차순위일지도 모른다.
김성현님
👍5❤2
Continuous Learning_Startup & Investment
DeepSeek에서 나온 테크니컬 리포트들에 대한 글은 이전에 쓴 적이 있었다. (https://rosinality.substack.com/p/deepseek-llm) 지금 DeepSeek-V3가 나온 시점에서 드는 생각이 있어 그걸 써볼까 한다. 좋은 LLM을 만들기 위해서는 무엇이 필요할까? 좋은 아키텍처와 학습 기법, 좋은 데이터, 좋은 인프라일 것이다. 좋은 아키텍처는 무엇일까? 일단 추론은 논외로 하면 같은 연산량에서 더 나은 성능에 도달하는 것이다.…
량원펑은 언론과의 인터뷰에서 "중국도 항상 무임승차자가 되기보다는 점차 기여자가 되어야 합니다."라고 말했습니다. "우리는 무어의 법칙이 하늘에서 떨어지는 것에 익숙하며, 18개월 후에는 더 나은 하드웨어와 소프트웨어가 나올 것입니다. 스케일링 법칙도 이런 식으로 취급되고 있습니다. 하지만 사실 이것은 서구 주도의 기술 커뮤니티가 여러 세대에 걸쳐 지칠 줄 모르고 만들어낸 결과입니다. 우리가 이 과정에 참여하지 않았기 때문에 그 존재를 무시한 것뿐입니다. 많은 국내 칩은 지원 기술 커뮤니티가 부족하고 간접 정보 만 있기 때문에 개발할 수 없습니다. 중국은 반드시 기술의 최전선에 서야 합니다."
주요 인력의 배경
대다수가 “청베이(清北 즉 청화대·베이징대)” 등 중국 명문대 출신에, 학부 졸업 직후나 박사 과정 연구 중에 합류한 경우가 많습니다.
석·박사 재학 중에 DeepSeek에서 인턴으로 활약하면서 주요 연구 성과(논문, 신규 알고리즘 등)를 낸 사례가 다수 소개됩니다. 예)
MLA(Multi-head Latent Attention) 제안자 중 한 명인 高华佐(가오화쭈어): 베이징대 물리학과.
曾旺丁(쩡왕딩): 북경우전대(北邮) 출신, “MLA” 주 연구자.
邵智宏(샤오즈훙): 칭화대 CoAI 연구그룹의 박사 과정, Microsoft Research 인턴 경험.
朱琪豪(주치하오): 베이징대 소프트웨어 연구소 박사 과정, 다수의 최고급 학술대회(ASE, ESEC/FSE) 수상 경력.
代达劢(다이다마이), 王炳宣(왕빙쉬안), 赵成钢(자오청강) 등도 각각 베이징대, 칭화대에서 컴퓨터나 수학·물리·정보학 등에 종사.
다양한 분야와 젊은 리더
팀 리더급도 박사 졸업 후 4~6년 차 수준인 젊은 구성원이 많습니다.
하드웨어, 시스템 인프라 최적화 쪽에도 엔비디아, 알리클라우드 등에서 경험을 쌓은 젊은 엔지니어들이 포진합니다.
예를 들어 후처리(후공정)나 모델 파인튜닝 팀을 이끄는 吴俣(우위) 같은 경우, 북항(北航) 박사 졸업 후 MSRA(마이크로소프트 아시아연구원)에서 연구했으며, DeepSeek 합류 이후 대형 모델 후속 훈련을 주도합니다.
실습·인턴의 적극적 기여
박사 과정 인턴들이 논문 발표, 알고리즘 개발에 핵심 기여를 하는 사례가 눈에 띄며, 일부 인턴은 짧은 기간 연구로도 중요한 기능을 만들어냅니다.
예) 孙景翔(순징샹)은 3D 생성 관련 연구를, 辛华剑(신화젠)은 수학 정리 증명(DeepSeek-Prover) 관련 일을 담당했다가 각각 해외 대학(예: 에든버러대)으로 유학을 가기도 함.
2. 팀이 어떻게 일하는가?
“이름만 있지 않은” 자율 분업
DeepSeek 창업자이자 대표인 梁文锋(량원펑)은 “경험보다는 실력을, 조직보다는 열정적 협업을 중시한다”는 인재 철학을 강조합니다.
인위적인 부서 구분을 최소화하며, 누가 어떤 연구를 하고 싶으면 필요한 GPU·컴퓨팅 자원을 자유롭게 요청·활용할 수 있습니다.
몇몇 사람이 모여서 아이디어가 떠오르면 승인 절차 없이 프로젝트를 시작하고, 잠재력이 보이면 회사 전체가 리소스를 몰아줄 수도 있다는 식의 상향식 혁신 구조를 취합니다.
대학생·박사과정·졸업 1~2년차 인력이 주축이 되고, 경력보다는 연구 역량이나 성취를 우선시하는 점.
주요 인력의 배경
대다수가 “청베이(清北 즉 청화대·베이징대)” 등 중국 명문대 출신에, 학부 졸업 직후나 박사 과정 연구 중에 합류한 경우가 많습니다.
석·박사 재학 중에 DeepSeek에서 인턴으로 활약하면서 주요 연구 성과(논문, 신규 알고리즘 등)를 낸 사례가 다수 소개됩니다. 예)
MLA(Multi-head Latent Attention) 제안자 중 한 명인 高华佐(가오화쭈어): 베이징대 물리학과.
曾旺丁(쩡왕딩): 북경우전대(北邮) 출신, “MLA” 주 연구자.
邵智宏(샤오즈훙): 칭화대 CoAI 연구그룹의 박사 과정, Microsoft Research 인턴 경험.
朱琪豪(주치하오): 베이징대 소프트웨어 연구소 박사 과정, 다수의 최고급 학술대회(ASE, ESEC/FSE) 수상 경력.
代达劢(다이다마이), 王炳宣(왕빙쉬안), 赵成钢(자오청강) 등도 각각 베이징대, 칭화대에서 컴퓨터나 수학·물리·정보학 등에 종사.
다양한 분야와 젊은 리더
팀 리더급도 박사 졸업 후 4~6년 차 수준인 젊은 구성원이 많습니다.
하드웨어, 시스템 인프라 최적화 쪽에도 엔비디아, 알리클라우드 등에서 경험을 쌓은 젊은 엔지니어들이 포진합니다.
예를 들어 후처리(후공정)나 모델 파인튜닝 팀을 이끄는 吴俣(우위) 같은 경우, 북항(北航) 박사 졸업 후 MSRA(마이크로소프트 아시아연구원)에서 연구했으며, DeepSeek 합류 이후 대형 모델 후속 훈련을 주도합니다.
실습·인턴의 적극적 기여
박사 과정 인턴들이 논문 발표, 알고리즘 개발에 핵심 기여를 하는 사례가 눈에 띄며, 일부 인턴은 짧은 기간 연구로도 중요한 기능을 만들어냅니다.
예) 孙景翔(순징샹)은 3D 생성 관련 연구를, 辛华剑(신화젠)은 수학 정리 증명(DeepSeek-Prover) 관련 일을 담당했다가 각각 해외 대학(예: 에든버러대)으로 유학을 가기도 함.
2. 팀이 어떻게 일하는가?
“이름만 있지 않은” 자율 분업
DeepSeek 창업자이자 대표인 梁文锋(량원펑)은 “경험보다는 실력을, 조직보다는 열정적 협업을 중시한다”는 인재 철학을 강조합니다.
인위적인 부서 구분을 최소화하며, 누가 어떤 연구를 하고 싶으면 필요한 GPU·컴퓨팅 자원을 자유롭게 요청·활용할 수 있습니다.
몇몇 사람이 모여서 아이디어가 떠오르면 승인 절차 없이 프로젝트를 시작하고, 잠재력이 보이면 회사 전체가 리소스를 몰아줄 수도 있다는 식의 상향식 혁신 구조를 취합니다.
대학생·박사과정·졸업 1~2년차 인력이 주축이 되고, 경력보다는 연구 역량이나 성취를 우선시하는 점.
👍1
엔비디아가 여전히 유리한 세 가지 요소가 있습니다. 첫째, 딥시크의 접근 방식이 H100 또는 곧 출시될 GB100에 적용될 경우 얼마나 성능이 좋을까요? 컴퓨팅을 더 효율적으로 사용하는 방법을 찾았다고 해서 더 많은 컴퓨팅이 유용하지 않다는 의미는 아닙니다. 둘째, 추론 비용이 낮아지면 장기적으로는 사용량이 늘어날 것입니다. 사티아 나델라 Microsoft CEO는 늦은 밤 트위터에서 시장을 겨냥한 듯한 트윗을 통해 정확히 이렇게 말했습니다:
셋째, R1 및 o1과 같은 추론 모델은 더 많은 컴퓨팅을 사용함으로써 우수한 성능을 이끌어냅니다. AI의 성능과 기능이 향상될수록 더 많은 컴퓨팅에 의존하게 되는 만큼, 엔비디아는 이득을 볼 수 있습니다!
하지만 모든 것이 장밋빛인 것은 아닙니다. 최소한 딥시크의 효율성과 광범위한 가용성은 적어도 단기적으로는 가장 낙관적인 엔비디아의 성장 스토리에 상당한 의구심을 불러일으킵니다. 모델 및 인프라 최적화를 통해 얻을 수 있는 이득은 특히 추론에 대한 대안적인 접근 방식을 탐색함으로써 얻을 수 있는 상당한 이득이 있음을 시사합니다. 예를 들어, AMD의 열등한 칩 간 통신 기능을 완전히 회피하여 독립형 AMD GPU에서 추론을 실행하는 것이 훨씬 더 그럴듯할 수 있습니다. 추론 모델은 또한 추론 전용 칩에 대한 보상을 늘려주는데, 이는 Nvidia의 GPU보다 훨씬 더 전문화되어 있습니다.
이제 미국은 선택을 해야 합니다. 우리는 매우 논리적인 이유로 칩 금지 조치를 대폭 확대하고 EU의 기술 접근 방식을 반영하는 칩 및 반도체 장비에 대한 허가 기반 규제 체제를 부과하는 등 방어 조치를 두 배로 강화할 수도 있고, 아니면 우리에게 진정한 경쟁이 있음을 깨닫고 실제로 경쟁할 수 있는 권한을 스스로 부여할 수도 있습니다.
셋째, R1 및 o1과 같은 추론 모델은 더 많은 컴퓨팅을 사용함으로써 우수한 성능을 이끌어냅니다. AI의 성능과 기능이 향상될수록 더 많은 컴퓨팅에 의존하게 되는 만큼, 엔비디아는 이득을 볼 수 있습니다!
하지만 모든 것이 장밋빛인 것은 아닙니다. 최소한 딥시크의 효율성과 광범위한 가용성은 적어도 단기적으로는 가장 낙관적인 엔비디아의 성장 스토리에 상당한 의구심을 불러일으킵니다. 모델 및 인프라 최적화를 통해 얻을 수 있는 이득은 특히 추론에 대한 대안적인 접근 방식을 탐색함으로써 얻을 수 있는 상당한 이득이 있음을 시사합니다. 예를 들어, AMD의 열등한 칩 간 통신 기능을 완전히 회피하여 독립형 AMD GPU에서 추론을 실행하는 것이 훨씬 더 그럴듯할 수 있습니다. 추론 모델은 또한 추론 전용 칩에 대한 보상을 늘려주는데, 이는 Nvidia의 GPU보다 훨씬 더 전문화되어 있습니다.
이제 미국은 선택을 해야 합니다. 우리는 매우 논리적인 이유로 칩 금지 조치를 대폭 확대하고 EU의 기술 접근 방식을 반영하는 칩 및 반도체 장비에 대한 허가 기반 규제 체제를 부과하는 등 방어 조치를 두 배로 강화할 수도 있고, 아니면 우리에게 진정한 경쟁이 있음을 깨닫고 실제로 경쟁할 수 있는 권한을 스스로 부여할 수도 있습니다.
❤1👍1
Forwarded from 전종현의 인사이트
(언제나 그렇듯) 팩트를 잘 다뤄놓은 벤 톰슨의 글. 더 많은 자료를 접한 현재, 나는 여전히 동일한 뷰를 유지한다.
하나만 덧붙이면, OpenAI의 진짜 강력함은 모델을 만드는 것을 넘어서 대규모로 컴퓨터를 다룰 수 있는 능력 그 자체에 있다고 생각한다.
https://stratechery.com/2025/deepseek-faq/
https://blog.naver.com/mynameisdj/223740494847 (한글 번역)
하나만 덧붙이면, OpenAI의 진짜 강력함은 모델을 만드는 것을 넘어서 대규모로 컴퓨터를 다룰 수 있는 능력 그 자체에 있다고 생각한다.
https://stratechery.com/2025/deepseek-faq/
https://blog.naver.com/mynameisdj/223740494847 (한글 번역)
Stratechery by Ben Thompson
DeepSeek FAQ
DeepSeek has completely upended people’s expectations for AI and competition with China. What is it, and why does it matter?
그 전에는 대부분의 중국 기업이 애플리케이션을 위해 현 세대의 라마 아키텍처를 직접 복사했습니다. 모델 구조에서 시작한 이유는 무엇인가요?
Liang Wenfeng: 애플리케이션을 만드는 것이 목표라면 빠른 제품 배포를 위해 라마 구조를 사용하는 것이 합리적입니다. 하지만 우리의 목표는 AGI이므로 제한된 리소스로 더 강력한 모델 기능을 구현하기 위해 새로운 모델 구조를 연구해야 합니다. 이는 더 큰 모델로 확장하기 위해 필요한 기본적인 연구 분야 중 하나입니다. 또한 모델 구조 외에도 데이터 구성과 모델을 보다 인간과 유사하게 만드는 등 다른 영역에서도 광범위한 연구를 수행했으며, 이는 모두 이번에 출시한 모델에 반영되었습니다. 또한, 학습 효율성과 추론 비용 측면에서 라마의 구조는 학습 효율성과 추론 비용에 있어 국제적인 프론티어 수준과 2세대 격차가 있는 것으로 평가되고 있습니다.
이러한 세대 차이는 주로 어디에서 발생하나요?
리앙 웬펑: 우선 훈련 효율성의 격차가 있습니다. 국제 최고 수준과 비교했을 때 중국의 최고 역량은 모델 구조와 훈련 역학에서 두 배의 격차가 있을 것으로 추정되는데, 이는 동일한 결과를 얻기 위해 두 배의 컴퓨팅 파워를 소비해야 한다는 의미입니다. 또한 데이터 효율성에서도 2배의 격차가 있을 수 있습니다. 즉, 동일한 결과를 얻기 위해 두 배의 학습 데이터와 컴퓨팅 파워를 소비해야 합니다. 이를 모두 합치면 컴퓨팅 성능이 4배 더 필요합니다. 우리가 하고자 하는 것은 이러한 격차를 계속 좁히는 것입니다.
대부분의 중국 기업들은 모델과 애플리케이션을 모두 갖추고 있습니다. 딥시크는 왜 연구와 탐색에만 집중하기로 결정했나요?
Liang Wenfeng: 지금 가장 중요한 것은 글로벌 혁신의 물결에 동참하는 것이라고 생각하기 때문입니다. 수년 동안 중국 기업들은 다른 기업들이 기술 혁신을 하는 데 익숙해졌고, 우리는 애플리케이션 수익화에 집중했지만 이는 피할 수 없는 흐름입니다. 이 물결 속에서 우리의 출발점은 단기간에 수익을 창출할 수 있는 기회를 활용하는 것이 아니라 기술적 한계에 도달하고 전체 생태계의 발전을 주도하는 것입니다.
인터넷과 모바일 인터넷 시대를 거치면서 대부분의 사람들은 미국이 기술 혁신에 뛰어나고 중국은 애플리케이션 제작에 뛰어나다는 믿음을 갖게 되었습니다.
리앙 웬펑: 우리는 경제가 발전함에 따라 중국이 무임승차하는 대신 점차 기여하는 국가가 되어야 한다고 믿습니다. 지난 30년 이상의 IT 물결 속에서 우리는 기본적으로 진정한 기술 혁신에 참여하지 않았습니다. 우리는 무어의 법칙이 하늘에서 떨어지고 더 나은 하드웨어와 소프트웨어가 등장할 때까지 18개월 동안 집에 누워 기다리는 데 익숙해져 있습니다. 스케일링 법칙이 그런 식으로 취급되고 있습니다.
하지만 사실 이것은 서구 주도의 여러 세대에 걸친 기술 커뮤니티의 끊임없는 노력을 통해 만들어진 법칙입니다. 단지 우리가 이 과정에 참여하지 않았다는 이유로 그 존재를 무시해 왔을 뿐입니다.
DeepSeek V2가 실리콘 밸리의 많은 사람들을 놀라게 한 이유는 무엇인가요?
Liang Wenfeng: 미국에서 매일 일어나는 수많은 혁신 중에서 이것은 매우 평범한 일입니다. 중국 기업이 혁신에 기여하는 기업으로 참여했기 때문에 놀랐던 것 같습니다. 결국 대부분의 중국 기업은 혁신이 아닌 추종에 익숙하기 때문입니다.
하지만 중국 상황에서 혁신을 선택하는 것은 매우 사치스러운 결정입니다. 대형 모델은 막대한 투자가 필요한 게임이며, 모든 기업이 상용화를 먼저 생각하지 않고 연구와 혁신에만 집중할 수 있는 자본을 가지고 있는 것은 아닙니다.
리앙 웬펑: 혁신 비용이 결코 낮지 않으며, 무분별한 차입에 대한 과거의 경향도 중국의 이전 상황과 관련이 있습니다. 하지만 지금은 중국의 경제 규모나 바이트댄스, 텐센트와 같은 거대 기업의 이익 등 글로벌 기준으로 볼 때 어느 것 하나 낮은 것이 없습니다. 우리에게 혁신에서 부족한 것은 자본이 아니라 효과적인 혁신을 위해 고밀도 인재를 조직하는 방법에 대한 자신감과 지식이 부족하다는 것입니다.
거대 기술 대기업을 포함한 중국 기업들이 빠른 상용화를 최우선 순위로 삼는 이유는 무엇인가요?
리앙 웬펑: 지난 30년 동안 우리는 혁신을 소홀히 한 채 수익 창출만을 강조해 왔습니다. 혁신은 전적으로 비즈니스 중심이 아니라 호기심과 창조에 대한 열망도 필요합니다. 우리는 오래된 습관의 제약을 받았을 뿐인데, 이는 특정 경제 국면과 관련이 있습니다.
하지만 귀사는 궁극적으로 공익 연구 기관이 아니라 비즈니스 조직인데, 혁신을 선택하고 그 혁신을 오픈소스화할 때 해자를 어디에 구축할까요? 5월에 공개한 MLA 아키텍처는 다른 사람들이 빠르게 모방하지 않을까요?
Liang Wenfeng: 파괴적인 기술 앞에서 클로즈드 소스로 만든 해자는 일시적입니다. OpenAI의 클로즈드 소스 접근 방식도 다른 사람들이 따라잡는 것을 막을 수는 없습니다. 그래서 우리는 팀원들이 이 과정을 통해 성장하고 노하우를 축적하며 혁신할 수 있는 조직과 문화를 형성하는 데 가치를 두고 있습니다. 이것이 우리의 해자입니다.
오픈 소스, 논문 발표는 사실 비용이 들지 않습니다. 기술 인재의 경우 다른 사람들이 자신의 혁신을 따르게 되면 큰 성취감을 느낄 수 있습니다. 사실 오픈소스는 상업적이라기보다는 문화적 행동에 가깝기 때문에 오픈소스에 기여하면 존경받을 수 있습니다. 또한 기업이 오픈소스에 참여하는 데에는 문화적 매력이 있습니다.
하지만 대형 모델의 경우 순수한 기술 리더십이 절대적인 우위를 점하는 경우는 드뭅니다. 어떤 더 큰 것에 베팅하고 계신가요?
리앙 웬펑: 우리가 보는 것은 중국 AI가 영원히 따라잡을 수 없다는 것입니다. 우리는 흔히 중국 AI와 미국 사이에 1~2년의 격차가 있다고 말하지만, 실제 격차는 독창성과 모방성의 차이입니다. 이것이 변하지 않는다면 중국은 항상 추종자에 불과할 것이므로 약간의 탐험은 피할 수 없습니다.
엔비디아의 리더십은 한 회사의 노력만이 아니라 서구 기술 커뮤니티와 업계 전체가 함께 노력한 결과입니다. 그들은 차세대 기술 트렌드를 파악하고 로드맵을 가지고 있습니다. 중국의 AI 개발에는 이러한 생태계가 필요합니다. 많은 국내 칩 개발 업체는 기술 커뮤니티가 부족하고 간접적인 정보만 가지고 있기 때문에 어려움을 겪고 있습니다. 중국은 필연적으로 기술 최전선에 서 있는 사람들이 필요합니다.
자금 조달 계획이 있나요? 하이플라이어가 IPO를 위해 딥시크를 분사할 계획이라는 언론 보도를 본 적이 있습니다. 실리콘밸리의 AI 스타트업은 결국 대기업에 종속될 수밖에 없잖아요.
리앙 웬펑: 단기적으로는 자금 조달 계획이 없습니다. 저희에게는 돈이 문제가 아니라 고급 칩의 출하 금지가 문제입니다.
파도: 많은 사람들이 AGI 개발과 양적 금융은 완전히 다른 노력이라고 생각합니다. 양적 금융은 조용히 추구할 수 있지만, AGI는 투자를 확대하기 위해 제휴를 맺는 등 눈에 띄고 대담한 접근이 필요할 수 있습니다.
Liang Wenfeng: 더 많은 투자가 더 많은 혁신을 가져오는 것은 아닙니다. 그렇지 않았다면 대기업이 이미 모든 혁신을 독점했을 것입니다.
운영 전문성이 부족해서 지금은 애플리케이션에 집중하지 않는 건 아닌가요?
리앙 웬펑: 현재 단계는 애플리케이션이 아닌 기술 혁신이 폭발적으로 성장하는 시기라고 생각합니다. 장기적으로는 업계에서 저희의 기술과 결과물을 직접 활용하는 생태계를 만들고 싶습니다. 우리는 기본 모델과 첨단 혁신에 집중하고, 다른 기업들은 딥시크의 기반을 바탕으로 B2B 및 B2C 비즈니스를 구축할 수 있도록 할 것입니다. 완전한 산업 가치 사슬을 구축할 수 있다면 우리가 직접 애플리케이션을 개발할 필요가 없습니다. 물론 필요하다면 애플리케이션을 개발할 수도 있지만, 연구와 기술 혁신이 항상 우리의 최우선 순위가 될 것입니다.
하지만 고객이 API를 선택할 때 대기업의 제품 대신 딥시크를 선택해야 하는 이유는 무엇인가요?
Liang Wenfeng: 미래의 세계는 전문화된 분업의 세계가 될 것입니다. 기본적인 대형 모델은 지속적인 혁신이 필요하며, 대기업은 역량에 한계가 있기 때문에 반드시 최선이 아닐 수도 있습니다.
Liang Wenfeng: 애플리케이션을 만드는 것이 목표라면 빠른 제품 배포를 위해 라마 구조를 사용하는 것이 합리적입니다. 하지만 우리의 목표는 AGI이므로 제한된 리소스로 더 강력한 모델 기능을 구현하기 위해 새로운 모델 구조를 연구해야 합니다. 이는 더 큰 모델로 확장하기 위해 필요한 기본적인 연구 분야 중 하나입니다. 또한 모델 구조 외에도 데이터 구성과 모델을 보다 인간과 유사하게 만드는 등 다른 영역에서도 광범위한 연구를 수행했으며, 이는 모두 이번에 출시한 모델에 반영되었습니다. 또한, 학습 효율성과 추론 비용 측면에서 라마의 구조는 학습 효율성과 추론 비용에 있어 국제적인 프론티어 수준과 2세대 격차가 있는 것으로 평가되고 있습니다.
이러한 세대 차이는 주로 어디에서 발생하나요?
리앙 웬펑: 우선 훈련 효율성의 격차가 있습니다. 국제 최고 수준과 비교했을 때 중국의 최고 역량은 모델 구조와 훈련 역학에서 두 배의 격차가 있을 것으로 추정되는데, 이는 동일한 결과를 얻기 위해 두 배의 컴퓨팅 파워를 소비해야 한다는 의미입니다. 또한 데이터 효율성에서도 2배의 격차가 있을 수 있습니다. 즉, 동일한 결과를 얻기 위해 두 배의 학습 데이터와 컴퓨팅 파워를 소비해야 합니다. 이를 모두 합치면 컴퓨팅 성능이 4배 더 필요합니다. 우리가 하고자 하는 것은 이러한 격차를 계속 좁히는 것입니다.
대부분의 중국 기업들은 모델과 애플리케이션을 모두 갖추고 있습니다. 딥시크는 왜 연구와 탐색에만 집중하기로 결정했나요?
Liang Wenfeng: 지금 가장 중요한 것은 글로벌 혁신의 물결에 동참하는 것이라고 생각하기 때문입니다. 수년 동안 중국 기업들은 다른 기업들이 기술 혁신을 하는 데 익숙해졌고, 우리는 애플리케이션 수익화에 집중했지만 이는 피할 수 없는 흐름입니다. 이 물결 속에서 우리의 출발점은 단기간에 수익을 창출할 수 있는 기회를 활용하는 것이 아니라 기술적 한계에 도달하고 전체 생태계의 발전을 주도하는 것입니다.
인터넷과 모바일 인터넷 시대를 거치면서 대부분의 사람들은 미국이 기술 혁신에 뛰어나고 중국은 애플리케이션 제작에 뛰어나다는 믿음을 갖게 되었습니다.
리앙 웬펑: 우리는 경제가 발전함에 따라 중국이 무임승차하는 대신 점차 기여하는 국가가 되어야 한다고 믿습니다. 지난 30년 이상의 IT 물결 속에서 우리는 기본적으로 진정한 기술 혁신에 참여하지 않았습니다. 우리는 무어의 법칙이 하늘에서 떨어지고 더 나은 하드웨어와 소프트웨어가 등장할 때까지 18개월 동안 집에 누워 기다리는 데 익숙해져 있습니다. 스케일링 법칙이 그런 식으로 취급되고 있습니다.
하지만 사실 이것은 서구 주도의 여러 세대에 걸친 기술 커뮤니티의 끊임없는 노력을 통해 만들어진 법칙입니다. 단지 우리가 이 과정에 참여하지 않았다는 이유로 그 존재를 무시해 왔을 뿐입니다.
DeepSeek V2가 실리콘 밸리의 많은 사람들을 놀라게 한 이유는 무엇인가요?
Liang Wenfeng: 미국에서 매일 일어나는 수많은 혁신 중에서 이것은 매우 평범한 일입니다. 중국 기업이 혁신에 기여하는 기업으로 참여했기 때문에 놀랐던 것 같습니다. 결국 대부분의 중국 기업은 혁신이 아닌 추종에 익숙하기 때문입니다.
하지만 중국 상황에서 혁신을 선택하는 것은 매우 사치스러운 결정입니다. 대형 모델은 막대한 투자가 필요한 게임이며, 모든 기업이 상용화를 먼저 생각하지 않고 연구와 혁신에만 집중할 수 있는 자본을 가지고 있는 것은 아닙니다.
리앙 웬펑: 혁신 비용이 결코 낮지 않으며, 무분별한 차입에 대한 과거의 경향도 중국의 이전 상황과 관련이 있습니다. 하지만 지금은 중국의 경제 규모나 바이트댄스, 텐센트와 같은 거대 기업의 이익 등 글로벌 기준으로 볼 때 어느 것 하나 낮은 것이 없습니다. 우리에게 혁신에서 부족한 것은 자본이 아니라 효과적인 혁신을 위해 고밀도 인재를 조직하는 방법에 대한 자신감과 지식이 부족하다는 것입니다.
거대 기술 대기업을 포함한 중국 기업들이 빠른 상용화를 최우선 순위로 삼는 이유는 무엇인가요?
리앙 웬펑: 지난 30년 동안 우리는 혁신을 소홀히 한 채 수익 창출만을 강조해 왔습니다. 혁신은 전적으로 비즈니스 중심이 아니라 호기심과 창조에 대한 열망도 필요합니다. 우리는 오래된 습관의 제약을 받았을 뿐인데, 이는 특정 경제 국면과 관련이 있습니다.
하지만 귀사는 궁극적으로 공익 연구 기관이 아니라 비즈니스 조직인데, 혁신을 선택하고 그 혁신을 오픈소스화할 때 해자를 어디에 구축할까요? 5월에 공개한 MLA 아키텍처는 다른 사람들이 빠르게 모방하지 않을까요?
Liang Wenfeng: 파괴적인 기술 앞에서 클로즈드 소스로 만든 해자는 일시적입니다. OpenAI의 클로즈드 소스 접근 방식도 다른 사람들이 따라잡는 것을 막을 수는 없습니다. 그래서 우리는 팀원들이 이 과정을 통해 성장하고 노하우를 축적하며 혁신할 수 있는 조직과 문화를 형성하는 데 가치를 두고 있습니다. 이것이 우리의 해자입니다.
오픈 소스, 논문 발표는 사실 비용이 들지 않습니다. 기술 인재의 경우 다른 사람들이 자신의 혁신을 따르게 되면 큰 성취감을 느낄 수 있습니다. 사실 오픈소스는 상업적이라기보다는 문화적 행동에 가깝기 때문에 오픈소스에 기여하면 존경받을 수 있습니다. 또한 기업이 오픈소스에 참여하는 데에는 문화적 매력이 있습니다.
하지만 대형 모델의 경우 순수한 기술 리더십이 절대적인 우위를 점하는 경우는 드뭅니다. 어떤 더 큰 것에 베팅하고 계신가요?
리앙 웬펑: 우리가 보는 것은 중국 AI가 영원히 따라잡을 수 없다는 것입니다. 우리는 흔히 중국 AI와 미국 사이에 1~2년의 격차가 있다고 말하지만, 실제 격차는 독창성과 모방성의 차이입니다. 이것이 변하지 않는다면 중국은 항상 추종자에 불과할 것이므로 약간의 탐험은 피할 수 없습니다.
엔비디아의 리더십은 한 회사의 노력만이 아니라 서구 기술 커뮤니티와 업계 전체가 함께 노력한 결과입니다. 그들은 차세대 기술 트렌드를 파악하고 로드맵을 가지고 있습니다. 중국의 AI 개발에는 이러한 생태계가 필요합니다. 많은 국내 칩 개발 업체는 기술 커뮤니티가 부족하고 간접적인 정보만 가지고 있기 때문에 어려움을 겪고 있습니다. 중국은 필연적으로 기술 최전선에 서 있는 사람들이 필요합니다.
자금 조달 계획이 있나요? 하이플라이어가 IPO를 위해 딥시크를 분사할 계획이라는 언론 보도를 본 적이 있습니다. 실리콘밸리의 AI 스타트업은 결국 대기업에 종속될 수밖에 없잖아요.
리앙 웬펑: 단기적으로는 자금 조달 계획이 없습니다. 저희에게는 돈이 문제가 아니라 고급 칩의 출하 금지가 문제입니다.
파도: 많은 사람들이 AGI 개발과 양적 금융은 완전히 다른 노력이라고 생각합니다. 양적 금융은 조용히 추구할 수 있지만, AGI는 투자를 확대하기 위해 제휴를 맺는 등 눈에 띄고 대담한 접근이 필요할 수 있습니다.
Liang Wenfeng: 더 많은 투자가 더 많은 혁신을 가져오는 것은 아닙니다. 그렇지 않았다면 대기업이 이미 모든 혁신을 독점했을 것입니다.
운영 전문성이 부족해서 지금은 애플리케이션에 집중하지 않는 건 아닌가요?
리앙 웬펑: 현재 단계는 애플리케이션이 아닌 기술 혁신이 폭발적으로 성장하는 시기라고 생각합니다. 장기적으로는 업계에서 저희의 기술과 결과물을 직접 활용하는 생태계를 만들고 싶습니다. 우리는 기본 모델과 첨단 혁신에 집중하고, 다른 기업들은 딥시크의 기반을 바탕으로 B2B 및 B2C 비즈니스를 구축할 수 있도록 할 것입니다. 완전한 산업 가치 사슬을 구축할 수 있다면 우리가 직접 애플리케이션을 개발할 필요가 없습니다. 물론 필요하다면 애플리케이션을 개발할 수도 있지만, 연구와 기술 혁신이 항상 우리의 최우선 순위가 될 것입니다.
하지만 고객이 API를 선택할 때 대기업의 제품 대신 딥시크를 선택해야 하는 이유는 무엇인가요?
Liang Wenfeng: 미래의 세계는 전문화된 분업의 세계가 될 것입니다. 기본적인 대형 모델은 지속적인 혁신이 필요하며, 대기업은 역량에 한계가 있기 때문에 반드시 최선이 아닐 수도 있습니다.
하지만 기술 자체가 정말 큰 격차를 만들 수 있을까요? 또한 절대적인 기술 비밀은 없다고 말씀하셨잖아요.
Liang Wenfeng: 기술에는 비밀이 없지만 복제를 위해서는 시간과 비용이 필요합니다. 이론적으로 엔비디아의 그래픽 카드는 기술적 비밀이 없고 복제하기 쉽습니다. 하지만 처음부터 팀을 구성하고 차세대 기술을 따라잡는 데는 시간이 걸리기 때문에 실제 해자는 상당히 넓습니다.
다른 6개 대형 스타트업의 최종 게임은 어떻게 될 것으로 보시나요?
리앙 웬펑: 두세 개는 살아남을 수 있습니다. 지금은 모두 '돈 버는' 단계에 있기 때문에 자기 포지셔닝이 명확하고 운영을 더 잘 다듬는 회사가 살아남을 가능성이 높습니다. 다른 회사들은 상당한 변화를 겪을 수도 있습니다. 가치 있는 것들이 단순히 사라지는 것이 아니라 다른 형태를 띠게 될 것입니다.
하이플라이어의 경쟁에 대한 접근 방식은 수평적 경쟁에 거의 관심을 기울이지 않기 때문에 '불투명'하다고 묘사되어 왔습니다. 경쟁에 대해 생각할 때 어떤 출발점이 있나요?
리앙 웬펑: 제가 자주 생각하는 것은 어떤 것이 사회 운영의 효율성을 향상시킬 수 있는지, 그리고 산업 체인 내에서 강점을 찾을 수 있는지 여부입니다. 궁극적인 목표가 사회를 더 효율적으로 만드는 것이라면 그 목표는 유효합니다. 그 사이의 많은 것들은 일시적인 단계에 불과하며, 그것에 지나치게 집중하면 혼란을 초래할 수 있습니다.
OpenAI의 전 정책 책임자이자 Anthropic의 공동 창립자인 잭 클라크는 DeepSeek가 "이해할 수 없는 마법사"들을 고용했다고 말했습니다. 딥서치 V2에는 어떤 사람들이 참여했나요?
리앙 웬펑: 마법사는 없습니다. 저희는 대부분 일류 대학을 갓 졸업한 신입생, 4~5년차 박사 과정 학생, 몇 년 전에 졸업한 젊은이들로 구성되어 있습니다.
많은 LLM 회사가 해외 인재 채용에 집착하고 있으며, 이 분야의 상위 50위권 인재는 중국 기업에서 일하지 않을 수도 있다는 얘기도 종종 들리죠. 팀원들의 출신 국가는 어디인가요?
Liang Wenfeng: V2 모델의 팀원 중에는 해외에서 중국으로 돌아온 사람은 없으며 모두 현지인입니다. 상위 50명의 전문가가 중국에 없을 수도 있지만, 그런 인재는 우리가 직접 양성할 수도 있습니다.
이 MLA 혁신은 어떻게 시작되었나요? 한 젊은 연구원의 개인적인 관심에서 아이디어가 시작되었다고 들었는데요?
리앙 웬펑: 그는 주의 집중 메커니즘의 주류 진화 추세를 요약한 후 대안을 설계해보고 싶다는 생각을 했습니다. 하지만 아이디어를 현실화하는 데는 오랜 시간이 걸렸습니다. 이를 위해 특별히 팀을 구성하고 몇 달에 걸쳐 작업을 진행했습니다. [조던: 알렉 래드포드의 GPT 시리즈 초기 기고가 떠오르며, 과거 차이나톡에서 알고리즘 혁신은 반도체 제조와 같은 기술 분야를 개척하는 것과는 근본적으로 다르다고 주장했던 논지를 떠올리게 합니다. 박사 학위와 수년간의 업계 경험이 있어야만 유용한 것이 아니라, 정말 예리하고 굶주린 20대(중국에는 많은 20대가 있습니다!)가 되면 그 경계를 넓힐 수 있습니다. OpenAI의 숄토 더글라스와 Anthropic의 트렌튼 브리켄이 진행한 드와르케시와의 인터뷰는 이러한 역동성을 잘 보여줍니다. "외교학 논문을 쓴 노암 브라운은 숄토에 대해 이렇게 말했습니다: "그는 이 분야에 종사한 지 1.5년밖에 되지 않았지만, AI 업계 사람들은 그가 제미니의 성공에 가장 중요한 인물 중 한 명이라는 것을 알고 있습니다."]로 시작하는 드와르케시.
이러한 다양한 사고의 출현은 혁신 중심의 조직 구조와 밀접한 관련이 있는 것으로 보입니다. 하이플라이어 시대에는 팀에서 목표나 과제를 위에서 아래로 할당하는 경우가 거의 없었습니다. 하지만 AGI는 불확실성이 큰 개척지 탐험을 포함하는데, 이로 인해 경영진의 개입이 더 많아졌나요?
Liang Wenfeng: DeepSeek는 여전히 전적으로 상향식입니다. 우리는 일반적으로 역할을 미리 정의하지 않고 자연스럽게 분업이 이루어집니다. 모두가 각자의 고유한 여정을 가지고 있고 아이디어를 가져오기 때문에 누구를 밀어붙일 필요가 없습니다. 탐구하는 동안 누군가가 문제를 발견하면 자연스럽게 다른 사람과 논의하게 됩니다. 하지만 어떤 아이디어가 잠재력을 보이면 하향식으로 리소스를 할당합니다.
DeepSeek는 GPU와 인력과 같은 리소스를 매우 유연하게 동원한다고 들었습니다.
Liang Wenfeng: 팀원 누구나 언제든지 GPU나 인력을 이용할 수 있습니다. 아이디어가 있는 사람은 승인 없이도 언제든지 트레이닝 클러스터 카드에 액세스할 수 있습니다. 마찬가지로, 계층 구조나 별도의 부서가 없기 때문에 서로 관심만 있다면 팀원들 간에 협업할 수 있습니다.
이러한 느슨한 경영 스타일은 자기 주도성이 높은 인재를 확보하는 데 의존합니다. 기존과는 다른 평가 기준을 통해 뛰어난 인재를 발굴하는 데 탁월하다고 들었습니다.
Liang Wenfeng: 저희의 채용 기준은 항상 열정과 호기심입니다. 우리 팀원 중 상당수가 특이한 경험을 가지고 있고, 이는 매우 흥미롭습니다. 그들은 종종 돈을 벌기 전에 연구를 하고자 하는 열망을 가지고 있습니다.
트랜스포머는 구글의 AI 랩에서, ChatGPT는 OpenAI에서 탄생했습니다. 대기업의 AI 연구소와 스타트업의 혁신의 가치를 어떻게 비교하시나요?
Liang Wenfeng: Google의 AI Lab, OpenAI, 심지어 중국 기술 기업의 AI 연구소는 모두 엄청난 가치를 지니고 있습니다. OpenAI가 성공할 수 있었던 것은 부분적으로는 몇 가지 역사적 우연이 있었기 때문입니다.
그렇다면 혁신은 주로 운의 문제인가요? 사무실의 회의실 가운데 줄에 양쪽에 누구나 열 수 있는 문이 있는 것을 보았습니다. 동료들은 이 디자인이 우연의 여지를 남겨둔다고 말하더군요. 트랜스포머의 탄생에는 누군가가 토론을 우연히 듣고 참여하여 궁극적으로 일반적인 프레임워크로 전환하는 과정이 포함되었습니다.
리앙 웬펑: 혁신은 믿음에서 시작된다고 생각합니다. 실리콘밸리가 혁신적인 이유는 무엇일까요? 과감하게 도전하기 때문이죠. ChatGPT가 나왔을 때 중국의 기술 커뮤니티는 프론티어 혁신에 대한 자신감이 부족했습니다. 투자자부터 대기업까지 모두 격차가 너무 크다고 생각하고 애플리케이션에 집중하기로 했습니다. 하지만 혁신은 자신감에서 시작되며, 우리는 종종 젊은이들에게서 더 많이 볼 수 있습니다.
하지만 펀드레이징이나 대중과의 소통을 하지 않으셔서 적극적으로 펀드레이징을 하는 회사들에 비해 인지도가 낮은 것 같네요. 어떻게 하면 딥시크가 LLM 관련 종사자들에게 최고의 선택으로 남을 수 있을까요?
Liang Wenfeng: 가장 어려운 문제를 해결하고 있기 때문입니다. 최고의 인재들은 세계에서 가장 어려운 문제를 해결하는 데 가장 큰 매력을 느낍니다. 사실 중국의 최고 인재들은 사회적으로 하드코어한 혁신이 거의 이루어지지 않아 인정받지 못하기 때문에 과소평가되고 있습니다. 우리는 가장 어려운 문제를 해결하고 있으며, 이는 본질적으로 그들에게 매력적입니다.
대형 모델의 최종 목표는 무엇이라고 생각하시나요?
리앙 웬펑: 공급망의 모든 노드에서 광범위한 전문화를 달성하는 기반 모델과 서비스를 제공하는 전문 기업이 등장할 것입니다. 더 많은 사람들이 이 모든 것을 기반으로 사회의 다양한 요구를 충족시킬 것입니다.
다른 대형 모델 스타트업들은 [기술과 상용화]를 모두 추구한다고 주장하지만, 결국 기술 우위를 제품으로 전환할 수 있는 기회의 창을 활용하는 것도 중요하기 때문에 기술이 영구적인 리더십을 가져다주지는 않을 것입니다. 딥시크의 모델 역량이 아직 충분하지 않기 때문에 과감하게 모델 연구에 집중하는 건가요?
리앙 웬펑: 이러한 비즈니스 패턴은 모두 이전 세대의 산물이며 미래에는 통하지 않을 수도 있습니다. 인터넷 비즈니스 논리를 사용하여 미래의 AI 수익 모델을 논의하는 것은 마치 포니 마가 사업을 시작할 때 제너럴 일렉트릭과 코카콜라에 대해 논의하는 것과 같습니다. 무의미한 논의(刻舟求剑)입니다.
과거 하이플라이어 퀀트 펀드는 기술과 혁신에 탄탄한 기반을 가지고 있었고 성장도 비교적 순조로웠습니다. 이것이 낙관적인 이유인가요?
Liang Wenfeng: 기술에는 비밀이 없지만 복제를 위해서는 시간과 비용이 필요합니다. 이론적으로 엔비디아의 그래픽 카드는 기술적 비밀이 없고 복제하기 쉽습니다. 하지만 처음부터 팀을 구성하고 차세대 기술을 따라잡는 데는 시간이 걸리기 때문에 실제 해자는 상당히 넓습니다.
다른 6개 대형 스타트업의 최종 게임은 어떻게 될 것으로 보시나요?
리앙 웬펑: 두세 개는 살아남을 수 있습니다. 지금은 모두 '돈 버는' 단계에 있기 때문에 자기 포지셔닝이 명확하고 운영을 더 잘 다듬는 회사가 살아남을 가능성이 높습니다. 다른 회사들은 상당한 변화를 겪을 수도 있습니다. 가치 있는 것들이 단순히 사라지는 것이 아니라 다른 형태를 띠게 될 것입니다.
하이플라이어의 경쟁에 대한 접근 방식은 수평적 경쟁에 거의 관심을 기울이지 않기 때문에 '불투명'하다고 묘사되어 왔습니다. 경쟁에 대해 생각할 때 어떤 출발점이 있나요?
리앙 웬펑: 제가 자주 생각하는 것은 어떤 것이 사회 운영의 효율성을 향상시킬 수 있는지, 그리고 산업 체인 내에서 강점을 찾을 수 있는지 여부입니다. 궁극적인 목표가 사회를 더 효율적으로 만드는 것이라면 그 목표는 유효합니다. 그 사이의 많은 것들은 일시적인 단계에 불과하며, 그것에 지나치게 집중하면 혼란을 초래할 수 있습니다.
OpenAI의 전 정책 책임자이자 Anthropic의 공동 창립자인 잭 클라크는 DeepSeek가 "이해할 수 없는 마법사"들을 고용했다고 말했습니다. 딥서치 V2에는 어떤 사람들이 참여했나요?
리앙 웬펑: 마법사는 없습니다. 저희는 대부분 일류 대학을 갓 졸업한 신입생, 4~5년차 박사 과정 학생, 몇 년 전에 졸업한 젊은이들로 구성되어 있습니다.
많은 LLM 회사가 해외 인재 채용에 집착하고 있으며, 이 분야의 상위 50위권 인재는 중국 기업에서 일하지 않을 수도 있다는 얘기도 종종 들리죠. 팀원들의 출신 국가는 어디인가요?
Liang Wenfeng: V2 모델의 팀원 중에는 해외에서 중국으로 돌아온 사람은 없으며 모두 현지인입니다. 상위 50명의 전문가가 중국에 없을 수도 있지만, 그런 인재는 우리가 직접 양성할 수도 있습니다.
이 MLA 혁신은 어떻게 시작되었나요? 한 젊은 연구원의 개인적인 관심에서 아이디어가 시작되었다고 들었는데요?
리앙 웬펑: 그는 주의 집중 메커니즘의 주류 진화 추세를 요약한 후 대안을 설계해보고 싶다는 생각을 했습니다. 하지만 아이디어를 현실화하는 데는 오랜 시간이 걸렸습니다. 이를 위해 특별히 팀을 구성하고 몇 달에 걸쳐 작업을 진행했습니다. [조던: 알렉 래드포드의 GPT 시리즈 초기 기고가 떠오르며, 과거 차이나톡에서 알고리즘 혁신은 반도체 제조와 같은 기술 분야를 개척하는 것과는 근본적으로 다르다고 주장했던 논지를 떠올리게 합니다. 박사 학위와 수년간의 업계 경험이 있어야만 유용한 것이 아니라, 정말 예리하고 굶주린 20대(중국에는 많은 20대가 있습니다!)가 되면 그 경계를 넓힐 수 있습니다. OpenAI의 숄토 더글라스와 Anthropic의 트렌튼 브리켄이 진행한 드와르케시와의 인터뷰는 이러한 역동성을 잘 보여줍니다. "외교학 논문을 쓴 노암 브라운은 숄토에 대해 이렇게 말했습니다: "그는 이 분야에 종사한 지 1.5년밖에 되지 않았지만, AI 업계 사람들은 그가 제미니의 성공에 가장 중요한 인물 중 한 명이라는 것을 알고 있습니다."]로 시작하는 드와르케시.
이러한 다양한 사고의 출현은 혁신 중심의 조직 구조와 밀접한 관련이 있는 것으로 보입니다. 하이플라이어 시대에는 팀에서 목표나 과제를 위에서 아래로 할당하는 경우가 거의 없었습니다. 하지만 AGI는 불확실성이 큰 개척지 탐험을 포함하는데, 이로 인해 경영진의 개입이 더 많아졌나요?
Liang Wenfeng: DeepSeek는 여전히 전적으로 상향식입니다. 우리는 일반적으로 역할을 미리 정의하지 않고 자연스럽게 분업이 이루어집니다. 모두가 각자의 고유한 여정을 가지고 있고 아이디어를 가져오기 때문에 누구를 밀어붙일 필요가 없습니다. 탐구하는 동안 누군가가 문제를 발견하면 자연스럽게 다른 사람과 논의하게 됩니다. 하지만 어떤 아이디어가 잠재력을 보이면 하향식으로 리소스를 할당합니다.
DeepSeek는 GPU와 인력과 같은 리소스를 매우 유연하게 동원한다고 들었습니다.
Liang Wenfeng: 팀원 누구나 언제든지 GPU나 인력을 이용할 수 있습니다. 아이디어가 있는 사람은 승인 없이도 언제든지 트레이닝 클러스터 카드에 액세스할 수 있습니다. 마찬가지로, 계층 구조나 별도의 부서가 없기 때문에 서로 관심만 있다면 팀원들 간에 협업할 수 있습니다.
이러한 느슨한 경영 스타일은 자기 주도성이 높은 인재를 확보하는 데 의존합니다. 기존과는 다른 평가 기준을 통해 뛰어난 인재를 발굴하는 데 탁월하다고 들었습니다.
Liang Wenfeng: 저희의 채용 기준은 항상 열정과 호기심입니다. 우리 팀원 중 상당수가 특이한 경험을 가지고 있고, 이는 매우 흥미롭습니다. 그들은 종종 돈을 벌기 전에 연구를 하고자 하는 열망을 가지고 있습니다.
트랜스포머는 구글의 AI 랩에서, ChatGPT는 OpenAI에서 탄생했습니다. 대기업의 AI 연구소와 스타트업의 혁신의 가치를 어떻게 비교하시나요?
Liang Wenfeng: Google의 AI Lab, OpenAI, 심지어 중국 기술 기업의 AI 연구소는 모두 엄청난 가치를 지니고 있습니다. OpenAI가 성공할 수 있었던 것은 부분적으로는 몇 가지 역사적 우연이 있었기 때문입니다.
그렇다면 혁신은 주로 운의 문제인가요? 사무실의 회의실 가운데 줄에 양쪽에 누구나 열 수 있는 문이 있는 것을 보았습니다. 동료들은 이 디자인이 우연의 여지를 남겨둔다고 말하더군요. 트랜스포머의 탄생에는 누군가가 토론을 우연히 듣고 참여하여 궁극적으로 일반적인 프레임워크로 전환하는 과정이 포함되었습니다.
리앙 웬펑: 혁신은 믿음에서 시작된다고 생각합니다. 실리콘밸리가 혁신적인 이유는 무엇일까요? 과감하게 도전하기 때문이죠. ChatGPT가 나왔을 때 중국의 기술 커뮤니티는 프론티어 혁신에 대한 자신감이 부족했습니다. 투자자부터 대기업까지 모두 격차가 너무 크다고 생각하고 애플리케이션에 집중하기로 했습니다. 하지만 혁신은 자신감에서 시작되며, 우리는 종종 젊은이들에게서 더 많이 볼 수 있습니다.
하지만 펀드레이징이나 대중과의 소통을 하지 않으셔서 적극적으로 펀드레이징을 하는 회사들에 비해 인지도가 낮은 것 같네요. 어떻게 하면 딥시크가 LLM 관련 종사자들에게 최고의 선택으로 남을 수 있을까요?
Liang Wenfeng: 가장 어려운 문제를 해결하고 있기 때문입니다. 최고의 인재들은 세계에서 가장 어려운 문제를 해결하는 데 가장 큰 매력을 느낍니다. 사실 중국의 최고 인재들은 사회적으로 하드코어한 혁신이 거의 이루어지지 않아 인정받지 못하기 때문에 과소평가되고 있습니다. 우리는 가장 어려운 문제를 해결하고 있으며, 이는 본질적으로 그들에게 매력적입니다.
대형 모델의 최종 목표는 무엇이라고 생각하시나요?
리앙 웬펑: 공급망의 모든 노드에서 광범위한 전문화를 달성하는 기반 모델과 서비스를 제공하는 전문 기업이 등장할 것입니다. 더 많은 사람들이 이 모든 것을 기반으로 사회의 다양한 요구를 충족시킬 것입니다.
다른 대형 모델 스타트업들은 [기술과 상용화]를 모두 추구한다고 주장하지만, 결국 기술 우위를 제품으로 전환할 수 있는 기회의 창을 활용하는 것도 중요하기 때문에 기술이 영구적인 리더십을 가져다주지는 않을 것입니다. 딥시크의 모델 역량이 아직 충분하지 않기 때문에 과감하게 모델 연구에 집중하는 건가요?
리앙 웬펑: 이러한 비즈니스 패턴은 모두 이전 세대의 산물이며 미래에는 통하지 않을 수도 있습니다. 인터넷 비즈니스 논리를 사용하여 미래의 AI 수익 모델을 논의하는 것은 마치 포니 마가 사업을 시작할 때 제너럴 일렉트릭과 코카콜라에 대해 논의하는 것과 같습니다. 무의미한 논의(刻舟求剑)입니다.
과거 하이플라이어 퀀트 펀드는 기술과 혁신에 탄탄한 기반을 가지고 있었고 성장도 비교적 순조로웠습니다. 이것이 낙관적인 이유인가요?
👍1
리앙 웬펑: 하이플라이어를 통해 기술 중심의 혁신에 대한 자신감이 강화된 측면도 있지만, 순탄한 항해만 있었던 것은 아닙니다. 우리는 오랜 축적 과정을 거쳤습니다. 외부에서 보는 하이플라이어의 모습은 2015년 이후의 모습이지만, 사실 저희는 16년 동안 하이플라이어를 운영해 왔습니다.
다시 혁신이라는 주제로 돌아와서. 이제 경제가 쇠퇴하기 시작하고 자본이 더 이상 예전처럼 느슨해지지 않는데, 이것이 기초 연구를 억제할까요?
량원펑: 반드시 그렇게 생각하지는 않습니다. 중국의 산업 구조 조정은 필연적으로 하드코어 기술 혁신에 더 많이 의존하게 될 것입니다. 사람들이 과거에 빠르게 돈을 버는 것이 운이 좋아서 가능했다는 것을 깨닫게 되면 스스로를 낮추고 진정한 혁신에 더 기꺼이 참여하게 될 것입니다.
그래서 이것도 낙관적인가요?
리앙 웬펑: 저는 1980년대에 광둥성의 5선 도시에서 자랐습니다. 아버지는 초등학교 교사였습니다. 1990년대에는 광둥성에서 돈을 벌 수 있는 기회가 많았습니다. 당시에는 많은 부모님이 저희 집에 오셨는데, 기본적으로 공부는 쓸모없다고 생각하셨죠. 하지만 지금 돌이켜보면 모두 생각이 바뀌었습니다. 더 이상 돈을 버는 것이 쉽지 않고 택시를 운전할 기회조차 곧 사라질지도 모르기 때문입니다. 한 세대밖에 걸리지 않았습니다.
앞으로는 하드코어 혁신이 점점 더 보편화될 것입니다. 사회 전체가 이 점에 대해 교육을 받아야 하기 때문에 지금 당장 이해하기는 쉽지 않습니다. 사회가 하드코어 혁신에 전념하는 사람들이 명성과 부를 얻을 수 있도록 허용하면 우리의 집단적 사고방식도 적응할 것입니다. 몇 가지 예와 프로세스가 필요합니다.
https://www.chinatalk.media/p/deepseek-ceo-interview-with-chinas
다시 혁신이라는 주제로 돌아와서. 이제 경제가 쇠퇴하기 시작하고 자본이 더 이상 예전처럼 느슨해지지 않는데, 이것이 기초 연구를 억제할까요?
량원펑: 반드시 그렇게 생각하지는 않습니다. 중국의 산업 구조 조정은 필연적으로 하드코어 기술 혁신에 더 많이 의존하게 될 것입니다. 사람들이 과거에 빠르게 돈을 버는 것이 운이 좋아서 가능했다는 것을 깨닫게 되면 스스로를 낮추고 진정한 혁신에 더 기꺼이 참여하게 될 것입니다.
그래서 이것도 낙관적인가요?
리앙 웬펑: 저는 1980년대에 광둥성의 5선 도시에서 자랐습니다. 아버지는 초등학교 교사였습니다. 1990년대에는 광둥성에서 돈을 벌 수 있는 기회가 많았습니다. 당시에는 많은 부모님이 저희 집에 오셨는데, 기본적으로 공부는 쓸모없다고 생각하셨죠. 하지만 지금 돌이켜보면 모두 생각이 바뀌었습니다. 더 이상 돈을 버는 것이 쉽지 않고 택시를 운전할 기회조차 곧 사라질지도 모르기 때문입니다. 한 세대밖에 걸리지 않았습니다.
앞으로는 하드코어 혁신이 점점 더 보편화될 것입니다. 사회 전체가 이 점에 대해 교육을 받아야 하기 때문에 지금 당장 이해하기는 쉽지 않습니다. 사회가 하드코어 혁신에 전념하는 사람들이 명성과 부를 얻을 수 있도록 허용하면 우리의 집단적 사고방식도 적응할 것입니다. 몇 가지 예와 프로세스가 필요합니다.
https://www.chinatalk.media/p/deepseek-ceo-interview-with-chinas
www.chinatalk.media
Deepseek: The Quiet Giant Leading China’s AI Race
Annotated translation of its CEO's deepest interview
❤1
‘픽&셔블(picks-and-shovels)’로서의 Nvidia
생성형 AI 급성장의 최대 수혜자는 현재는 Nvidia(GPU 공급사)처럼 보임.
많은 기업(Tesla, xAI, Azure, Google Cloud, AWS, Oracle 등)은 대규모 GPU를 사들여 각종 AI 모델을 준비 중. 하지만 당장의 수익 회수 여부는 불투명.
Meta가 가장 확실히 “AI 비용 → 광고수익”을 연결 지을 수 있음
Meta는 이미 자동화된 머신러닝 광고 시스템(“원하는 결과만 정의하면, 나머지는 블랙박스처럼 Meta가 알아서 최적화”)을 오래전부터 구축.
iOS ATT(App Tracking Transparency) 이후, 타사는 더 정교한 타겟팅·트래킹이 어려워졌지만, Meta는 엄청난 데이터와 GPU 인프라로 *“확률적 광고 타겟팅”*을 재구축 → 다른 경쟁사가 따라오기 어려운 수준.
여기에 생성형 AI를 이용해 수많은 광고 크리에이티브를 자동 생산·실험하면, 광고주 입장에선 “어떻게 만들어지는지 몰라도, 매출이 올라가니 쓸 수밖에 없는” 구조가 형성.
이때 Meta는 “어떤 광고·타겟팅이 잘됐는지”를 자체적으로 추적, 결과를 내부 데이터로 축적 (광고주에겐 블랙박스).
비싼 광고 단가를 받더라도, 실제로 판매성과가 좋으면 광고주도 “이 플랫폼이 제일 낫다”며 계속 투자.
Meta의 ‘글로벌 피드’ 전환과 AI 콘텐츠
본래 페이스북은 친구/팔로우 기반의 ‘소셜 네트워크’에 얽매여 있었으나, 틱톡 경쟁 등을 계기로 “유저 네트워크를 넘어서, 전 세계 모든 콘텐츠를 개인화해 보여주는” 방향으로 변신(Reels, 추천 알고리즘 강화).
이제 그 다음 단계로, “사용자가 직접 올린 UGC뿐 아니라, AI가 생성하는 맞춤형 이미지·영상을 대규모로 피드에 공급”할 가능성.
이 과정에서 기존에는 “사용자 사진·영상 → 광고” 구조였다면, 이제 “AI로 만든 모든 이미지·영상 자체가 광고가 될 수도 있음.”
콘텐츠와 광고의 경계가 흐릿해지며, **원하는 아이템을 즉시 ‘클릭→구매’**하는 형태가 가능해짐.
‘스마일 커브(Smiling Curve)’와 무한 광고 인벤토리
콘텐츠가 무한정 생성되면, 광고 인벤토리(노출 지면) 역시 이론상 무한에 가까워짐 → 광고 단가는 오히려 극단적으로 낮아질 수 있음.
그런데 그 낮은 단가조차 **초대형 플랫폼(Meta)**가 전체를 장악하면, 소규모 경쟁자들이 파고들 틈이 더욱 줄어든다.
Meta가 “사용자수+AI 인프라+데이터”를 모두 갖춘 가장 큰 Aggregator가 되어, “무한 콘텐츠 vs 무한 광고”를 연결하며 막대한 가치를 만들어낼 것.
장기 전망: XR(가상·증강현실)과 ‘Generative UI’
4-1. XR은 AI가 결합되어야 폭발적으로 의미가 생김
메타버스/VR/AR 등은 많은 이들이 회의적이었으나, AI로 인한 “3D콘텐츠 생성 비용” 획기적 절감이 가능해지면, VR 공간 설계도 훨씬 쉬워짐(DALL-E나 3D 생성모델 등).
AR 기기(예: Meta가 준비하는 Orion)에서도, 스마트폰 식의 픽셀화된 UI는 불편. 대신 AI가 “사용자가 필요할 때 필요한 UI만” 즉석에서 생성해줄 수 있음(Generative UI).
이로써 AR/VR 기기의 편의성과 몰입감이 크게 뛰어날 것이고, 그 플랫폼을 Meta가 선도.
4-2. 결론적으로 “현실+가상 모든 맥락이 광고 인벤토리”가 됨
물리 세계든 가상 세계든, AI가 모든 사물을 인식해, 거기서 광고나 판매 링크를 자동 연결(“이 공간이든 이 사물이든 광고로서 전환 가능”).
AI 시대의 “무한한 풍요(Abundance to Infinity)”에서 Meta가 가장 큰 수혜자
https://stratechery.com/2024/metas-ai-abundance/
생성형 AI 급성장의 최대 수혜자는 현재는 Nvidia(GPU 공급사)처럼 보임.
많은 기업(Tesla, xAI, Azure, Google Cloud, AWS, Oracle 등)은 대규모 GPU를 사들여 각종 AI 모델을 준비 중. 하지만 당장의 수익 회수 여부는 불투명.
Meta가 가장 확실히 “AI 비용 → 광고수익”을 연결 지을 수 있음
Meta는 이미 자동화된 머신러닝 광고 시스템(“원하는 결과만 정의하면, 나머지는 블랙박스처럼 Meta가 알아서 최적화”)을 오래전부터 구축.
iOS ATT(App Tracking Transparency) 이후, 타사는 더 정교한 타겟팅·트래킹이 어려워졌지만, Meta는 엄청난 데이터와 GPU 인프라로 *“확률적 광고 타겟팅”*을 재구축 → 다른 경쟁사가 따라오기 어려운 수준.
여기에 생성형 AI를 이용해 수많은 광고 크리에이티브를 자동 생산·실험하면, 광고주 입장에선 “어떻게 만들어지는지 몰라도, 매출이 올라가니 쓸 수밖에 없는” 구조가 형성.
이때 Meta는 “어떤 광고·타겟팅이 잘됐는지”를 자체적으로 추적, 결과를 내부 데이터로 축적 (광고주에겐 블랙박스).
비싼 광고 단가를 받더라도, 실제로 판매성과가 좋으면 광고주도 “이 플랫폼이 제일 낫다”며 계속 투자.
Meta의 ‘글로벌 피드’ 전환과 AI 콘텐츠
본래 페이스북은 친구/팔로우 기반의 ‘소셜 네트워크’에 얽매여 있었으나, 틱톡 경쟁 등을 계기로 “유저 네트워크를 넘어서, 전 세계 모든 콘텐츠를 개인화해 보여주는” 방향으로 변신(Reels, 추천 알고리즘 강화).
이제 그 다음 단계로, “사용자가 직접 올린 UGC뿐 아니라, AI가 생성하는 맞춤형 이미지·영상을 대규모로 피드에 공급”할 가능성.
이 과정에서 기존에는 “사용자 사진·영상 → 광고” 구조였다면, 이제 “AI로 만든 모든 이미지·영상 자체가 광고가 될 수도 있음.”
콘텐츠와 광고의 경계가 흐릿해지며, **원하는 아이템을 즉시 ‘클릭→구매’**하는 형태가 가능해짐.
‘스마일 커브(Smiling Curve)’와 무한 광고 인벤토리
콘텐츠가 무한정 생성되면, 광고 인벤토리(노출 지면) 역시 이론상 무한에 가까워짐 → 광고 단가는 오히려 극단적으로 낮아질 수 있음.
그런데 그 낮은 단가조차 **초대형 플랫폼(Meta)**가 전체를 장악하면, 소규모 경쟁자들이 파고들 틈이 더욱 줄어든다.
Meta가 “사용자수+AI 인프라+데이터”를 모두 갖춘 가장 큰 Aggregator가 되어, “무한 콘텐츠 vs 무한 광고”를 연결하며 막대한 가치를 만들어낼 것.
장기 전망: XR(가상·증강현실)과 ‘Generative UI’
4-1. XR은 AI가 결합되어야 폭발적으로 의미가 생김
메타버스/VR/AR 등은 많은 이들이 회의적이었으나, AI로 인한 “3D콘텐츠 생성 비용” 획기적 절감이 가능해지면, VR 공간 설계도 훨씬 쉬워짐(DALL-E나 3D 생성모델 등).
AR 기기(예: Meta가 준비하는 Orion)에서도, 스마트폰 식의 픽셀화된 UI는 불편. 대신 AI가 “사용자가 필요할 때 필요한 UI만” 즉석에서 생성해줄 수 있음(Generative UI).
이로써 AR/VR 기기의 편의성과 몰입감이 크게 뛰어날 것이고, 그 플랫폼을 Meta가 선도.
4-2. 결론적으로 “현실+가상 모든 맥락이 광고 인벤토리”가 됨
물리 세계든 가상 세계든, AI가 모든 사물을 인식해, 거기서 광고나 판매 링크를 자동 연결(“이 공간이든 이 사물이든 광고로서 전환 가능”).
AI 시대의 “무한한 풍요(Abundance to Infinity)”에서 Meta가 가장 큰 수혜자
https://stratechery.com/2024/metas-ai-abundance/
Stratechery by Ben Thompson
Meta’s AI Abundance
Meta is well-positioned to the biggest beneficiary of AI and the largest company in the world.
❤2
Box(파일 공유·협업 SaaS)의 2014년 S-1(상장신고서)과 대규모 적자 사례:
초창기 SaaS 기업들은 “고객 생애가치(LTV)가 인입 비용(CAC)보다 훨씬 크다”는 논리로 대규모 마케팅·영업 비용 지출 → 장기적으로 재구독(Recurring) 매출이 확보되면 이익이 커진다.
이로 인해 IPO 당시 “장기 투자 vs 단기 손실” 논쟁이 있었지만, 결과적으로 많은 SaaS가 유사한 모델로 성공.
필자는 이 현상을 “실리콘밸리 6번째 거인(Silicon Valley Inc.)”이라 부름(나머지 5대 거인은 애플, 아마존, 구글, 메타, MS).
OpenAI o3 모델의 등장과 ‘Inference-time Scaling’
o1 모델(이전 세대): 학습 파라미터 규모가 크면 정확도가 높아진다는 ‘학습 시 스케일링’뿐 아니라, “추론 시 더 많은 연산을 할당하면 정확도가 올라간다”는 특성이 등장.
o3 모델: o1보다 훨씬 향상된 버전. 필요에 따라 더 많은 GPU 연산(추론 시간)을 쏟으면 문제해결 정확도가 크게 상승(예: ARC 시각 퍼즐테스트에서 인간 수준 접근).
다만 현재는 단가($17~20/태스크)가 비싸지만, 빠른 속도로 비용이 내려갈 전망.
이 “추론 시 대규모 연산”은 기존 오토리그레시브(autoregressive) LLM과 달리, 스스로 여러 가지 방안을 탐색·검증(“여러 체인 오브 쏘트를 시도”)할 수 있게 함 → 사람이 직접 검수하지 않아도 작업을 어느 정도 완결.
“AI Ammo(탄약)” vs “Barrel(총열)” 비유
Keith Rabois가 스탠포드 강연에서 말한 “조직의 속도는 ‘총열(Barrels)’ 수에 달림. 대부분 인재는 ‘탄약(Ammunition)’에 가깝다.”
AI가 발전하면, **수많은 ‘탄약(AI)’**은 저렴해지지만, ‘총열(Barrel)’, 즉 프로젝트를 처음부터 끝까지 끌고 갈 조직적 역량은 여전히 희소.
AI가 스스로 업무를 완수(어시스턴트 아닌 독립행위자)하는 ‘인력 대체’형으로 진화하려면, 기업 구조·프로세스도 거기에 맞춰야 하지만, 기존 대기업은 그런 전환이 쉽지 않음.
불균등한(“Uneven”) AI 도입
OpenAI CEO Sam Altman은 2025년에 첫 AI 에이전트가 기업 산출물을 크게 바꿀 것이라고 전망하지만,
필자는 “기존 대기업·전통 기업(CPG 등)은 정밀 자동화 프로세스가 취약, 도입이 느릴 것”으로 봄.
SaaS가 기존에 “자리를 잡은 기업”을 위해 ‘사람 좌석 라이선스’를 파는 구조였던 것처럼, AI 시대에는 “명확한 태스크에 대한 값 지불”로 전환될 수도 있음.
하지만 이는 처음부터 AI 기반으로 만들어진 신생 기업이 가장 빠르게 수익화할 가능성이 큼(예: 디지털 광고 초기에도 P&G 같은 전통주자보다 신규 D2C기업이 먼저 성장).
결론: AI는 곧 오지만, 기존 대기업이 이를 효율적으로 통합하기까지는 시간이 걸릴 것. 큰 조직은 오히려 늦고, 새로 시작하는 회사일수록 AI 완전 자동화를 빠르게 구현할 전망.
https://stratechery.com/2025/ais-uneven-arrival/
초창기 SaaS 기업들은 “고객 생애가치(LTV)가 인입 비용(CAC)보다 훨씬 크다”는 논리로 대규모 마케팅·영업 비용 지출 → 장기적으로 재구독(Recurring) 매출이 확보되면 이익이 커진다.
이로 인해 IPO 당시 “장기 투자 vs 단기 손실” 논쟁이 있었지만, 결과적으로 많은 SaaS가 유사한 모델로 성공.
필자는 이 현상을 “실리콘밸리 6번째 거인(Silicon Valley Inc.)”이라 부름(나머지 5대 거인은 애플, 아마존, 구글, 메타, MS).
OpenAI o3 모델의 등장과 ‘Inference-time Scaling’
o1 모델(이전 세대): 학습 파라미터 규모가 크면 정확도가 높아진다는 ‘학습 시 스케일링’뿐 아니라, “추론 시 더 많은 연산을 할당하면 정확도가 올라간다”는 특성이 등장.
o3 모델: o1보다 훨씬 향상된 버전. 필요에 따라 더 많은 GPU 연산(추론 시간)을 쏟으면 문제해결 정확도가 크게 상승(예: ARC 시각 퍼즐테스트에서 인간 수준 접근).
다만 현재는 단가($17~20/태스크)가 비싸지만, 빠른 속도로 비용이 내려갈 전망.
이 “추론 시 대규모 연산”은 기존 오토리그레시브(autoregressive) LLM과 달리, 스스로 여러 가지 방안을 탐색·검증(“여러 체인 오브 쏘트를 시도”)할 수 있게 함 → 사람이 직접 검수하지 않아도 작업을 어느 정도 완결.
“AI Ammo(탄약)” vs “Barrel(총열)” 비유
Keith Rabois가 스탠포드 강연에서 말한 “조직의 속도는 ‘총열(Barrels)’ 수에 달림. 대부분 인재는 ‘탄약(Ammunition)’에 가깝다.”
AI가 발전하면, **수많은 ‘탄약(AI)’**은 저렴해지지만, ‘총열(Barrel)’, 즉 프로젝트를 처음부터 끝까지 끌고 갈 조직적 역량은 여전히 희소.
AI가 스스로 업무를 완수(어시스턴트 아닌 독립행위자)하는 ‘인력 대체’형으로 진화하려면, 기업 구조·프로세스도 거기에 맞춰야 하지만, 기존 대기업은 그런 전환이 쉽지 않음.
불균등한(“Uneven”) AI 도입
OpenAI CEO Sam Altman은 2025년에 첫 AI 에이전트가 기업 산출물을 크게 바꿀 것이라고 전망하지만,
필자는 “기존 대기업·전통 기업(CPG 등)은 정밀 자동화 프로세스가 취약, 도입이 느릴 것”으로 봄.
SaaS가 기존에 “자리를 잡은 기업”을 위해 ‘사람 좌석 라이선스’를 파는 구조였던 것처럼, AI 시대에는 “명확한 태스크에 대한 값 지불”로 전환될 수도 있음.
하지만 이는 처음부터 AI 기반으로 만들어진 신생 기업이 가장 빠르게 수익화할 가능성이 큼(예: 디지털 광고 초기에도 P&G 같은 전통주자보다 신규 D2C기업이 먼저 성장).
결론: AI는 곧 오지만, 기존 대기업이 이를 효율적으로 통합하기까지는 시간이 걸릴 것. 큰 조직은 오히려 늦고, 새로 시작하는 회사일수록 AI 완전 자동화를 빠르게 구현할 전망.
https://stratechery.com/2025/ais-uneven-arrival/
Stratechery by Ben Thompson
AI’s Uneven Arrival
o1/o3 points the way to AGI, which is AI that can complete tasks; it may take longer for most companies to adopt them than you might think — just look at digital advertising.
Continuous Learning_Startup & Investment
AI 쪽에서는 요즘 놀라울 정도로 DeepSeek에 대한 이야기 밖에 없다. (솔직히 나도 요즘 너무 많은 이야기를 하고 있긴 하지만, 지금만 그랬던 것은 아니고 늘 많이 했던 것이니 용서해주시기를.) 그리고 생각보다 많은 화제가 DeepSeek의 성과를 평가절하하려는 것과 관련이 있는 듯 하다. ChatGPT로 생성한 데이터를 사용한 것이다, 저작권이나 프라이버시와 관계 없이 데이터를 수집했기 때문에 가능했다, 중국 정부의 지원을 받았다, 실제로는 GPU를…
1. 한국도 지금 이런 모델을 공개할 수 있는 상황이었다면.
2. Compute Multiplier의 발견이 이제 많은 수의 GPU가 필요하지 않다는 발상으로 이어질 줄은 몰랐다. 그런 의미가 아니라고 말하고 싶은 충동이 들지만 그게 딱히 의미가 있을까 싶다.
3. 전기세의 차이를 고려하더라도 미국쪽 LLM API 가격에는 마진이 꽤 붙어있을 것이라는 생각. 중국 내에서 가격 경쟁이 붙은 것처럼 LLM API 가격의 압착이 일어날지도.
4. AI/ML판의 패턴 하나. 발전 속도가 워낙 빠르다보니 특정 시점의 기술로 수익 창출을 시도하면 창출을 앞둘 때 정도에 이미 다음 시점의 기술이 이전 기술을 쓸모 없게 만든다. 따라서 - 늘 하는 이야기인 지금 기술은 그렇게 쓸모 있지 않다는 것에 더해 - 현재의 수익에 구애되는 것이 불필요하다고 생각하는 이유. 어쩌면 AGI 이전에 그런 것에 구애되는 것은 시간 낭비라는 것이 좋은 통찰일지도.
6. 나는 굳이 오픈소스로 공개하는 것을 선호하지는 않는데, 어차피 수익 창출이 중요한 것이 아니라면 공개를 통한 홍보 효과가 가치가 더 큰 것이 아닐까 하는 생각.
7. 다들 MoE를 왜 그렇게 멀리했을까 싶기도. 별로 우아하지 않다고 생각했는지도 모르겠음. (https://x.com/ArmenAgha/status/1883394504981659994) GPU가 있더라도 GPU를 아껴야 한다는 교훈.
8. 그런 의미에서 기존 인프라나 도구와의 호환성을 위해 아키텍처를 평이하게 유지해야 한다는 것의 불필요함을 확인. 성능 앞에서 그건 중요한 요소가 아니다. 다들 성능이 좋은 모델을 쓰고 싶어하기 마련이다. Qwen이나 Mistral도 MoE를 더 밀어붙이지 않은 것을 좀 후회하고 있지 않을까.
9. 하드웨어가 아닌 소프트웨어의 기술 격차는 생각보다 너무나 빠르게 좁혀질 수 있는 것 같다. 기밀에 부치더라도 순식간에 따라잡을 수 있다.
김성현님
2. Compute Multiplier의 발견이 이제 많은 수의 GPU가 필요하지 않다는 발상으로 이어질 줄은 몰랐다. 그런 의미가 아니라고 말하고 싶은 충동이 들지만 그게 딱히 의미가 있을까 싶다.
3. 전기세의 차이를 고려하더라도 미국쪽 LLM API 가격에는 마진이 꽤 붙어있을 것이라는 생각. 중국 내에서 가격 경쟁이 붙은 것처럼 LLM API 가격의 압착이 일어날지도.
4. AI/ML판의 패턴 하나. 발전 속도가 워낙 빠르다보니 특정 시점의 기술로 수익 창출을 시도하면 창출을 앞둘 때 정도에 이미 다음 시점의 기술이 이전 기술을 쓸모 없게 만든다. 따라서 - 늘 하는 이야기인 지금 기술은 그렇게 쓸모 있지 않다는 것에 더해 - 현재의 수익에 구애되는 것이 불필요하다고 생각하는 이유. 어쩌면 AGI 이전에 그런 것에 구애되는 것은 시간 낭비라는 것이 좋은 통찰일지도.
6. 나는 굳이 오픈소스로 공개하는 것을 선호하지는 않는데, 어차피 수익 창출이 중요한 것이 아니라면 공개를 통한 홍보 효과가 가치가 더 큰 것이 아닐까 하는 생각.
7. 다들 MoE를 왜 그렇게 멀리했을까 싶기도. 별로 우아하지 않다고 생각했는지도 모르겠음. (https://x.com/ArmenAgha/status/1883394504981659994) GPU가 있더라도 GPU를 아껴야 한다는 교훈.
8. 그런 의미에서 기존 인프라나 도구와의 호환성을 위해 아키텍처를 평이하게 유지해야 한다는 것의 불필요함을 확인. 성능 앞에서 그건 중요한 요소가 아니다. 다들 성능이 좋은 모델을 쓰고 싶어하기 마련이다. Qwen이나 Mistral도 MoE를 더 밀어붙이지 않은 것을 좀 후회하고 있지 않을까.
9. 하드웨어가 아닌 소프트웨어의 기술 격차는 생각보다 너무나 빠르게 좁혀질 수 있는 것 같다. 기밀에 부치더라도 순식간에 따라잡을 수 있다.
김성현님
오픈 월드 영역에서 이와 유사한 것의 첫 번째 초기 모습을 보고 있습니다. 모델은 다양한 수학/코드 등의 문제를 해결하는 과정에서 인간의 내적 독백과 유사한 전략을 발견하는데, 이는 모델에 직접 프로그래밍하기는 매우 어렵고(/불가능합니다) 불가능합니다. 저는 이를 '인지 전략'이라고 부르는데, 다양한 각도에서 문제 접근하기, 다양한 아이디어 시도하기, 유추 찾기, 역추적하기, 재검토하기 등이 이에 해당합니다. 이상하게 들리겠지만, LLM이 더 나은 사고 방식, 문제 해결 방식, 여러 분야의 아이디어를 연결하는 방식을 발견할 수 있다는 것은 그럴듯한 일이며, 돌이켜보면 놀랍고 당황스럽지만 창의적이고 기발한 방식으로 그렇게 할 수 있습니다. 최적화가 우리가 이해할 수 없지만 문제 해결에 더 효율적이거나 효과적인 자신만의 언어를 발명하는 것은 그럴듯한 일입니다(잘 수행된다면 그럴 가능성도 있습니다). 강화 학습의 기묘함은 원칙적으로 한계가 없습니다.
아직 무브 37에 상응하는 기술을 본 적이 없는 것 같습니다. 어떤 모습일지 모르겠습니다. 아직은 초기 단계이고 엔지니어링과 연구 측면에서 앞으로 해야 할 일이 많다고 생각합니다. 하지만 기술이 이를 찾아낼 수 있는 궤도에 오른 것 같습니다.
https://x.com/karpathy/status/1884336943321997800?s=46&t=h5Byg6Wosg8MJb4pbPSDow
아직 무브 37에 상응하는 기술을 본 적이 없는 것 같습니다. 어떤 모습일지 모르겠습니다. 아직은 초기 단계이고 엔지니어링과 연구 측면에서 앞으로 해야 할 일이 많다고 생각합니다. 하지만 기술이 이를 찾아낼 수 있는 궤도에 오른 것 같습니다.
https://x.com/karpathy/status/1884336943321997800?s=46&t=h5Byg6Wosg8MJb4pbPSDow
X (formerly Twitter)
Andrej Karpathy (@karpathy) on X
"Move 37" is the word-of-day - it's when an AI, trained via the trial-and-error process of reinforcement learning, discovers actions that are new, surprising, and secretly brilliant even to expert humans. It is a magical, just slightly unnerving, emergent…
딥러닝은 그 어떤 AI 알고리즘보다도 전례 없이 엄청난 연산력을 요구하는, 전설적인 탐욕을 가진 존재라고 말할 수 있습니다. 항상 이를 100% 활용하는 것은 아닐 수도 있지만, 장기적으로 달성 가능한 지능의 상한선이 연산력(compute)에 의해 결정된다고 생각하며, 이에 반하는 내기를 하지는 않을 것입니다. 이는 단순히 개별적인 최종 훈련 과정에서만이 아니라, 모든 알고리즘 혁신의 기반이 되는 보이지 않는 혁신 및 실험 엔진 전체에도 해당됩니다.
전통적으로 데이터는 연산력과 별개의 요소로 간주되어 왔지만, 실상 데이터도 상당 부분 연산력의 산물입니다. 우리는 연산력을 사용하여 데이터를 생성할 수 있습니다. 그것도 엄청나게 많이요. 이를 “합성 데이터 생성(synthetic data generation)“이라고 부르지만, 사실 “합성 데이터 생성”과 “강화학습(reinforcement learning)” 사이에는 매우 깊은 연관성(심지어 동등성)이 존재합니다. 강화학습에서 시행착오(trial-and-error)를 통한 학습 과정에서 “시행(trial)“은 모델이 합성 데이터를 생성하는 과정이며, “오류(error)” 또는 보상(reward)을 기반으로 모델이 다시 학습합니다. 반대로, 합성 데이터를 생성한 후 이를 랭킹하거나 필터링하는 과정은 0-1 이점 함수(advantage function)와 사실상 동일합니다. 즉, 축하합니다! 여러분은 지금 형편없는(?) 강화학습을 하고 계신 겁니다.
마지막으로 하나 더. 이게 명확한 사실인지 모르겠지만, 인간 아이들의 학습 방식과 딥러닝의 학습 방식에는 두 가지 주요 유형이 있습니다.
1. 모방 학습(Imitation Learning) – 보고 따라 하기 (즉, 사전 훈련(pretraining)과 지도 학습을 통한 파인튜닝)
2. 시행착오 학습(Trial-and-Error Learning) – 강화학습 (Reinforcement Learning)
내가 가장 좋아하는 단순한 예시는 **알파고(AlphaGo)**입니다.
1. 알파고는 먼저 전문가들의 플레이를 모방하면서 학습합니다.
2. 이후에는 강화학습을 통해 스스로 게임에서 이기는 법을 배웁니다.
그리고 딥러닝에서 나온 거의 모든 충격적인 결과들, 즉 마법 같은 순간들의 원천은 항상 **2번(강화학습)**에서 나옵니다. 2번이 훨씬 더 강력합니다. 2번이 바로 우리를 놀라게 합니다. 2번이 우리가 “브레이크아웃(Breakout)” 게임에서 공을 블록 뒤쪽으로 튕겨 점수를 얻는 전략을 발견하게 만드는 원리입니다. 2번이 알파고가 이세돌을 이길 수 있게 만든 방법입니다. 그리고 2번이 바로 DeepSeek이나 o1 같은 모델이 자신의 가정을 재평가하고, 후퇴하고, 다른 전략을 시도하는 것이 효과적이라는 것을 발견하는 순간입니다.
즉, 2번은 이 모델이 체인 오브 쏘트(Chain of Thought) 방식으로 문제 해결 전략을 구축하는 방식입니다. 모델이 스스로 생각을 교차하며 고민하는 방식입니다. 그리고 이런 사고 과정은 *자연적으로 발생하는 현상(emergent phenomenon)*이며, 이는 정말 놀랍고 인상적이며, 공공 영역에서 문서화된 형태로 확인할 수 있는 완전히 새로운 개념입니다.
이러한 사고 방식을 1번(모방 학습)으로는 결코 배울 수 없습니다. 왜냐하면 모델의 인지 방식과 인간 데이터 라벨러의 인지 방식은 다르기 때문입니다. 인간은 이러한 문제 해결 전략을 정확하게 주석 달거나, 그 전략이 어떻게 보이는지조차 정의할 수 없습니다. 결국 이러한 전략들은 강화학습을 거치는 과정에서 경험적으로, 그리고 통계적으로 유용한 것으로 발견되어야 합니다.
(진짜 마지막 참고 사항: 강화학습(RL)은 강력하지만, **강화학습을 활용한 인간 피드백(RLHF)**은 그렇지 않습니다. RLHF는 RL이 아닙니다. 이에 대한 별도의 긴 불만이 이전 트윗에 있습니다.)
https://x.com/karpathy/status/1883941452738355376?s=46&t=h5Byg6Wosg8MJb4pbPSDow
전통적으로 데이터는 연산력과 별개의 요소로 간주되어 왔지만, 실상 데이터도 상당 부분 연산력의 산물입니다. 우리는 연산력을 사용하여 데이터를 생성할 수 있습니다. 그것도 엄청나게 많이요. 이를 “합성 데이터 생성(synthetic data generation)“이라고 부르지만, 사실 “합성 데이터 생성”과 “강화학습(reinforcement learning)” 사이에는 매우 깊은 연관성(심지어 동등성)이 존재합니다. 강화학습에서 시행착오(trial-and-error)를 통한 학습 과정에서 “시행(trial)“은 모델이 합성 데이터를 생성하는 과정이며, “오류(error)” 또는 보상(reward)을 기반으로 모델이 다시 학습합니다. 반대로, 합성 데이터를 생성한 후 이를 랭킹하거나 필터링하는 과정은 0-1 이점 함수(advantage function)와 사실상 동일합니다. 즉, 축하합니다! 여러분은 지금 형편없는(?) 강화학습을 하고 계신 겁니다.
마지막으로 하나 더. 이게 명확한 사실인지 모르겠지만, 인간 아이들의 학습 방식과 딥러닝의 학습 방식에는 두 가지 주요 유형이 있습니다.
1. 모방 학습(Imitation Learning) – 보고 따라 하기 (즉, 사전 훈련(pretraining)과 지도 학습을 통한 파인튜닝)
2. 시행착오 학습(Trial-and-Error Learning) – 강화학습 (Reinforcement Learning)
내가 가장 좋아하는 단순한 예시는 **알파고(AlphaGo)**입니다.
1. 알파고는 먼저 전문가들의 플레이를 모방하면서 학습합니다.
2. 이후에는 강화학습을 통해 스스로 게임에서 이기는 법을 배웁니다.
그리고 딥러닝에서 나온 거의 모든 충격적인 결과들, 즉 마법 같은 순간들의 원천은 항상 **2번(강화학습)**에서 나옵니다. 2번이 훨씬 더 강력합니다. 2번이 바로 우리를 놀라게 합니다. 2번이 우리가 “브레이크아웃(Breakout)” 게임에서 공을 블록 뒤쪽으로 튕겨 점수를 얻는 전략을 발견하게 만드는 원리입니다. 2번이 알파고가 이세돌을 이길 수 있게 만든 방법입니다. 그리고 2번이 바로 DeepSeek이나 o1 같은 모델이 자신의 가정을 재평가하고, 후퇴하고, 다른 전략을 시도하는 것이 효과적이라는 것을 발견하는 순간입니다.
즉, 2번은 이 모델이 체인 오브 쏘트(Chain of Thought) 방식으로 문제 해결 전략을 구축하는 방식입니다. 모델이 스스로 생각을 교차하며 고민하는 방식입니다. 그리고 이런 사고 과정은 *자연적으로 발생하는 현상(emergent phenomenon)*이며, 이는 정말 놀랍고 인상적이며, 공공 영역에서 문서화된 형태로 확인할 수 있는 완전히 새로운 개념입니다.
이러한 사고 방식을 1번(모방 학습)으로는 결코 배울 수 없습니다. 왜냐하면 모델의 인지 방식과 인간 데이터 라벨러의 인지 방식은 다르기 때문입니다. 인간은 이러한 문제 해결 전략을 정확하게 주석 달거나, 그 전략이 어떻게 보이는지조차 정의할 수 없습니다. 결국 이러한 전략들은 강화학습을 거치는 과정에서 경험적으로, 그리고 통계적으로 유용한 것으로 발견되어야 합니다.
(진짜 마지막 참고 사항: 강화학습(RL)은 강력하지만, **강화학습을 활용한 인간 피드백(RLHF)**은 그렇지 않습니다. RLHF는 RL이 아닙니다. 이에 대한 별도의 긴 불만이 이전 트윗에 있습니다.)
https://x.com/karpathy/status/1883941452738355376?s=46&t=h5Byg6Wosg8MJb4pbPSDow
OpenAI의 Operator 같은 프로젝트는 디지털 세계에서 휴머노이드 로봇이 물리적 세계에서 하는 역할과 유사합니다.
즉, 인간을 위해 설계된 입출력 인터페이스(I/O interface)(예: 모니터, 키보드, 마우스 또는 인간의 신체)를 통해 점진적으로 범용적인 작업을 수행할 수 있는 일반적인 설정을 갖춘 시스템입니다.
이러한 시스템이 도입되면 점진적으로 혼합된 자율성(mixed autonomy) 세계가 형성되며, 인간은 **하위 수준 자동화(low-level automation)**의 상위 감독자(high-level supervisor) 역할을 하게 됩니다.
이는 마치 운전자가 자율주행 시스템(Autopilot)을 모니터링하는 것과 비슷한 구조입니다.
이러한 변화는 물리적 세계보다 디지털 세계에서 훨씬 더 빠르게 진행될 것입니다.
그 이유는 비트를 전환(flipping bits)하는 것이 원자(atom)를 이동시키는 것보다 약 1000배 저렴하기 때문입니다.
그러나 시장 규모 및 기회는 물리적 세계에서 훨씬 더 크다고 느껴집니다.
OpenAI 초창기 시절, 우리는 이미 이 아이디어를 연구한 적이 있습니다.
(예: Universe 및 World of Bits 프로젝트)
하지만 그때는 잘못된 순서로 진행되었고, **대규모 언어 모델(LLM)**이 먼저 등장해야 했습니다.
솔직히 말해, 지금도 이 개념이 완전히 준비되었는지 100% 확신할 수는 없습니다.
예를 들어, **멀티모달(Multimodal: 이미지, 영상, 오디오 등)**이 지난 1~2년간 LLM과 통합되었지만,
대부분 어댑터(adapter) 방식으로 억지로 붙여진 수준입니다.
더 나쁜 점은, 우리는 아직 **매우 긴 작업 주기(very long task horizon)**를 다룬 경험이 없습니다.
예를 들어, 비디오는 엄청난 양의 정보를 포함하고 있기 때문에,
현재의 맥락 창(context window) 개념만으로 모든 정보를 저장하고 처리할 수 있을지 확신이 없습니다.
아마도 여기에서 한두 가지 혁신적인 돌파구가 필요할 것으로 예상됩니다.
내 타임라인에서는 사람들이 **“2025년이 에이전트(agent)의 해”**가 될 것이라고 이야기하고 있습니다.
하지만 개인적으로는 2025~2035년이 ‘에이전트의 10년’이 될 것이라고 생각합니다.
실제로 이 개념을 현실에서 작동하게 만들기 위해서는
방대한 연구 및 개발 작업이 필요하지만, 궁극적으로는 가능할 것입니다.
오늘날, OpenAI의 Operator는 DoorDash에서 점심을 찾아주거나, 호텔을 예약하는 것 정도를 때때로, 혹은 간신히 해낼 수 있습니다.
내일, 우리는 Operator 에이전트를 여러 개 조직화하여 장기적인 작업을 수행하도록 만들 수 있습니다.
(예: 하나의 회사 전체를 운영하는 것과 같은 복잡한 작업)
당신은 CEO가 되어 한 번에 10개의 Operator를 감독할 수도 있습니다.
때때로 직접 개입하여 문제가 되는 부분을 해결하고, 전반적인 운영을 조율하는 방식이 될 수도 있겠죠.
그렇게 되면 굉장히 흥미로운 미래가 펼쳐질 것입니다.
https://x.com/karpathy/status/1882544526033924438?s=46&t=h5Byg6Wosg8MJb4pbPSDow
즉, 인간을 위해 설계된 입출력 인터페이스(I/O interface)(예: 모니터, 키보드, 마우스 또는 인간의 신체)를 통해 점진적으로 범용적인 작업을 수행할 수 있는 일반적인 설정을 갖춘 시스템입니다.
이러한 시스템이 도입되면 점진적으로 혼합된 자율성(mixed autonomy) 세계가 형성되며, 인간은 **하위 수준 자동화(low-level automation)**의 상위 감독자(high-level supervisor) 역할을 하게 됩니다.
이는 마치 운전자가 자율주행 시스템(Autopilot)을 모니터링하는 것과 비슷한 구조입니다.
이러한 변화는 물리적 세계보다 디지털 세계에서 훨씬 더 빠르게 진행될 것입니다.
그 이유는 비트를 전환(flipping bits)하는 것이 원자(atom)를 이동시키는 것보다 약 1000배 저렴하기 때문입니다.
그러나 시장 규모 및 기회는 물리적 세계에서 훨씬 더 크다고 느껴집니다.
OpenAI 초창기 시절, 우리는 이미 이 아이디어를 연구한 적이 있습니다.
(예: Universe 및 World of Bits 프로젝트)
하지만 그때는 잘못된 순서로 진행되었고, **대규모 언어 모델(LLM)**이 먼저 등장해야 했습니다.
솔직히 말해, 지금도 이 개념이 완전히 준비되었는지 100% 확신할 수는 없습니다.
예를 들어, **멀티모달(Multimodal: 이미지, 영상, 오디오 등)**이 지난 1~2년간 LLM과 통합되었지만,
대부분 어댑터(adapter) 방식으로 억지로 붙여진 수준입니다.
더 나쁜 점은, 우리는 아직 **매우 긴 작업 주기(very long task horizon)**를 다룬 경험이 없습니다.
예를 들어, 비디오는 엄청난 양의 정보를 포함하고 있기 때문에,
현재의 맥락 창(context window) 개념만으로 모든 정보를 저장하고 처리할 수 있을지 확신이 없습니다.
아마도 여기에서 한두 가지 혁신적인 돌파구가 필요할 것으로 예상됩니다.
내 타임라인에서는 사람들이 **“2025년이 에이전트(agent)의 해”**가 될 것이라고 이야기하고 있습니다.
하지만 개인적으로는 2025~2035년이 ‘에이전트의 10년’이 될 것이라고 생각합니다.
실제로 이 개념을 현실에서 작동하게 만들기 위해서는
방대한 연구 및 개발 작업이 필요하지만, 궁극적으로는 가능할 것입니다.
오늘날, OpenAI의 Operator는 DoorDash에서 점심을 찾아주거나, 호텔을 예약하는 것 정도를 때때로, 혹은 간신히 해낼 수 있습니다.
내일, 우리는 Operator 에이전트를 여러 개 조직화하여 장기적인 작업을 수행하도록 만들 수 있습니다.
(예: 하나의 회사 전체를 운영하는 것과 같은 복잡한 작업)
당신은 CEO가 되어 한 번에 10개의 Operator를 감독할 수도 있습니다.
때때로 직접 개입하여 문제가 되는 부분을 해결하고, 전반적인 운영을 조율하는 방식이 될 수도 있겠죠.
그렇게 되면 굉장히 흥미로운 미래가 펼쳐질 것입니다.
https://x.com/karpathy/status/1882544526033924438?s=46&t=h5Byg6Wosg8MJb4pbPSDow
Continuous Learning_Startup & Investment
1. 한국도 지금 이런 모델을 공개할 수 있는 상황이었다면. 2. Compute Multiplier의 발견이 이제 많은 수의 GPU가 필요하지 않다는 발상으로 이어질 줄은 몰랐다. 그런 의미가 아니라고 말하고 싶은 충동이 들지만 그게 딱히 의미가 있을까 싶다. 3. 전기세의 차이를 고려하더라도 미국쪽 LLM API 가격에는 마진이 꽤 붙어있을 것이라는 생각. 중국 내에서 가격 경쟁이 붙은 것처럼 LLM API 가격의 압착이 일어날지도. 4. AI/ML판의…
미국 최초 자동차 회사: 1895년 Duryea Motor Wagon Company.
이후 증가 추세: 1900년 전까지 34개, 19001909년 233개, 19101919년 168개의 신규 업체 설립.
하지만 1920년대 이후 급격히 consolidation(통폐합)되면서, **‘빅3’(GM, 포드, 크라이슬러)**가 시장을 장악.
핵심 포인트:
“새 자동차 회사” 출현 자체는 줄었지만, 그 후에도 자동차가 초래한 사회적 변화(교외 확산, 빅박스 리테일, 교통문화 등)는 훨씬 커짐.
즉, “산업이 성숙되고 혁신 기업 설립이 줄어든다” 해서 자동차 자체의 영향력이 줄어드는 건 아니었다.
이후 증가 추세: 1900년 전까지 34개, 19001909년 233개, 19101919년 168개의 신규 업체 설립.
하지만 1920년대 이후 급격히 consolidation(통폐합)되면서, **‘빅3’(GM, 포드, 크라이슬러)**가 시장을 장악.
핵심 포인트:
“새 자동차 회사” 출현 자체는 줄었지만, 그 후에도 자동차가 초래한 사회적 변화(교외 확산, 빅박스 리테일, 교통문화 등)는 훨씬 커짐.
즉, “산업이 성숙되고 혁신 기업 설립이 줄어든다” 해서 자동차 자체의 영향력이 줄어드는 건 아니었다.
1. 미국 재정 적자와 하이퍼인플레이션 우려
질문/화두: “미국이 현재 수백일 단위로 1조 달러씩 적자를 늘리고 있고, 이게 곧 80일, 70일마다 1조 달러씩 쌓이면 어떻게 될까? 아르헨티나나 브라질처럼 하이퍼인플레이션으로 갈 위험은 없을까?”
답변/논리 전개
마크: 지금처럼 국가 부채가 기하급수적으로 쌓이면 결국 대규모 인플레이션—최악의 경우 하이퍼인플레이션 가능성을 완전히 배제하기 어렵다.
이런 “연방정부의 무절제한 지출” 문제를 해결하지 않으면, 큰 위기가 올 수도 있다.
2. 미국의 경제·사회적 ‘낙관 시나리오’ vs. ‘현 체제의 병폐’
2-1. “로어링 20스(Roaring 20s)”에 대한 낙관
질문: “2025~26년 미국과 테크가 가장 이상적으로 흘러간다면 어떤 모습일까?”
답변
마크: 미국은 지리·자원·에너지·인재 면에서 매우 유리한 조건을 타고났다.
(1) 천연자원(에너지 독립 가능), (2) 수많은 이민 인재(두뇌 유입), (3) 테크 기반(모바일, AI 등 리더십) 덕분에 폭발적으로 성장할 잠재력이 있다.
과거 1970년대 스태그플레이션 후 1980년대 초 레이건 시절에 미국이 “Morning in America” 분위기로 반등했듯이, 지금도 충분히 그런 반등이 가능.
2-2. 부정적·병폐적 요소
질문: “지금 분위기는 과거 ’70년대처럼 부정적이고, 규제와 정치적·사회적 냉소가 팽배한데? ”
답변
미국 정부와 관료제는 지나친 규제·검열·비효율 등 “소프트 권위주의”가 되어 버렸다.
“진행자(렉스)가 미국 정서를 느낀 바로도, ‘너무 많은 규제와 검열’이 개개인을 짓누르고 있다.”
많은 문제(범죄 증가, 지나친 정치 올바름 강요, ESG·DEI 과도함 등)로 실리콘밸리와 헐리우드도 좌절감이 컸으나, 최근 대선 이후 “분위기가 바뀌었다”고 느낌.
3. 트럼프 2기 행정부(가정)와 규제·검열 문제
3-1. “트럼프 행정부가 돌아온다면?”
질문: “트럼프 행정부가 2025년 다시 들어서면, 어떻게 체제가 바뀔까?”
답변
마크: “새 행정부는 ‘정부가 시장과 국민의 목을 죄는 것’을 줄이고, ‘낙관적·진취적 분위기’를 되살릴 수 있다.”
이번엔 훨씬 우수한 인재(장·차관 후보, 각 부처 요직 후보 등)를 영입하고 있어서, 첫 임기 때보다 효율적인 팀을 구성할 가능성이 크다.
‘Doge’(대통령 직속 위원회) 등 여러 기구를 통해 규제 완화와 ‘정부 부처 축소’를 대대적으로 시도할 것으로 보임.
3-2. 검열(Censorship) 문제
질문: “정부가 SNS를 검열·압박해온 사례가 최근 많이 드러났다. 이런 ‘정부+테크 검열 체제’를 어떻게 봐야 하나?”
답변
마크: Twitter Files·Facebook 문서(Weaponization committee 증거) 등을 보면, 미국 정부 기관(특히 민주당 정권 시절)이 합헌적 절차 없이 SNS에 검열 압박을 가했던 것은 명백한 불법·위헌적 행위였다.
이런 관행은 ‘행정부 내 규제·행정 권력 남용’의 대표적 사례로서, 향후 제대로 처벌·교정되어야 한다.
4. 대학(고등교육) 문제와 ‘DEI-affirmative action’
4-1. 미국 대학은 구조적으로 회복 불가능?
질문: “미국 명문대(하버드, 스탠퍼드 등)의 무분별한 정치편향, DEI(다양성·형평성·포용성) 프로그램, 표현의 자유 침해, 비정상적 예산 등이 심각하다. 고칠 수 없나?”
답변
마크: 현재 미국 고등교육은 “연방 정부 예산+규제+인증 카르텔” 구조 안에 있어, 내부에서 자체 개혁하기가 거의 불가능하다고 본다.
따라서 근본적으로 “기존 기관을 파산시키고 다시 세우는” 수준의 리셋이 아니면, (특히 아이비리그 등) 고칠 수 없다고 회의적으로 본다.
*렉스는 “아직 재정지원 등으로 테크-인재 양성에 중요한 역할을 하므로, 내부 개혁이 가능하다고 보며, 그걸 희망한다”*고 반론.
마크는 “진짜 리더십이 있어야 가능하지만, 현실적으로 쉽지 않다. 사립대들은 테너(tenure)와 관료층에 의해 장악되어, 실제 ‘학문 자유’는 유명무실한 상태다”라고 강조.
4-2. Affirmative Action / DEI 정책의 문제
질문: “하이테크(실리콘밸리) 측은 이민 ‘H1B’ 등 고급두뇌 유치가 좋다고 말한다. 그러나 그 혜택이 실제 미국 내 중서부, 남부, 흑인·유대인·아시안 등 실제 ‘토박이 인재들’에게는 불리할 수 있는데?”
답변
마크: “Affirmative action(소수자 우대) 자체가 수십 년간 너무 복잡하게 변질되었다.”
예: 실제로는 ‘미국 흑인’에게 기회가 돌아가는 대신, 해외 출신 엘리트(나이지리아, 서인도제도 등)만 상대적으로 더 혜택받는 식으로 운영됨.
유대인과 아시안 학생들은 오히려 더욱 불이익 받음(하버드 사례).
“기업·대학이 ‘미국 내부 인재 개발’ 대신, 간편한 H1B로 해외 스펙 좋은 인재만 뽑는 건 윤리적으로도 문제다.”
결론적으로, “이민정책과 대학입시 정책은 별개로 떼어놓지 말고 통합적으로 봐야 한다. 토박이 인재 발굴 강화+해외 인재 유치 두 가지를 함께 추진해야 한다.”
5. 저널리즘(언론)에 대한 비판과 “권력(파워)의 실제 작동 방식”
5-1. 언론은 ‘CEO를 해고시킬 수 있으나, CEO는 언론인을 못 해고한다’
질문/화두: “언론사가 가진 파워가 생각보다 엄청난데, 왜 이렇게 서로가 ‘누가 진짜 결정권을 갖는가’를 놓고 싸우나?”
답변
마크: 실무적으로 보니, “기자 1명이 대기업 CEO를 사실상 해임/사임/실각시키는 사례는 많지만, 그 반대는 불가능.”
즉, 언론이 ‘해임시킬 수 있는’ 권력(여론몰이)이 막강하나, 언론 조직 내부는 사실상 기자가 주도권을 쥐는 구조라, 사주(오너)조차 기자에게 휘둘림. (LA타임스 등 예시)
5-2. 빌 애크먼(Bill Ackman)의 사례
질문: “빌 애크먼이 언론과 직접 맞서는 행동은 대단히 인상적인데, 어떻게 보는가?”
답변
마크: “빌 애크먼은 원래 ‘행동주의 투자자(activist investor)’로서 대형 기업들 상대로 강력한 압박 전술을 구사하며 노하우를 쌓아왔다.”
그런 스킬을 언론·대학교 등에도 적용, 과감히 ‘폭로’와 소송·법적 압박 등을 걸면서 바꿔나가고 있다. 이는 참신하고도 강력한 행동이다.
6. 인공지능(AI) 경쟁 구도와 혁신
6-1. AI 업체들의 경쟁(오픈AI·메타·구글·xAI 등)
질문: “AI 대규모 모델(LLM) 경쟁은 누가 이길까?”
답변
마크: 미지수. 여러 “트릴리언 달러급 의문”들이 존재한다. 예:
‘Big model vs. Small model’: 거대 모델이 앞으로도 계속 우세할지, 소형 특화 모델이 이길지.
과거에는 매개변수가 수천억~수조 개에 달하는 초대형 모델이 ‘궁극적으로 더 강력할 것’이라는 시각이 있었지만, 최근에는 특정 작업에 특화된 소형 모델이 효율 면에서 더 뛰어날 수 있다는 주장이 힘을 얻고 있다.
어떤 방향이 주류가 될지, 혹은 Big-Model과 Small-Model이 병존(共存)할지 아직 불투명.
‘Open vs. Closed’: 모델을 오픈소스로 풀지, 폐쇄형으로 갈지.
합성 데이터(synthetic data) 가능 여부
거대 모델이 인류가 온라인에 올린 모든 텍스트·이미지·음성 등 데이터를 거의 ‘소진’해버렸다는 논의가 있다.
이후 추가 성능 향상을 위해 합성 데이터(기존 모델이 스스로 생성한 데이터)를 다시 학습하는 방식이 실효성 있을지, 또 품질·편향 문제를 어떻게 해결할지 관건.
체인오브솟(Chain-of-thought) 등 추론 기법이 얼마나 발전할지.
정치·규제 환경이 어떻게 변할지(EU·미국 등).
게다가, 자금(수십억~수천억 달러)이 필요한 분야라, 빅테크와 국가 단위 투자만 가능.
6-2. 앞으로의 “Little Tech(스타트업)” 기회
질문: “코딩을 비롯해 AI가 개발 생산성을 폭증시킨다. 스타트업에 어떤 기회가 있을까?”
답변
AI 코딩이 이미 큰 지각 변동을 일으키는 중. 코딩 진입장벽이 대폭 낮아지고, 1인 창업도 가능해진다.
코딩 진입장벽이 급격히 낮아져서, 개인이나 소규모 팀도 과거보다 훨씬 쉽고 빠르게 애플리케이션을 만들 수 있다.
기존 대기업(구글, MS 등)은 레거시를 갖고 있어 급진적 변신이 어렵다(혁신의 딜레마). 따라서 스타트업들이 AI-first 관점에서 새로 만들 제품이 많을 것.
질문/화두: “미국이 현재 수백일 단위로 1조 달러씩 적자를 늘리고 있고, 이게 곧 80일, 70일마다 1조 달러씩 쌓이면 어떻게 될까? 아르헨티나나 브라질처럼 하이퍼인플레이션으로 갈 위험은 없을까?”
답변/논리 전개
마크: 지금처럼 국가 부채가 기하급수적으로 쌓이면 결국 대규모 인플레이션—최악의 경우 하이퍼인플레이션 가능성을 완전히 배제하기 어렵다.
이런 “연방정부의 무절제한 지출” 문제를 해결하지 않으면, 큰 위기가 올 수도 있다.
2. 미국의 경제·사회적 ‘낙관 시나리오’ vs. ‘현 체제의 병폐’
2-1. “로어링 20스(Roaring 20s)”에 대한 낙관
질문: “2025~26년 미국과 테크가 가장 이상적으로 흘러간다면 어떤 모습일까?”
답변
마크: 미국은 지리·자원·에너지·인재 면에서 매우 유리한 조건을 타고났다.
(1) 천연자원(에너지 독립 가능), (2) 수많은 이민 인재(두뇌 유입), (3) 테크 기반(모바일, AI 등 리더십) 덕분에 폭발적으로 성장할 잠재력이 있다.
과거 1970년대 스태그플레이션 후 1980년대 초 레이건 시절에 미국이 “Morning in America” 분위기로 반등했듯이, 지금도 충분히 그런 반등이 가능.
2-2. 부정적·병폐적 요소
질문: “지금 분위기는 과거 ’70년대처럼 부정적이고, 규제와 정치적·사회적 냉소가 팽배한데? ”
답변
미국 정부와 관료제는 지나친 규제·검열·비효율 등 “소프트 권위주의”가 되어 버렸다.
“진행자(렉스)가 미국 정서를 느낀 바로도, ‘너무 많은 규제와 검열’이 개개인을 짓누르고 있다.”
많은 문제(범죄 증가, 지나친 정치 올바름 강요, ESG·DEI 과도함 등)로 실리콘밸리와 헐리우드도 좌절감이 컸으나, 최근 대선 이후 “분위기가 바뀌었다”고 느낌.
3. 트럼프 2기 행정부(가정)와 규제·검열 문제
3-1. “트럼프 행정부가 돌아온다면?”
질문: “트럼프 행정부가 2025년 다시 들어서면, 어떻게 체제가 바뀔까?”
답변
마크: “새 행정부는 ‘정부가 시장과 국민의 목을 죄는 것’을 줄이고, ‘낙관적·진취적 분위기’를 되살릴 수 있다.”
이번엔 훨씬 우수한 인재(장·차관 후보, 각 부처 요직 후보 등)를 영입하고 있어서, 첫 임기 때보다 효율적인 팀을 구성할 가능성이 크다.
‘Doge’(대통령 직속 위원회) 등 여러 기구를 통해 규제 완화와 ‘정부 부처 축소’를 대대적으로 시도할 것으로 보임.
3-2. 검열(Censorship) 문제
질문: “정부가 SNS를 검열·압박해온 사례가 최근 많이 드러났다. 이런 ‘정부+테크 검열 체제’를 어떻게 봐야 하나?”
답변
마크: Twitter Files·Facebook 문서(Weaponization committee 증거) 등을 보면, 미국 정부 기관(특히 민주당 정권 시절)이 합헌적 절차 없이 SNS에 검열 압박을 가했던 것은 명백한 불법·위헌적 행위였다.
이런 관행은 ‘행정부 내 규제·행정 권력 남용’의 대표적 사례로서, 향후 제대로 처벌·교정되어야 한다.
4. 대학(고등교육) 문제와 ‘DEI-affirmative action’
4-1. 미국 대학은 구조적으로 회복 불가능?
질문: “미국 명문대(하버드, 스탠퍼드 등)의 무분별한 정치편향, DEI(다양성·형평성·포용성) 프로그램, 표현의 자유 침해, 비정상적 예산 등이 심각하다. 고칠 수 없나?”
답변
마크: 현재 미국 고등교육은 “연방 정부 예산+규제+인증 카르텔” 구조 안에 있어, 내부에서 자체 개혁하기가 거의 불가능하다고 본다.
따라서 근본적으로 “기존 기관을 파산시키고 다시 세우는” 수준의 리셋이 아니면, (특히 아이비리그 등) 고칠 수 없다고 회의적으로 본다.
*렉스는 “아직 재정지원 등으로 테크-인재 양성에 중요한 역할을 하므로, 내부 개혁이 가능하다고 보며, 그걸 희망한다”*고 반론.
마크는 “진짜 리더십이 있어야 가능하지만, 현실적으로 쉽지 않다. 사립대들은 테너(tenure)와 관료층에 의해 장악되어, 실제 ‘학문 자유’는 유명무실한 상태다”라고 강조.
4-2. Affirmative Action / DEI 정책의 문제
질문: “하이테크(실리콘밸리) 측은 이민 ‘H1B’ 등 고급두뇌 유치가 좋다고 말한다. 그러나 그 혜택이 실제 미국 내 중서부, 남부, 흑인·유대인·아시안 등 실제 ‘토박이 인재들’에게는 불리할 수 있는데?”
답변
마크: “Affirmative action(소수자 우대) 자체가 수십 년간 너무 복잡하게 변질되었다.”
예: 실제로는 ‘미국 흑인’에게 기회가 돌아가는 대신, 해외 출신 엘리트(나이지리아, 서인도제도 등)만 상대적으로 더 혜택받는 식으로 운영됨.
유대인과 아시안 학생들은 오히려 더욱 불이익 받음(하버드 사례).
“기업·대학이 ‘미국 내부 인재 개발’ 대신, 간편한 H1B로 해외 스펙 좋은 인재만 뽑는 건 윤리적으로도 문제다.”
결론적으로, “이민정책과 대학입시 정책은 별개로 떼어놓지 말고 통합적으로 봐야 한다. 토박이 인재 발굴 강화+해외 인재 유치 두 가지를 함께 추진해야 한다.”
5. 저널리즘(언론)에 대한 비판과 “권력(파워)의 실제 작동 방식”
5-1. 언론은 ‘CEO를 해고시킬 수 있으나, CEO는 언론인을 못 해고한다’
질문/화두: “언론사가 가진 파워가 생각보다 엄청난데, 왜 이렇게 서로가 ‘누가 진짜 결정권을 갖는가’를 놓고 싸우나?”
답변
마크: 실무적으로 보니, “기자 1명이 대기업 CEO를 사실상 해임/사임/실각시키는 사례는 많지만, 그 반대는 불가능.”
즉, 언론이 ‘해임시킬 수 있는’ 권력(여론몰이)이 막강하나, 언론 조직 내부는 사실상 기자가 주도권을 쥐는 구조라, 사주(오너)조차 기자에게 휘둘림. (LA타임스 등 예시)
5-2. 빌 애크먼(Bill Ackman)의 사례
질문: “빌 애크먼이 언론과 직접 맞서는 행동은 대단히 인상적인데, 어떻게 보는가?”
답변
마크: “빌 애크먼은 원래 ‘행동주의 투자자(activist investor)’로서 대형 기업들 상대로 강력한 압박 전술을 구사하며 노하우를 쌓아왔다.”
그런 스킬을 언론·대학교 등에도 적용, 과감히 ‘폭로’와 소송·법적 압박 등을 걸면서 바꿔나가고 있다. 이는 참신하고도 강력한 행동이다.
6. 인공지능(AI) 경쟁 구도와 혁신
6-1. AI 업체들의 경쟁(오픈AI·메타·구글·xAI 등)
질문: “AI 대규모 모델(LLM) 경쟁은 누가 이길까?”
답변
마크: 미지수. 여러 “트릴리언 달러급 의문”들이 존재한다. 예:
‘Big model vs. Small model’: 거대 모델이 앞으로도 계속 우세할지, 소형 특화 모델이 이길지.
과거에는 매개변수가 수천억~수조 개에 달하는 초대형 모델이 ‘궁극적으로 더 강력할 것’이라는 시각이 있었지만, 최근에는 특정 작업에 특화된 소형 모델이 효율 면에서 더 뛰어날 수 있다는 주장이 힘을 얻고 있다.
어떤 방향이 주류가 될지, 혹은 Big-Model과 Small-Model이 병존(共存)할지 아직 불투명.
‘Open vs. Closed’: 모델을 오픈소스로 풀지, 폐쇄형으로 갈지.
합성 데이터(synthetic data) 가능 여부
거대 모델이 인류가 온라인에 올린 모든 텍스트·이미지·음성 등 데이터를 거의 ‘소진’해버렸다는 논의가 있다.
이후 추가 성능 향상을 위해 합성 데이터(기존 모델이 스스로 생성한 데이터)를 다시 학습하는 방식이 실효성 있을지, 또 품질·편향 문제를 어떻게 해결할지 관건.
체인오브솟(Chain-of-thought) 등 추론 기법이 얼마나 발전할지.
정치·규제 환경이 어떻게 변할지(EU·미국 등).
게다가, 자금(수십억~수천억 달러)이 필요한 분야라, 빅테크와 국가 단위 투자만 가능.
6-2. 앞으로의 “Little Tech(스타트업)” 기회
질문: “코딩을 비롯해 AI가 개발 생산성을 폭증시킨다. 스타트업에 어떤 기회가 있을까?”
답변
AI 코딩이 이미 큰 지각 변동을 일으키는 중. 코딩 진입장벽이 대폭 낮아지고, 1인 창업도 가능해진다.
코딩 진입장벽이 급격히 낮아져서, 개인이나 소규모 팀도 과거보다 훨씬 쉽고 빠르게 애플리케이션을 만들 수 있다.
기존 대기업(구글, MS 등)은 레거시를 갖고 있어 급진적 변신이 어렵다(혁신의 딜레마). 따라서 스타트업들이 AI-first 관점에서 새로 만들 제품이 많을 것.
👍1
완전히 자율형 AI 회사 등 “조직 구조 자체가 AI에 의해 재설계”되는 사례도 나올 것.
기존에는 사람 위주로 팀과 의사결정 구조를 짰지만, 이제 어떤 부분에서 AI가 프로젝트 매니저 역할을 맡거나, 심지어 CEO에 준하는 의사결정을 보조하게 될 수도 있다.
7. ‘인간성(Humanity)’과 ‘종교(Religion)’ 토픽
7-1. 마크의 관점
질문: “베리 바이스 인터뷰에서 신(神)을 믿느냐고 물었을 때 ‘확신은 없다’고 했다. 지금은 어떤가?”
답변
마크: 여전히 완전한 무신론자 혹은 유신론자가 아닌 ‘열린 상태’.
점점 인간·우주에 대해 깊이 배우며, “과학적 설명만으로는 풀리지 않는 엄청난 미스테리”도 있고, 종교가 사회·문화적으로 수행하는 기능이 상당히 중요함을 깨닫는 중.
7-2. “종교 부정 → 가짜 종교를 만든다”
마크: 공산주의·파시즘, 그리고 근래 ‘워크(woke) 이념’ 같은 것은 ‘새로운 종교’처럼 작동한다(에릭 보겔린·니체 등 인용).
무신론적 근대사회에서도 사람은 종교적 집단심리를 대체할 무언가를 만들어낸다. 허무주의가 아니라, ‘실제 종교가’ 혹은 대안이 필요한지 고민해야 한다.
8. ‘성공(Success)’과 개인 삶
8-1. 성공의 정의
질문: “엄청 성공한 사람으로서, 성공이란 무엇이라고 생각하나?”
답변
마크: “(1) 스스로가 ‘기여했다(contribution)’고 느끼는 것, (2) ‘진정한 만족(fulfillment)’을 느끼는 것”이 핵심.
‘행복(happiness)’은 아이스크림 한 번 먹듯 찰나적·감각적 즐거움으로, 추구만 한다고 채워지지 않는다. 궁극적으로는 자기 역할에 대한 깊은 충족감이 중요.
8-2. 안드류 허버먼(Andrew Huberman)에 대한 농담
건강·운동 관련 팁(Huberman Protocol)에 대해선 “알코올 끊는 건 따라 했지만, 빛·수면 습관은 여전히 못 지킨다”고 농담. 헬스 점수는 “3점 정도”라고 스스로 자평.
https://youtu.be/OHWnPOKh_S0
기존에는 사람 위주로 팀과 의사결정 구조를 짰지만, 이제 어떤 부분에서 AI가 프로젝트 매니저 역할을 맡거나, 심지어 CEO에 준하는 의사결정을 보조하게 될 수도 있다.
7. ‘인간성(Humanity)’과 ‘종교(Religion)’ 토픽
7-1. 마크의 관점
질문: “베리 바이스 인터뷰에서 신(神)을 믿느냐고 물었을 때 ‘확신은 없다’고 했다. 지금은 어떤가?”
답변
마크: 여전히 완전한 무신론자 혹은 유신론자가 아닌 ‘열린 상태’.
점점 인간·우주에 대해 깊이 배우며, “과학적 설명만으로는 풀리지 않는 엄청난 미스테리”도 있고, 종교가 사회·문화적으로 수행하는 기능이 상당히 중요함을 깨닫는 중.
7-2. “종교 부정 → 가짜 종교를 만든다”
마크: 공산주의·파시즘, 그리고 근래 ‘워크(woke) 이념’ 같은 것은 ‘새로운 종교’처럼 작동한다(에릭 보겔린·니체 등 인용).
무신론적 근대사회에서도 사람은 종교적 집단심리를 대체할 무언가를 만들어낸다. 허무주의가 아니라, ‘실제 종교가’ 혹은 대안이 필요한지 고민해야 한다.
8. ‘성공(Success)’과 개인 삶
8-1. 성공의 정의
질문: “엄청 성공한 사람으로서, 성공이란 무엇이라고 생각하나?”
답변
마크: “(1) 스스로가 ‘기여했다(contribution)’고 느끼는 것, (2) ‘진정한 만족(fulfillment)’을 느끼는 것”이 핵심.
‘행복(happiness)’은 아이스크림 한 번 먹듯 찰나적·감각적 즐거움으로, 추구만 한다고 채워지지 않는다. 궁극적으로는 자기 역할에 대한 깊은 충족감이 중요.
8-2. 안드류 허버먼(Andrew Huberman)에 대한 농담
건강·운동 관련 팁(Huberman Protocol)에 대해선 “알코올 끊는 건 따라 했지만, 빛·수면 습관은 여전히 못 지킨다”고 농담. 헬스 점수는 “3점 정도”라고 스스로 자평.
https://youtu.be/OHWnPOKh_S0
YouTube
Marc Andreessen: Trump, Power, Tech, AI, Immigration & Future of America | Lex Fridman Podcast #458
Marc Andreessen is an entrepreneur, investor, co-creator of Mosaic, co-founder of Netscape, and co-founder of the venture capital firm Andreessen Horowitz.
Thank you for listening ❤ Check out our sponsors: https://lexfridman.com/sponsors/ep458-sb
See below…
Thank you for listening ❤ Check out our sponsors: https://lexfridman.com/sponsors/ep458-sb
See below…
연방 부채 증가
미국 연방 정부 부채는 총 36.4조 달러(Trillion USD)에 달한다.
미국 GDP는 29.1조 달러이므로 부채 대비 GDP 비율은 약 125% 수준이다.
2020년 이후 연방 부채는 80% 증가했지만, GDP는 불과 약 38% 증가에 그쳤다.
높은 금리와 큰 재정적자
미국 연준(Federal Reserve)이 금리를 인상했다가 일부 인하했음에도, 장기금리는 계속 상승 추세를 보였다.
현재 미국 정부는 약 2조 달러(대략 GDP의 7%) 수준의 연간 재정적자를 내고 있다.
연간 이자 비용만 1조 달러를 넘어선다.
미 의회예산국(CBO)의 전망
향후 2035년까지 연간 재정적자는 GDP의 평균 6.1%에 이를 것으로 예상된다. 이는 지난 50년 평균치인 3.8%보다 높다.
정부 부채는 향후 10년 동안 추가로 24조 달러 이상 증가할 것으로 전망되며, 이는 여타 잠재적 감세 조치 등을 고려하기 전의 수치다.
단기 부채 사이클 vs 장기 부채 사이클
단기 부채 사이클(평균 약 6년 주기)
전형적인 경기 확장-붕괴(boom-bust) 흐름으로, 결국 금리인상으로 막을 내린다.
미국은 1945년 이후 대략 12.5회의 단기 사이클을 겪었다.
장기 부채 사이클(대략 75~80년 주기)
한 세대를 넘어서 지속되기에, 사람들에게는 잊히기 쉽다.
미국은 1945년에 시작된 약 80년짜리 장기 부채 사이클의 말기에 접어들었다.
역사적으로 화폐-부채 시스템의 약 80%가 100년 안에 붕괴하거나 근본적으로 변화했다.
대규모 부채 사이클의 5단계
건실한 통화 단계(Sound Money Stage)
부채 비중이 낮고, 통화가 안정적이며 국가 경쟁력이 견고하다.
부채 버블 단계(Debt Bubble Stage)
부채/투자가 급증하지만, 이를 상환할 소득의 증가 속도를 넘어서게 된다.
정점 단계(Top Stage)
버블이 터지고, 초과 신용공급이 중단되며 시장이 축소된다.
디레버리징(Deleveraging) 단계
중앙은행이 채권 매입(=부채 화폐화)을 통해 신용 위기를 완화하려고 개입한다.
사이클의 ‘종말’
통화가치 하락 또는 인플레이션이 크게 발생하는 형태로 부채가 재구조화(reset)되거나 기본적으로 다시 짜여진다.
부채 위기의 신호
4.1 경고 징후
“죽음의 소용돌이(Death Spiral)”
정부(또는 특정 주체)가 기존 부채의 이자만 갚기 위해 신규 차입을 계속해야 하는 상황.
투자자의 신뢰가 흔들려 금리가 더 오르고, 이는 다시 더 많은 차입을 야기해 악순환에 빠진다.
수요-공급 불균형(Supply-Demand Imbalance)
기존 채권 보유자들이 대거 채권을 매도하고, 정부는 동시에 부채를 추가 발행할 경우, 시장에 채권 물량이 넘쳐 금리가 급등한다.
부채 화폐화(Monetization)
중앙은행이 채권을 사들이면서 통화량을 늘린다. 이는 인플레이션 및 통화 가치 하락으로 귀결된다.
통화 발행과 인플레이션의 결과
데이브는 명목상(nominal)으로 시장이 “오른다” 해도 통화가 추가 발행되면 화폐 가치가 하락한다고 지적한다.
실제 구매력(Real purchasing power)은 지수의 상승과 무관하게 정체되거나 감소할 수 있다.
역사적 예시(1966~1984년 미국)
명목 지수는 어느 시점 반등했지만, 인플레이션을 감안하면 주식시장 가치가 약 60~70% 떨어진 셈이 된다.
전면적 위기를 피하기 위한 정책 선택지
레이와 데이브는 정부가 부채를 조정하기 위해 행사할 수 있는 4가지 대표적 ‘레버(lever)’를 꼽는다:
1. 지출 삭감(긴축)
재정적자를 줄이지만, 국민 서비스가 줄고 경제가 침체될 수 있다.
2, 증세
정부 수입이 늘지만, 국민들에게 세 부담을 주며 기업 활동에 부정적 요인이 될 수 있다.
3. 부채 재구조화(Restructure Debt)
부분적 채무불이행(default)이나 만기 연장 등을 통해 채권자에게 직접적인 손실을 주거나 상환 시기를 뒤로 미룬다.
4. 중앙은행을 통한 화폐화(Central Bank Monetization)
(돈 찍어내기) 인플레이션을 일으키고 통화 가치를 떨어뜨려, 사실상 현금·채권 보유자에게 세금 효과를 준다.
레이의 “3% 방안”:
1. 연방 재정적자를 (현재 예측치 7% 수준에서) GDP의 3%로 빨리 낮출 것.
2. 경기가 양호한 시기에 재정지출을 줄이는 것이 훨씬 수월하며, 지연될수록 더 극단적 조치가 요구된다.
3. 정치 지도자들은 해당 목표(3%)를 “확실히 책임지고” 실행해야 하며, 어려운 결정을 미루면 안 된다고 강조한다.
AI와 기술의 역할
AI는 장기적으로 생산성과 기업 이윤을 높일 수 있다. 하지만 단기에는 대량 실직과 같은 혼란을 일으켜 추가 복지 지출 압박(예: 안전망, 기본소득 등)을 초래할 수 있다.
레이가 지적하는 몇 가지 사항:
AI와 관련된 국가 전략에서 “이익(profit)은 중요치 않다.” 즉, 미국과 중국 모두 ‘AI 경쟁’에서 패배할 여유가 없기 때문이다.
이 경쟁은 칩 보조금, R&D 투자 등으로 재정지출을 더욱 부추길 수 있다.
AI의 생산성 향상으로 언젠가 세수(稅收)가 늘겠지만, 단기 적자 문제를 해결하기엔 너무 늦을 수 있다.
미·중 갈등
AI 경쟁이 전략적 대립을 가속한다.
레이는 중국이 손자병법(“직접적 전쟁은 최후의 수단, 교묘한 책략이나 기만이 낫다”)을 예로 들며, 중국의 접근 방식을 설명한다.
분열과 갈등
“글로벌 규범 체계”가 부재해 협력이 어려워지고, “힘이 곧 정의(might is right)”라는 분위기가 강해진다.
동시에 여러 국가에서 내부적 양극화가 심화한다.
레이는 세계대전 전이나 냉전 전 같은 기류가 일부 보인다고 말한다. 국방비 증가 등으로 적자가 더욱 부담될 전망이다.
https://youtu.be/1_rvVTuGRNE
미국 연방 정부 부채는 총 36.4조 달러(Trillion USD)에 달한다.
미국 GDP는 29.1조 달러이므로 부채 대비 GDP 비율은 약 125% 수준이다.
2020년 이후 연방 부채는 80% 증가했지만, GDP는 불과 약 38% 증가에 그쳤다.
높은 금리와 큰 재정적자
미국 연준(Federal Reserve)이 금리를 인상했다가 일부 인하했음에도, 장기금리는 계속 상승 추세를 보였다.
현재 미국 정부는 약 2조 달러(대략 GDP의 7%) 수준의 연간 재정적자를 내고 있다.
연간 이자 비용만 1조 달러를 넘어선다.
미 의회예산국(CBO)의 전망
향후 2035년까지 연간 재정적자는 GDP의 평균 6.1%에 이를 것으로 예상된다. 이는 지난 50년 평균치인 3.8%보다 높다.
정부 부채는 향후 10년 동안 추가로 24조 달러 이상 증가할 것으로 전망되며, 이는 여타 잠재적 감세 조치 등을 고려하기 전의 수치다.
단기 부채 사이클 vs 장기 부채 사이클
단기 부채 사이클(평균 약 6년 주기)
전형적인 경기 확장-붕괴(boom-bust) 흐름으로, 결국 금리인상으로 막을 내린다.
미국은 1945년 이후 대략 12.5회의 단기 사이클을 겪었다.
장기 부채 사이클(대략 75~80년 주기)
한 세대를 넘어서 지속되기에, 사람들에게는 잊히기 쉽다.
미국은 1945년에 시작된 약 80년짜리 장기 부채 사이클의 말기에 접어들었다.
역사적으로 화폐-부채 시스템의 약 80%가 100년 안에 붕괴하거나 근본적으로 변화했다.
대규모 부채 사이클의 5단계
건실한 통화 단계(Sound Money Stage)
부채 비중이 낮고, 통화가 안정적이며 국가 경쟁력이 견고하다.
부채 버블 단계(Debt Bubble Stage)
부채/투자가 급증하지만, 이를 상환할 소득의 증가 속도를 넘어서게 된다.
정점 단계(Top Stage)
버블이 터지고, 초과 신용공급이 중단되며 시장이 축소된다.
디레버리징(Deleveraging) 단계
중앙은행이 채권 매입(=부채 화폐화)을 통해 신용 위기를 완화하려고 개입한다.
사이클의 ‘종말’
통화가치 하락 또는 인플레이션이 크게 발생하는 형태로 부채가 재구조화(reset)되거나 기본적으로 다시 짜여진다.
부채 위기의 신호
4.1 경고 징후
“죽음의 소용돌이(Death Spiral)”
정부(또는 특정 주체)가 기존 부채의 이자만 갚기 위해 신규 차입을 계속해야 하는 상황.
투자자의 신뢰가 흔들려 금리가 더 오르고, 이는 다시 더 많은 차입을 야기해 악순환에 빠진다.
수요-공급 불균형(Supply-Demand Imbalance)
기존 채권 보유자들이 대거 채권을 매도하고, 정부는 동시에 부채를 추가 발행할 경우, 시장에 채권 물량이 넘쳐 금리가 급등한다.
부채 화폐화(Monetization)
중앙은행이 채권을 사들이면서 통화량을 늘린다. 이는 인플레이션 및 통화 가치 하락으로 귀결된다.
통화 발행과 인플레이션의 결과
데이브는 명목상(nominal)으로 시장이 “오른다” 해도 통화가 추가 발행되면 화폐 가치가 하락한다고 지적한다.
실제 구매력(Real purchasing power)은 지수의 상승과 무관하게 정체되거나 감소할 수 있다.
역사적 예시(1966~1984년 미국)
명목 지수는 어느 시점 반등했지만, 인플레이션을 감안하면 주식시장 가치가 약 60~70% 떨어진 셈이 된다.
전면적 위기를 피하기 위한 정책 선택지
레이와 데이브는 정부가 부채를 조정하기 위해 행사할 수 있는 4가지 대표적 ‘레버(lever)’를 꼽는다:
1. 지출 삭감(긴축)
재정적자를 줄이지만, 국민 서비스가 줄고 경제가 침체될 수 있다.
2, 증세
정부 수입이 늘지만, 국민들에게 세 부담을 주며 기업 활동에 부정적 요인이 될 수 있다.
3. 부채 재구조화(Restructure Debt)
부분적 채무불이행(default)이나 만기 연장 등을 통해 채권자에게 직접적인 손실을 주거나 상환 시기를 뒤로 미룬다.
4. 중앙은행을 통한 화폐화(Central Bank Monetization)
(돈 찍어내기) 인플레이션을 일으키고 통화 가치를 떨어뜨려, 사실상 현금·채권 보유자에게 세금 효과를 준다.
레이의 “3% 방안”:
1. 연방 재정적자를 (현재 예측치 7% 수준에서) GDP의 3%로 빨리 낮출 것.
2. 경기가 양호한 시기에 재정지출을 줄이는 것이 훨씬 수월하며, 지연될수록 더 극단적 조치가 요구된다.
3. 정치 지도자들은 해당 목표(3%)를 “확실히 책임지고” 실행해야 하며, 어려운 결정을 미루면 안 된다고 강조한다.
AI와 기술의 역할
AI는 장기적으로 생산성과 기업 이윤을 높일 수 있다. 하지만 단기에는 대량 실직과 같은 혼란을 일으켜 추가 복지 지출 압박(예: 안전망, 기본소득 등)을 초래할 수 있다.
레이가 지적하는 몇 가지 사항:
AI와 관련된 국가 전략에서 “이익(profit)은 중요치 않다.” 즉, 미국과 중국 모두 ‘AI 경쟁’에서 패배할 여유가 없기 때문이다.
이 경쟁은 칩 보조금, R&D 투자 등으로 재정지출을 더욱 부추길 수 있다.
AI의 생산성 향상으로 언젠가 세수(稅收)가 늘겠지만, 단기 적자 문제를 해결하기엔 너무 늦을 수 있다.
미·중 갈등
AI 경쟁이 전략적 대립을 가속한다.
레이는 중국이 손자병법(“직접적 전쟁은 최후의 수단, 교묘한 책략이나 기만이 낫다”)을 예로 들며, 중국의 접근 방식을 설명한다.
분열과 갈등
“글로벌 규범 체계”가 부재해 협력이 어려워지고, “힘이 곧 정의(might is right)”라는 분위기가 강해진다.
동시에 여러 국가에서 내부적 양극화가 심화한다.
레이는 세계대전 전이나 냉전 전 같은 기류가 일부 보인다고 말한다. 국방비 증가 등으로 적자가 더욱 부담될 전망이다.
https://youtu.be/1_rvVTuGRNE
YouTube
Ray Dalio: US Debt Spiral, How to Avoid Disaster | The All-In Interview
(0:00) Ray Dalio joins Friedberg!
(0:50) The current US fiscal situation
(6:23) Breaking down "The Big Debt Cycle," a potential US debt spiral, and the impact on real wealth
(24:54) USD vs other currencies and assets, best hedges against the dollar
(33:20)…
(0:50) The current US fiscal situation
(6:23) Breaking down "The Big Debt Cycle," a potential US debt spiral, and the impact on real wealth
(24:54) USD vs other currencies and assets, best hedges against the dollar
(33:20)…
1) DeepSeek r1은 실제이며 중요한 미묘함이 존재한다.
가장 중요한 것은 r1이 o1에 비해 추론(inference) 비용이 훨씬 저렴하고 효율적이라는 점이다. 6백만 달러라는 학습비용($6m training figure) 자체보다 이 부분이 본질적이다. r1은 o1 대비 API 당 비용이 93% 적게 들며, 고급 워크스테이션에서 로컬로 구동할 수 있을 뿐 아니라, 어떤 레이트 리밋(rate limit)도 걸리지 않은 듯 보여 매우 놀랍다. 간단히 말해, 활성 파라미터(active parameters) 10억 개당 FP8에서 1GB RAM이 필요하므로, r1은 총 37GB RAM이 필요하다. 배칭(batching)을 통해 비용을 크게 절감할 수 있고, 더 높은 연산 능력을 통해 초당 토큰 처리(tokens/second)를 늘릴 수 있으므로 여전히 클라우드에서 추론하는 이점은 남아 있다. 또한, 지리·정치적 역학 관계도 존재하며, “Stargate” 이후 이 모델이 공개된 것이 우연이 아니라고 본다. “안녕, 5천억 달러여(RIP, $500 billion) - 우린 네 존재를 잠깐밖에 알지 못했어.”
실제로 확인된 것들:
관련 앱 스토어 카테고리에서 다운로드 1위를 기록했다. ChatGPT보다 앞섰으며, 이는 Gemini나 Claude도 못했던 일이다.
품질 면에서 o1과 비슷하지만, o3보다는 뒤처진다.
학습 및 추론 효율을 극적으로 개선한 진정한 알고리즘적 혁신이 있었다. FP8에서의 학습, MLA, 멀티 토큰 예측 등이 그 예시다.
r1 학습 비용이 단 6백만 달러라는 사실은 엄연히 사실이지만, 이는 심각하게 오해를 부를 소지가 있다.
하드웨어 아키텍처조차 새롭고, 스케일 업에 PCI-Express를 쓴다는 점이 언급되고 있다.
미묘한 부분:
6백만 달러에는 “아키텍처, 알고리즘, 데이터에 대한 사전 연구 및 소거 연구(ablation experiments)와 관련된 비용”이 포함되지 않는다고 논문에서 밝힌다. “그것만 빼면, 링컨 대통령 부인, 연극은 어땠나요?”라는 비유처럼, 이미 연구에 수억 달러를 쏟고 훨씬 큰 클러스터에 접근 가능해야만 6백만 달러짜리 r1 모델을 만들 수 있다는 뜻이다. Deepseek은 분명 2,048개의 H800 이상의 자원을 훨씬 더 갖추고 있으며, 이전 논문에서 이미 1만 개 A100 클러스터를 언급한 적이 있다. 똑같이 유능한 연구 팀이라 해도, GPU 2천 장으로 구성된 클러스터만으로 6백만 달러에 r1을 처음부터 학습하기는 불가능하다. 엔비디아 매출의 약 20%가 싱가포르를 경유하며, 그들이 아무리 노력해도 엔비디아 GPU의 20%가 실제 싱가포르에 있는 것은 아닐 것이라는 식이다.
지식 증류(distillation)가 상당히 이루어졌다. 즉, 제한 없이 GPT-4o와 o1에 접근할 수 없었다면 이 모델을 학습하기 힘들었을 것이다.
@altcap 님이 어제 지적했듯, 선두급 GPU 수출은 제한하면서 중국이 선도적 미국 모델을 그대로 증류(distill)해버리는 일에 대해 아무 조치도 하지 않는다는 것은 모순이다. “젖소를 살 필요 없이 그냥 우유만 공짜로 얻으면 되지 않나?”라는 비유가 성립한다.
2) 결론:
학습 비용이 줄어들수록 AI의 투자 수익률(ROI)은 높아질 것이다.
가까운 시일 내에, 이것이 학습 관련 설비 지출(training capex)이나 “전력(power)” 테마에 긍정적으로 작용할 가능성은 없어 보인다.
기술, 산업, 에너지, 유틸리티 분야에서 “AI 인프라”로 이득을 보고 있는 현재 승자들에게 가장 큰 리스크는 r1의 증류 버전을 고급 워크스테이션(누군가는 Mac Studio Pro를 언급)을 통해 엣지에서 로컬로 가동할 수 있게 되는 상황이다. 2년 후쯤이면 이와 비슷한 모델이 “슈퍼폰(superphone)”에서 구동될 가능성도 있다. 추론이 “충분히 괜찮은(good enough)” 수준에서 엣지로 옮겨간다면, 우리가 알던 세계와 승자 구도가 완전히 달라지며, PC·스마트폰 분야에서 역대급 업그레이드 사이클이 일어날 수 있다. 중앙 집중과 분산은 컴퓨팅 역사에서 계속 반복되어 왔다.
ASI(인공 초지능)가 정말, 정말 가까워졌고, 초지능이 가져올 경제적 수익에 대해서도 아무도 정확히 알지 못한다. 만약 1000억 달러 규모로 구축된, 10만 대가 넘는 Blackwell(차세대 NVIDIA GPU)로 학습한 추론 모델(o5, Gemini 3, Grok 4 등)이 암을 치료하고 워프 드라이브를 발명해낸다면, ASI의 투자 수익은 매우 클 것이고, 학습 자본지출과 전력 소비는 꾸준히 증가할 것이다. 다이슨 스피어(Dyson Spheres)가 페르미 역설에 대한 최적의 해답으로 다시 떠오를 수도 있겠다. 개인적으로는 ASI가 높은 수익을 가져다주길 바란다. 정말 멋진 일일 테니.
이는 AI를 활용하는 기업들(소프트웨어, 인터넷 등)에 매우 긍정적이다.
경제적으로 볼 때, 이로 인해 유통(distribution)과 고유(Funique) 데이터의 가치가 크게 올라간다. 예를 들면 YouTube, Facebook, Instagram, X 등이 해당된다.
미국 연구소들은 r1 학습에 필수적이었던 증류(distillation)를 막기 위해 선도급 모델을 공개하지 않을 가능성이 크지만, 이미 정보가 완전히 새어 나갔을 수도 있다. 즉, r1이 있으면 r2를 만들 수도 있지 않겠냐는 이야기다.
마지막으로, Grok-3가 등장함에 따라 위 결론이 크게 변할 수도 있다.
이는 GPT-4 이후 사전 학습(pre-training) 분야에서 스케일링 법칙을 본격적으로 시험하는 첫 사례가 될 전망이다. 과거 v3에서 r1로 전환하기 위해 며칠간의 RL(강화 학습)을 거쳤던 것처럼, Grok-3의 추론 능력을 높이려면 몇 주간 RL을 진행해야 할 것이다. 베이스 모델(base model)이 우수할수록, 사후 학습(post-training) 단계에서 강화 학습(RL)을 더해 최종 추론 시점의 계산(test-time compute)을 늘렸을 때 얻을 수 있는 시너지 효과가 큰 법이다(이 세 가지 스케일링 법칙은 곱셈 관계라고 할 수 있다). 이미 Grok-3는 o1에 비해 더 많은 작업을 수행할 수 있음을 보여줬다(“Tesseract 데모” 참조). 어느 정도까지 앞서 있는지가 관건이다. “두 개의 탑(The Two Towers)”에 나오는 한 이름 없는 오크의 말을 빌자면, 고기가 곧 식탁에 다시 오를 것 같다. 결국 시간만이 답을 알려줄 것이며, “사실이 바뀌면, 내 생각도 바뀐다.”
https://x.com/GavinSBaker/status/1883891311473782995
가장 중요한 것은 r1이 o1에 비해 추론(inference) 비용이 훨씬 저렴하고 효율적이라는 점이다. 6백만 달러라는 학습비용($6m training figure) 자체보다 이 부분이 본질적이다. r1은 o1 대비 API 당 비용이 93% 적게 들며, 고급 워크스테이션에서 로컬로 구동할 수 있을 뿐 아니라, 어떤 레이트 리밋(rate limit)도 걸리지 않은 듯 보여 매우 놀랍다. 간단히 말해, 활성 파라미터(active parameters) 10억 개당 FP8에서 1GB RAM이 필요하므로, r1은 총 37GB RAM이 필요하다. 배칭(batching)을 통해 비용을 크게 절감할 수 있고, 더 높은 연산 능력을 통해 초당 토큰 처리(tokens/second)를 늘릴 수 있으므로 여전히 클라우드에서 추론하는 이점은 남아 있다. 또한, 지리·정치적 역학 관계도 존재하며, “Stargate” 이후 이 모델이 공개된 것이 우연이 아니라고 본다. “안녕, 5천억 달러여(RIP, $500 billion) - 우린 네 존재를 잠깐밖에 알지 못했어.”
실제로 확인된 것들:
관련 앱 스토어 카테고리에서 다운로드 1위를 기록했다. ChatGPT보다 앞섰으며, 이는 Gemini나 Claude도 못했던 일이다.
품질 면에서 o1과 비슷하지만, o3보다는 뒤처진다.
학습 및 추론 효율을 극적으로 개선한 진정한 알고리즘적 혁신이 있었다. FP8에서의 학습, MLA, 멀티 토큰 예측 등이 그 예시다.
r1 학습 비용이 단 6백만 달러라는 사실은 엄연히 사실이지만, 이는 심각하게 오해를 부를 소지가 있다.
하드웨어 아키텍처조차 새롭고, 스케일 업에 PCI-Express를 쓴다는 점이 언급되고 있다.
미묘한 부분:
6백만 달러에는 “아키텍처, 알고리즘, 데이터에 대한 사전 연구 및 소거 연구(ablation experiments)와 관련된 비용”이 포함되지 않는다고 논문에서 밝힌다. “그것만 빼면, 링컨 대통령 부인, 연극은 어땠나요?”라는 비유처럼, 이미 연구에 수억 달러를 쏟고 훨씬 큰 클러스터에 접근 가능해야만 6백만 달러짜리 r1 모델을 만들 수 있다는 뜻이다. Deepseek은 분명 2,048개의 H800 이상의 자원을 훨씬 더 갖추고 있으며, 이전 논문에서 이미 1만 개 A100 클러스터를 언급한 적이 있다. 똑같이 유능한 연구 팀이라 해도, GPU 2천 장으로 구성된 클러스터만으로 6백만 달러에 r1을 처음부터 학습하기는 불가능하다. 엔비디아 매출의 약 20%가 싱가포르를 경유하며, 그들이 아무리 노력해도 엔비디아 GPU의 20%가 실제 싱가포르에 있는 것은 아닐 것이라는 식이다.
지식 증류(distillation)가 상당히 이루어졌다. 즉, 제한 없이 GPT-4o와 o1에 접근할 수 없었다면 이 모델을 학습하기 힘들었을 것이다.
@altcap 님이 어제 지적했듯, 선두급 GPU 수출은 제한하면서 중국이 선도적 미국 모델을 그대로 증류(distill)해버리는 일에 대해 아무 조치도 하지 않는다는 것은 모순이다. “젖소를 살 필요 없이 그냥 우유만 공짜로 얻으면 되지 않나?”라는 비유가 성립한다.
2) 결론:
학습 비용이 줄어들수록 AI의 투자 수익률(ROI)은 높아질 것이다.
가까운 시일 내에, 이것이 학습 관련 설비 지출(training capex)이나 “전력(power)” 테마에 긍정적으로 작용할 가능성은 없어 보인다.
기술, 산업, 에너지, 유틸리티 분야에서 “AI 인프라”로 이득을 보고 있는 현재 승자들에게 가장 큰 리스크는 r1의 증류 버전을 고급 워크스테이션(누군가는 Mac Studio Pro를 언급)을 통해 엣지에서 로컬로 가동할 수 있게 되는 상황이다. 2년 후쯤이면 이와 비슷한 모델이 “슈퍼폰(superphone)”에서 구동될 가능성도 있다. 추론이 “충분히 괜찮은(good enough)” 수준에서 엣지로 옮겨간다면, 우리가 알던 세계와 승자 구도가 완전히 달라지며, PC·스마트폰 분야에서 역대급 업그레이드 사이클이 일어날 수 있다. 중앙 집중과 분산은 컴퓨팅 역사에서 계속 반복되어 왔다.
ASI(인공 초지능)가 정말, 정말 가까워졌고, 초지능이 가져올 경제적 수익에 대해서도 아무도 정확히 알지 못한다. 만약 1000억 달러 규모로 구축된, 10만 대가 넘는 Blackwell(차세대 NVIDIA GPU)로 학습한 추론 모델(o5, Gemini 3, Grok 4 등)이 암을 치료하고 워프 드라이브를 발명해낸다면, ASI의 투자 수익은 매우 클 것이고, 학습 자본지출과 전력 소비는 꾸준히 증가할 것이다. 다이슨 스피어(Dyson Spheres)가 페르미 역설에 대한 최적의 해답으로 다시 떠오를 수도 있겠다. 개인적으로는 ASI가 높은 수익을 가져다주길 바란다. 정말 멋진 일일 테니.
이는 AI를 활용하는 기업들(소프트웨어, 인터넷 등)에 매우 긍정적이다.
경제적으로 볼 때, 이로 인해 유통(distribution)과 고유(Funique) 데이터의 가치가 크게 올라간다. 예를 들면 YouTube, Facebook, Instagram, X 등이 해당된다.
미국 연구소들은 r1 학습에 필수적이었던 증류(distillation)를 막기 위해 선도급 모델을 공개하지 않을 가능성이 크지만, 이미 정보가 완전히 새어 나갔을 수도 있다. 즉, r1이 있으면 r2를 만들 수도 있지 않겠냐는 이야기다.
마지막으로, Grok-3가 등장함에 따라 위 결론이 크게 변할 수도 있다.
이는 GPT-4 이후 사전 학습(pre-training) 분야에서 스케일링 법칙을 본격적으로 시험하는 첫 사례가 될 전망이다. 과거 v3에서 r1로 전환하기 위해 며칠간의 RL(강화 학습)을 거쳤던 것처럼, Grok-3의 추론 능력을 높이려면 몇 주간 RL을 진행해야 할 것이다. 베이스 모델(base model)이 우수할수록, 사후 학습(post-training) 단계에서 강화 학습(RL)을 더해 최종 추론 시점의 계산(test-time compute)을 늘렸을 때 얻을 수 있는 시너지 효과가 큰 법이다(이 세 가지 스케일링 법칙은 곱셈 관계라고 할 수 있다). 이미 Grok-3는 o1에 비해 더 많은 작업을 수행할 수 있음을 보여줬다(“Tesseract 데모” 참조). 어느 정도까지 앞서 있는지가 관건이다. “두 개의 탑(The Two Towers)”에 나오는 한 이름 없는 오크의 말을 빌자면, 고기가 곧 식탁에 다시 오를 것 같다. 결국 시간만이 답을 알려줄 것이며, “사실이 바뀌면, 내 생각도 바뀐다.”
https://x.com/GavinSBaker/status/1883891311473782995
X (formerly Twitter)
Gavin Baker (@GavinSBaker) on X
1) DeepSeek r1 is real with important nuances. Most important is the fact that r1 is so much cheaper and more efficient to inference than o1, not from the $6m training figure. r1 costs 93% less to *use* than o1 per each API, can be run locally on a high…
Continuous Learning_Startup & Investment
1) DeepSeek r1은 실제이며 중요한 미묘함이 존재한다. 가장 중요한 것은 r1이 o1에 비해 추론(inference) 비용이 훨씬 저렴하고 효율적이라는 점이다. 6백만 달러라는 학습비용($6m training figure) 자체보다 이 부분이 본질적이다. r1은 o1 대비 API 당 비용이 93% 적게 들며, 고급 워크스테이션에서 로컬로 구동할 수 있을 뿐 아니라, 어떤 레이트 리밋(rate limit)도 걸리지 않은 듯 보여 매우 놀랍다. 간단히…
만약 Deepseek(가령 중국 배후라고 가정)이 GPT 모델로부터 불법적 또는 약관을 위반하는 형태로 지식 증류를 진행했다는 걸 미국 정부가 공식 인정하면, 대중국 기술 수출 제한을 더 강하게 추진할 명분이 커질 수도 있겠다.
더 좋은 모델을 만들기 위한 ‘더 높은 스케일’과 ‘더 좋은 데이터’
빅테크(메타, 구글, X 등)는 엄청난 데이터와 GPU 스케일/자본 그리고 인재를 모두 갖추고 있기에 앞으로 더 좋은 모델을 만드는 데 다른 곳보다 더 앞서 있음.
지금 엄청난 CAPEX를 붓는 플레이어들이 이 과실을 누리는 플레이어가 아닐수도 있다. DeepSeek이 Open AI모델을 Distillation했던 것처럼 앞으로 비슷한 사례들은 더 많이 나올 것. 후발 주자들이 해볼 수 있는 플레이는 크게 세가지 정도가 있다고 생각함.
1. 특정 도메인 특화 모델/Agent 개발
산업별로 다른 요구사항(의료, 법률, 교육 등)에 맞추어 모델을 커스터마이징하거나, 대화형 에이전트 형태로 제공해 부가가치를 창출
대규모 모델을 그대로 쓸 수도 있지만, 더 작은 모델에 증류(distillation)하여 특정 업무에 최적화하면 차별화가 가능
2. 애플리케이션으로 돈을 버는 플레이어
사용자는 어떤 모델을 쓰는 것보다 당장 자신의 문제를 해결해주길 원하기 때문에 AI Model을 잘 Wrapping한 서비스들이 돈을 벌 수 있는 기회가 있음.
3. 사용자 환경(UX)을 장악한 기업(구글, 애플 등)
구글/애플은 스마트 폰, 웹 브라우저 등을 장악하고 있기에 여기에 AI를 붙여서 기존 점유율을 유지할 수 있음. 모델 개발 열심히 한 Capex를 크게 지출하지 않고 사용자들이 여러 모델을 사용할 수 있게 지원함.
더 좋은 모델을 만들기 위한 ‘더 높은 스케일’과 ‘더 좋은 데이터’
빅테크(메타, 구글, X 등)는 엄청난 데이터와 GPU 스케일/자본 그리고 인재를 모두 갖추고 있기에 앞으로 더 좋은 모델을 만드는 데 다른 곳보다 더 앞서 있음.
지금 엄청난 CAPEX를 붓는 플레이어들이 이 과실을 누리는 플레이어가 아닐수도 있다. DeepSeek이 Open AI모델을 Distillation했던 것처럼 앞으로 비슷한 사례들은 더 많이 나올 것. 후발 주자들이 해볼 수 있는 플레이는 크게 세가지 정도가 있다고 생각함.
1. 특정 도메인 특화 모델/Agent 개발
산업별로 다른 요구사항(의료, 법률, 교육 등)에 맞추어 모델을 커스터마이징하거나, 대화형 에이전트 형태로 제공해 부가가치를 창출
대규모 모델을 그대로 쓸 수도 있지만, 더 작은 모델에 증류(distillation)하여 특정 업무에 최적화하면 차별화가 가능
2. 애플리케이션으로 돈을 버는 플레이어
사용자는 어떤 모델을 쓰는 것보다 당장 자신의 문제를 해결해주길 원하기 때문에 AI Model을 잘 Wrapping한 서비스들이 돈을 벌 수 있는 기회가 있음.
3. 사용자 환경(UX)을 장악한 기업(구글, 애플 등)
구글/애플은 스마트 폰, 웹 브라우저 등을 장악하고 있기에 여기에 AI를 붙여서 기존 점유율을 유지할 수 있음. 모델 개발 열심히 한 Capex를 크게 지출하지 않고 사용자들이 여러 모델을 사용할 수 있게 지원함.
“가장 정확한 말은 ‘모른다’ 또는 ‘시간이 지나면 알게 될 것’이다.”
지금까지의 AI 투자 성과(ROI)는 “분명히 긍정적”
ROIC(투하자본수익률)가 개선
대규모 AI 지출을 한 기업들의 ROIC가 지난 1년 사이 크게 상승했다.
이유의 대부분은 광고 타게팅(맞춤형)·크리에이티브 개선 → 광고주 ROAS(광고비 대비 매출) 상승 → 광고비 지출 증가 → 수익 증가 순서의 가치사슬을 통해 수익이 늘어났기 때문.
구체적 예시
Performance Max(PMax), Advantage Plus 등 고도화된 광고 시스템을 통해 광고 효율이 크게 향상되면서, 2023년 초부터 대형 인터넷 광고 기업의 매출 성장률이 명확히 가속화됨.
이는 단순히 GDP 추세만으로는 설명 불가. AI 기반 타겟팅이 역할을 했다는 증거라는 것.
GPU가 다양하게 사용됨
AI 워크로드(훈련·추론)에 따라 GPU는 재배치가 가능하므로(훈련 후에는 추천 알고리즘 등 추론용으로 사용), ASIC이 덜 확산된 원인 중 하나다.
AI 도입으로 인건비 절감(opex 감소) 효과도 일부 존재
AI가 사람 노동을 대체 또는 보완 → GPU 형태의 capex 증가가 있지만, 이는 인건비 절감과 생산성 향상을 동반함.
결론
“지금까지는 AI 도입이 명백히 수익 개선으로 이어졌다. 대형 GPU 투자 기업의 ROIC가 떨어지지 않는 한, AI가 ‘쓸모없다’는 식의 비판은 설득력이 없다.”
스케일링 법칙 vs 경제학 충돌 가능성
스케일링 법칙이 유효할지 확실치 않음
거의 모든 최첨단 AI 종사자는 스케일링 법칙(모델 파라미터·컴퓨팅 자원이 증가하면 성능이 지속적으로 향상된다는 가설)이 향후에도 유지될 것이라고 믿지만, 절대적인 확신은 없다.
GPT-5 초기 체크포인트에서 스케일링이 유효함을 암시한다고 전해지지만, 여전히 “아무도 100% 장담 못 한다.”
만약 스케일링 법칙이 계속 맞다면…
2026~2027년에 훈련될 모델들은 단일 클러스터 구축비만 수천억 달러(“$100B+”)가 들 수 있음.
일부 기업에서 5~10 GW급(기가와트) 데이터센터를 논의 중이라는 소문도 있어, 이는 클러스터가 “수백억 달러”가 아니라 “수천억 달러”의 투자 비용을 필요로 할 수 있음을 시사.
그 시점에 ROI가 떨어질 수도
스케일링 법칙이 유효하되 “획기적 기술 돌파구”가 없다면, 경제학적으로 너무 큰 투자 부담이 발생 → ROIC 하락 가능성.
이때가 되면, “AI 투자 정말 가치 있나?”라는 실질 논쟁이 현실적인 근거를 얻게 될 것이라고 예측.
스케일링을 가능케 하는 건 GPU·네트워크·메모리·스토리지의 기술 혁신
“하드웨어 로드맵”
GPU(A100 등), XPUs, 차세대 NVLink/InfinityFabric/PCIe가 계속해서 성능을 올려줘야 모델 사이즈 확대(스케일링)가 유지된다는 것.
볼타(Volta) 이후로 스케일링 법칙 곡선이 매우 안정적으로 보였지만, 어느 지점에선 “끊길 수도 있다.”
기술 로드맵이 1~2차례 더 큰 성능 도약(10배↑)을 가능케 해줘야 확실히 테스트해볼 수 있을 것이나, “정말 왜 스케일링 법칙이 맞는지는 모른다. 일단 ‘곡선을 믿어라’가 현재까지 승리 전략.”
매년 새로운 GPU/네트워크가 나온다면
매년 훨씬 큰 클러스터 구축이 가능해진다.
AI 모델의 가치가 1~1.5년 지나면 (새로운 기술 등장 시점에) 거의 가치가 ‘0’으로 급락(“90%+ 감가상각”)할 수도 있음.
즉, 1000억 달러 들여 만들었다가 18개월 후엔 잔존가치가 극도로 줄어들고, 다시 1500~2000억 달러짜리 클러스터로 다음 세대 모델을 훈련해야 한다는 식.
모델 투자 수익(ROI)의 핵심: “데이터 및 대규모 배포”
모델 자체는 상품화(commodity) 추세
스케일링이 가능해진 현재, 특이한 데이터 없이 만든 모델은 쉽게 대체 가능.
예컨대 메타(Meta)는 Llama를 비교적 쉽게 공개·오픈소스화했는데, 당분간은 ‘모델’보다 ‘데이터’가 핵심 가치이기 때문.
“황제들의 게임(Game of Emperors)”
@ericvishria의 말 인용: 이건 “왕의 게임(Game of Kings)”이 아니라 “황제들의 게임.”
인프라 효율이 승패를 가를 것. 예: 자본 지출이 천문학적이므로 20~30% 효율 우위만 있어도 수천억 달러 규모에서 엄청난 경쟁력이 된다.
더욱이, 하드웨어가 매년 진화한다면 이 경쟁 속도가 가속될 것이다.
ROI의 두 가지 변수: 에이전트(agents)와 ASI(초지능)
에이전트(agents)
“온라인/가상 세계에서 대행 행동을 수행하는 로봇(비물리적).”
언젠가 수십억 개의 에이전트가 존재할 수 있으며, 이를 위해 ‘슈퍼폰(superphone)’ 같은 것이 필요해질 수도.
만약 에이전트가 곧 현실화된다면, 심지어 1천억 달러 이상의 훈련비용을 들인 모델이라도 ROI를 낼 수 있는 가능성이 높아진다.
ASI(Artificial Super Intelligence, 초지능)
스케일링 법칙이 경제학과 충돌하기 전, ASI가 먼저 등장한다면, 수십조 달러 가치가 창출 가능.
이는 매우 낙관적인 시나리오. 여러 개의 ASI 중 하나만이라도 ‘친화적(friendly)’이면, 인간은 200살 살고 화성 일몰을 보며 우주 탐사 등도 가능할지도 모른다는 농반진반 전망.
문제는 “언제, 혹은 정말 가능하냐?”에 대해 아무도 모른다는 것.
XAI의 10만(100k) GPU 클러스터: 스케일링 법칙의 실제 시험대
과거: 2~3만 H100 클러스터
약 1년 전의 규모였고, 이번 XAI는 10만 급의 클러스터를 시도.
스케일링 법칙이 성립하면, Grok3 모델이 “압도적 최고 성능”을 달성할 가능성이 높다고 봄.
블랙웰 지연이 있어도 이런 프로젝트들이 버퍼 역할을 하며 투자를 유지할 수 있다는 예상.
스케일링 법칙이 만약 깨진다면…
AI 지출 자체가 확 줄어들 것이다.
거대 기업들은 왜 계속 지출을 지속하는가?
설령 ROIC가 어느 시점 하락해도, 이 기업들은 ASI(“디지털 신(digital god)”)을 얻기 위한 경쟁 중이라고 믿기 때문.
“이들의 IQ는 내보다 훨씬 높음. 그들이 이렇게 믿으니 나도 어느 정도 존중한다”는 취지.
ASI를 만들어내면 수십조 달러 규모의 가치가 창출될 것이며, 만약 경쟁에서 지면 존재론적 위협이 된다고 생각한다.
따라서 주가가 흔들리고 배당이나 자사주 매입이 취소되더라도(ROIC가 감소해도) 지출은 계속될 전망이다. 적어도 에이전트 또는 ASI가 나타날 때까지는.
지금까지는 AI에 대한 투자가 성공적이었다. 스케일링 법칙이 유지되는 한 대형 기업들은 막대한 자본 지출을 계속할 것.
그러나 어느 시점에서 경제학적 한계(ROI 둔화)와 맞물려 논란이 생길 수 있음.
주요 변수가 되는 것은:
기술 로드맵(새로운 GPU·네트워크 아키텍처의 연간 업데이트 주기 가능성)
에이전트의 등장 시점
ASI 달성 여부 및 시기
결국 결론적으로 모든 것이 불확실하며, “지켜볼 수밖에 없다”
https://x.com/GavinSBaker/status/1828862999836102800
지금까지의 AI 투자 성과(ROI)는 “분명히 긍정적”
ROIC(투하자본수익률)가 개선
대규모 AI 지출을 한 기업들의 ROIC가 지난 1년 사이 크게 상승했다.
이유의 대부분은 광고 타게팅(맞춤형)·크리에이티브 개선 → 광고주 ROAS(광고비 대비 매출) 상승 → 광고비 지출 증가 → 수익 증가 순서의 가치사슬을 통해 수익이 늘어났기 때문.
구체적 예시
Performance Max(PMax), Advantage Plus 등 고도화된 광고 시스템을 통해 광고 효율이 크게 향상되면서, 2023년 초부터 대형 인터넷 광고 기업의 매출 성장률이 명확히 가속화됨.
이는 단순히 GDP 추세만으로는 설명 불가. AI 기반 타겟팅이 역할을 했다는 증거라는 것.
GPU가 다양하게 사용됨
AI 워크로드(훈련·추론)에 따라 GPU는 재배치가 가능하므로(훈련 후에는 추천 알고리즘 등 추론용으로 사용), ASIC이 덜 확산된 원인 중 하나다.
AI 도입으로 인건비 절감(opex 감소) 효과도 일부 존재
AI가 사람 노동을 대체 또는 보완 → GPU 형태의 capex 증가가 있지만, 이는 인건비 절감과 생산성 향상을 동반함.
결론
“지금까지는 AI 도입이 명백히 수익 개선으로 이어졌다. 대형 GPU 투자 기업의 ROIC가 떨어지지 않는 한, AI가 ‘쓸모없다’는 식의 비판은 설득력이 없다.”
스케일링 법칙 vs 경제학 충돌 가능성
스케일링 법칙이 유효할지 확실치 않음
거의 모든 최첨단 AI 종사자는 스케일링 법칙(모델 파라미터·컴퓨팅 자원이 증가하면 성능이 지속적으로 향상된다는 가설)이 향후에도 유지될 것이라고 믿지만, 절대적인 확신은 없다.
GPT-5 초기 체크포인트에서 스케일링이 유효함을 암시한다고 전해지지만, 여전히 “아무도 100% 장담 못 한다.”
만약 스케일링 법칙이 계속 맞다면…
2026~2027년에 훈련될 모델들은 단일 클러스터 구축비만 수천억 달러(“$100B+”)가 들 수 있음.
일부 기업에서 5~10 GW급(기가와트) 데이터센터를 논의 중이라는 소문도 있어, 이는 클러스터가 “수백억 달러”가 아니라 “수천억 달러”의 투자 비용을 필요로 할 수 있음을 시사.
그 시점에 ROI가 떨어질 수도
스케일링 법칙이 유효하되 “획기적 기술 돌파구”가 없다면, 경제학적으로 너무 큰 투자 부담이 발생 → ROIC 하락 가능성.
이때가 되면, “AI 투자 정말 가치 있나?”라는 실질 논쟁이 현실적인 근거를 얻게 될 것이라고 예측.
스케일링을 가능케 하는 건 GPU·네트워크·메모리·스토리지의 기술 혁신
“하드웨어 로드맵”
GPU(A100 등), XPUs, 차세대 NVLink/InfinityFabric/PCIe가 계속해서 성능을 올려줘야 모델 사이즈 확대(스케일링)가 유지된다는 것.
볼타(Volta) 이후로 스케일링 법칙 곡선이 매우 안정적으로 보였지만, 어느 지점에선 “끊길 수도 있다.”
기술 로드맵이 1~2차례 더 큰 성능 도약(10배↑)을 가능케 해줘야 확실히 테스트해볼 수 있을 것이나, “정말 왜 스케일링 법칙이 맞는지는 모른다. 일단 ‘곡선을 믿어라’가 현재까지 승리 전략.”
매년 새로운 GPU/네트워크가 나온다면
매년 훨씬 큰 클러스터 구축이 가능해진다.
AI 모델의 가치가 1~1.5년 지나면 (새로운 기술 등장 시점에) 거의 가치가 ‘0’으로 급락(“90%+ 감가상각”)할 수도 있음.
즉, 1000억 달러 들여 만들었다가 18개월 후엔 잔존가치가 극도로 줄어들고, 다시 1500~2000억 달러짜리 클러스터로 다음 세대 모델을 훈련해야 한다는 식.
모델 투자 수익(ROI)의 핵심: “데이터 및 대규모 배포”
모델 자체는 상품화(commodity) 추세
스케일링이 가능해진 현재, 특이한 데이터 없이 만든 모델은 쉽게 대체 가능.
예컨대 메타(Meta)는 Llama를 비교적 쉽게 공개·오픈소스화했는데, 당분간은 ‘모델’보다 ‘데이터’가 핵심 가치이기 때문.
“황제들의 게임(Game of Emperors)”
@ericvishria의 말 인용: 이건 “왕의 게임(Game of Kings)”이 아니라 “황제들의 게임.”
인프라 효율이 승패를 가를 것. 예: 자본 지출이 천문학적이므로 20~30% 효율 우위만 있어도 수천억 달러 규모에서 엄청난 경쟁력이 된다.
더욱이, 하드웨어가 매년 진화한다면 이 경쟁 속도가 가속될 것이다.
ROI의 두 가지 변수: 에이전트(agents)와 ASI(초지능)
에이전트(agents)
“온라인/가상 세계에서 대행 행동을 수행하는 로봇(비물리적).”
언젠가 수십억 개의 에이전트가 존재할 수 있으며, 이를 위해 ‘슈퍼폰(superphone)’ 같은 것이 필요해질 수도.
만약 에이전트가 곧 현실화된다면, 심지어 1천억 달러 이상의 훈련비용을 들인 모델이라도 ROI를 낼 수 있는 가능성이 높아진다.
ASI(Artificial Super Intelligence, 초지능)
스케일링 법칙이 경제학과 충돌하기 전, ASI가 먼저 등장한다면, 수십조 달러 가치가 창출 가능.
이는 매우 낙관적인 시나리오. 여러 개의 ASI 중 하나만이라도 ‘친화적(friendly)’이면, 인간은 200살 살고 화성 일몰을 보며 우주 탐사 등도 가능할지도 모른다는 농반진반 전망.
문제는 “언제, 혹은 정말 가능하냐?”에 대해 아무도 모른다는 것.
XAI의 10만(100k) GPU 클러스터: 스케일링 법칙의 실제 시험대
과거: 2~3만 H100 클러스터
약 1년 전의 규모였고, 이번 XAI는 10만 급의 클러스터를 시도.
스케일링 법칙이 성립하면, Grok3 모델이 “압도적 최고 성능”을 달성할 가능성이 높다고 봄.
블랙웰 지연이 있어도 이런 프로젝트들이 버퍼 역할을 하며 투자를 유지할 수 있다는 예상.
스케일링 법칙이 만약 깨진다면…
AI 지출 자체가 확 줄어들 것이다.
거대 기업들은 왜 계속 지출을 지속하는가?
설령 ROIC가 어느 시점 하락해도, 이 기업들은 ASI(“디지털 신(digital god)”)을 얻기 위한 경쟁 중이라고 믿기 때문.
“이들의 IQ는 내보다 훨씬 높음. 그들이 이렇게 믿으니 나도 어느 정도 존중한다”는 취지.
ASI를 만들어내면 수십조 달러 규모의 가치가 창출될 것이며, 만약 경쟁에서 지면 존재론적 위협이 된다고 생각한다.
따라서 주가가 흔들리고 배당이나 자사주 매입이 취소되더라도(ROIC가 감소해도) 지출은 계속될 전망이다. 적어도 에이전트 또는 ASI가 나타날 때까지는.
지금까지는 AI에 대한 투자가 성공적이었다. 스케일링 법칙이 유지되는 한 대형 기업들은 막대한 자본 지출을 계속할 것.
그러나 어느 시점에서 경제학적 한계(ROI 둔화)와 맞물려 논란이 생길 수 있음.
주요 변수가 되는 것은:
기술 로드맵(새로운 GPU·네트워크 아키텍처의 연간 업데이트 주기 가능성)
에이전트의 등장 시점
ASI 달성 여부 및 시기
결국 결론적으로 모든 것이 불확실하며, “지켜볼 수밖에 없다”
https://x.com/GavinSBaker/status/1828862999836102800
X (formerly Twitter)
Gavin Baker (@GavinSBaker) on X
Scaling Laws, Economics and the AI "Game of Emperors."