#PLTR
- 오일메이저 BP, 팔란티어와 5년 계약
- 기존 생성형 AI의 할루시네이션 현상 방지 및 실질적인 운영 효율 향상에 도움이 되고 있다고 언급
(24.09 기사)
https://www.theguardian.com/business/article/2024/sep/09/bp-ai-deal-palantir-oil-gas-artificial-intelligence
- 오일메이저 BP, 팔란티어와 5년 계약
- 기존 생성형 AI의 할루시네이션 현상 방지 및 실질적인 운영 효율 향상에 도움이 되고 있다고 언급
(24.09 기사)
https://www.theguardian.com/business/article/2024/sep/09/bp-ai-deal-palantir-oil-gas-artificial-intelligence
the Guardian
BP extends use of AI in five-year deal with spy tech firm Palantir
Oil and gas company to use artificial intelligence to speed up decision-making by engineers
Forwarded from AI MASTERS
[ 사실 그런데 .. GPU는 그렇게 많이 필요 없었습니다 ]
1.
Deepseek로 인해 'NVIDIA의 GPU는 버블 아닌가?' 라는 말도 나오는데, 전 아니라고 생각이 듭니다. 연구자들이 그렇게 나왔는걸요.
작년 2월 28일, 마이크로소프트는 기존의 2진법 연구 (0, 1) 가 아닌 단 0, 1, 그리고 -1 로 만들어진 1비트LLM 이라는 이론을 내놓습니다. (2진법은 101, 10110, 10101010 이런식으로 작성이 가능하지만 1bitllm은 딱 -1, 0, 1로 구동)
기존의 트레이닝이 된 LLM을 0, 1, -1 로 다시 트레이닝을 한다면 GPU를 적게 사용을 해도 구동하는데 문제는 없다고 주장했던 페이퍼였습니다. 당시 해당 페이퍼로 연구자들은 큰 충격을 주었으며, 2024년도 최고의 페이퍼로 선정 받곤 했는데
하지만 단점은 트레이닝을 하면 기존의 LLM과 같은 데이터들이 유실이 되곤 했습니다. 사실 예측되던 결과물이긴 했습니다. 모든걸 흑백논리로 구동해야할 1bit에선 어떤 부분은 로스가 나올수 밖에 없죠
1.
Deepseek로 인해 'NVIDIA의 GPU는 버블 아닌가?' 라는 말도 나오는데, 전 아니라고 생각이 듭니다. 연구자들이 그렇게 나왔는걸요.
작년 2월 28일, 마이크로소프트는 기존의 2진법 연구 (0, 1) 가 아닌 단 0, 1, 그리고 -1 로 만들어진 1비트LLM 이라는 이론을 내놓습니다. (2진법은 101, 10110, 10101010 이런식으로 작성이 가능하지만 1bitllm은 딱 -1, 0, 1로 구동)
기존의 트레이닝이 된 LLM을 0, 1, -1 로 다시 트레이닝을 한다면 GPU를 적게 사용을 해도 구동하는데 문제는 없다고 주장했던 페이퍼였습니다. 당시 해당 페이퍼로 연구자들은 큰 충격을 주었으며, 2024년도 최고의 페이퍼로 선정 받곤 했는데
하지만 단점은 트레이닝을 하면 기존의 LLM과 같은 데이터들이 유실이 되곤 했습니다. 사실 예측되던 결과물이긴 했습니다. 모든걸 흑백논리로 구동해야할 1bit에선 어떤 부분은 로스가 나올수 밖에 없죠
Forwarded from AI MASTERS
2.
그 이후 메타가 참전 합니다.
메타도 2024년 3월 6일, 마이크로소프트에서 실패한 결과물을 보고 경량화에 대한 페이퍼 'Galore' 를 발표합니다.
LLM에는 많은 데이터가 필요합니다. 메타는 그 부분에서 집중해서 공부를 해봅니다. 굳이 그 많은 데이터에서 중복되는 데이터는 없을까? 필요 없는 데이터는 없을까? 라는 생각으로 LLM에 무려 40% 되는 데이터를 삭제를 해봤는데, 구독하는데 큰 문제가 없는걸 발견을 합니다.
결과로 기존엔 VRAM이 58기가 ~ 정도 필요하던 상황에서 단 21GB, 4090으로도 구동이 되는걸 발견을 하여 굳이 GPU에 대한 집착을 버리곤 했습니다.
그 이후 메타가 참전 합니다.
메타도 2024년 3월 6일, 마이크로소프트에서 실패한 결과물을 보고 경량화에 대한 페이퍼 'Galore' 를 발표합니다.
LLM에는 많은 데이터가 필요합니다. 메타는 그 부분에서 집중해서 공부를 해봅니다. 굳이 그 많은 데이터에서 중복되는 데이터는 없을까? 필요 없는 데이터는 없을까? 라는 생각으로 LLM에 무려 40% 되는 데이터를 삭제를 해봤는데, 구독하는데 큰 문제가 없는걸 발견을 합니다.
결과로 기존엔 VRAM이 58기가 ~ 정도 필요하던 상황에서 단 21GB, 4090으로도 구동이 되는걸 발견을 하여 굳이 GPU에 대한 집착을 버리곤 했습니다.
Forwarded from AI MASTERS
3.
모든 시작이 되었던 Attention Is All You Need 저자들이 모였던 2024년 Nvidia 상반기 컨퍼런스에 한번 모여서 페이퍼에 대한 후기와 개인 소견을 이야기 했습니다.
Aidan Gomez, Cohere AI의 현 CEO는 정확하게 '세상은 Transformer보다 더 좋은 모델이 필요합니다 (the world needs something better than transformers)' 라고 이야기를 했습니다.
구조적으로 transformer 는 메모리를 너무 비효율적으로 사용을 했으며, 해당 모델이 실제로 GPT3.5 이후로 크게 AI 모델들이 Transformer보다 좋은걸 공개못하기도 했습니다 (Mamba 등의 새로운 시도는 있었지만.. 다 실패 했습니다)
굳이 2+2 라는 쉬운 테스크에 많은 GPU를 사용할 필요가 없는데 현 LLM은 다 필요했습니다. 그러다 보디 3.11 와 3.9에 대한 비교도, Strawberry에 r이 몇갠지를 푸는데 큰 고난을 겪곤 했죠.
개인적 의견을 첨가하자면, Deepseek는 어쩔수 없이 새로운 시대를 열게 만들어준 모델이라고 생각합니다.
1957년 소련이 갑자기 인공위성 스푸티니크 를 발사하면서 미국 사회에선 나사가 만들어졌으며, 교육과정이 변했으며, 인터넷이 등장한거 처럼, 미국도 이젠 변화를 할껍니다.(과장이 아니라 AI 시장에서 뒤지기 싫으면 변화를 해야할껍니다..)
모든 시작이 되었던 Attention Is All You Need 저자들이 모였던 2024년 Nvidia 상반기 컨퍼런스에 한번 모여서 페이퍼에 대한 후기와 개인 소견을 이야기 했습니다.
Aidan Gomez, Cohere AI의 현 CEO는 정확하게 '세상은 Transformer보다 더 좋은 모델이 필요합니다 (the world needs something better than transformers)' 라고 이야기를 했습니다.
구조적으로 transformer 는 메모리를 너무 비효율적으로 사용을 했으며, 해당 모델이 실제로 GPT3.5 이후로 크게 AI 모델들이 Transformer보다 좋은걸 공개못하기도 했습니다 (Mamba 등의 새로운 시도는 있었지만.. 다 실패 했습니다)
굳이 2+2 라는 쉬운 테스크에 많은 GPU를 사용할 필요가 없는데 현 LLM은 다 필요했습니다. 그러다 보디 3.11 와 3.9에 대한 비교도, Strawberry에 r이 몇갠지를 푸는데 큰 고난을 겪곤 했죠.
개인적 의견을 첨가하자면, Deepseek는 어쩔수 없이 새로운 시대를 열게 만들어준 모델이라고 생각합니다.
1957년 소련이 갑자기 인공위성 스푸티니크 를 발사하면서 미국 사회에선 나사가 만들어졌으며, 교육과정이 변했으며, 인터넷이 등장한거 처럼, 미국도 이젠 변화를 할껍니다.
간밤에 나스닥
1. 조정받은 섹터 - AI 하드웨어, 전력기기, 유틸리티, LNG
2. 상대적으로 강한 섹터 - AI 소프트웨어, 보안
- 이번주 Meta, MS, 테슬라 컨콜에서 CAPEX 변화 여부 확인 필요
- 딥시크가 only H800으로만 학습시켰는지 진위 여부 확인 필요
1. 조정받은 섹터 - AI 하드웨어, 전력기기, 유틸리티, LNG
2. 상대적으로 강한 섹터 - AI 소프트웨어, 보안
- 이번주 Meta, MS, 테슬라 컨콜에서 CAPEX 변화 여부 확인 필요
- 딥시크가 only H800으로만 학습시켰는지 진위 여부 확인 필요
Forwarded from [메리츠 중국 최설화]
[DeepSeek, 또 한번 주목 받아]
- 주말동안 CNBC 때문에 딥시크(DeepSeek)가 또 화제 되었네요
- 지난 20일에 발표된 추론모델 R1(V3모델 미세조정 버전)을 공개했습니다. 언론에서는 딥시크 모델이 오픈AI 추론모델 성능을 초월하고 개발비용이 1/100에 불과하다고 했는데, 이는 빠르면 작년 8월, 또는 작년 연말에 이미 회자된 내용입니다.
- 개인적으로 이 시점에 언론에서 강하게 주목하는 이유가, 단순 신모델 출시 때문인지, 아니면 미국이 중국 AI를 때리기 위한 분위기 조성인지가 헷갈리네요.
- 딥시크 창시자는 85년생의 퀀트 헷지펀드 출신입니다. 작년 연말 V3 모델 출시로 크게 회자된 이후 올해 중국 고위지도자 간담회에 참석한 사진이 회자되었습니다. 그만큼 중국정부도 AI투자에 진심이라는 것을 엿볼 수 있죠
- 딥시크의 성과는 중국이 제한된 자원에서 효율화로 당분간 돌파구를 찾았을 뿐 갈 길이 멉니다. 단, 중국의 빠른 속도의 따라잡기로 양국의 경쟁은 더 확대될 수 밖에 없고, 이는 양국 산업 발전을 촉진하는 계기로 작용합니다.
- 연초 딥시크 시사점을 적은 보고서 다시 올려드립니다. 참고하시기 바랍니다.
https://tinyurl.com/my5ydcs6
- 주말동안 CNBC 때문에 딥시크(DeepSeek)가 또 화제 되었네요
- 지난 20일에 발표된 추론모델 R1(V3모델 미세조정 버전)을 공개했습니다. 언론에서는 딥시크 모델이 오픈AI 추론모델 성능을 초월하고 개발비용이 1/100에 불과하다고 했는데, 이는 빠르면 작년 8월, 또는 작년 연말에 이미 회자된 내용입니다.
- 개인적으로 이 시점에 언론에서 강하게 주목하는 이유가, 단순 신모델 출시 때문인지, 아니면 미국이 중국 AI를 때리기 위한 분위기 조성인지가 헷갈리네요.
- 딥시크 창시자는 85년생의 퀀트 헷지펀드 출신입니다. 작년 연말 V3 모델 출시로 크게 회자된 이후 올해 중국 고위지도자 간담회에 참석한 사진이 회자되었습니다. 그만큼 중국정부도 AI투자에 진심이라는 것을 엿볼 수 있죠
- 딥시크의 성과는 중국이 제한된 자원에서 효율화로 당분간 돌파구를 찾았을 뿐 갈 길이 멉니다. 단, 중국의 빠른 속도의 따라잡기로 양국의 경쟁은 더 확대될 수 밖에 없고, 이는 양국 산업 발전을 촉진하는 계기로 작용합니다.
- 연초 딥시크 시사점을 적은 보고서 다시 올려드립니다. 참고하시기 바랍니다.
https://tinyurl.com/my5ydcs6
❤1
[메리츠 중국 최설화]
[DeepSeek, 또 한번 주목 받아] - 주말동안 CNBC 때문에 딥시크(DeepSeek)가 또 화제 되었네요 - 지난 20일에 발표된 추론모델 R1(V3모델 미세조정 버전)을 공개했습니다. 언론에서는 딥시크 모델이 오픈AI 추론모델 성능을 초월하고 개발비용이 1/100에 불과하다고 했는데, 이는 빠르면 작년 8월, 또는 작년 연말에 이미 회자된 내용입니다. - 개인적으로 이 시점에 언론에서 강하게 주목하는 이유가, 단순 신모델 출시 때문인지…
딥시크는 이미 작년에 회자됐다는 점 + 여러 매크로 지표들과 밸류의 고점 시그널이 계속 나왔던 상황에서 조정의 이유를 굳이 찾은 거라는 생각... 어짜피 AI 그 자체는 미중 패권 전쟁 속에서 구조적인 방향성이 정해진 섹터인데, 한번 또 조정 받아야 장기적으로 우상향 할 수 있다고 봄
❤3
#AI
앤트로픽 CEO, 다리오 아모데이 인터뷰
- AI 산업은 현재 전환 단계(사전훈련 → 강화학습)에 있으며, 일부 강화학습 훈련을 통해 기존 상황을 따라잡을 수 있는 기회가 존재함. 패러다임의 전환은 단기적인 혼란이 필연적으로 수반됨. 시간이 지나면 다시 정립되기 마련
- 딥시크는 오래 전부터 알고 있었고, 알리바바 같은 다른 회사보다 성공 확률이 높다고 생각해왔음. 딥시크 같은 저렴한 대체 모델이 등장하면서, AI 모델의 퀄리티에 따라 가격 경쟁이 심화될 가능성이 열려 있음
- AI 분야에서 2026-27년은 AGI의 도래가 가능한 매우 중요한 시점으로, 이 시기에 앞서가는 국가가 영구적인 우위를 점할 가능성이 있음. 미국이 선두를 유지하기 위해서는 1) 에너지 공급과 2) 민주주의 국가 간의 컴퓨팅 능력 협력을 강화해야하며, 3) 지속적으로 AI칩 수출을 통제해야함.
- 딥시크가 가성비로 마케팅하는 중이지만, H100칩을 5만개 보유하고 있는 것도 사실임. (일론머스크의 Colossus 클러스터의 약 절반 정도)
- 현재 미국과 중국은 비슷한 규모의 수만개의 AI칩을 가지고 있기 때문에 균형점에 있지만, 미국 기업들과 AI를 계속 경쟁하기는 어려울 것. 중국이 수만개의 H100 칩을 밀수하는 것은 가능하지만, 1)미국의 수출 통제와 2) 중국 화웨이 칩의 퀄리티는 매우 떨어지기 때문에 수십만 - 수백만 개의 칩을 획득하는 것은 불가능하다고 생각
- 미국에서 25년 말까지 수십 만개, 26년에는 수백만개의 AI 칩이 생산될 것으로 전망
참고로 앤트로픽은 GPT 대항마 중 하나인 Claude를 출시했고, 다리오 아모데이는 샘알트먼과 Open AI의 윤리성이 상실되어가는 것에 대한 회의감을 느끼고 퇴사하여 앤트로픽을 설립했습니다.
https://www.youtube.com/watch?v=uvMolVW_2v0&t=2s
앤트로픽 CEO, 다리오 아모데이 인터뷰
- AI 산업은 현재 전환 단계(사전훈련 → 강화학습)에 있으며, 일부 강화학습 훈련을 통해 기존 상황을 따라잡을 수 있는 기회가 존재함. 패러다임의 전환은 단기적인 혼란이 필연적으로 수반됨. 시간이 지나면 다시 정립되기 마련
- 딥시크는 오래 전부터 알고 있었고, 알리바바 같은 다른 회사보다 성공 확률이 높다고 생각해왔음. 딥시크 같은 저렴한 대체 모델이 등장하면서, AI 모델의 퀄리티에 따라 가격 경쟁이 심화될 가능성이 열려 있음
- AI 분야에서 2026-27년은 AGI의 도래가 가능한 매우 중요한 시점으로, 이 시기에 앞서가는 국가가 영구적인 우위를 점할 가능성이 있음. 미국이 선두를 유지하기 위해서는 1) 에너지 공급과 2) 민주주의 국가 간의 컴퓨팅 능력 협력을 강화해야하며, 3) 지속적으로 AI칩 수출을 통제해야함.
- 딥시크가 가성비로 마케팅하는 중이지만, H100칩을 5만개 보유하고 있는 것도 사실임. (일론머스크의 Colossus 클러스터의 약 절반 정도)
- 현재 미국과 중국은 비슷한 규모의 수만개의 AI칩을 가지고 있기 때문에 균형점에 있지만, 미국 기업들과 AI를 계속 경쟁하기는 어려울 것. 중국이 수만개의 H100 칩을 밀수하는 것은 가능하지만, 1)미국의 수출 통제와 2) 중국 화웨이 칩의 퀄리티는 매우 떨어지기 때문에 수십만 - 수백만 개의 칩을 획득하는 것은 불가능하다고 생각
- 미국에서 25년 말까지 수십 만개, 26년에는 수백만개의 AI 칩이 생산될 것으로 전망
참고로 앤트로픽은 GPT 대항마 중 하나인 Claude를 출시했고, 다리오 아모데이는 샘알트먼과 Open AI의 윤리성이 상실되어가는 것에 대한 회의감을 느끼고 퇴사하여 앤트로픽을 설립했습니다.
https://www.youtube.com/watch?v=uvMolVW_2v0&t=2s
YouTube
Navigating a world in transition: Dario Amodei in conversation with Zanny Minton Beddoes
Dario Amodei, the CEO of Anthropic—the company behind the LLM Claude, explained his predictions on AI to The Economist’s editor-in-chief, Zanny Minton Beddoes, in an interview that covered the state of AI models, US leadership, export controls, energy consumption…
❤2
일론: 이건 최고의 분석
DeepSeek와 미국 AI의 미래 트렌드에 관한 분석 요약
1. DeepSeek의 비용과 진입 장벽
•DeepSeek의 6백만 달러 훈련 비용에는 아키텍처 설계, 알고리즘 실험, 데이터 준비 과정이 포함되어 있지 않습니다.
•이는 수억 달러의 초기 투자와 DeepSeek이 보유한 수만 대의 A100 GPU 클러스터 같은 강력한 하드웨어가 없으면, 다른 팀이 동일한 성과를 단순히 재현하기 어렵다는 것을 의미합니다.
2. 중국과 모델 접근성
•DeepSeek의 개발은 GPT-4o 및 o1을 기반으로 한 모델 증류(distillation) 기술에 의존한 것으로 보입니다.
•이는 고급 GPU 수출을 제한하는 미국의 제재가 중국이 선도적인 AI 모델에 접근하는 것을 막지 못했다는 사실을 보여줍니다.
•**“만약 무료로 우유(GPU 기반 모델)를 얻을 수 있다면 굳이 젖소(GPU)를 살 필요가 없다.”**라는 말로 이 상황을 비유할 수 있습니다.
3. 미래 트렌드
(1) 추론의 탈중앙화
•AI 추론이 클라우드에서 로컬(엣지 디바이스)로 이동함에 따라, 컴퓨팅 구조가 탈중앙화될 것입니다.
•이는 PC와 스마트폰의 대규모 업그레이드를 촉발할 가능성이 있습니다.
(2) AI 인프라의 리스크
•현재의 AI 인프라 승자들(기술 기업, 산업, 에너지 분야)은 탈중앙화된 추론으로 인해 타격을 받을 가능성이 있습니다.
(3) ASI(초지능) 잠재력
•미래의 AI 모델이 암 치료 방법을 발견하거나 **“워프 엔진”**을 발명할 수 있다면, 초지능이 가져오는 경제적 이익은 엄청날 것입니다.
•이는 훈련 자본 지출과 에너지 소비를 지속적으로 증가시킬 것입니다.
(4) 데이터와 플랫폼의 가치 증가
•유튜브, 페이스북, 인스타그램, X와 같은 독자적인 데이터 분배 능력을 가진 플랫폼은 AI 기술로 인해 더욱 높은 가치를 가지게 될 것입니다.
(5) 미국 연구소의 대응 전략
•미래에는 미국의 연구소들이 최첨단 모델을 발표하는 것을 중단할 가능성이 큽니다.
•이는 기술이 증류를 통해 복제될 위험을 방지하기 위함입니다.
•하지만 DeepSeek-R1 같은 기술은 이미 **“고양이가 주머니에서 완전히 뛰쳐나온 상황”**일 수 있습니다.
4. Grok-3에 대한 평가
(1) Grok-3의 의미와 발전 가능성
•Grok-3는 GPT-4 이후 **“사전 학습 확장 법칙(Pre-training Scaling Laws)”**을 검증하는 첫 번째 대규모 테스트가 될 것입니다.
•몇 주 안에 **강화 학습(RL)**을 통해 추론 능력을 더욱 향상시킬 가능성이 있습니다.
(2) Grok-3의 성능과 전망
•Grok-3는 이미 o1을 능가하는 성능을 보여주고 있으며,
•앞으로 얼마나 더 뛰어난 성과를 낼 수 있을지가 핵심 관건이 될 것입니다.
https://x.com/doki_jerry/status/1884371292121637122
DeepSeek와 미국 AI의 미래 트렌드에 관한 분석 요약
1. DeepSeek의 비용과 진입 장벽
•DeepSeek의 6백만 달러 훈련 비용에는 아키텍처 설계, 알고리즘 실험, 데이터 준비 과정이 포함되어 있지 않습니다.
•이는 수억 달러의 초기 투자와 DeepSeek이 보유한 수만 대의 A100 GPU 클러스터 같은 강력한 하드웨어가 없으면, 다른 팀이 동일한 성과를 단순히 재현하기 어렵다는 것을 의미합니다.
2. 중국과 모델 접근성
•DeepSeek의 개발은 GPT-4o 및 o1을 기반으로 한 모델 증류(distillation) 기술에 의존한 것으로 보입니다.
•이는 고급 GPU 수출을 제한하는 미국의 제재가 중국이 선도적인 AI 모델에 접근하는 것을 막지 못했다는 사실을 보여줍니다.
•**“만약 무료로 우유(GPU 기반 모델)를 얻을 수 있다면 굳이 젖소(GPU)를 살 필요가 없다.”**라는 말로 이 상황을 비유할 수 있습니다.
3. 미래 트렌드
(1) 추론의 탈중앙화
•AI 추론이 클라우드에서 로컬(엣지 디바이스)로 이동함에 따라, 컴퓨팅 구조가 탈중앙화될 것입니다.
•이는 PC와 스마트폰의 대규모 업그레이드를 촉발할 가능성이 있습니다.
(2) AI 인프라의 리스크
•현재의 AI 인프라 승자들(기술 기업, 산업, 에너지 분야)은 탈중앙화된 추론으로 인해 타격을 받을 가능성이 있습니다.
(3) ASI(초지능) 잠재력
•미래의 AI 모델이 암 치료 방법을 발견하거나 **“워프 엔진”**을 발명할 수 있다면, 초지능이 가져오는 경제적 이익은 엄청날 것입니다.
•이는 훈련 자본 지출과 에너지 소비를 지속적으로 증가시킬 것입니다.
(4) 데이터와 플랫폼의 가치 증가
•유튜브, 페이스북, 인스타그램, X와 같은 독자적인 데이터 분배 능력을 가진 플랫폼은 AI 기술로 인해 더욱 높은 가치를 가지게 될 것입니다.
(5) 미국 연구소의 대응 전략
•미래에는 미국의 연구소들이 최첨단 모델을 발표하는 것을 중단할 가능성이 큽니다.
•이는 기술이 증류를 통해 복제될 위험을 방지하기 위함입니다.
•하지만 DeepSeek-R1 같은 기술은 이미 **“고양이가 주머니에서 완전히 뛰쳐나온 상황”**일 수 있습니다.
4. Grok-3에 대한 평가
(1) Grok-3의 의미와 발전 가능성
•Grok-3는 GPT-4 이후 **“사전 학습 확장 법칙(Pre-training Scaling Laws)”**을 검증하는 첫 번째 대규모 테스트가 될 것입니다.
•몇 주 안에 **강화 학습(RL)**을 통해 추론 능력을 더욱 향상시킬 가능성이 있습니다.
(2) Grok-3의 성능과 전망
•Grok-3는 이미 o1을 능가하는 성능을 보여주고 있으며,
•앞으로 얼마나 더 뛰어난 성과를 낼 수 있을지가 핵심 관건이 될 것입니다.
https://x.com/doki_jerry/status/1884371292121637122
👍1
Forwarded from 루팡
OpenAI의 익명 연구원이 Reddit(Gwern이라는 닉네임)에다가 쓴 글도 화제가 되었다.
Gwern은 OpenAI의 “o4”나 “o5”와 같은 미래의 모델들은 AI 연구 개발을 자동화해 나머지 과정을 스스로 완료할 수 있는 수준일 것이라고 운을 뗐다.
o3 모델 이후의 때가 되면, OpenAI가 "재귀적 자기 개선"의 임계점을 넘었을 가능성이 있다고 말한 셈이다. 이는 2024년 11월, 샘 알트만은 "과거 3년간의 발전 속도가 몇 주 안에 이루어질 수 있다"고 말한 것과 대동소이한 내용이기 때문에 더욱 그의 말에 힘이 실린다.
또한 Gwern은 OpenAI가 단기적인 수익 창출보다는 초지능 개발이라는 장기적인 목표에 집중하고 있다면서, o1 모델의 주요 목적은 배포/서비스가 아니라 o3와 같은 후속 모델을 위한 훈련 데이터를 생성하는 것이라고 했다. 이것은 DeepSeek 사례에서 기술했듯 reasoning 모델을 보유한 기업들이 가지는 “효과적 증류”에 관한 특권이다.
다만, 훈련용 데이터 생성에만 MW급의 전력이 소모되고 3~6개월의 시간이 필요하다는 것은 생성되는 훈련 데이터의 양과 복잡성이 상당하다는 것을 암시하기도 했다.
OpenAI 같은 선도적인 AI 회사들이 칩 확보에 얼마나 비장할 수밖에 없는 입장인지 여실히 드러나는 부분이다.
오라클과 소프트뱅크까지 껴안아 "스타게이트" 프로젝트를 통해, 4년간 총 5,000억 달러 규모를 쏟아부어 10개의 데이터센터를 건설하겠다는 것은 다 이런 것의 일환이다.
상황의 긴박한 변화는 샘 알트만은 급격한 AGI 및 초지능에 대한 본인의 타임라인 예측을 바꾼 것에서도 찾아볼 수 있다. 지난 몇 주 동안 샘 알트만의 말을 모아보면 아래와 같다.
"급격한 AI 도약이 더 가능하다고 생각합니다. 얼마나 빠를지는 추론하기 어렵습니다. 하지만 10년이 아닌 몇 년 정도의 짧은 기간 내에 일어날 수 있을 것 같습니다.
AGI가 아마도 트럼프 대통령 임기 동안 개발될 것이라고 생각합니다"
트럼프의 임기 종료일은 2029년 1월 20일이다. 알트만의 이 새로운 전망은, 약 1년 반 전만 하더라도 "AI의 느린 도약이 꽤 좋은 예측이 될 것"이라고 말했던 것과 딴 판이다.
또한 샘 알트만의 OpenAI는 불과 18개월 전만 해도 의회에 AI 규제를 촉구했지만, 최근에는 미국 정부가 규제를 통해 AI를 저해하지 말 것을 요구하는 다분히 기업 논리에 충실한 경제 청사진을 제시했다.
"AI in America"라는 제목의 OpenAI의 "경제 청사진"은 AI 우위를 위한 세 가지 전략적 자원 (칩, 데이터, 에너지)을 강조한다.
가장 주목할 점은, 미국이 중국과의 AI 초지능 경쟁에서 반드시 이겨야 한다는 점을 중앙 포커스로 삼고 있다는 점이다.
또한, 칩, 데이터, 에너지, 그리고 인재는 AI에서 승리하기 위한 열쇠이며, 이것은 미국이 이길 수 있고 이겨야만 하는 경주라고 역설했다. 이는 앞서 살펴본 DeepSeek와 같은 중국의 AI 굴기와 관련된 내용과 연결된다.
(25.1.23 미래에셋)
Gwern은 OpenAI의 “o4”나 “o5”와 같은 미래의 모델들은 AI 연구 개발을 자동화해 나머지 과정을 스스로 완료할 수 있는 수준일 것이라고 운을 뗐다.
o3 모델 이후의 때가 되면, OpenAI가 "재귀적 자기 개선"의 임계점을 넘었을 가능성이 있다고 말한 셈이다. 이는 2024년 11월, 샘 알트만은 "과거 3년간의 발전 속도가 몇 주 안에 이루어질 수 있다"고 말한 것과 대동소이한 내용이기 때문에 더욱 그의 말에 힘이 실린다.
또한 Gwern은 OpenAI가 단기적인 수익 창출보다는 초지능 개발이라는 장기적인 목표에 집중하고 있다면서, o1 모델의 주요 목적은 배포/서비스가 아니라 o3와 같은 후속 모델을 위한 훈련 데이터를 생성하는 것이라고 했다. 이것은 DeepSeek 사례에서 기술했듯 reasoning 모델을 보유한 기업들이 가지는 “효과적 증류”에 관한 특권이다.
다만, 훈련용 데이터 생성에만 MW급의 전력이 소모되고 3~6개월의 시간이 필요하다는 것은 생성되는 훈련 데이터의 양과 복잡성이 상당하다는 것을 암시하기도 했다.
OpenAI 같은 선도적인 AI 회사들이 칩 확보에 얼마나 비장할 수밖에 없는 입장인지 여실히 드러나는 부분이다.
오라클과 소프트뱅크까지 껴안아 "스타게이트" 프로젝트를 통해, 4년간 총 5,000억 달러 규모를 쏟아부어 10개의 데이터센터를 건설하겠다는 것은 다 이런 것의 일환이다.
상황의 긴박한 변화는 샘 알트만은 급격한 AGI 및 초지능에 대한 본인의 타임라인 예측을 바꾼 것에서도 찾아볼 수 있다. 지난 몇 주 동안 샘 알트만의 말을 모아보면 아래와 같다.
"급격한 AI 도약이 더 가능하다고 생각합니다. 얼마나 빠를지는 추론하기 어렵습니다. 하지만 10년이 아닌 몇 년 정도의 짧은 기간 내에 일어날 수 있을 것 같습니다.
AGI가 아마도 트럼프 대통령 임기 동안 개발될 것이라고 생각합니다"
트럼프의 임기 종료일은 2029년 1월 20일이다. 알트만의 이 새로운 전망은, 약 1년 반 전만 하더라도 "AI의 느린 도약이 꽤 좋은 예측이 될 것"이라고 말했던 것과 딴 판이다.
또한 샘 알트만의 OpenAI는 불과 18개월 전만 해도 의회에 AI 규제를 촉구했지만, 최근에는 미국 정부가 규제를 통해 AI를 저해하지 말 것을 요구하는 다분히 기업 논리에 충실한 경제 청사진을 제시했다.
"AI in America"라는 제목의 OpenAI의 "경제 청사진"은 AI 우위를 위한 세 가지 전략적 자원 (칩, 데이터, 에너지)을 강조한다.
가장 주목할 점은, 미국이 중국과의 AI 초지능 경쟁에서 반드시 이겨야 한다는 점을 중앙 포커스로 삼고 있다는 점이다.
또한, 칩, 데이터, 에너지, 그리고 인재는 AI에서 승리하기 위한 열쇠이며, 이것은 미국이 이길 수 있고 이겨야만 하는 경주라고 역설했다. 이는 앞서 살펴본 DeepSeek와 같은 중국의 AI 굴기와 관련된 내용과 연결된다.
(25.1.23 미래에셋)
Forwarded from [미래에셋 채권/크레딧] 민지희, 김성신
파월 의장 기자회견
Q. 트럼프 대통령의 금리인하 요구 관련?
A. 대통령의 발언과 관련한 응답은 하지 않겠음. 트럼프와의 직접적 접촉 없었다
Q. 통화정책이 상당히 제약적(meaningfully restrictive)이라는 평가에 변화가 있는지? 25bp 추가 인하한다면 정책이 덜 제약적일 것이라고 생각하나?
A. 평가는 크게 바뀌지 않았다. 금리인하 시작 당시보다는 덜 제약적이지만 여전히 통화정책은 제약적. 인플레와 고용시장에 미치는 영향을 관찰할 것. 인플레와 고용시장은 균형 잡혔고, 통화정책은 잘 작동하고 있다.
Q. 성명문 변화에 대해? 신행정부 하 인플레 상방 리스크?
A. 문구 삭제는 큰 시그널을 주기 위한 것은 아니었음. 두 번 연속의 좋은 인플레 데이터가 확인. 우리는 2% 목표 달성을 위해 노력할 것. 아직 FOMC는 신행정부 재정정책과 규제를 지켜보자는 스탠스
Q. 현재 경제전망 불확실성은 어느 정도인가? 통화정책이 제약적이라는 것은 추가 인하를 열어두고 있는 것인지?
A. 현재 관세, 재정, 이민, 규제 등 고려할 때 불확실성 존재. 통화정책과 경제 모두 좋은 포지션에 위치. 우리는 조정에 서두를 필요가 없다고 판단했음.
Q. 새로운 이민 정책이 고용시장에 미칠 영향?
A. 여러가지 시나리오들을 염두에 두고는 있으나 행동으로 이어지기까지는 더 많은 것이 확인돼야 할 것
Q. 추가 금리인하는 인플레 전망에 영향을 받을 것이라는 12월 견해에 대해?
A. 주거비가 꽤 꾸준히(pretty steadily) 하락하고 있음. 다만 인플레의 추가 진전을 보고 싶다는 견해는 유지. 실업률 등을 고려할 때 전반적으로 고용시장은 꽤 안정적이어 보인다
Q. 이민자 유입 감소가 고용시장에 미칠 영향?
A. 이민자 수는 감소하고 있으나 일자리수가 동반 감소하는 상황은 안정적인 실업률로 이어질 수 있다는 점을 시사
Q. 중립금리와 얼마나 멀리 있나?
A. 현재 4.3%는 장기 중립금리보다 꽤 높은 수준. 우리의 통화정책은 인플레를 안정시키고 고용시장 균형을 달성하는 데 기여하고 있음. 추가 정책 조정에 서두르지는 않을 것
Q. 현재 관세 위협이 과거 무역전쟁 당시 상황과 다른 점? 통화정책에 영향을 미칠 관세 관련 이벤트가 있다면?
A. 현재는 고인플레 상황. 소비자들은 가격에 부담을 느끼고 있다는 기업들의 평가가 많음. 제조업 기반이 멕시코 등으로 이동하며 예전보다는 중국에 대한 직접적 의존도가 낮아졌음. 관세가 어떻게 경제와 소비자들로의 영향으로 이어질지 불확실성 높음
Q. QT 종료에 대한 논의?
A. 준비금은 충분함(abundant). 정확한 시점을 말하기는 어려움
Q. 금리를 인하하기 위해 인플레 목표 수준으로 떨어져야 하나?
A. 금리 인하를 위해 인플레가 목표 수준으로 내려와야 할 필요는 없다. 인플레 추가 진전을 보고 싶다. 현재 정책은 상당히(not highly but meaningfully) 제약적
Q. 현재 경기전망의 리스크?
A. 고용률이 낮은 상황에서 해고율이 높아지면 실업률이 급격히 높아질 가능성. 하지만 전반적으로 고용시장은 양호한 상황. 우리는 6개월간 견고한 상태를 유지했음
Q. 3월 인하가 테이블 위에 있나? 인플레 관련 데이터가 추가 확인돼야 하나?
A. 디스인플레가 울퉁불퉁하고 느리지만 진전되고 있다. 우리는 금리인하에 서두를 필요가 없다는 결론. 꾸준한 인플레 진전이 이루어진다면 자신감이 높아질 것
Q. 2% 인플레 목표가 변경될 가능성?
A. 2% 인플레 목표는 잘 적용되어 왔음. 2% 인플레 목표 자체에는 변화가 없을 것
Q. 트럼프 대통령의 금리인하 요구 관련?
A. 대통령의 발언과 관련한 응답은 하지 않겠음. 트럼프와의 직접적 접촉 없었다
Q. 통화정책이 상당히 제약적(meaningfully restrictive)이라는 평가에 변화가 있는지? 25bp 추가 인하한다면 정책이 덜 제약적일 것이라고 생각하나?
A. 평가는 크게 바뀌지 않았다. 금리인하 시작 당시보다는 덜 제약적이지만 여전히 통화정책은 제약적. 인플레와 고용시장에 미치는 영향을 관찰할 것. 인플레와 고용시장은 균형 잡혔고, 통화정책은 잘 작동하고 있다.
Q. 성명문 변화에 대해? 신행정부 하 인플레 상방 리스크?
A. 문구 삭제는 큰 시그널을 주기 위한 것은 아니었음. 두 번 연속의 좋은 인플레 데이터가 확인. 우리는 2% 목표 달성을 위해 노력할 것. 아직 FOMC는 신행정부 재정정책과 규제를 지켜보자는 스탠스
Q. 현재 경제전망 불확실성은 어느 정도인가? 통화정책이 제약적이라는 것은 추가 인하를 열어두고 있는 것인지?
A. 현재 관세, 재정, 이민, 규제 등 고려할 때 불확실성 존재. 통화정책과 경제 모두 좋은 포지션에 위치. 우리는 조정에 서두를 필요가 없다고 판단했음.
Q. 새로운 이민 정책이 고용시장에 미칠 영향?
A. 여러가지 시나리오들을 염두에 두고는 있으나 행동으로 이어지기까지는 더 많은 것이 확인돼야 할 것
Q. 추가 금리인하는 인플레 전망에 영향을 받을 것이라는 12월 견해에 대해?
A. 주거비가 꽤 꾸준히(pretty steadily) 하락하고 있음. 다만 인플레의 추가 진전을 보고 싶다는 견해는 유지. 실업률 등을 고려할 때 전반적으로 고용시장은 꽤 안정적이어 보인다
Q. 이민자 유입 감소가 고용시장에 미칠 영향?
A. 이민자 수는 감소하고 있으나 일자리수가 동반 감소하는 상황은 안정적인 실업률로 이어질 수 있다는 점을 시사
Q. 중립금리와 얼마나 멀리 있나?
A. 현재 4.3%는 장기 중립금리보다 꽤 높은 수준. 우리의 통화정책은 인플레를 안정시키고 고용시장 균형을 달성하는 데 기여하고 있음. 추가 정책 조정에 서두르지는 않을 것
Q. 현재 관세 위협이 과거 무역전쟁 당시 상황과 다른 점? 통화정책에 영향을 미칠 관세 관련 이벤트가 있다면?
A. 현재는 고인플레 상황. 소비자들은 가격에 부담을 느끼고 있다는 기업들의 평가가 많음. 제조업 기반이 멕시코 등으로 이동하며 예전보다는 중국에 대한 직접적 의존도가 낮아졌음. 관세가 어떻게 경제와 소비자들로의 영향으로 이어질지 불확실성 높음
Q. QT 종료에 대한 논의?
A. 준비금은 충분함(abundant). 정확한 시점을 말하기는 어려움
Q. 금리를 인하하기 위해 인플레 목표 수준으로 떨어져야 하나?
A. 금리 인하를 위해 인플레가 목표 수준으로 내려와야 할 필요는 없다. 인플레 추가 진전을 보고 싶다. 현재 정책은 상당히(not highly but meaningfully) 제약적
Q. 현재 경기전망의 리스크?
A. 고용률이 낮은 상황에서 해고율이 높아지면 실업률이 급격히 높아질 가능성. 하지만 전반적으로 고용시장은 양호한 상황. 우리는 6개월간 견고한 상태를 유지했음
Q. 3월 인하가 테이블 위에 있나? 인플레 관련 데이터가 추가 확인돼야 하나?
A. 디스인플레가 울퉁불퉁하고 느리지만 진전되고 있다. 우리는 금리인하에 서두를 필요가 없다는 결론. 꾸준한 인플레 진전이 이루어진다면 자신감이 높아질 것
Q. 2% 인플레 목표가 변경될 가능성?
A. 2% 인플레 목표는 잘 적용되어 왔음. 2% 인플레 목표 자체에는 변화가 없을 것
❤1