Continuous Learning_Startup & Investment
산업에 큰 변화가 생길 때 그 변화의 레버를 가지고 있는 기업이 구사할 수 있는 전략들도 다양하겠군요. LLM 학습 자체에 큰 비용이 들다보니 이런 시행착오를 겪은 회사가 많이 없고, 그중에 자체 칩 생산을 하지 않는 네이버는 인텔/삼성전자와 협업해서 반도체 사업쪽으로도 확장을 하는 군요.
팩트 요약: 구글, 메타의 AI칩 공습, 인텔의 반격
1. 구글이 CPU 시장에도 진입했습니다. 지난 9일 ARM 기반 새 CPU(중앙처리장치) ‘액시온(Axion)’을 최초 공개한 것입니다. 인텔보다 성능은 50%, 에너지 효율은 60% 개선됐다는 설명입니다. 구글은 단위 성능이 4배 개선된 AI 가속기 ‘TPU v5p’도 출시했습니다.
2. 인텔이 맞불을 놨습니다. 같은 날 ‘인텔 비전’ 행사에서 AI 가속기 ‘가우디3(Gaudi 3)’를 공개한 것입니다. 엔비디아의 ‘H100’과 비교, 대규모 언어모델(LLM) 추론 처리 성능이 평균 50% 더 낫다는 게 인텔의 주장입니다.
3. 메타도 AI 칩 시장에 본격 참전합니다. 지난 10일 차세대 AI 칩 ‘MTIA’ 최신 버전(v2)을 공개한 것입니다.
왜 중요한가:
“생성 AI의 잠재력은 인프라에 달렸다”
토마스 쿠리안 구글 클라우드 CEO가 지난 9일(현지시각) ‘구글 클라우드 넥스트 2024’에서 한 말입니다. 강한 컴퓨팅 성능과 클라우드 인프라가 생성 AI 서비스의 성패를 좌우한다는 것이죠. MS-오픈AI도 뛰어들 예정이기 때문에 앞으로 플랫폼, 서비스 업체가 인프라도 보유한 '서비스-인프라' 일체화 현상이 계속될 것입니다.
1. 구글이 CPU 시장에도 진입했습니다. 지난 9일 ARM 기반 새 CPU(중앙처리장치) ‘액시온(Axion)’을 최초 공개한 것입니다. 인텔보다 성능은 50%, 에너지 효율은 60% 개선됐다는 설명입니다. 구글은 단위 성능이 4배 개선된 AI 가속기 ‘TPU v5p’도 출시했습니다.
2. 인텔이 맞불을 놨습니다. 같은 날 ‘인텔 비전’ 행사에서 AI 가속기 ‘가우디3(Gaudi 3)’를 공개한 것입니다. 엔비디아의 ‘H100’과 비교, 대규모 언어모델(LLM) 추론 처리 성능이 평균 50% 더 낫다는 게 인텔의 주장입니다.
3. 메타도 AI 칩 시장에 본격 참전합니다. 지난 10일 차세대 AI 칩 ‘MTIA’ 최신 버전(v2)을 공개한 것입니다.
왜 중요한가:
“생성 AI의 잠재력은 인프라에 달렸다”
토마스 쿠리안 구글 클라우드 CEO가 지난 9일(현지시각) ‘구글 클라우드 넥스트 2024’에서 한 말입니다. 강한 컴퓨팅 성능과 클라우드 인프라가 생성 AI 서비스의 성패를 좌우한다는 것이죠. MS-오픈AI도 뛰어들 예정이기 때문에 앞으로 플랫폼, 서비스 업체가 인프라도 보유한 '서비스-인프라' 일체화 현상이 계속될 것입니다.
Themiilk
AI 군비 경쟁 가속화... 구글, Arm 기반 CPU ‘액시온’ 공개 - 더밀크
[구글클라우드넥스트 2024] 최초 자체 개발 CPU 액시온
인텔 등 x86 CPU보다 성능 50%, 에너지 효율 60% 높아
빅테크, 엔비디아 GPU 대응 칩도 계속해서 선보여
토마스 쿠리안 구글 클라우드 CEO “생성 AI의 잠재력, 인프라에 달려”
인텔 등 x86 CPU보다 성능 50%, 에너지 효율 60% 높아
빅테크, 엔비디아 GPU 대응 칩도 계속해서 선보여
토마스 쿠리안 구글 클라우드 CEO “생성 AI의 잠재력, 인프라에 달려”
The Japanese AI market presents a significant opportunity for Western AI players. Despite Japan's large economy, major AI companies have not yet fully penetrated the market, and the level of digitalization is comparatively low.
https://www.aitimes.com/news/articleView.html?idxno=158805
https://www.aitimes.com/news/articleView.html?idxno=158805
AI타임스
일본에 자리 잡은 사카나 AI "기업 관심 집중...아직 경쟁자 없어"
논문 \'트랜스포머\' 공동 저자인 릴리언 존스의 사카나 AI가 일본 인공지능(AI)의 핵심으로 떠오른 것으로 알려졌다. 사카나 AI는 최근 일본어 전용 대형언어모델(LLM)을 출시, 거대 기업들의 집중적인 러브콜을...
👍1
Continuous Learning_Startup & Investment
https://youtu.be/SAZgx3L1m3s
낭만투자파트너스
투자는 잘 했는데 어떻게 엑싯하죠?가자 일본으로!
불확실성이 가득한 환경 속에서 APAC PE 시장은 큰 변화를 직면하고 있습니다. 일본 시장의 성장은 빠르게 이루어지고 있고, PE 업계에서는 빈익빈 부익부 현상이 가속화되고 있습니다. PE에게도 생존의 문제가 직면한 지금, PE들은 어떻게 해쳐나가고 있을까요?
나스닥 IPO Exit만 바라보던 투자자들에겐 일본 상장의 옵션이 열리고 있습니다.
나스닥 IPO Exit만 바라보던 투자자들에겐 일본 상장의 옵션이 열리고 있습니다.
일반적인 스타트업에서 필요로 하는 CAPEX와는 다른 차원에 자본이 꽤 오랫동안 요구가 되고, 그렇기 때문에 훌륭하고 유능한 경영진 만큼이나 큰 규모의 자본이 필수조건이 됩니다.
면허나 자본이라는 진입장벽만 넘어서게 되면, 우리가 일반적으로 생각하는 스타트업의 운영 방식과 마인드를 이런 대규모 레거시 산업에 살짝만 가져다대어도, 해당 시장은 엄청난 혁신이 만들어집니다. 면허와 자본이 설정해놓은 벽이 그간 벽 안에 있는 플레이어들에게 안주해도 적당히 먹고 살기 어렵지 않다는 인식을 주었을 것이기에, 공격적이고 능동적인 창업팀이 이 한계만 넘어서게 되면 실제 사업과 고객 만족의 난이도는 매우 낮아집니다.
면허 발급이라는 불확실성, 대규모 자본 유치라는 어려움이 존재하는 여러 산업군에서, 역설적으로 과감하게 도전하고 베팅하는 창업팀이 많이 생기고, 또 많이 만나보고 싶습니다.
https://www.fastventures.co.kr/post/airpremia_investment
면허나 자본이라는 진입장벽만 넘어서게 되면, 우리가 일반적으로 생각하는 스타트업의 운영 방식과 마인드를 이런 대규모 레거시 산업에 살짝만 가져다대어도, 해당 시장은 엄청난 혁신이 만들어집니다. 면허와 자본이 설정해놓은 벽이 그간 벽 안에 있는 플레이어들에게 안주해도 적당히 먹고 살기 어렵지 않다는 인식을 주었을 것이기에, 공격적이고 능동적인 창업팀이 이 한계만 넘어서게 되면 실제 사업과 고객 만족의 난이도는 매우 낮아집니다.
면허 발급이라는 불확실성, 대규모 자본 유치라는 어려움이 존재하는 여러 산업군에서, 역설적으로 과감하게 도전하고 베팅하는 창업팀이 많이 생기고, 또 많이 만나보고 싶습니다.
https://www.fastventures.co.kr/post/airpremia_investment
👍5
성공하고 싶은 사람들은 계속 새로운 것을 배우는 데 집착한다.
더 많은 책을 읽으려하고, 더 많은 영상을 보고, 더 많은 트윗, 블로그를 끊임없이 넘긴다. 하나의 콘텐츠가 끝나면 또 다른 콘텐츠로 넘어간다.
찰리 멍거가 이렇게 말한 적이 있다.
"Take a simple idea and take it seriously"
하지만 '하나의 큰 아이디어'면 충분하다.
내가 보기에 성공한 사람들은 '딱 하나의 큰 아이디어'에 자신의 신념을 걸었다.
우리가 새로운 아이디어를 소비하는 것을 멈추면 어떨까?
그리고 딱 하나의 아이디어에 집중한다면 어떨까?
우리가 하나의 아이디어에 집중하면, 그 아이디어를 적용할 수 있는 수많은 것들이 보이기 시작한다. 망치를 들면 못만 보이는 것처럼.
망치를 들고 못을 찾아? 어떤 사람들은 비판한다. 관점이 좁다고.
하지만 오히려 그게 당신을 성공으로 이끌어줄 엣지가 될 수 있다.
<One Big Idea>, Daivd Perell
송범근
더 많은 책을 읽으려하고, 더 많은 영상을 보고, 더 많은 트윗, 블로그를 끊임없이 넘긴다. 하나의 콘텐츠가 끝나면 또 다른 콘텐츠로 넘어간다.
찰리 멍거가 이렇게 말한 적이 있다.
"Take a simple idea and take it seriously"
하지만 '하나의 큰 아이디어'면 충분하다.
내가 보기에 성공한 사람들은 '딱 하나의 큰 아이디어'에 자신의 신념을 걸었다.
우리가 새로운 아이디어를 소비하는 것을 멈추면 어떨까?
그리고 딱 하나의 아이디어에 집중한다면 어떨까?
우리가 하나의 아이디어에 집중하면, 그 아이디어를 적용할 수 있는 수많은 것들이 보이기 시작한다. 망치를 들면 못만 보이는 것처럼.
망치를 들고 못을 찾아? 어떤 사람들은 비판한다. 관점이 좁다고.
하지만 오히려 그게 당신을 성공으로 이끌어줄 엣지가 될 수 있다.
<One Big Idea>, Daivd Perell
송범근
❤4
I try to ask when I’m reading: Will I care about this a year from now? Ten years from now? Eighty years from now?
It’s fine if the answer is no, even a lot of the time. But if you're honest with yourself you may begin to steer toward the more enduring bits of information.
There are two types of information: permanent and expiring. Permanent information is: 'How do people behave when they encounter a risk they hadn’t fathomed?' Expiring information is: 'How much profit did Microsoft earn in the second quarter of 2005?'
Expiring knowledge catches more attention than it should, for two reasons.
One, there’s a lot of it, eager to keep our short attention spans occupied.
Two, we chase it down, anxious to squeeze insight out of it before it loses relevance.
Permanent information is harder to notice because it’s buried in books rather than blasted in headlines. But its benefit is huge. It’s not just that permanent information never expires, letting you accumulate it. It also compounds over time, leveraging off what you’ve already learned. Expiring information tells you what happened; permanent information tells you why something happened and is likely to happen again. That 'why' can translate and interact with stuff you know about other topics, which is where the compounding comes in.
It’s fine if the answer is no, even a lot of the time. But if you're honest with yourself you may begin to steer toward the more enduring bits of information.
There are two types of information: permanent and expiring. Permanent information is: 'How do people behave when they encounter a risk they hadn’t fathomed?' Expiring information is: 'How much profit did Microsoft earn in the second quarter of 2005?'
Expiring knowledge catches more attention than it should, for two reasons.
One, there’s a lot of it, eager to keep our short attention spans occupied.
Two, we chase it down, anxious to squeeze insight out of it before it loses relevance.
Permanent information is harder to notice because it’s buried in books rather than blasted in headlines. But its benefit is huge. It’s not just that permanent information never expires, letting you accumulate it. It also compounds over time, leveraging off what you’ve already learned. Expiring information tells you what happened; permanent information tells you why something happened and is likely to happen again. That 'why' can translate and interact with stuff you know about other topics, which is where the compounding comes in.
Llama 3. 공개된 것은 8B와 70B 모델입니다. 400B 모델이 학습 중이네요. 성능 수준을 보면 8B 모델은 7-8B 모델 중 최고 수준입니다. 70B 모델은 Claude 3 Sonnet++ 정도의 느낌이군요. 400B 모델은 GPT-4와 Claude 3 Opus 수준의 모델이 될 듯 합니다.
학습 데이터셋은 15T. 공개된 소스에서 수집했다는데 15T를 높은 퀄리티로 어떻게 확보할 수 있는지가 궁금하긴 하네요. 심지어 Multi Epoch가 아니고 Single Epoch입니다. (https://x.com/soumithchintala/status/1781095841349902392) 코드를 Llama 2에 비해 4배 더 넣었다고 하는데 Llama 2의 데이터 믹스를 모르니 알 수 없네요. Llama 1의 비율 4.5%를 사용하면 360B 정도가 되는데 아마 이보다 많이 넣으려고 하 않았을까 싶습니다.
128K 토크나이저를 사용하고 8B 모델에도 GQA를 사용했습니다. 8K Context Length. 128K 토크나이저는 잠깐 테스트해보면 한국어에 대해서는 Gemini의 260K 토크나이저보다 효율적인 것 같습니다. 다국어 성능과는 별개로 토크나이저에 대해서는 크게 신경 쓰지 않아도 될 듯하네요. 문서 경계를 넘지 않도록 Attention Mask를 적용한 부분을 특별히 언급하고 있는데 학습 효율성 때문에 잘 하지 않던 선택이지만 성능적으로는 이쪽이 낫다는 리포트도 나왔었죠. (https://arxiv.org/abs/2402.13991)
5%는 30개 언어에 대한 Multilingual. 30개 언어라는 것을 생각하면 좀 작지 않나 싶지만 그래도 750B 수준이고 0%였던 Llama 2에 대해서도 Multilingual 실험을 많이 했었다는 것을 생각해보면 훨씬 나은 상황이지 않을까 싶습니다.
데이터셋 필터링 과정에 대해 언급하고 있는데 휴리스틱, NSFW 필터는 일반적인 선택이고 Semantic Deduplication이라면 Fuzzy Deduplication을 넘어 임베딩을 사용했다는 의미인가 싶네요. 이미지에 대해서지만 Semantic Deduplication을 적용한 사례도 있습니다. (https://arxiv.org/abs/2303.09540) 퀄리티 분류기는 Llama 2를 사용해서 만들었다고 하는데 아마도 Llama 2로 높은 퀄리티의 문서를 선택한 것일 듯 하네요. LLM으로 필터링하는 접근은 최근에 하나 나왔었죠. (https://arxiv.org/abs/2402.09668)
데이터 믹스에 대해 실험을 많이 했고 Scaling Law를 사용했다고 하는데 Downstream Task에 대한 성능과 데이터 믹스를 예측하기 위한 Scaling Law들에 대한 결과도 최근 나오고 있습니다. (https://arxiv.org/abs/2403.08540, https://arxiv.org/abs/2403.16952) 15T 학습 이후에도 여전히 성능 향상이 나타나고 있다고.
최근 언급했던 24K H100 클러스터에서 학습했고 400 TFLOPS 달성했습니다. H100에서 40% MFU라고 하면 상당히 좋은 수치일 것 같네요.
정렬에는 사람이 구축한 10M 규모의 데이터를 사용. Llama 2에서 이미 1M이 넘었으니 자연스러운 규모 증가인 듯 합니다
Multimodal이나 Multilingual, Long Context는 추후 추가될 예정이라고 합니다. Multimodal이 혹시 같이 나올 수도 있지 않을까 했는데 역시 일정이 만만하지는 않은 듯 하네요.
이제 모두에게 필요했던 바로 그 모델이 나온 듯 합니다. 다만 Llama 3를 쓰면 Built with Meta Llama 3라고 기술해야 하고 Llama 3로 모델을 만들었다면 Llama 3를 모델 이름에 붙여야 한다고 합니다. 그러나 70B 모델을 15T 학습시킬 수 있는 것이 아니라면 그걸 붙이는 것을 선택하는 사람들이 많이 있겠죠.
김성현
학습 데이터셋은 15T. 공개된 소스에서 수집했다는데 15T를 높은 퀄리티로 어떻게 확보할 수 있는지가 궁금하긴 하네요. 심지어 Multi Epoch가 아니고 Single Epoch입니다. (https://x.com/soumithchintala/status/1781095841349902392) 코드를 Llama 2에 비해 4배 더 넣었다고 하는데 Llama 2의 데이터 믹스를 모르니 알 수 없네요. Llama 1의 비율 4.5%를 사용하면 360B 정도가 되는데 아마 이보다 많이 넣으려고 하 않았을까 싶습니다.
128K 토크나이저를 사용하고 8B 모델에도 GQA를 사용했습니다. 8K Context Length. 128K 토크나이저는 잠깐 테스트해보면 한국어에 대해서는 Gemini의 260K 토크나이저보다 효율적인 것 같습니다. 다국어 성능과는 별개로 토크나이저에 대해서는 크게 신경 쓰지 않아도 될 듯하네요. 문서 경계를 넘지 않도록 Attention Mask를 적용한 부분을 특별히 언급하고 있는데 학습 효율성 때문에 잘 하지 않던 선택이지만 성능적으로는 이쪽이 낫다는 리포트도 나왔었죠. (https://arxiv.org/abs/2402.13991)
5%는 30개 언어에 대한 Multilingual. 30개 언어라는 것을 생각하면 좀 작지 않나 싶지만 그래도 750B 수준이고 0%였던 Llama 2에 대해서도 Multilingual 실험을 많이 했었다는 것을 생각해보면 훨씬 나은 상황이지 않을까 싶습니다.
데이터셋 필터링 과정에 대해 언급하고 있는데 휴리스틱, NSFW 필터는 일반적인 선택이고 Semantic Deduplication이라면 Fuzzy Deduplication을 넘어 임베딩을 사용했다는 의미인가 싶네요. 이미지에 대해서지만 Semantic Deduplication을 적용한 사례도 있습니다. (https://arxiv.org/abs/2303.09540) 퀄리티 분류기는 Llama 2를 사용해서 만들었다고 하는데 아마도 Llama 2로 높은 퀄리티의 문서를 선택한 것일 듯 하네요. LLM으로 필터링하는 접근은 최근에 하나 나왔었죠. (https://arxiv.org/abs/2402.09668)
데이터 믹스에 대해 실험을 많이 했고 Scaling Law를 사용했다고 하는데 Downstream Task에 대한 성능과 데이터 믹스를 예측하기 위한 Scaling Law들에 대한 결과도 최근 나오고 있습니다. (https://arxiv.org/abs/2403.08540, https://arxiv.org/abs/2403.16952) 15T 학습 이후에도 여전히 성능 향상이 나타나고 있다고.
최근 언급했던 24K H100 클러스터에서 학습했고 400 TFLOPS 달성했습니다. H100에서 40% MFU라고 하면 상당히 좋은 수치일 것 같네요.
정렬에는 사람이 구축한 10M 규모의 데이터를 사용. Llama 2에서 이미 1M이 넘었으니 자연스러운 규모 증가인 듯 합니다
Multimodal이나 Multilingual, Long Context는 추후 추가될 예정이라고 합니다. Multimodal이 혹시 같이 나올 수도 있지 않을까 했는데 역시 일정이 만만하지는 않은 듯 하네요.
이제 모두에게 필요했던 바로 그 모델이 나온 듯 합니다. 다만 Llama 3를 쓰면 Built with Meta Llama 3라고 기술해야 하고 Llama 3로 모델을 만들었다면 Llama 3를 모델 이름에 붙여야 한다고 합니다. 그러나 70B 모델을 15T 학습시킬 수 있는 것이 아니라면 그걸 붙이는 것을 선택하는 사람들이 많이 있겠죠.
김성현
arXiv.org
Analysing The Impact of Sequence Composition on Language Model Pre-Training
Most language model pre-training frameworks concatenate multiple documents into fixed-length sequences and use causal masking to compute the likelihood of each token given its context; this...
👍2
in my mind, 3 buckets of agents (on a scale):
1) "hand-crafted": chained prompts and API calls. working, and making money today.
2) "specialized": dynamically decides what to do within a subset of task types and tools. seeing good demos, raising capital, and lining up pilots.
3) "general": can do anything. nothing reliable exists as there are too many edge cases.
1) "hand-crafted": chained prompts and API calls. working, and making money today.
2) "specialized": dynamically decides what to do within a subset of task types and tools. seeing good demos, raising capital, and lining up pilots.
3) "general": can do anything. nothing reliable exists as there are too many edge cases.
https://youtu.be/YQcFKngO0b8?si=viEfADIfYQcLedQw
검증된 비즈니스가 훌륭한 경영진을 만나면 어떻게 되는지 보여주는 사례.
과거 미국에서는 시즈캔디였고 한국에서는 동서이고, 지금의 미국에서는 치폴레.
인도 시장에서 10년 뒤 동서는 어디일까?
식품만 그럴까? 의류는? 다른 브랜드에서 같은 성장방정식을 쓰고 있는 곳들은 어디일까?
검증된 비즈니스가 훌륭한 경영진을 만나면 어떻게 되는지 보여주는 사례.
과거 미국에서는 시즈캔디였고 한국에서는 동서이고, 지금의 미국에서는 치폴레.
인도 시장에서 10년 뒤 동서는 어디일까?
식품만 그럴까? 의류는? 다른 브랜드에서 같은 성장방정식을 쓰고 있는 곳들은 어디일까?
YouTube
재벌이 사랑했던 초일류 월급쟁이.. 커피왕국을 일구고 스스로 재벌이 되다, 동서 이야기
동서식품의 동서는 커피믹스 시장을 비롯해 한국 커피 시장의 최강자 중 하나입니다.
그런데 동서를 창업한 인물은 김재명 명예회장이 아니었습니다.
김 명예회장은 사실 삼성그룹의 초창기를 창업주와 함께 지켰던 '삼성맨'이었는데요.
그는 어떻게 동서식품의 키를 잡으면서 맥스웰, 맥심, 카누 등의 성공을 이끌게 됐을까?
말단에서 사장까지 월급쟁이의 신화를 쓰고, 인수한 기업으로 커피왕국을 일군,
김재명 명예회장의 동서 이야기를 전해드립니다.
#동서식품 #맥심…
그런데 동서를 창업한 인물은 김재명 명예회장이 아니었습니다.
김 명예회장은 사실 삼성그룹의 초창기를 창업주와 함께 지켰던 '삼성맨'이었는데요.
그는 어떻게 동서식품의 키를 잡으면서 맥스웰, 맥심, 카누 등의 성공을 이끌게 됐을까?
말단에서 사장까지 월급쟁이의 신화를 쓰고, 인수한 기업으로 커피왕국을 일군,
김재명 명예회장의 동서 이야기를 전해드립니다.
#동서식품 #맥심…
You have your goals. I call the way you will operate to achieve your goals your machine. It consists of a design (the things that have to get done) and the people (who will do the things that need getting done). Those people include you and those who help you.
For example, imagine that your goal is a military one: to take a hill from an enemy. Your design for your "machine" might include two scouts, two snipers, four infantrymen, and so on. While the right design is essential, it is only half the battle. It is equally important to put the right people in each of those positions. They need different qualities to do their jobs well--the scouts must be fast runners, the snipers must be good marksmen--so that the machine will produce the outcomes you seek.
For example, imagine that your goal is a military one: to take a hill from an enemy. Your design for your "machine" might include two scouts, two snipers, four infantrymen, and so on. While the right design is essential, it is only half the battle. It is equally important to put the right people in each of those positions. They need different qualities to do their jobs well--the scouts must be fast runners, the snipers must be good marksmen--so that the machine will produce the outcomes you seek.