Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
1) Inflection will likely be the first of many VC-backed Foundation Model companies to fail.

Foundation models without proprietary, real-time data AND massive distribution for RLHF are the fastest depreciating assets in history.

2) Irony is that while models are commodities today, the ultimate future is likely one where there are only a few truly massive models with proprietary real time data and vast distribution.

Only a few will make it. And they will be super valuable.

3) Smaller open source models will be used for most vertical tasks to save on inference costs.

As ever, there are no barriers to entry on the internet, only barriers to scale. And once at scale, the returns are very high.

Foundation models are becoming a “Game of Emperors” and the empires on the other side of this winnowing are really large.

4) Also respect to the Inflection team for trying. They built a great model - just wasn’t valuable enough without proprietary real-time data and massive internet distribution.

And yes, technically it hasn’t entirely failed yet but I think fair to say has effectively failed.

Inflection Deal

> too much capital and talent needed for next generation
> no real way to exit
> Reid Hoffmann looking to engineer an acquihire
> MSFT unwilling to bite at $4 bil
> so they engineered an earn-out deal
> allowing founders and research team to leave
> investors get back some capital over time
> surprising Reid managed to persuade everyone to get this done
장병규 의장의 생각

"특정 기획자가 아니라 시스템이 게임을 만드는 프랜차이즈 체계를 갖춰야 20~30년 존속이 가능하다. 외부 제작사와도 협업해 펍지 IP로 다양한 시도를 하겠다. 전세계 번화가에 맥도날드가 있듯 어느 게임 분야를 가더라도 펍지라는 프랜차이즈가 보이도록 하겠다”

“가상자산으로서의 비트코인과 이더리움은 일리가 있지만 화폐를 대체하는 등 다른 용도로는 아직까지 보수적으로 본다”
“애플 비전프로가 보여준 위력이 있지만 대중화까지는 시간이 필요할 것”

https://n.news.naver.com/article/015/0004962360?sid=101
이 회사가 내부적으로 가지고있는 플레이북(시스템)이 있다는데 본적이 없어서 궁금하다. 이분 인터뷰 보면 이게 핵심이라고 자주 언급하시는데 공개가 안된 것 같음.

https://www.colinkeeley.com/blog/robert-f-smith-vista-equity-partners-operating-manual
👍1
Forwarded from Nikkei Asia
Shohei Ohtani fever drives $150m windfall from MLB Seoul Series

Major League Baseball's tour through Thursday in Seoul is expected to produce a financial boon locally thanks largely to the appearance of Japanese superstar Shohei Ohtani.

Read more here
Forwarded from Nikkei Asia
Japanese startup generates AI models from 'evolutionary' process

Sakana AI, a Japanese artificial intelligence startup, said Thursday that it has invented a new way of creating generative AI models that applies the concepts of evolution and natural selection. This approach, according to the company, allows significantly cheaper and faster AI development.

Read more here
지난 밤에 테슬라 FSD 버전 업그레이드.
FSD beta v12.3인데 드디어 end to end single stack이 올라왔다.
2012년 개와 고양이를 구분하던 단순한 AlexNet 모델이 2015년 자율주행 기술에 좀 더 진보된 CNN모델 형태로 적용되어 좌 우 중앙카메라 세대와 스티어링휠 각도만를 입력으로 주고 트레이닝 시켜 하나의 딥러닝 모델로도 차선이 없는 산길에서도 길을 찾아가더라는 신기한 실험결과를 공개했고 이를 end to end autonomous driving이라고 명명했다. (그 당시에는 각각의 모델이 차선, 물체, open space등을 각각 따로 인식하는 방식이 대세였다.)
이 연구에는 Nvidia의 Tegra X1 SoC가 2개들어가는 Drive PX platform을 사용했다. 다만, 이 end to end 기술은 너무 많은 문제점을 내포하고 있어 이후 실용화 단계로는 적용되지 못했다.
그 이후 테슬라는 Nvidia Parker SoC +Pascal GPU를 활용한 자율주행 시스템 HW2.0/2.5를 개발해서 자율주행 기술을 리드 하기 시작했다.
그리고 자체 개발한 칩으로 넘어가서 HW3.0/4.0까지가 양산되었고 현재 약 50TOPs의 성능으로 개선된 SoC에 여러 딥러닝 모델을 통합해서 크게 두개의 perception / planning 으로 나눈 아키텍쳐의 FSD을 배포해서 사용해 왔다.
그리고 오늘 End to end(한개의 거대모델)을 활용한 transformer구조로의 소프트웨어가 마침 내 차에 들어와서 사용해 볼 수 있게 됐다.
실제로 사용해본 느낌은 이전버전 대비 차선변경이나 혼잡상황에서의 주행이 좀 더 조심스러워진 느낌. 소비자 입장에선 큰
체감상의 차이를 느끼진 못하겠다.
릴리즈 노트의 내용이 재밌는건 single end to end 뉴럴네트웍을 사용했고 이로 인해 300k line의 (인간이 만든) c++코드를 대체했다고 나와있다.
어떤 기능이 추가 됐어요가 아니라 2015년 엔비디아에서 소개한 미완성의 기술을 우리가 결국 증명해냈어요!라고 기뻐하는 모습 같다고 할까.
엔비디아가 GTC2024 keynote에서 발표한 제품이나 기술들은 많은 엔지니어들의 노력과 염원이 담겨 있다.
그저 지금의 수준과 이해의 눈으로 FP4가 왜 필요한지 모르겠다고 폄하하기 보다는 그런 시도가 갖는 의미를 무엇인지를 먼저 들여다 보았으면.
그리고 여력이 된다면 테슬라처럼 더 나은 세상을 스스로 증명을 하면 되지 않을까?
<두가지 멘탈리티>
예를 들어서 밴드가 오랜만에 합주를 하려고 연주실을 빌렸다. 멤버 한명이 수고를 해서 공금으로 예약을 했다고 한다.
밤 8시에 멤버들과 함께 합주실로 들어갔는데, 어라 사용하는 사람들이 이미 있다. 확인해 봤더니 예약한 사람이 실수로 다음날 오전 8시로 예약을 해버렸던 거다.
이때 반응 하는 걸 보면 두가지 멘탈리티가 보인다.
1) 왜 이런 걸 실수를 합니까. 나참. 이시간에 여러 사람 모아놓고. 나 그냥 갈래요. 다음부터 좀 똑바로 하세요.
2) 괜찮아요. 그럴 수도 있지. 지금 빨리 근처 연습실 다 같이 찾아볼까요? 어 여기 연습실에 9시에 비는 방이 하나 있네요? 오히려 잘됐네. 나가서 근처 카페에서 이야기하다가 옵시다!
리더와 팀 기후(team climate)로 대응해서 생각해 보라. 우리는 이런 예상 못한 실수 상황에 대해 어떤 멘탈리티를 갖고 있는가.
단, 이것은 좋은 게 좋다고 하면서 매사를 넘기는 "회피형"이 바람직하다는 말이 아니다. 중요 포인트는 "우리가 힘을 합치면 어떤 예상 못한 어려움도 함께 극복할 수 있지 않겠어? 걱정하지마. 우리를 믿어"라는 마음이다.
🫡1
Hippocratic이 만들고 있는게 AI 간호사였나보네요? 실제 사람은 시간당 $90 필요했는데 이제 AI 에이전트로 $9만 있어도 내 간호사 이용할 수 있다는 컨셉인듯

(개인적으로는 저는 니즈를 느껴본 적이 없어서 아직 잘 모르겠습니다...)

https://qz.com/nvidia-wants-replace-nurses-with-ai-1851349522
https://news.hada.io/topic?id=13929&fbclid=IwAR1L5cA56ADb4A9sJ2iKQSYFAZScAgvtFQHMlhDinfk92ailyKyOiaUKaUU

Sora(소라)는 Diffusion Transformers(DiT), Latent Diffusion을 기반으로 하며, 모델과 훈련 데이터셋을 대규모로 확장
소라는 비디오 모델을 확장하는 것이 가치가 있으며, 대규모 언어 모델(LLM)과 유사한 추가 확장이 모델을 빠르게 개선하는 주요 동력이 될 것임을 보여줌

Runway, Genmo, Pika와 같은 회사들이 Sora와 같은 비디오 생성 모델을 위한 직관적인 인터페이스와 워크플로우를 구축 중임
소라 훈련에는 1개월 동안 4,200~10,500개의 Nvidia H100 GPU로 추정되는 엄청난 양의 컴퓨팅 파워가 필요
추론의 경우, Sora는 Nvidia H100 GPU당 시간당 최대 약 5분 분량의 동영상을 생성할 수 있는 것으로 추정. LLM과 비교했을 때, 소라와 같은 확산 기반 모델의 추론은 몇 배나 더 비쌈

소라와 같은 모델이 널리 배포됨에 따라 추론 컴퓨팅이 훈련 컴퓨팅을 지배할 것이며, ‘손익분기점’은 1,530만~3,810만 분의 동영상이 생성될 때로 추정되며, 그 이후에는 원래 학습보다 추론에 더 많은 컴퓨팅이 소요. 이에 비해 하루에 업로드되는 동영상은 1,700만 분(TikTok)과 4,300만 분(YouTube)

TikTok과 YouTube에서 AI가 생성하는 비디오의 비중을 고려할 때, 추론을 위한 Nvidia H100 GPU의 최대 수요는 약 72만개로 추정됨

배경
Sora 는 확산 모델에 속함. 확산 모델은 이미지 생성에 인기 있는 선택으로, OpenAI의 DALL-E나 Stability AI의 Stable Diffusion과 같은 유명 모델들이 있음. 최근에는 Runway, Genmo, Pika와 같은 회사들이 비디오 생성을 탐구하고 있으며, 이는 확산 모델을 활용할 가능성이 높음.
확산 모델은 데이터에 임의의 노이즈를 추가하는 과정을 점차적으로 역전시켜 이미지나 비디오와 같은 데이터를 생성하는 방법을 학습하는 생성적 기계학습 모델의 한 종류임. 이 모델들은 순수한 노이즈 패턴에서 시작하여 점차 이 노이즈를 제거하고, 패턴을 정제하여 이해할 수 있고 상세한 출력으로 변환함.

소라의 기술적 세부 사항
OpenAI는 소라 발표와 함께 기술 보고서를 공개함. 이 보고서는 세부 사항이 부족하지만, 그 설계는 “Transformers를 사용한 확장 가능한 확산 모델” 연구 논문에 크게 영향을 받은 것으로 보임
이 논문의 저자들은 이미지 생성을 위한 Transformer 기반 아키텍처인 DiT(확산 트랜스포머를 의미하는 Diffusion Transformers의 약자)을 제안함
소라는 이 작업을 비디오 생성으로 확장하는 것으로 보임. 소라 기술 보고서와 DiT 논문을 결합함으로써, 소라 모델이 어떻게 작동하는지에 대해 상당히 정확한 그림을 얻을 수 있음
소라에는 세 가지 중요한 부분이 있음:
픽셀 공간에서 작동하지 않고 대신 잠재 공간에서 확산을 수행함(잠재 확산이라고 함)
Transformer 아키텍처를 사용함
매우 큰 데이터셋을 사용하는 것으로 보임

잠재 확산
첫 번째 포인트인 잠재 확산을 이해하기 위해, 이미지 생성을 고려해보면
각 픽셀을 확산을 사용하여 생성할 수 있지만, 이는 매우 비효율적임(예를 들어, 512x512 이미지는 262,144 픽셀을 가짐)
대신, 픽셀에서 어떤 압축 요소를 가진 잠재 표현으로 매핑한 다음, 이 더욱 컴팩트한 잠재 공간에서 확산을 수행하고 마지막으로 잠재에서 픽셀 공간으로 다시 디코딩할 수 있음
이 매핑은 계산 복잡성을 상당히 개선함: 512x512 = 262,144 픽셀에 대해 확산 과정을 실행하는 대신, 예를 들어 64x64 = 4,096 잠재체를 생성하기만 하면 됨
이 아이디어는 “고해상도 이미지 합성을 위한 잠재 확산 모델” 연구 논문의 핵심 돌파구였으며, Stable Diffusion의 기반이 됨.
픽셀에서 잠재 표현으로의 매핑 예시는 Sora 기술 보고서에서 가져온 이미지임.
DiT와 Sora 모두 이 접근 방식을 활용함. Sora의 경우 추가 고려 사항으로 비디오에는 시간 차원이 있음: 비디오는 이미지의 시간 순서인 프레임으로 구성됨
Sora 기술 보고서에서는 픽셀에서 잠재 공간으로 매핑하는 인코딩 단계가 공간적(각 프레임의 너비와 높이를 압축하는 것을 의미) 및 시간적(시간을 걸쳐 압축하는 것을 의미)으로 발생하는 것으로 보임

트랜스포머
두 번째 포인트로, DiT와 Sora 모두 일반적으로 사용되는 U-Net 아키텍처 대신 바닐라 트랜스포머 아키텍처를 사용함
이는 DiT 논문의 저자들이 트랜스포머 사용이 예측 가능한 스케일링을 초래한다고 관찰한 것이 중요한데, 더 많은 훈련 계산을 적용하면(모델을 더 오래 훈련시키거나, 모델을 더 크게 만들거나, 또는 둘 다) 성능이 향상됨을 의미함
이러한 스케일링 행위는 소위 스케일링 법칙으로 정량화될 수 있는 중요한 속성이며, 대규모 언어 모델(LLMs)과 다른 모달리티에서의 자기회귀 모델의 맥락에서 이전에 연구됨
더 나은 모델을 얻기 위해 스케일을 적용하는 능력은 LLMs에 대한 빠른 진보의 주요 동력 중 하나였음
이미지와 비디오 생성에도 같은 속성이 존재하므로, 여기에서도 같은 스케일링 레시피가 작동할 것으로 예상할 수 있음

데이터셋
모델 훈련에 필요한 마지막 핵심 요소는 레이블이 붙은 데이터이며, 이는 Sora와 같은 모델을 훈련시키는 데 있어 가장 중요한 비밀 요소로 여겨짐
Sora와 같은 텍스트-투-비디오 모델을 훈련시키려면, 비디오와 그에 대한 텍스트 설명의 쌍이 필요함
OpenAI는 자신들의 데이터셋에 대해 많이 언급하지 않지만, 그것이 매우 크다는 것을 암시함: “인터넷 규모의 데이터에 대한 훈련을 통해 일반적인 능력을 획득하는 대규모 언어 모델에서 영감을 받았다.”
OpenAI는 또한 이미지에 자세한 텍스트 라벨을 부착하는 방법을 공개했으며, 이는 DALLE-3 데이터셋을 수집하는 데 사용됨
일반적인 아이디어는 데이터셋의 레이블이 붙은 부분 집합에서 캡셔너 모델을 훈련시키고, 그 캡셔너 모델을 사용하여 나머지를 자동으로 라벨링하는 것임
Sora의 데이터셋에도 같은 기술이 적용된 것으로 보임

영향력
Sora가 몇 가지 중요한 영향을 미칠 것으로 믿음. 이제 그 영향들에 대해 간략히 살펴보면

비디오 모델의 실용성 시작
Sora가 생성할 수 있는 비디오의 품질은 세부 수준뿐만 아니라 시간적 일관성 측면에서도 분명한 돌파구임(예를 들어, 객체가 일시적으로 가려졌을 때 객체의 영속성을 올바르게 처리하고, 물에 반사를 정확하게 생성할 수 있음)
이제 비디오의 품질이 실제 애플리케이션에서 사용될 수 있는 특정 유형의 장면에 충분하다고 믿음
예를 들어, Sora는 곧 일부 스톡 비디오 푸티지 사용을 대체할 수 있음

그러나 여전히 남아 있는 도전 과제들이 있음:
현재 Sora 모델이 얼마나 조절 가능한지 명확하지 않음
모델이 픽셀을 출력하기 때문에 생성된 비디오를 편집하는 것은 어렵고 시간이 많이 소요됨
또한 이 모델들을 유용하게 만들기 위해서는 직관적인 사용자 인터페이스(UI)와 워크플로우를 구축하는 것도 필요함
Runway, Genmo, Pika 등과 같은 회사들이 이미 이러한 문제들에 대해 작업 중임

비디오 모델의 빠른 발전 예상
DiT 논문의 핵심 통찰 중 하나는 모델 품질이 추가적인 계산으로 직접 개선된다는 것이었으며, 이는 위에서 논의된 바와 같음
이는 LLMs에 대해 관찰된 스케일링 법칙과 유사함
따라서 이러한 모델들이 점점 더 많은 계산으로 훈련됨에 따라 비디오 생성 모델의 품질에 대한 빠른 추가 진보를 기대할 수 있음
Sora는 이 레시피가 실제로 작동한다는 것을 명확히 보여주며, OpenAI를 비롯한 다른 회사들도 이 방향으로 더욱 집중할 것으로 예상됨
👍1