Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
일반적인 스타트업에서 필요로 하는 CAPEX와는 다른 차원에 자본이 꽤 오랫동안 요구가 되고, 그렇기 때문에 훌륭하고 유능한 경영진 만큼이나 큰 규모의 자본이 필수조건이 됩니다.

면허나 자본이라는 진입장벽만 넘어서게 되면, 우리가 일반적으로 생각하는 스타트업의 운영 방식과 마인드를 이런 대규모 레거시 산업에 살짝만 가져다대어도, 해당 시장은 엄청난 혁신이 만들어집니다. 면허와 자본이 설정해놓은 벽이 그간 벽 안에 있는 플레이어들에게 안주해도 적당히 먹고 살기 어렵지 않다는 인식을 주었을 것이기에, 공격적이고 능동적인 창업팀이 이 한계만 넘어서게 되면 실제 사업과 고객 만족의 난이도는 매우 낮아집니다.

면허 발급이라는 불확실성, 대규모 자본 유치라는 어려움이 존재하는 여러 산업군에서, 역설적으로 과감하게 도전하고 베팅하는 창업팀이 많이 생기고, 또 많이 만나보고 싶습니다.

https://www.fastventures.co.kr/post/airpremia_investment
👍5
성공하고 싶은 사람들은 계속 새로운 것을 배우는 데 집착한다.

더 많은 책을 읽으려하고, 더 많은 영상을 보고, 더 많은 트윗, 블로그를 끊임없이 넘긴다. 하나의 콘텐츠가 끝나면 또 다른 콘텐츠로 넘어간다.

찰리 멍거가 이렇게 말한 적이 있다.
"Take a simple idea and take it seriously"

하지만 '하나의 큰 아이디어'면 충분하다.
내가 보기에 성공한 사람들은 '딱 하나의 큰 아이디어'에 자신의 신념을 걸었다.

우리가 새로운 아이디어를 소비하는 것을 멈추면 어떨까?
그리고 딱 하나의 아이디어에 집중한다면 어떨까?

우리가 하나의 아이디어에 집중하면, 그 아이디어를 적용할 수 있는 수많은 것들이 보이기 시작한다. 망치를 들면 못만 보이는 것처럼.

망치를 들고 못을 찾아? 어떤 사람들은 비판한다. 관점이 좁다고.

하지만 오히려 그게 당신을 성공으로 이끌어줄 엣지가 될 수 있다.

<One Big Idea>, Daivd Perell

송범근
4
I try to ask when I’m reading: Will I care about this a year from now? Ten years from now? Eighty years from now?
It’s fine if the answer is no, even a lot of the time. But if you're honest with yourself you may begin to steer toward the more enduring bits of information.

There are two types of information: permanent and expiring. Permanent information is: 'How do people behave when they encounter a risk they hadn’t fathomed?' Expiring information is: 'How much profit did Microsoft earn in the second quarter of 2005?'
Expiring knowledge catches more attention than it should, for two reasons.
One, there’s a lot of it, eager to keep our short attention spans occupied.

Two, we chase it down, anxious to squeeze insight out of it before it loses relevance.
Permanent information is harder to notice because it’s buried in books rather than blasted in headlines. But its benefit is huge. It’s not just that permanent information never expires, letting you accumulate it. It also compounds over time, leveraging off what you’ve already learned. Expiring information tells you what happened; permanent information tells you why something happened and is likely to happen again. That 'why' can translate and interact with stuff you know about other topics, which is where the compounding comes in.
Llama 3. 공개된 것은 8B와 70B 모델입니다. 400B 모델이 학습 중이네요. 성능 수준을 보면 8B 모델은 7-8B 모델 중 최고 수준입니다. 70B 모델은 Claude 3 Sonnet++ 정도의 느낌이군요. 400B 모델은 GPT-4와 Claude 3 Opus 수준의 모델이 될 듯 합니다.
학습 데이터셋은 15T. 공개된 소스에서 수집했다는데 15T를 높은 퀄리티로 어떻게 확보할 수 있는지가 궁금하긴 하네요. 심지어 Multi Epoch가 아니고 Single Epoch입니다. (https://x.com/soumithchintala/status/1781095841349902392) 코드를 Llama 2에 비해 4배 더 넣었다고 하는데 Llama 2의 데이터 믹스를 모르니 알 수 없네요. Llama 1의 비율 4.5%를 사용하면 360B 정도가 되는데 아마 이보다 많이 넣으려고 하 않았을까 싶습니다.
128K 토크나이저를 사용하고 8B 모델에도 GQA를 사용했습니다. 8K Context Length. 128K 토크나이저는 잠깐 테스트해보면 한국어에 대해서는 Gemini의 260K 토크나이저보다 효율적인 것 같습니다. 다국어 성능과는 별개로 토크나이저에 대해서는 크게 신경 쓰지 않아도 될 듯하네요. 문서 경계를 넘지 않도록 Attention Mask를 적용한 부분을 특별히 언급하고 있는데 학습 효율성 때문에 잘 하지 않던 선택이지만 성능적으로는 이쪽이 낫다는 리포트도 나왔었죠. (https://arxiv.org/abs/2402.13991)
5%는 30개 언어에 대한 Multilingual. 30개 언어라는 것을 생각하면 좀 작지 않나 싶지만 그래도 750B 수준이고 0%였던 Llama 2에 대해서도 Multilingual 실험을 많이 했었다는 것을 생각해보면 훨씬 나은 상황이지 않을까 싶습니다.
데이터셋 필터링 과정에 대해 언급하고 있는데 휴리스틱, NSFW 필터는 일반적인 선택이고 Semantic Deduplication이라면 Fuzzy Deduplication을 넘어 임베딩을 사용했다는 의미인가 싶네요. 이미지에 대해서지만 Semantic Deduplication을 적용한 사례도 있습니다. (https://arxiv.org/abs/2303.09540) 퀄리티 분류기는 Llama 2를 사용해서 만들었다고 하는데 아마도 Llama 2로 높은 퀄리티의 문서를 선택한 것일 듯 하네요. LLM으로 필터링하는 접근은 최근에 하나 나왔었죠. (https://arxiv.org/abs/2402.09668)
데이터 믹스에 대해 실험을 많이 했고 Scaling Law를 사용했다고 하는데 Downstream Task에 대한 성능과 데이터 믹스를 예측하기 위한 Scaling Law들에 대한 결과도 최근 나오고 있습니다. (https://arxiv.org/abs/2403.08540, https://arxiv.org/abs/2403.16952) 15T 학습 이후에도 여전히 성능 향상이 나타나고 있다고.
최근 언급했던 24K H100 클러스터에서 학습했고 400 TFLOPS 달성했습니다. H100에서 40% MFU라고 하면 상당히 좋은 수치일 것 같네요.
정렬에는 사람이 구축한 10M 규모의 데이터를 사용. Llama 2에서 이미 1M이 넘었으니 자연스러운 규모 증가인 듯 합니다
Multimodal이나 Multilingual, Long Context는 추후 추가될 예정이라고 합니다. Multimodal이 혹시 같이 나올 수도 있지 않을까 했는데 역시 일정이 만만하지는 않은 듯 하네요.
이제 모두에게 필요했던 바로 그 모델이 나온 듯 합니다. 다만 Llama 3를 쓰면 Built with Meta Llama 3라고 기술해야 하고 Llama 3로 모델을 만들었다면 Llama 3를 모델 이름에 붙여야 한다고 합니다. 그러나 70B 모델을 15T 학습시킬 수 있는 것이 아니라면 그걸 붙이는 것을 선택하는 사람들이 많이 있겠죠.

김성현
👍2
당연한 것을 더 잘하는 것.

고객은 그냥 빨리 내 문제를 해결해주는 것을 원한다.
in my mind, 3 buckets of agents (on a scale):

1) "hand-crafted": chained prompts and API calls. working, and making money today.
2) "specialized": dynamically decides what to do within a subset of task types and tools. seeing good demos, raising capital, and lining up pilots.
3) "general": can do anything. nothing reliable exists as there are too many edge cases.
You have your goals. I call the way you will operate to achieve your goals your machine. It consists of a design (the things that have to get done) and the people (who will do the things that need getting done). Those people include you and those who help you.

For example, imagine that your goal is a military one: to take a hill from an enemy. Your design for your "machine" might include two scouts, two snipers, four infantrymen, and so on. While the right design is essential, it is only half the battle. It is equally important to put the right people in each of those positions. They need different qualities to do their jobs well--the scouts must be fast runners, the snipers must be good marksmen--so that the machine will produce the outcomes you seek.
Visited Bay Area for 2.5 days, met IRL w some super sharp folks. Key lessons:

1. Long sales cycles are *always* an excuse;

2. Negative feedback is best delivered in *public*;

3. All “growth” techniques revolve around either increasing motivation or decreasing friction.