Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
일반적인 스타트업에서 필요로 하는 CAPEX와는 다른 차원에 자본이 꽤 오랫동안 요구가 되고, 그렇기 때문에 훌륭하고 유능한 경영진 만큼이나 큰 규모의 자본이 필수조건이 됩니다.

면허나 자본이라는 진입장벽만 넘어서게 되면, 우리가 일반적으로 생각하는 스타트업의 운영 방식과 마인드를 이런 대규모 레거시 산업에 살짝만 가져다대어도, 해당 시장은 엄청난 혁신이 만들어집니다. 면허와 자본이 설정해놓은 벽이 그간 벽 안에 있는 플레이어들에게 안주해도 적당히 먹고 살기 어렵지 않다는 인식을 주었을 것이기에, 공격적이고 능동적인 창업팀이 이 한계만 넘어서게 되면 실제 사업과 고객 만족의 난이도는 매우 낮아집니다.

면허 발급이라는 불확실성, 대규모 자본 유치라는 어려움이 존재하는 여러 산업군에서, 역설적으로 과감하게 도전하고 베팅하는 창업팀이 많이 생기고, 또 많이 만나보고 싶습니다.

https://www.fastventures.co.kr/post/airpremia_investment
👍5
성공하고 싶은 사람들은 계속 새로운 것을 배우는 데 집착한다.

더 많은 책을 읽으려하고, 더 많은 영상을 보고, 더 많은 트윗, 블로그를 끊임없이 넘긴다. 하나의 콘텐츠가 끝나면 또 다른 콘텐츠로 넘어간다.

찰리 멍거가 이렇게 말한 적이 있다.
"Take a simple idea and take it seriously"

하지만 '하나의 큰 아이디어'면 충분하다.
내가 보기에 성공한 사람들은 '딱 하나의 큰 아이디어'에 자신의 신념을 걸었다.

우리가 새로운 아이디어를 소비하는 것을 멈추면 어떨까?
그리고 딱 하나의 아이디어에 집중한다면 어떨까?

우리가 하나의 아이디어에 집중하면, 그 아이디어를 적용할 수 있는 수많은 것들이 보이기 시작한다. 망치를 들면 못만 보이는 것처럼.

망치를 들고 못을 찾아? 어떤 사람들은 비판한다. 관점이 좁다고.

하지만 오히려 그게 당신을 성공으로 이끌어줄 엣지가 될 수 있다.

<One Big Idea>, Daivd Perell

송범근
4
I try to ask when I’m reading: Will I care about this a year from now? Ten years from now? Eighty years from now?
It’s fine if the answer is no, even a lot of the time. But if you're honest with yourself you may begin to steer toward the more enduring bits of information.

There are two types of information: permanent and expiring. Permanent information is: 'How do people behave when they encounter a risk they hadn’t fathomed?' Expiring information is: 'How much profit did Microsoft earn in the second quarter of 2005?'
Expiring knowledge catches more attention than it should, for two reasons.
One, there’s a lot of it, eager to keep our short attention spans occupied.

Two, we chase it down, anxious to squeeze insight out of it before it loses relevance.
Permanent information is harder to notice because it’s buried in books rather than blasted in headlines. But its benefit is huge. It’s not just that permanent information never expires, letting you accumulate it. It also compounds over time, leveraging off what you’ve already learned. Expiring information tells you what happened; permanent information tells you why something happened and is likely to happen again. That 'why' can translate and interact with stuff you know about other topics, which is where the compounding comes in.
Llama 3. 공개된 것은 8B와 70B 모델입니다. 400B 모델이 학습 중이네요. 성능 수준을 보면 8B 모델은 7-8B 모델 중 최고 수준입니다. 70B 모델은 Claude 3 Sonnet++ 정도의 느낌이군요. 400B 모델은 GPT-4와 Claude 3 Opus 수준의 모델이 될 듯 합니다.
학습 데이터셋은 15T. 공개된 소스에서 수집했다는데 15T를 높은 퀄리티로 어떻게 확보할 수 있는지가 궁금하긴 하네요. 심지어 Multi Epoch가 아니고 Single Epoch입니다. (https://x.com/soumithchintala/status/1781095841349902392) 코드를 Llama 2에 비해 4배 더 넣었다고 하는데 Llama 2의 데이터 믹스를 모르니 알 수 없네요. Llama 1의 비율 4.5%를 사용하면 360B 정도가 되는데 아마 이보다 많이 넣으려고 하 않았을까 싶습니다.
128K 토크나이저를 사용하고 8B 모델에도 GQA를 사용했습니다. 8K Context Length. 128K 토크나이저는 잠깐 테스트해보면 한국어에 대해서는 Gemini의 260K 토크나이저보다 효율적인 것 같습니다. 다국어 성능과는 별개로 토크나이저에 대해서는 크게 신경 쓰지 않아도 될 듯하네요. 문서 경계를 넘지 않도록 Attention Mask를 적용한 부분을 특별히 언급하고 있는데 학습 효율성 때문에 잘 하지 않던 선택이지만 성능적으로는 이쪽이 낫다는 리포트도 나왔었죠. (https://arxiv.org/abs/2402.13991)
5%는 30개 언어에 대한 Multilingual. 30개 언어라는 것을 생각하면 좀 작지 않나 싶지만 그래도 750B 수준이고 0%였던 Llama 2에 대해서도 Multilingual 실험을 많이 했었다는 것을 생각해보면 훨씬 나은 상황이지 않을까 싶습니다.
데이터셋 필터링 과정에 대해 언급하고 있는데 휴리스틱, NSFW 필터는 일반적인 선택이고 Semantic Deduplication이라면 Fuzzy Deduplication을 넘어 임베딩을 사용했다는 의미인가 싶네요. 이미지에 대해서지만 Semantic Deduplication을 적용한 사례도 있습니다. (https://arxiv.org/abs/2303.09540) 퀄리티 분류기는 Llama 2를 사용해서 만들었다고 하는데 아마도 Llama 2로 높은 퀄리티의 문서를 선택한 것일 듯 하네요. LLM으로 필터링하는 접근은 최근에 하나 나왔었죠. (https://arxiv.org/abs/2402.09668)
데이터 믹스에 대해 실험을 많이 했고 Scaling Law를 사용했다고 하는데 Downstream Task에 대한 성능과 데이터 믹스를 예측하기 위한 Scaling Law들에 대한 결과도 최근 나오고 있습니다. (https://arxiv.org/abs/2403.08540, https://arxiv.org/abs/2403.16952) 15T 학습 이후에도 여전히 성능 향상이 나타나고 있다고.
최근 언급했던 24K H100 클러스터에서 학습했고 400 TFLOPS 달성했습니다. H100에서 40% MFU라고 하면 상당히 좋은 수치일 것 같네요.
정렬에는 사람이 구축한 10M 규모의 데이터를 사용. Llama 2에서 이미 1M이 넘었으니 자연스러운 규모 증가인 듯 합니다
Multimodal이나 Multilingual, Long Context는 추후 추가될 예정이라고 합니다. Multimodal이 혹시 같이 나올 수도 있지 않을까 했는데 역시 일정이 만만하지는 않은 듯 하네요.
이제 모두에게 필요했던 바로 그 모델이 나온 듯 합니다. 다만 Llama 3를 쓰면 Built with Meta Llama 3라고 기술해야 하고 Llama 3로 모델을 만들었다면 Llama 3를 모델 이름에 붙여야 한다고 합니다. 그러나 70B 모델을 15T 학습시킬 수 있는 것이 아니라면 그걸 붙이는 것을 선택하는 사람들이 많이 있겠죠.

김성현
👍2
당연한 것을 더 잘하는 것.

고객은 그냥 빨리 내 문제를 해결해주는 것을 원한다.
in my mind, 3 buckets of agents (on a scale):

1) "hand-crafted": chained prompts and API calls. working, and making money today.
2) "specialized": dynamically decides what to do within a subset of task types and tools. seeing good demos, raising capital, and lining up pilots.
3) "general": can do anything. nothing reliable exists as there are too many edge cases.
You have your goals. I call the way you will operate to achieve your goals your machine. It consists of a design (the things that have to get done) and the people (who will do the things that need getting done). Those people include you and those who help you.

For example, imagine that your goal is a military one: to take a hill from an enemy. Your design for your "machine" might include two scouts, two snipers, four infantrymen, and so on. While the right design is essential, it is only half the battle. It is equally important to put the right people in each of those positions. They need different qualities to do their jobs well--the scouts must be fast runners, the snipers must be good marksmen--so that the machine will produce the outcomes you seek.
Visited Bay Area for 2.5 days, met IRL w some super sharp folks. Key lessons:

1. Long sales cycles are *always* an excuse;

2. Negative feedback is best delivered in *public*;

3. All “growth” techniques revolve around either increasing motivation or decreasing friction.
실리콘밸리에서 사는 것의 단점

(지난 장점편의 속편)

지난 24년간 실리콘밸리에 살면서 이 지역이 장점도 많지만 단점도 많구나 하는 점을 느끼게 된다. 혁신이 일어나고 똑똑하고 야망이 많은 사람들이 많고 다양성이 인정되는 곳이며 실패도 배움으로 받아들여지는 좋은 곳이지만 어떤 점이 안 좋을까?

집값 등 물가가 비싸고 사회 인프라(의료, 교통, 전기 등등)가 안 좋다는 점은 분명한 것 같다. 다양성이 인정되는 곳이지만 역설적이게도 무엇보다 남과 비교하며 살기 쉽다. 일종의 peer-pressure가 크다고 할까? 이게 내가 생각하는 실리콘밸리의 가장 큰 단점이다. 이게 컨트롤이 안되면 항상 나보다 잘된 사람을 바라보며 조금은 불행하게 살기 쉬운 곳이 실리콘밸리가 아닌가 싶다.

기회가 많은 동네이다보니 능력과 상관없이 도전하는 사람이라면 약간의 운이 따라준다면 큰 돈 벌고 인정받을 수 있다. 그러다보니 주변에 돈 많이 버는 사람들도 많이 보이고 가끔 친했던 회사동료나 친구들이 대박치는 것을 보다보면 자괴감에 빠지기 쉽다. 그래서 (외적인 이유로) 창업이나 작은 스타트업 조인을 꿈꾸지만 계절병처럼 주기적으로 생각만 하다가 마는 사람들로 넘쳐난다.

야망과 성장욕구가 큰 사람들이 많은 동네이다보니 때로는 회사 동료 포함 지인들과 이야기하면서 피로감을 느낀 적도 많다. 팀원들과 일대일 미팅하다보면 보상과 승진에 관한 이야기가 끊임없이 나오는데 이거 듣고 내 생각을 잘 이야기해주는 것도 가끔은 피곤한 일이다. 특수한 동네이다보니 대화 주제나 관심사가 굉장히 한정된 곳이다.

스타트업 창업자들만 봐도 실리콘 밸리 내 창업자들은 다른 지역보다도 조금 더 힘들게 사는 듯 하다. 주변에 워낙 잘 나가는 스타트업들이 많다보니 자신이 만들고자 하는 서비스나 제품에 집중하기 보다는 펀딩 좀더 크게 받고 성장을 더 빠르게 해야만 할 것 같은 그런 생각에 사로 잡히기 쉽다는 거다. 내 갈 길 가기도 힘든데 주변에서 누구는 얼마 펀딩받았더라 그런 이야기하는 것을 듣는 것이 그리 마음 편한 일은 아닐 것이다. 여러가지 이유로 창업자는 좋은 서포트 네트웍을 갖고 있는 것이 중요하다고 생각한다. 좋은 조언까지는 아니어도 내 고민을 들어주고 나를 지지해주는 그런 사람들이 있다면 견디기가 더 쉬울 것이다. 과부 사정은 홀아비가 안다고 다른 창업자들과 많이 만나는 것이 가장 좋은 방법이 아닌가 싶다.

또 교육을 잘 받은 사람들이 많다보니 (특히 중국과 인도) 자식 교육도 열심히 해서 동네마다 다르긴 하지만 애들 키우는 것도 보통 일이 아니다. 한국 사람들 교육열 높다고 하지만 중국계와 비교할 정도는 아닌 듯 하다. 딸내미가 자기 중국 친구들 엄마랑 비교하면 우리 엄마는 키티 맘이라고 할 정도로 중국 엄마들 극성보면 타이거 맘이란 말이 딱 맞다. 또 좋은 일이지만 운동도 많이 하는 분위기라 소프트볼, 축구, 농구, 수영, 태권도, 테니스 등등 정말 주말에는 운전사로 일하느라 바빴다. 미국 대학은 꼭 실력만으로 뽑는 것이 아니라 Affirmative Action으로 인해 인종적 다양성을 고려해서 뽑기 때문에 좋은 공립대학의 경우 아시안들이 받는 불이익이 상대적으로 크다. 즉 아시안들끼리 경쟁을 해야하니 정말 힘들다. 미국 대학들은 학비가 비싸서 캘리포니아 같으면 주립 대학으로 많이 몰리는데 여기라고 싸지 않다. UC 계열도 일년에 학비만 만오천불이고 여기에 거주 비용과 생활비를 더하면 4만불 정도 나온다. 사립가면 대충 2배라고 보면 된다. 연소득이 아주 높거나 재정지원(financial aid)이나 장학금(merit scholarship)을 받지 않는한 부담스러운 금액이다.

(이건 실리콘밸리만의 문제가 아니라 미국의 문제) 정말 형편없는 의료보험 시스템(약속 잡기도 힘들고 전문의보려면 두 배로 시간 걸리고)이지만 의료보험 비용도 보통이 아니다. 회사 다닐 때는 이게 얼마나 비싼지 느끼기 힘든데 퇴사하고 독립한다면 (지금의 나처럼) 회사에서 해주던 보험을 개인이 이어서 하는 것이 하나의 옵션(COBRA라고 부름)인데 한달에 (일년 아님) 대략 2천5백불 정도 내야한다. 3번째 쉬다보니 둔감해질 때도 되었는데 아직도 이 돈을 낸다는게 적응이 잘 안 된다. 회사 다닐 때는 이 비용을 회사와 개인이 분담하는 셈인데 그 관점에서는 회사 운영 비용도 정말 크다.

사실 어디에 살아도 비슷한 결론일 수 있겠지만 삶에 대한 나름의 확고한 가치관이 없다면 행복하게 살기 힘든 곳이 실리콘밸리다. FOMO가 아닌 JOMO(Joy Of Missing Out)를 실천할 수 있고 일상에서 감사함을 느낄 줄 안다면 실리콘밸리는 좋은 동네다. 하지만 여기서 계속 살지는 잘 모르겠다 :)

한기용님
❤‍🔥3
Continuous Learning_Startup & Investment
Photo
“Fear is a reaction; courage is a decision.”

– Winston Churchill