Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
Llama 3. 공개된 것은 8B와 70B 모델입니다. 400B 모델이 학습 중이네요. 성능 수준을 보면 8B 모델은 7-8B 모델 중 최고 수준입니다. 70B 모델은 Claude 3 Sonnet++ 정도의 느낌이군요. 400B 모델은 GPT-4와 Claude 3 Opus 수준의 모델이 될 듯 합니다.
학습 데이터셋은 15T. 공개된 소스에서 수집했다는데 15T를 높은 퀄리티로 어떻게 확보할 수 있는지가 궁금하긴 하네요. 심지어 Multi Epoch가 아니고 Single Epoch입니다. (https://x.com/soumithchintala/status/1781095841349902392) 코드를 Llama 2에 비해 4배 더 넣었다고 하는데 Llama 2의 데이터 믹스를 모르니 알 수 없네요. Llama 1의 비율 4.5%를 사용하면 360B 정도가 되는데 아마 이보다 많이 넣으려고 하 않았을까 싶습니다.
128K 토크나이저를 사용하고 8B 모델에도 GQA를 사용했습니다. 8K Context Length. 128K 토크나이저는 잠깐 테스트해보면 한국어에 대해서는 Gemini의 260K 토크나이저보다 효율적인 것 같습니다. 다국어 성능과는 별개로 토크나이저에 대해서는 크게 신경 쓰지 않아도 될 듯하네요. 문서 경계를 넘지 않도록 Attention Mask를 적용한 부분을 특별히 언급하고 있는데 학습 효율성 때문에 잘 하지 않던 선택이지만 성능적으로는 이쪽이 낫다는 리포트도 나왔었죠. (https://arxiv.org/abs/2402.13991)
5%는 30개 언어에 대한 Multilingual. 30개 언어라는 것을 생각하면 좀 작지 않나 싶지만 그래도 750B 수준이고 0%였던 Llama 2에 대해서도 Multilingual 실험을 많이 했었다는 것을 생각해보면 훨씬 나은 상황이지 않을까 싶습니다.
데이터셋 필터링 과정에 대해 언급하고 있는데 휴리스틱, NSFW 필터는 일반적인 선택이고 Semantic Deduplication이라면 Fuzzy Deduplication을 넘어 임베딩을 사용했다는 의미인가 싶네요. 이미지에 대해서지만 Semantic Deduplication을 적용한 사례도 있습니다. (https://arxiv.org/abs/2303.09540) 퀄리티 분류기는 Llama 2를 사용해서 만들었다고 하는데 아마도 Llama 2로 높은 퀄리티의 문서를 선택한 것일 듯 하네요. LLM으로 필터링하는 접근은 최근에 하나 나왔었죠. (https://arxiv.org/abs/2402.09668)
데이터 믹스에 대해 실험을 많이 했고 Scaling Law를 사용했다고 하는데 Downstream Task에 대한 성능과 데이터 믹스를 예측하기 위한 Scaling Law들에 대한 결과도 최근 나오고 있습니다. (https://arxiv.org/abs/2403.08540, https://arxiv.org/abs/2403.16952) 15T 학습 이후에도 여전히 성능 향상이 나타나고 있다고.
최근 언급했던 24K H100 클러스터에서 학습했고 400 TFLOPS 달성했습니다. H100에서 40% MFU라고 하면 상당히 좋은 수치일 것 같네요.
정렬에는 사람이 구축한 10M 규모의 데이터를 사용. Llama 2에서 이미 1M이 넘었으니 자연스러운 규모 증가인 듯 합니다
Multimodal이나 Multilingual, Long Context는 추후 추가될 예정이라고 합니다. Multimodal이 혹시 같이 나올 수도 있지 않을까 했는데 역시 일정이 만만하지는 않은 듯 하네요.
이제 모두에게 필요했던 바로 그 모델이 나온 듯 합니다. 다만 Llama 3를 쓰면 Built with Meta Llama 3라고 기술해야 하고 Llama 3로 모델을 만들었다면 Llama 3를 모델 이름에 붙여야 한다고 합니다. 그러나 70B 모델을 15T 학습시킬 수 있는 것이 아니라면 그걸 붙이는 것을 선택하는 사람들이 많이 있겠죠.

김성현
👍2
당연한 것을 더 잘하는 것.

고객은 그냥 빨리 내 문제를 해결해주는 것을 원한다.
in my mind, 3 buckets of agents (on a scale):

1) "hand-crafted": chained prompts and API calls. working, and making money today.
2) "specialized": dynamically decides what to do within a subset of task types and tools. seeing good demos, raising capital, and lining up pilots.
3) "general": can do anything. nothing reliable exists as there are too many edge cases.
You have your goals. I call the way you will operate to achieve your goals your machine. It consists of a design (the things that have to get done) and the people (who will do the things that need getting done). Those people include you and those who help you.

For example, imagine that your goal is a military one: to take a hill from an enemy. Your design for your "machine" might include two scouts, two snipers, four infantrymen, and so on. While the right design is essential, it is only half the battle. It is equally important to put the right people in each of those positions. They need different qualities to do their jobs well--the scouts must be fast runners, the snipers must be good marksmen--so that the machine will produce the outcomes you seek.
Visited Bay Area for 2.5 days, met IRL w some super sharp folks. Key lessons:

1. Long sales cycles are *always* an excuse;

2. Negative feedback is best delivered in *public*;

3. All “growth” techniques revolve around either increasing motivation or decreasing friction.
실리콘밸리에서 사는 것의 단점

(지난 장점편의 속편)

지난 24년간 실리콘밸리에 살면서 이 지역이 장점도 많지만 단점도 많구나 하는 점을 느끼게 된다. 혁신이 일어나고 똑똑하고 야망이 많은 사람들이 많고 다양성이 인정되는 곳이며 실패도 배움으로 받아들여지는 좋은 곳이지만 어떤 점이 안 좋을까?

집값 등 물가가 비싸고 사회 인프라(의료, 교통, 전기 등등)가 안 좋다는 점은 분명한 것 같다. 다양성이 인정되는 곳이지만 역설적이게도 무엇보다 남과 비교하며 살기 쉽다. 일종의 peer-pressure가 크다고 할까? 이게 내가 생각하는 실리콘밸리의 가장 큰 단점이다. 이게 컨트롤이 안되면 항상 나보다 잘된 사람을 바라보며 조금은 불행하게 살기 쉬운 곳이 실리콘밸리가 아닌가 싶다.

기회가 많은 동네이다보니 능력과 상관없이 도전하는 사람이라면 약간의 운이 따라준다면 큰 돈 벌고 인정받을 수 있다. 그러다보니 주변에 돈 많이 버는 사람들도 많이 보이고 가끔 친했던 회사동료나 친구들이 대박치는 것을 보다보면 자괴감에 빠지기 쉽다. 그래서 (외적인 이유로) 창업이나 작은 스타트업 조인을 꿈꾸지만 계절병처럼 주기적으로 생각만 하다가 마는 사람들로 넘쳐난다.

야망과 성장욕구가 큰 사람들이 많은 동네이다보니 때로는 회사 동료 포함 지인들과 이야기하면서 피로감을 느낀 적도 많다. 팀원들과 일대일 미팅하다보면 보상과 승진에 관한 이야기가 끊임없이 나오는데 이거 듣고 내 생각을 잘 이야기해주는 것도 가끔은 피곤한 일이다. 특수한 동네이다보니 대화 주제나 관심사가 굉장히 한정된 곳이다.

스타트업 창업자들만 봐도 실리콘 밸리 내 창업자들은 다른 지역보다도 조금 더 힘들게 사는 듯 하다. 주변에 워낙 잘 나가는 스타트업들이 많다보니 자신이 만들고자 하는 서비스나 제품에 집중하기 보다는 펀딩 좀더 크게 받고 성장을 더 빠르게 해야만 할 것 같은 그런 생각에 사로 잡히기 쉽다는 거다. 내 갈 길 가기도 힘든데 주변에서 누구는 얼마 펀딩받았더라 그런 이야기하는 것을 듣는 것이 그리 마음 편한 일은 아닐 것이다. 여러가지 이유로 창업자는 좋은 서포트 네트웍을 갖고 있는 것이 중요하다고 생각한다. 좋은 조언까지는 아니어도 내 고민을 들어주고 나를 지지해주는 그런 사람들이 있다면 견디기가 더 쉬울 것이다. 과부 사정은 홀아비가 안다고 다른 창업자들과 많이 만나는 것이 가장 좋은 방법이 아닌가 싶다.

또 교육을 잘 받은 사람들이 많다보니 (특히 중국과 인도) 자식 교육도 열심히 해서 동네마다 다르긴 하지만 애들 키우는 것도 보통 일이 아니다. 한국 사람들 교육열 높다고 하지만 중국계와 비교할 정도는 아닌 듯 하다. 딸내미가 자기 중국 친구들 엄마랑 비교하면 우리 엄마는 키티 맘이라고 할 정도로 중국 엄마들 극성보면 타이거 맘이란 말이 딱 맞다. 또 좋은 일이지만 운동도 많이 하는 분위기라 소프트볼, 축구, 농구, 수영, 태권도, 테니스 등등 정말 주말에는 운전사로 일하느라 바빴다. 미국 대학은 꼭 실력만으로 뽑는 것이 아니라 Affirmative Action으로 인해 인종적 다양성을 고려해서 뽑기 때문에 좋은 공립대학의 경우 아시안들이 받는 불이익이 상대적으로 크다. 즉 아시안들끼리 경쟁을 해야하니 정말 힘들다. 미국 대학들은 학비가 비싸서 캘리포니아 같으면 주립 대학으로 많이 몰리는데 여기라고 싸지 않다. UC 계열도 일년에 학비만 만오천불이고 여기에 거주 비용과 생활비를 더하면 4만불 정도 나온다. 사립가면 대충 2배라고 보면 된다. 연소득이 아주 높거나 재정지원(financial aid)이나 장학금(merit scholarship)을 받지 않는한 부담스러운 금액이다.

(이건 실리콘밸리만의 문제가 아니라 미국의 문제) 정말 형편없는 의료보험 시스템(약속 잡기도 힘들고 전문의보려면 두 배로 시간 걸리고)이지만 의료보험 비용도 보통이 아니다. 회사 다닐 때는 이게 얼마나 비싼지 느끼기 힘든데 퇴사하고 독립한다면 (지금의 나처럼) 회사에서 해주던 보험을 개인이 이어서 하는 것이 하나의 옵션(COBRA라고 부름)인데 한달에 (일년 아님) 대략 2천5백불 정도 내야한다. 3번째 쉬다보니 둔감해질 때도 되었는데 아직도 이 돈을 낸다는게 적응이 잘 안 된다. 회사 다닐 때는 이 비용을 회사와 개인이 분담하는 셈인데 그 관점에서는 회사 운영 비용도 정말 크다.

사실 어디에 살아도 비슷한 결론일 수 있겠지만 삶에 대한 나름의 확고한 가치관이 없다면 행복하게 살기 힘든 곳이 실리콘밸리다. FOMO가 아닌 JOMO(Joy Of Missing Out)를 실천할 수 있고 일상에서 감사함을 느낄 줄 안다면 실리콘밸리는 좋은 동네다. 하지만 여기서 계속 살지는 잘 모르겠다 :)

한기용님
❤‍🔥3
Continuous Learning_Startup & Investment
Photo
“Fear is a reaction; courage is a decision.”

– Winston Churchill
An oligopoly is shaping up
i.e. scaling training to internet-wide data and aligning models with human feedback, finally made these technologies usable by many; these breakthroughs were made by very few actors, the largest of which (OpenAI) appears to have hegemonic intention over the market.

We believe that most of the value in the emerging generative AI market will be located in the hard-to-make technology, i.e. the generative models themselves.

Those models need to be trained on thousands of very powerful machines, on trillions of words coming from high quality sources, which is one factor that sets a high barrier to entry.

The second important barrier lies in the difficulty to assemble an experienced team, something that mistral.ai will be in a unique position of doing.

Current generative AI do not meet market constraints

1. Businesses wishing to use generative AI technology are forced to feed their valuable business data and sensitive user data to a black-box model, typically deployed in the public cloud.

2. Only exposing the output of models, instead of exposing the model entirely, makes it harder to connect with other components (retrieval databases, structure inputs, images and sounds).

Technological counter-positioning

1. Take a more open approach to model development. We will release models with a permissive open-source-software licence, that will be largely above the competition in that category. We will distribute tools to leverage the power of these white box models, and create a developer community around our trademark. This approach is an ideological differentiator from OpenAI; it is a very strong point argument for hiring highly coveted top researchers, and a strong accelerator for development, as it will open the doors for many downstream applications from motivated hackers.

2. Whether open-source or licensed, the internals (architecture and trained weights) of our models will always be accessible to our customers. This will allow tighter integration with customer’s workflows, whose content can be fed into different parts of the deep model, instead of serialising all content into input text, fed to black box APIs.

3. Increase the focus on data sources and data control. Our models will be trained on high quality data content (in addition to scraped content) for which we will negotiate licence agreements. This will allow us to train models much better than currently available ones (e.g. Llama). Using deeply involved technology (mixtures-of-experts and retrieval-augmented models), we will service models with optional data sources access: for a paid premium, a certain model can be specialised on finance/law/etc (this provides a substantial performance boost).

On the business side, we will provide the most valuable technology brick to the emerging AI-as-a-service industry that will revolutionise business workflows with generative AI. We will co-build integrated solutions with European integrators and industry clients, and get extremely valuable feedback from this to become the main tool for all companies wanting to leverage AI in Europe.

Integration with verticals can take different marketing forms, including licensing full access to the models (including the trained weights), specialisation of models on demand, partnering with integrators/consulting companies to establish commercial contracts for fully integrated solutions. As detailed in our roadmap, we will explore and identify the best approach in parallel to technological development.

Infrastructure

We have already negotiated competitive deals for renting computational power in Tier 1 cloud service providers (we are planning to reserve 1536 H100 starting in September, with a summer ramp up). As mistral.ai has a strong European grounding, we will also be working with both emerging European cloud providers as they grow their deep learning offers.
Roadmap
On the technical side, during Q1-Q2 2024, we will focus on two major aspects that have been under-estimated by incumbent companies:
● Train a model small enough to run on a 16GB laptop, while being a helpful AI assistant
● Train models with hot-pluggable extra-context, ranging in the millions of extra words, effectively merging language models and retriever systems.