Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
Hyena Hierarchy: Towards Larger Convolutional Language Models
https://arxiv.org/pdf/2302.10866.pdf

The authors propose a new architecture called Hyena Hierarchy, which aims to improve the performance of convolutional transformers by leveraging hierarchical representations and multi-scale processing1.The Hyena Hierarchy architecture is designed to address the limitations of existing convolutional transformers, such as the inability to scale efficiently to larger models and the lack of support for hierarchical representations1. By incorporating these features, the authors demonstrate that the Hyena Hierarchy model can achieve state-of-the-art performance on various benchmark datasets, including ImageNet-1K and ImageNet-21K1.

The paper highlights the potential of larger convolutional transformers in deep learning applications, particularly in the areas of computer vision and natural language processing. The Hyena Hierarchy architecture offers a promising direction for future research and development in this field1.

The Secret Sauce behind 100K context window in LLMs: all tricks in one place
https://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

The article provides an overview of techniques to speed up training and inference of Large Language Models (LLMs) to use large context windows of up to 100,000 input tokens during training and inference. Some of the techniques mentioned in the article include ALiBi positional embedding, Sparse Attention, FlashAttention, Multi-Query attention, Conditional computation, and the use of 80GB A100 GPUs1.

The article discusses recent announcements about new LLMs that can consume extremely large context windows, such as 65,000 tokens (MPT-7B-StoryWriter-65k+ by MosaicML) or even 100,000 tokens (Introducing 100K Context Windows by Antropic)1. These advancements are significant as they allow LLMs to process and understand larger amounts of text, potentially leading to improved performance and capabilities in various AI applications1.
전종현의 인사이트
Databricks가 MosaicML을 $1.3b 가치로 인수 https://www.databricks.com/company/newsroom/press-releases/databricks-signs-definitive-agreement-acquire-mosaicml-leading-generative-ai-platform
이제 AI 기업들도 M&A가 더 많아지려나요 ㅎㅎ
스타트업 입장에서는 돈 잘버는 비즈니스 모델 찾던지, 아니면 좋은 인재+특정 섹터 먹은다음에 Enterprise Distribution Channel이 있는 곳에 회사를 팔던지.
기존 기업 입장에서는 팀 꾸리는 것보다 사는 것이 훨씬 좋으니 인수에 적극적일것 같고요. 단 인수했을 때 바로 제품간 시너지가 날 곳들을 많이 보겠네요.
AI 쪽에서 앞으로 빅딜들이 더 쏟아질 수 있겠네요
이번 Figma Config 2023에서 AirBnB의 브라이언 체스키가 fireside chat 같은 발표를 했다. 그가 사업 초기 때 비해 엄청 발전하고 성장했다고 AirBnB 내외부에서 인정 받는다 들었는데 역시 그런듯 하다.
https://youtu.be/Dkfijg7s76o

기억에 남는 내용들.

1. 현재 포춘 500 기업 대표 중에서 디자이너는 브라이언 체스키 1명이다.

2. 위기 때 각 팀에게 로드맵을 그려오라고 함. 그걸 크게 하나로 다 합침. 그 중에서 10%만 함. 이게 회사의 방향이 되고 살아남.

3. Product manager 없다. 대신 product marketer가 있는데 제품을 가져다 팔 생각을 해야 한다.

4. 가설이 있으면 A/B 테스트 해라. 다만 디자이너가 그 제품이 자랑스럽고 크레딧에 자신의 이름을 넣고 싶고 행복한지를 봐라. 그게 먼저다.

5. 단순하게 만든다는 것은 기능을 제거하는게 아니다. 모든 것을 증류하여 그 핵심을 뽑아내는 것이다.

* 단상 -
표본 수가 적긴하나 나는 국내외 잘되는 회사들에서도 있었고 잘 안되는 회사들에서도 있었는데 이 영상을 보며 그 잘되는 회사의 대표들이 떠올랐다. 그들은 말 모호하게 하지 않고 명징하게 원칙을 정하고 의사결정을 내리고 공유한다. 지쳤다고 숨지 않으며 자신이 해결해야 할 일에 나타나고 필요하다면 기꺼이 get hands dirty 한다. 이게 가능한 이유는 회사가 성장하는 만큼 대표는 더 큰 성장을 이뤄내기 때문이다. 돌아보니 그런 분들과 함께 일해서 영광이었고 롤모델이 있어 다행이다.
👍2