Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
이번 주말 AI 해커톤에서 얻은 핵심 내용 요약: 1) AGI를 대중에게 전달하는 형식으로 에이전트에 대한 낙관적 전망 2) 다음 도약을 위해 신경과학에서 영감 구하기

의견 #1: - 대형 기업이 진정한 우위를 점하는 모델 트레이닝과 달리 에이전트 설계는 보다 민주적이며 스타트업이 진정한 기회를 잡을 수 있다 - 신경과학에서 얻은 영감이 현장에서의 다음 혁신을 주도할 가능성이 높다. 잘 표현된 부분(예: 해마, 시각, 청각 피질)도 있지만 그렇지 않은 부분(예: 모델의 기저핵 기능이 약함(실행 기능/감정))도 있습니다.
- 영감: 데이비드 이글먼의 뇌와 행동

#2: AGI는 여러 명의 작은 에이전트가 서로 대화하는 형태가 될 것입니다. 특정 에이전트의 책임은 좁아질 것이므로 전문화하세요.

#3: 에이전트에 대해 다소 비관적이며, 현재 실제 업무에 에이전트를 사용하는 사람은 아무도 없다고 생각합니다. 핵심 질문: 에이전트를 실제로 유용하게 만들려면 어떻게 해야 할까요? 에이전트 설계를 위해 인간의 뇌에서 영감을 얻음

#4: 에이전트의 ‘유용성’은 과대평가되어 있습니다. 미친 과학자 입장에서 에이전트를 생각해 보세요. 상담원이 “미친 짓 X”를 할 수 있다면 어떨까요? 스스로 조직화되는 에이전트에 대한 호기심(예: 소프트웨어가 스스로 계약을 협상하는 것)

https://twitter.com/apoorv03/status/1672748865064415236
Hyena Hierarchy: Towards Larger Convolutional Language Models
https://arxiv.org/pdf/2302.10866.pdf

The authors propose a new architecture called Hyena Hierarchy, which aims to improve the performance of convolutional transformers by leveraging hierarchical representations and multi-scale processing1.The Hyena Hierarchy architecture is designed to address the limitations of existing convolutional transformers, such as the inability to scale efficiently to larger models and the lack of support for hierarchical representations1. By incorporating these features, the authors demonstrate that the Hyena Hierarchy model can achieve state-of-the-art performance on various benchmark datasets, including ImageNet-1K and ImageNet-21K1.

The paper highlights the potential of larger convolutional transformers in deep learning applications, particularly in the areas of computer vision and natural language processing. The Hyena Hierarchy architecture offers a promising direction for future research and development in this field1.

The Secret Sauce behind 100K context window in LLMs: all tricks in one place
https://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

The article provides an overview of techniques to speed up training and inference of Large Language Models (LLMs) to use large context windows of up to 100,000 input tokens during training and inference. Some of the techniques mentioned in the article include ALiBi positional embedding, Sparse Attention, FlashAttention, Multi-Query attention, Conditional computation, and the use of 80GB A100 GPUs1.

The article discusses recent announcements about new LLMs that can consume extremely large context windows, such as 65,000 tokens (MPT-7B-StoryWriter-65k+ by MosaicML) or even 100,000 tokens (Introducing 100K Context Windows by Antropic)1. These advancements are significant as they allow LLMs to process and understand larger amounts of text, potentially leading to improved performance and capabilities in various AI applications1.
전종현의 인사이트
Databricks가 MosaicML을 $1.3b 가치로 인수 https://www.databricks.com/company/newsroom/press-releases/databricks-signs-definitive-agreement-acquire-mosaicml-leading-generative-ai-platform
이제 AI 기업들도 M&A가 더 많아지려나요 ㅎㅎ
스타트업 입장에서는 돈 잘버는 비즈니스 모델 찾던지, 아니면 좋은 인재+특정 섹터 먹은다음에 Enterprise Distribution Channel이 있는 곳에 회사를 팔던지.
기존 기업 입장에서는 팀 꾸리는 것보다 사는 것이 훨씬 좋으니 인수에 적극적일것 같고요. 단 인수했을 때 바로 제품간 시너지가 날 곳들을 많이 보겠네요.
AI 쪽에서 앞으로 빅딜들이 더 쏟아질 수 있겠네요