Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
Perplexity는 꾸준히 검색관련해서 늘고 있음.

Neeva는 출시 이후 잠깐 Traffic이 있었다가 계속 정체.

Auto GPT도 최근 크게 인기를 끌었다가 다시 감소세.
Founders, Prepare for the freezingly cold winter.

Series A is really fricking hard to do right now.

Investing with an unknown Series B and C market in 9-18 months is making a lot of Series A investors sit on the sidelines for the time being.

@HarryStebbings
님에게 보내는 답글
Always shocks me how momentum driven the VC market is. Investing into a downturn results in the best returns.

The biggest businesses will be built out of this downturn, yet VC’s are all pulling back out of fear.
다음주 AI 관련 밋업을 준비중인데요 ㅎㅎ
지금 고려하고 있는 주제는 아래와 같아요!

1. 의료 관련 AI Status: Google's Medical Palmistry (Med-Palm)
2. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold:
3. AI 관련 새롭게 나올 수 있는 인프라 사업들
4. Vision 동향
5. 스타트업 창업/ 투자의 기회

혹시 AI 밋업에서 깊게 논의할만한 주제가 어떤 게 있을까요?~ 아이디어 있으신 분들은 편하게 @MatthewMinseokKim으로 DM 주세요 🙏

제가 AI 뉴비라…. 여러분들의 많은 관심과 도움이 절실합니다 ㅎㅎ 🤗
👍1
맨해튼 프로젝트는 팔십 여년 전 기술이 힘이 됨을 핵무기를 통해 전인류를 대상으로 강렬하게 어필했다. 물리학은 더이상 낭만의 대상이 아니라 투자의 대상이었다. 그렇게 시작된 생계형 물리학자의 시대는 우주 계획과 입자물리학으로 연결되는 거대 과학 분야로의 변화로 이어졌다. 그 날 밤 숙소로 귀가하며 함께하는 멤버들에게 메세지를 보냈다. “우리 이제 언어 모델 개발은 하지 말죠. 이제부턴 따라가려면 돈이 부족할 겁니다.”

엄청나게 많은 “AI 기업” 들이 생겼다. 하지만 그 대부분은 2년 후 코인회사나 메타버스 회사가 되었다.

기술은 계속 발전하고, 동일 연산 자원에 들어가는 비용은 계속 감소한다. 이런 발전이 지속된다면 결국 AI의 대중화가 진행 될 것이고, 그 시점에서 가장 중요한 포인트는 다른 모든 시장에서도 동일한 가격 경쟁력이 될 것이었다. “AI도 가격 경쟁력 시대가 올 것이다” 써 붙였다. 그 때 까지 망하지 않기를 기원하면서.

몇 년 간 분산 처리 및 분산 훈련 플랫폼을 만들면서 가끔 ‘우리가 아무런 수요가 없는 플랫폼을 만들고 있는 것이 아닐까’ 하는 생각을 종종 했었다.
=> 너무 공감가기도 하고, 이 때 터널 안에 있던 대표님과 팀이 그 터널을 잘 뚫고 나온 것에 대해서 존경합니다.
Continuous Learning_Startup & Investment
https://crossroads.apctp.org/cop/bbs/000000000000/selectArticleDetail.do?nttId=3973&fbclid=IwAR1yPHHfSd0AwSFXrYUScpehSMkf-jJgSVrMjdElPIgC5duhLtkC150IAUU
https://thegradient.pub/transformers-are-graph-neural-networks/

The attention mechanism used in Transformers can be seen as a form of message passing in GNNs

The attention mechanism in Transformers is a way of learning how to focus on specific parts of an input sequence. It does this by computing a weighted sum of the representations of all the parts of the sequence, where the weights are determined by how relevant each part is to the current task. This is similar to the way that message passing works in GNNs. In GNNs, each node in a graph can send messages to its neighbors, and these messages are used to update the node's representation. The attention mechanism in Transformers can be seen as a form of message passing where the nodes in the graph are the parts of the input sequence and the messages are the weights that determine how relevant each part is to the current task.

Transformers can be viewed as GNNs with a fully connected graph structure.

A graph is a data structure that consists of nodes and edges. A node represents a data point, and an edge represents a relationship between two data points. In a fully connected graph, every node is connected to every other node. Transformers can be viewed as GNNs with a fully connected graph structure. This is because the attention mechanism in Transformers allows each part of the input sequence to attend to any other part of the input sequence. This means that every part of the input sequence is connected to every other part of the input sequence, which is the definition of a fully connected graph.

The success of Transformers in various machine learning applications is due to their ability to model complex relationships between elements in a sequence or set.

Transformers have been successful in a variety of machine learning applications, including natural language processing, machine translation, and image recognition. This is because Transformers are able to model complex relationships between elements in a sequence or set. For example, in natural language processing, Transformers can be used to model the relationships between words in a sentence. This allows Transformers to perform tasks such as machine translation and text summarization.
https://www.microsoft.com/en-us/research/project/deepspeed/

DeepSpeed is a deep learning optimization library that makes distributed training easy, efficient, and effective. It enables unprecedented scale and speed for both training and inference of deep learning model

DeepSpeed is an easy-to-use deep learning optimization software suite that powers unprecedented scale and speed for both training and inference

DeepSpeed is part of Microsoft's AI at Scale initiative to enable next-generation AI capabilities at scale.

DeepSpeed offers a confluence of system innovations that has made large-scale deep learning training effective and efficient, greatly improved ease of use, and redefined the deep learning training landscape in terms of scale that is possible.

DeepSpeed offers new compressed-training strategies to support fast and low-cost training while reducing the time it takes to train large-scale models without adding additional hardware

DeepSpeed Inference can fuse multiple operators into a single kernel to reduce the number of kernel invocations and latency of main memory access across kernels.

DeepSpeed offers easy-to-use and flexible-to-compose compression techniques for researchers and practitioners to compress their models while delivering faster speed, smaller model size, and increased inference efficiency. DeepSpeed is an important part of Microsoft's new AI at Scale initiative to enable next-generation AI capabilities at scale.

DeepSpeed has enabled the world's most powerful language models like MT-530B and BLOOM.

DeepSpeed has been used to train Megatron-Turing Natural Language Generation model (MT-NLG), the largest and most powerful generative language model in the world.

DeepSpeed is constantly evolving based on feedback from its growing community of users to expand its capabilities.
Continuous Learning_Startup & Investment
https://crossroads.apctp.org/cop/bbs/000000000000/selectArticleDetail.do?nttId=3973&fbclid=IwAR1yPHHfSd0AwSFXrYUScpehSMkf-jJgSVrMjdElPIgC5duhLtkC150IAUU
“BERT를 60초만에 파인튜닝하기”

복잡하고 정신 없는 변화속에 살며 생각거리가 하나 생겼다. 거대 언어 모델이 ‘언어’ 를 배우는 과정은 분류되지 않은 말뭉치를 대상으로 한다. 그 과정에서 거대 언어 모델이 ‘학습’ 하는 것은 무엇인가? 언어의 구조를 학습하기 위한 용도로 말뭉치를 쓰지만, 언어는 정보와 떼 놓을 수가 없다. 실제로 지식을 가르치지 않은 언어 모델들도 질문에 곧잘 대답하지 않는가? 애초에 언어는 인간이 정보를 서로 간에 전달하기 위한 프로토콜이다. 프로토콜로 전달된 데이터에 대한 답을 연산하여 다시 데이터로 답을 하는 것이 대화 과정이다. 그렇다면 우리가 ‘대화를 잘하는 AI’를 개발해 냈다고 느끼는 것은 정말 언어를 잘 만드는 AI 모델을 개발한 것일까, 그렇지 않으면 그 너머의 무언가를 만든 것인가?

내년은 기존의 서비스들을 AI로 개선한 서비스들이 아닌, AI로만 가능한 서비스들의 원년이 될 것이었다. 하지만 거대 언어 모델의 결과물들을 서비스하려는 생각은 아직 아무도 하지 않고 있었다. 그건 미래의 누군가가 할 일이었다.

잘 정의된 데이터로 훈련하는 것에 더해서, 답변들을 사람이 실제로 평가하여 더 나은 답변에 가중치를 주는 모델 튜닝 방식이다. 사람을 중간에 넣는 방식으로 강화학습을 언어 모델 훈련에 적용한 RLHF (Reinforcement Learning by Human Feedback) 방식은 2022년에 InstructGPT에 와서 같은 크기의 언어 모델 성능을 엄청나게 개선하는 결과를 보였다. 수많은 모델들이 RLHF를 적용하기 시작했다. 모델 크기에 스케일 법칙이 있다면 그걸 응용하지 못할 이유가 없을 것이었다. 3월에는 모델 훈련에 들어가는 비용을 엄청나게 줄일 수 있는 µ-Parametrization[19]이 발표되었다. 작은 모델에서 미리 큰 모델의 하이퍼파라미터를 예측하는 것이 가능하다는 연구의 결론은, 거대 모델을 만들 때 드는 파라미터 탐색 수고를 상대적으로 엄청나게 줄였다. 이 연구는 GPT-4 훈련의 기반이 되었다.

11월 말 OpenAI는 대중을 대상으로 챗봇 서비스를 열었다. GPT-3의 개선 버전인 GPT-3.5를 기반으로 한 모델이었다. 특이한 점은 인간 언어 모델에 프로그래밍 코드를 훈련시키는 방식으로 프로그래밍을 잘 하는 언어 모델을 만드는 대신, 프로그래밍 언어 데이터로 훈련된 모델에 인간 언어를 훈련시키는 방식으로 만들어진 모델이라는 점이었다.

더 큰 규모의 문제들이 기다리고 있다. 거대 언어 모델은 엄청난 전력을 소모한다. GPU는 어마어마한 전력을 소모한다. CPU에 비하면 전력 대 성능비가 엄청나게 좋은 기기이지만, 절대 전력 소모량이 너무 크다. NVIDIA A100 8대가 내장된 노드[22]는 약 7kW를, 2023년 기준 가장 성능이 높은 H100 GPU 8대가 내장된 노드는 약 12kW를 소모한다.[23] 기기를 설치하려면 이제 건물부터 지어야 한다는 말이 2019년 이후로 농담이 아니게 되었다. 2021년 브라질에 위치한 슈퍼컴퓨팅 클러스터에서 전력 문제를 겪은 후, 우리는 플랫폼을 통째로 Arm기반으로 이식했다. 몇 년 후 전력 문제가 이슈가 될 것이란 생각에서 였다. 마이크로소프트의 경우 전력 비용을 고려하여 아예 GPU 센터를 수력발전소 옆에 지은 경험을 공유하기도 했다.[24]

주말이 줄어들었다. 할 일이 너무 많아졌다. 시간이 없었다. 우리만 그런 것이 아니었다.

이제 모두에게 시간이 없었다.

- Flan-T5, 1100억 파라미터
- GLM-130B, 1300억 파라미터
- OPT-175B, 1750억 파라미터
- BLOOM, 1760억 파라미터
- PaLM, 5400억 파라미터

언젠가 올 것이라고 생각했던 "AI 가격 경쟁력 시대”가 왔다. 그런데 가격 자체의 허들이 너무 높았다. ChatGPT나 Bard는 경제논리로는 설명할 수 없을 정도로 고가의 서비스 비용을 소모한다.[25] 경쟁이 불러온 너무 빨리 당겨온 미래에 해당된다. 모든 사람들이 그 미래를 손으로 만져본 후였다. 기대치가 엄청나게 올라간 것이 문제였다.

모델이 작으면 창발 현상이 발견되지 않고 멀티 모달 모델로 쓸 수가 없다. 모델이 크면 실제 운영에 너무 큰 돈이 든다.

20억~120억 파라미터 정도의 다양한 ‘말을 잘하는’ 모델들에 대한 다양한 시도들이 하루에 몇 개씩 등장하고 있다. LLaMA는 의도치 않게 개인이 만져볼 수 있는 파운데이션 모델을 널리 퍼뜨렸다. 보통 사람들이 만족할 만한 대화를 만들어내는 “말 잘하는 모델”의 수준은 예전에 달성했음을 수많은 사람들이 깨닫게 되었다. 어느정도 컴퓨터에 지식이 있고 돈을 쓸 수 있는 개인이나 조직, 단체들이 언어 모델 파인 튜닝을 다양한 방법으로 시도할 수 있는 용기가 생겼다.

생각이 많은 밤이면, 모르는 사이에 관심에서 멀어져버린 튜링 테스트 마냥 우리 모두가 어떤 지점을 지나버렸을지도 모른다는 생각이 종종 든다. 풀어야 했던 문제를 풀었거나, 아직 풀면 안되는 문제를 풀어버렸을 것 같다. 설렘이 현기증이 되고 기대가 우울함이 되는 복잡한 감정이 오간다.
와…. 너무 재밌네요… 많이 배웠습니다. 몇번 읽어보면서 그동안 못봤던 논문이나 개념에 대해서 더 공부해야겠어요.
My research topic has changed significantly over the past few years, and since I rarely update my LinkedIn, I thought I might post here to share with my LinkedIn connections the research areas I am excited about.

Here is a recent invited lecture I gave at NYU on Instruction finetuning and Reinforcement Learning with Human Feedback (RLHF). These are the deep learning technique that power Large Language Models such as ChatGPT.

Video: https://lnkd.in/g2ry3VKh
Slides: https://lnkd.in/gmMXkGDZ
Twitter summary: https://lnkd.in/gtbXtrfU
Elon Musk: "People get confused. They sometimes think an economy is money. Money is a database for exchange of goods & services. Money is a database. Money doesn't have power in & of itself. The actual economy is goods & services.

You're trapped on a remote island, shipwrecked on an island. And you have a trillion dollars in a Swiss bank account - It's worthless. You'd rather have some kind of soup. All the Bitcoin in the world, and you're still gonna starve.”
The Metagame: Think One Step Ahead
"The metagame is about understanding the bigger picture and outsmarting the competition by doing something they can’t or won’t do. When you understand why your competitors do the things they do, you can choose to play a game they can’t play."
— Source
Insight

“Hope begins in the dark, the stubborn hope that if you just show up and try to do the right thing, the dawn will come.”
— Anne Lamott
Tiny Thought

Everyone is a perfectionist when they care enough.
If you're not obsessed with it, you'll never master it.
The reason you won't master it is because you won't care enough to be a perfectionist.
(Click here to share on Twitter)
Etc.

Elizabeth Gilbert reflects on the death of her partner:
"I have learned that Grief is a force of energy that cannot be controlled or predicted. It comes and goes on its own schedule. Grief does not obey your plans, or your wishes. Grief will do whatever it wants to you, whenever it wants to. In that regard, Grief has a lot in common with Love. The only way that I can “handle” Grief, then, is the same way that I “handle” Love — by not “handling” it. By bowing down before its power, in complete humility.”
— Source