Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
Continuous Learning_Startup & Investment
https://crossroads.apctp.org/cop/bbs/000000000000/selectArticleDetail.do?nttId=3973&fbclid=IwAR1yPHHfSd0AwSFXrYUScpehSMkf-jJgSVrMjdElPIgC5duhLtkC150IAUU
https://thegradient.pub/transformers-are-graph-neural-networks/

The attention mechanism used in Transformers can be seen as a form of message passing in GNNs

The attention mechanism in Transformers is a way of learning how to focus on specific parts of an input sequence. It does this by computing a weighted sum of the representations of all the parts of the sequence, where the weights are determined by how relevant each part is to the current task. This is similar to the way that message passing works in GNNs. In GNNs, each node in a graph can send messages to its neighbors, and these messages are used to update the node's representation. The attention mechanism in Transformers can be seen as a form of message passing where the nodes in the graph are the parts of the input sequence and the messages are the weights that determine how relevant each part is to the current task.

Transformers can be viewed as GNNs with a fully connected graph structure.

A graph is a data structure that consists of nodes and edges. A node represents a data point, and an edge represents a relationship between two data points. In a fully connected graph, every node is connected to every other node. Transformers can be viewed as GNNs with a fully connected graph structure. This is because the attention mechanism in Transformers allows each part of the input sequence to attend to any other part of the input sequence. This means that every part of the input sequence is connected to every other part of the input sequence, which is the definition of a fully connected graph.

The success of Transformers in various machine learning applications is due to their ability to model complex relationships between elements in a sequence or set.

Transformers have been successful in a variety of machine learning applications, including natural language processing, machine translation, and image recognition. This is because Transformers are able to model complex relationships between elements in a sequence or set. For example, in natural language processing, Transformers can be used to model the relationships between words in a sentence. This allows Transformers to perform tasks such as machine translation and text summarization.
https://www.microsoft.com/en-us/research/project/deepspeed/

DeepSpeed is a deep learning optimization library that makes distributed training easy, efficient, and effective. It enables unprecedented scale and speed for both training and inference of deep learning model

DeepSpeed is an easy-to-use deep learning optimization software suite that powers unprecedented scale and speed for both training and inference

DeepSpeed is part of Microsoft's AI at Scale initiative to enable next-generation AI capabilities at scale.

DeepSpeed offers a confluence of system innovations that has made large-scale deep learning training effective and efficient, greatly improved ease of use, and redefined the deep learning training landscape in terms of scale that is possible.

DeepSpeed offers new compressed-training strategies to support fast and low-cost training while reducing the time it takes to train large-scale models without adding additional hardware

DeepSpeed Inference can fuse multiple operators into a single kernel to reduce the number of kernel invocations and latency of main memory access across kernels.

DeepSpeed offers easy-to-use and flexible-to-compose compression techniques for researchers and practitioners to compress their models while delivering faster speed, smaller model size, and increased inference efficiency. DeepSpeed is an important part of Microsoft's new AI at Scale initiative to enable next-generation AI capabilities at scale.

DeepSpeed has enabled the world's most powerful language models like MT-530B and BLOOM.

DeepSpeed has been used to train Megatron-Turing Natural Language Generation model (MT-NLG), the largest and most powerful generative language model in the world.

DeepSpeed is constantly evolving based on feedback from its growing community of users to expand its capabilities.
Continuous Learning_Startup & Investment
https://crossroads.apctp.org/cop/bbs/000000000000/selectArticleDetail.do?nttId=3973&fbclid=IwAR1yPHHfSd0AwSFXrYUScpehSMkf-jJgSVrMjdElPIgC5duhLtkC150IAUU
“BERT를 60초만에 파인튜닝하기”

복잡하고 정신 없는 변화속에 살며 생각거리가 하나 생겼다. 거대 언어 모델이 ‘언어’ 를 배우는 과정은 분류되지 않은 말뭉치를 대상으로 한다. 그 과정에서 거대 언어 모델이 ‘학습’ 하는 것은 무엇인가? 언어의 구조를 학습하기 위한 용도로 말뭉치를 쓰지만, 언어는 정보와 떼 놓을 수가 없다. 실제로 지식을 가르치지 않은 언어 모델들도 질문에 곧잘 대답하지 않는가? 애초에 언어는 인간이 정보를 서로 간에 전달하기 위한 프로토콜이다. 프로토콜로 전달된 데이터에 대한 답을 연산하여 다시 데이터로 답을 하는 것이 대화 과정이다. 그렇다면 우리가 ‘대화를 잘하는 AI’를 개발해 냈다고 느끼는 것은 정말 언어를 잘 만드는 AI 모델을 개발한 것일까, 그렇지 않으면 그 너머의 무언가를 만든 것인가?

내년은 기존의 서비스들을 AI로 개선한 서비스들이 아닌, AI로만 가능한 서비스들의 원년이 될 것이었다. 하지만 거대 언어 모델의 결과물들을 서비스하려는 생각은 아직 아무도 하지 않고 있었다. 그건 미래의 누군가가 할 일이었다.

잘 정의된 데이터로 훈련하는 것에 더해서, 답변들을 사람이 실제로 평가하여 더 나은 답변에 가중치를 주는 모델 튜닝 방식이다. 사람을 중간에 넣는 방식으로 강화학습을 언어 모델 훈련에 적용한 RLHF (Reinforcement Learning by Human Feedback) 방식은 2022년에 InstructGPT에 와서 같은 크기의 언어 모델 성능을 엄청나게 개선하는 결과를 보였다. 수많은 모델들이 RLHF를 적용하기 시작했다. 모델 크기에 스케일 법칙이 있다면 그걸 응용하지 못할 이유가 없을 것이었다. 3월에는 모델 훈련에 들어가는 비용을 엄청나게 줄일 수 있는 µ-Parametrization[19]이 발표되었다. 작은 모델에서 미리 큰 모델의 하이퍼파라미터를 예측하는 것이 가능하다는 연구의 결론은, 거대 모델을 만들 때 드는 파라미터 탐색 수고를 상대적으로 엄청나게 줄였다. 이 연구는 GPT-4 훈련의 기반이 되었다.

11월 말 OpenAI는 대중을 대상으로 챗봇 서비스를 열었다. GPT-3의 개선 버전인 GPT-3.5를 기반으로 한 모델이었다. 특이한 점은 인간 언어 모델에 프로그래밍 코드를 훈련시키는 방식으로 프로그래밍을 잘 하는 언어 모델을 만드는 대신, 프로그래밍 언어 데이터로 훈련된 모델에 인간 언어를 훈련시키는 방식으로 만들어진 모델이라는 점이었다.

더 큰 규모의 문제들이 기다리고 있다. 거대 언어 모델은 엄청난 전력을 소모한다. GPU는 어마어마한 전력을 소모한다. CPU에 비하면 전력 대 성능비가 엄청나게 좋은 기기이지만, 절대 전력 소모량이 너무 크다. NVIDIA A100 8대가 내장된 노드[22]는 약 7kW를, 2023년 기준 가장 성능이 높은 H100 GPU 8대가 내장된 노드는 약 12kW를 소모한다.[23] 기기를 설치하려면 이제 건물부터 지어야 한다는 말이 2019년 이후로 농담이 아니게 되었다. 2021년 브라질에 위치한 슈퍼컴퓨팅 클러스터에서 전력 문제를 겪은 후, 우리는 플랫폼을 통째로 Arm기반으로 이식했다. 몇 년 후 전력 문제가 이슈가 될 것이란 생각에서 였다. 마이크로소프트의 경우 전력 비용을 고려하여 아예 GPU 센터를 수력발전소 옆에 지은 경험을 공유하기도 했다.[24]

주말이 줄어들었다. 할 일이 너무 많아졌다. 시간이 없었다. 우리만 그런 것이 아니었다.

이제 모두에게 시간이 없었다.

- Flan-T5, 1100억 파라미터
- GLM-130B, 1300억 파라미터
- OPT-175B, 1750억 파라미터
- BLOOM, 1760억 파라미터
- PaLM, 5400억 파라미터

언젠가 올 것이라고 생각했던 "AI 가격 경쟁력 시대”가 왔다. 그런데 가격 자체의 허들이 너무 높았다. ChatGPT나 Bard는 경제논리로는 설명할 수 없을 정도로 고가의 서비스 비용을 소모한다.[25] 경쟁이 불러온 너무 빨리 당겨온 미래에 해당된다. 모든 사람들이 그 미래를 손으로 만져본 후였다. 기대치가 엄청나게 올라간 것이 문제였다.

모델이 작으면 창발 현상이 발견되지 않고 멀티 모달 모델로 쓸 수가 없다. 모델이 크면 실제 운영에 너무 큰 돈이 든다.

20억~120억 파라미터 정도의 다양한 ‘말을 잘하는’ 모델들에 대한 다양한 시도들이 하루에 몇 개씩 등장하고 있다. LLaMA는 의도치 않게 개인이 만져볼 수 있는 파운데이션 모델을 널리 퍼뜨렸다. 보통 사람들이 만족할 만한 대화를 만들어내는 “말 잘하는 모델”의 수준은 예전에 달성했음을 수많은 사람들이 깨닫게 되었다. 어느정도 컴퓨터에 지식이 있고 돈을 쓸 수 있는 개인이나 조직, 단체들이 언어 모델 파인 튜닝을 다양한 방법으로 시도할 수 있는 용기가 생겼다.

생각이 많은 밤이면, 모르는 사이에 관심에서 멀어져버린 튜링 테스트 마냥 우리 모두가 어떤 지점을 지나버렸을지도 모른다는 생각이 종종 든다. 풀어야 했던 문제를 풀었거나, 아직 풀면 안되는 문제를 풀어버렸을 것 같다. 설렘이 현기증이 되고 기대가 우울함이 되는 복잡한 감정이 오간다.
와…. 너무 재밌네요… 많이 배웠습니다. 몇번 읽어보면서 그동안 못봤던 논문이나 개념에 대해서 더 공부해야겠어요.
My research topic has changed significantly over the past few years, and since I rarely update my LinkedIn, I thought I might post here to share with my LinkedIn connections the research areas I am excited about.

Here is a recent invited lecture I gave at NYU on Instruction finetuning and Reinforcement Learning with Human Feedback (RLHF). These are the deep learning technique that power Large Language Models such as ChatGPT.

Video: https://lnkd.in/g2ry3VKh
Slides: https://lnkd.in/gmMXkGDZ
Twitter summary: https://lnkd.in/gtbXtrfU
Elon Musk: "People get confused. They sometimes think an economy is money. Money is a database for exchange of goods & services. Money is a database. Money doesn't have power in & of itself. The actual economy is goods & services.

You're trapped on a remote island, shipwrecked on an island. And you have a trillion dollars in a Swiss bank account - It's worthless. You'd rather have some kind of soup. All the Bitcoin in the world, and you're still gonna starve.”
The Metagame: Think One Step Ahead
"The metagame is about understanding the bigger picture and outsmarting the competition by doing something they can’t or won’t do. When you understand why your competitors do the things they do, you can choose to play a game they can’t play."
— Source
Insight

“Hope begins in the dark, the stubborn hope that if you just show up and try to do the right thing, the dawn will come.”
— Anne Lamott
Tiny Thought

Everyone is a perfectionist when they care enough.
If you're not obsessed with it, you'll never master it.
The reason you won't master it is because you won't care enough to be a perfectionist.
(Click here to share on Twitter)
Etc.

Elizabeth Gilbert reflects on the death of her partner:
"I have learned that Grief is a force of energy that cannot be controlled or predicted. It comes and goes on its own schedule. Grief does not obey your plans, or your wishes. Grief will do whatever it wants to you, whenever it wants to. In that regard, Grief has a lot in common with Love. The only way that I can “handle” Grief, then, is the same way that I “handle” Love — by not “handling” it. By bowing down before its power, in complete humility.”
— Source
가끔 미친 생각을 현실화하는 것을 보면 낭만있다고 생각했는데 그런 사례들이 계속 나올 수 있는 건 게임의 룰이 그런 사람들에게 최적화되어 있을 수도.

https://twitter.com/adcock_brett/status/1660340140273967104
Continuous Learning_Startup & Investment
Obvious fact, India will be next China https://twitter.com/nitin_gadkari/status/1659484858769604608
It is unfortunate that only a few Koreans show interest in India, despite the projection that India's influence will significantly increase in the coming decades. Over the past few decades, substantial investments from American and Japanese entities have been made in this country.
People search chatgpt a lot.
History of SEO

Would you tell me the history of SEO related services?

When did it start? Who were the first movers? What changed the competition with what? What also changed the first version of competitions?

The history of SEO related services can be traced back to the early days of the internet, when search engines were first being developed. In the beginning, search engines were relatively simple and ranking websites was based on a few basic factors, such as the number of times a keyword appeared on a website. However, as search engines became more sophisticated, they began to use a wider range of factors to rank websites, including the quality of the content, the number of backlinks to a website, and the user experience.

As the importance of SEO became more apparent, businesses began to hire SEO professionals to help them improve their website ranking. The first SEO professionals were typically web developers and programmers who had a good understanding of how search engines worked. However, as the SEO industry grew, more specialized SEO professionals began to emerge, such as keyword researchers, content writers, and link builders.

The SEO industry has changed significantly over the years. In the early days, SEO was relatively easy to manipulate. However, as search engines have become more sophisticated, they have become better at detecting and penalizing websites that engage in black hat SEO techniques. As a result, SEO has become more complex and requires a deep understanding of search engine algorithms.

The competition in the SEO industry is fierce. There are many SEO companies and individuals who offer SEO services, and it can be difficult to choose the right one. It is important to do your research and choose an SEO company that has a proven track record of success.

Here are some of the factors that have changed the SEO industry over the years:

The rise of social media: Social media has become an important factor in SEO. Websites that are active on social media tend to rank higher in search engines.
The importance of mobile-friendly websites: More and more people are using mobile devices to search the web. As a result, it is important to have a website that is mobile-friendly.
The increasing importance of content: Quality content is essential for SEO. Websites that have high-quality content tend to rank higher in search engines.
The changing algorithms of search engines: Search engines are constantly updating their algorithms. This means that SEO professionals need to be constantly adapting their strategies.
The SEO industry is constantly evolving. It is important to stay up-to-date on the latest trends and strategies in order to be successful.
요즘 airbnb에 대해서 많이 생각을 하는데,
만약에... airbnb가 공유 모델 없이 호텔과 부동산을 매입해 가면서 그냥 서비스를 했으면, 지금의 airbnb 가 되었을까?
airbnb의 성공에 유저 경험이 가장 큰 이유라고 하면, 메리어트나 하얏트가 못 따라갈 IT적 인터페이스를 선점하는 것만으로도 지금의 시장 규모에 도달하지 않았을까?
비슷한 사례로 카카오 T를 보면, 굳이 소카가 아니더라도 택시에 앱만 붙여서 잘 불러지고 잘 잡히게만 만들어도 성공한다.
근데 여기서 재밌는 점은 그렇게 시장 점유까지는 될지 몰라도, 절대 지금의 환상적인?? 숙소들이 등장하지는 않았을 것이라는 것. Uber와 Airbnb에 차이점은 공유모델 자체가 새로운 경험을 창출하는가 단지 택시의 경험을 대체하는가에 있다. Uber를 보면 그냥 잘 교육된 택시 + 약간 더 큰 자동차도 부를 수 있는 장점 정도 이지만, Airbnb는 스포츠카를 부를 수 있다고나 할까.. 호텔과 전혀 다른 경험의 숙소와 관련 경험을 할 수 있게 해준다.
공유 경제가 성공하려면, 단순히 비용 문제 해결만 해서는 안되고, 경험 차별성을 만들어야 된다. (성공시키기기가 어렵단 이야기...^^ + 한번 성공시키면 망하기가 어렵단 이야기 ... ^^)