A new solution to the high-end chip shortage.
Read in @WSJ about how Together worked with large former crypto mining farms to repurpose their best GPUs and acquire new GPUs to train AI models — all with a specialized training stack for a fraction of the price.
https://www.wsj.com/articles/crypto-miners-seek-a-new-life-in-ai-boom-after-an-implosion-in-mining-92a181fd
Read in @WSJ about how Together worked with large former crypto mining farms to repurpose their best GPUs and acquire new GPUs to train AI models — all with a specialized training stack for a fraction of the price.
https://www.wsj.com/articles/crypto-miners-seek-a-new-life-in-ai-boom-after-an-implosion-in-mining-92a181fd
WSJ
Crypto Miners Seek a New Life in AI Boom After an Implosion in Mining
Demand for high-end chips allows cryptocurrency companies to repurpose idle equipment.
얼마전 구글 브레인, 딥마인드에서 코어 딥러닝 팀에 있었던 친구와 이야기 나누면서 인상싶었던 부분들 (이세종님)
지난번 세션에서 인상깊은 부분입니다.
quantization 등 모델 최적화나 모델 아키텍처 효율화로 모델 학습/인퍼런스 컴퓨트(GPU) 비용이 일시적으로 감소할 수 있지만, 장기적 관점에서 컴퓨트의 절대적 수요는 빠르게 증가할것
- 딥마인드에서 알파폴드를 3명의 연구원이 해낼 수 있었던 것은 이들이 더 똑똑해서가 아니라 1인당 활용 가능한 컴퓨트가 다른 기업, 연구소 보다 압도적으로 많았기 때문
- 컴퓨트가 보편화되어 가격이 저렴해질 수록 알파폴드 급의 혁신이 모든 산업과 영역에서 펼쳐질것
- 나아가 우리는 컴퓨트의 한계로 기본적인 텍스트 데이터 프로세싱에 발이 묶여 있었는데 앞으로 영상 등 복잡도 높고 무거운 데이터 처리 수요가 기하급수적으로 늘어날것
이미 헤지펀드에서 주가 예측에 특화된 모델을 적극 활용해 막대한 수익 창출중
- 모델 학습에 얼마 들고, 모델 경쟁우위의 지속성과 기대 매출을 고려했을 때 ROI가 어떻게 될지를 계산해서 동시 여러개 모델 학습중
- 그외 모든 기업엔 레거시 코드와 데이터가 있는데 보관된 방식과 코드의 형태 때문에 매년 어마한 고정비용이 발생. AI 모델 도움을 받아 코드 업데이트와 마이그레이션을 통해 회사 전반의 수익성을 개선하는 경우도 자주 보임
"사람을 때려박아" 스케일을 추구하는 블리츠스케일링 방법은 AI 시대에서 유효하지 않을 수도
- 기업에서 전통적으로 인건비가 돈이 가장 많이 들어갔는데 최근에 구글에선 컴퓨트 비용이 개발자 비용을 앞서
- 오픈AI도 400명 되는 기업인데 컴퓨트 비용이 인당 개발자 비용의 4배
- 앞으로는 작지만 프로덕트부터 세일즈까지 전사 오퍼레이션에 얼라인된 단단한 팀이 경쟁력 있지 않을지
크고 작은 여러 유형의 제너럴리스트와 특화된 SOTA 모델이 공존하게될것
- 유저가 원하는 요청에 맞는 모델이 자동 추천되어 태스크가 처리되는 Model of Experts 형태
- 모델은 크게 두 축의 교집합으로 존재할건데 한 축은 intelligence (예: 80 IQ ~ 150 IQ), 그리고 다른 축은 버티컬 (예: 코딩, 법률, 의료 등)
- 모델 검색/추천/연결을 돕는orchestration 레이어가 핵심 기술로 부상할것
출처: 이세종님 페이스북
https://www.facebook.com/Saejlee
지난번 세션에서 인상깊은 부분입니다.
quantization 등 모델 최적화나 모델 아키텍처 효율화로 모델 학습/인퍼런스 컴퓨트(GPU) 비용이 일시적으로 감소할 수 있지만, 장기적 관점에서 컴퓨트의 절대적 수요는 빠르게 증가할것
- 딥마인드에서 알파폴드를 3명의 연구원이 해낼 수 있었던 것은 이들이 더 똑똑해서가 아니라 1인당 활용 가능한 컴퓨트가 다른 기업, 연구소 보다 압도적으로 많았기 때문
- 컴퓨트가 보편화되어 가격이 저렴해질 수록 알파폴드 급의 혁신이 모든 산업과 영역에서 펼쳐질것
- 나아가 우리는 컴퓨트의 한계로 기본적인 텍스트 데이터 프로세싱에 발이 묶여 있었는데 앞으로 영상 등 복잡도 높고 무거운 데이터 처리 수요가 기하급수적으로 늘어날것
이미 헤지펀드에서 주가 예측에 특화된 모델을 적극 활용해 막대한 수익 창출중
- 모델 학습에 얼마 들고, 모델 경쟁우위의 지속성과 기대 매출을 고려했을 때 ROI가 어떻게 될지를 계산해서 동시 여러개 모델 학습중
- 그외 모든 기업엔 레거시 코드와 데이터가 있는데 보관된 방식과 코드의 형태 때문에 매년 어마한 고정비용이 발생. AI 모델 도움을 받아 코드 업데이트와 마이그레이션을 통해 회사 전반의 수익성을 개선하는 경우도 자주 보임
"사람을 때려박아" 스케일을 추구하는 블리츠스케일링 방법은 AI 시대에서 유효하지 않을 수도
- 기업에서 전통적으로 인건비가 돈이 가장 많이 들어갔는데 최근에 구글에선 컴퓨트 비용이 개발자 비용을 앞서
- 오픈AI도 400명 되는 기업인데 컴퓨트 비용이 인당 개발자 비용의 4배
- 앞으로는 작지만 프로덕트부터 세일즈까지 전사 오퍼레이션에 얼라인된 단단한 팀이 경쟁력 있지 않을지
크고 작은 여러 유형의 제너럴리스트와 특화된 SOTA 모델이 공존하게될것
- 유저가 원하는 요청에 맞는 모델이 자동 추천되어 태스크가 처리되는 Model of Experts 형태
- 모델은 크게 두 축의 교집합으로 존재할건데 한 축은 intelligence (예: 80 IQ ~ 150 IQ), 그리고 다른 축은 버티컬 (예: 코딩, 법률, 의료 등)
- 모델 검색/추천/연결을 돕는orchestration 레이어가 핵심 기술로 부상할것
출처: 이세종님 페이스북
https://www.facebook.com/Saejlee
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
👍2
Continuous Learning_Startup & Investment
A new solution to the high-end chip shortage. Read in @WSJ about how Together worked with large former crypto mining farms to repurpose their best GPUs and acquire new GPUs to train AI models — all with a specialized training stack for a fraction of the price.…
Today, Satoshi Spain’s machines are handling AI workloads for startups, universities and individual developers in Europe.
“You can still make money from your mining rig,” Satoshi Spain founder Alejandro Ibáñez de Pedro said. “It’s mining 2.0.”
Around 20% of the freed-up chips can be repurposed to train AI models, said Vipul Ved Prakash, the CEO of alternative cloud provider Together.
Together is using former crypto miners for GPUs and other hardware to build virtual server farms. It has leased thousands of GPUs to help power Together’s cloud service for AI developers. In May, it raised $20 million in seed funding.
Demi Guo, the founder of an AI applications startup called Mellis AI, couldn’t get the data processing pricing or capacity she needed at the leading cloud providers so she is using repurposed hardware available through Together’s cloud.
Saurabh Vij has built an AI business around chips formerly used for mining. His startup, Monster, has access to more than 30,000 chips—most of them once used for mining—that its customers can lease.
“You can still make money from your mining rig,” Satoshi Spain founder Alejandro Ibáñez de Pedro said. “It’s mining 2.0.”
Around 20% of the freed-up chips can be repurposed to train AI models, said Vipul Ved Prakash, the CEO of alternative cloud provider Together.
Together is using former crypto miners for GPUs and other hardware to build virtual server farms. It has leased thousands of GPUs to help power Together’s cloud service for AI developers. In May, it raised $20 million in seed funding.
Demi Guo, the founder of an AI applications startup called Mellis AI, couldn’t get the data processing pricing or capacity she needed at the leading cloud providers so she is using repurposed hardware available through Together’s cloud.
Saurabh Vij has built an AI business around chips formerly used for mining. His startup, Monster, has access to more than 30,000 chips—most of them once used for mining—that its customers can lease.
Here's some AI “math” from today's baseline:
- Chips improve by 2x next year
- Models improve by 2x next year
- Capex scales capacity by 10x next year
This means that whatever you see today will be ~40x better in a year and another ~20-40x better a year after that.
So we can expect an ~800-1,600x improvement by 2026.
What *won’t* be possible is probably the better question.
- Chips improve by 2x next year
- Models improve by 2x next year
- Capex scales capacity by 10x next year
This means that whatever you see today will be ~40x better in a year and another ~20-40x better a year after that.
So we can expect an ~800-1,600x improvement by 2026.
What *won’t* be possible is probably the better question.
❤1
Continuous Learning_Startup & Investment
Here's some AI “math” from today's baseline: - Chips improve by 2x next year - Models improve by 2x next year - Capex scales capacity by 10x next year This means that whatever you see today will be ~40x better in a year and another ~20-40x better a year…
ChatGPT has some push back for you (see below). Its quite good!
The scenario you're describing is an incredibly optimistic one that assumes exponential growth across multiple dimensions of computing technology: chip performance, AI model capabilities, and capital expenditure for capacity scaling. In reality, while rapid advancements are certainly occurring, there are a number of physical, economic, and social constraints that could inhibit such a straightforward, exponential trajectory.
Here’s a breakdown of challenges and limitations in each of the areas you've mentioned:
1. Chip Performance: The idea that chip performance would continue to double every year is a significant acceleration of Moore's Law, which historically observed that the number of transistors on a microchip doubles about every two years. However, we're reaching physical limitations of silicon technology, with features approaching the scale of a few nanometers. Quantum tunneling, heat dissipation, and energy efficiency are all significant challenges. While new materials and paradigms (like quantum computing or 3D stacking) are in development, they also come with their own sets of challenges that might not allow for a simple 2x improvement year over year.
2. Model Improvements: AI models are indeed improving rapidly, but there's more to consider than raw performance. Larger models require more data, more power, and better algorithms to be effective. Improvements in algorithms could potentially hit a point of diminishing returns, and there are concerns about the environmental impact of training extremely large models. Additionally, large models can become increasingly difficult to manage, debug, and ensure they do not perpetuate biases or make erroneous decisions.
3. Capital Expenditure: A 10x scale in capital expenditure assumes not only that companies have the economic capacity and willingness to invest at such levels but also that the supply chains and raw materials necessary for such a scale-up are available. This also presumes that there will be sufficient market demand to justify this level of investment.
Now, let’s address your main question: what won't be possible, even with such improvements? Here are some potential limitations:
- Physical Laws: Computing is still bound by the laws of physics. Even if computers become vastly more powerful, there will still be things that are simply impossible, like violating the speed of light or the second law of thermodynamics.
- Complexity and Emergent Phenomena: Many systems, like weather, human brains, or economies, are incredibly complex. Even with vastly improved models, the sheer number of variables and interactions can make prediction and understanding difficult.
- Social and Ethical Constraints: Just because something can be done technically does not mean it should be. Ethical considerations regarding surveillance, privacy, and the use of AI in decision-making will likely place limits on how technology is applied.
- Economic Considerations: Not every advancement will be economically feasible or provide a return on investment. Additionally, there could be resistance from industries that are disrupted by these advancements, potentially slowing adoption.
- Human Adaptability: The rate at which society can adapt to new technologies is limited. There are educational, cultural, and institutional barriers that often delay the implementation of even the most promising technologies.
In summary, while your scenario posits a world in which the capabilities of computing technology grow at an unprecedented rate, it's important to consider the multifaceted challenges that accompany such growth. The future is likely to be one of incredible technological advancement, but the path there will probably be more uneven and complex than the simple multiplication of current capabilities.
The scenario you're describing is an incredibly optimistic one that assumes exponential growth across multiple dimensions of computing technology: chip performance, AI model capabilities, and capital expenditure for capacity scaling. In reality, while rapid advancements are certainly occurring, there are a number of physical, economic, and social constraints that could inhibit such a straightforward, exponential trajectory.
Here’s a breakdown of challenges and limitations in each of the areas you've mentioned:
1. Chip Performance: The idea that chip performance would continue to double every year is a significant acceleration of Moore's Law, which historically observed that the number of transistors on a microchip doubles about every two years. However, we're reaching physical limitations of silicon technology, with features approaching the scale of a few nanometers. Quantum tunneling, heat dissipation, and energy efficiency are all significant challenges. While new materials and paradigms (like quantum computing or 3D stacking) are in development, they also come with their own sets of challenges that might not allow for a simple 2x improvement year over year.
2. Model Improvements: AI models are indeed improving rapidly, but there's more to consider than raw performance. Larger models require more data, more power, and better algorithms to be effective. Improvements in algorithms could potentially hit a point of diminishing returns, and there are concerns about the environmental impact of training extremely large models. Additionally, large models can become increasingly difficult to manage, debug, and ensure they do not perpetuate biases or make erroneous decisions.
3. Capital Expenditure: A 10x scale in capital expenditure assumes not only that companies have the economic capacity and willingness to invest at such levels but also that the supply chains and raw materials necessary for such a scale-up are available. This also presumes that there will be sufficient market demand to justify this level of investment.
Now, let’s address your main question: what won't be possible, even with such improvements? Here are some potential limitations:
- Physical Laws: Computing is still bound by the laws of physics. Even if computers become vastly more powerful, there will still be things that are simply impossible, like violating the speed of light or the second law of thermodynamics.
- Complexity and Emergent Phenomena: Many systems, like weather, human brains, or economies, are incredibly complex. Even with vastly improved models, the sheer number of variables and interactions can make prediction and understanding difficult.
- Social and Ethical Constraints: Just because something can be done technically does not mean it should be. Ethical considerations regarding surveillance, privacy, and the use of AI in decision-making will likely place limits on how technology is applied.
- Economic Considerations: Not every advancement will be economically feasible or provide a return on investment. Additionally, there could be resistance from industries that are disrupted by these advancements, potentially slowing adoption.
- Human Adaptability: The rate at which society can adapt to new technologies is limited. There are educational, cultural, and institutional barriers that often delay the implementation of even the most promising technologies.
In summary, while your scenario posits a world in which the capabilities of computing technology grow at an unprecedented rate, it's important to consider the multifaceted challenges that accompany such growth. The future is likely to be one of incredible technological advancement, but the path there will probably be more uneven and complex than the simple multiplication of current capabilities.
https://www.theinformation.com/articles/metas-free-ai-isnt-cheap-to-use-companies-say?rc=3jxaoo (유료기사입니다)
오픈소스 모델이 상업모델보다 저렴하지 않은 경우가 훨씬 많다는 기사입니다. 뉴스에 참조된 아래의 그래프 보시면 심지어 7B짜리 LLaMA 모델 구동이 GPT3.5 Turbo보다 비싸네요.
최근 LLM의 경량화/최적화 추세를 눈여겨 보시는 분들이라면 어쩌면 당연할 수도 있는 것이, 굉장히 많은 traffic이 몰릴 수록 (도매 장사처럼) cost를 낮출 수 있는 방법들이 존재하는데, 커스터마이징 된 오픈소스 모델을 구동할수록 서버 비용이 더 비싸지고, 차라리 백본 모델에서 tuning 서비스를 구동하는 것이 (예를 들면 LoRA weight들도 동일 규격이면 한꺼번에 묶어버려서 서비스를 처리한다던가) 가격은 더 저렴할 수 밖에 없습니다.
LLM이 클라우드 서비스와 더더욱 밀접하게 연결될 수 밖에 없다보니 이러한 경향이 생길 수 밖에 없는 것이기도 한데요, 네이버클라우드가 AI를 리드하는 것은 이러한 추세에 적합한 선택이기도 했습니다.
네이버클라우드는 OpenAI나 구글, 마이크로소프트와 cost 경쟁에서 지지 않을 여러가지 최적화/경량화 기술들을 구동해 놓았고, 중장기에서는 어느 빅테크보다 뛰어난 서비스 경쟁력을 갖출 AI 반도체를 잘 진행하고 있습니다.
오픈소스 모델이 상업모델보다 저렴하지 않은 경우가 훨씬 많다는 기사입니다. 뉴스에 참조된 아래의 그래프 보시면 심지어 7B짜리 LLaMA 모델 구동이 GPT3.5 Turbo보다 비싸네요.
최근 LLM의 경량화/최적화 추세를 눈여겨 보시는 분들이라면 어쩌면 당연할 수도 있는 것이, 굉장히 많은 traffic이 몰릴 수록 (도매 장사처럼) cost를 낮출 수 있는 방법들이 존재하는데, 커스터마이징 된 오픈소스 모델을 구동할수록 서버 비용이 더 비싸지고, 차라리 백본 모델에서 tuning 서비스를 구동하는 것이 (예를 들면 LoRA weight들도 동일 규격이면 한꺼번에 묶어버려서 서비스를 처리한다던가) 가격은 더 저렴할 수 밖에 없습니다.
LLM이 클라우드 서비스와 더더욱 밀접하게 연결될 수 밖에 없다보니 이러한 경향이 생길 수 밖에 없는 것이기도 한데요, 네이버클라우드가 AI를 리드하는 것은 이러한 추세에 적합한 선택이기도 했습니다.
네이버클라우드는 OpenAI나 구글, 마이크로소프트와 cost 경쟁에서 지지 않을 여러가지 최적화/경량화 기술들을 구동해 놓았고, 중장기에서는 어느 빅테크보다 뛰어난 서비스 경쟁력을 갖출 AI 반도체를 잘 진행하고 있습니다.
The Information
Meta’s Free AI Isn’t Cheap to Use, Companies Say
Some companies that pay for OpenAI’s artificial intelligence have been looking to cut costs with free, open-source alternatives. But these AI customers are realizing that oftentimes open-source tech can actually be more expensive than buying from OpenAI.…
Continuous Learning_Startup & Investment
https://gpus.llm-utils.org/
여러 서비스를 꽤 잘 비교해놨네요 ㅎㅎ
Which GPU cloud should I use?
#
If you need a huge number of A100s/H100s - talk to Oracle, FluidStack, Lambda Labs, maybe a few others. Capacity is very low though for large quantities, especially of H100s, based on a couple of cloud founders/execs I’ve talked with.
If you need a couple A100s or H100s: Runpod, perhaps Tensordock or Latitude.
If you need 1x H100: Runpod (Fluidstack and Lambda have been out of on-demand capacity for qhite a while).
If you need cheap 3090s, 4090s, or A6000s: Tensordock.
If you need Stable Diffusion inference only: Salad.
If you need a wide variety of GPUs: Runpod or Tensordock.
If you want to play around with templates / general hobbyist: Runpod.
The large clouds generally have worse pricing and more complicated setups than the above.
If you’re tied to one of the big clouds (AWS, Azure, GCP), then you don’t have a choice, so use that.
More info here, here, here, here, here and here.
Which GPU cloud should I use?
#
If you need a huge number of A100s/H100s - talk to Oracle, FluidStack, Lambda Labs, maybe a few others. Capacity is very low though for large quantities, especially of H100s, based on a couple of cloud founders/execs I’ve talked with.
If you need a couple A100s or H100s: Runpod, perhaps Tensordock or Latitude.
If you need 1x H100: Runpod (Fluidstack and Lambda have been out of on-demand capacity for qhite a while).
If you need cheap 3090s, 4090s, or A6000s: Tensordock.
If you need Stable Diffusion inference only: Salad.
If you need a wide variety of GPUs: Runpod or Tensordock.
If you want to play around with templates / general hobbyist: Runpod.
The large clouds generally have worse pricing and more complicated setups than the above.
If you’re tied to one of the big clouds (AWS, Azure, GCP), then you don’t have a choice, so use that.
More info here, here, here, here, here and here.
Continuous Learning_Startup & Investment
https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/
How Do Nvidia Allocations Work?
#
They have an allocation they give per customer. But for example, Azure saying “hey we would like 10,000 H100s all to be used by Inflection” is different from Azure saying “hey we would like 10,000 H100s for Azure’s cloud” - Nvidia cares about who the end customer is, and so clouds might be able to get an extra allocation for a specific end customer if Nvidia is excited about the end customer. Nvidia also wants to know who that end customer is, as much as possible. And they prefer customers with nice brand names or startups with strong pedigrees.
Yes, this seems to be the case. NVIDIA likes to guarantee GPU access to rising AI companies (many of which they have a close relationship with). See Inflection — an AI company they invested in — testing a huge H100 cluster on CoreWeave, which they also invested in
– Private cloud exec
It’s a unique situation in that Nvidia is giving large allocations to private clouds: CoreWeave has more H100s than GCP.
Nvidia would prefer not to give large allocations to companies that are attempting to compete directly with them (AWS Inferentia and Tranium, Google TPUs, Azure Project Athena).
#
They have an allocation they give per customer. But for example, Azure saying “hey we would like 10,000 H100s all to be used by Inflection” is different from Azure saying “hey we would like 10,000 H100s for Azure’s cloud” - Nvidia cares about who the end customer is, and so clouds might be able to get an extra allocation for a specific end customer if Nvidia is excited about the end customer. Nvidia also wants to know who that end customer is, as much as possible. And they prefer customers with nice brand names or startups with strong pedigrees.
Yes, this seems to be the case. NVIDIA likes to guarantee GPU access to rising AI companies (many of which they have a close relationship with). See Inflection — an AI company they invested in — testing a huge H100 cluster on CoreWeave, which they also invested in
– Private cloud exec
It’s a unique situation in that Nvidia is giving large allocations to private clouds: CoreWeave has more H100s than GCP.
Nvidia would prefer not to give large allocations to companies that are attempting to compete directly with them (AWS Inferentia and Tranium, Google TPUs, Azure Project Athena).
https://youtu.be/IPDAFffVsv0
이전의 성공이 이후에도 반복될거라는 보장은 없습니다. 여러분이 직면하게 될 미래는 과거의 데이터로 예측하기 어렵거든요.
명확한 비전 -> 실행 -> 실패/배움 -> 재도전, 명확한 비전이 없다면 술취한 사람과 같다.
이제껏 보지 못한 문제를 해결하려면 분야를 따지지 않고 모든 지식을 활용해야한다. 과목이나 분야로 지식을 나누는 대신에 목적을 이루는 데에 집중해야한다.
컴퓨터는 과학과 공학을 지배할 것입니다. (AI...)
- Economic: Cheaper than people
- Speed: Far faster
- Accuracy
- Reliability(Predictability)
기계는 연금을 받지도 개인적인 다툼을 하지도 않습니다.
인간의 장점은 여러분이 앞으로 풀어갈 것입니다.
좋은 인생을 만들려면 노력해야합니다.
많은 사람들이 목표를 이루면 행복할 거라고 믿죠. 하지만 오랜시간동안 많은 걸 공부하고 사람들과 대화를 나누면서 깨달은 것은 사람들은 그 목표를 이루는 순간이 아닌 목표에 다다를 때까지의 고난과 갈등을 통해 스스로를 이해하고 완성시킵니다.
언젠가 나이를 먹고 완성된 나를 인정해야할 때가 올 거에요. 여러분이 나이를 먹었을 때 어떤 모습으로 살아갈지 상상하세요.
그 미래를 위해 당장 움직이세요.
이 메세지가 수업의 핵심입니다. 물론 제 말이 항상 맞는 것은 아닙니다. 하지만 제가 이제껏 만난 수많은 사람들은 어려움 속에서 분투하며 탁월한 가치를 찾았죠.
저는 어렸을 때 영화를 자주 봤습니다. 토요일 친구와 하루종일 웃으며 영화를 봤습니다. 친구가 저에게 그렇게 웃긴 영화는 아니던데? 라고 말했고 친구말에 공감했습니다. 웃긴 장면이 많은 영화라고 웃긴 영화는 아니죠.
인생도 똑같습니다. 행복한 순간만 있다고 행복한 삶은 아닙니다. 진짜 행복한 삶은 그렇게 단조롭지 않아요. 기쁨만 있다고 좋은 삶이 아닙니다. 매일 아침이 항상 행복할 순없죠. 좋은 삶은 잔잔하게 다가옵니다.
진정으로 행복한 삶을 만들고 싶다면 목표를 정하고 그걸 이루기 위해서 노력하세요. 술취한 선원들처럼 멍하니 표류하지 말고요.
소크라테스는 되돌아보지 않는 삶은 가치가 없다고 했습니다.
이전의 성공이 이후에도 반복될거라는 보장은 없습니다. 여러분이 직면하게 될 미래는 과거의 데이터로 예측하기 어렵거든요.
명확한 비전 -> 실행 -> 실패/배움 -> 재도전, 명확한 비전이 없다면 술취한 사람과 같다.
이제껏 보지 못한 문제를 해결하려면 분야를 따지지 않고 모든 지식을 활용해야한다. 과목이나 분야로 지식을 나누는 대신에 목적을 이루는 데에 집중해야한다.
컴퓨터는 과학과 공학을 지배할 것입니다. (AI...)
- Economic: Cheaper than people
- Speed: Far faster
- Accuracy
- Reliability(Predictability)
기계는 연금을 받지도 개인적인 다툼을 하지도 않습니다.
인간의 장점은 여러분이 앞으로 풀어갈 것입니다.
좋은 인생을 만들려면 노력해야합니다.
많은 사람들이 목표를 이루면 행복할 거라고 믿죠. 하지만 오랜시간동안 많은 걸 공부하고 사람들과 대화를 나누면서 깨달은 것은 사람들은 그 목표를 이루는 순간이 아닌 목표에 다다를 때까지의 고난과 갈등을 통해 스스로를 이해하고 완성시킵니다.
언젠가 나이를 먹고 완성된 나를 인정해야할 때가 올 거에요. 여러분이 나이를 먹었을 때 어떤 모습으로 살아갈지 상상하세요.
그 미래를 위해 당장 움직이세요.
이 메세지가 수업의 핵심입니다. 물론 제 말이 항상 맞는 것은 아닙니다. 하지만 제가 이제껏 만난 수많은 사람들은 어려움 속에서 분투하며 탁월한 가치를 찾았죠.
저는 어렸을 때 영화를 자주 봤습니다. 토요일 친구와 하루종일 웃으며 영화를 봤습니다. 친구가 저에게 그렇게 웃긴 영화는 아니던데? 라고 말했고 친구말에 공감했습니다. 웃긴 장면이 많은 영화라고 웃긴 영화는 아니죠.
인생도 똑같습니다. 행복한 순간만 있다고 행복한 삶은 아닙니다. 진짜 행복한 삶은 그렇게 단조롭지 않아요. 기쁨만 있다고 좋은 삶이 아닙니다. 매일 아침이 항상 행복할 순없죠. 좋은 삶은 잔잔하게 다가옵니다.
진정으로 행복한 삶을 만들고 싶다면 목표를 정하고 그걸 이루기 위해서 노력하세요. 술취한 선원들처럼 멍하니 표류하지 말고요.
소크라테스는 되돌아보지 않는 삶은 가치가 없다고 했습니다.
YouTube
살아가는 데 모범답안은 없습니다.
이런 영상을 번역할 때가 제일 즐겁습니다. 옷을 사는 것과 비슷한데요. 남들 다 아는 브랜드의 최신 유행하는 옷들 말고, 진짜 좋은데 남들은 잘 모르는, 그리고 어디서도 구하기 어려운 그런 진짜 '좋은 것' 찾아내면 기쁘지 않나요? 영상을 공유할 때도 그렇습니다. 1995년 강연이에요. 한국어로 당연히 번역된 적이 한 번도 없고요. 소리가 잘 들리지 않아서 몇 번을 돌려내고, 관련된 자료들 참고하며 편집을 했습니다. 이렇게 까지 고생할 일이냐고요? 그럼요.…
[Multi-head attention의 본질은 무엇인가?]
제 본업인 최적화/경량화를 수행하기 위해서는 AI 모델이 구동하는 근본 원리와 이유에 대한 깊은 이해를 동반합니다. AI 반도체를 만들때에도 이러한 본질에 대한 이해는, 차별화된 반도체를 만들 수 있는 근거와 무기가 됩니다.
AI에 대한 교과서를 볼일이 거의 없다보니 최근 기본 개념에 대해 다른 사람들은 어떻게 설명하나, 강의는 어떻게 하나에 대해 관심을 가질때가 가끔 생기는데, Transformer에 대해 잘 설명하는 강의를 찾기가 쉽지 않더라고요.. (Transformer가 이렇게 중요해졌는데도..??) 언제 한번 기회되면 강의도 제 나름 다시 만들어보고 싶다는 생각도 가끔 하게 되는데 정말 시간이 없어서 그게 참 아쉽네요.
그 중에서 multi-head attention은, 어떤 분들에게는 처음 Transformer를 공부하게 될 때 고개를 갸우뚱 거리게 하는 동작들이 많을 수 있다는 생각을 합니다.. 왜 하필 multi-head attention 구조는 이렇게 만들었지? 왜 이런식으로 동작을 하는거지? 하는 부분이 많을 수 있을 것 같은데요, 저는 어떤 원리를 이해할 때, ‘아~ 나라도 이렇게 만들었겠다’ 싶을 때, 저는 어느정도 내 기준으로 이해를 했다고 만족을 하게 됩니다. 그렇지 않으면 꼭 나중에 제대로 이해를 못한 문제가 연구던 개발이던 발생을 하더라고요.. Transformer에 대해 전부 다 강의를 해볼 수 있으면 참 좋겠으나 오늘은 그중에서, multi-head attention에 대해 제 방식대로 설명을 해보려고 합니다 (저희팀은 이런식으로 AI 원리를 이해한다는 예로 봐주셔도 좋겠습니다)
1. 딥러닝의 놀라움은 random initialization 개념으로 부터 시작
Multi-head attention의 본질은 여기서부터 시작됩니다. 우리가 ResNet이나 BERT같은 모델들을 구동할 때 정말 놀라운 것은 아무 숫자나 (물론 Gaussian Distribution같은 모형은 가정하고) random하게 시작을 해도 학습을 통해서 최종 accuracy는 그렇게 크기 바뀌지 않는다는 사실입니다. 생각할수록 놀라운 결과입니다. 왜냐하면 맨 처음 시작점과 끝점을 연결해서 물리적인 distance같은 개념을 가져오더라도 어마어마하게 시작점부터 멀리가는 것도 아니기 때문입니다. 또한 많은 해가 존재할 수는 있지만 어떻게 그 많은 최종 결과들의 성능이 비슷비슷해질 수 있는지 놀라운 점도 있습니다. 이에 대한 연구결과도 무수히 많았는데 특히 Lottery Ticker Hypothesis는 이를 설명할 수 있는 매우 강력한 이론이기도 합니다.
2. Attention에서는 random하게 출발해도 괜찮은가?
전체 weight을 random하게 시작을 해도 feed-forward network (즉, 단순 linear layer) 같은 경우에는 학습 뒤 비슷한 좋은 결과를 얻을 가능성이 있습니다. 그런데 하필 attention에 해당하는 weight들은 이게 그렇게 쉽지가 않습니다. 그러니까 어떻게 random initilization을 하냐에 따라 최종 결과가 꽤 달라집니다. 그러면 어떻게 이 문제를 해결할까 라고 보면 마치 우리가 주식시장에서 분산 투자를 하듯이 여러개의 random initliazation을 만들어보고 그 중에 좋은 녀석이 나타날 확률을 높여보는 겁니다. 그래서 header가 만약 10개가 있다고 한다면 그것은 10종목의 주식을 사놓고 좋은 주식이 그중에서 한두개 나타나기를 기다리는 것과 비슷합니다 (마치 ETF 투자를 하듯이요). 이에 대한 관련 연구는 매우 많습니다. 예를 들면 header단위로 pruning을 해본 연구들도 많고 header마다 weight의 특징이 매우 다르다는 연구도 많습니다. 그만큼 attention weight의 경우에는 ‘금수저’와 ‘흙수저’의 차이가 큽니다 (좋은 예인지는 모르겠으나 굳이 비유를 하자면요…)
3. Attention결과물은 summation을 하지 않고 concatenation을 한다.. 왜?
header의 개수가 늘어날수록 각 header가 만들어내는 dimension은 줄입니다. 왜냐하면 header의 결과를 나중에는 결국 concatenation하고 전체 output dimention은 유지를 하기 때문입니다. 이 때 (꼭 항상 그런것은 아니지만) 만약 어떤 output들을 합칠 때, 각각의 녀석들이 대동소이하거나 성능이 비슷비슷하면 summation을 하고, 만일 차이가 크다면 concatenation을 하는 경우가 딥러닝에 많습니다. 굳이 또 비유를 하자면, 안좋은 녀석들과 좋은 녀석들을 한번에 다 섞어버리지 말고, 매우 뛰어난 인재가 있다고 하면 독립적으로 살려두는 방식 이라고 생각할수도 있습니다. 즉, 태생적으로 header들은 확률적으로 매우 좋거나 매우 나쁠 수 있다는 점이 여기저기 structure 구조 고민에 녹아져 있습니다.
4. Header 개수는 결국 trade-off의 산물
Header 개수가 많아지면 좋은 header를 찾을 확률이 높아집니다. 반면 하나의 header가 기여하는 dimension은 작아집니다. 이렇기 떄문에 header의 개수를 점점 늘이다보면 성능이 올라갔다가 다시 내려가는 현상을 보입니다. 따라서 header의 개수가 얼마나 필요한지는 전적으로 empirical한 결과라고 볼 수 있고, 통상적으로 모델이 커질수록 최적의 header 개수는 증가를 합니다. 참고로 header의 (이제까지 말씀드린 random initialization 관점에서) 독특한 현상들 때문에 최적화나 경량화를 할 때도 header 관련 만큼은 특별히 다른 방식들을 취해야할 때가 많습니다.
최근 GQA라는 방식이 유행하고 있는데 (라마2 70B모델, PaLM등등에 채택) 이게 무슨 말이냐면, 사실 알고보니 header개수가 K와 V에는 그리 많을 필요까지는 없고 대신 Q에는 많이 필요하더라 라는 얘기가 됩니다. 즉, 타고난 금수저와 흙수저의 큰 차이는 사실 알고보면 Q에 해당하는 weight에서 더 크게 발생하더라 라고 볼수가 있습니다.
아마 처음 Transformer를 만들었을 때도 저자들은 마찬가지 시행착오를 했을 거라고 생각합니다. Header라는 애는 random initilization 조건에 따라 최종 성능이 너무 다르네? 그럼 위험 분산을 어떻게 할 수 있지? 아 header 개수를 늘여보고 결과를 concatenation해야겠구나 하는 논리가 됩니다.
이미 자세히 알고 있을 분들에게는 당연한 얘기들을 길게 쓴 것일수도 있는데, 위와 같이 설명하는 분들을 찾아보지를 못해서 한번 저만의 해석은 이렇다는 것도 공유드릴 겸, 그리고 저희팀에서는 이런식으로 새로나오는 알고리즘들을 이해하고 넘어간다는 점 공유드리고 싶었습니다. 딥러닝에 대한 깊은 insight들은 많은 실험을 해보고 직접 경험해보고, 관련된 연구들도 광범위하게 이해하면서 폭넓은 시야를 가지도록 나름 노력한다는 점, 그리고 위와 같은 이해방식을 가지고 있어야 새로운 연구들도 가능하지 않을까 생각한다는 점 공유드려봅니다.
제 본업인 최적화/경량화를 수행하기 위해서는 AI 모델이 구동하는 근본 원리와 이유에 대한 깊은 이해를 동반합니다. AI 반도체를 만들때에도 이러한 본질에 대한 이해는, 차별화된 반도체를 만들 수 있는 근거와 무기가 됩니다.
AI에 대한 교과서를 볼일이 거의 없다보니 최근 기본 개념에 대해 다른 사람들은 어떻게 설명하나, 강의는 어떻게 하나에 대해 관심을 가질때가 가끔 생기는데, Transformer에 대해 잘 설명하는 강의를 찾기가 쉽지 않더라고요.. (Transformer가 이렇게 중요해졌는데도..??) 언제 한번 기회되면 강의도 제 나름 다시 만들어보고 싶다는 생각도 가끔 하게 되는데 정말 시간이 없어서 그게 참 아쉽네요.
그 중에서 multi-head attention은, 어떤 분들에게는 처음 Transformer를 공부하게 될 때 고개를 갸우뚱 거리게 하는 동작들이 많을 수 있다는 생각을 합니다.. 왜 하필 multi-head attention 구조는 이렇게 만들었지? 왜 이런식으로 동작을 하는거지? 하는 부분이 많을 수 있을 것 같은데요, 저는 어떤 원리를 이해할 때, ‘아~ 나라도 이렇게 만들었겠다’ 싶을 때, 저는 어느정도 내 기준으로 이해를 했다고 만족을 하게 됩니다. 그렇지 않으면 꼭 나중에 제대로 이해를 못한 문제가 연구던 개발이던 발생을 하더라고요.. Transformer에 대해 전부 다 강의를 해볼 수 있으면 참 좋겠으나 오늘은 그중에서, multi-head attention에 대해 제 방식대로 설명을 해보려고 합니다 (저희팀은 이런식으로 AI 원리를 이해한다는 예로 봐주셔도 좋겠습니다)
1. 딥러닝의 놀라움은 random initialization 개념으로 부터 시작
Multi-head attention의 본질은 여기서부터 시작됩니다. 우리가 ResNet이나 BERT같은 모델들을 구동할 때 정말 놀라운 것은 아무 숫자나 (물론 Gaussian Distribution같은 모형은 가정하고) random하게 시작을 해도 학습을 통해서 최종 accuracy는 그렇게 크기 바뀌지 않는다는 사실입니다. 생각할수록 놀라운 결과입니다. 왜냐하면 맨 처음 시작점과 끝점을 연결해서 물리적인 distance같은 개념을 가져오더라도 어마어마하게 시작점부터 멀리가는 것도 아니기 때문입니다. 또한 많은 해가 존재할 수는 있지만 어떻게 그 많은 최종 결과들의 성능이 비슷비슷해질 수 있는지 놀라운 점도 있습니다. 이에 대한 연구결과도 무수히 많았는데 특히 Lottery Ticker Hypothesis는 이를 설명할 수 있는 매우 강력한 이론이기도 합니다.
2. Attention에서는 random하게 출발해도 괜찮은가?
전체 weight을 random하게 시작을 해도 feed-forward network (즉, 단순 linear layer) 같은 경우에는 학습 뒤 비슷한 좋은 결과를 얻을 가능성이 있습니다. 그런데 하필 attention에 해당하는 weight들은 이게 그렇게 쉽지가 않습니다. 그러니까 어떻게 random initilization을 하냐에 따라 최종 결과가 꽤 달라집니다. 그러면 어떻게 이 문제를 해결할까 라고 보면 마치 우리가 주식시장에서 분산 투자를 하듯이 여러개의 random initliazation을 만들어보고 그 중에 좋은 녀석이 나타날 확률을 높여보는 겁니다. 그래서 header가 만약 10개가 있다고 한다면 그것은 10종목의 주식을 사놓고 좋은 주식이 그중에서 한두개 나타나기를 기다리는 것과 비슷합니다 (마치 ETF 투자를 하듯이요). 이에 대한 관련 연구는 매우 많습니다. 예를 들면 header단위로 pruning을 해본 연구들도 많고 header마다 weight의 특징이 매우 다르다는 연구도 많습니다. 그만큼 attention weight의 경우에는 ‘금수저’와 ‘흙수저’의 차이가 큽니다 (좋은 예인지는 모르겠으나 굳이 비유를 하자면요…)
3. Attention결과물은 summation을 하지 않고 concatenation을 한다.. 왜?
header의 개수가 늘어날수록 각 header가 만들어내는 dimension은 줄입니다. 왜냐하면 header의 결과를 나중에는 결국 concatenation하고 전체 output dimention은 유지를 하기 때문입니다. 이 때 (꼭 항상 그런것은 아니지만) 만약 어떤 output들을 합칠 때, 각각의 녀석들이 대동소이하거나 성능이 비슷비슷하면 summation을 하고, 만일 차이가 크다면 concatenation을 하는 경우가 딥러닝에 많습니다. 굳이 또 비유를 하자면, 안좋은 녀석들과 좋은 녀석들을 한번에 다 섞어버리지 말고, 매우 뛰어난 인재가 있다고 하면 독립적으로 살려두는 방식 이라고 생각할수도 있습니다. 즉, 태생적으로 header들은 확률적으로 매우 좋거나 매우 나쁠 수 있다는 점이 여기저기 structure 구조 고민에 녹아져 있습니다.
4. Header 개수는 결국 trade-off의 산물
Header 개수가 많아지면 좋은 header를 찾을 확률이 높아집니다. 반면 하나의 header가 기여하는 dimension은 작아집니다. 이렇기 떄문에 header의 개수를 점점 늘이다보면 성능이 올라갔다가 다시 내려가는 현상을 보입니다. 따라서 header의 개수가 얼마나 필요한지는 전적으로 empirical한 결과라고 볼 수 있고, 통상적으로 모델이 커질수록 최적의 header 개수는 증가를 합니다. 참고로 header의 (이제까지 말씀드린 random initialization 관점에서) 독특한 현상들 때문에 최적화나 경량화를 할 때도 header 관련 만큼은 특별히 다른 방식들을 취해야할 때가 많습니다.
최근 GQA라는 방식이 유행하고 있는데 (라마2 70B모델, PaLM등등에 채택) 이게 무슨 말이냐면, 사실 알고보니 header개수가 K와 V에는 그리 많을 필요까지는 없고 대신 Q에는 많이 필요하더라 라는 얘기가 됩니다. 즉, 타고난 금수저와 흙수저의 큰 차이는 사실 알고보면 Q에 해당하는 weight에서 더 크게 발생하더라 라고 볼수가 있습니다.
아마 처음 Transformer를 만들었을 때도 저자들은 마찬가지 시행착오를 했을 거라고 생각합니다. Header라는 애는 random initilization 조건에 따라 최종 성능이 너무 다르네? 그럼 위험 분산을 어떻게 할 수 있지? 아 header 개수를 늘여보고 결과를 concatenation해야겠구나 하는 논리가 됩니다.
이미 자세히 알고 있을 분들에게는 당연한 얘기들을 길게 쓴 것일수도 있는데, 위와 같이 설명하는 분들을 찾아보지를 못해서 한번 저만의 해석은 이렇다는 것도 공유드릴 겸, 그리고 저희팀에서는 이런식으로 새로나오는 알고리즘들을 이해하고 넘어간다는 점 공유드리고 싶었습니다. 딥러닝에 대한 깊은 insight들은 많은 실험을 해보고 직접 경험해보고, 관련된 연구들도 광범위하게 이해하면서 폭넓은 시야를 가지도록 나름 노력한다는 점, 그리고 위와 같은 이해방식을 가지고 있어야 새로운 연구들도 가능하지 않을까 생각한다는 점 공유드려봅니다.
❤1
초기 투자 집중하는 펀드에서 받은 내용중 일부...
Software multiples have come down a bit in the past quarter to a median of 5.4x forward revenue, with 8x for the top quartile.
(ImageSource: BVP Cloud Index as of 10/3/23) 즉...소프트웨어 회사들 기업가치는 미래 12개월 매출의 5.4배... 아주 톱 회사들은 8배 정도로 내려왔다. 얼마전 100X 이상까지 올라가던 시절은 잊는게 좋다.
2021년 Q4부터 투자는 계속 줄고 있다. 지난분기 (Q3, 2024) 에는 $73B 이 투자되었는데 그것은 Q4 2019 이후 제일 낮은 금액이였고 또 10,095 회사가 투자 받았는데 Q3 2020 년 이후 제일 낮았다.
시드에서 Series A 받는게 무지 어려워졌다. 이젠 A 라운드 받으려면 약 월매출 5천만원 이상 넘으면서 이익을 내기 시작하던지... 가까워야된다.
---
이게 지금 미국 초기 기업들 사정이다. 좀 더 큰 기업들은 여기서 선을 이어서 이해하면 얼만큼 어려운지 알기 쉽다.
그래서...
1) 계속 추가 펀딩이 되겠지 생각하고 사업을 하면 안된다. 무조건 가지고 있는 자금으로 이익을 내면서 커야된다. 그러면 펀딩이 된다.
2) 높은 밸류에션 시절이 돌아오겠지 기대감은 저버려라.
3) 좋은시절에 높은 밸류에션 받았는데 추가 투자금이 꼭 필요하면 절반이상 밸류에션 내려야된다는 각오가 있어야된다.
4) 그러나 늘 예외는 있다. 그 예외가 되면 감사하라. 대신 될거라 생각은 하지 말자.
Software multiples have come down a bit in the past quarter to a median of 5.4x forward revenue, with 8x for the top quartile.
(ImageSource: BVP Cloud Index as of 10/3/23) 즉...소프트웨어 회사들 기업가치는 미래 12개월 매출의 5.4배... 아주 톱 회사들은 8배 정도로 내려왔다. 얼마전 100X 이상까지 올라가던 시절은 잊는게 좋다.
2021년 Q4부터 투자는 계속 줄고 있다. 지난분기 (Q3, 2024) 에는 $73B 이 투자되었는데 그것은 Q4 2019 이후 제일 낮은 금액이였고 또 10,095 회사가 투자 받았는데 Q3 2020 년 이후 제일 낮았다.
시드에서 Series A 받는게 무지 어려워졌다. 이젠 A 라운드 받으려면 약 월매출 5천만원 이상 넘으면서 이익을 내기 시작하던지... 가까워야된다.
---
이게 지금 미국 초기 기업들 사정이다. 좀 더 큰 기업들은 여기서 선을 이어서 이해하면 얼만큼 어려운지 알기 쉽다.
그래서...
1) 계속 추가 펀딩이 되겠지 생각하고 사업을 하면 안된다. 무조건 가지고 있는 자금으로 이익을 내면서 커야된다. 그러면 펀딩이 된다.
2) 높은 밸류에션 시절이 돌아오겠지 기대감은 저버려라.
3) 좋은시절에 높은 밸류에션 받았는데 추가 투자금이 꼭 필요하면 절반이상 밸류에션 내려야된다는 각오가 있어야된다.
4) 그러나 늘 예외는 있다. 그 예외가 되면 감사하라. 대신 될거라 생각은 하지 말자.