1. Chipmakers: FlashAttention reduces the computational and memory requirements for attention mechanisms in transformer models, driving the demand for more efficient and specialized hardware to further optimize the performance of these models**[11](https://www.ft.com/content/8352e84b-284c-4ebe-a7c1-5e2093566e0d)**. This could lead to innovations in GPU architectures and the development of specialized AI accelerators.
This could lead to innovations in GPU architectures and the development of specialized AI accelerators that are better suited for handling the reduced computational and memory requirements of attention mechanisms in transformer models.Some components that could be affected include:
1. Memory hierarchy: FlashAttention exploits the asymmetric GPU memory hierarchy, which could lead to the development of new memory architectures that further optimize memory access patterns for attention mechanisms**[4](https://openreview.net/forum?id=H4DqfPSibmx)**.
2. Parallelism: FlashAttention improves parallelism in attention computation, which could influence the design of GPU architectures and AI accelerators to better support parallel processing for transformer models**[1](https://arxiv.org/pdf/2205.14135.pdf)**.
3. Communication and synchronization: FlashAttention reduces communication and synchronization between warps, which could impact the design of interconnects and synchronization mechanisms in GPU and AI accelerator architectures**[1](https://arxiv.org/pdf/2205.14135.pdf)**.
2. LLM makers: FlashAttention can help improve the efficiency of large language models (LLMs) by speeding up training times, allowing for longer context lengths, and reducing training costs**[1](https://arxiv.org/abs/2205.14135)**. This can lead to the development of more powerful LLMs and the creation of new AI services based on these models.
- By speeding up the attention mechanism and reducing memory requirements, FlashAttention allows for longer context lengths during training, which can lead to better model performance**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**. This efficiency enables LLM makers to train more powerful models without sacrificing quality, as FlashAttention computes exact attention without any approximation**[3](https://arxiv.org/pdf/2205.14135.pdf)**.
- FlashAttention can also help reduce the cost for training, scaling, deploying, or fine-tuning LLMs by offering faster training times, longer context lengths, and reduced training costs**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**. This is achieved through its improved memory efficiency, which allows it to scale to much longer sequence lengths, and its faster training times compared to standard attention mechanisms**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**.
- FlashAttention could affect the open-source ecosystem by providing an efficient alternative to standard attention mechanisms. Its open-source implementation**[11](https://aws.amazon.com/blogs/machine-learning/new-performance-improvements-in-amazon-sagemaker-model-parallel-library/)** can be integrated into various open-source libraries and frameworks, leading to wider adoption and further development of the algorithm. This can drive innovation and efficiency across various industries and players, leading to the development of more powerful AI models and services.
3. Infrastructure builders for LLMs (e.g., Mosaic ML): By integrating FlashAttention into their infrastructure offerings, these companies can enable more efficient and cost-effective training and deployment of LLMs**[15](https://www.mosaicml.com/blog/mpt-7b)**. This can lead to wider adoption of AI technologies and more advanced AI services.
This could lead to innovations in GPU architectures and the development of specialized AI accelerators that are better suited for handling the reduced computational and memory requirements of attention mechanisms in transformer models.Some components that could be affected include:
1. Memory hierarchy: FlashAttention exploits the asymmetric GPU memory hierarchy, which could lead to the development of new memory architectures that further optimize memory access patterns for attention mechanisms**[4](https://openreview.net/forum?id=H4DqfPSibmx)**.
2. Parallelism: FlashAttention improves parallelism in attention computation, which could influence the design of GPU architectures and AI accelerators to better support parallel processing for transformer models**[1](https://arxiv.org/pdf/2205.14135.pdf)**.
3. Communication and synchronization: FlashAttention reduces communication and synchronization between warps, which could impact the design of interconnects and synchronization mechanisms in GPU and AI accelerator architectures**[1](https://arxiv.org/pdf/2205.14135.pdf)**.
2. LLM makers: FlashAttention can help improve the efficiency of large language models (LLMs) by speeding up training times, allowing for longer context lengths, and reducing training costs**[1](https://arxiv.org/abs/2205.14135)**. This can lead to the development of more powerful LLMs and the creation of new AI services based on these models.
- By speeding up the attention mechanism and reducing memory requirements, FlashAttention allows for longer context lengths during training, which can lead to better model performance**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**. This efficiency enables LLM makers to train more powerful models without sacrificing quality, as FlashAttention computes exact attention without any approximation**[3](https://arxiv.org/pdf/2205.14135.pdf)**.
- FlashAttention can also help reduce the cost for training, scaling, deploying, or fine-tuning LLMs by offering faster training times, longer context lengths, and reduced training costs**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**. This is achieved through its improved memory efficiency, which allows it to scale to much longer sequence lengths, and its faster training times compared to standard attention mechanisms**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**.
- FlashAttention could affect the open-source ecosystem by providing an efficient alternative to standard attention mechanisms. Its open-source implementation**[11](https://aws.amazon.com/blogs/machine-learning/new-performance-improvements-in-amazon-sagemaker-model-parallel-library/)** can be integrated into various open-source libraries and frameworks, leading to wider adoption and further development of the algorithm. This can drive innovation and efficiency across various industries and players, leading to the development of more powerful AI models and services.
3. Infrastructure builders for LLMs (e.g., Mosaic ML): By integrating FlashAttention into their infrastructure offerings, these companies can enable more efficient and cost-effective training and deployment of LLMs**[15](https://www.mosaicml.com/blog/mpt-7b)**. This can lead to wider adoption of AI technologies and more advanced AI services.
Ft
Subscribe to read | Financial Times
News, analysis and comment from the Financial Times, the worldʼs leading global business publication
4. LLM-using services (e.g., Perplexity): Services that rely on LLMs, such as natural language processing, machine translation, text summarization, and sentiment analysis, can benefit from the improved performance and efficiency provided by FlashAttention**[6](https://www.wsj.com/articles/memory-chip-makers-struggle-with-decline-in-demand-and-price-falls-11665141235)**. Faster training times and longer context lengths can lead to better performance in these tasks, enabling the development of more advanced AI services.
WSJ
Memory Chip Makers Struggle With Declines in Demand, Price
Memory chips provide a key barometer of health for the semiconductor industry, which is reckoning with a sudden shift from pandemic strength to an abrupt drop-off in demand.
LLM(Large Language Model) 학습 및 서비스 운영에 관심이 많은 AI 엔지니어 분들을 초대합니다.
LLM 모델을 실제로 학습시키고 서비스를 제공하기 위해서는 많은 어려움들이 존재합니다. 실제로 LLM 학습시켜 서비스를 만들어본 경험들을 나눠봐요 🙂
세션 참가 신청하기: https://lu.ma/agitownjuly2
해당 세션에서는 아래 내용에 대해서 다룰 예정입니다.
1️⃣ 자체 LLM 학습의 장단점: LLM 직접 학습시켜야할까요 아니면 Third Party 솔루션을 써야할까요? 직접 학습하게 되면 특정 요구사항에 맞게 모델을 수정하고, 모델 디버깅이 편하지만, 높은 학습비용과 고품질의 데이터 가공 등 신경써야할 부분이 많습니다.
2️⃣ Quality, Cost, Latency 간의 트레이드오프: 비용 집약적인 GPU 추론부터 비용 관리를 위한 엔지니어링의 기본에 이르기까지 성능, 비용, 시간 간의 균형을 맞추는 방법을 살펴봅니다.
3️⃣ 신뢰, 안정성 및 개인 정보 보호: LLM에서 흔히 발생하는 'Hallucination'의 함정, 좋은 데이터를 얻기 위한 기술, 개인 정보를 보호하면서 높은 데이터 품질을 유지하는 방법에 대해 알아보세요. 또한 모델 편향성, 독성, 품질 관리의 복잡성과 모델 설명 가능성 및 투명성 문제에 대해서도 논의할 예정입니다.
4️⃣ Latency: 지연 시간이 문제가 되는 이유는 무엇이며 어떻게 해결할 수 있을까요? Transformer 아키텍처의 한계와 the potential of models like sequential state space models, Flash Attention Model의 잠재력에 대해 알아보세요.
5️⃣ 모델 학습 방법 및 엔지니어링: GPT-4에서 전문가 혼합 모델(MoE)을 성공적으로 구현한 사례, 다중 쿼리 주의(MQA)의 잠재력, 그리고 모델의 미래에 대한 예측에 대해 알아보세요.
해당 세션 관련 읽을거리
1. [Unleashing LLMs in Production: Challenges & Opportunities. Chip Huyen, Amjad Masad & Michele Catasta](https://youtu.be/ByhMpN2iSbc)
2. [Real-time machine learning: challenges and solutions](https://huyenchip.com/.../real-time-machine-learning...)
3. [Building LLM applications for production](https://huyenchip.com/2023/04/11/llm-engineering.html)
4. [Efficiently Scaling and Deploying LLMs // Hanlin Tang // LLM's in Production Conference](https://youtu.be/AVccFl8-5-8)
5. [Cost Optimization and Performance // LLMs in Production Conference Panel Discussion 2](https://youtu.be/wxq1ZeAM9fc)
6. [Solving the Last Mile Problem of Foundation Models with Data-Centric AI](https://youtu.be/-oDgV6q6KtI...)
1. [Everyone will soon be using foundation models (FMs) like GPT-4.](https://threadreaderapp.com/thread/1642666624091312129.html)
7. [Debugging LLMs: Best Practices for Better Prompts and Data Quality](https://youtu.be/OsP1PAKyHq0)
LLM 모델을 실제로 학습시키고 서비스를 제공하기 위해서는 많은 어려움들이 존재합니다. 실제로 LLM 학습시켜 서비스를 만들어본 경험들을 나눠봐요 🙂
세션 참가 신청하기: https://lu.ma/agitownjuly2
해당 세션에서는 아래 내용에 대해서 다룰 예정입니다.
1️⃣ 자체 LLM 학습의 장단점: LLM 직접 학습시켜야할까요 아니면 Third Party 솔루션을 써야할까요? 직접 학습하게 되면 특정 요구사항에 맞게 모델을 수정하고, 모델 디버깅이 편하지만, 높은 학습비용과 고품질의 데이터 가공 등 신경써야할 부분이 많습니다.
2️⃣ Quality, Cost, Latency 간의 트레이드오프: 비용 집약적인 GPU 추론부터 비용 관리를 위한 엔지니어링의 기본에 이르기까지 성능, 비용, 시간 간의 균형을 맞추는 방법을 살펴봅니다.
3️⃣ 신뢰, 안정성 및 개인 정보 보호: LLM에서 흔히 발생하는 'Hallucination'의 함정, 좋은 데이터를 얻기 위한 기술, 개인 정보를 보호하면서 높은 데이터 품질을 유지하는 방법에 대해 알아보세요. 또한 모델 편향성, 독성, 품질 관리의 복잡성과 모델 설명 가능성 및 투명성 문제에 대해서도 논의할 예정입니다.
4️⃣ Latency: 지연 시간이 문제가 되는 이유는 무엇이며 어떻게 해결할 수 있을까요? Transformer 아키텍처의 한계와 the potential of models like sequential state space models, Flash Attention Model의 잠재력에 대해 알아보세요.
5️⃣ 모델 학습 방법 및 엔지니어링: GPT-4에서 전문가 혼합 모델(MoE)을 성공적으로 구현한 사례, 다중 쿼리 주의(MQA)의 잠재력, 그리고 모델의 미래에 대한 예측에 대해 알아보세요.
해당 세션 관련 읽을거리
1. [Unleashing LLMs in Production: Challenges & Opportunities. Chip Huyen, Amjad Masad & Michele Catasta](https://youtu.be/ByhMpN2iSbc)
2. [Real-time machine learning: challenges and solutions](https://huyenchip.com/.../real-time-machine-learning...)
3. [Building LLM applications for production](https://huyenchip.com/2023/04/11/llm-engineering.html)
4. [Efficiently Scaling and Deploying LLMs // Hanlin Tang // LLM's in Production Conference](https://youtu.be/AVccFl8-5-8)
5. [Cost Optimization and Performance // LLMs in Production Conference Panel Discussion 2](https://youtu.be/wxq1ZeAM9fc)
6. [Solving the Last Mile Problem of Foundation Models with Data-Centric AI](https://youtu.be/-oDgV6q6KtI...)
1. [Everyone will soon be using foundation models (FMs) like GPT-4.](https://threadreaderapp.com/thread/1642666624091312129.html)
7. [Debugging LLMs: Best Practices for Better Prompts and Data Quality](https://youtu.be/OsP1PAKyHq0)
lu.ma
AGI Town in Seoul 7월 밋업 (7월 21일 금요일 6:30 pm) 신청 · Luma
안녕하세요. AGI Town입니다.
이번 7월 밋업은 각 주제별로 경험과 고민의 깊이가 깊은 분들끼리 심도있는 대화를 나눌 수 있는 포맷을 준비해봤습니다. 해당 세션에 참여해서 적극적으로 토론에 참여해주실 분은 컨트리뷰터로 신청해주시고 컨트리뷰터로 신청해주시지 않은 세션은 모두 참여자로 구분합니다.
컨트리뷰터: 경험, 지식을 나눠서 세션의 내용을 풍성하게...
이번 7월 밋업은 각 주제별로 경험과 고민의 깊이가 깊은 분들끼리 심도있는 대화를 나눌 수 있는 포맷을 준비해봤습니다. 해당 세션에 참여해서 적극적으로 토론에 참여해주실 분은 컨트리뷰터로 신청해주시고 컨트리뷰터로 신청해주시지 않은 세션은 모두 참여자로 구분합니다.
컨트리뷰터: 경험, 지식을 나눠서 세션의 내용을 풍성하게...
Like this newsletter, unsexy business. Wait what? I believe earning money and being profitable is sexy.
https://maily.so/unsexybusinesskr
https://maily.so/unsexybusinesskr
언섹시 비즈니스
화려하지 않은 비즈니스들을 소개드립니다.
음악 진짜 좋아하는 애요 ㅎㅎ Like her message.
https://youtu.be/HDtNYi5bnms
https://youtu.be/HDtNYi5bnms
YouTube
[인터뷰] "음악 진짜 좋아하는 애" 손열음의 '새로운 도전' / JTBC 뉴스룸
손끝으로 감동을 전하는 건반 위의 젊은 거장, 세계적인 피아니스트 손열음 씨 모셨습니다. 반갑습니다. '젊은 거장' 이런 호칭 들으실 때 어떤 느낌이 드세요?
▶ 기사 전문 https://news.jtbc.co.kr/article/article.aspx?news_id=NB12134211
▶ 시리즈 더 보기 https://www.youtube.com/playlist?list=PL3Eb1N33oAXhNHGe-ljKHJ5c0gjiZkqDk
#손열음 #피아니스트…
▶ 기사 전문 https://news.jtbc.co.kr/article/article.aspx?news_id=NB12134211
▶ 시리즈 더 보기 https://www.youtube.com/playlist?list=PL3Eb1N33oAXhNHGe-ljKHJ5c0gjiZkqDk
#손열음 #피아니스트…
Back in 1997, Netflix was just 6 people in a 1000 sqft office in Santa Cruz. Today, the business is worth $200b+, has 10k+ employees globally, and is the world's largest streaming platform with 230m+ subscribers. Foundation Capital was lucky to be the first investor in the company and witness the journey from inception through IPO.
I recently sat down with my friend Jim Cook, one of the co-founders of Netflix, to hear some stories about the company in the early days. Below are a few lessons that will hopefully be valuable to those in the tech and startup ecosystem:
- Obsess over your customers - Netflix truly obsessed over making their early customers happy. They would never ask the question "would you pay for this?" (because the answer is often a lazy yes) but rather "what would make you rave about this to your friends?" Despite having many opportunities to sell ads on the red envelopes they shipped DVDs in, they always refused, citing that ads would only ruin the experience. The company always focused on creating experiences that made people rave, leading to insane organic growth in the early years.
- Do things that don't scale - in the early days of Netflix, Jim would spend hours stuffing envelopes with DVDs and hauling packages to and from the post office. The early "machine learning" recommendations for the website were literally crowdsourced from small focus groups on Usenet forums.
- Word-of-mouth is the best GTM strategy - Netflix did not spend a dime on advertising until 2005, 8 years after its founding! They focused entirely on word-of-mouth to acquire customers and ensured they had very strong product-market fit before scaling paid acquisition.
- Compensate innovatively and generously - Today, Netflix is well known for paying top talent well above market rates. In the early days, they were the first major company to offer "flexible compensation" allowing new hires to chose their ideal mix of base, bonus and equity. Flexible and generous compensation packages have allowed Netflix to hire and retain the very best in the industry.
- Have multiple "why now" moments - Netflix made 2 (then) non-obvious and big bets. The first was on DVDs usurping VHS as the primary video storage format. The second was on eCommerce taking over brick-and-mortar as the best channel for acquiring customers in the video rental segment. The company rode multiple tailwinds, ensuring that even if one didn't pan out, the business would be able to succeed.
- Carrot not stick - the core philosophy of the company was to never piss off users, no matter what. This meant having systems in place that incented users and never penalized them. For example, early users were never fined for returning a DVD late; instead they simply couldn't get their next DVD until they returned their old one.
https://www.linkedin.com/feed/update/urn:li:activity:7086870579282104320/
I recently sat down with my friend Jim Cook, one of the co-founders of Netflix, to hear some stories about the company in the early days. Below are a few lessons that will hopefully be valuable to those in the tech and startup ecosystem:
- Obsess over your customers - Netflix truly obsessed over making their early customers happy. They would never ask the question "would you pay for this?" (because the answer is often a lazy yes) but rather "what would make you rave about this to your friends?" Despite having many opportunities to sell ads on the red envelopes they shipped DVDs in, they always refused, citing that ads would only ruin the experience. The company always focused on creating experiences that made people rave, leading to insane organic growth in the early years.
- Do things that don't scale - in the early days of Netflix, Jim would spend hours stuffing envelopes with DVDs and hauling packages to and from the post office. The early "machine learning" recommendations for the website were literally crowdsourced from small focus groups on Usenet forums.
- Word-of-mouth is the best GTM strategy - Netflix did not spend a dime on advertising until 2005, 8 years after its founding! They focused entirely on word-of-mouth to acquire customers and ensured they had very strong product-market fit before scaling paid acquisition.
- Compensate innovatively and generously - Today, Netflix is well known for paying top talent well above market rates. In the early days, they were the first major company to offer "flexible compensation" allowing new hires to chose their ideal mix of base, bonus and equity. Flexible and generous compensation packages have allowed Netflix to hire and retain the very best in the industry.
- Have multiple "why now" moments - Netflix made 2 (then) non-obvious and big bets. The first was on DVDs usurping VHS as the primary video storage format. The second was on eCommerce taking over brick-and-mortar as the best channel for acquiring customers in the video rental segment. The company rode multiple tailwinds, ensuring that even if one didn't pan out, the business would be able to succeed.
- Carrot not stick - the core philosophy of the company was to never piss off users, no matter what. This meant having systems in place that incented users and never penalized them. For example, early users were never fined for returning a DVD late; instead they simply couldn't get their next DVD until they returned their old one.
https://www.linkedin.com/feed/update/urn:li:activity:7086870579282104320/
Linkedin
Vinay Iyengar on LinkedIn: Back in 1997, Netflix was just 6 people in a 1000 sqft office in Santa…
Back in 1997, Netflix was just 6 people in a 1000 sqft office in Santa Cruz. Today, the business is worth $200b+, has 10k+ employees globally, and is the…
https://airtable.com/shrzPkZvLTZtcsnbI/tbl3DWXXfhWZ2sTNT
A database of how the 42 top consumer brands (e.g. TikTok, DoorDash, McDonald’s, H&M, Amazon, Airbnb, Uber) handle attribution for their growth and marketing work.
A database of how the 42 top consumer brands (e.g. TikTok, DoorDash, McDonald’s, H&M, Amazon, Airbnb, Uber) handle attribution for their growth and marketing work.
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
김창준님
<불확실성이 높을 때 효과적인 전략>
== generative sequence의 중요성 ==
10개의 동전이 있다. 그걸 던져서 모든 동전이 앞면이 나오게 하고 싶다. 어떤 전략이 좋은가?
* 동시에 10개를 던진다. 모두 앞면 나올 때까지. 평균 기대 횟수 1024회
* 하나씩 앞면 나올 때까지 해서 모두 10개를 순서대로 던진다. 평균 기대 횟수 20회
한번에 10개 던지려면 약 8초(흩어진 동전 모으고, 던지고, 갯수 확인하기) : 2시간 16분 32초
한번에 1개 던지려면 약 2초(동전 집어서 던지고 확인) : 40초
만약 동전갯수가 30개라면?
30개 동시: 약 272년
1개씩 순서대로: 2분
== asymmetry와 non-linearity의 중요성 ==
우리가 1미터에서 1000번 뛰어 내렸을 때 오는 데미지 총합과 1000미터에서 1번 뛰어 내렸을 때 오는 데미지는 어떻게 다를까?
예산 1000만원짜리 프로젝트를 1000개 수행해서 나온 초과비용 총합과 100억(1000만원*1000개)짜리 프로젝트 하나를 수행해서 나온 초과비용을 비교하면 어떨까?
이 사실을 고려할 때 우리는 어떤 전략을 쓰는 것이 효과적일까?
<불확실성이 높을 때 효과적인 전략>
== generative sequence의 중요성 ==
10개의 동전이 있다. 그걸 던져서 모든 동전이 앞면이 나오게 하고 싶다. 어떤 전략이 좋은가?
* 동시에 10개를 던진다. 모두 앞면 나올 때까지. 평균 기대 횟수 1024회
* 하나씩 앞면 나올 때까지 해서 모두 10개를 순서대로 던진다. 평균 기대 횟수 20회
한번에 10개 던지려면 약 8초(흩어진 동전 모으고, 던지고, 갯수 확인하기) : 2시간 16분 32초
한번에 1개 던지려면 약 2초(동전 집어서 던지고 확인) : 40초
만약 동전갯수가 30개라면?
30개 동시: 약 272년
1개씩 순서대로: 2분
== asymmetry와 non-linearity의 중요성 ==
우리가 1미터에서 1000번 뛰어 내렸을 때 오는 데미지 총합과 1000미터에서 1번 뛰어 내렸을 때 오는 데미지는 어떻게 다를까?
예산 1000만원짜리 프로젝트를 1000개 수행해서 나온 초과비용 총합과 100억(1000만원*1000개)짜리 프로젝트 하나를 수행해서 나온 초과비용을 비교하면 어떨까?
이 사실을 고려할 때 우리는 어떤 전략을 쓰는 것이 효과적일까?
👍2
#AI실제사용후기
본원에서 실제로 AI 기술을 적용해서 사용하는 기술은 Lunit insight 뿐이다. (coreline software로 lung nodule판독도 하나, 이건 영상의학과만 쓰고 있음)
해당 기술을 썼을때의 효용성에 대해서 입사할때 이사장님이 소개하기로는, 간호사들이 그렇게 좋아한다고 했다. 사실 X-ray중 어디가 병변인지 잘 모르는 간호사도 많았는데, 해당 software가 들어오고 나서는 어디가 병변인지 더 잘 알게 되었다고 한다.
개인적인 후기로 외래에서 사용할때, 가장 효용가치가 있다고 느낄때는 환자 설명용이다. 생각보다 환자들이 검사를 하면 설명을 듣고싶어하지만, 설명에 할애할 시간도 그렇게 많지 않을분더러 사진을 보고 설명한다고 해도 정확하게 이해하지 못하는 경우가 많다.
이때 그림을 하나 붙여주면서 "저희 AI software도 쓰고 있는데, 여기가 문제입니다." 라고 하면 갑자기 이해가 안가던 사람도 이해가 가는것 같은 표정을 짓는다.
이건 어떤 효과가 있냐면, 보통 환자들이 빅5미만 종합병원은 약간 잡병원이라는 인식이 기저에 깔려있는데, 이런 환경에서 "객관적인 지표"를 대변한다. (망할 저평가 의사인력..) 그러면서 신뢰도가 높은 병원의 모습을 보여줄 수 있고, 그 이후 내가 하는 말의 신뢰성이 높아지는 효과를 가져온다.
또, 환자가 폐렴이 있었다가 치료가 된다거나 하면 병변이 없어지는데 CT에서 내눈에 (전문의) 확연히 좋아지는 병변도 GGO인 경우는 환자들에게 호전추세인지 뚜렷하지 않은경우가 종종있다. 그럴때 "lunit insight를 꺼내서 빨갛던 병변이 이렇게 없어졌다." 하면 갑자기 눈이 초롱초롱해지면서 신뢰를 하기 시작한다.
요즘은 그런 설명을 몇번 들어서인지, 주변 친구들 (대학병원 조교수)에게 간 환자들이 "이병원은 AI software 안쓰나요?"라고 묻는다고 한다. 앞으로 "신뢰성"이라는 측면에서 AI software의 효용성이, 그 가치를 증명하지 않을까 싶다.
sensitivity, specificity가 중요하긴 하지만, disease severity와의 alignment가 이런면에서 더 중요할지도...
p.s. disease severity와의 상관성은 lunit insight가 임상적으로 쓸정도로 정확하지는 않다. 다만, 처음과 끝에서 설명용으로 보여주기엔 충분한듯하다.
형준님 페북 https://www.facebook.com/100001635080111/posts/pfbid0pSJPEPrSBAjUgSkGxBcRYnVtwvbXFajf1yCMAsATd1yq57jxECUMoUCb39tKDhFSl/?mibextid=cr9u03
본원에서 실제로 AI 기술을 적용해서 사용하는 기술은 Lunit insight 뿐이다. (coreline software로 lung nodule판독도 하나, 이건 영상의학과만 쓰고 있음)
해당 기술을 썼을때의 효용성에 대해서 입사할때 이사장님이 소개하기로는, 간호사들이 그렇게 좋아한다고 했다. 사실 X-ray중 어디가 병변인지 잘 모르는 간호사도 많았는데, 해당 software가 들어오고 나서는 어디가 병변인지 더 잘 알게 되었다고 한다.
개인적인 후기로 외래에서 사용할때, 가장 효용가치가 있다고 느낄때는 환자 설명용이다. 생각보다 환자들이 검사를 하면 설명을 듣고싶어하지만, 설명에 할애할 시간도 그렇게 많지 않을분더러 사진을 보고 설명한다고 해도 정확하게 이해하지 못하는 경우가 많다.
이때 그림을 하나 붙여주면서 "저희 AI software도 쓰고 있는데, 여기가 문제입니다." 라고 하면 갑자기 이해가 안가던 사람도 이해가 가는것 같은 표정을 짓는다.
이건 어떤 효과가 있냐면, 보통 환자들이 빅5미만 종합병원은 약간 잡병원이라는 인식이 기저에 깔려있는데, 이런 환경에서 "객관적인 지표"를 대변한다. (망할 저평가 의사인력..) 그러면서 신뢰도가 높은 병원의 모습을 보여줄 수 있고, 그 이후 내가 하는 말의 신뢰성이 높아지는 효과를 가져온다.
또, 환자가 폐렴이 있었다가 치료가 된다거나 하면 병변이 없어지는데 CT에서 내눈에 (전문의) 확연히 좋아지는 병변도 GGO인 경우는 환자들에게 호전추세인지 뚜렷하지 않은경우가 종종있다. 그럴때 "lunit insight를 꺼내서 빨갛던 병변이 이렇게 없어졌다." 하면 갑자기 눈이 초롱초롱해지면서 신뢰를 하기 시작한다.
요즘은 그런 설명을 몇번 들어서인지, 주변 친구들 (대학병원 조교수)에게 간 환자들이 "이병원은 AI software 안쓰나요?"라고 묻는다고 한다. 앞으로 "신뢰성"이라는 측면에서 AI software의 효용성이, 그 가치를 증명하지 않을까 싶다.
sensitivity, specificity가 중요하긴 하지만, disease severity와의 alignment가 이런면에서 더 중요할지도...
p.s. disease severity와의 상관성은 lunit insight가 임상적으로 쓸정도로 정확하지는 않다. 다만, 처음과 끝에서 설명용으로 보여주기엔 충분한듯하다.
형준님 페북 https://www.facebook.com/100001635080111/posts/pfbid0pSJPEPrSBAjUgSkGxBcRYnVtwvbXFajf1yCMAsATd1yq57jxECUMoUCb39tKDhFSl/?mibextid=cr9u03
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
❤1
빠르게 불행해지는 법
1. 늦게 자고, 늦게 일어난다. 가능하면 햇빛 보지 않고, 어두운 방에 있는다.
2. 건강한 식사하지 않는다. 자연식은 먹지 말고, 인스턴트나 배달음식 위주로 먹는다.
3. 운동을 하지 않는다. 스트레칭하지 않는다. 가급적 누워있는다.
4. 친구들 만나지 않는다. 혼자서 휴대폰 만지는 시간을 늘린다. 휴대폰으로는 인스타그램, 유튜브를 반복하며 시청한다.
5. 집을 정리하지 않는다. 옷을 입은 것은 아무 데나 내팽개치고, 절대로 접지 않는다.
6. 설거지와 빨래를 하지 않는다. 가능한 수준에서 최대한 미룬다.
7. 쓰레기 청소도 하지 않는다. 가능한 수준에서 최대한 미룬다.
8. 앞으로 뭐 할지 보다, 과거에 대한 생각들을 더 많이 한다.
9. 내가 잘되지 않는 이유는 내가 아닌 밖에 있다고 생각한다.
10. 어차피 아무리 노력해도 바뀌는 것이 없다고 생각한다.
나는 이 반대로 살기 위해서 노력한다. 천천히 행복은 해질 수 있다고 생각한다.
1. 늦게 자고, 늦게 일어난다. 가능하면 햇빛 보지 않고, 어두운 방에 있는다.
2. 건강한 식사하지 않는다. 자연식은 먹지 말고, 인스턴트나 배달음식 위주로 먹는다.
3. 운동을 하지 않는다. 스트레칭하지 않는다. 가급적 누워있는다.
4. 친구들 만나지 않는다. 혼자서 휴대폰 만지는 시간을 늘린다. 휴대폰으로는 인스타그램, 유튜브를 반복하며 시청한다.
5. 집을 정리하지 않는다. 옷을 입은 것은 아무 데나 내팽개치고, 절대로 접지 않는다.
6. 설거지와 빨래를 하지 않는다. 가능한 수준에서 최대한 미룬다.
7. 쓰레기 청소도 하지 않는다. 가능한 수준에서 최대한 미룬다.
8. 앞으로 뭐 할지 보다, 과거에 대한 생각들을 더 많이 한다.
9. 내가 잘되지 않는 이유는 내가 아닌 밖에 있다고 생각한다.
10. 어차피 아무리 노력해도 바뀌는 것이 없다고 생각한다.
나는 이 반대로 살기 위해서 노력한다. 천천히 행복은 해질 수 있다고 생각한다.
김창준님
내가 사업을 하려고 하는데, X를 먼저 제대로 해야할 것 같다. 이럴 때 도움이 되는 확률적 사고 기법.
"X를 잘 했는데도 사업이 망할 확률"과 "X를 잘 못해서 사업이 망할 확률"을 비교해 본다. 만약 전자가 후자보다 수십, 수백배 높다고 느껴지면 X에 쓸 신경을 다른 데로 돌려야 한다.
Ask myself am I working on right problem?
내가 사업을 하려고 하는데, X를 먼저 제대로 해야할 것 같다. 이럴 때 도움이 되는 확률적 사고 기법.
"X를 잘 했는데도 사업이 망할 확률"과 "X를 잘 못해서 사업이 망할 확률"을 비교해 본다. 만약 전자가 후자보다 수십, 수백배 높다고 느껴지면 X에 쓸 신경을 다른 데로 돌려야 한다.
Ask myself am I working on right problem?
내일 저녁 AI 밋업에서 GPT-4 아키텍쳐에 대해 이야기하려고 했지만, Llama-2 Model로 급선회하게 되서 조사했던 내용 간단히 공유드립니다.
GPT-4 아키텍쳐 유출과 관련된 간단한 정리
1. 전문가 혼합 모델(MoE)
뛰어난 성능을 유지하면서 합리적인 비용을 보장하기 위해 OpenAI는 GPT-4에서 전문가 혼합 모델(MoE)을 구현했습니다. 모델 내에서 각각 약 1,100억 개의 다층 퍼셉트론(MLP) 파라미터로 구성된 16명의 전문가를 활용함으로써 OpenAI는 리소스 할당을 효과적으로 최적화했습니다. 특히 각 포워드 패스 동안 두 명의 전문가만 라우팅하여 결과의 저하 없이 계산 요구 사항을 최소화했습니다. 이러한 혁신적인 접근 방식은 모델의 효율성과 비용 효과를 극대화하려는 OpenAI의 노력을 보여줍니다.
2. 간소화된 MoE 라우팅 알고리즘
이 모델은 종종 각 토큰을 처리할 전문가를 선택하기 위해 고급 라우팅 알고리즘을 탐색하지만, 현재 GPT-4 모델에서 OpenAI의 접근 방식은 더 간단한 것으로 알려졌습니다. AI가 사용하는 라우팅 알고리즘은 비교적 간단하지만 그럼에도 불구하고 효과적인 것으로 알려져 있습니다. 약 550억 개의 관심 매개변수가 공유되어 모델 내에서 적절한 전문가에게 토큰을 효율적으로 분배할 수 있습니다.
3. 효율적인 추론
GPT-4의 추론 프로세스는 효율성과 계산 능력을 보여줍니다. 단일 토큰을 생성하는 각 포워드 패스는 약 2,800억 개의 파라미터와 560 TFLOP(초당 테라 부동소수점 연산)을 사용합니다. 이는 순수 고밀도 모델에서 포워드 패스당 1.8조 개의 파라미터와 3,700 TFLOP을 사용하는 GPT-4의 엄청난 규모와는 완전히 대조적입니다. 리소스의 효율적인 사용은 과도한 계산 요구 사항 없이 최적의 성능을 달성하기 위한 OpenAI의 헌신을 보여줍니다.
4. 광범위한 훈련 데이터 세트
GPT-4는 약 13조 개의 토큰으로 구성된 방대한 데이터 세트로 학습되었습니다. 이러한 토큰에는 고유 토큰과 에포크 번호를 설명하는 토큰이 모두 포함되어 있다는 점에 유의해야 합니다. 학습 과정에는 텍스트 기반 데이터에 대한 두 개의 에포크와 코드 기반 데이터에 대한 네 개의 에포크가 포함됩니다. OpenAI는 모델의 성능을 개선하기 위해 ScaleAI와 내부에서 제공한 수백만 행의 명령어 미세 조정 데이터를 활용했습니다.
5. 8K에서 32K까지 미세 조정을 통한 성능 개선
GPT-4의 사전 훈련 단계에서는 8K 컨텍스트 길이를 사용했습니다. 그 후 모델은 미세 조정을 거쳐 32k 버전으로 완성되었습니다. 이 과정은 사전 학습 단계를 기반으로 모델의 기능을 향상시키고 특정 작업에 맞게 조정합니다.
6. 병렬 처리를 통한 GPU로 확장
OpenAI는 GPT-4의 병렬 처리 기능을 활용하여 A100 GPU의 잠재력을 최대한 활용했습니다. NVLink의 한계인 병렬 처리를 극대화하는 8방향 텐서 병렬 처리를 사용했습니다. 또한 성능을 더욱 향상시키기 위해 15방향 파이프라인 병렬화를 활용했습니다. ZeRo 1단계와 같은 특정 기술이 사용되었을 가능성이 높지만, 정확한 방법론은 아직 공개되지 않았습니다.
7. 훈련 비용 및 활용 과제
GPT-4 훈련은 광범위하고 리소스 집약적인 노력이었습니다. OpenAI는 90일에서 100일 동안 약 25,000개의 A100 GPU를 할당하여 약 32%에서 36%(가장 자주 사용되는)의 활용률로 작동했습니다. 훈련 과정에서 수많은 오류가 발생하여 체크포인트에서 자주 재시작해야 했습니다. A100시간당 1달러로 추산하면 이 훈련에 소요된 비용만 약 6,300만 달러에 달합니다.
8. 전문가 혼합의 장단점
전문가 혼합 모델을 구현하는 데는 몇 가지 장단점이 있습니다. GPT-4의 경우 OpenAI는 더 많은 수의 전문가 대신 16명의 전문가를 선택했습니다. 이러한 결정은 우수한 손실 결과를 달성하는 것과 다양한 작업에서 일반화 가능성을 보장하는 것 사이의 균형을 반영한 것입니다. 전문가가 많으면 작업 일반화 및 융합 측면에서 문제가 발생할 수 있습니다. 전문가 선택에 신중을 기하는 OpenAI의 선택은 안정적이고 강력한 성능에 대한 그들의 약속과 일치합니다.
9. 추론 비용
이전 모델인 1,750억 개의 매개변수를 가진 다빈치 모델과 비교했을 때 GPT-4의 추론 비용은 약 3배 더 높습니다. 이러한 차이는 GPT-4를 지원하는 데 필요한 더 큰 클러스터와 추론 중에 달성되는 낮은 사용률 등 여러 가지 요인에 기인할 수 있습니다. 추정치에 따르면 8k로 GPT-4를 추론할 때 128개의 A100 GPU의 경우 토큰 1,000개당 0.0049센트, 128개의 H100 GPU의 경우 토큰 1,000개당 0.0021센트의 대략적인 비용이 소요되는 것으로 나타났습니다. 이 수치는 비용 최적화를 위해 중요한 고려 사항인 적절한 활용률과 높은 배치 크기를 가정한 것입니다.
10. 다중 쿼리 주의(Multi Query Attention)
OpenAI는 현장에서 널리 사용되는 기술인 다중 쿼리 주의(MQA)를 GPT-4에서도 활용합니다. MQA를 구현하면 모델에 하나의 헤드만 필요하므로 키-값 캐시(KV 캐시)에 필요한 메모리 용량을 크게 줄일 수 있습니다. 이러한 최적화에도 불구하고 32k 배치 GPT-4는 40GB A100 GPU에 수용할 수 없으며 8k는 최대 배치 크기에 제약을 받는다는 점에 유의해야 합니다.
11. 연속 배치
지연 시간과 추론 비용 간의 균형을 맞추기 위해 OpenAI는 가변 배치 크기를 모두 통합합니다.
논의해볼만한 주제
1. 모델 규모, 비용, 훈련의 용이성 사이의 Golden spot은 어디인가?
- GPT-4는 조 단위의 파라미터 모델을 훈련하는 데 필요한 막대한 계산 리소스를 보여줍니다. 연구자는 모델 규모, 비용, 훈련 복잡성 간의 절충점을 신중하게 평가해야 합니다. 전문가 혼합과 같은 아키텍처는 비용 관리에 도움이 되지만 복잡성을 증가시킵니다.
2. 인프라 및 시스템 최적화를 위한 다양한 엔지니어링 방법
2.1. 전문가 혼합(MoE) 사용
- OpenAI의 MoE 사용은 이 접근 방식이 비용과 복잡성을 관리하는 데 유용할 수 있음을 보여주었습니다. MoE 모델을 사용하면 모델 계산의 일부를 여러 전문가에게 분산하여 각 전문가가 문제의 특정 부분에 집중할 수 있습니다. 이를 통해 계산 효율성을 높이고 잠재적으로 모델 성능을 개선할 수 있습니다. 그러나 이러한 전문가를 관리 및 동기화하고 적절한 로드 밸런싱을 보장하는 측면에서 복잡성이 증가합니다.
- OpenAI가 GPT-4에 사용하는 간단한 라우팅 방법은 복잡성보다 효율성의 중요성을 강조합니다. 이는 각 토큰을 라우팅할 전문가를 선택하는 데 항상 고급 알고리즘이 필요한 것은 아니며, 여전히 인상적인 결과를 얻을 수 있음을 나타냅니다.
2.2. GPT-4의 훈련은 ZeRO, 파이프라인 병렬 처리, NVLink와 같은 고급 하드웨어와 같은 최적화에 크게 의존합니다. 훈련을 효율적으로 확장하려면 모델 혁신뿐만 아니라 시스템 수준의 엔지니어링도 필요합니다. 연구자들은 엔드투엔드 시스템 최적화에 집중해야 합니다.
2.3. OpenAI가 GPT-4에 사용하는 간단한 라우팅 방법은 복잡성보다 효율성의 중요성을 강조합니다. 이는 각 토큰을 라우팅할 전문가를 선택하는 데 항상 고급 알고리즘이 필요한 것은 아니며, 여전히 인상적인 결과를 얻을 수 있음을 나타냅니다.
2.4. GPT-4의 추측 디코딩은 확인되지 않았지만 디코딩 프로세스의 속도를 높여 효율성을 높일 수 있는 잠재적인 기술입니다(https://shaankhosla.substack.com/p/gpt-4-architecture-leak-and-explanation) 하지만 예측이 틀릴 경우 배치가 폐기되어 컴퓨팅 리소스가 낭비될 수 있습니다.
3. 정확도와 추론 효율성의 균형을 어떻게 맞출 수 있는가? 앞으로는 어떻게 될 것인가?
GPT-4와 같은 대규모 모델은 높은 정확도를 달성하지만, 계산 비용으로 인해 추론에 많은 비용이 소요될 수 있습니다. 추측 디코딩과 같은 기법은 추론 시 정확도와 속도 사이에서 균형을 유지합니다. 정확도와 효율성의 균형을 맞추려면 철저한 벤치마킹이 필요합니다.
GPT-4 아키텍쳐 유출과 관련된 간단한 정리
1. 전문가 혼합 모델(MoE)
뛰어난 성능을 유지하면서 합리적인 비용을 보장하기 위해 OpenAI는 GPT-4에서 전문가 혼합 모델(MoE)을 구현했습니다. 모델 내에서 각각 약 1,100억 개의 다층 퍼셉트론(MLP) 파라미터로 구성된 16명의 전문가를 활용함으로써 OpenAI는 리소스 할당을 효과적으로 최적화했습니다. 특히 각 포워드 패스 동안 두 명의 전문가만 라우팅하여 결과의 저하 없이 계산 요구 사항을 최소화했습니다. 이러한 혁신적인 접근 방식은 모델의 효율성과 비용 효과를 극대화하려는 OpenAI의 노력을 보여줍니다.
2. 간소화된 MoE 라우팅 알고리즘
이 모델은 종종 각 토큰을 처리할 전문가를 선택하기 위해 고급 라우팅 알고리즘을 탐색하지만, 현재 GPT-4 모델에서 OpenAI의 접근 방식은 더 간단한 것으로 알려졌습니다. AI가 사용하는 라우팅 알고리즘은 비교적 간단하지만 그럼에도 불구하고 효과적인 것으로 알려져 있습니다. 약 550억 개의 관심 매개변수가 공유되어 모델 내에서 적절한 전문가에게 토큰을 효율적으로 분배할 수 있습니다.
3. 효율적인 추론
GPT-4의 추론 프로세스는 효율성과 계산 능력을 보여줍니다. 단일 토큰을 생성하는 각 포워드 패스는 약 2,800억 개의 파라미터와 560 TFLOP(초당 테라 부동소수점 연산)을 사용합니다. 이는 순수 고밀도 모델에서 포워드 패스당 1.8조 개의 파라미터와 3,700 TFLOP을 사용하는 GPT-4의 엄청난 규모와는 완전히 대조적입니다. 리소스의 효율적인 사용은 과도한 계산 요구 사항 없이 최적의 성능을 달성하기 위한 OpenAI의 헌신을 보여줍니다.
4. 광범위한 훈련 데이터 세트
GPT-4는 약 13조 개의 토큰으로 구성된 방대한 데이터 세트로 학습되었습니다. 이러한 토큰에는 고유 토큰과 에포크 번호를 설명하는 토큰이 모두 포함되어 있다는 점에 유의해야 합니다. 학습 과정에는 텍스트 기반 데이터에 대한 두 개의 에포크와 코드 기반 데이터에 대한 네 개의 에포크가 포함됩니다. OpenAI는 모델의 성능을 개선하기 위해 ScaleAI와 내부에서 제공한 수백만 행의 명령어 미세 조정 데이터를 활용했습니다.
5. 8K에서 32K까지 미세 조정을 통한 성능 개선
GPT-4의 사전 훈련 단계에서는 8K 컨텍스트 길이를 사용했습니다. 그 후 모델은 미세 조정을 거쳐 32k 버전으로 완성되었습니다. 이 과정은 사전 학습 단계를 기반으로 모델의 기능을 향상시키고 특정 작업에 맞게 조정합니다.
6. 병렬 처리를 통한 GPU로 확장
OpenAI는 GPT-4의 병렬 처리 기능을 활용하여 A100 GPU의 잠재력을 최대한 활용했습니다. NVLink의 한계인 병렬 처리를 극대화하는 8방향 텐서 병렬 처리를 사용했습니다. 또한 성능을 더욱 향상시키기 위해 15방향 파이프라인 병렬화를 활용했습니다. ZeRo 1단계와 같은 특정 기술이 사용되었을 가능성이 높지만, 정확한 방법론은 아직 공개되지 않았습니다.
7. 훈련 비용 및 활용 과제
GPT-4 훈련은 광범위하고 리소스 집약적인 노력이었습니다. OpenAI는 90일에서 100일 동안 약 25,000개의 A100 GPU를 할당하여 약 32%에서 36%(가장 자주 사용되는)의 활용률로 작동했습니다. 훈련 과정에서 수많은 오류가 발생하여 체크포인트에서 자주 재시작해야 했습니다. A100시간당 1달러로 추산하면 이 훈련에 소요된 비용만 약 6,300만 달러에 달합니다.
8. 전문가 혼합의 장단점
전문가 혼합 모델을 구현하는 데는 몇 가지 장단점이 있습니다. GPT-4의 경우 OpenAI는 더 많은 수의 전문가 대신 16명의 전문가를 선택했습니다. 이러한 결정은 우수한 손실 결과를 달성하는 것과 다양한 작업에서 일반화 가능성을 보장하는 것 사이의 균형을 반영한 것입니다. 전문가가 많으면 작업 일반화 및 융합 측면에서 문제가 발생할 수 있습니다. 전문가 선택에 신중을 기하는 OpenAI의 선택은 안정적이고 강력한 성능에 대한 그들의 약속과 일치합니다.
9. 추론 비용
이전 모델인 1,750억 개의 매개변수를 가진 다빈치 모델과 비교했을 때 GPT-4의 추론 비용은 약 3배 더 높습니다. 이러한 차이는 GPT-4를 지원하는 데 필요한 더 큰 클러스터와 추론 중에 달성되는 낮은 사용률 등 여러 가지 요인에 기인할 수 있습니다. 추정치에 따르면 8k로 GPT-4를 추론할 때 128개의 A100 GPU의 경우 토큰 1,000개당 0.0049센트, 128개의 H100 GPU의 경우 토큰 1,000개당 0.0021센트의 대략적인 비용이 소요되는 것으로 나타났습니다. 이 수치는 비용 최적화를 위해 중요한 고려 사항인 적절한 활용률과 높은 배치 크기를 가정한 것입니다.
10. 다중 쿼리 주의(Multi Query Attention)
OpenAI는 현장에서 널리 사용되는 기술인 다중 쿼리 주의(MQA)를 GPT-4에서도 활용합니다. MQA를 구현하면 모델에 하나의 헤드만 필요하므로 키-값 캐시(KV 캐시)에 필요한 메모리 용량을 크게 줄일 수 있습니다. 이러한 최적화에도 불구하고 32k 배치 GPT-4는 40GB A100 GPU에 수용할 수 없으며 8k는 최대 배치 크기에 제약을 받는다는 점에 유의해야 합니다.
11. 연속 배치
지연 시간과 추론 비용 간의 균형을 맞추기 위해 OpenAI는 가변 배치 크기를 모두 통합합니다.
논의해볼만한 주제
1. 모델 규모, 비용, 훈련의 용이성 사이의 Golden spot은 어디인가?
- GPT-4는 조 단위의 파라미터 모델을 훈련하는 데 필요한 막대한 계산 리소스를 보여줍니다. 연구자는 모델 규모, 비용, 훈련 복잡성 간의 절충점을 신중하게 평가해야 합니다. 전문가 혼합과 같은 아키텍처는 비용 관리에 도움이 되지만 복잡성을 증가시킵니다.
2. 인프라 및 시스템 최적화를 위한 다양한 엔지니어링 방법
2.1. 전문가 혼합(MoE) 사용
- OpenAI의 MoE 사용은 이 접근 방식이 비용과 복잡성을 관리하는 데 유용할 수 있음을 보여주었습니다. MoE 모델을 사용하면 모델 계산의 일부를 여러 전문가에게 분산하여 각 전문가가 문제의 특정 부분에 집중할 수 있습니다. 이를 통해 계산 효율성을 높이고 잠재적으로 모델 성능을 개선할 수 있습니다. 그러나 이러한 전문가를 관리 및 동기화하고 적절한 로드 밸런싱을 보장하는 측면에서 복잡성이 증가합니다.
- OpenAI가 GPT-4에 사용하는 간단한 라우팅 방법은 복잡성보다 효율성의 중요성을 강조합니다. 이는 각 토큰을 라우팅할 전문가를 선택하는 데 항상 고급 알고리즘이 필요한 것은 아니며, 여전히 인상적인 결과를 얻을 수 있음을 나타냅니다.
2.2. GPT-4의 훈련은 ZeRO, 파이프라인 병렬 처리, NVLink와 같은 고급 하드웨어와 같은 최적화에 크게 의존합니다. 훈련을 효율적으로 확장하려면 모델 혁신뿐만 아니라 시스템 수준의 엔지니어링도 필요합니다. 연구자들은 엔드투엔드 시스템 최적화에 집중해야 합니다.
2.3. OpenAI가 GPT-4에 사용하는 간단한 라우팅 방법은 복잡성보다 효율성의 중요성을 강조합니다. 이는 각 토큰을 라우팅할 전문가를 선택하는 데 항상 고급 알고리즘이 필요한 것은 아니며, 여전히 인상적인 결과를 얻을 수 있음을 나타냅니다.
2.4. GPT-4의 추측 디코딩은 확인되지 않았지만 디코딩 프로세스의 속도를 높여 효율성을 높일 수 있는 잠재적인 기술입니다(https://shaankhosla.substack.com/p/gpt-4-architecture-leak-and-explanation) 하지만 예측이 틀릴 경우 배치가 폐기되어 컴퓨팅 리소스가 낭비될 수 있습니다.
3. 정확도와 추론 효율성의 균형을 어떻게 맞출 수 있는가? 앞으로는 어떻게 될 것인가?
GPT-4와 같은 대규모 모델은 높은 정확도를 달성하지만, 계산 비용으로 인해 추론에 많은 비용이 소요될 수 있습니다. 추측 디코딩과 같은 기법은 추론 시 정확도와 속도 사이에서 균형을 유지합니다. 정확도와 효율성의 균형을 맞추려면 철저한 벤치마킹이 필요합니다.
Let's Talk Text
GPT-4 architecture leak and explanation
July 12, 2023
4. 다양한 고품질 데이터 세트의 필요성
- GPT-4가 대학 교과서 데이터 세트로 학습되었다는 것은 전문 지식을 갖춘 AI 모델을 만드는 데 있어 도메인별 데이터의 역할을 암시합니다. 그러나 이러한 모델은 실제 이해력이나 지능이 아닌 학습 데이터로 인해 이해력이 '착각'을 일으킬 수 있습니다. 이는 도메인별 응답을 제공하는 모델의 능력과 도메인에 대해 진정으로 이해하거나 추론하는 능력의 차이를 강조합니다.
- 13조 개의 토큰을 사용했음에도 불구하고 GPT-4는 여전히 이상적인 훈련 데이터 분포가 부족할 수 있습니다. 연구자들은 데이터를 다양화하고 사람의 검증을 통해 품질을 향상시키기 위한 노력을 계속해야 합니다. 데이터 수집과 큐레이션은 여전히 미해결 과제로 남아 있습니다.
5. 멀티모달 기능
- GPT-4의 비전 기능을 활용하려면 모달리티를 통합하기 위한 아키텍처 혁신이 필요합니다. 멀티모달 AI는 텍스트 전용 모델에 구워진 가정을 다시 생각해야 합니다. 이는 향후 연구의 중요한 영역입니다.
- 개방형 연구와 생산 시스템 간의 상호 작용: GPT-4의 세부 사항은 공식적인 기술 논문이 아닌 공개 연구와 유출을 통해 드러납니다. 대형 모델의 연구부터 생산까지의 경로는 여전히 불투명합니다. 투명성이 높아지면 연구 커뮤니티에 도움이 될 것입니다.
- GPT-4는 별도의 비전 인코더와 크로스 어텐션을 통합하여 AI 시스템에서 [멀티모달 기능의 중요성을 강조](https://www.scientificamerican.com/article/what-the-new-gpt-4-ai-can-do/)합니다.
읽을 거리
1. https://www.semianalysis.com/p/gpt-4-architecture-infrastructure](https://www.semianalysis.com/p/gpt-4-architecture-infrastructure
2. https://threadreaderapp.com/thread/1678545170508267522.html
3. https://mpost.io/gpt-4s-leaked-details-shed-light-on-its-massive-scale-and-impressive-architecture/
4. https://thealgorithmicbridge.substack.com/p/gpt-4s-secret-has-been-revealed
5. https://www.reddit.com/r/LocalLLaMA/comments/14wbmio/gpt4_details_leaked/
6. https://youtu.be/ODMhtPIifkQ
7. https://youtu.be/a9BtoD3n8Gs
- GPT-4가 대학 교과서 데이터 세트로 학습되었다는 것은 전문 지식을 갖춘 AI 모델을 만드는 데 있어 도메인별 데이터의 역할을 암시합니다. 그러나 이러한 모델은 실제 이해력이나 지능이 아닌 학습 데이터로 인해 이해력이 '착각'을 일으킬 수 있습니다. 이는 도메인별 응답을 제공하는 모델의 능력과 도메인에 대해 진정으로 이해하거나 추론하는 능력의 차이를 강조합니다.
- 13조 개의 토큰을 사용했음에도 불구하고 GPT-4는 여전히 이상적인 훈련 데이터 분포가 부족할 수 있습니다. 연구자들은 데이터를 다양화하고 사람의 검증을 통해 품질을 향상시키기 위한 노력을 계속해야 합니다. 데이터 수집과 큐레이션은 여전히 미해결 과제로 남아 있습니다.
5. 멀티모달 기능
- GPT-4의 비전 기능을 활용하려면 모달리티를 통합하기 위한 아키텍처 혁신이 필요합니다. 멀티모달 AI는 텍스트 전용 모델에 구워진 가정을 다시 생각해야 합니다. 이는 향후 연구의 중요한 영역입니다.
- 개방형 연구와 생산 시스템 간의 상호 작용: GPT-4의 세부 사항은 공식적인 기술 논문이 아닌 공개 연구와 유출을 통해 드러납니다. 대형 모델의 연구부터 생산까지의 경로는 여전히 불투명합니다. 투명성이 높아지면 연구 커뮤니티에 도움이 될 것입니다.
- GPT-4는 별도의 비전 인코더와 크로스 어텐션을 통합하여 AI 시스템에서 [멀티모달 기능의 중요성을 강조](https://www.scientificamerican.com/article/what-the-new-gpt-4-ai-can-do/)합니다.
읽을 거리
1. https://www.semianalysis.com/p/gpt-4-architecture-infrastructure](https://www.semianalysis.com/p/gpt-4-architecture-infrastructure
2. https://threadreaderapp.com/thread/1678545170508267522.html
3. https://mpost.io/gpt-4s-leaked-details-shed-light-on-its-massive-scale-and-impressive-architecture/
4. https://thealgorithmicbridge.substack.com/p/gpt-4s-secret-has-been-revealed
5. https://www.reddit.com/r/LocalLLaMA/comments/14wbmio/gpt4_details_leaked/
6. https://youtu.be/ODMhtPIifkQ
7. https://youtu.be/a9BtoD3n8Gs
Scientific American
What the New GPT-4 AI Can Do
OpenAI just released an updated version of its text-generating artificial intelligence program. Here’s how GPT-4 improves on its predecessor
Forwarded from BZCF | 비즈까페
행동경제학의 대부이자 ‘생각에 관한 생각’ 의 저자로 유명한 ‘대니얼 카너먼’ 의 강연입니다.
결과로 원인을 판단하는 실수, 운과 실력을 착각하는 실수, 인지적 편향에 매몰되는 실수… ‘신의 한 수’ 에 집착하는 대신 ‘인간의 실수’ 를 줄이라는 그의 조언이 인상깊네요. 워렌 버핏은 '12번의 좋은 결정이 지금의 성공을 만들었' 다고 말했습니다. 그러니, 좋은 의사결정을 위해 생각하는 시간, 투자하는 시간, 공부하는 시간은 하나도 아깝지 않은 투자이지 않을까 합니다. 책을 접하지 못하셨어도 미니 버전처럼 가볍게 들으시면 도움이 되실겁니다.
https://youtu.be/0SrYGLO7XkM
결과로 원인을 판단하는 실수, 운과 실력을 착각하는 실수, 인지적 편향에 매몰되는 실수… ‘신의 한 수’ 에 집착하는 대신 ‘인간의 실수’ 를 줄이라는 그의 조언이 인상깊네요. 워렌 버핏은 '12번의 좋은 결정이 지금의 성공을 만들었' 다고 말했습니다. 그러니, 좋은 의사결정을 위해 생각하는 시간, 투자하는 시간, 공부하는 시간은 하나도 아깝지 않은 투자이지 않을까 합니다. 책을 접하지 못하셨어도 미니 버전처럼 가볍게 들으시면 도움이 되실겁니다.
https://youtu.be/0SrYGLO7XkM
👍1