GAN 모델 돌아보기
현재 적어도 이미지 생성 모델에선 Diffusion 모델이 확고한 대세이지만 한 때 최고의 인기를 누리던 GAN 모델을 한번 돌아보게 된다.
Diffusion 모델과 GAN 모델의 장점을 가진 새로운 모델은 없을까 하는 맘에서 이다.
GAN 모델은 한창 전성기였을 때 엄청나게 다양한 변종들이 등장했지만 이 이미지에 있는 몇가지 모델들로 단촐하게 정리해 볼 수도 있겠다 싶다.
이미지 출처 https://www.mdpi.com/2227-7080/7/4/82
현재 적어도 이미지 생성 모델에선 Diffusion 모델이 확고한 대세이지만 한 때 최고의 인기를 누리던 GAN 모델을 한번 돌아보게 된다.
Diffusion 모델과 GAN 모델의 장점을 가진 새로운 모델은 없을까 하는 맘에서 이다.
GAN 모델은 한창 전성기였을 때 엄청나게 다양한 변종들이 등장했지만 이 이미지에 있는 몇가지 모델들로 단촐하게 정리해 볼 수도 있겠다 싶다.
이미지 출처 https://www.mdpi.com/2227-7080/7/4/82
MDPI
3D Model Generation on Architectural Plan and Section Training through Machine Learning
Machine learning, especially the GAN (Generative Adversarial Network) model, has been developed tremendously in recent years. Since the NVIDIA Machine Learning group presented the StyleGAN in December 2018, it has become a new way for designers to make machines…
[반도체에 있어서 SW의 중요성]
N사가 이렇게 독점을 가게 되는데에 CUDA가 결정적이었다는 뉴스나 주변 얘기를 반복적으로 듣게 되어서, 이 부분에 대한 이야기를 명확하게 한번 해야겠다는 생각이 들었습니다.
개발 환경이 중요하다, CUDA때문에 생태계가 중요하다.. 틀린 얘기는 아닙니다만, '반도체에 있어서 SW가 중요하다' 라는 말의 본질은 아닙니다.
개발환경이 중요할 때는 반도체 성능들이 서로 비슷비슷해서 차이점을 만들기 어려울 때라던가, AI 반도체의 경우에는 초반에 엄청난 다양한 AI 모델이 쏟아지고, 아직 아무런 AI 개발환경 기반이 없을 때에는 개발환경 자체가 중요한 화두이기는 했습니다.
하지만 이제 AI도 어느덧 제법 성숙했습니다. CUDA를 대체할만한 것도 많고 굉장히 다양한 훌륭한 개발환경이 만들어졌습니다. 그럼에도 N사가 오히려 더 예전보다 독점이 심해지고 있습니다. 이 말은 편리한 SW 지원으로 AI 반도체의 경쟁력을 삼는 시기도 이미 지났다는 이야기이기도 합니다 (다시 말씀드리지만 개발환경이 안중요하다는 얘기는 아닙니다)
반도체에서는 'SW 이해'가 중요합니다. 즉, 반도체를 만들면 그걸로 뭘 돌릴건가? 이게 중요하다는 말씀입니다. 반도체의 성능 자체가 어떻게 평가받는지는 전적으로 그 반도체로 '무엇을' 구동할 것인지에 따라 결정됩니다.
예를 들면 달나라를 가려고 하면 제트엔진 대신 로켓엔진을 써야합니다. 반면에 한국에서 미국 가려고 하는데에 로켓엔진을 쓰는 것은 너무 비싸겠죠. 반도체를 만드는 '목적'이 무엇인지가 중요합니다.
'목적'을 이야기 하지 않다보니 TOPS/W나 MLPerf 같은 수치들을 가지고 옵니다. 제트엔진보다 로켓엔진이 좋다 라는 말이 있다고 합시다. 힘에 대해서는 로켓엔진이 훨씬 좋겠죠? 하지만 제트엔진이 더 적절할 수도 있습니다. 도구의 목적이 무엇인지 알 수 없으면 어느 엔진이 좋은건지 얘기가 불가능합니다.
예전에 IBM에서 CPU를 만들때부터 배운 관점입니다. 수많은 트랜지스터가 있지만 다음 CPU를 우리가 만들 때에는 어떤 workload를 타겟으로 갈것인가, 월가의 큰 은행들은 이런걸 요구한다던데, 요즘 noscript language가 유행한다던데 뭘 넣으면 더 잘 돌아갈까, 이런 논의를 굉장히 많이 합니다.
국내에서 비메모리 반도체가 어렵다고 합니다. 그리고 SW 인력을 많이 키우자고 합니다. AI 반도체로 오니 같은 이야기가 반복됩니다. 뭔가 한참 잘못되고있다는 우려를 금할 수가 없습니다. 반도체에서 SW는 매우 중요합니다. 하지만 이때 SW는 '도구'가 아니라 '목적'입니다.
반도체를 자꾸 도구자체로만 바라보고 더 좋은 도구를 만드는 것에만 신경쓰다보니, 제트엔진으로 달나라를 가려고 하는것은 아닌가 하는 걱정이 되어서 이런 말씀을 드리게 되었습니다. 반도체 관련된 수많은 문서와 회의에서 이런이런 반도체는 더 좋은 도구입니다 라는 얘기는 많이 듣지만 우리가 이런 반도체로 '무엇'을 타겟으로 하고 있습니다 하는 얘기들이 더 활발히 논의되기를 바랍니다.
지금은 게다가 (일단 큰 화두는) 초거대 AI 시대입니다. 초거대 AI 시대에 맞는 반도체에서는 CUDA가 SW가 아닙니다. 초거대 AI 자체가 SW 입니다.
N사가 이렇게 독점을 가게 되는데에 CUDA가 결정적이었다는 뉴스나 주변 얘기를 반복적으로 듣게 되어서, 이 부분에 대한 이야기를 명확하게 한번 해야겠다는 생각이 들었습니다.
개발 환경이 중요하다, CUDA때문에 생태계가 중요하다.. 틀린 얘기는 아닙니다만, '반도체에 있어서 SW가 중요하다' 라는 말의 본질은 아닙니다.
개발환경이 중요할 때는 반도체 성능들이 서로 비슷비슷해서 차이점을 만들기 어려울 때라던가, AI 반도체의 경우에는 초반에 엄청난 다양한 AI 모델이 쏟아지고, 아직 아무런 AI 개발환경 기반이 없을 때에는 개발환경 자체가 중요한 화두이기는 했습니다.
하지만 이제 AI도 어느덧 제법 성숙했습니다. CUDA를 대체할만한 것도 많고 굉장히 다양한 훌륭한 개발환경이 만들어졌습니다. 그럼에도 N사가 오히려 더 예전보다 독점이 심해지고 있습니다. 이 말은 편리한 SW 지원으로 AI 반도체의 경쟁력을 삼는 시기도 이미 지났다는 이야기이기도 합니다 (다시 말씀드리지만 개발환경이 안중요하다는 얘기는 아닙니다)
반도체에서는 'SW 이해'가 중요합니다. 즉, 반도체를 만들면 그걸로 뭘 돌릴건가? 이게 중요하다는 말씀입니다. 반도체의 성능 자체가 어떻게 평가받는지는 전적으로 그 반도체로 '무엇을' 구동할 것인지에 따라 결정됩니다.
예를 들면 달나라를 가려고 하면 제트엔진 대신 로켓엔진을 써야합니다. 반면에 한국에서 미국 가려고 하는데에 로켓엔진을 쓰는 것은 너무 비싸겠죠. 반도체를 만드는 '목적'이 무엇인지가 중요합니다.
'목적'을 이야기 하지 않다보니 TOPS/W나 MLPerf 같은 수치들을 가지고 옵니다. 제트엔진보다 로켓엔진이 좋다 라는 말이 있다고 합시다. 힘에 대해서는 로켓엔진이 훨씬 좋겠죠? 하지만 제트엔진이 더 적절할 수도 있습니다. 도구의 목적이 무엇인지 알 수 없으면 어느 엔진이 좋은건지 얘기가 불가능합니다.
예전에 IBM에서 CPU를 만들때부터 배운 관점입니다. 수많은 트랜지스터가 있지만 다음 CPU를 우리가 만들 때에는 어떤 workload를 타겟으로 갈것인가, 월가의 큰 은행들은 이런걸 요구한다던데, 요즘 noscript language가 유행한다던데 뭘 넣으면 더 잘 돌아갈까, 이런 논의를 굉장히 많이 합니다.
국내에서 비메모리 반도체가 어렵다고 합니다. 그리고 SW 인력을 많이 키우자고 합니다. AI 반도체로 오니 같은 이야기가 반복됩니다. 뭔가 한참 잘못되고있다는 우려를 금할 수가 없습니다. 반도체에서 SW는 매우 중요합니다. 하지만 이때 SW는 '도구'가 아니라 '목적'입니다.
반도체를 자꾸 도구자체로만 바라보고 더 좋은 도구를 만드는 것에만 신경쓰다보니, 제트엔진으로 달나라를 가려고 하는것은 아닌가 하는 걱정이 되어서 이런 말씀을 드리게 되었습니다. 반도체 관련된 수많은 문서와 회의에서 이런이런 반도체는 더 좋은 도구입니다 라는 얘기는 많이 듣지만 우리가 이런 반도체로 '무엇'을 타겟으로 하고 있습니다 하는 얘기들이 더 활발히 논의되기를 바랍니다.
지금은 게다가 (일단 큰 화두는) 초거대 AI 시대입니다. 초거대 AI 시대에 맞는 반도체에서는 CUDA가 SW가 아닙니다. 초거대 AI 자체가 SW 입니다.
❤2
Forwarded from YM리서치
미국은 어떻게 중국의 메모리 반도체 굴기를 무너뜨리는가?
https://m.fmkorea.com/5790663707
: 내용이 굉장히 길긴한데, 어지간한 인뎁스 리포트보다 퀄이 좋습니다
https://m.fmkorea.com/5790663707
: 내용이 굉장히 길긴한데, 어지간한 인뎁스 리포트보다 퀄이 좋습니다
에펨코리아
미국은 어떻게 중국의 메모리 반도체 굴기를 무너뜨리는가?.jpg
스압, 맨 밑에 요약 있음 ※ 이 글에선 한국 반도체 산업의 핵심인 메모리 반도체 산업과 연관된 내용에 대해서만 다룸 원 글 출처 : DC 갤럭시 갤러리 '뿌잉'님 + 일부 자체 작성 ----------------------------------------------------------------------------------------------------------------------------------------- 사전 지식) 한국 반도체…
Continuous Learning_Startup & Investment
[반도체에 있어서 SW의 중요성] N사가 이렇게 독점을 가게 되는데에 CUDA가 결정적이었다는 뉴스나 주변 얘기를 반복적으로 듣게 되어서, 이 부분에 대한 이야기를 명확하게 한번 해야겠다는 생각이 들었습니다. 개발 환경이 중요하다, CUDA때문에 생태계가 중요하다.. 틀린 얘기는 아닙니다만, '반도체에 있어서 SW가 중요하다' 라는 말의 본질은 아닙니다. 개발환경이 중요할 때는 반도체 성능들이 서로 비슷비슷해서 차이점을 만들기 어려울 때라던가, AI…
결국 반도체도 SW를 서빙하기 위한 수단이라면 반도체 -SW가 최종 사용자에게 이상적인 가치를 전달하는 Fit을 찾는 것이 중요하다.
초거대AI가 주목받는 것은 초거대라서가 아니라 일정 수준이 넘어갔을 때 Emerging capability가 나오기 때문이고 이 능력이 기존 가치보다 10~100배 좋을 수 있기 때문.
과거 기술의 우수성을 쫓는 경쟁(메가헤르츠 경쟁)의 결론을 너무 잘 알듯이 고객에게 전달하는 가치 없이 특정 수치만을 개선하는 건 의미없다.
초거대AI가 주목받는 것은 초거대라서가 아니라 일정 수준이 넘어갔을 때 Emerging capability가 나오기 때문이고 이 능력이 기존 가치보다 10~100배 좋을 수 있기 때문.
과거 기술의 우수성을 쫓는 경쟁(메가헤르츠 경쟁)의 결론을 너무 잘 알듯이 고객에게 전달하는 가치 없이 특정 수치만을 개선하는 건 의미없다.
Timesight
AI 시대로의 전환, 메모리 반도체의 역할과 미래 수요 예상 https://blog.naver.com/timesight/223107464784 AI시대에서 반도체 시장의 역학구도, 그 안에서 우리나라 산업의 근간인 Memory반도체의 역할에 대해 고찰한 글입니다. 긴 글이지만, 향후 수년간 가장 중요할 수 있는 AI와 반도체의 관계에 대해서 알 수 있는 글이니 향후 투자 의사 결정에 매우 도움이 될 것입니다.
반도체도 재밌네요 ㅎㅎ
1. AI 이론적 배경은 있었지만 데이터와 연산 속도가 뒤쳐져있었다.
2. 컴퓨터 폰노이만 설계는 크게 1. Processor(Control Unit, Arithmetic Unit) 2. Memory 로 구성되어 있었다.
3. CPU 발전은 Control Unit을 발전시켰다.
4. GPU는 Arithmetic Unit이 CPU 대비 커서 행렬 계산에 적합하고 빠르다.
5. NPU는 Arithmetic Unit을 극대화해서 행렬 계산에 최적화해서 다른 것을 못한다. 계산을 가속화하기위해 메모리와의 소통을 넓혔다. Nvdia GPU는 Tensor Core를 탑재해서 사실상 NPU
6. 인간의 뇌 뉴런 1000억개, 뉴런당 시냅스 1천~1만개, 총 시냅스 수 100~1000조개. 시냅스 하나가 Weight(가중치)를 담당하고 8Bit를 사용한다고 가정하면 시냅스당 3000개의 트랜지스터가 필요함. Nvidia 최신 GPU인 H100을 써도 H100 트랜지스터가 80B이기 때문에 시냅스로는 2,700만개 수준. 인간의 뇌를 구현하기 위해서는 H100이 370~3,700만개 필요 -> 1200억~1.2조억 달러가 필요. 추가로 기억장치도 필요하기 때문에 DDR5 기준으로 860-8600만달러가 추가로 필요함. 그리고 Processor와 메모리가 분리되어 있어서 연결에 한계 존재. 메모리와 프로세서를 합치려는 Neuromorphic 반도체 개발중이지만 아직 성과가 부족.
7. 학습: 축적된 많은 데이터를 바탕으로 각 신경망들의 Weight를 업데이트 하며 딥러닝 모델을 만듦. => 지금의 AI는 아직 상용화되지 않은 게 많아서 대부분 GPU가 트레이닝 용으로 수요가 많음. 상용화가 될수록 Inference 수요가 늘어날 예정
추론: 학습을 통해 만들어진 모델을 실제로 새로운 입력 데이터에 적용하여 결과를 만듦.
8. Nvidia: Training에서 독점
1. CUDA라는 IP Stack: AI 연구진과 협업 경험이 많아서 연구진들이 가장 편하게 쓸 수 있는 CUDA 환경을 만듦.
2. Interconnect 기술: GPU 끼리 연결하는 기술, 모듈끼리의 연결
- A100 (1만달러) 대비 3배 뛰어난 H100(3만달러)를 출시했고 시장에 독점적 지위로 가격 결정권을 가짐.
- 일반 서버의 비용(Bills of Material) 구성이 CPU 29%, DRAM 18%, NAND 18%, 기타 35% <> H100 서버: GPU 82%, CPU 9%, DRAM 2%, NAND 3%, 기타 4%
- AI 메모리 시장에서도 문지기 역할을 하고 있음.
- CPU용 메모리가 A100 -> H100가면서 크게 증가하지 못하고 GPU용 HBM은 40GB 에서 80GB정도로만 증가한 것은 메모리가 많이 필요없는 게 아니라, Memory로 성능을 업그레이드하는 게 아니라 자사의 GPU를 최대한 비싸게 팔 수 있는 전략을 취함.
AMD: Nvidia 대항마
- MS와 협업해서 H100 성능을 넘볼 수 있는 MI 300 출시. 데이터 센터도 본인의 입맛대로 서버를 Build할 옵션이 생겼음.
Inference
- Training에서 GPU가 좋을 수 있으나 Inference에서는 Asic이 더좋음.
- Training 대비 Inference 가 간단해서 많은 스타트업이 노리고 있고 글로벌 데이터 센터,빅테크도 참여하고 있음. 그런데 많은 스타트업들이 Transformer이전에 창업해서 Memory를 대폭 사용할 거라 예상을 못했고 메모리 중심이 아니라 Cache Memory(SRAM)위주로 설계해서 완전히 Ooutdated 됨.
- 데이터 센터, 칩메이커들이 Nvidia 칩보다 가성비가 높을것으로 예상됨.
- Transformer Decoder 모델 중심의 Application이 대세가 된다면 Memory회사들이 큰 이득을 볼 수 있음.
Transformer?
- Attention is all you need 논문에서 처음 소개되었고 이전에 주류였던 CNN과 RNN을 대체했다. 지난 2년간 Arxiv AI 논문의 70%는 트랜스포머 관련 내용
- 그동안은 라벨링된 대규모 데이터 세트로 신경망을 훈련했는데, 데이터 셋을 구축하는데에 많은 시간과 비용이 소요되고 성능도 좋진 않았음.
- 트랜스 포머는 요소들 사이 패턴을 수학적으로 찾기 때문에 라벨링이 필요없고 수많은 이미지, 텍스트를 빠르게 학습할 수 있음.
- Self-attention이라는 수학 기법으로 서로 떨어져있는 데이터 요소들의 의미가 관계에 따라 달라지는 것까지 감지함.
- Transformer 덕분에 LLM이 개발될 수 있었음.
Transformer 모델은 Decoder(GPT, Open AI) , Encoder 기반(Bert, Google)로 나눌 수 있다.
- Encoder model: Input에서 의미를 찾는 모델로 암호화해서 압축하는 거라 컴퓨팅 파워가 많이 필요하다.
- Decoder: 의미를 찾아낸걸로 어떤 것을 생성하는 모델로 많은 메모리 Bandwidth와 Capacity가 필요하다. Decoder 모델은 Feedback하는 방식으로 하나의 단어가 Output으로 나오면 다시 Input으로 넣어서 Neural Network 전체를 동작시키는 것을 반복하면서 Sequence를 만들어낸다. 이 때마다 매번 Parameter 전체를 다 읽어와야하기 때문에 Memory Intensive하다. 평문화해서 데이터를 생성하는 데에 메모리가 많이 필요함. Decoder 중심 모델은 매번 Inference 할 때마다 memory에 저장되어 있는 가중치(Weight)값을 가져와야하기 때문에 Memory의 Bandwidth와 Capacity가 엄청나게 넓고 커야한다.
=> 따라서 Inference 시장에서 Memory, Dram 특히 HBM(High Bandwidth Memory)와 PIM(Process in Memory)의 사용량이 많아질 것이다.
HBM: High Bandwidth Memory는 AI에서 Bottleneck인 대역폭 문제를 해결하기 위해 고안된 메모리이다.
엄청나게 많은 데이터를 메모리에서 읽어올 때 32차선 도로를 1024차선으로 늘렸다. AI 이전 세대는 PC를 만드는 주체(DELL, HP)가 메모리를 정했다면, 현재는 빅테크(Nvidia, AMD) 기업과 협업해서 메모리를 개발한다.
PIM(Processing in Memory)
AI에서 가장 중요한 것은 행렬 계산을 얼마나 빨리 소화하느냐이다.
그런데, 데이터 저장은 메모리에서만 되다보니까 메모리에서 행렬 계산을 도와줘도 Bottleneck은 많이 해소될 수 있음. PIM으로 메모리내에서 단순 행렬 계산을 보조해주면 AI연산을 16배 빠르게 할 수 있음.
1. AI 이론적 배경은 있었지만 데이터와 연산 속도가 뒤쳐져있었다.
2. 컴퓨터 폰노이만 설계는 크게 1. Processor(Control Unit, Arithmetic Unit) 2. Memory 로 구성되어 있었다.
3. CPU 발전은 Control Unit을 발전시켰다.
4. GPU는 Arithmetic Unit이 CPU 대비 커서 행렬 계산에 적합하고 빠르다.
5. NPU는 Arithmetic Unit을 극대화해서 행렬 계산에 최적화해서 다른 것을 못한다. 계산을 가속화하기위해 메모리와의 소통을 넓혔다. Nvdia GPU는 Tensor Core를 탑재해서 사실상 NPU
6. 인간의 뇌 뉴런 1000억개, 뉴런당 시냅스 1천~1만개, 총 시냅스 수 100~1000조개. 시냅스 하나가 Weight(가중치)를 담당하고 8Bit를 사용한다고 가정하면 시냅스당 3000개의 트랜지스터가 필요함. Nvidia 최신 GPU인 H100을 써도 H100 트랜지스터가 80B이기 때문에 시냅스로는 2,700만개 수준. 인간의 뇌를 구현하기 위해서는 H100이 370~3,700만개 필요 -> 1200억~1.2조억 달러가 필요. 추가로 기억장치도 필요하기 때문에 DDR5 기준으로 860-8600만달러가 추가로 필요함. 그리고 Processor와 메모리가 분리되어 있어서 연결에 한계 존재. 메모리와 프로세서를 합치려는 Neuromorphic 반도체 개발중이지만 아직 성과가 부족.
7. 학습: 축적된 많은 데이터를 바탕으로 각 신경망들의 Weight를 업데이트 하며 딥러닝 모델을 만듦. => 지금의 AI는 아직 상용화되지 않은 게 많아서 대부분 GPU가 트레이닝 용으로 수요가 많음. 상용화가 될수록 Inference 수요가 늘어날 예정
추론: 학습을 통해 만들어진 모델을 실제로 새로운 입력 데이터에 적용하여 결과를 만듦.
8. Nvidia: Training에서 독점
1. CUDA라는 IP Stack: AI 연구진과 협업 경험이 많아서 연구진들이 가장 편하게 쓸 수 있는 CUDA 환경을 만듦.
2. Interconnect 기술: GPU 끼리 연결하는 기술, 모듈끼리의 연결
- A100 (1만달러) 대비 3배 뛰어난 H100(3만달러)를 출시했고 시장에 독점적 지위로 가격 결정권을 가짐.
- 일반 서버의 비용(Bills of Material) 구성이 CPU 29%, DRAM 18%, NAND 18%, 기타 35% <> H100 서버: GPU 82%, CPU 9%, DRAM 2%, NAND 3%, 기타 4%
- AI 메모리 시장에서도 문지기 역할을 하고 있음.
- CPU용 메모리가 A100 -> H100가면서 크게 증가하지 못하고 GPU용 HBM은 40GB 에서 80GB정도로만 증가한 것은 메모리가 많이 필요없는 게 아니라, Memory로 성능을 업그레이드하는 게 아니라 자사의 GPU를 최대한 비싸게 팔 수 있는 전략을 취함.
AMD: Nvidia 대항마
- MS와 협업해서 H100 성능을 넘볼 수 있는 MI 300 출시. 데이터 센터도 본인의 입맛대로 서버를 Build할 옵션이 생겼음.
Inference
- Training에서 GPU가 좋을 수 있으나 Inference에서는 Asic이 더좋음.
- Training 대비 Inference 가 간단해서 많은 스타트업이 노리고 있고 글로벌 데이터 센터,빅테크도 참여하고 있음. 그런데 많은 스타트업들이 Transformer이전에 창업해서 Memory를 대폭 사용할 거라 예상을 못했고 메모리 중심이 아니라 Cache Memory(SRAM)위주로 설계해서 완전히 Ooutdated 됨.
- 데이터 센터, 칩메이커들이 Nvidia 칩보다 가성비가 높을것으로 예상됨.
- Transformer Decoder 모델 중심의 Application이 대세가 된다면 Memory회사들이 큰 이득을 볼 수 있음.
Transformer?
- Attention is all you need 논문에서 처음 소개되었고 이전에 주류였던 CNN과 RNN을 대체했다. 지난 2년간 Arxiv AI 논문의 70%는 트랜스포머 관련 내용
- 그동안은 라벨링된 대규모 데이터 세트로 신경망을 훈련했는데, 데이터 셋을 구축하는데에 많은 시간과 비용이 소요되고 성능도 좋진 않았음.
- 트랜스 포머는 요소들 사이 패턴을 수학적으로 찾기 때문에 라벨링이 필요없고 수많은 이미지, 텍스트를 빠르게 학습할 수 있음.
- Self-attention이라는 수학 기법으로 서로 떨어져있는 데이터 요소들의 의미가 관계에 따라 달라지는 것까지 감지함.
- Transformer 덕분에 LLM이 개발될 수 있었음.
Transformer 모델은 Decoder(GPT, Open AI) , Encoder 기반(Bert, Google)로 나눌 수 있다.
- Encoder model: Input에서 의미를 찾는 모델로 암호화해서 압축하는 거라 컴퓨팅 파워가 많이 필요하다.
- Decoder: 의미를 찾아낸걸로 어떤 것을 생성하는 모델로 많은 메모리 Bandwidth와 Capacity가 필요하다. Decoder 모델은 Feedback하는 방식으로 하나의 단어가 Output으로 나오면 다시 Input으로 넣어서 Neural Network 전체를 동작시키는 것을 반복하면서 Sequence를 만들어낸다. 이 때마다 매번 Parameter 전체를 다 읽어와야하기 때문에 Memory Intensive하다. 평문화해서 데이터를 생성하는 데에 메모리가 많이 필요함. Decoder 중심 모델은 매번 Inference 할 때마다 memory에 저장되어 있는 가중치(Weight)값을 가져와야하기 때문에 Memory의 Bandwidth와 Capacity가 엄청나게 넓고 커야한다.
=> 따라서 Inference 시장에서 Memory, Dram 특히 HBM(High Bandwidth Memory)와 PIM(Process in Memory)의 사용량이 많아질 것이다.
HBM: High Bandwidth Memory는 AI에서 Bottleneck인 대역폭 문제를 해결하기 위해 고안된 메모리이다.
엄청나게 많은 데이터를 메모리에서 읽어올 때 32차선 도로를 1024차선으로 늘렸다. AI 이전 세대는 PC를 만드는 주체(DELL, HP)가 메모리를 정했다면, 현재는 빅테크(Nvidia, AMD) 기업과 협업해서 메모리를 개발한다.
PIM(Processing in Memory)
AI에서 가장 중요한 것은 행렬 계산을 얼마나 빨리 소화하느냐이다.
그런데, 데이터 저장은 메모리에서만 되다보니까 메모리에서 행렬 계산을 도와줘도 Bottleneck은 많이 해소될 수 있음. PIM으로 메모리내에서 단순 행렬 계산을 보조해주면 AI연산을 16배 빠르게 할 수 있음.
https://www.governance.ai/research-paper/recent-trends-chinas-llm-landscape
중국에서 개발된 LLM 현황 (모두 26개)
- 최대 규모는, M6-10T (10T), BaGuaLu (14.5T)
- 하지만, Chincilla scaling law 발표 후 1T 이상 모델 개발은 더 이상 push하지 않고
- Baidu의 ERNIE는 ChatGPT와 비교해서 성능이 많이 떨어지고
- 일부 모델은 GPU 수급 이슈때문에 학습이 중단되기도
중국에서 개발된 LLM 현황 (모두 26개)
- 최대 규모는, M6-10T (10T), BaGuaLu (14.5T)
- 하지만, Chincilla scaling law 발표 후 1T 이상 모델 개발은 더 이상 push하지 않고
- Baidu의 ERNIE는 ChatGPT와 비교해서 성능이 많이 떨어지고
- 일부 모델은 GPU 수급 이슈때문에 학습이 중단되기도
www.governance.ai
Recent Trends in China's Large Language Model Landscape | GovAI
As large-scale pre-trained AI models gain popularity in the West, many Chinese AI labs have developed their own models capable of generating coherent text and realistic images and videos. These models represent the frontier...
He said
AI isn’t even moving fast yet.
We still have:
- LLMs on mobile
- Multimodal inputs
- 100x GPT-4 level cost reduction
- AI x AR
- Generative video
- AI powered robotics
- 1M+ token context
Things are just getting started.
https://twitter.com/mckaywrigley/status/1660784760380362753
What do you think?
AI isn’t even moving fast yet.
We still have:
- LLMs on mobile
- Multimodal inputs
- 100x GPT-4 level cost reduction
- AI x AR
- Generative video
- AI powered robotics
- 1M+ token context
Things are just getting started.
https://twitter.com/mckaywrigley/status/1660784760380362753
What do you think?
Transformer가 궁금하시다면…
1. https://wikidocs.net/31379
2. https://curt-park.github.io/2023-04-01/attention-is-all-you-need/?fbclid=IwAR1Qfv8Q1oPiA-jmOsW3Z9wpZA8Y50GEJA7Xa_j3pGRraWbZde5ADGhYqls](https://curt-park.github.io/2023-04-01/attention-is-all-you-need/?fbclid=IwAR1Qfv8Q1oPiA-jmOsW3Z9wpZA8Y50GEJA7Xa_j3pGRraWbZde5ADGhYqls
3. https://www.blossominkyung.com/deeplearning/transformer-mha
4. https://www.chatpdf.com/c/CqMDh1cPEHbR2LmsFEHBs
5. https://velog.io/@mindy1147/Transformer
6. https://youtu.be/XfpMkf4rD6E
1. https://wikidocs.net/31379
2. https://curt-park.github.io/2023-04-01/attention-is-all-you-need/?fbclid=IwAR1Qfv8Q1oPiA-jmOsW3Z9wpZA8Y50GEJA7Xa_j3pGRraWbZde5ADGhYqls](https://curt-park.github.io/2023-04-01/attention-is-all-you-need/?fbclid=IwAR1Qfv8Q1oPiA-jmOsW3Z9wpZA8Y50GEJA7Xa_j3pGRraWbZde5ADGhYqls
3. https://www.blossominkyung.com/deeplearning/transformer-mha
4. https://www.chatpdf.com/c/CqMDh1cPEHbR2LmsFEHBs
5. https://velog.io/@mindy1147/Transformer
6. https://youtu.be/XfpMkf4rD6E
위키독스
점프 투 파이썬
이 책은 파이썬이란 언어를 처음 접해보는 독자들과 프로그래밍을 한 번도 해 본적이 없는 사람들을 대상으로 한다. 프로그래밍을 할 때 사용되는 전문적인 용어들을 알기 쉽게 풀어서 …
Replit would want to be an alternative to Copilot x.
https://twitter.com/amasad/status/1661137901948932096?s=46&t=h5Byg6Wosg8MJb4pbPSDow
https://twitter.com/amasad/status/1661137901948932096?s=46&t=h5Byg6Wosg8MJb4pbPSDow
X (formerly Twitter)
Amjad Masad (@amasad) on X
Massively expanded input/output maxTokens for Ghostwriter Chat.
You can now ask it to rewrite large files with no problem.
You can now ask it to rewrite large files with no problem.