Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
To quote the great climate scientist, Greta Thunberg, “How dare you!”

Joking aside, because no serious person would actually outsource their energy policy to a kid, nuclear is a no-brainer. The biggest problem from here isn’t the technology - those will continue to improve and the safety profiles will become even more bulletproof.

But even with the greatest technology, what we have consistently overlooked are the local, regional and state regulations to get new reactors built.

Nuclear needs to be viewed as a national security issue. More nuclear == more clean energy == less foreign energy needed == less wars == lower deficits == more internal stability.

Right now it isn’t, so building a new reactor is a multi decade ordeal and is effectively impossible. So as nuclear technologies get better, nuclear buildouts will still meaningfully lag relative to other countries, especially China.

https://budd.senate.gov/press-releases/budd-coons-lead-bipartisan-coalition-supporting-nuclear-energy/
Research on advanced prompting techniques for language models has extended chain of thought and tree of thought prompting to graph-structured reasoning processes. But, did you know that there are two versions of “graph of thought” prompting that have been proposed already?

Some background. Advanced prompting techniques like chain of thought and tree of thought prompting have drastically improved the ability of large language models to solve complex, reasoning-based tasks. Forcing the LLM to construct a step-by-step response to a problem drastically improves its problem-solving capabilities, but all of these techniques assume that the reasoning process is linear.

“Human thinking is often characterized by its ability to make sudden leaps and connections between seemingly unrelated ideas, which can lead to novel insights and solutions. This non-linear, jumping thought process is a hallmark of human creativity, reasoning, and problem-solving abilities.” - from [1]

Graph-based reasoning. Humans do not seem to perform reasoning based on individual chains of thought. Rather, we make leaps and connections between ideas that lead to novel insights. Inspired by this idea, researchers have recently extended chain and tree of thoughts prompting to a graph-structured approach. We will take a look here at two (independent) papers that have already been written on this topic.

Graph of thought reasoning (GOTR). In [1], authors proposed a two-stage technique that:

1. Outputs a problem solving rationale given text (and potentially images) as input.
2. Outputs a final answer given the original input concatenated with a rationale.

This approach uses an encoder-decoder structure and is fine-tuned end-to-end. Several encoders ingest data from each of the different modalities that are considered. The output of these encoders is combined in a fusion layer, then passed to a decoder to generate output.

Where does the graph come in? So far, it seems like GOTR does not use any graphs within its reasoning process. However, the model creates a named entity graph based on the input text and generated rationale. Then, this graph is ingested by a graph attention network encoder and combined with all image/text features. As such, the decoder receives information from text, image, and graph-based inputs!

GoT prompting. In [2], authors follow a more traditional prompting approach, called graph of thought (GoT) prompting, that uses a system of causal LLMs and prompts to perform reasoning according to a graph structure. The reasoning process is modeled as a graph, where each node represents a thought or (partial) solution and connections indicate that a certain thought was generated from some other thought.

A system of LLMs. GoT prompting has several “modules” that control the reasoning process, including a top-level controller (controls the reasoning process), a parser (verifies and extracts LLM output), a scorer (judges the quality of solutions), and a prompter (writes prompts for each different module). Together, these modules can transform the underlying graph structure and work towards solving a reasoning problem.

TL;DR: Modeling an LLM’s reasoning process as a graph structure can be beneficial for certain problems and is (arguably) more comparable to the human reasoning process. But, these techniques tend to be more costly than basic CoT prompting and only provide a tangible benefit on select problems. For more details, check out the overview of these techniques that I just wrote for my newsletter.

--------
[1] Yao, Yao, Zuchao Li, and Hai Zhao. "Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Large Language Models." arXiv preprint arXiv:2305.16582 (2023).
[2] Besta, Maciej, et al. "Graph of Thoughts: Solving Elaborate Problems with Large Language Models." arXiv preprint arXiv:2308.09687 (2023).

https://twitter.com/cwolferesearch/status/1696282034145006006?s=20
LLM 기반의 시스템 & 제품 구축을 위한 7가지 핵심 패턴

"성능 향상 vs. 비용/리스크 감소" 및 "데이터 친화 vs 사용자 친화" 로 정리
- Evals: 성능 측정
- RAG(Retrieval-Augmented Generation): 최신, 외부 지식을 추가
- Fine-tuning: 특정 작업을 더 잘 수행하기 위해
- Caching: 레이턴시 및 비용 감소
- Guardrails: 출력 품질 보장
- Defensive UX: 오류를 에측하고 관리하기 위해
- Collect user feedback: 데이터 플라이 휠 구축

# Evals: 성능 측정

- Evals는 작업에서 모델의 성능을 평가하는데 사용되는 일련의 측정값들
- 벤치마크 데이터 및 메트릭 포함
- 시스템 또는 제품이 얼마나 잘 작동하고 있는지 측정하고, 퇴보를 감지할 수 있음
- 언어 모델링 분야에 많은 벤치마크들이 있음: MMLU, EleutherAI Eval, HELM, AlpacaEval
- 메트릭을 두개의 카테고리로 구분 가능: Context-dependent 또는 Context-free
- 공통적으로 사용하는 메트릭들: BLEU, ROUGE, BERTScore, MoverScore
- 요즘 뜨는 트렌드는 강력한 LLM을 reference-free metric으로 이용하여 다른 LLM들의 생성물을 평가하는 것
- G-Eval, Vicuna 논문, QLoRA

# RAG(Retrieval-Augmented Generation): 최신, 외부 지식을 추가

- 파운데이션 모델 외부로부터 정보를 가져와 이 데이터로 입력을 강화하여 더 풍부한 컨텍스트를 제공함으로써 출력을 개선
- RAG는 검색된 컨텍스트에 모델을 기반으로 하여 환각을 줄이는데 도움을 줘서 사실성을 높임
- 또한 LLM을 지속적으로 사전 학습하는 것보다 검색 인덱스를 최신 상태로 유지하는 것이 더 저렴
- 이런 비용 효율성 때문에 LLM이 RAG을 통해 최신 데이터에 억세스 가능
- 편향되거나 유해한 문서와 같은 데이터를 업데이트/제거해야 하는 경우 검색 인덱스를 업데이트하는 것이 더 간단함(LLM을 미세조정 하는 것에 비해)
- RAG을 위해서는 텍스트 임베딩에 대해 먼저 이해하는 것이 도움이 됨
- 텍스트 임베딩은 임의 길이의 텍스트를 숫자의 고정 크기 벡터로 표현할 수 있는 텍스트 데이터의 압축된 추상 표현
- 일반적으로 Wikipedia같은 텍스트 코퍼스에서 학습함
- 유사한 항목은 서로 가깝고, 유사하지 않은 항목은 더 멀리 떨어져 있는 텍스트에 대한 범용 인코딩으로 생각하면 됨
- 좋은 임베딩은 유사 항목 검색 같은 다운스트림 작업을 잘 수행하는 것
- Huggingface의 Massive Text Embedding Benchmark (MTEB)는 분류,클러스터링,검색,요약 같은 다양한 작업에서 모델의 점수를 매김
- 여기서는 주로 텍스트 임베딩에 대해 이야기 하지만, 임베딩은 다양한 모달리티가 사용될 수 있음
- Fusion-in-Decoder(FiD)는 오픈 도메인 QA를 위해 생성형 모델과 검색을 같이 사용함
- Internet-augmented LM들은 기존 검색엔진을 이용하여 LLM 강화를 제안
- RAG 적용 방법
- 하이브리드 검색(전통적인 검색 인덱스 + 임베딩 기반 검색)이 각각 단독보다 더 잘 동작함

# Fine-tuning: 특정 작업을 더 잘 수행하기 위해

- 미세 조정은 사전 훈련된 모델(방대한 양의 데이터로 이미 훈련된 모델)을 가져와 특정 작업에 대해 추가로 정제하는 프로세스
- 모델이 사전 훈련 중에 이미 획득한 지식을 활용하여 일반적으로 더 작은 작업별 데이터 세트를 포함하는 특정 작업에 적용하기 위함
- 파인 튜닝이란 용어는 느슨하게 사용되어 다양한 개념을 나타내는데 이용 됨
- 지속적인 사전 훈련
- 인스트럭션 파인 튜닝
- 단일 작업 파인 튜닝
- RLHF
- 왜 파인 튜닝을 할까 ?
- 성능 및 제어:
- 기성 기본 모델의 성능을 개선하고, 써드파티 LLM 능가도 가능
- LLM 동작을 보다 잘 제어할 수 있으므로 시스템이나 제품이 더욱 강력해짐
- 미세 조정을 통해 단순히 타사 또는 개방형 LLM을 사용하는 것과 차별화된 제품을 구축할 수 있음
- 모듈화:
- 단일 작업 미세 조정을 통해 각각 고유한 작업을 전문으로 하는 더 작은 모델들의 부대를 만들 수 있음
- 이런 설정을 통해서 시스템을 콘텐츠 모더레이션, 추출, 요약등의 태스크로 모듈화 가능
- 종속성 감소:
- 자체 모델을 미세 조정하고 호스팅함으로써 외부 API에 노출되는 독점 데이터(예: PII, 내부 문서 및 코드)에 대한 법적 문제를 줄일 수 있음
- 또한 속도 제한, 높은 비용 또는 지나치게 제한적인 안전 필터와 같은 써드파티 LLM의 제약 조건을 극복
- Generative Pre-trained Transformers (GPT; decoder only)
- Text-to-text Transfer Transformer (T5; encoder-decoder)
- InstructGPT
- Soft prompt tuning & Prefix Tuning
- Low-Rank Adaptation (LoRA) & QLoRA
- 파인튜닝 적용 방법
- 데모 데이터/라벨 수집
- 평가지표를 정의
- 사전 학습 모델 선택
- 모델 아키텍처 업데이트
- 파인 튜닝 방법 선택(LoRA, QLoRA등 )
- 기본 하이퍼파라미터 튜닝

# Caching: 레이턴시 및 비용 감소

- 캐싱은 이전에 검색하거나 계산한 데이터를 저장하는 기술
- 동일한 데이터에 대한 향후 요청을 더 처리 가능
- LLM에서는 입력 요청의 임베딩에 대한 LLM 응답을 캐쉬하고, 다음 요청에서 의미상 유사한 요청이 들어오면 캐시된 응답을 제공하는 것
- 하지만 일부 실무자는 이게 "재앙이 일어나길 기다리는 것" 과 같다고 함. 나도 동의함
- 캐싱 패턴을 채택하기 위한 핵심은 의미론적 유사성에만 의존하는 대신, 안전하게 캐시하는 방법을 파악하는 것
- 왜 캐싱해야 할까? : 대기시간을 줄이고, LLM 요청수를 줄여서 비용을 절감
- 캐싱을 적용하는 방법?
- 사용자 요청 패턴을 잘 이해하는 것 부터 시작해야함
- 캐싱이 사용 패턴에 효과적인지 고려

# Guardrails: 출력 품질 보장

- LLM의 출력을 검증하여 출력이 좋게 보일 뿐만 아니라 구문적으로 정확하고 사실적이며 유해한 콘텐츠가 없는지 확인
- 왜 가드레일이 필요할까?
- 모델 출력이 생산에 사용할 수 있을 만큼 신뢰할 수 있고 일관성이 있는지 확인하는 데 도움이 됨
- 추가 안전 계층을 제공하고 LLM의 출력에 대한 품질 관리를 유지
- 한 가지 접근 방식은 프롬프트를 통해 모델의 응답을 제어하는 ​​것
- Anthropic은 모델이 도움이 되고 무해하며 정직한 (HHH) 응답을 생성하도록 안내하도록 설계된 프롬프트를 공유했음
- 보다 일반적인 접근 방식은 출력의 유효성을 검사하는 것 (Guardrails 패키지 같은)
- Nvidia의 NeMo-Guardrails는 유사한 원칙을 따르지만 LLM 기반 대화 시스템을 안내하도록 설계
- Microsoft의 Guidance 처럼 특정 문법을 준수하도록 출력을 직접 조정할 수도 있음 (LLM을 위한 DSL이라고 생각할 수 있음)
- 가드레일을 적용하는 방법
- Structural guidance
- Syntactic guardrails
- Content safety guardrails
- Semantic/factuality guardrails
- Input guardrails

# Defensive UX: 오류를 예측하고 관리하기 위해

- 방어적 UX는 사용자가 기계 학습 또는 LLM 기반 제품과 상호 작용하는 동안 부정확성이나 환각과 같은 나쁜 일이 발생할 수 있음을 인정하는 디자인 전략
- 주로 사용자 행동을 안내하고, 오용을 방지하고, 오류를 적절하게 처리함으로써 이를 미리 예측하고 관리하는 것이 목표
- 왜 방어적인 UX인가?
- 기계 학습과 LLM은 완벽하지 않음. 부정확한 결과를 생성할 수 있음
- 같은 질문에 대해서 다르게 반응함
- 방어적 UX는 다음을 제공하여 위의 문제를 완화하는 데 도움
- 접근성 향상, 신뢰도 증가, Better UX
- 회사들이 정리한 지침 참조
- Microsoft’s Guidelines for Human-AI Interaction
- Google’s People + AI Guidebook
- Apple’s Human Interface Guidelines for Machine Learning
- 방어적 UX를 적용하는 방법
- 올바른 기대치를 설정하기
- 효율적인 해제를 가능하게 하기(Enable efficient dismissal)
- Attribution 제공
- Anchor on familiarity

# Collect user feedback: 데이터 플라이 휠 구축

- 사용자 피드백을 수집하면 사용자의 선호도를 알 수 있음
- LLM 제품에 특정한 사용자 피드백은 평가, 미세 조정 및 가드레일 구축에 기여함
- 사전 교육을 위한 Corpus, 전문가가 만든 데모, 보상 모델링에 대한 인간의 선호도와 같은 데이터는 LLM 제품의 몇 안 되는 해자(Moat)임
- 피드백은 명시적이거나 암시적일 수 있음
- 명시적 피드백은 제품의 요청에 대한 응답으로 사용자가 제공하는 정보
- 암시적 피드백은 사용자가 의도적으로 피드백을 제공할 필요 없이 사용자 상호 작용에서 학습하는 정보
- 사용자 피드백을 수집하는 이유
- 사용자 피드백은 모델을 개선하는 데 도움이 됨
- 사용자가 좋아하는 것, 싫어하는 것 또는 불평하는 것을 학습함으로써 모델을 개선하여 그들의 요구 사항을 더 잘 충족시킬 수 있음
- 또한 개인의 선호도에 적응할 수 있음
- 피드백 루프는 시스템의 전반적인 성능을 평가하는 데 도움이 됨
- 사용자 피드백 수집 방법
- 사용자가 쉽게 피드백을 남길 수 있게 만들기: ChatGPT처럼 응답에 추천/비추천 선택
- 암시적 피드백도 고려하기 : 사용자가 제품과 상호 작용할 때 발생하는 정보
My custom instructions to fix chatGPT output:
----
I'm your technical manager Geoffrey Hinton who likes kanban boards and always requires you submit complete output, complete code that just works when I copy paste it to use in my own work.
----
Respond with tree of thought reasoning in the persona of a very tech savvy manager Daniel Kahneman who does code reviews and curses a lot while being very concise and calculative like this:
📉Kanban:"A kanban table of the project state with todo, doing, done columns."
🧐Problem: "A {system 2 thinking} denoscription of the problem in first principles and super short {system 1 thinking} potential solution ."
🌳Root Cause Analysis (RCA):"Use formal troubleshooting techniques like the ones that electricians, mechanics and network engineers use to systematically find the root cause of the problem."
4 Whys: "Iterate asking and responding to Why: 4 times successively to drill down to the root cause."
Complete solution:
Dont write categories as  🧐problem: 4 Whys: 🌳Root Cause Analysis (RCA): system 2: just the emojis 📉: 🧐: 4: 🌳: 2️⃣: 1️⃣: instead of full category names.
Always answer with the COMPLETE exhaustive FULL OUTPUT in a "John C. Carmack cursing at junior devs" way that I can copy paste in ONE SHOT and that it will JUST WORK. So DO NOT SKIP OR COMMENT OUT ANYTHING.
Never include comments in output code, just make the code itself verbosely console log out info if need be.
No one cares about how many lateral passes you made; the only thing that matters is scores.

Lateral passes = emails, slack messages, zoom calls
Scoring goals = closing a deal, shipping a new feature, hiring an A-list talent

Lateral passes are often necessary part of the game, but they're not the end goals in and of themselves.

We often confuse these two. A day filled with meetings and emails feels like a super productive day. Meetings and emails are important, but are ultimately lateral passes. Never lose sight of the goals and the score board.
"위고비는 올해 2분기 판매액 7억3500만달러를 기록해 지난해 같은 기간 대비 6배 상승했다. 노보노디스크의 또 다른 비만 치료제인 오젬픽 매출은 21억5500만달러로 지난해 동기 대비 59% 증가했다."

"두 비만 치료제의 활약에 힘입어 노보노디스크의 시가총액은 8월 평균 4203억달러를 기록, 덴마크의 국내총생산(GDP·4060억달러)마저 추월했다."

"덴마크 경제 내에 제약 산업의 역할이 증가하면서 통화 가치에 상승 압력을 받고 있다. 이로 인해 정책 금리 인하에 직접적인 연관성이 있다고 본다”

https://n.news.naver.com/mnews/article/050/0000067912
드림 빅을 읽으면서 인상깊게 본 문장들

"나는 회사 사람들에게 우리가 언젠가 앤호이저-부시를 사들일 것이라고 말하면서 웃곤 했죠. 사람들이 나를 미쳤다고 생각할까봐 지레 웃은겁니다. 비록 그건 한낱 꿈이었지만 앞날을 미리 그려보면 꿈을 성취할 가능성이 있죠."

"나와 내 회사를 아는 사람이라면 내가 항상 '큰 꿈이든 작은 꿈이든 성취하려면 똑같은 노력을 해야 한다'고 말하고 다닌다는걸 잘 알겁니다."

"하버드에서 배운, 내 본성의 일부가 된 다른 한 가지 요소는 사람을 선택하는 일의 중요성입니다. 그곳에서 나는 세계 최고의 인재들 틈에 섞여 있습니다. 탁월한 인재들이 사방에 깔려 있었죠. 그런 사실이 내 경력의 한 가지 특징인, 사람들을 선택하는 방식에 지대한 영향을 미쳤습니다."

레만은 스스로 직관이 전혀 없는 사람이라고 생각한다. 결정을 내릴 때면 주로 상식과 미래의 전망, 단순한 사고에 의존한다: "남아메리카를 살펴보았습니다. 베네수엘라의 최고 갑부가 누굽니까? 바로 양조 회사입니다. 콜롬비아 최고의 갑부는 누굽니까? 양조 회사 그룹이죠. 아르헨티나는요? 또 양조 회사입니다. 이들이 모두 천재일리는 없지요. 분명히 사업이 좋은 겁니다."

"우리가 한 일은 골드만삭스와 월마트를 조금씩 복제한 게 전부입니다. 그 이상은 아무것도 없어요."

https://product.kyobobook.co.kr/detail/S000001485423
The Taylor Swift Era’s tour is a global phenomenon but I don’t think many people realize the economic, physical, and artistic feat these shows really are:

- The show is 3hrs and 25 minutes long.
- Each concert is 44 songs, divided into 10 acts that portray each of her albums.
- Taylor wears 40 different outfits each night.
- It’s rumored to have cost upwards of $100m to produce.
- It is on track to gross more than $1B, the biggest in concert history.

Like this thing is top tier theatrics.
Forwarded from 요즘AI
마이크로소프트(MS)가 AoT(Algorithm of Thoughts)라는 새로운 AI 학습 방식에 대한 논문을 공개했습니다.

AoT는 인간의 '직관'을 알고리즘 체계에 통합하여 언어 모델의 추론 능력을 강화할 수 있는 기술이라고 합니다.

생각의 사슬이라고 알려져 있는 'CoT(Chain of Thoughts)'가 가끔 잘못된 중간 스텝을 제공하는 문제를 AoT의 알고리즘 예제를 통해 일정 부분 해결했다고 합니다.

언어 모델에게 인간이 사고하는 방식과 유사한 접근 방식을 가르치려는 연구들이 계속해서 나오는 것이 흥미롭네요.
사람 이란..
보통은
자극->반응 으로 평생을 살아 가는데

교육 을 받으면
자극->교과서적 해석->반응 을 하도록 하는데

AC2 를 받으면
자극->가장 중요한게 뭐지->해석x100->난이도 맞춤->되는 것부터 시도->반복

인듯함
Long context에 대한 생각.

사실 long context가 필요하지 않은 모델을 만들 수 있다면 (메모리 기록과 인출 메커니즘이 들어간다거나) 그게 최선일 것 같지만 뾰족히 그런 방법이 없다는 상황을 전제했을 때 long context를 잘 다룰 수 있어야 한다는 필요는 충분해 보인다.

요새 technical report가 다 그렇듯 딱히 정보가 없는 Claude 2 Technical Report (https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf) 지만, 가장 눈에 띄는 것이 있다면 100K 모델의 토큰 위치에 따른 loss 그래프이다. 100K를 넘어 200K 까지도 loss의 상승 없이 점진적으로 loss가 감소하는 것을 볼 수 있다.

이걸 대체 어떻게 한 걸까? OpenAI와 Anthropic만 알고 있는 비밀이 있는 것 같긴 하다. 그래도 공개된 방법 중에서 가장 나은 결과를 보여주고 있는 것은 positional embedding을 조작하는 방법이다. (https://kaiokendev.github.io/context, https://arxiv.org/abs/2306.15595) positional embedding을 extrapolation 하는 상황에서는 트랜스포머가 잘 작동하지 않지만 positional embedding을 쪼개 interpolation 하는 상황에서는 괜찮지 않을까 하는 것. 결과적으로는 덜 망가지는 정도의 결과는 보여주고 있다.

그리고 Coda Llama가 등장했다. (https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/) Code Llama에서도 positional embedding을 조작하는 방법을 사용했는데, 여기서는 RoPE의 특성을 활용해 sinusoidal embedding의 주파수를 조작한 다음 long context 샘플에 대해서 파인튜닝하는 방법을 사용했다. Claude 2 에서처럼 결과적으로 100K 까지 perplexity가 감소하는 예쁜 그래프를 얻을 수 있었다.

여기서 한 가지 짚어볼만한 것은 이렇게 짧은 길이에서 프리트레이닝하고 긴 길이에 대해 파인튜닝 하는 것은 Shortformer (https://arxiv.org/abs/2012.15832) 에서 나타난 것처럼 효율적일 뿐만 아니라 오히려 성능을 향상시킬 수도 있다는 부분일 듯 싶다.

그런데 이게 의미가 있는 것일까? perplexity가 0.1 떨어진다는 것이 어느 정도 의미인가? 물론 perplexity 0.1에 목숨을 걸어야 하는 상황이긴 하지만, 어쨌든 long context 문제에 대해서 아주 많은 정보를 주는 것 같지는 않다. 최소한 망가지지는 않는다 정도의 결과라고 할 수 있겠다.

그래서 Coda Llama에서는 (흔히 하는 것과 비슷한) Key Retrieval 과제를 수행했다. 특정한 상수르 리턴하는 함수를 입력해주고, 길이상 떨어진 지점에서 그 함수의 값을 예측하도록 하는 것이다. 함수와 질의가 얼마나 떨어져 있는가에 따라 long context에 대한 대응 능력을 대강 가늠할 수 있다.

결과적으로 파인튜닝한 16K context 내에서는 잘 되는 것으로 보이고, 그걸 넘어가면 완전히 안 되는 것 같지는 않은데 거의 안 되는 것 같은 경우도 발생한다. perplexity 감소와는 별개로 원하는 대로 움직여주지는 않는 것 같다.

그 이유가 무엇일까? 알기는 어렵지만 attention이 extrapolation 상황에서 망가지지 않는다는 것과 함께 attention이 long context 상황에서도 각 토큰을 잘 구분할 수 있는 능력이 필요하지 않은가 싶다. 토큰 임베딩을 그냥 평균 내기만 의미가 있는 것처럼, attention이 토큰들을 대강 뭉뚱그린다고 해도 의미는 있을 가능성이 있고, 성능적 향상이 있을 수도 있다. 그렇지만 우리가 원하는 것처럼 토큰들을 세부적으로 구분해서 반영하는 정도의 능력은 보여주지 못할 수도 있다. (https://arxiv.org/abs/2212.10554) 그래서 positional embedding에 대한 이해가 좀 더 필요할 듯 싶다.

이렇게 모델이 long context를 잘 모델링 할 수 있는가와는 별개로 long context에 대해 학습을 시킬 수 있는가 하는 것도 문제가 된다. 예를 들어 data parallel의 배치 축으로 샘플들을 쪼개는 것처럼 sequence 축으로도 샘플을 쪼개서 parallel하게 forward 할 수 있다면 어떨까 하는 생각을 해볼 수도 있겠다. 사실 트랜스포머는 attention을 제외한 다른 모든 레이어는 sequence 방향에 독립적이기 때문에 attention만 어떻게 하면(?) 가능할 수 있다.

Megatron-LM (https://arxiv.org/abs/2205.05198) 같은 경우에도 sequence parallel이 들어가 있긴 하지만, 이쪽은 attention보다는 layer norm 등에서 발생하는 activation을 쪼개는 것이라고 보는 쪽이 맞지 않을까 싶다. 아예 attention을 쪼개는 방향으로는 ring self attention (https://arxiv.org/abs/2105.13120) 을 사용하는 방법이 나왔었고, 더 최근에는 all-to-all communication을 사용한 더 단순한 방법이 deepspeed에 들어오기도 했다. (https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-ulysses) 시퀀스를 쪼개서 데이터를 입력해줘야 하는 부분이 필요하긴 하지만 그 외에 대해서는 all-to-all을 사용한 방법은 구현이 정말 단순하다. (https://github.com/microsoft/DeepSpeed/blob/master/deepspeed/sequence/layer.py) all-to-all로 qkv를 뿌려준 다음 output을 다시 all-to-all로 원복시키는 방식.
올해 3월부터 AI를 공부하기 시작하면서 과거 컴퓨터가 지금의 전 산업에서 사용되는 것처럼 그것보다 더 큰 영향을 줄 거라고 예상합니다. 앞으로 3-5년이 얼마나 빠르게 바뀔지 어떻게 바뀔지 상상하고 그 변화를 만들어가는 것은 아주 설레는 일인 것 같습니다.

창업자의 관점 이외에도 투자자의 관점에서 이 변화를 어떻게 바라보면 좋을까요? 인터넷, 모바일, 클라우드 웨이브를 오랫동안 경험하신 Storm Ventures의 남태희 대표님을 모시고 'AI 시대 어디에 투자해야 할까?'에 대해서 이야기해 보려고 합니다.

일방적인 강의보다는 AI 투자에 대해서 가지고 있는 여러 생각들을 자유롭게 나눌 수 있는 자리로 만들어보려고 합니다. AI와 투자 두 가지에 진심이신 분들을 모시니 많은 관심 부탁드려요 🤗

[AI 시대 어디에 투자해야 할까?_Storm Ventures x AGI Town in Seoul]

AI 기술의 미래와 투자에 관한 중요한 토론을 위한 밋업을 주최합니다. 스톰벤처스(Storm Ventures)의 남태희 대표님을 모시고, AI 투자와 창업에 관심 있는 분들과 함께 의견을 나눌 예정입니다.

📅 일시: 2023년 9월 4일, 오후 7-9시
📍 장소: 팀스파르타 오피스 (https://goo.gl/maps/Ec88AykC21ZWr7jL7)
🎤 타임테이블:
- 참여자 소개 (30분)
- 남태희 대표님: AI 트렌드와 기회 (30분)
- Q&A 및 자유토론

좌석은 20석으로 한정되어 있으며, 참가 확정은 9월 2일까지 이메일로 알려드립니다. 이 행사는 영어로 진행됩니다.

@Minjoo Kim 님께서 도와주셔서 진행할 수 있게된 세션입니다 🙏

👉참가신청: https://forms.gle/2Sbg1RLVsiL24JcW8

지난 3월에 정리했던 노트: https://www.notion.so/matthewcontinuouslearning/AI-Trend-101-March-28-723c41aa1ca54903a270c6801b3724fe?pvs=4
최근 몇몇 빅테크의 AI 제품 관련된 발표들을 보면 다음과 같은 느낌

OpenAI: 누가 뭐라든 마이웨이

MS: MS의 근본인 업무툴에 대한 입지를 더욱 공고히 하려 함

Google: 아 C바 모르겠고 일단 남들이 하는 거 다 함

Meta: 빈집털이

Amazon: 이기는 편 우리 편

🤣🤣