Forwarded from 요즘AI
마이크로소프트(MS)가 AoT(Algorithm of Thoughts)라는 새로운 AI 학습 방식에 대한 논문을 공개했습니다.
AoT는 인간의 '직관'을 알고리즘 체계에 통합하여 언어 모델의 추론 능력을 강화할 수 있는 기술이라고 합니다.
생각의 사슬이라고 알려져 있는 'CoT(Chain of Thoughts)'가 가끔 잘못된 중간 스텝을 제공하는 문제를 AoT의 알고리즘 예제를 통해 일정 부분 해결했다고 합니다.
언어 모델에게 인간이 사고하는 방식과 유사한 접근 방식을 가르치려는 연구들이 계속해서 나오는 것이 흥미롭네요.
AoT는 인간의 '직관'을 알고리즘 체계에 통합하여 언어 모델의 추론 능력을 강화할 수 있는 기술이라고 합니다.
생각의 사슬이라고 알려져 있는 'CoT(Chain of Thoughts)'가 가끔 잘못된 중간 스텝을 제공하는 문제를 AoT의 알고리즘 예제를 통해 일정 부분 해결했다고 합니다.
언어 모델에게 인간이 사고하는 방식과 유사한 접근 방식을 가르치려는 연구들이 계속해서 나오는 것이 흥미롭네요.
사람 이란..
보통은
자극->반응 으로 평생을 살아 가는데
교육 을 받으면
자극->교과서적 해석->반응 을 하도록 하는데
AC2 를 받으면
자극->가장 중요한게 뭐지->해석x100->난이도 맞춤->되는 것부터 시도->반복
인듯함
보통은
자극->반응 으로 평생을 살아 가는데
교육 을 받으면
자극->교과서적 해석->반응 을 하도록 하는데
AC2 를 받으면
자극->가장 중요한게 뭐지->해석x100->난이도 맞춤->되는 것부터 시도->반복
인듯함
Long context에 대한 생각.
사실 long context가 필요하지 않은 모델을 만들 수 있다면 (메모리 기록과 인출 메커니즘이 들어간다거나) 그게 최선일 것 같지만 뾰족히 그런 방법이 없다는 상황을 전제했을 때 long context를 잘 다룰 수 있어야 한다는 필요는 충분해 보인다.
요새 technical report가 다 그렇듯 딱히 정보가 없는 Claude 2 Technical Report (https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf) 지만, 가장 눈에 띄는 것이 있다면 100K 모델의 토큰 위치에 따른 loss 그래프이다. 100K를 넘어 200K 까지도 loss의 상승 없이 점진적으로 loss가 감소하는 것을 볼 수 있다.
이걸 대체 어떻게 한 걸까? OpenAI와 Anthropic만 알고 있는 비밀이 있는 것 같긴 하다. 그래도 공개된 방법 중에서 가장 나은 결과를 보여주고 있는 것은 positional embedding을 조작하는 방법이다. (https://kaiokendev.github.io/context, https://arxiv.org/abs/2306.15595) positional embedding을 extrapolation 하는 상황에서는 트랜스포머가 잘 작동하지 않지만 positional embedding을 쪼개 interpolation 하는 상황에서는 괜찮지 않을까 하는 것. 결과적으로는 덜 망가지는 정도의 결과는 보여주고 있다.
그리고 Coda Llama가 등장했다. (https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/) Code Llama에서도 positional embedding을 조작하는 방법을 사용했는데, 여기서는 RoPE의 특성을 활용해 sinusoidal embedding의 주파수를 조작한 다음 long context 샘플에 대해서 파인튜닝하는 방법을 사용했다. Claude 2 에서처럼 결과적으로 100K 까지 perplexity가 감소하는 예쁜 그래프를 얻을 수 있었다.
여기서 한 가지 짚어볼만한 것은 이렇게 짧은 길이에서 프리트레이닝하고 긴 길이에 대해 파인튜닝 하는 것은 Shortformer (https://arxiv.org/abs/2012.15832) 에서 나타난 것처럼 효율적일 뿐만 아니라 오히려 성능을 향상시킬 수도 있다는 부분일 듯 싶다.
그런데 이게 의미가 있는 것일까? perplexity가 0.1 떨어진다는 것이 어느 정도 의미인가? 물론 perplexity 0.1에 목숨을 걸어야 하는 상황이긴 하지만, 어쨌든 long context 문제에 대해서 아주 많은 정보를 주는 것 같지는 않다. 최소한 망가지지는 않는다 정도의 결과라고 할 수 있겠다.
그래서 Coda Llama에서는 (흔히 하는 것과 비슷한) Key Retrieval 과제를 수행했다. 특정한 상수르 리턴하는 함수를 입력해주고, 길이상 떨어진 지점에서 그 함수의 값을 예측하도록 하는 것이다. 함수와 질의가 얼마나 떨어져 있는가에 따라 long context에 대한 대응 능력을 대강 가늠할 수 있다.
결과적으로 파인튜닝한 16K context 내에서는 잘 되는 것으로 보이고, 그걸 넘어가면 완전히 안 되는 것 같지는 않은데 거의 안 되는 것 같은 경우도 발생한다. perplexity 감소와는 별개로 원하는 대로 움직여주지는 않는 것 같다.
그 이유가 무엇일까? 알기는 어렵지만 attention이 extrapolation 상황에서 망가지지 않는다는 것과 함께 attention이 long context 상황에서도 각 토큰을 잘 구분할 수 있는 능력이 필요하지 않은가 싶다. 토큰 임베딩을 그냥 평균 내기만 의미가 있는 것처럼, attention이 토큰들을 대강 뭉뚱그린다고 해도 의미는 있을 가능성이 있고, 성능적 향상이 있을 수도 있다. 그렇지만 우리가 원하는 것처럼 토큰들을 세부적으로 구분해서 반영하는 정도의 능력은 보여주지 못할 수도 있다. (https://arxiv.org/abs/2212.10554) 그래서 positional embedding에 대한 이해가 좀 더 필요할 듯 싶다.
이렇게 모델이 long context를 잘 모델링 할 수 있는가와는 별개로 long context에 대해 학습을 시킬 수 있는가 하는 것도 문제가 된다. 예를 들어 data parallel의 배치 축으로 샘플들을 쪼개는 것처럼 sequence 축으로도 샘플을 쪼개서 parallel하게 forward 할 수 있다면 어떨까 하는 생각을 해볼 수도 있겠다. 사실 트랜스포머는 attention을 제외한 다른 모든 레이어는 sequence 방향에 독립적이기 때문에 attention만 어떻게 하면(?) 가능할 수 있다.
Megatron-LM (https://arxiv.org/abs/2205.05198) 같은 경우에도 sequence parallel이 들어가 있긴 하지만, 이쪽은 attention보다는 layer norm 등에서 발생하는 activation을 쪼개는 것이라고 보는 쪽이 맞지 않을까 싶다. 아예 attention을 쪼개는 방향으로는 ring self attention (https://arxiv.org/abs/2105.13120) 을 사용하는 방법이 나왔었고, 더 최근에는 all-to-all communication을 사용한 더 단순한 방법이 deepspeed에 들어오기도 했다. (https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-ulysses) 시퀀스를 쪼개서 데이터를 입력해줘야 하는 부분이 필요하긴 하지만 그 외에 대해서는 all-to-all을 사용한 방법은 구현이 정말 단순하다. (https://github.com/microsoft/DeepSpeed/blob/master/deepspeed/sequence/layer.py) all-to-all로 qkv를 뿌려준 다음 output을 다시 all-to-all로 원복시키는 방식.
사실 long context가 필요하지 않은 모델을 만들 수 있다면 (메모리 기록과 인출 메커니즘이 들어간다거나) 그게 최선일 것 같지만 뾰족히 그런 방법이 없다는 상황을 전제했을 때 long context를 잘 다룰 수 있어야 한다는 필요는 충분해 보인다.
요새 technical report가 다 그렇듯 딱히 정보가 없는 Claude 2 Technical Report (https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf) 지만, 가장 눈에 띄는 것이 있다면 100K 모델의 토큰 위치에 따른 loss 그래프이다. 100K를 넘어 200K 까지도 loss의 상승 없이 점진적으로 loss가 감소하는 것을 볼 수 있다.
이걸 대체 어떻게 한 걸까? OpenAI와 Anthropic만 알고 있는 비밀이 있는 것 같긴 하다. 그래도 공개된 방법 중에서 가장 나은 결과를 보여주고 있는 것은 positional embedding을 조작하는 방법이다. (https://kaiokendev.github.io/context, https://arxiv.org/abs/2306.15595) positional embedding을 extrapolation 하는 상황에서는 트랜스포머가 잘 작동하지 않지만 positional embedding을 쪼개 interpolation 하는 상황에서는 괜찮지 않을까 하는 것. 결과적으로는 덜 망가지는 정도의 결과는 보여주고 있다.
그리고 Coda Llama가 등장했다. (https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/) Code Llama에서도 positional embedding을 조작하는 방법을 사용했는데, 여기서는 RoPE의 특성을 활용해 sinusoidal embedding의 주파수를 조작한 다음 long context 샘플에 대해서 파인튜닝하는 방법을 사용했다. Claude 2 에서처럼 결과적으로 100K 까지 perplexity가 감소하는 예쁜 그래프를 얻을 수 있었다.
여기서 한 가지 짚어볼만한 것은 이렇게 짧은 길이에서 프리트레이닝하고 긴 길이에 대해 파인튜닝 하는 것은 Shortformer (https://arxiv.org/abs/2012.15832) 에서 나타난 것처럼 효율적일 뿐만 아니라 오히려 성능을 향상시킬 수도 있다는 부분일 듯 싶다.
그런데 이게 의미가 있는 것일까? perplexity가 0.1 떨어진다는 것이 어느 정도 의미인가? 물론 perplexity 0.1에 목숨을 걸어야 하는 상황이긴 하지만, 어쨌든 long context 문제에 대해서 아주 많은 정보를 주는 것 같지는 않다. 최소한 망가지지는 않는다 정도의 결과라고 할 수 있겠다.
그래서 Coda Llama에서는 (흔히 하는 것과 비슷한) Key Retrieval 과제를 수행했다. 특정한 상수르 리턴하는 함수를 입력해주고, 길이상 떨어진 지점에서 그 함수의 값을 예측하도록 하는 것이다. 함수와 질의가 얼마나 떨어져 있는가에 따라 long context에 대한 대응 능력을 대강 가늠할 수 있다.
결과적으로 파인튜닝한 16K context 내에서는 잘 되는 것으로 보이고, 그걸 넘어가면 완전히 안 되는 것 같지는 않은데 거의 안 되는 것 같은 경우도 발생한다. perplexity 감소와는 별개로 원하는 대로 움직여주지는 않는 것 같다.
그 이유가 무엇일까? 알기는 어렵지만 attention이 extrapolation 상황에서 망가지지 않는다는 것과 함께 attention이 long context 상황에서도 각 토큰을 잘 구분할 수 있는 능력이 필요하지 않은가 싶다. 토큰 임베딩을 그냥 평균 내기만 의미가 있는 것처럼, attention이 토큰들을 대강 뭉뚱그린다고 해도 의미는 있을 가능성이 있고, 성능적 향상이 있을 수도 있다. 그렇지만 우리가 원하는 것처럼 토큰들을 세부적으로 구분해서 반영하는 정도의 능력은 보여주지 못할 수도 있다. (https://arxiv.org/abs/2212.10554) 그래서 positional embedding에 대한 이해가 좀 더 필요할 듯 싶다.
이렇게 모델이 long context를 잘 모델링 할 수 있는가와는 별개로 long context에 대해 학습을 시킬 수 있는가 하는 것도 문제가 된다. 예를 들어 data parallel의 배치 축으로 샘플들을 쪼개는 것처럼 sequence 축으로도 샘플을 쪼개서 parallel하게 forward 할 수 있다면 어떨까 하는 생각을 해볼 수도 있겠다. 사실 트랜스포머는 attention을 제외한 다른 모든 레이어는 sequence 방향에 독립적이기 때문에 attention만 어떻게 하면(?) 가능할 수 있다.
Megatron-LM (https://arxiv.org/abs/2205.05198) 같은 경우에도 sequence parallel이 들어가 있긴 하지만, 이쪽은 attention보다는 layer norm 등에서 발생하는 activation을 쪼개는 것이라고 보는 쪽이 맞지 않을까 싶다. 아예 attention을 쪼개는 방향으로는 ring self attention (https://arxiv.org/abs/2105.13120) 을 사용하는 방법이 나왔었고, 더 최근에는 all-to-all communication을 사용한 더 단순한 방법이 deepspeed에 들어오기도 했다. (https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-ulysses) 시퀀스를 쪼개서 데이터를 입력해줘야 하는 부분이 필요하긴 하지만 그 외에 대해서는 all-to-all을 사용한 방법은 구현이 정말 단순하다. (https://github.com/microsoft/DeepSpeed/blob/master/deepspeed/sequence/layer.py) all-to-all로 qkv를 뿌려준 다음 output을 다시 all-to-all로 원복시키는 방식.
올해 3월부터 AI를 공부하기 시작하면서 과거 컴퓨터가 지금의 전 산업에서 사용되는 것처럼 그것보다 더 큰 영향을 줄 거라고 예상합니다. 앞으로 3-5년이 얼마나 빠르게 바뀔지 어떻게 바뀔지 상상하고 그 변화를 만들어가는 것은 아주 설레는 일인 것 같습니다.
창업자의 관점 이외에도 투자자의 관점에서 이 변화를 어떻게 바라보면 좋을까요? 인터넷, 모바일, 클라우드 웨이브를 오랫동안 경험하신 Storm Ventures의 남태희 대표님을 모시고 'AI 시대 어디에 투자해야 할까?'에 대해서 이야기해 보려고 합니다.
일방적인 강의보다는 AI 투자에 대해서 가지고 있는 여러 생각들을 자유롭게 나눌 수 있는 자리로 만들어보려고 합니다. AI와 투자 두 가지에 진심이신 분들을 모시니 많은 관심 부탁드려요 🤗
[AI 시대 어디에 투자해야 할까?_Storm Ventures x AGI Town in Seoul]
AI 기술의 미래와 투자에 관한 중요한 토론을 위한 밋업을 주최합니다. 스톰벤처스(Storm Ventures)의 남태희 대표님을 모시고, AI 투자와 창업에 관심 있는 분들과 함께 의견을 나눌 예정입니다.
📅 일시: 2023년 9월 4일, 오후 7-9시
📍 장소: 팀스파르타 오피스 (https://goo.gl/maps/Ec88AykC21ZWr7jL7)
🎤 타임테이블:
- 참여자 소개 (30분)
- 남태희 대표님: AI 트렌드와 기회 (30분)
- Q&A 및 자유토론
좌석은 20석으로 한정되어 있으며, 참가 확정은 9월 2일까지 이메일로 알려드립니다. 이 행사는 영어로 진행됩니다.
@Minjoo Kim 님께서 도와주셔서 진행할 수 있게된 세션입니다 🙏
👉참가신청: https://forms.gle/2Sbg1RLVsiL24JcW8
지난 3월에 정리했던 노트: https://www.notion.so/matthewcontinuouslearning/AI-Trend-101-March-28-723c41aa1ca54903a270c6801b3724fe?pvs=4
창업자의 관점 이외에도 투자자의 관점에서 이 변화를 어떻게 바라보면 좋을까요? 인터넷, 모바일, 클라우드 웨이브를 오랫동안 경험하신 Storm Ventures의 남태희 대표님을 모시고 'AI 시대 어디에 투자해야 할까?'에 대해서 이야기해 보려고 합니다.
일방적인 강의보다는 AI 투자에 대해서 가지고 있는 여러 생각들을 자유롭게 나눌 수 있는 자리로 만들어보려고 합니다. AI와 투자 두 가지에 진심이신 분들을 모시니 많은 관심 부탁드려요 🤗
[AI 시대 어디에 투자해야 할까?_Storm Ventures x AGI Town in Seoul]
AI 기술의 미래와 투자에 관한 중요한 토론을 위한 밋업을 주최합니다. 스톰벤처스(Storm Ventures)의 남태희 대표님을 모시고, AI 투자와 창업에 관심 있는 분들과 함께 의견을 나눌 예정입니다.
📅 일시: 2023년 9월 4일, 오후 7-9시
📍 장소: 팀스파르타 오피스 (https://goo.gl/maps/Ec88AykC21ZWr7jL7)
🎤 타임테이블:
- 참여자 소개 (30분)
- 남태희 대표님: AI 트렌드와 기회 (30분)
- Q&A 및 자유토론
좌석은 20석으로 한정되어 있으며, 참가 확정은 9월 2일까지 이메일로 알려드립니다. 이 행사는 영어로 진행됩니다.
@Minjoo Kim 님께서 도와주셔서 진행할 수 있게된 세션입니다 🙏
👉참가신청: https://forms.gle/2Sbg1RLVsiL24JcW8
지난 3월에 정리했던 노트: https://www.notion.so/matthewcontinuouslearning/AI-Trend-101-March-28-723c41aa1ca54903a270c6801b3724fe?pvs=4
팀스파르타(주) · South Korea, Seoul, Gangnam-gu, Teheran-ro 44-gil, 8 12 층 13 층
★★★★★ · Corporate office
최근 몇몇 빅테크의 AI 제품 관련된 발표들을 보면 다음과 같은 느낌
OpenAI: 누가 뭐라든 마이웨이
MS: MS의 근본인 업무툴에 대한 입지를 더욱 공고히 하려 함
Google: 아 C바 모르겠고 일단 남들이 하는 거 다 함
Meta: 빈집털이
Amazon: 이기는 편 우리 편
🤣🤣
OpenAI: 누가 뭐라든 마이웨이
MS: MS의 근본인 업무툴에 대한 입지를 더욱 공고히 하려 함
Google: 아 C바 모르겠고 일단 남들이 하는 거 다 함
Meta: 빈집털이
Amazon: 이기는 편 우리 편
🤣🤣
Do we really need a dedicated vector store?
This new study suggests that "from a simple cost–benefit analysis, there does not appear to be a compelling reason to introduce a dedicated vector store into a modern “AI stack” for search, since such applications have already received substantial investments in existing, widely deployed infrastructure."
There are definitely cost benefits with the proposed alternative (HNSW indexes in Lucene). There is a nice analysis/comparison with alternatives in the paper. Not sure how widely applicable the insights from the experimental results are but still a great read, especially if you are looking to integrate LLMs with external knowledge or memory.
It's also interesting to see the use of Lucene as a counterpoint. I've used Lucene-dependent solutions in the past but they have been notably slow to adapt to new trends in representation learning. That is changing fast.
paper: https://arxiv.org/abs/2308.14963
I also provide weekly summaries of the latest and most important AI research and developments here: https://nlp.elvissaravia.com/
This new study suggests that "from a simple cost–benefit analysis, there does not appear to be a compelling reason to introduce a dedicated vector store into a modern “AI stack” for search, since such applications have already received substantial investments in existing, widely deployed infrastructure."
There are definitely cost benefits with the proposed alternative (HNSW indexes in Lucene). There is a nice analysis/comparison with alternatives in the paper. Not sure how widely applicable the insights from the experimental results are but still a great read, especially if you are looking to integrate LLMs with external knowledge or memory.
It's also interesting to see the use of Lucene as a counterpoint. I've used Lucene-dependent solutions in the past but they have been notably slow to adapt to new trends in representation learning. That is changing fast.
paper: https://arxiv.org/abs/2308.14963
I also provide weekly summaries of the latest and most important AI research and developments here: https://nlp.elvissaravia.com/
Elvissaravia
AI Newsletter | elvis | Substack
The AI Newsletter provides weekly summaries of the latest and top AI trends, papers, tools, news, and best practices. Home of Top AI Papers of the Week and AI Agents Weekly series. Click to read AI Newsletter, by elvis, a Substack publication with tens of…
Forwarded from BZCF | 비즈까페
미국 대단한 이유는 10조 되는 이런 회사들 계속 등장하기 때문이라고 생각한다. 10조 회사면 코스피로 당장 들어와도 30위 권... 코로나 때는 90조 가까이 밸류 먹어서 최고점 대비하면 아주 많이 꺾였지만 그래도 아직도 10조. 창업자도 솔직하고 대화하는 스타일도 시원하다. 미국에는 이런 훌륭한 기업들 계속 나오는 이유가 시장 크기 빼고 또 무엇 때문일까?
https://youtu.be/9TmnCo8zhCA?si=fXBcjtc-TCAcx1Iu
https://youtu.be/9TmnCo8zhCA?si=fXBcjtc-TCAcx1Iu
YouTube
트윌리오 | 아마존 개발자 출신 창업자 15년 만에 10조 기업을 만들다
영상 출처 (미번역) : https://www.youtube.com/watch?v=Cy9MF4ISbcU
인터뷰 년도 : 2022년
DISCLAIMER
- The copyright of the original video belongs to the original copyright holder.
- We check the copyright permission through the YouTube system, and if it is not confirmed…
인터뷰 년도 : 2022년
DISCLAIMER
- The copyright of the original video belongs to the original copyright holder.
- We check the copyright permission through the YouTube system, and if it is not confirmed…
👍1
모임의 짧은 요약 ㅎㅎ
https://trevari.co.kr/events/show?eventID=3017cd79-5bd1-4316-9c45-a070fa084bdd
수면 영양 운동 -> 사람 책-> 복리효과 -> 퀄리티있는 의사결정 -> 레버리지 -> 운과 리스크 테이킹
==> 인생에서 원하는것
1. 수면, 영양, 운동이 인생의 토양이다. 이게 되야 다른 일도 더 잘한다.
2. 좋은 사람과, 좋은 책을 곁에 두다보면 좋은 의사결정을 할 수 있는 실력이 는다.
3. 좋은 의사결정을 해야 리스크 테이킹을 잘할 수 있고 운도 따라올 수 있다.
4. 레버리지를 하면서 부가 몇번씩 크게 성장한다.
5. 운을 높이기 위한 노력을 한다. 친절하고 주변사람들에게 최선을 다하고 하루하루 쌓아가는 영역이다.
6. 운/좋은 의사결정/ 레버리지 모두 복리효과(Compound interest)가 있다.
7. 궁극적으로 인생에서 원하는 일을 하면서 잘 사는 게 중요하다. 건강-> 부 -> 미션
https://trevari.co.kr/events/show?eventID=3017cd79-5bd1-4316-9c45-a070fa084bdd
수면 영양 운동 -> 사람 책-> 복리효과 -> 퀄리티있는 의사결정 -> 레버리지 -> 운과 리스크 테이킹
==> 인생에서 원하는것
1. 수면, 영양, 운동이 인생의 토양이다. 이게 되야 다른 일도 더 잘한다.
2. 좋은 사람과, 좋은 책을 곁에 두다보면 좋은 의사결정을 할 수 있는 실력이 는다.
3. 좋은 의사결정을 해야 리스크 테이킹을 잘할 수 있고 운도 따라올 수 있다.
4. 레버리지를 하면서 부가 몇번씩 크게 성장한다.
5. 운을 높이기 위한 노력을 한다. 친절하고 주변사람들에게 최선을 다하고 하루하루 쌓아가는 영역이다.
6. 운/좋은 의사결정/ 레버리지 모두 복리효과(Compound interest)가 있다.
7. 궁극적으로 인생에서 원하는 일을 하면서 잘 사는 게 중요하다. 건강-> 부 -> 미션
❤1
However, the people behind these projects often don’t have the resources available to pursue their work to conclusion or maintain it in the long run. The situation is more acute in AI than traditional infrastructure, since even fine-tuning models requires significant GPU computing resources, especially as open source models get larger.
To help close this resource gap, we’re announcing today the a16z Open Source AI Grant program. We’ll support a small group of open source developers through grant funding (not an investment or SAFE note), giving them the opportunity to continue their work without the pressure to generate financial returns.
We’re also announcing the first batch of grant recipients and funded projects:
• Jon Durbin (Airoboros): instruction-tuning LLMs on synthetic data
• Eric Hartford: fine-tuning uncensored LLMs
• Jeremy Howard (fast.ai): fine-tuning foundation models for vertical applications
• Tom Jobbins (TheBloke): quantizing LLMs to run locally
• Woosuk Kwon and Zhuohan Li (vLLM): library for high-throughput LLM inference
• Nous Research: new fine-tuned language models akin to the Nous Hermes and Puffin series
• oobabooga: web UI and platform for local LLMs
• Teknium: synthetic data pipelines for LLM training
We want to thank them for their contributions to the field, and for fostering open collaboration, learning, and advancement in AI.
We’re also announcing the first batch of grant recipients and funded projects:
• Jon Durbin (Airoboros): instruction-tuning LLMs on synthetic data
• Eric Hartford: fine-tuning uncensored LLMs
• Jeremy Howard (fast.ai): fine-tuning foundation models for vertical applications
• Tom Jobbins (TheBloke): quantizing LLMs to run locally
• Woosuk Kwon and Zhuohan Li (vLLM): library for high-throughput LLM inference
• Nous Research: new fine-tuned language models akin to the Nous Hermes and Puffin series
• oobabooga: web UI and platform for local LLMs
• Teknium: synthetic data pipelines for LLM training
We want to thank them for their contributions to the field, and for fostering open collaboration, learning, and advancement in AI.
huggingface.co
jondurbin (Jon Durbin)
User profile of Jon Durbin on Hugging Face
어제 AGI Town in Seoul 의 첫 발표에서 추천한 책 중에 주데아 펄(Judea Pearl)의 Causality 가 있었는데 최근에 대중 버전으로 나온 The Book of Why 도 있습니다.
대개 통계를 배우게 되면 데이터로부터 알 수 있는 것은 데이터의 상관관계이지 인과관계까지 알 수는 없다고 배우고 그래서 상관관계를 인과관계로 잘못 해석하는 일이 없도록 주의하라고 배웁니다.
주데아 펄은 컴퓨터 과학자이자 철학자로 컴퓨터 과학의 노벨상이라고 할 수 있는 튜링상을 수상하기도 했습니다. 이 Causality(인과관계)라는 책에서 인과관계를 추정하는 방법으로 구조 방정식 모델링이라는 방법을 제시했다고 할 수 있습니다.
아래는 아마존의 Causality(인과관계) 소개 글을 DeepL로 번역한 겁니다.
"이 분야의 저명한 연구자 중 한 명이 쓴 이 책은 인과관계에 대한 현대적 분석에 대한 포괄적인 설명을 제공합니다. 이 책은 인과관계가 모호한 개념에서 통계, 인공 지능, 경제, 철학, 인지 과학, 보건 및 사회 과학 분야에서 중요한 응용 분야를 가진 수학적 이론으로 어떻게 성장했는지를 보여줍니다. 쥬데아 펄은 인과관계에 대한 확률적, 조작적, 사실적, 구조적 접근법을 제시하고 통합하며 인과관계와 통계적 연관성 사이의 관계를 연구하기 위한 간단한 수학적 도구를 고안합니다. 이 책은 통계, 인공 지능, 비즈니스, 역학, 사회과학, 경제학의 표준 커리큘럼에 인과 분석을 포함할 수 있는 길을 열어줄 것입니다. 이러한 분야의 학생들은 기존 교과서가 회피하거나 지나치게 복잡하게 만든 인과 관계 개념에 대한 자연스러운 모델, 간단한 추론 절차, 정확한 수학적 정의를 발견하게 될 것입니다. 인과관계의 초판은 통계학, 철학, 컴퓨터 과학, 사회과학, 경제학에서 인과관계를 다루는 방식에 패러다임의 변화를 가져왔습니다. 5,000개 이상의 과학 출판물에 인용된 이 책은 과학자들을 전통적인 통계적 사고의 틀에서 벗어나게 해주고 있습니다. 이번 개정판에서 쥬데아 펄은 까다로운 문제를 해명하고, 독자의 질문에 답하며, 이 연구 분야의 최근 진전을 한눈에 볼 수 있는 시각을 제공합니다. 인과관계는 다양한 분야의 학생과 전문가들이 관심을 가질 만한 주제입니다. 데이터에서 의미 있는 관계를 규명하고, 행동과 정책의 효과를 예측하고, 보고된 사건에 대한 설명을 평가하고, 인과관계 이해와 인과관계 연설에 대한 이론을 형성하고자 하는 사람이라면 누구나 이 책을 통해 자극을 받고 귀중한 정보를 얻을 수 있을 것입니다."
두 책 모두 한국어 번역서는 아직 없는 듯합니다.
Causality
https://www.amazon.com/Causality-Reasoning.../dp/052189560X
The Book of Why: The New Science of Cause and Effect
https://www.amazon.com/Book-Why-Science.../dp/046509760X
대개 통계를 배우게 되면 데이터로부터 알 수 있는 것은 데이터의 상관관계이지 인과관계까지 알 수는 없다고 배우고 그래서 상관관계를 인과관계로 잘못 해석하는 일이 없도록 주의하라고 배웁니다.
주데아 펄은 컴퓨터 과학자이자 철학자로 컴퓨터 과학의 노벨상이라고 할 수 있는 튜링상을 수상하기도 했습니다. 이 Causality(인과관계)라는 책에서 인과관계를 추정하는 방법으로 구조 방정식 모델링이라는 방법을 제시했다고 할 수 있습니다.
아래는 아마존의 Causality(인과관계) 소개 글을 DeepL로 번역한 겁니다.
"이 분야의 저명한 연구자 중 한 명이 쓴 이 책은 인과관계에 대한 현대적 분석에 대한 포괄적인 설명을 제공합니다. 이 책은 인과관계가 모호한 개념에서 통계, 인공 지능, 경제, 철학, 인지 과학, 보건 및 사회 과학 분야에서 중요한 응용 분야를 가진 수학적 이론으로 어떻게 성장했는지를 보여줍니다. 쥬데아 펄은 인과관계에 대한 확률적, 조작적, 사실적, 구조적 접근법을 제시하고 통합하며 인과관계와 통계적 연관성 사이의 관계를 연구하기 위한 간단한 수학적 도구를 고안합니다. 이 책은 통계, 인공 지능, 비즈니스, 역학, 사회과학, 경제학의 표준 커리큘럼에 인과 분석을 포함할 수 있는 길을 열어줄 것입니다. 이러한 분야의 학생들은 기존 교과서가 회피하거나 지나치게 복잡하게 만든 인과 관계 개념에 대한 자연스러운 모델, 간단한 추론 절차, 정확한 수학적 정의를 발견하게 될 것입니다. 인과관계의 초판은 통계학, 철학, 컴퓨터 과학, 사회과학, 경제학에서 인과관계를 다루는 방식에 패러다임의 변화를 가져왔습니다. 5,000개 이상의 과학 출판물에 인용된 이 책은 과학자들을 전통적인 통계적 사고의 틀에서 벗어나게 해주고 있습니다. 이번 개정판에서 쥬데아 펄은 까다로운 문제를 해명하고, 독자의 질문에 답하며, 이 연구 분야의 최근 진전을 한눈에 볼 수 있는 시각을 제공합니다. 인과관계는 다양한 분야의 학생과 전문가들이 관심을 가질 만한 주제입니다. 데이터에서 의미 있는 관계를 규명하고, 행동과 정책의 효과를 예측하고, 보고된 사건에 대한 설명을 평가하고, 인과관계 이해와 인과관계 연설에 대한 이론을 형성하고자 하는 사람이라면 누구나 이 책을 통해 자극을 받고 귀중한 정보를 얻을 수 있을 것입니다."
두 책 모두 한국어 번역서는 아직 없는 듯합니다.
Causality
https://www.amazon.com/Causality-Reasoning.../dp/052189560X
The Book of Why: The New Science of Cause and Effect
https://www.amazon.com/Book-Why-Science.../dp/046509760X
❤1👍1🤩1
Life is, contrary to what every drunk little league dad is convinced of, not like sports. Sports have specific rules. As confident as you are, you might be able to convince people for a few seconds as confusion still reigns. But when the dust settles? It was ball three. And then you're out. The rules come for everyone (unless... you know, like roids I guess.)
In life, we play games that are riddled with a lack of rules. And, to Nate's point, confidence can get you quite far. Because so many of the games we're playing are pretty stupid games.
Every company wants to have the biggest aspirations. And often, those hungry ambitions are what makes a great founder. But anchoring your expectations in a different game will almost always lead to dissatisfaction. Michael Jordan was the greatest basketball player of all time, but a middling baseball player. The games we play should shape our expectations about our potential outcomes.
Granted, it isn't just founders that are shaping these expected (and often dramatically inflated) outcomes. The business model of venture capital has done a lot to force founders to focus on very different games because investors need very different outcomes to make their own math work.
Stupider games are not realizing that other people are playing different games. OpenAI is playing a different game. Capital agglomerators are playing different games. Chamath is playing a different game. One of the biggest obstacles to most of the systems in the world, whether its healthcare, criminal justice, mental health, housing, or capitalism itself—all of them are filled with people playing different games.
In life, we play games that are riddled with a lack of rules. And, to Nate's point, confidence can get you quite far. Because so many of the games we're playing are pretty stupid games.
Every company wants to have the biggest aspirations. And often, those hungry ambitions are what makes a great founder. But anchoring your expectations in a different game will almost always lead to dissatisfaction. Michael Jordan was the greatest basketball player of all time, but a middling baseball player. The games we play should shape our expectations about our potential outcomes.
Granted, it isn't just founders that are shaping these expected (and often dramatically inflated) outcomes. The business model of venture capital has done a lot to force founders to focus on very different games because investors need very different outcomes to make their own math work.
Stupider games are not realizing that other people are playing different games. OpenAI is playing a different game. Capital agglomerators are playing different games. Chamath is playing a different game. One of the biggest obstacles to most of the systems in the world, whether its healthcare, criminal justice, mental health, housing, or capitalism itself—all of them are filled with people playing different games.
Forwarded from Frontier by 김도엽
Playing different games: 스타트업 펀딩에 대한 고찰.
내가 어떤 판에 속해있는지 이해하고, 나랑 맞는 게임을 해야한다.
사람들은 다 각자의 게임을 하고 있다. 그걸 이해하지 못하면, 파편화된 현대사회를 제대로 바라보지 못하게 되는 것.
이번 주에 읽은 글 중 가장 흥미롭다.
https://investing1012dot0.substack.com/p/player-different-stupider-games?trk=feed_main-feed-card_feed-article-content
내가 어떤 판에 속해있는지 이해하고, 나랑 맞는 게임을 해야한다.
사람들은 다 각자의 게임을 하고 있다. 그걸 이해하지 못하면, 파편화된 현대사회를 제대로 바라보지 못하게 되는 것.
이번 주에 읽은 글 중 가장 흥미롭다.
https://investing1012dot0.substack.com/p/player-different-stupider-games?trk=feed_main-feed-card_feed-article-content
Investing 101
Playing Different (Stupider) Games
The Other End Of The Valuation Stick