어떻게 보면 AI 리스크를 통해서도 Hype을 이어가고 있었는데 말이죠.
여기에 관한 제 관전 포인트는...
The AI Apocalypse: A Scorecard How worried are top AI experts about the threat posed by large language models like GPT-4? ( https://spectrum.ieee.org/artificial-general-intelligence )
Munk Debate on Artificial Intelligence ( https://munkdebates.com/livestreamai )
의 인선을 보듯, 몇 가지 잘 알려진 입장들이 있는데... 굳이 이 입장들을 협의해서 하나로 할 필요없이,
OpenAI 등에서 이야기하는 얼라인먼트에 대한 이슈는 그쪽 그룹에서,
제프리 힌튼 등이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
요슈아 벤지오 등이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
장기주의자/효율적 이타주의자 등의 계열이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
멜라니 미첼, 확률적 앵무새 저자 계열이 걱정하는 바는 그쪽 그룹에서,
엘리에저 윳코우스키나 게리 마커스 계열은 또 그쪽 나름으로,
얀 르쿤 등의 그룹도 역시 그쪽 나름의 화두로,
앤드류 응이 말하는 것 처럼 공감대를 형성하는 것은 또 앤드류 응 등의 그룹에서,
EU나 미의회 쪽의 규제 논의도 나름의 방식으로~
각자의 입장에서 각자 우려하는 '리스크'를 완화하는 도전을 하고 그 성과를 공유하면 Anthropic이 이야기한 다양한 수준의 'AI 리스크'에 각각 대응하는 헷징을 하는 접근, Core Views on AI Safety: When, Why, What, and How( https://www.anthropic.com/index/core-views-on-ai-safety )과 비슷해지는 모양새라...
이제 나올법한 논의는 꽤 나왔고 이 또한 당분간은 '와우!'는 없을 것 같단 전망을 하게된달까요. 정말 AI 리스크가 크게 터지는 사건이 일어난다면 이 AI 리스크 이슈가 크게 부각되며 AI Hype에 일조하겠지만 그러지 않는다면, 아이러니하게도 이 또한 정체감에 일조할 수 있겠습니다.
기반이 되는 기술 진보에서 '와우!'가 없다면 여기에 토대를 두는 예술/퍼포먼스 분야에서도 아직 이걸 접목해 보지 않은 도메인이나 장르와 만남이 있을 때 잠깐 잠깐 이슈가 만들어지겠지만, 어디서 봤던 기시감이 들며 정체감이 일어날 수 있을 겁니다.
마찬가지로 역시 토대가 되는 기술 진보에서 '와우'가 없다면 여기에 토대를 두는 '책'도 빠르게 관심이 불타오른 것 처럼, 베스트 셀러 양서 몇 권이 정점을 한번 찍으며... 많은 사람들이 어느 정도 감을 잡은 뒤에는 빠르게 타오른 것 만큼 빠르게 식을 수도 있고요. 물론 많은 사람들이 감을 잡기까지는 롱테일이 있겠죠.
따라서... 다시 한번 '와우!' 모먼트, 이 정도가 되는 건 처음이야!라는 '경이감'을 주는 것이 다시 적당한 타이밍에 콤보를 이어가 주지 않는다면, '정체감'을 느끼며, 일상으로들 돌아가기 시작할 수 있겠죠.
물론 그 사이 이미 무엇인가가 뉴노말이 되었을 겁니다. 매우 중요한 건데, 이젠 그렇게 신기하지 않고 너무 당연한 그런 무엇인가로요.
어쩌면... 그냥 제가 AI 뉴스에 관해 피로감을 많이 느끼고 있는 중이거나... 노회해서 소식에 민감하게 감응하는 능력이 떨어져있는 상태일 수 있습니다. 뉴스는 계속 감당하기 어렵게 많이 나올겁니다. 다만 거기에 관한 반응이 정체되어 있는 것이죠.
그래도 이렇게 정체감을 느끼는게 계속 계속 다음의 큰 자극을 찾는 도파민 중독이 해독되고 있는 중이라면... 다행입니다.
여기에 관한 제 관전 포인트는...
The AI Apocalypse: A Scorecard How worried are top AI experts about the threat posed by large language models like GPT-4? ( https://spectrum.ieee.org/artificial-general-intelligence )
Munk Debate on Artificial Intelligence ( https://munkdebates.com/livestreamai )
의 인선을 보듯, 몇 가지 잘 알려진 입장들이 있는데... 굳이 이 입장들을 협의해서 하나로 할 필요없이,
OpenAI 등에서 이야기하는 얼라인먼트에 대한 이슈는 그쪽 그룹에서,
제프리 힌튼 등이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
요슈아 벤지오 등이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
장기주의자/효율적 이타주의자 등의 계열이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
멜라니 미첼, 확률적 앵무새 저자 계열이 걱정하는 바는 그쪽 그룹에서,
엘리에저 윳코우스키나 게리 마커스 계열은 또 그쪽 나름으로,
얀 르쿤 등의 그룹도 역시 그쪽 나름의 화두로,
앤드류 응이 말하는 것 처럼 공감대를 형성하는 것은 또 앤드류 응 등의 그룹에서,
EU나 미의회 쪽의 규제 논의도 나름의 방식으로~
각자의 입장에서 각자 우려하는 '리스크'를 완화하는 도전을 하고 그 성과를 공유하면 Anthropic이 이야기한 다양한 수준의 'AI 리스크'에 각각 대응하는 헷징을 하는 접근, Core Views on AI Safety: When, Why, What, and How( https://www.anthropic.com/index/core-views-on-ai-safety )과 비슷해지는 모양새라...
이제 나올법한 논의는 꽤 나왔고 이 또한 당분간은 '와우!'는 없을 것 같단 전망을 하게된달까요. 정말 AI 리스크가 크게 터지는 사건이 일어난다면 이 AI 리스크 이슈가 크게 부각되며 AI Hype에 일조하겠지만 그러지 않는다면, 아이러니하게도 이 또한 정체감에 일조할 수 있겠습니다.
기반이 되는 기술 진보에서 '와우!'가 없다면 여기에 토대를 두는 예술/퍼포먼스 분야에서도 아직 이걸 접목해 보지 않은 도메인이나 장르와 만남이 있을 때 잠깐 잠깐 이슈가 만들어지겠지만, 어디서 봤던 기시감이 들며 정체감이 일어날 수 있을 겁니다.
마찬가지로 역시 토대가 되는 기술 진보에서 '와우'가 없다면 여기에 토대를 두는 '책'도 빠르게 관심이 불타오른 것 처럼, 베스트 셀러 양서 몇 권이 정점을 한번 찍으며... 많은 사람들이 어느 정도 감을 잡은 뒤에는 빠르게 타오른 것 만큼 빠르게 식을 수도 있고요. 물론 많은 사람들이 감을 잡기까지는 롱테일이 있겠죠.
따라서... 다시 한번 '와우!' 모먼트, 이 정도가 되는 건 처음이야!라는 '경이감'을 주는 것이 다시 적당한 타이밍에 콤보를 이어가 주지 않는다면, '정체감'을 느끼며, 일상으로들 돌아가기 시작할 수 있겠죠.
물론 그 사이 이미 무엇인가가 뉴노말이 되었을 겁니다. 매우 중요한 건데, 이젠 그렇게 신기하지 않고 너무 당연한 그런 무엇인가로요.
어쩌면... 그냥 제가 AI 뉴스에 관해 피로감을 많이 느끼고 있는 중이거나... 노회해서 소식에 민감하게 감응하는 능력이 떨어져있는 상태일 수 있습니다. 뉴스는 계속 감당하기 어렵게 많이 나올겁니다. 다만 거기에 관한 반응이 정체되어 있는 것이죠.
그래도 이렇게 정체감을 느끼는게 계속 계속 다음의 큰 자극을 찾는 도파민 중독이 해독되고 있는 중이라면... 다행입니다.
IEEE Spectrum
The AI Apocalypse: A Scorecard
How worried are top AI experts about the threat posed by large language models like GPT-4?
👍1
The CEO of Databricks explains the justification for the $1.3 billion acquisition of young AI startup, Mosaic. Databricks has paid 65 times Mosaic’s annual recurring revenue of $20 million, a cost Ghodsi deems reasonable due to Mosaic's substantial revenue growth and the growing demand for customized AI models within large enterprises.
He believes that the merger can significantly boost their revenue, considering MosaicML's small sales team of three will now be part of Databricks' extensive 3,000-strong sales organization.
Databricks offers a cloud database and other software to facilitate the application of machine learning models to data. The purchase of Mosaic is aimed at providing customers with a simplified way to customize large-language models, a type of machine learning software that powers chatbots, offering a more bespoke solution than the generalized software provided by OpenAI.
Mosaic's AI models, while less advanced than OpenAI’s, are typically more cost-effective and are better tailored to companies’ internal needs, such as sourcing internal information for employees. Mosaic's value has been attested by its clients like Replit, a software development tool provider, and Glean AI, which develops software to monitor company expenses and suggest cost-saving measures.
However, the deal's actual value is considerably lower as Databricks will pay for Mosaic in stock, priced at Databricks' last equity financing round in 2021, which was at its peak valuation.
The acquisition also signals an unfolding competition between companies like OpenAI, Anthropic, and Cohere that develop large, proprietary or closed-source LLMs, and providers like Databricks hoping businesses will prefer to train smaller, open-source LLMs on their own corporate data for superior performance and data security. This acquisition could potentially strain the relationship between OpenAI and Microsoft.
https://www.theinformation.com/articles/how-databricks-ceo-justifies-paying-1-3-billion-for-a-young-ai-startup
He believes that the merger can significantly boost their revenue, considering MosaicML's small sales team of three will now be part of Databricks' extensive 3,000-strong sales organization.
Databricks offers a cloud database and other software to facilitate the application of machine learning models to data. The purchase of Mosaic is aimed at providing customers with a simplified way to customize large-language models, a type of machine learning software that powers chatbots, offering a more bespoke solution than the generalized software provided by OpenAI.
Mosaic's AI models, while less advanced than OpenAI’s, are typically more cost-effective and are better tailored to companies’ internal needs, such as sourcing internal information for employees. Mosaic's value has been attested by its clients like Replit, a software development tool provider, and Glean AI, which develops software to monitor company expenses and suggest cost-saving measures.
However, the deal's actual value is considerably lower as Databricks will pay for Mosaic in stock, priced at Databricks' last equity financing round in 2021, which was at its peak valuation.
The acquisition also signals an unfolding competition between companies like OpenAI, Anthropic, and Cohere that develop large, proprietary or closed-source LLMs, and providers like Databricks hoping businesses will prefer to train smaller, open-source LLMs on their own corporate data for superior performance and data security. This acquisition could potentially strain the relationship between OpenAI and Microsoft.
https://www.theinformation.com/articles/how-databricks-ceo-justifies-paying-1-3-billion-for-a-young-ai-startup
The Information
How Databricks CEO Justifies Paying $1.3 Billion for a Young AI Startup
When enterprise software firm Databricks revealed on Monday it would pay $1.3 billion for a two-year-old artificial intelligence startup, MosaicML, the deal looked overpriced. Databricks is paying 65 times Mosaic’s $20 million in annual recurring revenue…
Continuous Learning_Startup & Investment
The CEO of Databricks explains the justification for the $1.3 billion acquisition of young AI startup, Mosaic. Databricks has paid 65 times Mosaic’s annual recurring revenue of $20 million, a cost Ghodsi deems reasonable due to Mosaic's substantial revenue…
Databricks CEO는 왜 Mosaic ML을 $1.3B에 인수했을까?
Source: https://www.theinformation.com/articles/how-databricks-ceo-justifies-paying-1-3-billion-for-a-young-ai-startup
데이터브릭스는 머신러닝 모델을 데이터에 쉽게 적용할 수 있도록 클라우드 데이터베이스와 기타 소프트웨어를 제공합니다. 이번 모자이크 인수는 고객에게 챗봇을 구동하는 머신러닝 소프트웨어의 일종인 대규모 언어 모델을 사용자 정의할 수 있는 간소화된 방법을 제공하기 위한 것으로, OpenAI가 제공하는 일반화된 소프트웨어보다 더 맞춤화된 솔루션을 제공할 수 있습니다.
Mosaic의 AI 모델은 OpenAI보다 덜 발전되었지만 일반적으로 더 비용 효율적이며 직원을 위한 내부 정보 소싱과 같은 기업의 내부 요구 사항에 더 잘 맞습니다. 소프트웨어 개발 도구 제공업체인 Replit과 회사 비용을 모니터링하고 비용 절감 방안을 제안하는 소프트웨어를 개발하는 Glean AI와 같은 고객사들은 Mosaic의 가치를 이미 입증한 바 있습니다.
그래도 $1.3b을 지불할만할까?
데이터브릭스는 모자이크의 연간 반복 매출 2천만 달러의 65배에 달하는 금액을 지불했는데, 고드는 모자이크의 상당한 매출 성장과 대기업 내 맞춤형 AI 모델에 대한 수요 증가를 고려할 때 합리적인 비용이라고 판단했습니다.
Mosaic ML의 영업팀은 3명 규모인데 올해 1월 ARR(연간 반복 매출)이 $1m에서 6개월 사이에 ARR이 $20m으로 늘어났습니다. 제품에 대한 시장 검증은 마무리되었고 Databricks의 3,000명 정도 되는 글로벌 영업망에 해당 제품을 판매한다면 인수 금액 대비 더 큰 수익을 얻을 수 있다는 계산을 한 것 같습니다.
더불어, 데이터브릭스가 모자이크의 주식을 인수하는 가격은 2021년 데이터브릭스의 마지막 주식 파이낸싱 라운드에서 가장 높은 평가를 받았던 가격( $38 B)이기 때문에 실제 거래 가치는 상당히 낮을 것으로 예상됩니다.
최근에 Snowflake가 Neeva라는 AI Startup을 약 $150m에 인수(https://www.snowflake.com/blog/snowflake-acquires-neeva-to-accelerate-search-in-the-data-cloud-through-generative-ai/) 한 것도 Databricks 팀이 Mosaic ML 인수를 서두르게 한 요인이라고 생각합니다.
이번 인수에서 생각해볼만한 지점
1. 이번 인수는 또한 대규모 독점 또는 비공개 소스 LLM을 개발하는 OpenAI, Anthropic, Cohere와 같은 기업과 우수한 성능과 데이터 보안을 위해 기업이 자체 기업 데이터로 소규모 오픈 소스 LLM을 학습시키는 것을 선호하는 Databricks와 같은 제공업체 간의 경쟁이 본격화되고 있음을 의미합니다.
2. MS는 OpenAI의 가장 큰 투자자이면서도 Databricks의 거대 벤더입니다. Databricks가 OpenAI의 ChatGPT보다 가성비가 좋은 모델을 지원한다면 MS입장에서는 판매처로서 여러 카드를 손에 쥘 수 있고 이번 인수가 잠재적으로 OpenAI와 Microsoft의 관계를 긴장시킬 수 있다는 관점도 있습니다.
3. AI Startup 가치에 대해서. Neeva $150m, Mosaic ML $1.3b(현실적으로 $650m)그리고 최근에 톰슨 로이터가 로펌의 문서 리뷰를 자동화해주는 Casetext를 $650 를 전액 현금을 지불하면서 구매한 것들을 봤을 때, 데이터를 가지고 AI Use-case를 만들거나, Model을 만들 역량이 있거나, Model과 관련한 인프라를 만드는 기업들에 대한 Valuation Inflation이 시작될 것 같습니다.
Source: https://www.theinformation.com/articles/how-databricks-ceo-justifies-paying-1-3-billion-for-a-young-ai-startup
데이터브릭스는 머신러닝 모델을 데이터에 쉽게 적용할 수 있도록 클라우드 데이터베이스와 기타 소프트웨어를 제공합니다. 이번 모자이크 인수는 고객에게 챗봇을 구동하는 머신러닝 소프트웨어의 일종인 대규모 언어 모델을 사용자 정의할 수 있는 간소화된 방법을 제공하기 위한 것으로, OpenAI가 제공하는 일반화된 소프트웨어보다 더 맞춤화된 솔루션을 제공할 수 있습니다.
Mosaic의 AI 모델은 OpenAI보다 덜 발전되었지만 일반적으로 더 비용 효율적이며 직원을 위한 내부 정보 소싱과 같은 기업의 내부 요구 사항에 더 잘 맞습니다. 소프트웨어 개발 도구 제공업체인 Replit과 회사 비용을 모니터링하고 비용 절감 방안을 제안하는 소프트웨어를 개발하는 Glean AI와 같은 고객사들은 Mosaic의 가치를 이미 입증한 바 있습니다.
그래도 $1.3b을 지불할만할까?
데이터브릭스는 모자이크의 연간 반복 매출 2천만 달러의 65배에 달하는 금액을 지불했는데, 고드는 모자이크의 상당한 매출 성장과 대기업 내 맞춤형 AI 모델에 대한 수요 증가를 고려할 때 합리적인 비용이라고 판단했습니다.
Mosaic ML의 영업팀은 3명 규모인데 올해 1월 ARR(연간 반복 매출)이 $1m에서 6개월 사이에 ARR이 $20m으로 늘어났습니다. 제품에 대한 시장 검증은 마무리되었고 Databricks의 3,000명 정도 되는 글로벌 영업망에 해당 제품을 판매한다면 인수 금액 대비 더 큰 수익을 얻을 수 있다는 계산을 한 것 같습니다.
더불어, 데이터브릭스가 모자이크의 주식을 인수하는 가격은 2021년 데이터브릭스의 마지막 주식 파이낸싱 라운드에서 가장 높은 평가를 받았던 가격( $38 B)이기 때문에 실제 거래 가치는 상당히 낮을 것으로 예상됩니다.
최근에 Snowflake가 Neeva라는 AI Startup을 약 $150m에 인수(https://www.snowflake.com/blog/snowflake-acquires-neeva-to-accelerate-search-in-the-data-cloud-through-generative-ai/) 한 것도 Databricks 팀이 Mosaic ML 인수를 서두르게 한 요인이라고 생각합니다.
이번 인수에서 생각해볼만한 지점
1. 이번 인수는 또한 대규모 독점 또는 비공개 소스 LLM을 개발하는 OpenAI, Anthropic, Cohere와 같은 기업과 우수한 성능과 데이터 보안을 위해 기업이 자체 기업 데이터로 소규모 오픈 소스 LLM을 학습시키는 것을 선호하는 Databricks와 같은 제공업체 간의 경쟁이 본격화되고 있음을 의미합니다.
2. MS는 OpenAI의 가장 큰 투자자이면서도 Databricks의 거대 벤더입니다. Databricks가 OpenAI의 ChatGPT보다 가성비가 좋은 모델을 지원한다면 MS입장에서는 판매처로서 여러 카드를 손에 쥘 수 있고 이번 인수가 잠재적으로 OpenAI와 Microsoft의 관계를 긴장시킬 수 있다는 관점도 있습니다.
3. AI Startup 가치에 대해서. Neeva $150m, Mosaic ML $1.3b(현실적으로 $650m)그리고 최근에 톰슨 로이터가 로펌의 문서 리뷰를 자동화해주는 Casetext를 $650 를 전액 현금을 지불하면서 구매한 것들을 봤을 때, 데이터를 가지고 AI Use-case를 만들거나, Model을 만들 역량이 있거나, Model과 관련한 인프라를 만드는 기업들에 대한 Valuation Inflation이 시작될 것 같습니다.
The Information
How Databricks CEO Justifies Paying $1.3 Billion for a Young AI Startup
When enterprise software firm Databricks revealed on Monday it would pay $1.3 billion for a two-year-old artificial intelligence startup, MosaicML, the deal looked overpriced. Databricks is paying 65 times Mosaic’s $20 million in annual recurring revenue…
Wanting to get started with Generative AI and LLMs, but not sure where to start? 🤔 I am super excited to share Amazon Web Services (AWS) and DeepLearning.AI just launched "Generative AI with LLMs" course, designed specifically for individuals and beginners! 🔰🔥
In Generative AI with Large Language Models (LLMs), you’ll learn the fundamentals of how generative AI works and how to use the Hugging Face ecosystem (Transformers, PEFT, TRL) to instruction-tune, RLHF, or deploy open-source LLMs! 🤯
👉 https://lnkd.in/ep68k-Pk
I am incredibly proud to say that I worked behind the scenes with Antje Barth, Chris Fregly, and Mike Chambers to make this course a reality. Huge kudos to everyone who was involved.
🤗 https://lnkd.in/e3a8jXw7
If you've ever been curious about how generative AI works or want to refresh your knowledge, this course is an absolute must-attend! 🔥🤝
In Generative AI with Large Language Models (LLMs), you’ll learn the fundamentals of how generative AI works and how to use the Hugging Face ecosystem (Transformers, PEFT, TRL) to instruction-tune, RLHF, or deploy open-source LLMs! 🤯
👉 https://lnkd.in/ep68k-Pk
I am incredibly proud to say that I worked behind the scenes with Antje Barth, Chris Fregly, and Mike Chambers to make this course a reality. Huge kudos to everyone who was involved.
🤗 https://lnkd.in/e3a8jXw7
If you've ever been curious about how generative AI works or want to refresh your knowledge, this course is an absolute must-attend! 🔥🤝
www.deeplearning.ai
Generative AI with LLMs - DeepLearning.AI
Learn the fundamentals of how generative AI works, and how to deploy it in real-world applications. Equip yourself with the technical skills and intuition needed to succeed in the growing demand for ML engineers and data scientists.
Forwarded from 요즘AI
최초로 IOS 탈옥에 성공했던 미국의 천재 해커 조지 호츠(George Hotz)가 그동안 베일에 감춰진 GPT-4의 구조에 대해 언급했습니다.
그가 GPT-4의 성능을 높이는 핵심 구조로 언급한 ‘MoE(Mixture of Experts)’ 모델에 대해 알기 쉽게 내용을 정리해보았습니다.
https://news.aikoreacommunity.com/ceonjaehaekeo-jiohasi-gpt-4yi-bimileul-puleonaeda/
1/ 조지 호츠는 OpenAI의 GPT-4가 1조 개의 파라미터(parameter)를 가진 모델이 아닌, 2,200억 개의 파라미터를 가진 모델 8개가 혼합된 구조로 이루어져 있다고 주장.
즉 같은 크기의 모델을 여덟 번 훈련 시킨 후, ‘MoE’라는 모델 구조를 활용하여 1조 개의 파라미터를 가진 큰 모델인 척 트릭을 썼다는 것.
그렇다면 MoE가 무엇일까?
2/ MoE(Mixture of Experts)는 여러 개의 신경망을 서로 다른 분야에 특화된 전문가(Experts) 신경망으로 각각 훈련시키고, 이 신경망들을 혼합(Mixture)하여 활용하는 딥러닝 모델 구조임.
즉 여러 개의 서로 다른 신경망(전문가)이 서로 다른 문제나 데이터 분야를 처리하도록 설계된 모델인 것.
3/ MoE 모델은 크게 두 가지로 구성됨. 전문가(Experts)와 게이트(Gate).
전문가는 앞서 말했듯 특화된 각 부분에 대한 처리를 담당함. 게이트는 입력값(input)에 대해 각 전문가에게 가중치를 부여하는 역할을 수행함.
4/ MoE 모델이 답변을 내는 방식은 다양함. 큰 가중치를 부여받은 전문가가 출력값(output)을 생성하거나, 혹은 각 전문가들의 답변에 가중치를 매긴 후 이를 합쳐서 출력값을 생성하는 방식도 있음.
어떤 방식이든 각 모델이 전문화된 분야에 특화된 답변을 제공하기 때문에, 같은 크기의 모델로 이루어진 단일 신경망 구조보다 더 높은 답변 성능을 낼 수 있는 것.
5/ 한 가지 단점은 여러 개의 모델을 한 번에 사용하다 보니 계산 및 메모리 비용이 기존 단일 신경망 구조보다 높아질 수 있다는 것.(MoE는 여러 개의 신경망 모델을 이용하기 때문)
하지만 이는 병렬 처리와 관련된 연구와, Sparse Gate 등 다양한 연구를 통해 계속해서 해결되고 있음. 아래 링크는 관련 연구 논문 중 하나.
https://arxiv.org/pdf/2212.05055.pdf
6/ 또한 MoE 구조는 파라미터가 적은 모델일수록 한 개의 신경망으로 작동하는 모델보다 성능을 향상시키기 어려움.
데이터 세트가 작을수록 각 모델이 학습할 수 있는 특정 데이터가 매우 제한적이기 때문.
하지만 학습된 데이터 세트가 커질수록 각 신경망이 학습할 수 있는 데이터가 많아지므로 이 구조가 매우 효율적으로 작용함.
7/ 즉 MoE 구조는 대규모 언어 모델에 매우 적합하다는 것.
GPT-3.5의 파라미터(parameter)는 1,750억 개이며, 조지 호츠가 GPT-4에서 사용되었다고 주장한 모델의 파라미터는 2,200억 개.
만약 그의 주장이 맞다면 GPT-3.5와 GPT-4의 성능 차이는 파라미터의 차이가 아닌 MoE 구조의 유무에서 오는 차이라는 뜻.
8/ MoE가 갖는 특성은 GPT-4와 같은 대규모 AI 모델을 만드는 데 적합하게 사용될 수 있음.
샘 알트만 또한 AI 모델의 규모의 한계에 대해서 언급한 바가 있기에, 규모의 한계를 뛰어넘는 성능을 발휘하도록 하는 MoE 구조의 활용성이 매우 기대됨.
팟캐스트 전문은 이곳에서 볼 수 있습니다. 읽어주셔서 감사합니다. :)
https://www.latent.space/p/geohot#details
그가 GPT-4의 성능을 높이는 핵심 구조로 언급한 ‘MoE(Mixture of Experts)’ 모델에 대해 알기 쉽게 내용을 정리해보았습니다.
https://news.aikoreacommunity.com/ceonjaehaekeo-jiohasi-gpt-4yi-bimileul-puleonaeda/
1/ 조지 호츠는 OpenAI의 GPT-4가 1조 개의 파라미터(parameter)를 가진 모델이 아닌, 2,200억 개의 파라미터를 가진 모델 8개가 혼합된 구조로 이루어져 있다고 주장.
즉 같은 크기의 모델을 여덟 번 훈련 시킨 후, ‘MoE’라는 모델 구조를 활용하여 1조 개의 파라미터를 가진 큰 모델인 척 트릭을 썼다는 것.
그렇다면 MoE가 무엇일까?
2/ MoE(Mixture of Experts)는 여러 개의 신경망을 서로 다른 분야에 특화된 전문가(Experts) 신경망으로 각각 훈련시키고, 이 신경망들을 혼합(Mixture)하여 활용하는 딥러닝 모델 구조임.
즉 여러 개의 서로 다른 신경망(전문가)이 서로 다른 문제나 데이터 분야를 처리하도록 설계된 모델인 것.
3/ MoE 모델은 크게 두 가지로 구성됨. 전문가(Experts)와 게이트(Gate).
전문가는 앞서 말했듯 특화된 각 부분에 대한 처리를 담당함. 게이트는 입력값(input)에 대해 각 전문가에게 가중치를 부여하는 역할을 수행함.
4/ MoE 모델이 답변을 내는 방식은 다양함. 큰 가중치를 부여받은 전문가가 출력값(output)을 생성하거나, 혹은 각 전문가들의 답변에 가중치를 매긴 후 이를 합쳐서 출력값을 생성하는 방식도 있음.
어떤 방식이든 각 모델이 전문화된 분야에 특화된 답변을 제공하기 때문에, 같은 크기의 모델로 이루어진 단일 신경망 구조보다 더 높은 답변 성능을 낼 수 있는 것.
5/ 한 가지 단점은 여러 개의 모델을 한 번에 사용하다 보니 계산 및 메모리 비용이 기존 단일 신경망 구조보다 높아질 수 있다는 것.(MoE는 여러 개의 신경망 모델을 이용하기 때문)
하지만 이는 병렬 처리와 관련된 연구와, Sparse Gate 등 다양한 연구를 통해 계속해서 해결되고 있음. 아래 링크는 관련 연구 논문 중 하나.
https://arxiv.org/pdf/2212.05055.pdf
6/ 또한 MoE 구조는 파라미터가 적은 모델일수록 한 개의 신경망으로 작동하는 모델보다 성능을 향상시키기 어려움.
데이터 세트가 작을수록 각 모델이 학습할 수 있는 특정 데이터가 매우 제한적이기 때문.
하지만 학습된 데이터 세트가 커질수록 각 신경망이 학습할 수 있는 데이터가 많아지므로 이 구조가 매우 효율적으로 작용함.
7/ 즉 MoE 구조는 대규모 언어 모델에 매우 적합하다는 것.
GPT-3.5의 파라미터(parameter)는 1,750억 개이며, 조지 호츠가 GPT-4에서 사용되었다고 주장한 모델의 파라미터는 2,200억 개.
만약 그의 주장이 맞다면 GPT-3.5와 GPT-4의 성능 차이는 파라미터의 차이가 아닌 MoE 구조의 유무에서 오는 차이라는 뜻.
8/ MoE가 갖는 특성은 GPT-4와 같은 대규모 AI 모델을 만드는 데 적합하게 사용될 수 있음.
샘 알트만 또한 AI 모델의 규모의 한계에 대해서 언급한 바가 있기에, 규모의 한계를 뛰어넘는 성능을 발휘하도록 하는 MoE 구조의 활용성이 매우 기대됨.
팟캐스트 전문은 이곳에서 볼 수 있습니다. 읽어주셔서 감사합니다. :)
https://www.latent.space/p/geohot#details
AI 코리아 커뮤니티 뉴스레터
천재해커 지오핫이 GPT-4의 비밀을 풀어내다?!
수수께끼가 풀리다
지난 6월 21일, 해킹으로 유명한 '지오핫(GeoHot)'이 인터뷰를 진행했는데요1. 여기서 자신이 알아낸 GPT-4의 구조를 풀어버렸습니다(!) 과연 어떤 구조이길래 GPT-4가 특별한 걸까요? 알아봅시다!
타고난 천재
우선 조지 호츠(George Hotz), 통칭 '지오핫'에 대해 설명하고 넘어갈게요.
지오핫은 1989년 태어난 만 34세의 천재 해커에요2. 17살이던 2007년에는 아이폰(iPhone)의 '탈옥'을
지난 6월 21일, 해킹으로 유명한 '지오핫(GeoHot)'이 인터뷰를 진행했는데요1. 여기서 자신이 알아낸 GPT-4의 구조를 풀어버렸습니다(!) 과연 어떤 구조이길래 GPT-4가 특별한 걸까요? 알아봅시다!
타고난 천재
우선 조지 호츠(George Hotz), 통칭 '지오핫'에 대해 설명하고 넘어갈게요.
지오핫은 1989년 태어난 만 34세의 천재 해커에요2. 17살이던 2007년에는 아이폰(iPhone)의 '탈옥'을
인터뷰 보는 내내 창업자가 자신이 만들고 있는 제품과 고객을 사랑하는 게 느껴진다._Character.ai
1. 사용자에게 Character.ai를 어떻게 사용하라고 알려드리는 것은 저희의 일이 아닙니다. 저희의 일은 일반적인 것을 내놓고 사람들이 그것을 즐겁게 사용하는 것을 보는 것입니다.
2. 많은 사람들이 외롭거나 고민이 있어 대화 상대가 필요하기 때문에 페르소나를 사용합니다.
3. 유저들이 Character.ai의 캐릭터들을 롤플레잉 게임, 텍스트 어드벤처, TV 또는 인터넷 인플루언서 시청 등 다양한 방식으로 사용합니다.
https://youtu.be/GavsSMyK36w
https://youtu.be/emCoG-hA7AE
It’s not our job to tell you what uses for. Our job is to put out something general and see people enjoy using it.
Many use personas because they are lonely or troubled and need someone to talk to.
Noam Shazeer talks about the concept of a persona, which is a character or a person that users create in order to use their imagination. He explains that people use persona in various ways, such as role-playing games, text adventures, and watching TV or internet influencers.
the backstory of Character, where they wanted to create a technology that was accessible, flexible and put the user in control.
1. 사용자에게 Character.ai를 어떻게 사용하라고 알려드리는 것은 저희의 일이 아닙니다. 저희의 일은 일반적인 것을 내놓고 사람들이 그것을 즐겁게 사용하는 것을 보는 것입니다.
2. 많은 사람들이 외롭거나 고민이 있어 대화 상대가 필요하기 때문에 페르소나를 사용합니다.
3. 유저들이 Character.ai의 캐릭터들을 롤플레잉 게임, 텍스트 어드벤처, TV 또는 인터넷 인플루언서 시청 등 다양한 방식으로 사용합니다.
https://youtu.be/GavsSMyK36w
https://youtu.be/emCoG-hA7AE
It’s not our job to tell you what uses for. Our job is to put out something general and see people enjoy using it.
Many use personas because they are lonely or troubled and need someone to talk to.
Noam Shazeer talks about the concept of a persona, which is a character or a person that users create in order to use their imagination. He explains that people use persona in various ways, such as role-playing games, text adventures, and watching TV or internet influencers.
the backstory of Character, where they wanted to create a technology that was accessible, flexible and put the user in control.
YouTube
Character.AI CEO: Generative AI Tech Has a Billion Use Cases
Character.AI founder and CEO Noam Shazeer joins Ed Ludlow to discuss the rise of generative AI and its many potential applications, and why he is skeptical about the federal government regulating it.
--------
Like this video? Subscribe to Bloomberg Technology…
--------
Like this video? Subscribe to Bloomberg Technology…
New open-source LLMs! 🔔 Salesforce just released XGen 7B, a new LLM with an 8k context under the Apache 2.0 license. 🔓 XGen uses the same architecture as Metas LLaMa and is, therefore, a 1-to-1 replacement for commercial use! 🔥 XGen achieves similar performance to LLaMa on MMLU and outperforms on coding! 🎖
TL;DR; ✨:
🔠 Trained on 1.5T Tokens
🪟 8192 context window
🧮 7B parameter
🔓 Apache 2.0 license
🧠 Trained on TPUs
🧑🏻💻 Can write code
🤗 Available on Hugging Face
Model: https://lnkd.in/emHEPZy8
Announcement Blog: https://lnkd.in/e6utBth9
It's exciting to see more LLaMa models released with permissive licenses. Hopefully, Salesforce will continue the model family with 13 or 16B versions.🚀
TL;DR; ✨:
🔠 Trained on 1.5T Tokens
🪟 8192 context window
🧮 7B parameter
🔓 Apache 2.0 license
🧠 Trained on TPUs
🧑🏻💻 Can write code
🤗 Available on Hugging Face
Model: https://lnkd.in/emHEPZy8
Announcement Blog: https://lnkd.in/e6utBth9
It's exciting to see more LLaMa models released with permissive licenses. Hopefully, Salesforce will continue the model family with 13 or 16B versions.🚀
huggingface.co
Salesforce/xgen-7b-8k-base · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
We develop a method to test global opinions represented in language models. We find the opinions represented by the models are most similar to those of the participants in USA, Canada, and some European countries. We also show the responses are steerable in separate experiments.
https://twitter.com/AnthropicAI/status/1674461614056292353?s=20
https://twitter.com/AnthropicAI/status/1674461614056292353?s=20
Twitter
We develop a method to test global opinions represented in language models. We find the opinions represented by the models are most similar to those of the participants in USA, Canada, and some European countries. We also show the responses are steerable…
Inflection AI today announced that the company has raised $1.3 billion in a fresh round of funding led by Microsoft, Reid Hoffman, Bill Gates, Eric Schmidt, and new investor NVIDIA. The new funding brings the total raised by the company to $1.525 billion.
Largest AI cluster in the world
The deployment of 22,000 NVIDIA H100 GPUs in one cluster is truly unprecedented, and will support training and deployment of a new generation of large-scale AI models. Combined, the cluster develops a staggering 22 exaFLOPS in the 16-bit precision mode, and even more if lower precision is utilized. We estimate that if we entered our cluster in the recent TOP500 list of supercomputers, it would be the 2nd and close to the top entry, despite being optimized for AI – rather than scientific – applications. The rollout of the cluster is actively under way, and we have already been able to confirm its performance in the recent MLPerf benchmark.
https://inflection.ai/inflection-ai-announces-1-3-billion-of-funding
Largest AI cluster in the world
The deployment of 22,000 NVIDIA H100 GPUs in one cluster is truly unprecedented, and will support training and deployment of a new generation of large-scale AI models. Combined, the cluster develops a staggering 22 exaFLOPS in the 16-bit precision mode, and even more if lower precision is utilized. We estimate that if we entered our cluster in the recent TOP500 list of supercomputers, it would be the 2nd and close to the top entry, despite being optimized for AI – rather than scientific – applications. The rollout of the cluster is actively under way, and we have already been able to confirm its performance in the recent MLPerf benchmark.
https://inflection.ai/inflection-ai-announces-1-3-billion-of-funding
Inflection
Inflection AI announces $1.3 billion of funding led by current investors, Microsoft, and NVIDIA
Consider the future of this decidedly "semantic" AI https://learn.microsoft.com/en-us/semantic-kernel/when-to-use-ai/schillace-laws
The "Schillace Laws" were formulated after working with a variety of Large Language Model (LLM) AI systems to date. Knowing them will accelerate your journey into this exciting space of reimagining the future of software engineering. Welcome!
Don’t write code if the model can do it; the model will get better, but the code won't. The overall goal of the system is to build very high leverage programs using the LLM's capacity to plan and understand intent. It's very easy to slide back into a more imperative mode of thinking and write code for aspects of a program. Resist this temptation – to the degree that you can get the model to do something reliably now, it will be that much better and more robust as the model develops.
Trade leverage for precision; use interaction to mitigate. Related to the above, the right mindset when coding with an LLM is not "let's see what we can get the dancing bear to do," it's to get as much leverage from the system as possible. For example, it's possible to build very general patterns, like "build a report from a database" or "teach a year of a subject" that can be parameterized with plain text prompts to produce enormously valuable and differentiated results easily.
Code is for syntax and process; models are for semantics and intent. There are lots of different ways to say this, but fundamentally, the models are stronger when they are being asked to reason about meaning and goals, and weaker when they are being asked to perform specific calculations and processes. For example, it's easy for advanced models to write code to solve a sudoku generally, but hard for them to solve a sudoku themselves. Each kind of code has different strengths and it's important to use the right kind of code for the right kind of problem. The boundaries between syntax and semantics are the hard parts of these programs.
The system will be as brittle as its most brittle part. This goes for either kind of code. Because we are striving for flexibility and high leverage, it’s important to not hard code anything unnecessarily. Put as much reasoning and flexibility into the prompts and use imperative code minimally to enable the LLM.
Ask Smart to Get Smart. Emerging LLM AI models are incredibly capable and "well educated" but they lacks context and initiative. If you ask them a simple or open-ended question, you will get a simple or generic answer back. If you want more detail and refinement, the question has to be more intelligent. This is an echo of "Garbage in, Garbage out" for the AI age.
Uncertainty is an exception throw. Because we are trading precision for leverage, we need to lean on interaction with the user when the model is uncertain about intent. Thus, when we have a nested set of prompts in a program, and one of them is uncertain in its result ("One possible way...") the correct thing to do is the equivalent of an "exception throw" - propagate that uncertainty up the stack until a level that can either clarify or interact with the user.
Text is the universal wire protocol. Since the LLMs are adept at parsing natural language and intent as well as semantics, text is a natural format for passing instructions between prompts, modules and LLM based services. Natural language is less precise for some uses, and it is possible to use structured language like XML sparingly, but generally speaking, passing natural language between prompts works very well, and is less fragile than more structured language for most uses. Over time, as these model-based programs proliferate, this is a natural "future proofing" that will make disparate prompts able to understand each other, the same way humans do.
The "Schillace Laws" were formulated after working with a variety of Large Language Model (LLM) AI systems to date. Knowing them will accelerate your journey into this exciting space of reimagining the future of software engineering. Welcome!
Don’t write code if the model can do it; the model will get better, but the code won't. The overall goal of the system is to build very high leverage programs using the LLM's capacity to plan and understand intent. It's very easy to slide back into a more imperative mode of thinking and write code for aspects of a program. Resist this temptation – to the degree that you can get the model to do something reliably now, it will be that much better and more robust as the model develops.
Trade leverage for precision; use interaction to mitigate. Related to the above, the right mindset when coding with an LLM is not "let's see what we can get the dancing bear to do," it's to get as much leverage from the system as possible. For example, it's possible to build very general patterns, like "build a report from a database" or "teach a year of a subject" that can be parameterized with plain text prompts to produce enormously valuable and differentiated results easily.
Code is for syntax and process; models are for semantics and intent. There are lots of different ways to say this, but fundamentally, the models are stronger when they are being asked to reason about meaning and goals, and weaker when they are being asked to perform specific calculations and processes. For example, it's easy for advanced models to write code to solve a sudoku generally, but hard for them to solve a sudoku themselves. Each kind of code has different strengths and it's important to use the right kind of code for the right kind of problem. The boundaries between syntax and semantics are the hard parts of these programs.
The system will be as brittle as its most brittle part. This goes for either kind of code. Because we are striving for flexibility and high leverage, it’s important to not hard code anything unnecessarily. Put as much reasoning and flexibility into the prompts and use imperative code minimally to enable the LLM.
Ask Smart to Get Smart. Emerging LLM AI models are incredibly capable and "well educated" but they lacks context and initiative. If you ask them a simple or open-ended question, you will get a simple or generic answer back. If you want more detail and refinement, the question has to be more intelligent. This is an echo of "Garbage in, Garbage out" for the AI age.
Uncertainty is an exception throw. Because we are trading precision for leverage, we need to lean on interaction with the user when the model is uncertain about intent. Thus, when we have a nested set of prompts in a program, and one of them is uncertain in its result ("One possible way...") the correct thing to do is the equivalent of an "exception throw" - propagate that uncertainty up the stack until a level that can either clarify or interact with the user.
Text is the universal wire protocol. Since the LLMs are adept at parsing natural language and intent as well as semantics, text is a natural format for passing instructions between prompts, modules and LLM based services. Natural language is less precise for some uses, and it is possible to use structured language like XML sparingly, but generally speaking, passing natural language between prompts works very well, and is less fragile than more structured language for most uses. Over time, as these model-based programs proliferate, this is a natural "future proofing" that will make disparate prompts able to understand each other, the same way humans do.
Docs
Introduction to Semantic Kernel
Learn about Semantic Kernel
Hard for you is hard for the model. One common pattern when giving the model a challenging task is that it needs to "reason out loud." This is fun to watch and very interesting, but it's problematic when using a prompt as part of a program, where all that is needed is the result of the reasoning. However, using a "meta" prompt that is given the question and the verbose answer and asked to extract just the answer works quite well. This is a cognitive task that would be easier for a person (it's easy to imagine being able to give someone the general task of "read this and pull out whatever the answer is" and have that work across many domains where the user had no expertise, just because natural language is so powerful). So, when writing programs, remember that something that would be hard for a person is likely to be hard for the model, and breaking patterns down into easier steps often gives a more stable result.
Beware "pareidolia of consciousness"; the model can be used against itself." It is very easy to imagine a "mind" inside an LLM. But there are meaningful differences between human thinking and the model. An important one that can be exploited is that the models currently don't remember interactions from one minute to the next. So, while we would never ask a human to look for bugs or malicious code in something they had just personally written, we can do that for the model. It might make the same kind of mistake in both places, but it's not capable of "lying" to us because it doesn't know where the code came from to begin with. _This means we can "use the model against itself" in some places – it can be used as a safety monitor for code, a component of the testing strategy, a content filter on generated content, etc. _
Beware "pareidolia of consciousness"; the model can be used against itself." It is very easy to imagine a "mind" inside an LLM. But there are meaningful differences between human thinking and the model. An important one that can be exploited is that the models currently don't remember interactions from one minute to the next. So, while we would never ask a human to look for bugs or malicious code in something they had just personally written, we can do that for the model. It might make the same kind of mistake in both places, but it's not capable of "lying" to us because it doesn't know where the code came from to begin with. _This means we can "use the model against itself" in some places – it can be used as a safety monitor for code, a component of the testing strategy, a content filter on generated content, etc. _
Could one Language Learning Model handle all programming languages? Or should we tailor a model for each? What's your take? #LLM #ProgrammingLanguages
https://www.linkedin.com/posts/mateizaharia_introducing-english-as-the-new-programming-activity-7080242815120637952-bIY0?utm_source=share&utm_medium=member_ios
https://www.linkedin.com/posts/mateizaharia_introducing-english-as-the-new-programming-activity-7080242815120637952-bIY0?utm_source=share&utm_medium=member_ios
Linkedin
Introducing English as the New Programming Language for Apache Spark | Matei Zaharia | 69 comments
One of my favorite announcements today: English SDK for Apache Spark! Just write stuff like df.ai.transform('get 4 week moving average sales by dept') instead… | 69 comments on LinkedIn
How copilot works at the high level, https://youtu.be/B2-8wrF9Okc.
YouTube
How Microsoft 365 Copilot works
Get an inside look at how large language models (LLMs) work when you connect them to the data in your organization. See what makes this possible and how the process respects your privacy to keep data safe with Microsoft 365 Copilot. The LLM for Copilot for…
State of GPT talk by Andrej Karpathy: https://www.youtube.com/watch?v=bZQun8Y4L2A&t=373s
Would highly recommend watching the above! A 45-minute lecture going over the State of Generative LLMs, how are they trained, what they can and can't do, advanced techniques like CoT, ReAct, Reflection, BabyAGI, and Agents in general and finally some great tips on using LLMs in production. Pretty simple but very very informative
Would highly recommend watching the above! A 45-minute lecture going over the State of Generative LLMs, how are they trained, what they can and can't do, advanced techniques like CoT, ReAct, Reflection, BabyAGI, and Agents in general and finally some great tips on using LLMs in production. Pretty simple but very very informative
YouTube
State of GPT | BRK216HFS
Learn about the training pipeline of GPT assistants like ChatGPT, from tokenization to pretraining, supervised finetuning, and Reinforcement Learning from Human Feedback (RLHF). Dive deeper into practical techniques and mental models for the effective use…
Continuous Learning_Startup & Investment
State of GPT talk by Andrej Karpathy: https://www.youtube.com/watch?v=bZQun8Y4L2A&t=373s Would highly recommend watching the above! A 45-minute lecture going over the State of Generative LLMs, how are they trained, what they can and can't do, advanced techniques…
Here's an http://assembly.ai trannoscript and chapter summaries:
👂🏼 🤖 📃
https://www.assemblyai.com/playground/trannoscript/64kyzev80o-6ed4-4902-a066-7df25c363193
Andre Karpathi is a founding member of OpenAI. He will talk about how we train GPT assistants. In the second part he will take a look at how we can use these assistants effectively for your applications.
TRAINING NEURAL NETWORKS ON THE INTERNET
We have four major stages pretraining supervised fine tuning, reward modeling, reinforcement learning. In each stage we have a data set that powers that stage. And then we have an algorithm that for our purposes will be an objective for training a neural network.
GPT 3.1: BASE MODELS AND AGENTS
The GPT four model that you might be interacting with over API is not a base model, it's an assistant model. You can even trick base models into being assistants. Instead we have a different path to make actual GPT assistance, not just base model document completers.
NEUROANATOMY 2.8
In the reward modeling step, what we're going to do is we're now going to shift our data collection to be of the form of comparisons. Now, because we have a reward model, we can score the quality of any arbitrary completion for any given prompt. And then at the end, you could deploy a Rlhf model.
COGNITIVE PROCESSES AND GPT
How do we best apply a GPT assistant model to your problems? Think about the rich internal monologue and tool use and how much work actually goes computationally in your brain to generate this one final sentence. From GPT's perspective, this is just a sequence of tokens.
TREE OF THOUGHT AND PROMPT ENGINEERING
A lot of people are really playing around with kind of prompt engineering to bring back some of these abilities that we sort of have in our brain for LLMs. I think this is kind of an equivalent of AlphaGo but for text. I would not advise people to use it in practical applications.
WHAT ARE THE QUIRKS OF LLMS?
The next thing that I find kind of interesting is that LLMs don't want to succeed, they want to imitate. And so at test time, you actually have to ask for a good performance. Next up, I think a lot of people are really interested in basically retrieval augmented generation.
CONSTRAINT PROMPTING IN LLMS
Next, I wanted to briefly talk about constraint prompting. This is basically techniques for forcing a certain template in the outputs of LLMs. And I think this kind of constraint sampling is also extremely interesting.
FINE-TUNING A LANGUAGE MODEL
You can get really far with prompt engineering, but it's also possible to think about fine tuning your models. Fine tuning is a lot more technically involved. It requires human data contractors for data sets and or synthetic data pipelines. Break up your task into two major parts.
LIMITS TO FULLY AUTONOMOUS LLMS
There's a large number of limitations to LLMs today, so I would keep that definitely in mind for all your applications models. My recommendation right now is use LLMs in low stakes applications, combine them with always with human oversight. Think copilots instead of completely autonomous agents.
🧑🏼✈️ 🚧💻
👂🏼 🤖 📃
https://www.assemblyai.com/playground/trannoscript/64kyzev80o-6ed4-4902-a066-7df25c363193
Andre Karpathi is a founding member of OpenAI. He will talk about how we train GPT assistants. In the second part he will take a look at how we can use these assistants effectively for your applications.
TRAINING NEURAL NETWORKS ON THE INTERNET
We have four major stages pretraining supervised fine tuning, reward modeling, reinforcement learning. In each stage we have a data set that powers that stage. And then we have an algorithm that for our purposes will be an objective for training a neural network.
GPT 3.1: BASE MODELS AND AGENTS
The GPT four model that you might be interacting with over API is not a base model, it's an assistant model. You can even trick base models into being assistants. Instead we have a different path to make actual GPT assistance, not just base model document completers.
NEUROANATOMY 2.8
In the reward modeling step, what we're going to do is we're now going to shift our data collection to be of the form of comparisons. Now, because we have a reward model, we can score the quality of any arbitrary completion for any given prompt. And then at the end, you could deploy a Rlhf model.
COGNITIVE PROCESSES AND GPT
How do we best apply a GPT assistant model to your problems? Think about the rich internal monologue and tool use and how much work actually goes computationally in your brain to generate this one final sentence. From GPT's perspective, this is just a sequence of tokens.
TREE OF THOUGHT AND PROMPT ENGINEERING
A lot of people are really playing around with kind of prompt engineering to bring back some of these abilities that we sort of have in our brain for LLMs. I think this is kind of an equivalent of AlphaGo but for text. I would not advise people to use it in practical applications.
WHAT ARE THE QUIRKS OF LLMS?
The next thing that I find kind of interesting is that LLMs don't want to succeed, they want to imitate. And so at test time, you actually have to ask for a good performance. Next up, I think a lot of people are really interested in basically retrieval augmented generation.
CONSTRAINT PROMPTING IN LLMS
Next, I wanted to briefly talk about constraint prompting. This is basically techniques for forcing a certain template in the outputs of LLMs. And I think this kind of constraint sampling is also extremely interesting.
FINE-TUNING A LANGUAGE MODEL
You can get really far with prompt engineering, but it's also possible to think about fine tuning your models. Fine tuning is a lot more technically involved. It requires human data contractors for data sets and or synthetic data pipelines. Break up your task into two major parts.
LIMITS TO FULLY AUTONOMOUS LLMS
There's a large number of limitations to LLMs today, so I would keep that definitely in mind for all your applications models. My recommendation right now is use LLMs in low stakes applications, combine them with always with human oversight. Think copilots instead of completely autonomous agents.
🧑🏼✈️ 🚧💻
Assemblyai
AssemblyAI | AI models to transcribe and understand speech
With AssemblyAI's industry-leading Speech AI models, transcribe speech to text and extract insights from your voice data.