Economic Uncertainty Elevates Importance of Machine Learning Observability Arize
Forwarded from Notes from Sigrid Jin (Sigrid Jin)
https://news.hada.io/topic?id=9520&utm_source=discord&utm_medium=bot&utm_campaign=4
LLM의 등장으로 Vector 형식의 데이터 수송신이 JSON처럼 대중화될 것이라는 주장
LLM의 등장으로 Vector 형식의 데이터 수송신이 JSON처럼 대중화될 것이라는 주장
GeekNews
Vector는 PostgreSQL의 새 JSON 입니다 | GeekNews
벡터는 잘 연구된 수학적 구조이고, JSON은 데이터 교환 형식임하지만 데이터 저장 및 검색 세계에서 두가지 데이터 표현 방식은 공용어가 되었으며, 최신 어플리에키션 개발에서 곧 필수적인 요소가 될 것현재의 경향이 지속된다면 벡터 역시 어플리케이션 구축에 있어서 JSON만큼 중요해 질 것생성형 AI의 결과물에 대해 저장 및 쿼리하기 위해 PostgreSQL
I think we’re starting to see frothy valuations coming back in certain areas, especially genAI. We’re talking about $30mm pre for pre-seed, pre-product teams. I don’t think that’s particularly healthy.
If you were lucky enough to raise big venture money, one thing I tell founders is treat the money as if it was a repayable loan.
No one throws a block party for their mortgage approval and part of the reason is they know too well that the money needs to be repaid at some point. It’s the same for VC funding too - except the investor expectation/hope is only higher (everybody wants a 10x return). All kinds of problems happen when founders think the VC money is “theirs”.
Chang Kim
If you were lucky enough to raise big venture money, one thing I tell founders is treat the money as if it was a repayable loan.
No one throws a block party for their mortgage approval and part of the reason is they know too well that the money needs to be repaid at some point. It’s the same for VC funding too - except the investor expectation/hope is only higher (everybody wants a 10x return). All kinds of problems happen when founders think the VC money is “theirs”.
Chang Kim
“Approved H1-B holders as of July 16, 2023 will receive an open work permit of up to 3yrs, which means they will be able to work for almost any employer anywhere in Canada.”
Canada is finally ready to eat USA’s lunch on poor immigration policy!
As part of Canada’s first-ever Tech Talent Strategy, Minister Fraser announced the following aggressive attraction measures:
• the creation of an open work permit stream for H-1B specialty occupation visa holders in the US to apply for a Canadian work permit, and study or work permit options for their accompanying family members
• the development of an Innovation Stream under to the International Mobility Program to attract highly talented individuals, options for which include
◦ employer-specific work permits for up to five years for workers destined to work for a company identified by the Government of Canada as contributing to our industrial innovation goals
◦ open work permits for up to five years for highly skilled workers in select in-demand occupations
• a return to the 14-day service standard for work permits under the Global Skills Strategy
• the promotion of Canada as a destination for digital nomads
• the creation of a STEM-specific draw under category-based selection to issue additional invitations to apply under the Express Entry program
• improvements to the Start-up Visa Program
◦ We allocated more spots to this program for 2023, with further increases planned for 2024 and 2025.
◦ Applicants will be able to apply for a work permit that is up to three years in duration instead of one year.
◦ Applicants will be able to apply for an open work permit instead of one that limits them to working for their own start-up.
◦ We’re making this three-year open work permit available to each member of the entrepreneurial team instead of only those who are essential and urgently needed in Canada.
◦ We’re prioritizing applications that are supported by venture capital, angel investor groups and business incubators and have capital committed, along with applications that are supported by business incubators who are members of Canada’s Tech Network.
Canada is finally ready to eat USA’s lunch on poor immigration policy!
As part of Canada’s first-ever Tech Talent Strategy, Minister Fraser announced the following aggressive attraction measures:
• the creation of an open work permit stream for H-1B specialty occupation visa holders in the US to apply for a Canadian work permit, and study or work permit options for their accompanying family members
• the development of an Innovation Stream under to the International Mobility Program to attract highly talented individuals, options for which include
◦ employer-specific work permits for up to five years for workers destined to work for a company identified by the Government of Canada as contributing to our industrial innovation goals
◦ open work permits for up to five years for highly skilled workers in select in-demand occupations
• a return to the 14-day service standard for work permits under the Global Skills Strategy
• the promotion of Canada as a destination for digital nomads
• the creation of a STEM-specific draw under category-based selection to issue additional invitations to apply under the Express Entry program
• improvements to the Start-up Visa Program
◦ We allocated more spots to this program for 2023, with further increases planned for 2024 and 2025.
◦ Applicants will be able to apply for a work permit that is up to three years in duration instead of one year.
◦ Applicants will be able to apply for an open work permit instead of one that limits them to working for their own start-up.
◦ We’re making this three-year open work permit available to each member of the entrepreneurial team instead of only those who are essential and urgently needed in Canada.
◦ We’re prioritizing applications that are supported by venture capital, angel investor groups and business incubators and have capital committed, along with applications that are supported by business incubators who are members of Canada’s Tech Network.
1. OpenAI Plans ChatGPT ‘Personal Assistant for Work,’ Setting Up Microsoft Rivalry.
• OpenAI wants to build ChatGPT into a personal assistant
• The effort could take years
• It hinges on training AI models on personal data without leaking that information
Earlier this month, Altman made a key hire that could be related to the assistant effort. OpenAI named former Facebook leader Peter Deng as vice president of consumer product. In a LinkedIn post announcing his new role, Deng cited the company’s desire to develop “assistive capabilities that make people more productive and creative.” Deng was previously the first product manager of Facebook Messenger and later led product at Instagram before serving as a product leader at Uber and then Airtable, a productivity software firm.
2. ChatGPT last fall, OpenAI started charging individuals and companies for an upgraded version, which recently had more than 2 million subscribers and is on pace to generate hundreds of millions of dollars per year
=> Chat GPT paid customer 2m x $20 -> monthly revenue $40m (월 520백억) yearly $480m 6280억)
Open AI’s last year loss $540 million(7000억)
3. To boost ChatGPT’s value, OpenAI is considering opening a type of app store in which its customers would sell customized versions of the chatbot that could help other businesses draft marketing materials, identify fraudulent transactions or build customer service chatbots, The Information reported last week.
Challenges
1. But to operate in a more personalized fashion and respond quickly the way Apple’s Siri does, the prospective OpenAI assistant software may need to be partly stored on users’ devices.
MS’s situation
Large-language models that allow ChatGPT and other software to understand conversational commands are relatively new, although Microsoft is already charging a 40% premium to Office 365 customers that want to use OpenAI’s LLMs to automate tasks such as creating PowerPoint presentations based on text documents, summarizing meetings or drafting email responses.
New challengers
If open-source LLMs continue to progress, developers may be able to create their own assistants. One example is Personal AI, a startup founded in 2020 that has raised $7.8 million. It has trained open-source models—as well as its proprietary LLM—on an individual’s data and made the models small enough to run entirely on laptops or phones.
• OpenAI wants to build ChatGPT into a personal assistant
• The effort could take years
• It hinges on training AI models on personal data without leaking that information
Earlier this month, Altman made a key hire that could be related to the assistant effort. OpenAI named former Facebook leader Peter Deng as vice president of consumer product. In a LinkedIn post announcing his new role, Deng cited the company’s desire to develop “assistive capabilities that make people more productive and creative.” Deng was previously the first product manager of Facebook Messenger and later led product at Instagram before serving as a product leader at Uber and then Airtable, a productivity software firm.
2. ChatGPT last fall, OpenAI started charging individuals and companies for an upgraded version, which recently had more than 2 million subscribers and is on pace to generate hundreds of millions of dollars per year
=> Chat GPT paid customer 2m x $20 -> monthly revenue $40m (월 520백억) yearly $480m 6280억)
Open AI’s last year loss $540 million(7000억)
3. To boost ChatGPT’s value, OpenAI is considering opening a type of app store in which its customers would sell customized versions of the chatbot that could help other businesses draft marketing materials, identify fraudulent transactions or build customer service chatbots, The Information reported last week.
Challenges
1. But to operate in a more personalized fashion and respond quickly the way Apple’s Siri does, the prospective OpenAI assistant software may need to be partly stored on users’ devices.
MS’s situation
Large-language models that allow ChatGPT and other software to understand conversational commands are relatively new, although Microsoft is already charging a 40% premium to Office 365 customers that want to use OpenAI’s LLMs to automate tasks such as creating PowerPoint presentations based on text documents, summarizing meetings or drafting email responses.
New challengers
If open-source LLMs continue to progress, developers may be able to create their own assistants. One example is Personal AI, a startup founded in 2020 that has raised $7.8 million. It has trained open-source models—as well as its proprietary LLM—on an individual’s data and made the models small enough to run entirely on laptops or phones.
Forwarded from BZCF | 비즈까페
평범한 사람들이 위대한 결과 만들어내는 이야기는 소설같지만, 매력적입니다. 영화같기만 한 이야기 같은데, 실제로 버핏이 그런 사례를 얘기하니 더 울리기도 하고요. 사실 평범한 사람들이 위대한 회사를 만든다는 말 자체가 모순이지 않나 싶기도 합니다. 위대한 회사 만들기 위해서 평범한 것 오래 포기하지 않고 쌓아간 것 자체가 안 평범한 것이니까요. 모두가 알지만, 지키지 못하는 것이니까요. 사실 성공이 거창한 것인가 싶습니다. 하루하루 쌓아 올리는 것인데요. 그것을 하루 하기는 쉬워도, 100일, 1년, 10년 하기 어려우니까 어려운 것이겠지요. 오늘도 자기만의 길 걸으시는 모든 모든 분들께 버핏의 한 마디가 위로와 격려가 되기를 바라며 올립니다.
https://youtu.be/gXFXMCAwP-k
https://youtu.be/gXFXMCAwP-k
❤1
BZCF | 비즈까페
평범한 사람들이 위대한 결과 만들어내는 이야기는 소설같지만, 매력적입니다. 영화같기만 한 이야기 같은데, 실제로 버핏이 그런 사례를 얘기하니 더 울리기도 하고요. 사실 평범한 사람들이 위대한 회사를 만든다는 말 자체가 모순이지 않나 싶기도 합니다. 위대한 회사 만들기 위해서 평범한 것 오래 포기하지 않고 쌓아간 것 자체가 안 평범한 것이니까요. 모두가 알지만, 지키지 못하는 것이니까요. 사실 성공이 거창한 것인가 싶습니다. 하루하루 쌓아 올리는 것인데요.…
This story deeply resonates with me and its significance can be appreciated by everyone.
AI 진보/뉴스에 관한 정체감
돌이켜 보니 최근 AI 소식에 관한 포스팅을 뜸하게 하고 있었습니다. 여전히 소식은 끊임없이 쏟아져 나오고 있지만 전처럼 민감하게 반응하지 않는 이유에 관해 생각해 보게 됐는데요. 개인적으로 피로감을 느껴서일 수도 있지만 요즘은 무엇을 봐도 '와우!'가 전처럼 많지 않아서 때문인 것 같기도 합니다.
어떤 소식을 보고선 "이건 충분히 나올법한 내용이군~"하며... 스스로의 반응이 무뎌졌단 자각이 있습니다. 구글 딥마인드의 Gemini가 다음에 보여줄 것, 멀티 모달도 기대되지만 '플래닝'이 과연 무엇일지 정도에 큰 호기심이 있달까요. ( https://www.wired.com/story/google-deepmind-demis-hassabis-chatgpt ) 멀티 모달은 이미 플라밍고나 GPT-4 데모에서 그 편린을 봤기 때문에 어떠한 것인지 어느 정도 그림이 그려지지만 GPT-4도 계산 자원 부족 때문에 멀티 모달 기능의 롤 아웃을 아직 못하고 있다고 하니, 과연 Gemini의 멀티 모달 기능이 세상에 나와도 서비스로 경험할 수 있을런지는 또 모르는 일입니다. 그래서 '플래닝'이 좀 더 관전 포인트가 될 것 같아요. (과연 Monte-Carlo Tree Search + RL을 Auto-regressive 방식의 LLM에 계산 비용을 크게 늘리지 않고 뭔가 혁신적으로 접목하는 방식일런지요?)
오픈 소스 진영의 LLM의 경량화나 오늘도 끊이지 않는 소식들(오늘은 MosaicML이 인수된 소식이 있었죠)이 있지만, GPT-4와의 간극을 줄이는 것이 목표로 보여서 그 간극이 줄어들지언정 그 이상의 성능은 보여주기 어려울 것이란 생각이 들어서 막 흥분되며 기대가 되진 않더라고요. GPT-4의 활용에서 이미 어느 정도 한계를 만났다면 그 이하의 모델에서 거길 넘어서는 것은 불가능하겠죠.
GPT-4가 비교적 최근의 루머대로 220B 모델 8개의 Mixture of Experts 형태라면( https://thealgorithmicbridge.substack.com/p/gpt-4s-secret-has-been-revealed ), 이 또한 경천동지할 혁신은 아니라... 샘 올트만이 트윗에서 GPT-4가 나오기 전에 누누히 말한대로 너무 큰 기대를 하면 반드시 실망할 것이다란 말과 앞뒤가 맞는 셈입니다. 당분간 OpenAI의 로드맵이 GPT-4의 초기 성능을 너프시키면서 계산 비용을 줄이고 속도를 높이고 하는 것이 가능해지는 것과 이 루머도 앞뒤가 잘 맞는 편인 듯 하고요.
그래서 당분간 (경함 가능한) 커팅 엣지에서의 마지노선은 GPT-4일 것이고, 앞서 말한 것 처럼 GPT-4로도 달성하기 어려운 서비스는 그 이하에서도 안될 가능성이 높다는 의미겠죠. 아무리 같은/다른 여러 모델로 앙상블을 하던 체이닝을 하던 모델들의 사회로 숙의하는 시스템2를 구현해도 기본 GPT-4의 성능을 크게 넘지 못하고 고만고만 할 것 같아요.
샘 올트만이 투어 중에 발언했듯 LLM에게 도구를 쥐어주는 플러그인은 뚜껑을 열어보니 PMF(프로덕트 마켓 핏)을 못찾는 모양새가 됐습니다. 그래서 OpenAI도 작은 모델을 직접 하며 모델 마켓을 열 것이다란 전망이 나오고 있는데요. 이것도 나와봐야 알겠지만 역시 당분간의 마지노선인 GPT-4의 성능 이하겠죠.
비즈니스 측면에선 기반이 되는 기술의 (당분간의) 베스트 프랙티스, 레시피는 나온 셈이라... 저는 그걸 크게 두 가지로 봤습니다.
- 비교적 저렴한: 임베딩/벡터 서치를 그라운딩으로 → LLM의 컨텍스트 윈도우(4k ~ 16k) 채우기 → 텍스트 출력 또는 코드 / JSON 등으로 출력 → 샌드박싱으로 제한하고 도구 연동 또는 체이닝
- 상대적으로 비싼: 그라운딩으로 쓸 수 있는 대용량 토큰 → 큰 컨텍스트 윈도우(32k ~ 100k급)를 가지는 LLM의 컨텍스트 윈도우를 이 토큰으로 채우기 → 텍스트 출력 또는 코드 / JSON 등으로 출력 → 샌드박싱으로 제한하고 도구 연동 또는 체이닝
그래서 다들 이 잘 알려진 기술 구조에 기대어 여기에 뛰어들며 다양한 실험을 하고 있겠지만... 그만큼 PMF를 찾지 못하고 애매한 경우 또한 많을거라 추측해 봅니다. 비슷한 출발선을 제공하는 기술이 문제가 아니라 다른게 문제일지, 그 토대가 되는 기술의 품질이 문제인건지는 아직 불분명합니다.
그래서 이 AI Hype을 이어가려면 Gemini의 역할이 중요하다고 느낍니다. 당장은 아니지만 여기에 더 기름/기대를 부으며 다음을 상상할 수 있게 해줘야 하니까요.
토이 모델을 통해서 해석가능성을 높이는 일에도 다양한 시도가 있어왔습니다.
Anthropic의 Transformer Circuit( https://transformer-circuits.pub/ )이나
Microsoft research의 TinyStories: How Small Can Language Models Be and Still Speak Coherent English? ( https://huggingface.co/papers/2305.07759 ),
그리고 지난 주의 Textbooks Are All You Need( https://huggingface.co/papers/2306.11644 ) 같은 소식을 보면...
적어도 공감대를 형성하는 것이 '가비지 인 가비지 아웃'의 반대로 '지적인 내용이 압축되어있는 양질의 토큰을 입력으로 주는 것에 관한 중요함 같습니다. 그러고보니 일리야 수츠케버도 인터뷰에서 그런 양질의 토큰을 어떻게 계속 더 많이 확보할 것이냐에 관한 이야기를 몇 번 했던 듯 합니다.
그래서 여전히 이 LLM의 정체가 다 규명된 것은 아니고 연구가 계속 되어야 하겠지만... 이 바닥을 파고드는 해석 가능성 연구가 당장의 성능 향상에 크게 기여하진 않을 것 같습니다. 물론, 경량화 해서 성능을 높이는 것에는 어쩌면 좋은 기여를 하겠죠.
그렇다고 교과서에 비유할 수 있는 양질의 토큰만 학습한다고 될 일인가 하면 아마 그렇지 않을 겁니다. '야생'에 그리고 '노이즈' 속에 있는 무엇인가도(심지어 그게 편향일지라도) 무척 중요할 수 있으니까요. 그게 '거대'를 통해 획득할 수 있었던 능력의 의미이기도 했다고 봅니다.
또한 아직 LLM만으로는 해결할 수 없는 월드 모델에 관한 계열로는 얀 르쿤 등이 꾸준히 이야기 하고 있는 I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI ( https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa ) 같은 방향도 있고,
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought( https://github.com/gabegrand/world-models )이 LLM이 자연어 입력에 대한 출력으로 베이즈 추론 기반의 probabilistic language of thought, 또는 probabilistic programming language 를 생성하게 하는 접근도 나오고 있습니다만 이건 앞에 언급한 베스트 프랙티스에 해당하는 이야기로도 여겨집니다. ( 위 논문에선 Lisp의 방언인 Church를 사용했지만, https://probmods.org 는 Javanoscript 비슷한 WebPPL로 넘어간듯 하네요. 조슈아 테넨바움 쪽의 연구입니다)
물론 이 베이즈 기반으로 AI 능력을 제한하자는 것은 요슈아 벤지오가 강조하는 부분과 공명하기도 하는 점이 흥미롭게 느껴지긴 합니다. AI Scientists: Safe and Useful AI? ( https://yoshuabengio.org/2023/05/07/ai-scientists-safe-and-useful-ai/ )
하지만 이러한 접근들 또한 아직 '와우!'까진 아니죠. 가상 공간의 에이전트나 로봇으로 환경 속에서 체화를 시도하는 접근도 있습니다만... 역시 이게 실생활의 유용한 서비스나 제품으로 만나기 까진 시간이 꽤 걸릴 듯 합니다.
AI 리스크에 관한 얼라인먼트/안전/규제 쪽도 어느정도 논의의 가닥이 잡히며 '와우!'는 줄어들고 있다고 여겨집니다.
돌이켜 보니 최근 AI 소식에 관한 포스팅을 뜸하게 하고 있었습니다. 여전히 소식은 끊임없이 쏟아져 나오고 있지만 전처럼 민감하게 반응하지 않는 이유에 관해 생각해 보게 됐는데요. 개인적으로 피로감을 느껴서일 수도 있지만 요즘은 무엇을 봐도 '와우!'가 전처럼 많지 않아서 때문인 것 같기도 합니다.
어떤 소식을 보고선 "이건 충분히 나올법한 내용이군~"하며... 스스로의 반응이 무뎌졌단 자각이 있습니다. 구글 딥마인드의 Gemini가 다음에 보여줄 것, 멀티 모달도 기대되지만 '플래닝'이 과연 무엇일지 정도에 큰 호기심이 있달까요. ( https://www.wired.com/story/google-deepmind-demis-hassabis-chatgpt ) 멀티 모달은 이미 플라밍고나 GPT-4 데모에서 그 편린을 봤기 때문에 어떠한 것인지 어느 정도 그림이 그려지지만 GPT-4도 계산 자원 부족 때문에 멀티 모달 기능의 롤 아웃을 아직 못하고 있다고 하니, 과연 Gemini의 멀티 모달 기능이 세상에 나와도 서비스로 경험할 수 있을런지는 또 모르는 일입니다. 그래서 '플래닝'이 좀 더 관전 포인트가 될 것 같아요. (과연 Monte-Carlo Tree Search + RL을 Auto-regressive 방식의 LLM에 계산 비용을 크게 늘리지 않고 뭔가 혁신적으로 접목하는 방식일런지요?)
오픈 소스 진영의 LLM의 경량화나 오늘도 끊이지 않는 소식들(오늘은 MosaicML이 인수된 소식이 있었죠)이 있지만, GPT-4와의 간극을 줄이는 것이 목표로 보여서 그 간극이 줄어들지언정 그 이상의 성능은 보여주기 어려울 것이란 생각이 들어서 막 흥분되며 기대가 되진 않더라고요. GPT-4의 활용에서 이미 어느 정도 한계를 만났다면 그 이하의 모델에서 거길 넘어서는 것은 불가능하겠죠.
GPT-4가 비교적 최근의 루머대로 220B 모델 8개의 Mixture of Experts 형태라면( https://thealgorithmicbridge.substack.com/p/gpt-4s-secret-has-been-revealed ), 이 또한 경천동지할 혁신은 아니라... 샘 올트만이 트윗에서 GPT-4가 나오기 전에 누누히 말한대로 너무 큰 기대를 하면 반드시 실망할 것이다란 말과 앞뒤가 맞는 셈입니다. 당분간 OpenAI의 로드맵이 GPT-4의 초기 성능을 너프시키면서 계산 비용을 줄이고 속도를 높이고 하는 것이 가능해지는 것과 이 루머도 앞뒤가 잘 맞는 편인 듯 하고요.
그래서 당분간 (경함 가능한) 커팅 엣지에서의 마지노선은 GPT-4일 것이고, 앞서 말한 것 처럼 GPT-4로도 달성하기 어려운 서비스는 그 이하에서도 안될 가능성이 높다는 의미겠죠. 아무리 같은/다른 여러 모델로 앙상블을 하던 체이닝을 하던 모델들의 사회로 숙의하는 시스템2를 구현해도 기본 GPT-4의 성능을 크게 넘지 못하고 고만고만 할 것 같아요.
샘 올트만이 투어 중에 발언했듯 LLM에게 도구를 쥐어주는 플러그인은 뚜껑을 열어보니 PMF(프로덕트 마켓 핏)을 못찾는 모양새가 됐습니다. 그래서 OpenAI도 작은 모델을 직접 하며 모델 마켓을 열 것이다란 전망이 나오고 있는데요. 이것도 나와봐야 알겠지만 역시 당분간의 마지노선인 GPT-4의 성능 이하겠죠.
비즈니스 측면에선 기반이 되는 기술의 (당분간의) 베스트 프랙티스, 레시피는 나온 셈이라... 저는 그걸 크게 두 가지로 봤습니다.
- 비교적 저렴한: 임베딩/벡터 서치를 그라운딩으로 → LLM의 컨텍스트 윈도우(4k ~ 16k) 채우기 → 텍스트 출력 또는 코드 / JSON 등으로 출력 → 샌드박싱으로 제한하고 도구 연동 또는 체이닝
- 상대적으로 비싼: 그라운딩으로 쓸 수 있는 대용량 토큰 → 큰 컨텍스트 윈도우(32k ~ 100k급)를 가지는 LLM의 컨텍스트 윈도우를 이 토큰으로 채우기 → 텍스트 출력 또는 코드 / JSON 등으로 출력 → 샌드박싱으로 제한하고 도구 연동 또는 체이닝
그래서 다들 이 잘 알려진 기술 구조에 기대어 여기에 뛰어들며 다양한 실험을 하고 있겠지만... 그만큼 PMF를 찾지 못하고 애매한 경우 또한 많을거라 추측해 봅니다. 비슷한 출발선을 제공하는 기술이 문제가 아니라 다른게 문제일지, 그 토대가 되는 기술의 품질이 문제인건지는 아직 불분명합니다.
그래서 이 AI Hype을 이어가려면 Gemini의 역할이 중요하다고 느낍니다. 당장은 아니지만 여기에 더 기름/기대를 부으며 다음을 상상할 수 있게 해줘야 하니까요.
토이 모델을 통해서 해석가능성을 높이는 일에도 다양한 시도가 있어왔습니다.
Anthropic의 Transformer Circuit( https://transformer-circuits.pub/ )이나
Microsoft research의 TinyStories: How Small Can Language Models Be and Still Speak Coherent English? ( https://huggingface.co/papers/2305.07759 ),
그리고 지난 주의 Textbooks Are All You Need( https://huggingface.co/papers/2306.11644 ) 같은 소식을 보면...
적어도 공감대를 형성하는 것이 '가비지 인 가비지 아웃'의 반대로 '지적인 내용이 압축되어있는 양질의 토큰을 입력으로 주는 것에 관한 중요함 같습니다. 그러고보니 일리야 수츠케버도 인터뷰에서 그런 양질의 토큰을 어떻게 계속 더 많이 확보할 것이냐에 관한 이야기를 몇 번 했던 듯 합니다.
그래서 여전히 이 LLM의 정체가 다 규명된 것은 아니고 연구가 계속 되어야 하겠지만... 이 바닥을 파고드는 해석 가능성 연구가 당장의 성능 향상에 크게 기여하진 않을 것 같습니다. 물론, 경량화 해서 성능을 높이는 것에는 어쩌면 좋은 기여를 하겠죠.
그렇다고 교과서에 비유할 수 있는 양질의 토큰만 학습한다고 될 일인가 하면 아마 그렇지 않을 겁니다. '야생'에 그리고 '노이즈' 속에 있는 무엇인가도(심지어 그게 편향일지라도) 무척 중요할 수 있으니까요. 그게 '거대'를 통해 획득할 수 있었던 능력의 의미이기도 했다고 봅니다.
또한 아직 LLM만으로는 해결할 수 없는 월드 모델에 관한 계열로는 얀 르쿤 등이 꾸준히 이야기 하고 있는 I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI ( https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa ) 같은 방향도 있고,
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought( https://github.com/gabegrand/world-models )이 LLM이 자연어 입력에 대한 출력으로 베이즈 추론 기반의 probabilistic language of thought, 또는 probabilistic programming language 를 생성하게 하는 접근도 나오고 있습니다만 이건 앞에 언급한 베스트 프랙티스에 해당하는 이야기로도 여겨집니다. ( 위 논문에선 Lisp의 방언인 Church를 사용했지만, https://probmods.org 는 Javanoscript 비슷한 WebPPL로 넘어간듯 하네요. 조슈아 테넨바움 쪽의 연구입니다)
물론 이 베이즈 기반으로 AI 능력을 제한하자는 것은 요슈아 벤지오가 강조하는 부분과 공명하기도 하는 점이 흥미롭게 느껴지긴 합니다. AI Scientists: Safe and Useful AI? ( https://yoshuabengio.org/2023/05/07/ai-scientists-safe-and-useful-ai/ )
하지만 이러한 접근들 또한 아직 '와우!'까진 아니죠. 가상 공간의 에이전트나 로봇으로 환경 속에서 체화를 시도하는 접근도 있습니다만... 역시 이게 실생활의 유용한 서비스나 제품으로 만나기 까진 시간이 꽤 걸릴 듯 합니다.
AI 리스크에 관한 얼라인먼트/안전/규제 쪽도 어느정도 논의의 가닥이 잡히며 '와우!'는 줄어들고 있다고 여겨집니다.
WIRED
Google DeepMind CEO Demis Hassabis Says Its Next Algorithm Will Eclipse ChatGPT
The company is working on a system called Gemini that will draw on techniques that powered AlphaGo to a historic victory over a Go champion in 2016.
👍2
어떻게 보면 AI 리스크를 통해서도 Hype을 이어가고 있었는데 말이죠.
여기에 관한 제 관전 포인트는...
The AI Apocalypse: A Scorecard How worried are top AI experts about the threat posed by large language models like GPT-4? ( https://spectrum.ieee.org/artificial-general-intelligence )
Munk Debate on Artificial Intelligence ( https://munkdebates.com/livestreamai )
의 인선을 보듯, 몇 가지 잘 알려진 입장들이 있는데... 굳이 이 입장들을 협의해서 하나로 할 필요없이,
OpenAI 등에서 이야기하는 얼라인먼트에 대한 이슈는 그쪽 그룹에서,
제프리 힌튼 등이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
요슈아 벤지오 등이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
장기주의자/효율적 이타주의자 등의 계열이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
멜라니 미첼, 확률적 앵무새 저자 계열이 걱정하는 바는 그쪽 그룹에서,
엘리에저 윳코우스키나 게리 마커스 계열은 또 그쪽 나름으로,
얀 르쿤 등의 그룹도 역시 그쪽 나름의 화두로,
앤드류 응이 말하는 것 처럼 공감대를 형성하는 것은 또 앤드류 응 등의 그룹에서,
EU나 미의회 쪽의 규제 논의도 나름의 방식으로~
각자의 입장에서 각자 우려하는 '리스크'를 완화하는 도전을 하고 그 성과를 공유하면 Anthropic이 이야기한 다양한 수준의 'AI 리스크'에 각각 대응하는 헷징을 하는 접근, Core Views on AI Safety: When, Why, What, and How( https://www.anthropic.com/index/core-views-on-ai-safety )과 비슷해지는 모양새라...
이제 나올법한 논의는 꽤 나왔고 이 또한 당분간은 '와우!'는 없을 것 같단 전망을 하게된달까요. 정말 AI 리스크가 크게 터지는 사건이 일어난다면 이 AI 리스크 이슈가 크게 부각되며 AI Hype에 일조하겠지만 그러지 않는다면, 아이러니하게도 이 또한 정체감에 일조할 수 있겠습니다.
기반이 되는 기술 진보에서 '와우!'가 없다면 여기에 토대를 두는 예술/퍼포먼스 분야에서도 아직 이걸 접목해 보지 않은 도메인이나 장르와 만남이 있을 때 잠깐 잠깐 이슈가 만들어지겠지만, 어디서 봤던 기시감이 들며 정체감이 일어날 수 있을 겁니다.
마찬가지로 역시 토대가 되는 기술 진보에서 '와우'가 없다면 여기에 토대를 두는 '책'도 빠르게 관심이 불타오른 것 처럼, 베스트 셀러 양서 몇 권이 정점을 한번 찍으며... 많은 사람들이 어느 정도 감을 잡은 뒤에는 빠르게 타오른 것 만큼 빠르게 식을 수도 있고요. 물론 많은 사람들이 감을 잡기까지는 롱테일이 있겠죠.
따라서... 다시 한번 '와우!' 모먼트, 이 정도가 되는 건 처음이야!라는 '경이감'을 주는 것이 다시 적당한 타이밍에 콤보를 이어가 주지 않는다면, '정체감'을 느끼며, 일상으로들 돌아가기 시작할 수 있겠죠.
물론 그 사이 이미 무엇인가가 뉴노말이 되었을 겁니다. 매우 중요한 건데, 이젠 그렇게 신기하지 않고 너무 당연한 그런 무엇인가로요.
어쩌면... 그냥 제가 AI 뉴스에 관해 피로감을 많이 느끼고 있는 중이거나... 노회해서 소식에 민감하게 감응하는 능력이 떨어져있는 상태일 수 있습니다. 뉴스는 계속 감당하기 어렵게 많이 나올겁니다. 다만 거기에 관한 반응이 정체되어 있는 것이죠.
그래도 이렇게 정체감을 느끼는게 계속 계속 다음의 큰 자극을 찾는 도파민 중독이 해독되고 있는 중이라면... 다행입니다.
여기에 관한 제 관전 포인트는...
The AI Apocalypse: A Scorecard How worried are top AI experts about the threat posed by large language models like GPT-4? ( https://spectrum.ieee.org/artificial-general-intelligence )
Munk Debate on Artificial Intelligence ( https://munkdebates.com/livestreamai )
의 인선을 보듯, 몇 가지 잘 알려진 입장들이 있는데... 굳이 이 입장들을 협의해서 하나로 할 필요없이,
OpenAI 등에서 이야기하는 얼라인먼트에 대한 이슈는 그쪽 그룹에서,
제프리 힌튼 등이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
요슈아 벤지오 등이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
장기주의자/효율적 이타주의자 등의 계열이 걱정하는 바에 대한 대안은 그쪽 그룹에서,
멜라니 미첼, 확률적 앵무새 저자 계열이 걱정하는 바는 그쪽 그룹에서,
엘리에저 윳코우스키나 게리 마커스 계열은 또 그쪽 나름으로,
얀 르쿤 등의 그룹도 역시 그쪽 나름의 화두로,
앤드류 응이 말하는 것 처럼 공감대를 형성하는 것은 또 앤드류 응 등의 그룹에서,
EU나 미의회 쪽의 규제 논의도 나름의 방식으로~
각자의 입장에서 각자 우려하는 '리스크'를 완화하는 도전을 하고 그 성과를 공유하면 Anthropic이 이야기한 다양한 수준의 'AI 리스크'에 각각 대응하는 헷징을 하는 접근, Core Views on AI Safety: When, Why, What, and How( https://www.anthropic.com/index/core-views-on-ai-safety )과 비슷해지는 모양새라...
이제 나올법한 논의는 꽤 나왔고 이 또한 당분간은 '와우!'는 없을 것 같단 전망을 하게된달까요. 정말 AI 리스크가 크게 터지는 사건이 일어난다면 이 AI 리스크 이슈가 크게 부각되며 AI Hype에 일조하겠지만 그러지 않는다면, 아이러니하게도 이 또한 정체감에 일조할 수 있겠습니다.
기반이 되는 기술 진보에서 '와우!'가 없다면 여기에 토대를 두는 예술/퍼포먼스 분야에서도 아직 이걸 접목해 보지 않은 도메인이나 장르와 만남이 있을 때 잠깐 잠깐 이슈가 만들어지겠지만, 어디서 봤던 기시감이 들며 정체감이 일어날 수 있을 겁니다.
마찬가지로 역시 토대가 되는 기술 진보에서 '와우'가 없다면 여기에 토대를 두는 '책'도 빠르게 관심이 불타오른 것 처럼, 베스트 셀러 양서 몇 권이 정점을 한번 찍으며... 많은 사람들이 어느 정도 감을 잡은 뒤에는 빠르게 타오른 것 만큼 빠르게 식을 수도 있고요. 물론 많은 사람들이 감을 잡기까지는 롱테일이 있겠죠.
따라서... 다시 한번 '와우!' 모먼트, 이 정도가 되는 건 처음이야!라는 '경이감'을 주는 것이 다시 적당한 타이밍에 콤보를 이어가 주지 않는다면, '정체감'을 느끼며, 일상으로들 돌아가기 시작할 수 있겠죠.
물론 그 사이 이미 무엇인가가 뉴노말이 되었을 겁니다. 매우 중요한 건데, 이젠 그렇게 신기하지 않고 너무 당연한 그런 무엇인가로요.
어쩌면... 그냥 제가 AI 뉴스에 관해 피로감을 많이 느끼고 있는 중이거나... 노회해서 소식에 민감하게 감응하는 능력이 떨어져있는 상태일 수 있습니다. 뉴스는 계속 감당하기 어렵게 많이 나올겁니다. 다만 거기에 관한 반응이 정체되어 있는 것이죠.
그래도 이렇게 정체감을 느끼는게 계속 계속 다음의 큰 자극을 찾는 도파민 중독이 해독되고 있는 중이라면... 다행입니다.
IEEE Spectrum
The AI Apocalypse: A Scorecard
How worried are top AI experts about the threat posed by large language models like GPT-4?
👍1
The CEO of Databricks explains the justification for the $1.3 billion acquisition of young AI startup, Mosaic. Databricks has paid 65 times Mosaic’s annual recurring revenue of $20 million, a cost Ghodsi deems reasonable due to Mosaic's substantial revenue growth and the growing demand for customized AI models within large enterprises.
He believes that the merger can significantly boost their revenue, considering MosaicML's small sales team of three will now be part of Databricks' extensive 3,000-strong sales organization.
Databricks offers a cloud database and other software to facilitate the application of machine learning models to data. The purchase of Mosaic is aimed at providing customers with a simplified way to customize large-language models, a type of machine learning software that powers chatbots, offering a more bespoke solution than the generalized software provided by OpenAI.
Mosaic's AI models, while less advanced than OpenAI’s, are typically more cost-effective and are better tailored to companies’ internal needs, such as sourcing internal information for employees. Mosaic's value has been attested by its clients like Replit, a software development tool provider, and Glean AI, which develops software to monitor company expenses and suggest cost-saving measures.
However, the deal's actual value is considerably lower as Databricks will pay for Mosaic in stock, priced at Databricks' last equity financing round in 2021, which was at its peak valuation.
The acquisition also signals an unfolding competition between companies like OpenAI, Anthropic, and Cohere that develop large, proprietary or closed-source LLMs, and providers like Databricks hoping businesses will prefer to train smaller, open-source LLMs on their own corporate data for superior performance and data security. This acquisition could potentially strain the relationship between OpenAI and Microsoft.
https://www.theinformation.com/articles/how-databricks-ceo-justifies-paying-1-3-billion-for-a-young-ai-startup
He believes that the merger can significantly boost their revenue, considering MosaicML's small sales team of three will now be part of Databricks' extensive 3,000-strong sales organization.
Databricks offers a cloud database and other software to facilitate the application of machine learning models to data. The purchase of Mosaic is aimed at providing customers with a simplified way to customize large-language models, a type of machine learning software that powers chatbots, offering a more bespoke solution than the generalized software provided by OpenAI.
Mosaic's AI models, while less advanced than OpenAI’s, are typically more cost-effective and are better tailored to companies’ internal needs, such as sourcing internal information for employees. Mosaic's value has been attested by its clients like Replit, a software development tool provider, and Glean AI, which develops software to monitor company expenses and suggest cost-saving measures.
However, the deal's actual value is considerably lower as Databricks will pay for Mosaic in stock, priced at Databricks' last equity financing round in 2021, which was at its peak valuation.
The acquisition also signals an unfolding competition between companies like OpenAI, Anthropic, and Cohere that develop large, proprietary or closed-source LLMs, and providers like Databricks hoping businesses will prefer to train smaller, open-source LLMs on their own corporate data for superior performance and data security. This acquisition could potentially strain the relationship between OpenAI and Microsoft.
https://www.theinformation.com/articles/how-databricks-ceo-justifies-paying-1-3-billion-for-a-young-ai-startup
The Information
How Databricks CEO Justifies Paying $1.3 Billion for a Young AI Startup
When enterprise software firm Databricks revealed on Monday it would pay $1.3 billion for a two-year-old artificial intelligence startup, MosaicML, the deal looked overpriced. Databricks is paying 65 times Mosaic’s $20 million in annual recurring revenue…
Continuous Learning_Startup & Investment
The CEO of Databricks explains the justification for the $1.3 billion acquisition of young AI startup, Mosaic. Databricks has paid 65 times Mosaic’s annual recurring revenue of $20 million, a cost Ghodsi deems reasonable due to Mosaic's substantial revenue…
Databricks CEO는 왜 Mosaic ML을 $1.3B에 인수했을까?
Source: https://www.theinformation.com/articles/how-databricks-ceo-justifies-paying-1-3-billion-for-a-young-ai-startup
데이터브릭스는 머신러닝 모델을 데이터에 쉽게 적용할 수 있도록 클라우드 데이터베이스와 기타 소프트웨어를 제공합니다. 이번 모자이크 인수는 고객에게 챗봇을 구동하는 머신러닝 소프트웨어의 일종인 대규모 언어 모델을 사용자 정의할 수 있는 간소화된 방법을 제공하기 위한 것으로, OpenAI가 제공하는 일반화된 소프트웨어보다 더 맞춤화된 솔루션을 제공할 수 있습니다.
Mosaic의 AI 모델은 OpenAI보다 덜 발전되었지만 일반적으로 더 비용 효율적이며 직원을 위한 내부 정보 소싱과 같은 기업의 내부 요구 사항에 더 잘 맞습니다. 소프트웨어 개발 도구 제공업체인 Replit과 회사 비용을 모니터링하고 비용 절감 방안을 제안하는 소프트웨어를 개발하는 Glean AI와 같은 고객사들은 Mosaic의 가치를 이미 입증한 바 있습니다.
그래도 $1.3b을 지불할만할까?
데이터브릭스는 모자이크의 연간 반복 매출 2천만 달러의 65배에 달하는 금액을 지불했는데, 고드는 모자이크의 상당한 매출 성장과 대기업 내 맞춤형 AI 모델에 대한 수요 증가를 고려할 때 합리적인 비용이라고 판단했습니다.
Mosaic ML의 영업팀은 3명 규모인데 올해 1월 ARR(연간 반복 매출)이 $1m에서 6개월 사이에 ARR이 $20m으로 늘어났습니다. 제품에 대한 시장 검증은 마무리되었고 Databricks의 3,000명 정도 되는 글로벌 영업망에 해당 제품을 판매한다면 인수 금액 대비 더 큰 수익을 얻을 수 있다는 계산을 한 것 같습니다.
더불어, 데이터브릭스가 모자이크의 주식을 인수하는 가격은 2021년 데이터브릭스의 마지막 주식 파이낸싱 라운드에서 가장 높은 평가를 받았던 가격( $38 B)이기 때문에 실제 거래 가치는 상당히 낮을 것으로 예상됩니다.
최근에 Snowflake가 Neeva라는 AI Startup을 약 $150m에 인수(https://www.snowflake.com/blog/snowflake-acquires-neeva-to-accelerate-search-in-the-data-cloud-through-generative-ai/) 한 것도 Databricks 팀이 Mosaic ML 인수를 서두르게 한 요인이라고 생각합니다.
이번 인수에서 생각해볼만한 지점
1. 이번 인수는 또한 대규모 독점 또는 비공개 소스 LLM을 개발하는 OpenAI, Anthropic, Cohere와 같은 기업과 우수한 성능과 데이터 보안을 위해 기업이 자체 기업 데이터로 소규모 오픈 소스 LLM을 학습시키는 것을 선호하는 Databricks와 같은 제공업체 간의 경쟁이 본격화되고 있음을 의미합니다.
2. MS는 OpenAI의 가장 큰 투자자이면서도 Databricks의 거대 벤더입니다. Databricks가 OpenAI의 ChatGPT보다 가성비가 좋은 모델을 지원한다면 MS입장에서는 판매처로서 여러 카드를 손에 쥘 수 있고 이번 인수가 잠재적으로 OpenAI와 Microsoft의 관계를 긴장시킬 수 있다는 관점도 있습니다.
3. AI Startup 가치에 대해서. Neeva $150m, Mosaic ML $1.3b(현실적으로 $650m)그리고 최근에 톰슨 로이터가 로펌의 문서 리뷰를 자동화해주는 Casetext를 $650 를 전액 현금을 지불하면서 구매한 것들을 봤을 때, 데이터를 가지고 AI Use-case를 만들거나, Model을 만들 역량이 있거나, Model과 관련한 인프라를 만드는 기업들에 대한 Valuation Inflation이 시작될 것 같습니다.
Source: https://www.theinformation.com/articles/how-databricks-ceo-justifies-paying-1-3-billion-for-a-young-ai-startup
데이터브릭스는 머신러닝 모델을 데이터에 쉽게 적용할 수 있도록 클라우드 데이터베이스와 기타 소프트웨어를 제공합니다. 이번 모자이크 인수는 고객에게 챗봇을 구동하는 머신러닝 소프트웨어의 일종인 대규모 언어 모델을 사용자 정의할 수 있는 간소화된 방법을 제공하기 위한 것으로, OpenAI가 제공하는 일반화된 소프트웨어보다 더 맞춤화된 솔루션을 제공할 수 있습니다.
Mosaic의 AI 모델은 OpenAI보다 덜 발전되었지만 일반적으로 더 비용 효율적이며 직원을 위한 내부 정보 소싱과 같은 기업의 내부 요구 사항에 더 잘 맞습니다. 소프트웨어 개발 도구 제공업체인 Replit과 회사 비용을 모니터링하고 비용 절감 방안을 제안하는 소프트웨어를 개발하는 Glean AI와 같은 고객사들은 Mosaic의 가치를 이미 입증한 바 있습니다.
그래도 $1.3b을 지불할만할까?
데이터브릭스는 모자이크의 연간 반복 매출 2천만 달러의 65배에 달하는 금액을 지불했는데, 고드는 모자이크의 상당한 매출 성장과 대기업 내 맞춤형 AI 모델에 대한 수요 증가를 고려할 때 합리적인 비용이라고 판단했습니다.
Mosaic ML의 영업팀은 3명 규모인데 올해 1월 ARR(연간 반복 매출)이 $1m에서 6개월 사이에 ARR이 $20m으로 늘어났습니다. 제품에 대한 시장 검증은 마무리되었고 Databricks의 3,000명 정도 되는 글로벌 영업망에 해당 제품을 판매한다면 인수 금액 대비 더 큰 수익을 얻을 수 있다는 계산을 한 것 같습니다.
더불어, 데이터브릭스가 모자이크의 주식을 인수하는 가격은 2021년 데이터브릭스의 마지막 주식 파이낸싱 라운드에서 가장 높은 평가를 받았던 가격( $38 B)이기 때문에 실제 거래 가치는 상당히 낮을 것으로 예상됩니다.
최근에 Snowflake가 Neeva라는 AI Startup을 약 $150m에 인수(https://www.snowflake.com/blog/snowflake-acquires-neeva-to-accelerate-search-in-the-data-cloud-through-generative-ai/) 한 것도 Databricks 팀이 Mosaic ML 인수를 서두르게 한 요인이라고 생각합니다.
이번 인수에서 생각해볼만한 지점
1. 이번 인수는 또한 대규모 독점 또는 비공개 소스 LLM을 개발하는 OpenAI, Anthropic, Cohere와 같은 기업과 우수한 성능과 데이터 보안을 위해 기업이 자체 기업 데이터로 소규모 오픈 소스 LLM을 학습시키는 것을 선호하는 Databricks와 같은 제공업체 간의 경쟁이 본격화되고 있음을 의미합니다.
2. MS는 OpenAI의 가장 큰 투자자이면서도 Databricks의 거대 벤더입니다. Databricks가 OpenAI의 ChatGPT보다 가성비가 좋은 모델을 지원한다면 MS입장에서는 판매처로서 여러 카드를 손에 쥘 수 있고 이번 인수가 잠재적으로 OpenAI와 Microsoft의 관계를 긴장시킬 수 있다는 관점도 있습니다.
3. AI Startup 가치에 대해서. Neeva $150m, Mosaic ML $1.3b(현실적으로 $650m)그리고 최근에 톰슨 로이터가 로펌의 문서 리뷰를 자동화해주는 Casetext를 $650 를 전액 현금을 지불하면서 구매한 것들을 봤을 때, 데이터를 가지고 AI Use-case를 만들거나, Model을 만들 역량이 있거나, Model과 관련한 인프라를 만드는 기업들에 대한 Valuation Inflation이 시작될 것 같습니다.
The Information
How Databricks CEO Justifies Paying $1.3 Billion for a Young AI Startup
When enterprise software firm Databricks revealed on Monday it would pay $1.3 billion for a two-year-old artificial intelligence startup, MosaicML, the deal looked overpriced. Databricks is paying 65 times Mosaic’s $20 million in annual recurring revenue…
Wanting to get started with Generative AI and LLMs, but not sure where to start? 🤔 I am super excited to share Amazon Web Services (AWS) and DeepLearning.AI just launched "Generative AI with LLMs" course, designed specifically for individuals and beginners! 🔰🔥
In Generative AI with Large Language Models (LLMs), you’ll learn the fundamentals of how generative AI works and how to use the Hugging Face ecosystem (Transformers, PEFT, TRL) to instruction-tune, RLHF, or deploy open-source LLMs! 🤯
👉 https://lnkd.in/ep68k-Pk
I am incredibly proud to say that I worked behind the scenes with Antje Barth, Chris Fregly, and Mike Chambers to make this course a reality. Huge kudos to everyone who was involved.
🤗 https://lnkd.in/e3a8jXw7
If you've ever been curious about how generative AI works or want to refresh your knowledge, this course is an absolute must-attend! 🔥🤝
In Generative AI with Large Language Models (LLMs), you’ll learn the fundamentals of how generative AI works and how to use the Hugging Face ecosystem (Transformers, PEFT, TRL) to instruction-tune, RLHF, or deploy open-source LLMs! 🤯
👉 https://lnkd.in/ep68k-Pk
I am incredibly proud to say that I worked behind the scenes with Antje Barth, Chris Fregly, and Mike Chambers to make this course a reality. Huge kudos to everyone who was involved.
🤗 https://lnkd.in/e3a8jXw7
If you've ever been curious about how generative AI works or want to refresh your knowledge, this course is an absolute must-attend! 🔥🤝
www.deeplearning.ai
Generative AI with LLMs - DeepLearning.AI
Learn the fundamentals of how generative AI works, and how to deploy it in real-world applications. Equip yourself with the technical skills and intuition needed to succeed in the growing demand for ML engineers and data scientists.
Forwarded from 요즘AI
최초로 IOS 탈옥에 성공했던 미국의 천재 해커 조지 호츠(George Hotz)가 그동안 베일에 감춰진 GPT-4의 구조에 대해 언급했습니다.
그가 GPT-4의 성능을 높이는 핵심 구조로 언급한 ‘MoE(Mixture of Experts)’ 모델에 대해 알기 쉽게 내용을 정리해보았습니다.
https://news.aikoreacommunity.com/ceonjaehaekeo-jiohasi-gpt-4yi-bimileul-puleonaeda/
1/ 조지 호츠는 OpenAI의 GPT-4가 1조 개의 파라미터(parameter)를 가진 모델이 아닌, 2,200억 개의 파라미터를 가진 모델 8개가 혼합된 구조로 이루어져 있다고 주장.
즉 같은 크기의 모델을 여덟 번 훈련 시킨 후, ‘MoE’라는 모델 구조를 활용하여 1조 개의 파라미터를 가진 큰 모델인 척 트릭을 썼다는 것.
그렇다면 MoE가 무엇일까?
2/ MoE(Mixture of Experts)는 여러 개의 신경망을 서로 다른 분야에 특화된 전문가(Experts) 신경망으로 각각 훈련시키고, 이 신경망들을 혼합(Mixture)하여 활용하는 딥러닝 모델 구조임.
즉 여러 개의 서로 다른 신경망(전문가)이 서로 다른 문제나 데이터 분야를 처리하도록 설계된 모델인 것.
3/ MoE 모델은 크게 두 가지로 구성됨. 전문가(Experts)와 게이트(Gate).
전문가는 앞서 말했듯 특화된 각 부분에 대한 처리를 담당함. 게이트는 입력값(input)에 대해 각 전문가에게 가중치를 부여하는 역할을 수행함.
4/ MoE 모델이 답변을 내는 방식은 다양함. 큰 가중치를 부여받은 전문가가 출력값(output)을 생성하거나, 혹은 각 전문가들의 답변에 가중치를 매긴 후 이를 합쳐서 출력값을 생성하는 방식도 있음.
어떤 방식이든 각 모델이 전문화된 분야에 특화된 답변을 제공하기 때문에, 같은 크기의 모델로 이루어진 단일 신경망 구조보다 더 높은 답변 성능을 낼 수 있는 것.
5/ 한 가지 단점은 여러 개의 모델을 한 번에 사용하다 보니 계산 및 메모리 비용이 기존 단일 신경망 구조보다 높아질 수 있다는 것.(MoE는 여러 개의 신경망 모델을 이용하기 때문)
하지만 이는 병렬 처리와 관련된 연구와, Sparse Gate 등 다양한 연구를 통해 계속해서 해결되고 있음. 아래 링크는 관련 연구 논문 중 하나.
https://arxiv.org/pdf/2212.05055.pdf
6/ 또한 MoE 구조는 파라미터가 적은 모델일수록 한 개의 신경망으로 작동하는 모델보다 성능을 향상시키기 어려움.
데이터 세트가 작을수록 각 모델이 학습할 수 있는 특정 데이터가 매우 제한적이기 때문.
하지만 학습된 데이터 세트가 커질수록 각 신경망이 학습할 수 있는 데이터가 많아지므로 이 구조가 매우 효율적으로 작용함.
7/ 즉 MoE 구조는 대규모 언어 모델에 매우 적합하다는 것.
GPT-3.5의 파라미터(parameter)는 1,750억 개이며, 조지 호츠가 GPT-4에서 사용되었다고 주장한 모델의 파라미터는 2,200억 개.
만약 그의 주장이 맞다면 GPT-3.5와 GPT-4의 성능 차이는 파라미터의 차이가 아닌 MoE 구조의 유무에서 오는 차이라는 뜻.
8/ MoE가 갖는 특성은 GPT-4와 같은 대규모 AI 모델을 만드는 데 적합하게 사용될 수 있음.
샘 알트만 또한 AI 모델의 규모의 한계에 대해서 언급한 바가 있기에, 규모의 한계를 뛰어넘는 성능을 발휘하도록 하는 MoE 구조의 활용성이 매우 기대됨.
팟캐스트 전문은 이곳에서 볼 수 있습니다. 읽어주셔서 감사합니다. :)
https://www.latent.space/p/geohot#details
그가 GPT-4의 성능을 높이는 핵심 구조로 언급한 ‘MoE(Mixture of Experts)’ 모델에 대해 알기 쉽게 내용을 정리해보았습니다.
https://news.aikoreacommunity.com/ceonjaehaekeo-jiohasi-gpt-4yi-bimileul-puleonaeda/
1/ 조지 호츠는 OpenAI의 GPT-4가 1조 개의 파라미터(parameter)를 가진 모델이 아닌, 2,200억 개의 파라미터를 가진 모델 8개가 혼합된 구조로 이루어져 있다고 주장.
즉 같은 크기의 모델을 여덟 번 훈련 시킨 후, ‘MoE’라는 모델 구조를 활용하여 1조 개의 파라미터를 가진 큰 모델인 척 트릭을 썼다는 것.
그렇다면 MoE가 무엇일까?
2/ MoE(Mixture of Experts)는 여러 개의 신경망을 서로 다른 분야에 특화된 전문가(Experts) 신경망으로 각각 훈련시키고, 이 신경망들을 혼합(Mixture)하여 활용하는 딥러닝 모델 구조임.
즉 여러 개의 서로 다른 신경망(전문가)이 서로 다른 문제나 데이터 분야를 처리하도록 설계된 모델인 것.
3/ MoE 모델은 크게 두 가지로 구성됨. 전문가(Experts)와 게이트(Gate).
전문가는 앞서 말했듯 특화된 각 부분에 대한 처리를 담당함. 게이트는 입력값(input)에 대해 각 전문가에게 가중치를 부여하는 역할을 수행함.
4/ MoE 모델이 답변을 내는 방식은 다양함. 큰 가중치를 부여받은 전문가가 출력값(output)을 생성하거나, 혹은 각 전문가들의 답변에 가중치를 매긴 후 이를 합쳐서 출력값을 생성하는 방식도 있음.
어떤 방식이든 각 모델이 전문화된 분야에 특화된 답변을 제공하기 때문에, 같은 크기의 모델로 이루어진 단일 신경망 구조보다 더 높은 답변 성능을 낼 수 있는 것.
5/ 한 가지 단점은 여러 개의 모델을 한 번에 사용하다 보니 계산 및 메모리 비용이 기존 단일 신경망 구조보다 높아질 수 있다는 것.(MoE는 여러 개의 신경망 모델을 이용하기 때문)
하지만 이는 병렬 처리와 관련된 연구와, Sparse Gate 등 다양한 연구를 통해 계속해서 해결되고 있음. 아래 링크는 관련 연구 논문 중 하나.
https://arxiv.org/pdf/2212.05055.pdf
6/ 또한 MoE 구조는 파라미터가 적은 모델일수록 한 개의 신경망으로 작동하는 모델보다 성능을 향상시키기 어려움.
데이터 세트가 작을수록 각 모델이 학습할 수 있는 특정 데이터가 매우 제한적이기 때문.
하지만 학습된 데이터 세트가 커질수록 각 신경망이 학습할 수 있는 데이터가 많아지므로 이 구조가 매우 효율적으로 작용함.
7/ 즉 MoE 구조는 대규모 언어 모델에 매우 적합하다는 것.
GPT-3.5의 파라미터(parameter)는 1,750억 개이며, 조지 호츠가 GPT-4에서 사용되었다고 주장한 모델의 파라미터는 2,200억 개.
만약 그의 주장이 맞다면 GPT-3.5와 GPT-4의 성능 차이는 파라미터의 차이가 아닌 MoE 구조의 유무에서 오는 차이라는 뜻.
8/ MoE가 갖는 특성은 GPT-4와 같은 대규모 AI 모델을 만드는 데 적합하게 사용될 수 있음.
샘 알트만 또한 AI 모델의 규모의 한계에 대해서 언급한 바가 있기에, 규모의 한계를 뛰어넘는 성능을 발휘하도록 하는 MoE 구조의 활용성이 매우 기대됨.
팟캐스트 전문은 이곳에서 볼 수 있습니다. 읽어주셔서 감사합니다. :)
https://www.latent.space/p/geohot#details
AI 코리아 커뮤니티 뉴스레터
천재해커 지오핫이 GPT-4의 비밀을 풀어내다?!
수수께끼가 풀리다
지난 6월 21일, 해킹으로 유명한 '지오핫(GeoHot)'이 인터뷰를 진행했는데요1. 여기서 자신이 알아낸 GPT-4의 구조를 풀어버렸습니다(!) 과연 어떤 구조이길래 GPT-4가 특별한 걸까요? 알아봅시다!
타고난 천재
우선 조지 호츠(George Hotz), 통칭 '지오핫'에 대해 설명하고 넘어갈게요.
지오핫은 1989년 태어난 만 34세의 천재 해커에요2. 17살이던 2007년에는 아이폰(iPhone)의 '탈옥'을
지난 6월 21일, 해킹으로 유명한 '지오핫(GeoHot)'이 인터뷰를 진행했는데요1. 여기서 자신이 알아낸 GPT-4의 구조를 풀어버렸습니다(!) 과연 어떤 구조이길래 GPT-4가 특별한 걸까요? 알아봅시다!
타고난 천재
우선 조지 호츠(George Hotz), 통칭 '지오핫'에 대해 설명하고 넘어갈게요.
지오핫은 1989년 태어난 만 34세의 천재 해커에요2. 17살이던 2007년에는 아이폰(iPhone)의 '탈옥'을