AI 제품을 만드시거나 관련 연구를 하시는 분들 중에서, 지금하는 고민을 다른 분들과 토론하고 싶은 분들이 있으실까요?
그동안 AI를 학습하면서 해외에서 열린 다양한 컨퍼런스, 팟캐스트를 보면서 현업에 있는 분들끼리 활발한 의견 교류를 하는 것을 지켜봤는데요. 국내에서도 AI 제품을 만들거나 리서치를 하는 분들끼리 더 많은 이야기를 하는 자리가 있으면 좋겠다는 생각을 했습니다.
그래서 준비했습니다. 다가오는 금요일 저녁 LLM(Large Language Model) Image Model에 관심이 있는 분들이 모여 다양한 주제에 대해서 깊은 토론을 해보려고 합니다.
AI에 진심이신 분들이라면 금요일 저녁에 모여서 재밌게 이야기 나눠봐요!
이번 세션에서 다룰 주제들은 아래와 같습니다.
1. GPT-4 아키텍쳐 유출에서 배울 점: 최근 GPT-4 아키텍처에 대해서 꽤 자세히 분석한 글이 공개되었는데요. Mixture of Experts, GPT-4 수준의 서비스를 제공하기 위한 아키텍쳐, 엔지니어링 기법 등 살펴볼 내용들이 많은데요. 함께 이야기해보시죠.
2. Prod 환경에서 LLM을 학습/운영하는데에 마주하는 어려움과 기회: Replit, Salesforce Scatter Labs 등 GPT-4 만큼의 대형 모델은 아니지만 자체 LLM을 학습하는 회사들이 많아지고 있습니다. LLM을 학습하고 실제 서비스에 적용할 때에 다양한 기술적 어려움이 있는데요. 자세히 살펴보시죠.
3. 다양한 Infra(Langchain 등) 비교 분석: LLM 기반 서비스 및 토이 프로젝트가 많아지면서 Langchain, Llamaindex같은 인프라가 생겨나고 있는데요. 다양한 인프라 서비스의 기능과 한계를 살펴보고 새로운 기회를 찾아보시죠.
4. SD, Chatbot을 활용한 새로운 서비스(데이팅, 게임 등): 최근의 Stable Diffusion 발전 속도는 정말 눈부신데요. 이젠 예쁜 장난감을 벗어나 쓸만한 서비스가 나올만한 타이밍이라 생각합니다. 현재 나와있는 다양한 모델을 사용해서 서비스를 만들고 있는 분들과 SD, Chatbot을 사용해서 좋은 서비스를 만드는 방법에 대해서 이야기해보시죠.
좀 더 심도있는 세션을 위해서, 컨트리뷰터와 참여자를 구분하고 있습니다. 컨트리뷰터는 해당 세션에서 다양한 어젠다를 제안하고 다양한 의견을 내는 구조라고 생각해주시면 됩니다. 컨트리뷰터로 신청해주시지 않은 세션은 모두 참여자로 구분합니다.
- 컨트리뷰터: 경험, 지식을 나눠서 세션의 내용을 풍성하게 합니다.
- 참여자: 세션이 진행되는 것을 보고 질문을 하거나 중간 중간 토론에 참여하기도합니다.
미리 살펴볼 자료
- https://matthewcontinuouslearning.notion.site/GPT-reverse...
- https://www.youtube.com/watch?v=ByhMpN2iSbc&feature=youtu.be
- https://huyenchip.com/.../real-time-machine-learning...
- https://huyenchip.com/2023/04/11/llm-engineering.html
- https://old.reddit.com/.../13fcw36/langchain_is_pointless/
- https://a16z.com/.../emerging-architectures-for-llm.../
- https://foundationcapital.com/foundation-model-ops.../
- https://youtu.be/emCoG-hA7AE
- https://youtu.be/emCoG-hA7AE
❤️ MLOps와 AI 솔루션을 제공하는 마키나락스에서 후원해주셨습니다.❤️
후원 문의는 agitowninseoul@gmail.com로 부탁드립니다.
세션 참가 신청하기: https://lu.ma/agitownjuly2
그동안 AI를 학습하면서 해외에서 열린 다양한 컨퍼런스, 팟캐스트를 보면서 현업에 있는 분들끼리 활발한 의견 교류를 하는 것을 지켜봤는데요. 국내에서도 AI 제품을 만들거나 리서치를 하는 분들끼리 더 많은 이야기를 하는 자리가 있으면 좋겠다는 생각을 했습니다.
그래서 준비했습니다. 다가오는 금요일 저녁 LLM(Large Language Model) Image Model에 관심이 있는 분들이 모여 다양한 주제에 대해서 깊은 토론을 해보려고 합니다.
AI에 진심이신 분들이라면 금요일 저녁에 모여서 재밌게 이야기 나눠봐요!
이번 세션에서 다룰 주제들은 아래와 같습니다.
1. GPT-4 아키텍쳐 유출에서 배울 점: 최근 GPT-4 아키텍처에 대해서 꽤 자세히 분석한 글이 공개되었는데요. Mixture of Experts, GPT-4 수준의 서비스를 제공하기 위한 아키텍쳐, 엔지니어링 기법 등 살펴볼 내용들이 많은데요. 함께 이야기해보시죠.
2. Prod 환경에서 LLM을 학습/운영하는데에 마주하는 어려움과 기회: Replit, Salesforce Scatter Labs 등 GPT-4 만큼의 대형 모델은 아니지만 자체 LLM을 학습하는 회사들이 많아지고 있습니다. LLM을 학습하고 실제 서비스에 적용할 때에 다양한 기술적 어려움이 있는데요. 자세히 살펴보시죠.
3. 다양한 Infra(Langchain 등) 비교 분석: LLM 기반 서비스 및 토이 프로젝트가 많아지면서 Langchain, Llamaindex같은 인프라가 생겨나고 있는데요. 다양한 인프라 서비스의 기능과 한계를 살펴보고 새로운 기회를 찾아보시죠.
4. SD, Chatbot을 활용한 새로운 서비스(데이팅, 게임 등): 최근의 Stable Diffusion 발전 속도는 정말 눈부신데요. 이젠 예쁜 장난감을 벗어나 쓸만한 서비스가 나올만한 타이밍이라 생각합니다. 현재 나와있는 다양한 모델을 사용해서 서비스를 만들고 있는 분들과 SD, Chatbot을 사용해서 좋은 서비스를 만드는 방법에 대해서 이야기해보시죠.
좀 더 심도있는 세션을 위해서, 컨트리뷰터와 참여자를 구분하고 있습니다. 컨트리뷰터는 해당 세션에서 다양한 어젠다를 제안하고 다양한 의견을 내는 구조라고 생각해주시면 됩니다. 컨트리뷰터로 신청해주시지 않은 세션은 모두 참여자로 구분합니다.
- 컨트리뷰터: 경험, 지식을 나눠서 세션의 내용을 풍성하게 합니다.
- 참여자: 세션이 진행되는 것을 보고 질문을 하거나 중간 중간 토론에 참여하기도합니다.
미리 살펴볼 자료
- https://matthewcontinuouslearning.notion.site/GPT-reverse...
- https://www.youtube.com/watch?v=ByhMpN2iSbc&feature=youtu.be
- https://huyenchip.com/.../real-time-machine-learning...
- https://huyenchip.com/2023/04/11/llm-engineering.html
- https://old.reddit.com/.../13fcw36/langchain_is_pointless/
- https://a16z.com/.../emerging-architectures-for-llm.../
- https://foundationcapital.com/foundation-model-ops.../
- https://youtu.be/emCoG-hA7AE
- https://youtu.be/emCoG-hA7AE
❤️ MLOps와 AI 솔루션을 제공하는 마키나락스에서 후원해주셨습니다.❤️
후원 문의는 agitowninseoul@gmail.com로 부탁드립니다.
세션 참가 신청하기: https://lu.ma/agitownjuly2
YouTube
Unleashing LLMs in Production: Challenges & Opportunities. Chip Huyen, Amjad Masad & Michele Catasta
Hear how LLMs can revolutionize the way we build from leading AI experts. Join us for a panel discussion featuring Claypot AI co-founder and highly-regarded profile in the MLOps community, Chip Huyen, in conversation with Replit CEO, Amjad Masad and facilitated…
❤1
Forwarded from BZCF | 비즈까페
자유로와지는 법? -----
1. 어떤 책 제목을 보니 "성공과 돈에서 자유로와지는 법"이다. 당연히 읽지 않았다. 무언가에서 자유로와져야지라고 노력할수록 더 자유로와지기 어렵기 때문이다. 코끼리를 생각하지 말아야지라고 결심하면 코끼리가 더 생각난다.
2. 성공과 돈에서 자유로와져야지 하고 결심할수록 성공과 돈이 더 생각난다.
3. 나도 무언가로부터 자유로와져야지 라고 고민한 적이 많았다. 그러나 종종 그걸 박차고 나올 힘이 없어 머물기만 했다. 왜 였을까? 막상, 거기서 나와서 하고 싶은 것에 대한 갈망이 강하지 않았기 때문이다. 원하는 것에 대한 갈망이 강하다면 기존의 무언가를 뛰쳐나올 힘이 생긴다.
4. "쇼생크 탈출"에 한 늙은 죄수가 나온다. 그는 출소한후 자살을 한다. 자유가 주어졌으나 감당할수 없었다. 그가 감옥에서 나와서 무엇을 할지 소망했다면 그의 삶은 달라졌을 것이다. 그러나 소망이 없었다. 이에 자유가 주어졌지만 의미가 없었다.
5. 그러므로, 자유는 "원하는 것에 대한 강한 갈망"으로부터 나오는 것이지 "떠나거나 회피해야할 무언가"로부터 나오는게 아니다. 한 페친이 말했듯이 free from이 아닌 free to 이다.
p.s. 흥미롭게도 이런 책을 쓰는 분들은 정말 소수를 제외하고는 대개 성공하고 돈을 벌고 있는 분들이라는 것이다. 오히려 "성공하고 돈버는 법" 이라는 책들이 더 솔직해보인다.
p.s. 한 달을 예정했는데 예정보다 일찍 페북에 돌아왔습니다. "선택"이란 어렵고도 불확실한 결정임을 다시금 실감했습니다. 내가 진정 무엇을 원하는가를 다시금 생각하는 시간이었습니다. 항상 이기려했는데, 이제 무엇이 되려는 욕망보다 자유로운 삶이 더 중요해집니다~
—
자유로운 삶은 해야하는 것보다 하고싶은 것이 많은 삶이라 생각합니다. 그 관점에서 자유는 “원하는 것에 대한 강한 갈망"이지, 떠나거나 회피해야할 무언가가 아니라는 점에 공감합니다.
나다움을 고민하다보면 나는 어떤 호기심을 가진 사람인가에 대한 생각을 하게 됩니다. 그러다보면 자연스레 내 안에 있는 다양한 호기심을 들여다보고, 그런 호기심을 쫓아가는 결정을 할 수 있는 것 같습니다.
1. 어떤 책 제목을 보니 "성공과 돈에서 자유로와지는 법"이다. 당연히 읽지 않았다. 무언가에서 자유로와져야지라고 노력할수록 더 자유로와지기 어렵기 때문이다. 코끼리를 생각하지 말아야지라고 결심하면 코끼리가 더 생각난다.
2. 성공과 돈에서 자유로와져야지 하고 결심할수록 성공과 돈이 더 생각난다.
3. 나도 무언가로부터 자유로와져야지 라고 고민한 적이 많았다. 그러나 종종 그걸 박차고 나올 힘이 없어 머물기만 했다. 왜 였을까? 막상, 거기서 나와서 하고 싶은 것에 대한 갈망이 강하지 않았기 때문이다. 원하는 것에 대한 갈망이 강하다면 기존의 무언가를 뛰쳐나올 힘이 생긴다.
4. "쇼생크 탈출"에 한 늙은 죄수가 나온다. 그는 출소한후 자살을 한다. 자유가 주어졌으나 감당할수 없었다. 그가 감옥에서 나와서 무엇을 할지 소망했다면 그의 삶은 달라졌을 것이다. 그러나 소망이 없었다. 이에 자유가 주어졌지만 의미가 없었다.
5. 그러므로, 자유는 "원하는 것에 대한 강한 갈망"으로부터 나오는 것이지 "떠나거나 회피해야할 무언가"로부터 나오는게 아니다. 한 페친이 말했듯이 free from이 아닌 free to 이다.
p.s. 흥미롭게도 이런 책을 쓰는 분들은 정말 소수를 제외하고는 대개 성공하고 돈을 벌고 있는 분들이라는 것이다. 오히려 "성공하고 돈버는 법" 이라는 책들이 더 솔직해보인다.
p.s. 한 달을 예정했는데 예정보다 일찍 페북에 돌아왔습니다. "선택"이란 어렵고도 불확실한 결정임을 다시금 실감했습니다. 내가 진정 무엇을 원하는가를 다시금 생각하는 시간이었습니다. 항상 이기려했는데, 이제 무엇이 되려는 욕망보다 자유로운 삶이 더 중요해집니다~
—
자유로운 삶은 해야하는 것보다 하고싶은 것이 많은 삶이라 생각합니다. 그 관점에서 자유는 “원하는 것에 대한 강한 갈망"이지, 떠나거나 회피해야할 무언가가 아니라는 점에 공감합니다.
나다움을 고민하다보면 나는 어떤 호기심을 가진 사람인가에 대한 생각을 하게 됩니다. 그러다보면 자연스레 내 안에 있는 다양한 호기심을 들여다보고, 그런 호기심을 쫓아가는 결정을 할 수 있는 것 같습니다.
❤1
약점을 강점으로 바꿀수 있는 3가지 관점--
1. 이런 질문을 종종 받는다. "저의 약점을 어떻게 극복해야 할까요?" 약한 집중력, 썩 좋지못한 학벌, 내성적인 성격, 과도한 적극성 등 스스로 약점이라 생각하는 영역들이 있다.
2. 어느 꼬마아이가 있었다. 매우 조용하고 말이 없었다. 그런데 이 아이에게는 한가지 특이한 행동이 있었는데 그것은 어지럽혀진 상황만 보면 정리를 해놓으려했다. 심지어 옆에 있는 친구들이 어지럽힌 것의 정리를 도와주기 까지 했다. 강박 관념이 있을 정도라서 그 어머니는 걱정을 많이 했다. 그 어머니는 그 아이의 별명을 '정리 변태' 라고 지어주기까지 했다.
3. 그녀는 중고교시절에도 청소와 정리를 도맡아 했다. 이후 이 아이는 대학을 졸업하고 한 기업의 영업 사원으로 취직한다. 그런데 고객사에 방문한 그녀는 영업을 하기보다는 고객사 사무실 정리를 도와주는데 더 관심이 있었다. 주위에 이런 동료가 있다면 여러분들은 어떤 생각을 할까? 아마 엄청나게 걱정하지 않았을까?
4. 결국 그녀는 회사를 그만두고 독립하여 최초의 '정리 컨설턴트'로 활약한다. 이후 그녀는 2016 타임지 선정 세계 영향력 인물 100인에 선정된다. 그녀는 일본인였는데 100인내 일본인으로는 그녀 외에 무라카미 하루키가 유일하였다. 이 아이가 바로 정리의 여왕 '곤도 마리에' 이다.
5. 내게 이렇게 sns에서 글쓰는 습관을 가지게 된 계기를 묻는 분들이 많다. 나는 45세 트위터를 시작으로 sns에 본격적으로 글을 쓰기 시작했다. 그 계기는 심플하다. "기억력이 약해서"이다. 책도 많이 읽고 영화도 많이보고 경험도 다양하게 했는데 기억력이 약하다보니 내 머리속에 남아 있는 것이 거의 없었다. 이에 빠르지 않은 나이였지만 매주말 기록을 결심했다. 그것이 10여년간 나의 재미요 루틴이 되었다. 덕분에 이렇게 책도 내고 영향력도 미칠수 있게 되었다.
6. 나는 학창시절부터 기억력이 약해서 잘 잊어버리고 암기를 잘 못했다. 사실 문과형에 가까왔던 내가 이과를 선택한 것도 이 이유 때문이었다. 책을 봐도 다시보면 새로 읽는 느낌이었고 영화를 봐도 줄거리가 잘 기억되지 않았다. 그런데 어떻게 공부를 잘했냐고? 그래도 논리화하고 구조화하면 머리속에 넣을수 있었다. 이에 나는 항상 복잡한 현상을 종이 한장에 논리적으로 구조화하고 요약하는 습관을 가지게 되었다. 나는 포토 기억력을 가진 사람들을 부러워했지만, 오히려 나의 엉성한 기억력 덕분에 살기위해(?) 다른 방법을 찾았고 그것이 결국 나의 핵심 경쟁력 중 하나가 되었다.
7. 어떤 분은 자신의 좋지 못한 학벌이나 경력을 감추며 부끄러워한다. 사실 이제 좋은 학벌이나 경력자는 너무 많아졌다. 하버드 같은 곳을 나오고 최고의 회사를 다니며 영어발음 멋드러지게 하고 엄청난 투자를 받아 창업으로 큰 자산을 획득한 분들의 책을 읽거나 강의를 들으면 어떤 생각이 드는가? 나도 부럽다. 그렇지만 좀 재수없다는 생각이 든다. 부럽지만 따라하기 어렵고 재수없다. 그러나 야놀자의 이수진 대표 같은 분의 이야기를 들으면 어떠한가? 나는 리스타트라는 책도 읽었지만 재수 없다는 생각이 전혀 들지 않았다. 오히려 전문대 졸업에 모텔 청소부 경력을 넘어 자수성가한 스토리는 많은 사람들에게 영감과 자신감을 준다. 내세울것이 없는 학벌과 경력이 자신만의 스토리를 더 풍성하게 할수도 있고 사람들에게 더 공감과 희망을 줄수도 있다.
8. 그러므로 약점은 세가지의 관점으로 볼 필요가 있다.
1) 약점이 재능일수 있다.
곤도 마리에 케이스처럼 큰 약점 처럼 보이는 것이 실제로는 엄청난 재능일 수 있다. 단지, 그 재능이 발현될 곳을 찾는 것이 중요하다.
2) 약점을 극복하기 위한 노력이 자신에게 새로운 강점을 만들어 줄수 있다.
나의 케이스처럼 약한 기억력이 오히려 글을 쓰고 구조화하고 정리하게 하는 재능으로 이끌었다.
3) 약점이 스토리가 될수 있다.
야놀자 이수진대표처럼 오히려 약한 학력과 경력이 사람들에게 희망과 자신감을 줄수도 있다.
9. 한번 당신의 약점을 리스트해보고 어떻게 활용할지 생각해보시라.
10. 나는 성경에 있는 이 말을 좋아한다.
"When I am weak, then I am strong"
브레네브라운의 이 말도 좋다.
"I am imperfect. But I am enough"
1. 이런 질문을 종종 받는다. "저의 약점을 어떻게 극복해야 할까요?" 약한 집중력, 썩 좋지못한 학벌, 내성적인 성격, 과도한 적극성 등 스스로 약점이라 생각하는 영역들이 있다.
2. 어느 꼬마아이가 있었다. 매우 조용하고 말이 없었다. 그런데 이 아이에게는 한가지 특이한 행동이 있었는데 그것은 어지럽혀진 상황만 보면 정리를 해놓으려했다. 심지어 옆에 있는 친구들이 어지럽힌 것의 정리를 도와주기 까지 했다. 강박 관념이 있을 정도라서 그 어머니는 걱정을 많이 했다. 그 어머니는 그 아이의 별명을 '정리 변태' 라고 지어주기까지 했다.
3. 그녀는 중고교시절에도 청소와 정리를 도맡아 했다. 이후 이 아이는 대학을 졸업하고 한 기업의 영업 사원으로 취직한다. 그런데 고객사에 방문한 그녀는 영업을 하기보다는 고객사 사무실 정리를 도와주는데 더 관심이 있었다. 주위에 이런 동료가 있다면 여러분들은 어떤 생각을 할까? 아마 엄청나게 걱정하지 않았을까?
4. 결국 그녀는 회사를 그만두고 독립하여 최초의 '정리 컨설턴트'로 활약한다. 이후 그녀는 2016 타임지 선정 세계 영향력 인물 100인에 선정된다. 그녀는 일본인였는데 100인내 일본인으로는 그녀 외에 무라카미 하루키가 유일하였다. 이 아이가 바로 정리의 여왕 '곤도 마리에' 이다.
5. 내게 이렇게 sns에서 글쓰는 습관을 가지게 된 계기를 묻는 분들이 많다. 나는 45세 트위터를 시작으로 sns에 본격적으로 글을 쓰기 시작했다. 그 계기는 심플하다. "기억력이 약해서"이다. 책도 많이 읽고 영화도 많이보고 경험도 다양하게 했는데 기억력이 약하다보니 내 머리속에 남아 있는 것이 거의 없었다. 이에 빠르지 않은 나이였지만 매주말 기록을 결심했다. 그것이 10여년간 나의 재미요 루틴이 되었다. 덕분에 이렇게 책도 내고 영향력도 미칠수 있게 되었다.
6. 나는 학창시절부터 기억력이 약해서 잘 잊어버리고 암기를 잘 못했다. 사실 문과형에 가까왔던 내가 이과를 선택한 것도 이 이유 때문이었다. 책을 봐도 다시보면 새로 읽는 느낌이었고 영화를 봐도 줄거리가 잘 기억되지 않았다. 그런데 어떻게 공부를 잘했냐고? 그래도 논리화하고 구조화하면 머리속에 넣을수 있었다. 이에 나는 항상 복잡한 현상을 종이 한장에 논리적으로 구조화하고 요약하는 습관을 가지게 되었다. 나는 포토 기억력을 가진 사람들을 부러워했지만, 오히려 나의 엉성한 기억력 덕분에 살기위해(?) 다른 방법을 찾았고 그것이 결국 나의 핵심 경쟁력 중 하나가 되었다.
7. 어떤 분은 자신의 좋지 못한 학벌이나 경력을 감추며 부끄러워한다. 사실 이제 좋은 학벌이나 경력자는 너무 많아졌다. 하버드 같은 곳을 나오고 최고의 회사를 다니며 영어발음 멋드러지게 하고 엄청난 투자를 받아 창업으로 큰 자산을 획득한 분들의 책을 읽거나 강의를 들으면 어떤 생각이 드는가? 나도 부럽다. 그렇지만 좀 재수없다는 생각이 든다. 부럽지만 따라하기 어렵고 재수없다. 그러나 야놀자의 이수진 대표 같은 분의 이야기를 들으면 어떠한가? 나는 리스타트라는 책도 읽었지만 재수 없다는 생각이 전혀 들지 않았다. 오히려 전문대 졸업에 모텔 청소부 경력을 넘어 자수성가한 스토리는 많은 사람들에게 영감과 자신감을 준다. 내세울것이 없는 학벌과 경력이 자신만의 스토리를 더 풍성하게 할수도 있고 사람들에게 더 공감과 희망을 줄수도 있다.
8. 그러므로 약점은 세가지의 관점으로 볼 필요가 있다.
1) 약점이 재능일수 있다.
곤도 마리에 케이스처럼 큰 약점 처럼 보이는 것이 실제로는 엄청난 재능일 수 있다. 단지, 그 재능이 발현될 곳을 찾는 것이 중요하다.
2) 약점을 극복하기 위한 노력이 자신에게 새로운 강점을 만들어 줄수 있다.
나의 케이스처럼 약한 기억력이 오히려 글을 쓰고 구조화하고 정리하게 하는 재능으로 이끌었다.
3) 약점이 스토리가 될수 있다.
야놀자 이수진대표처럼 오히려 약한 학력과 경력이 사람들에게 희망과 자신감을 줄수도 있다.
9. 한번 당신의 약점을 리스트해보고 어떻게 활용할지 생각해보시라.
10. 나는 성경에 있는 이 말을 좋아한다.
"When I am weak, then I am strong"
브레네브라운의 이 말도 좋다.
"I am imperfect. But I am enough"
👍2
Forwarded from BZCF | 비즈까페
멍거가 코스트코에 대해서 버핏에게 말하고.. 멍거는 너무 좋은 회사라서 그냥 투자. 버크셔는 그 뒤에서야 투자. 버핏은 멍거 말을 당시 이해하지 못해서 늦게 투자했다고 후회. 좋은 회사는 그 때 가치가 아니라 성장하면서 가치를 바꾸어버림. 복리 머신...
❤1
GPT Code Interpreter의 10가지 멋진 Use Cases 공유드립니다. WOW 입니다.
Code Interpreter의 의미는 여러분들이 말로 하면 이걸 코드로 해석해서 짜서 실행해주겠다는 것 같습니다. 그래서 코드로/프로그래밍으로 할수 있는 거의 모든일을 할수 있습니다.
(트윗 링크가 너무 많이 달려서 Thread를 좋아 하는 FB에서 이 글은 거의 노출이 안될것 같습니다.)
1. 모든 종류의 그래프를 쉽게 생성할 수 있습니다
https://twitter.com/gdb/status/1677023789807292420
2. 어떤 GIF든 MP4로 변환할 수 있습니다.
https://twitter.com/goodside/status/1652540643212767234
3. 이미지에서 색상을 추출하여 간단한 PNG 팔레트를 생성할 수 있습니다.
https://twitter.com/skirano/status/1653085442047369217
4. 데이터를 정리한 후에는 통찰력 있는 데이터 시각화를 생성할 수 있습니다.
https://twitter.com/Saboo.../status/1677016588233367568
5. CSV 파일을 GIF로 변환할 수 있습니다.
https://twitter.com/emollick/status/1653451648826757121
6. 플레이리스트를 분석하여 음악 취향을 요약할 수 있습니다.
https://twitter.com/SHL0MS/status/1652842277788692480
7. 데이터셋에서 완전히 기능하는 HTML 사이트를 생성하세요. 이건 정말 놀랍습니다!
https://twitter.com/PatrickJBlum/status/1652365030535598081
8. 쉽게 다운로드할 수 있는 주식 데이터셋을 생성하세요.
https://twitter.com/TechMemeKing/status/1653258652055138304
9. 이미지를 텍스트 파일로 변환하세요.
https://twitter.com/Saboo.../status/1654323164187377665
10. 심지어 비정형 데이터의 상세한 데이터 분석도 수행할 수 있습니다.
https://twitter.com/emollick/status/1676441469979185157
facebook.com/hunkims/posts/pfbid0apvm9LRvj52RaFN7JNLsTpHV9oYnBG6xaTFrkkPKFdVn6tVs6hd2cqXjSJ6oYeXml
Code Interpreter의 의미는 여러분들이 말로 하면 이걸 코드로 해석해서 짜서 실행해주겠다는 것 같습니다. 그래서 코드로/프로그래밍으로 할수 있는 거의 모든일을 할수 있습니다.
(트윗 링크가 너무 많이 달려서 Thread를 좋아 하는 FB에서 이 글은 거의 노출이 안될것 같습니다.)
1. 모든 종류의 그래프를 쉽게 생성할 수 있습니다
https://twitter.com/gdb/status/1677023789807292420
2. 어떤 GIF든 MP4로 변환할 수 있습니다.
https://twitter.com/goodside/status/1652540643212767234
3. 이미지에서 색상을 추출하여 간단한 PNG 팔레트를 생성할 수 있습니다.
https://twitter.com/skirano/status/1653085442047369217
4. 데이터를 정리한 후에는 통찰력 있는 데이터 시각화를 생성할 수 있습니다.
https://twitter.com/Saboo.../status/1677016588233367568
5. CSV 파일을 GIF로 변환할 수 있습니다.
https://twitter.com/emollick/status/1653451648826757121
6. 플레이리스트를 분석하여 음악 취향을 요약할 수 있습니다.
https://twitter.com/SHL0MS/status/1652842277788692480
7. 데이터셋에서 완전히 기능하는 HTML 사이트를 생성하세요. 이건 정말 놀랍습니다!
https://twitter.com/PatrickJBlum/status/1652365030535598081
8. 쉽게 다운로드할 수 있는 주식 데이터셋을 생성하세요.
https://twitter.com/TechMemeKing/status/1653258652055138304
9. 이미지를 텍스트 파일로 변환하세요.
https://twitter.com/Saboo.../status/1654323164187377665
10. 심지어 비정형 데이터의 상세한 데이터 분석도 수행할 수 있습니다.
https://twitter.com/emollick/status/1676441469979185157
facebook.com/hunkims/posts/pfbid0apvm9LRvj52RaFN7JNLsTpHV9oYnBG6xaTFrkkPKFdVn6tVs6hd2cqXjSJ6oYeXml
Wanted to share that Med-PaLM, our medical large language model, was published in Nature this week!
When we started this work, we set out to better understand the potential of building useful, safe foundation models for medicine. We started with a focus on evaluation and put together MultiMedQA, a benchmark of seven medical question answering tasks spanning medical exams, medical research, and consumer queries.
When we observed limitations in existing models, we worked with physicians to train Med-PaLM, a state-of-the-art large language model aligned to the medical setting. We showed that these models could surpass the passing score on US medical licensing exam-style questions for the first time. Most importantly, through 'instruction prompt tuning', Med-PaLM had greatly improved long-form answers to consumer queries, often comparing similarly to physicians. 92.6% of Med-PaLM answers were aligned with scientific consensus, compared to 92.9% for clinicians (baseline model 61.9%).
Now our paper for Med-PaLM 2 is on arxiv. We see a 19% improvement on the USMLE-style task, and model answers to consumer queries are preferred over physician answers across eight of nine axes studied (factuality, harm, bias, ...). We're now working with trusted testers through Google Cloud to iterate on safe and beneficial use cases for this technology.
We started our team to catalyze the medical AI community towards the potential of these models, and (especially for me personally) to work on building more steerable, safe systems in a context where safety matters, in partnership with researchers, physicians, patients, policymakers, and others. As we continue our journey, looking forward to a future where these models can assist physicians to increase quality and access to care for billions.
Excited to share this milestone on our journey!
Nature paper: https://lnkd.in/eb_DJcgM
Med-PaLM 2 paper: https://lnkd.in/ebshBBJB
Med-PaLM website: https://lnkd.in/e6bPXD4F
When we started this work, we set out to better understand the potential of building useful, safe foundation models for medicine. We started with a focus on evaluation and put together MultiMedQA, a benchmark of seven medical question answering tasks spanning medical exams, medical research, and consumer queries.
When we observed limitations in existing models, we worked with physicians to train Med-PaLM, a state-of-the-art large language model aligned to the medical setting. We showed that these models could surpass the passing score on US medical licensing exam-style questions for the first time. Most importantly, through 'instruction prompt tuning', Med-PaLM had greatly improved long-form answers to consumer queries, often comparing similarly to physicians. 92.6% of Med-PaLM answers were aligned with scientific consensus, compared to 92.9% for clinicians (baseline model 61.9%).
Now our paper for Med-PaLM 2 is on arxiv. We see a 19% improvement on the USMLE-style task, and model answers to consumer queries are preferred over physician answers across eight of nine axes studied (factuality, harm, bias, ...). We're now working with trusted testers through Google Cloud to iterate on safe and beneficial use cases for this technology.
We started our team to catalyze the medical AI community towards the potential of these models, and (especially for me personally) to work on building more steerable, safe systems in a context where safety matters, in partnership with researchers, physicians, patients, policymakers, and others. As we continue our journey, looking forward to a future where these models can assist physicians to increase quality and access to care for billions.
Excited to share this milestone on our journey!
Nature paper: https://lnkd.in/eb_DJcgM
Med-PaLM 2 paper: https://lnkd.in/ebshBBJB
Med-PaLM website: https://lnkd.in/e6bPXD4F
Nature
Large language models encode clinical knowledge
Nature - Med-PaLM, a state-of-the-art large language model for medicine, is introduced and evaluated across several medical question answering tasks, demonstrating the promise of these models in...
도움이 되실까해서 건축가 크리스토퍼 알렉산더의 글에서 옮깁니다:
어느날 하루 CA가 디자인에 대해 감을 못잡는 학생을 불러서 말을 했다.
“Look, I am going to talk you through your design project today. Forget about what you have. Erase the whole design. Start with nothing”
Next I asked him “Now, tell me, what is the most important thing about the site and most important thing your design must do in relation to the site. Don’t worry about anything else. Just tell me the answer to that one question. He told me
“All right, so make a mark. Put in just that one thing. Forget everything else.” He did it.
“All right. Now tell me the next important thing.
(중략)
If he told me something was important, when I doubted that he really felt that, I just looked at him, and said, no, tell me really what is the next, truly the most important thing?
(중략)
At the end of an hour he had a beautiful building. It was straightforward, simple, fundamental. Above all it was beautiful. The thing he had never been able to - to make a beautiful design - he has suddenly done.
(중략)
“Finally I understand it , I understand what you have been saying. You just take one thing at a time, and do it in the right order. That`s all there is to it. Just do the most important thing. Finish it. And so on”
He was astonished. It seemed like the most important lesson of his life in architecture school. In this exercise I taught him that it was just the sequence that underlies our ability. By doing things in the right order, he was able to make a beautiful thing.
어느날 하루 CA가 디자인에 대해 감을 못잡는 학생을 불러서 말을 했다.
“Look, I am going to talk you through your design project today. Forget about what you have. Erase the whole design. Start with nothing”
Next I asked him “Now, tell me, what is the most important thing about the site and most important thing your design must do in relation to the site. Don’t worry about anything else. Just tell me the answer to that one question. He told me
“All right, so make a mark. Put in just that one thing. Forget everything else.” He did it.
“All right. Now tell me the next important thing.
(중략)
If he told me something was important, when I doubted that he really felt that, I just looked at him, and said, no, tell me really what is the next, truly the most important thing?
(중략)
At the end of an hour he had a beautiful building. It was straightforward, simple, fundamental. Above all it was beautiful. The thing he had never been able to - to make a beautiful design - he has suddenly done.
(중략)
“Finally I understand it , I understand what you have been saying. You just take one thing at a time, and do it in the right order. That`s all there is to it. Just do the most important thing. Finish it. And so on”
He was astonished. It seemed like the most important lesson of his life in architecture school. In this exercise I taught him that it was just the sequence that underlies our ability. By doing things in the right order, he was able to make a beautiful thing.
https://youtu.be/wxq1ZeAM9fc
영상에서 다룬 내용
비용 최적화: 패널리스트들은 엔지니어가 LLM 확장 비용에 주의를 기울이고 비용과 성능의 균형을 맞추는 최적의 하드웨어를 찾는 것을 목표로 삼아야 한다고 강조합니다. 품질 저하 없이 모델 크기를 줄이기 위해 구조화된 가지치기(Structured Pruning)와 지식 증류(Knowledge Distillation)를 사용하는 것이 강조됩니다. 패널리스트들은 이상적으로는 모델이 단일 A100 GPU에서 실행될 수 있어야 한다고 제안합니다.
성능 향상: 패널은 지식 증류, 압축, 더 빠른 트랜스포머 사용과 같은 기술이 성능 향상에 도움이 될 수 있다고 제안합니다. 또한 최상의 컨텍스트 표현을 위해 모델을 최적화하고, 주어진 하드웨어 대상에 가장 적합한 커널과 바이너리를 사용하며, 필요에 따라 배치 크기를 조정할 것을 제안합니다.
인하우스 모델과 기본 API: 이러한 모델을 사내로 가져오는 데는 비용이 들지만, 모델을 제어할 수 있으면 속도를 개선하고 API 속도 제한을 피할 수 있습니다. 간단한 분류기를 사용하여 LLM을 호출할 시기를 결정할 수 있으므로 비용을 관리하는 데 도움이 됩니다.
지연 시간 최적화: 패널에서는 사용 사례에 따라 서로 다른 모델 사용, 봇의 출력 스트리밍, 사용자 기대치를 관리하기 위한 타이핑 표시기 표시, 배치 크기 및 출력 크기 조정 등 지연 시간을 최적화하는 방법에 대해 논의합니다.
모니터링 및 평가: 또한 최종 사용자의 피드백, 행동 기반 평가, 합성 평가 및 비평가 모델링을 사용하여 LLM의 성능을 평가하는 것의 중요성에 대해 논의합니다.
라벨 제작 비용 관리: 라벨링 비용이 너무 높아지는 문제를 언급하고 이러한 비용을 관리하기 위해 스마트 샘플링 또는 사전 필터링과 같은 기술을 제안합니다.
이러한 인사이트를 바탕으로 비용과 성능을 최적화하기 위한 단계별 접근 방식을 권장합니다:
비용 구조를 이해합니다: 시작하기 전에 구체적인 비용 구조와 비용 절감을 위해 최적화해야 할 부분을 파악합니다.
적합한 하드웨어를 선택합니다: 성능과 비용 사이의 균형을 찾아야 합니다. 최적의 모델은 단일 A100 GPU에서 실행되어야 합니다.
모델 축소: 구조적 가지치기 및 지식 증류와 같은 기술을 사용하여 품질 저하 없이 모델 크기를 줄일 수 있습니다.
성능 최적화: 지식 증류, 압축, 더 빠른 트랜스포머 사용과 같은 기술을 사용하면 성능을 개선하는 데 도움이 될 수 있습니다.
모델 제어: 모델을 사내에 도입하여 비용과 속도를 제어할 수 있지만, 이와 관련된 비용을 고려하세요.
모니터링 및 평가: 최종 사용자의 피드백, 행동 기반 평가, 합성 평가 및 비평가 모델링을 사용하여 LLM의 성능을 평가하세요.
라벨링 비용 관리: 스마트 샘플링 또는 사전 필터링과 같은 기술을 통해 이러한 비용을 관리할 수 있습니다.
영상에서 다룬 내용
비용 최적화: 패널리스트들은 엔지니어가 LLM 확장 비용에 주의를 기울이고 비용과 성능의 균형을 맞추는 최적의 하드웨어를 찾는 것을 목표로 삼아야 한다고 강조합니다. 품질 저하 없이 모델 크기를 줄이기 위해 구조화된 가지치기(Structured Pruning)와 지식 증류(Knowledge Distillation)를 사용하는 것이 강조됩니다. 패널리스트들은 이상적으로는 모델이 단일 A100 GPU에서 실행될 수 있어야 한다고 제안합니다.
성능 향상: 패널은 지식 증류, 압축, 더 빠른 트랜스포머 사용과 같은 기술이 성능 향상에 도움이 될 수 있다고 제안합니다. 또한 최상의 컨텍스트 표현을 위해 모델을 최적화하고, 주어진 하드웨어 대상에 가장 적합한 커널과 바이너리를 사용하며, 필요에 따라 배치 크기를 조정할 것을 제안합니다.
인하우스 모델과 기본 API: 이러한 모델을 사내로 가져오는 데는 비용이 들지만, 모델을 제어할 수 있으면 속도를 개선하고 API 속도 제한을 피할 수 있습니다. 간단한 분류기를 사용하여 LLM을 호출할 시기를 결정할 수 있으므로 비용을 관리하는 데 도움이 됩니다.
지연 시간 최적화: 패널에서는 사용 사례에 따라 서로 다른 모델 사용, 봇의 출력 스트리밍, 사용자 기대치를 관리하기 위한 타이핑 표시기 표시, 배치 크기 및 출력 크기 조정 등 지연 시간을 최적화하는 방법에 대해 논의합니다.
모니터링 및 평가: 또한 최종 사용자의 피드백, 행동 기반 평가, 합성 평가 및 비평가 모델링을 사용하여 LLM의 성능을 평가하는 것의 중요성에 대해 논의합니다.
라벨 제작 비용 관리: 라벨링 비용이 너무 높아지는 문제를 언급하고 이러한 비용을 관리하기 위해 스마트 샘플링 또는 사전 필터링과 같은 기술을 제안합니다.
이러한 인사이트를 바탕으로 비용과 성능을 최적화하기 위한 단계별 접근 방식을 권장합니다:
비용 구조를 이해합니다: 시작하기 전에 구체적인 비용 구조와 비용 절감을 위해 최적화해야 할 부분을 파악합니다.
적합한 하드웨어를 선택합니다: 성능과 비용 사이의 균형을 찾아야 합니다. 최적의 모델은 단일 A100 GPU에서 실행되어야 합니다.
모델 축소: 구조적 가지치기 및 지식 증류와 같은 기술을 사용하여 품질 저하 없이 모델 크기를 줄일 수 있습니다.
성능 최적화: 지식 증류, 압축, 더 빠른 트랜스포머 사용과 같은 기술을 사용하면 성능을 개선하는 데 도움이 될 수 있습니다.
모델 제어: 모델을 사내에 도입하여 비용과 속도를 제어할 수 있지만, 이와 관련된 비용을 고려하세요.
모니터링 및 평가: 최종 사용자의 피드백, 행동 기반 평가, 합성 평가 및 비평가 모델링을 사용하여 LLM의 성능을 평가하세요.
라벨링 비용 관리: 스마트 샘플링 또는 사전 필터링과 같은 기술을 통해 이러한 비용을 관리할 수 있습니다.
YouTube
Cost Optimization and Performance // LLMs in Production Conference Panel Discussion 2
// Abstract
In this panel discussion, the topic of the cost of running large language models (LLMs) is explored, along with potential solutions. The benefits of bringing LLMs in-house, such as latency optimization and greater control, are also discussed.…
In this panel discussion, the topic of the cost of running large language models (LLMs) is explored, along with potential solutions. The benefits of bringing LLMs in-house, such as latency optimization and greater control, are also discussed.…
GPT-4 Architecture Leak 관련 내용
1. 모델 규모, 비용, 훈련의 용이성 사이의 Golden spot은 어디인가?
- GPT-4는 조 단위의 파라미터 모델을 훈련하는 데 필요한 막대한 계산 리소스를 보여줍니다. 연구자는 모델 규모, 비용, 훈련 복잡성 간의 절충점을 신중하게 평가해야 합니다. 전문가 혼합과 같은 아키텍처는 비용 관리에 도움이 되지만 복잡성을 증가시킵니다.
2. 인프라 및 시스템 최적화를 위한 다양한 엔지니어링 방법
1. 전문가 혼합(MoE) 사용
1. OpenAI의 MoE 사용은 이 접근 방식이 비용과 복잡성을 관리하는 데 유용할 수 있음을 보여주었습니다. MoE 모델을 사용하면 모델 계산의 일부를 여러 전문가에게 분산하여 각 전문가가 문제의 특정 부분에 집중할 수 있습니다. 이를 통해 계산 효율성을 높이고 잠재적으로 모델 성능을 개선할 수 있습니다. 그러나 이러한 전문가를 관리 및 동기화하고 적절한 로드 밸런싱을 보장하는 측면에서 복잡성이 증가합니다.
2. OpenAI가 GPT-4에 사용하는 간단한 라우팅 방법은 복잡성보다 효율성의 중요성을 강조합니다. 이는 각 토큰을 라우팅할 전문가를 선택하는 데 항상 고급 알고리즘이 필요한 것은 아니며, 여전히 인상적인 결과를 얻을 수 있음을 나타냅니다.
2. GPT-4의 훈련은 ZeRO, 파이프라인 병렬 처리, NVLink와 같은 고급 하드웨어와 같은 최적화에 크게 의존합니다. 훈련을 효율적으로 확장하려면 모델 혁신뿐만 아니라 시스템 수준의 엔지니어링도 필요합니다. 연구자들은 엔드투엔드 시스템 최적화에 집중해야 합니다.
3. OpenAI가 GPT-4에 사용하는 간단한 라우팅 방법은 복잡성보다 효율성의 중요성을 강조합니다. 이는 각 토큰을 라우팅할 전문가를 선택하는 데 항상 고급 알고리즘이 필요한 것은 아니며, 여전히 인상적인 결과를 얻을 수 있음을 나타냅니다.
4. GPT-4의 추측 디코딩은 확인되지 않았지만 디코딩 프로세스의 속도를 높여 효율성을 높일 수 있는 잠재적인 기술입니다.[5](https://shaankhosla.substack.com/p/gpt-4-architecture-leak-and-explanation) 하지만 예측이 틀릴 경우 배치가 폐기되어 컴퓨팅 리소스가 낭비될 수 있습니다.
3. 정확도와 추론 효율성의 균형을 어떻게 맞출 수 있는가? 앞으로는 어떻게 될 것인가?
- GPT-4와 같은 대규모 모델은 높은 정확도를 달성하지만, 계산 비용으로 인해 추론에 많은 비용이 소요될 수 있습니다. 추측 디코딩과 같은 기법은 추론 시 정확도와 속도 사이에서 균형을 유지합니다. 정확도와 효율성의 균형을 맞추려면 철저한 벤치마킹이 필요합니다.
4. 다양한 고품질 데이터 세트의 필요성
- GPT-4가 대학 교과서 데이터 세트로 학습되었다는 것은 전문 지식을 갖춘 AI 모델을 만드는 데 있어 도메인별 데이터의 역할을 암시합니다. 그러나 이러한 모델은 실제 이해력이나 지능이 아닌 학습 데이터로 인해 이해력이 '착각'을 일으킬 수 있습니다. 이는 도메인별 응답을 제공하는 모델의 능력과 도메인에 대해 진정으로 이해하거나 추론하는 능력의 차이를 강조합니다.
- 13조 개의 토큰을 사용했음에도 불구하고 GPT-4는 여전히 이상적인 훈련 데이터 분포가 부족할 수 있습니다. 연구자들은 데이터를 다양화하고 사람의 검증을 통해 품질을 향상시키기 위한 노력을 계속해야 합니다. 데이터 수집과 큐레이션은 여전히 미해결 과제로 남아 있습니다.
5. 멀티모달 기능
- GPT-4의 비전 기능을 활용하려면 모달리티를 통합하기 위한 아키텍처 혁신이 필요합니다. 멀티모달 AI는 텍스트 전용 모델에 구워진 가정을 다시 생각해야 합니다. 이는 향후 연구의 중요한 영역입니다.
개방형 연구와 생산 시스템 간의 상호 작용: GPT-4의 세부 사항은 공식적인 기술 논문이 아닌 공개 연구와 유출을 통해 드러납니다. 대형 모델의 연구부터 생산까지의 경로는 여전히 불투명합니다. 투명성이 높아지면 연구 커뮤니티에 도움이 될 것입니다.
- GPT-4는 별도의 비전 인코더와 크로스 어텐션을 통합하여 AI 시스템에서 [멀티모달 기능의 중요성을 강조](https://www.scientificamerican.com/article/what-the-new-gpt-4-ai-can-do/)합니다.
### 참고자료
1. [https://www.semianalysis.com/p/gpt-4-architecture-infrastructure](https://www.semianalysis.com/p/gpt-4-architecture-infrastructure?utm_campaign=post&utm_medium=web)
2. https://threadreaderapp.com/thread/1678545170508267522.html
3. https://mpost.io/gpt-4s-leaked-details-shed-light-on-its-massive-scale-and-impressive-architecture/
4. https://thealgorithmicbridge.substack.com/p/gpt-4s-secret-has-been-revealed
5. https://www.reddit.com/r/LocalLLaMA/comments/14wbmio/gpt4_details_leaked/
6. https://youtu.be/ODMhtPIifkQ
1. 모델 규모, 비용, 훈련의 용이성 사이의 Golden spot은 어디인가?
- GPT-4는 조 단위의 파라미터 모델을 훈련하는 데 필요한 막대한 계산 리소스를 보여줍니다. 연구자는 모델 규모, 비용, 훈련 복잡성 간의 절충점을 신중하게 평가해야 합니다. 전문가 혼합과 같은 아키텍처는 비용 관리에 도움이 되지만 복잡성을 증가시킵니다.
2. 인프라 및 시스템 최적화를 위한 다양한 엔지니어링 방법
1. 전문가 혼합(MoE) 사용
1. OpenAI의 MoE 사용은 이 접근 방식이 비용과 복잡성을 관리하는 데 유용할 수 있음을 보여주었습니다. MoE 모델을 사용하면 모델 계산의 일부를 여러 전문가에게 분산하여 각 전문가가 문제의 특정 부분에 집중할 수 있습니다. 이를 통해 계산 효율성을 높이고 잠재적으로 모델 성능을 개선할 수 있습니다. 그러나 이러한 전문가를 관리 및 동기화하고 적절한 로드 밸런싱을 보장하는 측면에서 복잡성이 증가합니다.
2. OpenAI가 GPT-4에 사용하는 간단한 라우팅 방법은 복잡성보다 효율성의 중요성을 강조합니다. 이는 각 토큰을 라우팅할 전문가를 선택하는 데 항상 고급 알고리즘이 필요한 것은 아니며, 여전히 인상적인 결과를 얻을 수 있음을 나타냅니다.
2. GPT-4의 훈련은 ZeRO, 파이프라인 병렬 처리, NVLink와 같은 고급 하드웨어와 같은 최적화에 크게 의존합니다. 훈련을 효율적으로 확장하려면 모델 혁신뿐만 아니라 시스템 수준의 엔지니어링도 필요합니다. 연구자들은 엔드투엔드 시스템 최적화에 집중해야 합니다.
3. OpenAI가 GPT-4에 사용하는 간단한 라우팅 방법은 복잡성보다 효율성의 중요성을 강조합니다. 이는 각 토큰을 라우팅할 전문가를 선택하는 데 항상 고급 알고리즘이 필요한 것은 아니며, 여전히 인상적인 결과를 얻을 수 있음을 나타냅니다.
4. GPT-4의 추측 디코딩은 확인되지 않았지만 디코딩 프로세스의 속도를 높여 효율성을 높일 수 있는 잠재적인 기술입니다.[5](https://shaankhosla.substack.com/p/gpt-4-architecture-leak-and-explanation) 하지만 예측이 틀릴 경우 배치가 폐기되어 컴퓨팅 리소스가 낭비될 수 있습니다.
3. 정확도와 추론 효율성의 균형을 어떻게 맞출 수 있는가? 앞으로는 어떻게 될 것인가?
- GPT-4와 같은 대규모 모델은 높은 정확도를 달성하지만, 계산 비용으로 인해 추론에 많은 비용이 소요될 수 있습니다. 추측 디코딩과 같은 기법은 추론 시 정확도와 속도 사이에서 균형을 유지합니다. 정확도와 효율성의 균형을 맞추려면 철저한 벤치마킹이 필요합니다.
4. 다양한 고품질 데이터 세트의 필요성
- GPT-4가 대학 교과서 데이터 세트로 학습되었다는 것은 전문 지식을 갖춘 AI 모델을 만드는 데 있어 도메인별 데이터의 역할을 암시합니다. 그러나 이러한 모델은 실제 이해력이나 지능이 아닌 학습 데이터로 인해 이해력이 '착각'을 일으킬 수 있습니다. 이는 도메인별 응답을 제공하는 모델의 능력과 도메인에 대해 진정으로 이해하거나 추론하는 능력의 차이를 강조합니다.
- 13조 개의 토큰을 사용했음에도 불구하고 GPT-4는 여전히 이상적인 훈련 데이터 분포가 부족할 수 있습니다. 연구자들은 데이터를 다양화하고 사람의 검증을 통해 품질을 향상시키기 위한 노력을 계속해야 합니다. 데이터 수집과 큐레이션은 여전히 미해결 과제로 남아 있습니다.
5. 멀티모달 기능
- GPT-4의 비전 기능을 활용하려면 모달리티를 통합하기 위한 아키텍처 혁신이 필요합니다. 멀티모달 AI는 텍스트 전용 모델에 구워진 가정을 다시 생각해야 합니다. 이는 향후 연구의 중요한 영역입니다.
개방형 연구와 생산 시스템 간의 상호 작용: GPT-4의 세부 사항은 공식적인 기술 논문이 아닌 공개 연구와 유출을 통해 드러납니다. 대형 모델의 연구부터 생산까지의 경로는 여전히 불투명합니다. 투명성이 높아지면 연구 커뮤니티에 도움이 될 것입니다.
- GPT-4는 별도의 비전 인코더와 크로스 어텐션을 통합하여 AI 시스템에서 [멀티모달 기능의 중요성을 강조](https://www.scientificamerican.com/article/what-the-new-gpt-4-ai-can-do/)합니다.
### 참고자료
1. [https://www.semianalysis.com/p/gpt-4-architecture-infrastructure](https://www.semianalysis.com/p/gpt-4-architecture-infrastructure?utm_campaign=post&utm_medium=web)
2. https://threadreaderapp.com/thread/1678545170508267522.html
3. https://mpost.io/gpt-4s-leaked-details-shed-light-on-its-massive-scale-and-impressive-architecture/
4. https://thealgorithmicbridge.substack.com/p/gpt-4s-secret-has-been-revealed
5. https://www.reddit.com/r/LocalLLaMA/comments/14wbmio/gpt4_details_leaked/
6. https://youtu.be/ODMhtPIifkQ
Let's Talk Text
GPT-4 architecture leak and explanation
July 12, 2023
LLM을 Production Level에서 학습하고 운영하면서 겪는 챌린지들
1. (Comparatively small) Large Language Model Use-cases?
1. 헬스케어:
- BioMed LM(2.7 billion parameters)
- 비교적 규모가 작은 대규모 언어 모델(LLM) 사용 사례로 잘 알려진 것 중 하나는 MosaicML과 스탠포드 기초 모델 연구 센터(CRFM)에서 개발한 생의학 텍스트를 위한 도메인 전용 LLM인 BioMedLM입니다. 이 모델은 특히 생의학 분야를 위한 산업별 LLM의 기능을 보여줍니다.
2. 금융: 금융 기관은 기술 지원, 사기 탐지, 보고, 금융 뉴스에 대한 정서 분석에 LLM을 활용할 수 있습니다.
- [BloombergGPT](https://www.bloomberg.com/company/press/bloomberggpt-50-billion-parameter-llm-tuned-finance/)
- [FinGPT(Opensource)](https://the-decoder.com/fingpt-is-an-ai-financial-framework-designed-to-learn-from-the-wisdom-of-the-market/)
3. 프로그래밍: [Replit의 7B LLM](https://huggingface.co/replit/replit-code-v1-3b)인 replit-code-v1-3b는 코드 완성에 중점을 둔 27B 인과 언어 모델로서, 여러 프로그래밍 언어가 포함된 데이터 세트에서 학습되었습니다.
2. What are the pros and cons for training own large language models?
1. 장점
1. 컨텐츠/필터 제어: 자체 LLM을 교육함으로써 특정 요구 사항과 선호도에 맞게 모델을 조정하여 회사의 목표와 가치에 부합하도록 할 수 있습니다.**[1](https://www.brookings.edu/articles/exploring-the-impact-of-language-models/)**
2. 모델 및 지적 재산에 대한 소유권: 자체 LLM을 개발하면 모델과 그 기반 기술에 대한 완전한 소유권을 보유할 수 있으며, 이는 귀사의 귀중한 자산이 될 수 있습니다.**[1](https://www.brookings.edu/articles/exploring-the-impact-of-language-models/)**
3. 설명 가능성 및 투명성 향상: 자체 LLM을 교육하면 모델 내부를 더 잘 제어할 수 있으므로 의사 결정 프로세스의 설명 가능성과 투명성을 개선하는 데 도움이 됩니다.
4. 특정 산업 또는 도메인 요구사항에 맞게 조정: 산업 또는 도메인의 고유한 과제와 요구 사항을 해결하도록 맞춤형 LLM을 설계하여 모델이 특정 사용 사례에 최적화되도록 할 수 있습니다.
2. 단점
1. 높은 컴퓨팅 리소스와 비용: 자체 LLM을 교육하고 배포하는 것은 리소스 집약적일 수 있으며, 상당한 컴퓨팅 파워와 재정적 투자가 필요합니다. [3](https://www.analyticsinsight.net/pros-and-cons-of-customising-large-language-models/)
2. 시간이 오래 걸리는 교육 과정: 데이터 수집, 정리, 전처리뿐만 아니라 특정 요구사항에 맞게 모델을 미세 조정해야 하므로 맞춤형 LLM을 개발하는 데 오랜 시간이 소요될 수 있습니다.
3. 방대한 양의 데이터 관리 LLM을 학습하려면 대량의 데이터를 처리해야 하며, 이는 저장, 처리 및 개인 정보 보호 문제 측면에서 어려울 수 있습니다.
4. 모델 편향성 및 독성 문제를 해결하는 데 있어 잠재적인 어려움: 맞춤형 LLM에 편향성 및 독성 콘텐츠가 없는지 확인하는 것은 복잡하고 지속적인 프로세스가 될 수 있으므로 지속적인 모니터링과 평가가 필요합니다.**[6](https://towardsdatascience.com/overcoming-the-limitations-of-large-language-models-9d4e92ad9823)**
1. (Comparatively small) Large Language Model Use-cases?
1. 헬스케어:
- BioMed LM(2.7 billion parameters)
- 비교적 규모가 작은 대규모 언어 모델(LLM) 사용 사례로 잘 알려진 것 중 하나는 MosaicML과 스탠포드 기초 모델 연구 센터(CRFM)에서 개발한 생의학 텍스트를 위한 도메인 전용 LLM인 BioMedLM입니다. 이 모델은 특히 생의학 분야를 위한 산업별 LLM의 기능을 보여줍니다.
2. 금융: 금융 기관은 기술 지원, 사기 탐지, 보고, 금융 뉴스에 대한 정서 분석에 LLM을 활용할 수 있습니다.
- [BloombergGPT](https://www.bloomberg.com/company/press/bloomberggpt-50-billion-parameter-llm-tuned-finance/)
- [FinGPT(Opensource)](https://the-decoder.com/fingpt-is-an-ai-financial-framework-designed-to-learn-from-the-wisdom-of-the-market/)
3. 프로그래밍: [Replit의 7B LLM](https://huggingface.co/replit/replit-code-v1-3b)인 replit-code-v1-3b는 코드 완성에 중점을 둔 27B 인과 언어 모델로서, 여러 프로그래밍 언어가 포함된 데이터 세트에서 학습되었습니다.
2. What are the pros and cons for training own large language models?
1. 장점
1. 컨텐츠/필터 제어: 자체 LLM을 교육함으로써 특정 요구 사항과 선호도에 맞게 모델을 조정하여 회사의 목표와 가치에 부합하도록 할 수 있습니다.**[1](https://www.brookings.edu/articles/exploring-the-impact-of-language-models/)**
2. 모델 및 지적 재산에 대한 소유권: 자체 LLM을 개발하면 모델과 그 기반 기술에 대한 완전한 소유권을 보유할 수 있으며, 이는 귀사의 귀중한 자산이 될 수 있습니다.**[1](https://www.brookings.edu/articles/exploring-the-impact-of-language-models/)**
3. 설명 가능성 및 투명성 향상: 자체 LLM을 교육하면 모델 내부를 더 잘 제어할 수 있으므로 의사 결정 프로세스의 설명 가능성과 투명성을 개선하는 데 도움이 됩니다.
4. 특정 산업 또는 도메인 요구사항에 맞게 조정: 산업 또는 도메인의 고유한 과제와 요구 사항을 해결하도록 맞춤형 LLM을 설계하여 모델이 특정 사용 사례에 최적화되도록 할 수 있습니다.
2. 단점
1. 높은 컴퓨팅 리소스와 비용: 자체 LLM을 교육하고 배포하는 것은 리소스 집약적일 수 있으며, 상당한 컴퓨팅 파워와 재정적 투자가 필요합니다. [3](https://www.analyticsinsight.net/pros-and-cons-of-customising-large-language-models/)
2. 시간이 오래 걸리는 교육 과정: 데이터 수집, 정리, 전처리뿐만 아니라 특정 요구사항에 맞게 모델을 미세 조정해야 하므로 맞춤형 LLM을 개발하는 데 오랜 시간이 소요될 수 있습니다.
3. 방대한 양의 데이터 관리 LLM을 학습하려면 대량의 데이터를 처리해야 하며, 이는 저장, 처리 및 개인 정보 보호 문제 측면에서 어려울 수 있습니다.
4. 모델 편향성 및 독성 문제를 해결하는 데 있어 잠재적인 어려움: 맞춤형 LLM에 편향성 및 독성 콘텐츠가 없는지 확인하는 것은 복잡하고 지속적인 프로세스가 될 수 있으므로 지속적인 모니터링과 평가가 필요합니다.**[6](https://towardsdatascience.com/overcoming-the-limitations-of-large-language-models-9d4e92ad9823)**
Bloomberg L.P.
Introducing BloombergGPT, Bloomberg’s 50-billion parameter large language model, purpose-built from scratch for finance | Press…
BloombergGPT is a 50-billion parameter large language model that was purpose-built from scratch for finance.
3. LLM을 교육, 확장 및 배포하는 데 있어 어떤 어려움이 있나요?
1. 컴퓨팅 리소스, 비용 및 인프라: LLM(대규모 언어 모델)을 학습하고 실행하는 것은 리소스 집약적이고 비용이 많이 들며, 특히 강력한 GPU 인프라가 필요합니다. 이는 초기 학습 단계부터 모델을 배포하는 추론 단계까지 확장됩니다. 이러한 리소스 관리의 복잡성은 불안정성으로 이어져 성능, 지연 시간, 심지어 비즈니스 모델에까지 영향을 미칠 수 있습니다.
- 비용 관리를 위한 엔지니어링
- 패널리스트들은 비용을 관리하기 위해 간단한 분류기와 같은 기본적인 엔지니어링 기법을 사용하여 대규모 언어 모델을 호출하는 것이 합당한지 여부를 결정할 수 있다고 제안합니다. 이들은 첫 번째 단계로 특정 모델을 사용할 수 있는지 평가한 다음 수용 가능한 결과를 제공하는 가장 낮은 수준으로 모델을 축소해야 한다고 강조합니다.
- **[Cost Optimization and Performance // LLMs in Production Conference Panel Discussion 2](https://youtu.be/wxq1ZeAM9fc)**
- Details
1. 훈련 비용: 대규모 언어 모델을 처음부터 학습하는 데 드는 비용으로, 여기에는 고급 하드웨어에서 여러 차례 반복하여 대규모 데이터 세트에 대한 계산을 실행하는 것이 포함됩니다. 여기에는 전기료와 잠재적인 데이터 저장 비용도 포함됩니다.
- 확장 비용: 모델이 더 커지고 복잡해지면 더 강력한 하드웨어, 더 많은 스토리지, 더 많은 에너지가 필요하므로 비용이 증가합니다. 더 많은 데이터나 정확도를 위해 모델을 확장하려면 추가 학습이 필요하므로 비용이 더 증가할 수 있습니다.
2. 배포 비용: 여기에는 학습된 모델을 효율적으로 실행하기 위해 최적화된 서버로 옮기는 데 드는 비용이 포함되며, 여기에는 특수 하드웨어가 필요할 수 있습니다. 지속적인 유지보수, 모니터링, 기존 시스템과의 통합 비용도 배포 비용에 영향을 미칩니다.
3. 추론/서비스 비용: 새로운 데이터에 대한 예측을 위해 모델을 사용하는 경우, 모델 실행을 위한 컴퓨팅 비용과 잠재적인 데이터 전송 비용이 발생합니다. 이러한 비용의 규모는 모델의 크기와 새로운 데이터의 양에 따라 달라집니다. 시간이 지남에 따라 사용 패턴에 따라 이러한 비용이 크게 누적될 수 있습니다.
2. 데이터 관리 및 개인정보 보호: LLM은 학습을 위해 방대한 양의 데이터를 필요로 하므로 저장, 처리, 특히 데이터 프라이버시와 관련된 문제가 발생합니다. LLM은 잠재적으로 학습 데이터에서 민감한 정보를 기억하고 유출할 수 있으므로 익명화 및 데이터 정화를 위한 엄격한 방법이 필요합니다.
3. 편향성, 독성 및 품질 관리: 인공 지능은 학습한 데이터를 통해 학습하기 때문에 내재된 편견이나 독성 콘텐츠를 흡수하고 전파할 위험이 있습니다. 또한 모호한 입력에 어려움을 겪고 문맥상 부적절하거나 부정확한 출력을 생성하거나 사실과 다르거나 허구의 텍스트를 '환각'할 수도 있습니다. 따라서 이러한 모델의 품질과 신뢰성을 보장하기 위해서는 지속적인 모니터링, 평가 및 조정이 필수적입니다.
4. 모델 적응 및 엔지니어링 엄격성: 특정 작업이나 도메인에 맞게 LLM을 조정하고 효과적인 프롬프트를 제작하는 것은 복잡하고 시간이 많이 소요되는 과정일 수 있습니다. 기존 및 향후 시스템과의 호환성을 보장하는 것도 중요한 엔지니어링 과제이므로 업데이트, 버전 관리 및 다른 구성 요소와의 통합을 위한 신중한 전략이 필요합니다.
5. 모델 설명 가능성 및 투명성: 복잡성으로 인해 LLM의 의사 결정 프로세스를 이해하는 것은 어려울 수 있습니다. 이러한 불투명성은 특히 의사 결정이 어떻게 이루어졌는지 명확하게 파악하는 것이 중요한 애플리케이션의 경우 문제가 될 수 있습니다.
6. 배포 전략: 프로덕션 환경에서 LLM을 배포하려면 하드웨어 기능, 지연 시간 요구 사항, 애플리케이션의 특정 요구 사항 간의 균형을 맞추는 신중한 전략이 필요합니다.
4. 참고자료:
1. [Unleashing LLMs in Production: Challenges & Opportunities. Chip Huyen, Amjad Masad & Michele Catasta](https://youtu.be/ByhMpN2iSbc)
2. [Real-time machine learning: challenges and solutions](https://huyenchip.com/2022/01/02/real-time-machine-learning-challenges-and-solutions.html)
3. [Building LLM applications for production](https://huyenchip.com/2023/04/11/llm-engineering.html)
4. [Efficiently Scaling and Deploying LLMs // Hanlin Tang // LLM's in Production Conference](https://youtu.be/AVccFl8-5-8)
5. **[Cost Optimization and Performance // LLMs in Production Conference Panel Discussion 2](https://youtu.be/wxq1ZeAM9fc)**
1. 컴퓨팅 리소스, 비용 및 인프라: LLM(대규모 언어 모델)을 학습하고 실행하는 것은 리소스 집약적이고 비용이 많이 들며, 특히 강력한 GPU 인프라가 필요합니다. 이는 초기 학습 단계부터 모델을 배포하는 추론 단계까지 확장됩니다. 이러한 리소스 관리의 복잡성은 불안정성으로 이어져 성능, 지연 시간, 심지어 비즈니스 모델에까지 영향을 미칠 수 있습니다.
- 비용 관리를 위한 엔지니어링
- 패널리스트들은 비용을 관리하기 위해 간단한 분류기와 같은 기본적인 엔지니어링 기법을 사용하여 대규모 언어 모델을 호출하는 것이 합당한지 여부를 결정할 수 있다고 제안합니다. 이들은 첫 번째 단계로 특정 모델을 사용할 수 있는지 평가한 다음 수용 가능한 결과를 제공하는 가장 낮은 수준으로 모델을 축소해야 한다고 강조합니다.
- **[Cost Optimization and Performance // LLMs in Production Conference Panel Discussion 2](https://youtu.be/wxq1ZeAM9fc)**
- Details
1. 훈련 비용: 대규모 언어 모델을 처음부터 학습하는 데 드는 비용으로, 여기에는 고급 하드웨어에서 여러 차례 반복하여 대규모 데이터 세트에 대한 계산을 실행하는 것이 포함됩니다. 여기에는 전기료와 잠재적인 데이터 저장 비용도 포함됩니다.
- 확장 비용: 모델이 더 커지고 복잡해지면 더 강력한 하드웨어, 더 많은 스토리지, 더 많은 에너지가 필요하므로 비용이 증가합니다. 더 많은 데이터나 정확도를 위해 모델을 확장하려면 추가 학습이 필요하므로 비용이 더 증가할 수 있습니다.
2. 배포 비용: 여기에는 학습된 모델을 효율적으로 실행하기 위해 최적화된 서버로 옮기는 데 드는 비용이 포함되며, 여기에는 특수 하드웨어가 필요할 수 있습니다. 지속적인 유지보수, 모니터링, 기존 시스템과의 통합 비용도 배포 비용에 영향을 미칩니다.
3. 추론/서비스 비용: 새로운 데이터에 대한 예측을 위해 모델을 사용하는 경우, 모델 실행을 위한 컴퓨팅 비용과 잠재적인 데이터 전송 비용이 발생합니다. 이러한 비용의 규모는 모델의 크기와 새로운 데이터의 양에 따라 달라집니다. 시간이 지남에 따라 사용 패턴에 따라 이러한 비용이 크게 누적될 수 있습니다.
2. 데이터 관리 및 개인정보 보호: LLM은 학습을 위해 방대한 양의 데이터를 필요로 하므로 저장, 처리, 특히 데이터 프라이버시와 관련된 문제가 발생합니다. LLM은 잠재적으로 학습 데이터에서 민감한 정보를 기억하고 유출할 수 있으므로 익명화 및 데이터 정화를 위한 엄격한 방법이 필요합니다.
3. 편향성, 독성 및 품질 관리: 인공 지능은 학습한 데이터를 통해 학습하기 때문에 내재된 편견이나 독성 콘텐츠를 흡수하고 전파할 위험이 있습니다. 또한 모호한 입력에 어려움을 겪고 문맥상 부적절하거나 부정확한 출력을 생성하거나 사실과 다르거나 허구의 텍스트를 '환각'할 수도 있습니다. 따라서 이러한 모델의 품질과 신뢰성을 보장하기 위해서는 지속적인 모니터링, 평가 및 조정이 필수적입니다.
4. 모델 적응 및 엔지니어링 엄격성: 특정 작업이나 도메인에 맞게 LLM을 조정하고 효과적인 프롬프트를 제작하는 것은 복잡하고 시간이 많이 소요되는 과정일 수 있습니다. 기존 및 향후 시스템과의 호환성을 보장하는 것도 중요한 엔지니어링 과제이므로 업데이트, 버전 관리 및 다른 구성 요소와의 통합을 위한 신중한 전략이 필요합니다.
5. 모델 설명 가능성 및 투명성: 복잡성으로 인해 LLM의 의사 결정 프로세스를 이해하는 것은 어려울 수 있습니다. 이러한 불투명성은 특히 의사 결정이 어떻게 이루어졌는지 명확하게 파악하는 것이 중요한 애플리케이션의 경우 문제가 될 수 있습니다.
6. 배포 전략: 프로덕션 환경에서 LLM을 배포하려면 하드웨어 기능, 지연 시간 요구 사항, 애플리케이션의 특정 요구 사항 간의 균형을 맞추는 신중한 전략이 필요합니다.
4. 참고자료:
1. [Unleashing LLMs in Production: Challenges & Opportunities. Chip Huyen, Amjad Masad & Michele Catasta](https://youtu.be/ByhMpN2iSbc)
2. [Real-time machine learning: challenges and solutions](https://huyenchip.com/2022/01/02/real-time-machine-learning-challenges-and-solutions.html)
3. [Building LLM applications for production](https://huyenchip.com/2023/04/11/llm-engineering.html)
4. [Efficiently Scaling and Deploying LLMs // Hanlin Tang // LLM's in Production Conference](https://youtu.be/AVccFl8-5-8)
5. **[Cost Optimization and Performance // LLMs in Production Conference Panel Discussion 2](https://youtu.be/wxq1ZeAM9fc)**
YouTube
Cost Optimization and Performance // LLMs in Production Conference Panel Discussion 2
// Abstract
In this panel discussion, the topic of the cost of running large language models (LLMs) is explored, along with potential solutions. The benefits of bringing LLMs in-house, such as latency optimization and greater control, are also discussed.…
In this panel discussion, the topic of the cost of running large language models (LLMs) is explored, along with potential solutions. The benefits of bringing LLMs in-house, such as latency optimization and greater control, are also discussed.…
Chip이 일하기도 했던 Snorkel이 궁금해서 찾아보니 이런 회사군요 ㅎㅎ
Solving the Last Mile Problem of Foundation Models with Data-Centric AI
Everyone will soon be using foundation models (FMs) like GPT-4.
동영상에서 Snorkel AI의 CEO인 알렉스 래트너는 기초 모델의 ‘라스트 마일’ 문제를 해결하는 데 있어 데이터 중심 AI의 역할과 맞춤형 및 도메인별 모델 개발의 중요성에 대해 설명합니다. 그는 독점적인 도메인별 데이터로 학습된 기초 모델을 나타내는 ‘GPT-You’라는 개념을 AI 애플리케이션의 미래로 소개합니다.
그는 AI 개발의 본질적이고 가장 중요한 측면은 올바른 아키텍처를 선택하거나 모델 매개변수를 미세 조정하는 것이 아니라 데이터를 조작, 큐레이팅, 레이블 지정, 슬라이싱, 샘플링 및 개발하는 것이라고 강조합니다. 이러한 데이터 중심 접근 방식을 통해 전문화된 고성능 기반 모델을 만들 수 있습니다.
또한 라트너는 ‘라스트 마일’ 문제에 대한 해결책으로서 데이터 중심 AI의 개념에 대해 자세히 설명합니다. 데이터 중심 AI는 라벨링, 샘플링, 큐레이팅, 증강 등 데이터를 반복하여 특정 작업을 위한 전문화된 모델을 만드는 데 중점을 둡니다. 그는 저렴한 쿼리 세트를 사용하여 ChatGPT를 복제하는 데 성공한 Alpaca와 같은 프로젝트의 성공과 내구성 있는 모델을 만드는 데 있어 개인 데이터 배포의 중요성에 대해 강조합니다.
데이터 중심 AI의 적용에 대해 래트너는 데이터의 고유성과 모델의 정확도라는 두 가지 차원으로 나누어 설명합니다. AI를 가장 보람 있게 사용할 수 있는 경우는 데이터가 기초 모델에 학습된 것과 매우 유사하고 오류에 대한 허용 오차가 높은 경우입니다. 그러나 비표준 데이터와 높은 정확도가 요구되는 상황에서는 레이블이 지정된 데이터에 대한 상당한 양의 작업과 미세 조정이 필요합니다.
래트너는 데이터 중심 AI를 사용하여 기초 모델을 개발하기 위한 플랫폼인 스노클 플로우를 소개합니다. 워크플로우는 기본 기초 모델에서 시작하여 특정 작업을 정의하고 기초 모델을 데이터에 적용하여 안내식 오류 분석으로 이어집니다. 이 프로세스는 기본 모델의 오류를 식별하고, 프로그래밍 방식의 라벨링을 사용하여 오류를 수정하며, 미세 조정을 위해 수정 및 증강된 라벨링 데이터로 기본 모델을 업데이트하거나 더 작은 규모의 작업별 모델로 추출합니다.
결론적으로 라트너는 데이터 중심 AI의 중요성과 이것이 기초 모델의 개발 및 미세 조정에 가져다주는 가치를 강조합니다. 그는 이러한 원칙에 대한 더 많은 탐구와 적용을 장려하며, 데이터 중심 AI와 기초 모델의 미래에 초점을 맞춘 향후 컨퍼런스에 청중을 초대합니다.
Solving the Last Mile Problem of Foundation Models with Data-Centric AI
Everyone will soon be using foundation models (FMs) like GPT-4.
동영상에서 Snorkel AI의 CEO인 알렉스 래트너는 기초 모델의 ‘라스트 마일’ 문제를 해결하는 데 있어 데이터 중심 AI의 역할과 맞춤형 및 도메인별 모델 개발의 중요성에 대해 설명합니다. 그는 독점적인 도메인별 데이터로 학습된 기초 모델을 나타내는 ‘GPT-You’라는 개념을 AI 애플리케이션의 미래로 소개합니다.
그는 AI 개발의 본질적이고 가장 중요한 측면은 올바른 아키텍처를 선택하거나 모델 매개변수를 미세 조정하는 것이 아니라 데이터를 조작, 큐레이팅, 레이블 지정, 슬라이싱, 샘플링 및 개발하는 것이라고 강조합니다. 이러한 데이터 중심 접근 방식을 통해 전문화된 고성능 기반 모델을 만들 수 있습니다.
또한 라트너는 ‘라스트 마일’ 문제에 대한 해결책으로서 데이터 중심 AI의 개념에 대해 자세히 설명합니다. 데이터 중심 AI는 라벨링, 샘플링, 큐레이팅, 증강 등 데이터를 반복하여 특정 작업을 위한 전문화된 모델을 만드는 데 중점을 둡니다. 그는 저렴한 쿼리 세트를 사용하여 ChatGPT를 복제하는 데 성공한 Alpaca와 같은 프로젝트의 성공과 내구성 있는 모델을 만드는 데 있어 개인 데이터 배포의 중요성에 대해 강조합니다.
데이터 중심 AI의 적용에 대해 래트너는 데이터의 고유성과 모델의 정확도라는 두 가지 차원으로 나누어 설명합니다. AI를 가장 보람 있게 사용할 수 있는 경우는 데이터가 기초 모델에 학습된 것과 매우 유사하고 오류에 대한 허용 오차가 높은 경우입니다. 그러나 비표준 데이터와 높은 정확도가 요구되는 상황에서는 레이블이 지정된 데이터에 대한 상당한 양의 작업과 미세 조정이 필요합니다.
래트너는 데이터 중심 AI를 사용하여 기초 모델을 개발하기 위한 플랫폼인 스노클 플로우를 소개합니다. 워크플로우는 기본 기초 모델에서 시작하여 특정 작업을 정의하고 기초 모델을 데이터에 적용하여 안내식 오류 분석으로 이어집니다. 이 프로세스는 기본 모델의 오류를 식별하고, 프로그래밍 방식의 라벨링을 사용하여 오류를 수정하며, 미세 조정을 위해 수정 및 증강된 라벨링 데이터로 기본 모델을 업데이트하거나 더 작은 규모의 작업별 모델로 추출합니다.
결론적으로 라트너는 데이터 중심 AI의 중요성과 이것이 기초 모델의 개발 및 미세 조정에 가져다주는 가치를 강조합니다. 그는 이러한 원칙에 대한 더 많은 탐구와 적용을 장려하며, 데이터 중심 AI와 기초 모델의 미래에 초점을 맞춘 향후 컨퍼런스에 청중을 초대합니다.
Our AI and ML Predictions for 2023: AI Arize
With prediction season coming to a close, here are a few hot takes on some prevailing trends and a few educated guesses on the year ahead.
1. Prompt Engineering Will Grow Into a Field: Prompt engineering doesn’t feel much like data science, but prompting is a growing area of significant importance with large language models (LLMs). In a way, finding the right prompt to get the right response turns a data science fine tuning problem into a fast and iterative prompt testing problem. There are already entire products such as Github Copilot that are built on top of prompt engineering with OpenAI, combining a well-executed product integration with GitHub and a data silo advantage. LLMs such as OpenAI will likely release pre-set prompts to help you ask the right questions. Word of caution: products built on prompts alone are not defensible.
2. A Multi-Modal LLM Will Go Mainstream: An LLM that supports both image or video and language together will be released this year to a lot of fanfare, possibly even eclipsing the fanfare around ChatGPT. The power of having both modalities in a single model is underappreciated right now and will be as groundbreaking in new use cases as ChatGPT is to conversation assistants.
3. Multiple Successful Vertical AI Assistants Will Emerge: We are seeing vertically-focused LLMs with the right prompt construction, software interface, and the right data creating focused value. The best execution to date has been GitHub Copilot. There will likely be multiple vertical AI assistants in fields like the law, medicine and biotech. These will be accomplished by connecting an LLM to unique vertical-specific datasets, fine tuning and aligning in specific verticals, prompt engineering for that vertical, and offering a user interface with workflows for that vertical. I believe these can be defensible if done right.
4. ChatGPT Will Not Threaten Google; It’s an Entirely New Large Market: It is very normal to see something new and try to think of it as a product replacement for what you already know. This is often the wrong way to look at it. I view ChatGPT as a whole new type of technology that enables a wide swath of products that have nothing to do with search. I think the network effects of search will be near impossible to dislodge in the near team, and the value replacement is just not there yet. That said, large new markets are enabled by the progress in LLMs. It’s also likely that a sizable portion of traffic distribution will occur through product integrations like CoPilot versus traffic arriving to and typing in a single home page.
5. Embedding Use for Interpretability and Content Control for Models/LLMs will Accelerate: The use of embeddings analysis for AI interpretability will grow as a field. Toolsets will launch that use these embeddings to monitor and control AI. We have already seen incredible pickup of our embedding drift solutions across a wide swath of industries. We’ve also seen embeddings used for content protection in Dall-E and other generative models. Embeddings represent the latent structure models have learned and they are the backbone of every modern deep learning model.
With prediction season coming to a close, here are a few hot takes on some prevailing trends and a few educated guesses on the year ahead.
1. Prompt Engineering Will Grow Into a Field: Prompt engineering doesn’t feel much like data science, but prompting is a growing area of significant importance with large language models (LLMs). In a way, finding the right prompt to get the right response turns a data science fine tuning problem into a fast and iterative prompt testing problem. There are already entire products such as Github Copilot that are built on top of prompt engineering with OpenAI, combining a well-executed product integration with GitHub and a data silo advantage. LLMs such as OpenAI will likely release pre-set prompts to help you ask the right questions. Word of caution: products built on prompts alone are not defensible.
2. A Multi-Modal LLM Will Go Mainstream: An LLM that supports both image or video and language together will be released this year to a lot of fanfare, possibly even eclipsing the fanfare around ChatGPT. The power of having both modalities in a single model is underappreciated right now and will be as groundbreaking in new use cases as ChatGPT is to conversation assistants.
3. Multiple Successful Vertical AI Assistants Will Emerge: We are seeing vertically-focused LLMs with the right prompt construction, software interface, and the right data creating focused value. The best execution to date has been GitHub Copilot. There will likely be multiple vertical AI assistants in fields like the law, medicine and biotech. These will be accomplished by connecting an LLM to unique vertical-specific datasets, fine tuning and aligning in specific verticals, prompt engineering for that vertical, and offering a user interface with workflows for that vertical. I believe these can be defensible if done right.
4. ChatGPT Will Not Threaten Google; It’s an Entirely New Large Market: It is very normal to see something new and try to think of it as a product replacement for what you already know. This is often the wrong way to look at it. I view ChatGPT as a whole new type of technology that enables a wide swath of products that have nothing to do with search. I think the network effects of search will be near impossible to dislodge in the near team, and the value replacement is just not there yet. That said, large new markets are enabled by the progress in LLMs. It’s also likely that a sizable portion of traffic distribution will occur through product integrations like CoPilot versus traffic arriving to and typing in a single home page.
5. Embedding Use for Interpretability and Content Control for Models/LLMs will Accelerate: The use of embeddings analysis for AI interpretability will grow as a field. Toolsets will launch that use these embeddings to monitor and control AI. We have already seen incredible pickup of our embedding drift solutions across a wide swath of industries. We’ve also seen embeddings used for content protection in Dall-E and other generative models. Embeddings represent the latent structure models have learned and they are the backbone of every modern deep learning model.
MLSys 2023 학회에 참여하고 있습니다. 눈에 보이는 논문 몇편 소개해드릴까 합니다.
https://arxiv.org/abs/2305.02538 / Cuttlefish: Low-Rank Model Training without All the Tuning
개인적으로는 별로 좋아하는 연구는 아닙니다만, Low-Rank 모델 Training에 관심이 많으신 것 같습니다. Low-rank traning과 자동화를 좀 섞은것 같고, LLM은 모르겠지만, BERT정도까지는 좋은결과를 가지고 있습니다.
https://arxiv.org/abs/2211.05102 / Efficiently Scaling Transformer Inference
구글의 유명한 논문입니다. Outstanding Paper 상을 받았구요. PaLM의 서빙 시스템을 다루고 있는 논문입니다. TPU 최적화된 내용이라서, GPU향에서는 약간 다를수 있다는 함정이지만, 배울 수 있는 내용이 많습니다. 최근 구글에서 Grouped-Query Attention이 나왔는데, 얘는 기본적으로 Multi-query attention (MQA)를 사용하고 있고, Feed forward 를 위한 파티셔닝 전략을 설명하고 있습니다.
LLM Serving에 있어서 제일 중요하다고 생각하는 것중 하나가 Latency향 최적화, throughput 최적화 의 차이를 이해하는 것이라고 생각합니다. 그 부분에 대해서 많이 배우실수 있습니다.
https://proceedings.mlsys.org/paper_files/paper/2023/file/4552cedd396a308320209f75f56a5ad5-Paper-mlsys2023.pdf / Efficient GPU Kernels for N:M-Sparse Weights in Deep Learning
요즘 N:M sparsity가 정말 가속이 잘 되는지 궁금한데.. 저도 공부해볼까 싶어서 붙여넣었습니다.
https://proceedings.mlsys.org/paper_files/paper/2023/file/de4086ad4276d895be8ef25ec03c964b-Paper-mlsys2023.pdf / Unified Convolution Framework: A compiler-based approach to support sparse convolutions
한국인 MIT 학생의 발표인데, Compiler 궁금하신 분들 보시죠 ㅎㅎ
네이버 권세중님
https://arxiv.org/abs/2305.02538 / Cuttlefish: Low-Rank Model Training without All the Tuning
개인적으로는 별로 좋아하는 연구는 아닙니다만, Low-Rank 모델 Training에 관심이 많으신 것 같습니다. Low-rank traning과 자동화를 좀 섞은것 같고, LLM은 모르겠지만, BERT정도까지는 좋은결과를 가지고 있습니다.
https://arxiv.org/abs/2211.05102 / Efficiently Scaling Transformer Inference
구글의 유명한 논문입니다. Outstanding Paper 상을 받았구요. PaLM의 서빙 시스템을 다루고 있는 논문입니다. TPU 최적화된 내용이라서, GPU향에서는 약간 다를수 있다는 함정이지만, 배울 수 있는 내용이 많습니다. 최근 구글에서 Grouped-Query Attention이 나왔는데, 얘는 기본적으로 Multi-query attention (MQA)를 사용하고 있고, Feed forward 를 위한 파티셔닝 전략을 설명하고 있습니다.
LLM Serving에 있어서 제일 중요하다고 생각하는 것중 하나가 Latency향 최적화, throughput 최적화 의 차이를 이해하는 것이라고 생각합니다. 그 부분에 대해서 많이 배우실수 있습니다.
https://proceedings.mlsys.org/paper_files/paper/2023/file/4552cedd396a308320209f75f56a5ad5-Paper-mlsys2023.pdf / Efficient GPU Kernels for N:M-Sparse Weights in Deep Learning
요즘 N:M sparsity가 정말 가속이 잘 되는지 궁금한데.. 저도 공부해볼까 싶어서 붙여넣었습니다.
https://proceedings.mlsys.org/paper_files/paper/2023/file/de4086ad4276d895be8ef25ec03c964b-Paper-mlsys2023.pdf / Unified Convolution Framework: A compiler-based approach to support sparse convolutions
한국인 MIT 학생의 발표인데, Compiler 궁금하신 분들 보시죠 ㅎㅎ
네이버 권세중님
What is great friendship? How could we cultivate this?
Reid Hoffman
1. 친구들은 내가 볼 수 없는 것을 볼 수 있도록 도와줄 수 있습니다.
2. 내가 친구들을 돕고 친구들이 나를 도와주면 우리는 더 잘하고 더 멀리 갈 수 있습니다.
3. 나에게는 수백 명의 친구, 멘토가 있습니다.
4. 친구들은 당신이 그들을 돕도록 허락합니다. 친구들은 대화를 통해 저를 전적으로 신뢰하고 믿어주어 저를 가치 있는 사람으로 만들어주었습니다.
5. 우정을 최우선 순위로 삼는다.
6. 의식적으로 좋은 우정을 만든다. 의식을 만든다. 우정이 무엇이며 어떻게 개선할 수 있는지 이야기하세요.
7. 당신이 원하는 것과 당신의 꿈을 친구들에게 공유하세요.
8. 친구들은 당신이 원하는 것이 아니라 내가 해야 할 일을 말해줍니다.
9. 인생은 가장 충만한 팀 스포츠입니다.
---
Charlie Munger and Warren Buffet
독이 되는 사람을 피하세요: 버핏과 멍거는 모두 삶에 부정적인 영향을 미칠 수 있는 독성이 있는 사람들과 멀리 떨어져 지내는 것이 중요하다고 강조합니다. 그러나 버핏은 사람을 비방하고 다리를 불태우는 것은 친구가 전혀 없을 수도 있다고 경고합니다.
공유된 가치와 신뢰: 버핏과 멍거의 오랜 우정은 공유된 가치, 신뢰, 상호 존중을 기반으로 합니다.
서로에게서 배우기: 버핏은 멍거의 지성, 유머 감각, 명쾌한 사고력 등 그가 중요하게 여기는 자질에 대해 자주 언급해 왔습니다. 또한 멍거는 버핏의 투자 능력과 지혜에 대해 존경심을 표하기도 했습니다.
---
Naval Ravikant
장기적인 우정을 소중히 여깁니다: Naval은 상호 존중과 공유된 가치에 기반한 장기적인 우정과 동료 관계의 중요성을 강조합니다.
정직: Naval에 따르면 정직은 우정과 관계의 기본 가치입니다. 친구에게 정직하고 투명하게 행동하면 신뢰를 쌓고 유대감을 강화하는 데 도움이 됩니다.
관심사 공유: Naval은 친구와 관심사와 열정을 공유하면 우정이 더욱 풍성하고 즐거워질 수 있다고 믿습니다.
독립성: Naval은 트윗에서 친구나 또래 집단의 신념에 따르지 않고 독립적인 사고를 하는 것의 중요성에 대해 언급했습니다.
양보다 질: Naval은 피상적인 우정을 많이 쌓기보다는 소수의 친한 친구와 깊고 의미 있는 관계를 형성하는 데 집중할 것을 제안합니다. .
Reid Hoffman
1. 친구들은 내가 볼 수 없는 것을 볼 수 있도록 도와줄 수 있습니다.
2. 내가 친구들을 돕고 친구들이 나를 도와주면 우리는 더 잘하고 더 멀리 갈 수 있습니다.
3. 나에게는 수백 명의 친구, 멘토가 있습니다.
4. 친구들은 당신이 그들을 돕도록 허락합니다. 친구들은 대화를 통해 저를 전적으로 신뢰하고 믿어주어 저를 가치 있는 사람으로 만들어주었습니다.
5. 우정을 최우선 순위로 삼는다.
6. 의식적으로 좋은 우정을 만든다. 의식을 만든다. 우정이 무엇이며 어떻게 개선할 수 있는지 이야기하세요.
7. 당신이 원하는 것과 당신의 꿈을 친구들에게 공유하세요.
8. 친구들은 당신이 원하는 것이 아니라 내가 해야 할 일을 말해줍니다.
9. 인생은 가장 충만한 팀 스포츠입니다.
---
Charlie Munger and Warren Buffet
독이 되는 사람을 피하세요: 버핏과 멍거는 모두 삶에 부정적인 영향을 미칠 수 있는 독성이 있는 사람들과 멀리 떨어져 지내는 것이 중요하다고 강조합니다. 그러나 버핏은 사람을 비방하고 다리를 불태우는 것은 친구가 전혀 없을 수도 있다고 경고합니다.
공유된 가치와 신뢰: 버핏과 멍거의 오랜 우정은 공유된 가치, 신뢰, 상호 존중을 기반으로 합니다.
서로에게서 배우기: 버핏은 멍거의 지성, 유머 감각, 명쾌한 사고력 등 그가 중요하게 여기는 자질에 대해 자주 언급해 왔습니다. 또한 멍거는 버핏의 투자 능력과 지혜에 대해 존경심을 표하기도 했습니다.
---
Naval Ravikant
장기적인 우정을 소중히 여깁니다: Naval은 상호 존중과 공유된 가치에 기반한 장기적인 우정과 동료 관계의 중요성을 강조합니다.
정직: Naval에 따르면 정직은 우정과 관계의 기본 가치입니다. 친구에게 정직하고 투명하게 행동하면 신뢰를 쌓고 유대감을 강화하는 데 도움이 됩니다.
관심사 공유: Naval은 친구와 관심사와 열정을 공유하면 우정이 더욱 풍성하고 즐거워질 수 있다고 믿습니다.
독립성: Naval은 트윗에서 친구나 또래 집단의 신념에 따르지 않고 독립적인 사고를 하는 것의 중요성에 대해 언급했습니다.
양보다 질: Naval은 피상적인 우정을 많이 쌓기보다는 소수의 친한 친구와 깊고 의미 있는 관계를 형성하는 데 집중할 것을 제안합니다. .