What are some design patterns in machine learning systems?
Here are a few I've seen:
1. Cascade: Break a complex problem into simpler problems. Each subsequent model focuses on more difficult or specific problems.
Stack Exchange has a cascade of defenses against spam:
https://stackoverflow.blog/2020/06/25/how-does-spam-protection-work-on-stack-exchange/
2. Reframing: Redefine the original problem, target, or input to make the problem easier to solve.
Sequential recsys reframed the paradigm from co-occurrence (matrix factorization) to predict-the-next-event (e.g., transformers).
arxiv.org/abs/1905.06874
3. Human-in-the-loop: Collect labels from users, annotation services, or domain experts.
Stack Exchange lets users flag spam, and LinkedIn lets users report messages as harassment:
https://engineering.linkedin.com/blog/2020/fighting-harassment
Recently, LLMs are used in labeling too:
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks:
arxiv.org/abs/2303.15056
4. Data Augmentation: Synthetically increase the size and diversity of training data to improve model generalization and reduce overfitting.
DoorDash varied sentence order and randomly removed information such as menu category:
https://doordash.engineering/2020/08/28/overcome-the-cold-start-problem-in-menu-item-tagging/
5. Data flywheel: Positive feedback loop where more data improves ML models, which leads to more users and data.
Tesla collects data via cars, finds and labels errors, retrains models, and then deploys to their cars which gather more data.
Potentially nitpicky but competitive advantage in AI goes not so much to those with data but those with a data engine: iterated data aquisition, re-training, evaluation, deployment, telemetry. And whoever can spin it fastest. Slide from Tesla to ~illustrate but concept is general.
6. Business Rules: Adding logic or constraints based on domain knowledge and/or business requirements to augment or adjust the output of ML models
Twitter has various hand-tuned weights when predicting engagement probabilities:
https://github.com/twitter/the-algorithm-ml/tree/main/projects/home/recap
A few more that I'll cover in a write-up:
• Aggregate raw data once: To reduce compute cost
• Evaluate before deploy: For safety and reliability
• Hard mining: To better learn difficult instances
#مقاله #خبر
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
Here are a few I've seen:
1. Cascade: Break a complex problem into simpler problems. Each subsequent model focuses on more difficult or specific problems.
Stack Exchange has a cascade of defenses against spam:
https://stackoverflow.blog/2020/06/25/how-does-spam-protection-work-on-stack-exchange/
2. Reframing: Redefine the original problem, target, or input to make the problem easier to solve.
Sequential recsys reframed the paradigm from co-occurrence (matrix factorization) to predict-the-next-event (e.g., transformers).
arxiv.org/abs/1905.06874
3. Human-in-the-loop: Collect labels from users, annotation services, or domain experts.
Stack Exchange lets users flag spam, and LinkedIn lets users report messages as harassment:
https://engineering.linkedin.com/blog/2020/fighting-harassment
Recently, LLMs are used in labeling too:
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks:
arxiv.org/abs/2303.15056
4. Data Augmentation: Synthetically increase the size and diversity of training data to improve model generalization and reduce overfitting.
DoorDash varied sentence order and randomly removed information such as menu category:
https://doordash.engineering/2020/08/28/overcome-the-cold-start-problem-in-menu-item-tagging/
5. Data flywheel: Positive feedback loop where more data improves ML models, which leads to more users and data.
Tesla collects data via cars, finds and labels errors, retrains models, and then deploys to their cars which gather more data.
Potentially nitpicky but competitive advantage in AI goes not so much to those with data but those with a data engine: iterated data aquisition, re-training, evaluation, deployment, telemetry. And whoever can spin it fastest. Slide from Tesla to ~illustrate but concept is general.
6. Business Rules: Adding logic or constraints based on domain knowledge and/or business requirements to augment or adjust the output of ML models
Twitter has various hand-tuned weights when predicting engagement probabilities:
https://github.com/twitter/the-algorithm-ml/tree/main/projects/home/recap
A few more that I'll cover in a write-up:
• Aggregate raw data once: To reduce compute cost
• Evaluate before deploy: For safety and reliability
• Hard mining: To better learn difficult instances
#مقاله #خبر
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
چگونه از #چتجیپیتی چیزی بخوایم؟
شاید خواسته باشید از #ChatGPT کاری بخواید، ولی ندونید چطوری بپرسید، یا میپرسید ولی جواب مورد نظرتون رو نمیگیرید.
درخواست یا اصطلاحا Prompt درست برای گرفتن جواب درست بسیار مهمه
خب شما میتونید از خودش بخواید واستون Prompt رو بنویسه.
شما میتونید با یه Loop ساده از چتجیپیتی بخواید هر بار اون Prompt رو پربار تر و نزدیک تر به هدفی که میخواید بکنه.
لوپ ما سه قسمت داره:
1. اول Prompt فعلی رو با استفاده از اطلاعاتی که گرفتی ادیت کن
2. پیشنهاد بده چی کجا باشه
3. ازم سوال مربوط بپرس
این چرخه همینطور ادامه پیدا میکنه تا پرامپت شما پربار تر و دقیق تر بشه
به طور مثال اینجا خواستیم تا در رابطه با تیم فوتبال آث میلان واسمون یه مقاله بنویسه:
هر بار از شما چنتا سوال میپرسه تا اون پرامپت اولیه رو بهتر و بهتر کنه، هرچی بیشتر برید جلو و جزییات بیشتری بهش بدید جواب قشنگتری میگیرید، به خاطر داشته باشید تا صبح ازتون سوال میپرسه پس هرجا احساس کردید کافیه ادامه ندید:
در انتها، کافیه که اون قسمت Revised Prompt تنها یا همراه با پیشنهادات رو توی یه چت جدید کپی کنید و از نتیجه لذت ببرید!
اون Prompt Generator رو از اینجا میتونید کپی کنید:
https://docs.google.com/document/d/1ve9hpyJ5JVWgNYZkaiFyNFUEDxJ113xtBuNztCjYhOA/edit?usp=drivesdk
#مقاله #خبر
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
شاید خواسته باشید از #ChatGPT کاری بخواید، ولی ندونید چطوری بپرسید، یا میپرسید ولی جواب مورد نظرتون رو نمیگیرید.
درخواست یا اصطلاحا Prompt درست برای گرفتن جواب درست بسیار مهمه
خب شما میتونید از خودش بخواید واستون Prompt رو بنویسه.
شما میتونید با یه Loop ساده از چتجیپیتی بخواید هر بار اون Prompt رو پربار تر و نزدیک تر به هدفی که میخواید بکنه.
لوپ ما سه قسمت داره:
1. اول Prompt فعلی رو با استفاده از اطلاعاتی که گرفتی ادیت کن
2. پیشنهاد بده چی کجا باشه
3. ازم سوال مربوط بپرس
این چرخه همینطور ادامه پیدا میکنه تا پرامپت شما پربار تر و دقیق تر بشه
به طور مثال اینجا خواستیم تا در رابطه با تیم فوتبال آث میلان واسمون یه مقاله بنویسه:
هر بار از شما چنتا سوال میپرسه تا اون پرامپت اولیه رو بهتر و بهتر کنه، هرچی بیشتر برید جلو و جزییات بیشتری بهش بدید جواب قشنگتری میگیرید، به خاطر داشته باشید تا صبح ازتون سوال میپرسه پس هرجا احساس کردید کافیه ادامه ندید:
در انتها، کافیه که اون قسمت Revised Prompt تنها یا همراه با پیشنهادات رو توی یه چت جدید کپی کنید و از نتیجه لذت ببرید!
اون Prompt Generator رو از اینجا میتونید کپی کنید:
https://docs.google.com/document/d/1ve9hpyJ5JVWgNYZkaiFyNFUEDxJ113xtBuNztCjYhOA/edit?usp=drivesdk
#مقاله #خبر
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍1
برای فهم و درک کامل مفاهیم یادگیری ماشین از پایه این مقاله یا کتاب رو پیشنهاد میدم هم جدید هست و با موضوعاتی جامعتر
Exercises in Machine Learning
linear algebra, optimization, graphical models
arxiv.org/abs/2206.13446
پ.ن: کتاب دکتر Hal Daume یکی دیگر از منابع تئوری #یادگیری_ماشین است.
🔸 A Course in Machine Learning
#کتاب #مقاله #مبتدی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
Exercises in Machine Learning
linear algebra, optimization, graphical models
arxiv.org/abs/2206.13446
پ.ن: کتاب دکتر Hal Daume یکی دیگر از منابع تئوری #یادگیری_ماشین است.
🔸 A Course in Machine Learning
#کتاب #مقاله #مبتدی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍4❤2
مدلی جدیدی دیگر منتشر شد
launching Sabiá-65B, a large language model pretrained on Portuguese with slightly better performance than ChatGPT-3.5 on 14 Portuguese datasets. In a few weeks, we will make an API available for researchers.
More details: arxiv.org/pdf/2304.07880
#مقاله
launching Sabiá-65B, a large language model pretrained on Portuguese with slightly better performance than ChatGPT-3.5 on 14 Portuguese datasets. In a few weeks, we will make an API available for researchers.
More details: arxiv.org/pdf/2304.07880
#مقاله
❤2
رتبه بندی مبدِع ترین شرکتهای آمریکایی
https://fortune.com/ranking/americas-most-innovative-companies/
#هوش_مصنوعی #خبر
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
https://fortune.com/ranking/americas-most-innovative-companies/
#هوش_مصنوعی #خبر
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍2
ChatGPT applications, opportunities, and threats.
arxiv.org/abs/2304.09103
#مقاله #مبتدی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
arxiv.org/abs/2304.09103
#مقاله #مبتدی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍2
My lab is hiring a full-time research staff position! We are looking for someone with experience in neuroimaging analysis to assist in studies of brain-behavior evolution in dogs, foxes, primates, and humans. Come join our team! bit.ly/61689BR
👍1
Evaluating Verifiability of LLM-Powered Search Engines
-Human eval of Bing Chat, NeevaAI, perplexity ai, YouChat
-Responses are fluent but frequently contain unsupported statements & inaccurate citations
-51.5% of sentences fully supported by citations
arxiv.org/abs/2304.09848
-Human eval of Bing Chat, NeevaAI, perplexity ai, YouChat
-Responses are fluent but frequently contain unsupported statements & inaccurate citations
-51.5% of sentences fully supported by citations
arxiv.org/abs/2304.09848
وبسایت Shecodes به ایرانیا بورسیه میده علاقمندان براش اقدام کنن
shecodesfoundation.org/candidates/new
#خبر #برنامه_نویسی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
shecodesfoundation.org/candidates/new
#خبر #برنامه_نویسی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍1
بنا به گزارش Checkpoint هکرهای زیادی با استفاده از حملات brute-force در تلاش هستند تا اکانتهای پرمیوم ChatGPT رو #هک کرده و در بازارهای زیرزمینی به هکرهایی که بدنبال استفاده از این فناوری جهت توسعه بدافزار و انواع سلاحهای #سایبری هستند بفروشند.
https://blog.checkpoint.com/security/new-chatgpt4-0-concerns-a-market-for-stolen-premium-accounts/
#خبر #هوش_مصنوعی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
https://blog.checkpoint.com/security/new-chatgpt4-0-concerns-a-market-for-stolen-premium-accounts/
#خبر #هوش_مصنوعی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍3
مرجعی کامل برای دسترسی به مقالات فراگیری پرامپت انجینرینگ اینجا یادبگیرید
survey papers on LLMs and prompt engineering.
https://www.promptingguide.ai/papers
Second resources :
https://chatx.ai/marketplace/
#مبتدی #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
survey papers on LLMs and prompt engineering.
https://www.promptingguide.ai/papers
Second resources :
https://chatx.ai/marketplace/
#مبتدی #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍1
جامعتر مرجع برای محبث
RL with Human Feedback
تا کنون چه مقالاتی در این حیطه منتشر شده و آینده این مباحث رو میتوانید ایده های بیشتری که منتشر شده،ایده دیگری را بدست بیارید
https://github.com/opendilab/awesome-RLHF
#مبتدی #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
RL with Human Feedback
تا کنون چه مقالاتی در این حیطه منتشر شده و آینده این مباحث رو میتوانید ایده های بیشتری که منتشر شده،ایده دیگری را بدست بیارید
https://github.com/opendilab/awesome-RLHF
#مبتدی #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
Reference-based Image Composition with Sketch via Structure-aware Diffusion Model
abs: arxiv.org/abs/2304.09748
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
abs: arxiv.org/abs/2304.09748
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍1