Dev Tweet – Telegram
Dev Tweet
850 subscribers
113 photos
15 videos
3 files
98 links
گعده‌ای در باب برنامه نویسی، پایتون، هوش مصنوعی و داده
Download Telegram
Elicit
Elicit
دستیار جستجو مقالات و دیتاست‌ها با کمک هوش مصنوعی.
آمدن مدل GPT-3 را با 175 میلیون مقاله آموزش دادن که جواب سوالات تحقیقاتی که می پرسید رو از مقالاتی که به اون سوال پرداختن پیدا کنه.
من خودم خیلی تست کردم. فوق العاده نیست ولی بدم نیست. حداقل به اندازه‌ی google scholar و semantic scholar خوبه.
دو تا مثالهایی که واقعا نتیجه معقولی داد.

یه تیم بین المللی که در زمینه‌ی reasoning کار می کنه توسعه‌اش داده.
بصورت دور کاری هم نیرو می گیره حتی نیروی Intern هم می گیره برید قسمت careerش رو ببینید:))
https://news.1rj.ru/str/tweetdev/23
در باب اهمیت گرادیان کاهشی Gradian Descent

این توئیت، سوال پرسیده که شکومند‌ترین/زیباترین ایده‌ی یادگیری ماشین رو چی میدونید؟
متخصص‌های خیلی خفن زیادی به این توئيت توجه کردند و به این سوال جواب دادند. یه سری از این‌ جوابا ایناست:
SVD, PCA, GAN, SVM, Manifold Learning,...
و بعضی جوابهای خاص دیگه.

اما این آقای کریس اولا که قبلا در گوگل برین و OpenAI بوده حرف جالبی میزنه میگه: گرادیان کاهشی. میگه گرادیان کاهشی در ML مثل تکامل در زیست شناسی زیباست بعد با مثال‌هایی توضیح میده این رو.

یان لیکان این توئيت رو مورد توجه قرار داده و میگه من از نیپس ۲۰۰۰ که ازم پرسیدم که مهمترین چیزی که در ML یاد گرفتیم چیه میگه از همون موقع جواب دادم گرادیان کاهشی.
دو متد و کی‌ورد کد خیلی جالب و کاربردی که معمولا خود من هم در کدها استفاده نمی‌کنم و اون رو پیاده می‌کنم
مخصوصا issubset
لینک
This media is not supported in your browser
VIEW IN TELEGRAM
یکی از اساسی‌ترین قضایای شگفت انگیز آمار قضیه حد مرکزیه!
این شکل به خوبی مفهوم این قضیه رو نشون میده!
اینجا عملا یه مثال از قضیه حد مرکزیه که مجموع تعدادی کافی توزیع دوجمله‌ای توزیع نرمال را تقریب می‌زنه.
منبع برای خوندن کامنت‌های توئیت
سوال نخ‌نمای مصاحبه‌های پایتون!
فرق آبجکت mutable با immutable چیست؟
یادتون باشه تایپ‌های معمولی که انسان برای انتقال مفاهیم استفاده‌ می‌کنه یعنی int و float و string بعلاوه tuple‌ها اینها همگی immutable هستند بصورت خیلی ساده یعنی متدی روی این objectهای call نمی‌شه که شکل‌شون رو عوض کنه.(جلوتر می‌فهمید)

بقیه‌ی انواع تایپ داده‌ها mutable هستند این‌ها رو انسان برای انتقال مفاهیم استفاده نمی‌کنه مثل dict , list و set. یعنی موقع حرف زدن که ساختار دیکشنری و مجموعه و لیست که نمی‌سازیم موقع حرف زدن با عدد یعنی float , int و کلمات یعنی string حرف می‌زنیم.

در اصطلاح به int, float, string, bool می‌گن primitive type یعنی تایپ‌های اولیه.
پس یادتون باشد primitive type + tuple میشه immutable.

اما اینکه dict, list, set میگن mutable هستند یعنی چی؟ یعنی تغییرپذیرند. یعنی اینکه یک لیست اگر عضوی هم بهش اضافه کنیم بازم همون object هست آن شی قبلی حذف نمیشه یه شی دیگه به جاش تولید بشه به زبان پایتونی id آن object ثابت می‌مونه.
https://twitter.com/ylecun/status/1545210275237953537

اتحادیه اروپا داره قانونی تصویب می‌کنه/ یا کرده:
۱. سیستم‌های همیار راننده که همگی مبتنی بر دیپ لرنینگ هستند اجباری می‌شود. مانند سیستم ترمز اتوماتیک AEBS
(۲. این سیستم‌های باید قابل توضیح باشند.)

لیکان نقد می‌کنه میگه:
از نظر من لزومی نداره وقتی تنها سیستم‌های وجود بازار Expainable نیستن بیاد شرط explainbality بذاره!
میگه وقتی بازار دست MobilEye اینتله که سیستمش Expainable نیست چرا باید چنین شرطی باشه بر اساس تست پذیری گواهی بدید!

بحثای زیر این توئيت رو بخونید خیلی جالبه
2201.00650.pdf
15.1 MB
کتاب سوالات مصاحبه‌ی دیپ لرنینگ
صدها سوال به همراه پاسخ‌نامه

به درد یه زمانی می‌خوره که آدم می‌خواد بره مصاحبه یه دو هفته قبلش دوپینگ کنه
طرح جلد کتاب مصاحبه‌های یادگیری عمیق
ببنید چقدر ترنسفورمرها مهم هستند که standford اومده یا کورس مستقل براش گذاشته
هر بخش‌ش رو یه نفر ارائه از نیروهای فنی بهترین شرکت‌های هوش‌ مصنوعی
از کسانی که خودشون جز افراد اصلی بودند که به پیشبرد معماری ترنسفورمرها کمک کردند.

https://web.stanford.edu/class/cs25/index.html

Introduction to Transformers
Transformers in Language: GPT-3, Codex
Applications in Vision
Transformers in RL & Universal
Scaling transformers
Perceiver: Arbitrary IO with transformers
Self Attention & Non-Parametric Transformers
GLOM: Representing part-whole hierarchies in a neural network
Interpretability with transformers
Transformers for Applications in Audio, Speech and Music: From Language
https://twitter.com/rasbt/status/1572616437977546754
کلا همیشه در مورد اینکه روش‌های tree boosting روی داده جدولی بهتر جواب میده بحث بوده این مقاله اومده روی 40 تا دیتاست از 400 تا داده تا 40k داده رو بررسی کرده.
حالا اینش مهم نیست یه چیز جالبی داره از اون کلی چیز میشه یاد گرفت ۱۳ تا روش regularization روی اومده بررسی کرده که من حتی اسم چندتاش رو نشنیده بودم.
Implicit:
(1) BatchNorm (https://arxiv.org/abs/1502.03167)
(2) stochastic weight averaging (https://arxiv.org/abs/1803.05407)
(3) Look-ahead optimizer (https://arxiv.org/abs/1907.08610)
(4) Weight decay (https://bbabenko.github.io/weight-decay/)

Ensembling techniques:
(5) Dropout (https://arxiv.org/abs/1207.0580)
(6) Snapshot ensembles (https://arxiv.org/abs/1704.00109)

Structural regularization and linearization:
(7) Skip connections (https://arxiv.org/abs/1512.03385)
(8) Shake-Drop (https://arxiv.org/abs/1802.02375)
(9) Shake-Shake (https://arxiv.org/abs/1705.07485)

Augmentation:
(10) Mix-Up (https://arxiv.org/abs/1710.09412)
(11) Cut-Mix (https://arxiv.org/abs/1905.04899)
(12) Cut-Out (https://arxiv.org/abs/1708.04552)
(13) FGSM adversarial learning (https://arxiv.org/abs/1412.6572)

بهتر از همه چی کدشه که تو گیت‌هاب گذاشته 🔥
https://github.com/releaunifreiburg/WellTunedSimpleNets

به نظرم چیزی که تو کدش باید جالب باشه اینه که چطوری این ۱۳ تا روش regularization رو توی parameter searchش میاره
Forwarded from David S
I'm David - currently a senior at Stanford studying CS / ML. I'm spending my free time building projects with LLMs and writing about them. Would love to chat and trade ideas. Currently prototyping some tools to make monitoring / productionizing LLM/ML models easier
David S
Yes for sure, here's the link for the group: https://news.1rj.ru/str/+NkSoONxchxUwNjYx
این گروه برای این فارغ التحصیل standford که روی LLM های کار می کنه لینکش رو گذاشته بود توئیتر
تقریبا یک گروه تلگرامی دیپ لرنینگ بین المللیه میشه احتمالا.
البته هنوز فعالیت خاصی نکرده
خالق backpropagation میگه دیگه انتشار عقبرو به درد نمی‌خوره.
این رو خیلی قبل پیش تو یه مصاحبه گفته. همونجا میگه اون موقعی که اختراع‌ش کردم خیلی باهاش حال نکردم می دونستم بهترین ایده برای پیدا کردن local minima نیست.
ولی امسال #NeurIPS22 اومده یه طرح جایگزین بجاش داده و ارائه کرده.
از اهمیت این ایده بخوام بگم به این پست اشاره می‌کنم اونجا لیکان اومده بود گفته بود خفن‌ترین ایده هوش مصنوعی تا الان چی بوده کلی ادم خفن نظر داده بودند یه تعداد زیادی گفتند Gradient Descent. ایده گرادیان کاهش برای حل مساله خیلی وقت قبل از backpropagation مطرح بوده ولی چون روش محاسباتی کارآمدی براش نبوده شبکه عصبی عرض اندام نمی‌کرده. بخاطر همین backpropagation ستون فقرات یادگیری عمیقه. اینکه میگن ستون فقرات یعنی اگه نبود ما هیچ شبکه عصبی‌ای چه عمیق و چه غیر عمیق رو نمی‌تونستیم آموزش بدیم.
Dev Tweet
خالق backpropagation میگه دیگه انتشار عقبرو به درد نمی‌خوره. این رو خیلی قبل پیش تو یه مصاحبه گفته. همونجا میگه اون موقعی که اختراع‌ش کردم خیلی باهاش حال نکردم می دونستم بهترین ایده برای پیدا کردن local minima نیست. ولی امسال #NeurIPS22 اومده یه طرح جایگزین…
بطور خلاصه ایده‌ش اینه که یک مسیر رفت و یک مسیر برگشت propagation رو با دو مسیر رفت(رو به جلو) عوض کنه. پایه‌‌ی ایده‌ش هم اینه که میگه اون موقع فکر می‌کردیم مغز داره با backpropagation یاد می‌گیره و الان فک می‌کنم اینطوری نیست.
این فقط یه تئوری نبوده بلکه رفته مقاله Feed-Forward رو روی MNIST پیاده‌سازی کرده و نتیجه قابل توجه در سطح backpropagation گرفته.
واسه اینکه بیشتر بخونید ازش اینم بد نیست.
https://twitter.com/ylecun/status/1605450677806895104?s=20&t=32v_26cJcTvcx6Gv_HsaMQ
هر موقع از اینکه ارشد یا دکتری توی هوش مصنوعی/علوم کامپیوتر ندارید/نمی‌خونید، نا امید شدید این توئیت رو بخونید:))
Dev Tweet
https://twitter.com/ylecun/status/1605450677806895104?s=20&t=32v_26cJcTvcx6Gv_HsaMQ هر موقع از اینکه ارشد یا دکتری توی هوش مصنوعی/علوم کامپیوتر ندارید/نمی‌خونید، نا امید شدید این توئیت رو بخونید:))
طرف با لیسانس از دانشگاه نیویورک نویسنده اصلی DALL-E شده.
از لیکان پرسیدن این بنده خدا تئوری‌ش ضعیف نیست؟
گفته برو مقالات‌ش رو بخون ببین ضعف پیدا می‌کنی:)) تو لیسانس ریاضی و علوم کامپیوتر رو دو رشته‌ای کرده:)) اونم توی NYU که تو ریاضی تو آمریکا اوله!

انصافا طرف خیلی خفنه نمیشه تعمیم داد:)
یه چیزی امروز بهش برخوردم گفتم شاید بد نباشه به شما هم بگم.
خیلی احتمالا شنیدید که از گیت‌هاب هر چیزی رو نگیرید نصب کنید، چون ممکنه یکی یه کد malicious زده باشه داخل کدهاش.
من چند روز پیش وقتی می خواستم یه اسکریپتی روی وی‌پی‌اس‌م نصب کنم به عینه به این مساله برخوردم!
https://github.com/scvps/noscriptvps

این ریپو رو ببنید. کلی کد bash داره ولی خیلی عادی به نظر می‌رسه.
اما وقتی نصب کردم دیدم هیچ اتفاق خاصی نیفتاد! (حالا شاید شما نصب کنید و پیگیرش بشید و براتون اون سرویسها رو نصب کنه اما مساله‌ام اینجا نیست!)
رفتم فایل setup.sh رو بخونم ببینم چه خبره دیدم فایل باینریه! یعنی کد shell نیست. حالا شاید بیاید بگید ممکنه از این ابزارهایی استفاده کرده باشه که کد shell رو به باینری تبدیل می‌کنند ولی می‌پرسم چرا باید چنین کاری کنه؟! 🤔 خیلی مشکوکه 🤨!
به طور خاص به این اسکریپت و برنامه نویس‌ش اتهام نمی‌زنم ولی دقت کنید که من این اسکریپت رو با دستور root اجرا کردم! حتی اگر این اسکریپت به طور خاص خرابکارانه نباشه کاملا احتمالش معقوله که یه عده برن یه چنین اسکریپتی بنویسن و یه عده کد اسکریپت رو اجرا کنند و یه دسترسی تپل از وی پی اس‌شون بدن به برنامه‌نویس!
من درخواست reinstall os وی پی اس رو دادم.
ولی این روزا کلی از این اسکریپت‌ها افتاده تو دست و بال کامیونیتی تک ایران واسه دور زدن فیلترینگ با وی‌پی‌اس‌های شخصی. آدم‌های سوء استفاده‌چی هم کلی هست. حواستون باشه نکات امنیتی رو بیشتر رعایت کنید.

ویدئو رو ببنید یک Code generation ساده است که احتمالا خودتون خیلی با ChatGPT تجربه کردید و بگید این که چیز خاصی نیست ولی باید خدمتتون عرض کنم این کد رو داره مدلی تولید میکنه که روی لپ تاپ شخصی قابل اجراست!
یه خبر مهم امروز دنیا یادگیری عمیق این مدل کد لاما CodeLlama شرکت متا(فیس بوک) بود.
برای تسک کد اومده مدل Llama 2 رو fine-tune کرده.
تصویر رو ببنید توی سه تا معیار ارزیابی با فقط 34 میلیارد پارامتر در جایگاهی بهتر از ChatGPT 3.5 و پائین‌تر از ChatGPT4 قرار گرفته که اولی 175 میلیارد پارامتر داره دومی 1.7 تریلیون پارامتر!
لاما Llama یک و دو دو مجموعه مدل زبانی متن باز شرکت متا هستند که لایسنس خیلی آسان‌گیری نسبت به استفاده تجاری دارند و ممکنه به زودی برای سرویس‌های غیر متن‌باز چالش جدی درست کنه.

البته باید دقت کنید که در جدول مقایسه تعداد پارامترهای ChatGPT 3,4 رو نزده چون اطلاعات شفافی در مورد مدلی که پشت سرورهای فعلی OpenAI ران میشه وجود نداره.

یک نکته جالب دیگه اینکه طول کانکس(Context Length) این مدل 100 هزار تا توکنه! یه چیزی در حدود شش هزار خط کد پایتون!
👍1