Dev Tweet – Telegram
Dev Tweet
850 subscribers
113 photos
15 videos
3 files
98 links
گعده‌ای در باب برنامه نویسی، پایتون، هوش مصنوعی و داده
Download Telegram
سوال نخ‌نمای مصاحبه‌های پایتون!
فرق آبجکت mutable با immutable چیست؟
یادتون باشه تایپ‌های معمولی که انسان برای انتقال مفاهیم استفاده‌ می‌کنه یعنی int و float و string بعلاوه tuple‌ها اینها همگی immutable هستند بصورت خیلی ساده یعنی متدی روی این objectهای call نمی‌شه که شکل‌شون رو عوض کنه.(جلوتر می‌فهمید)

بقیه‌ی انواع تایپ داده‌ها mutable هستند این‌ها رو انسان برای انتقال مفاهیم استفاده نمی‌کنه مثل dict , list و set. یعنی موقع حرف زدن که ساختار دیکشنری و مجموعه و لیست که نمی‌سازیم موقع حرف زدن با عدد یعنی float , int و کلمات یعنی string حرف می‌زنیم.

در اصطلاح به int, float, string, bool می‌گن primitive type یعنی تایپ‌های اولیه.
پس یادتون باشد primitive type + tuple میشه immutable.

اما اینکه dict, list, set میگن mutable هستند یعنی چی؟ یعنی تغییرپذیرند. یعنی اینکه یک لیست اگر عضوی هم بهش اضافه کنیم بازم همون object هست آن شی قبلی حذف نمیشه یه شی دیگه به جاش تولید بشه به زبان پایتونی id آن object ثابت می‌مونه.
https://twitter.com/ylecun/status/1545210275237953537

اتحادیه اروپا داره قانونی تصویب می‌کنه/ یا کرده:
۱. سیستم‌های همیار راننده که همگی مبتنی بر دیپ لرنینگ هستند اجباری می‌شود. مانند سیستم ترمز اتوماتیک AEBS
(۲. این سیستم‌های باید قابل توضیح باشند.)

لیکان نقد می‌کنه میگه:
از نظر من لزومی نداره وقتی تنها سیستم‌های وجود بازار Expainable نیستن بیاد شرط explainbality بذاره!
میگه وقتی بازار دست MobilEye اینتله که سیستمش Expainable نیست چرا باید چنین شرطی باشه بر اساس تست پذیری گواهی بدید!

بحثای زیر این توئيت رو بخونید خیلی جالبه
2201.00650.pdf
15.1 MB
کتاب سوالات مصاحبه‌ی دیپ لرنینگ
صدها سوال به همراه پاسخ‌نامه

به درد یه زمانی می‌خوره که آدم می‌خواد بره مصاحبه یه دو هفته قبلش دوپینگ کنه
طرح جلد کتاب مصاحبه‌های یادگیری عمیق
ببنید چقدر ترنسفورمرها مهم هستند که standford اومده یا کورس مستقل براش گذاشته
هر بخش‌ش رو یه نفر ارائه از نیروهای فنی بهترین شرکت‌های هوش‌ مصنوعی
از کسانی که خودشون جز افراد اصلی بودند که به پیشبرد معماری ترنسفورمرها کمک کردند.

https://web.stanford.edu/class/cs25/index.html

Introduction to Transformers
Transformers in Language: GPT-3, Codex
Applications in Vision
Transformers in RL & Universal
Scaling transformers
Perceiver: Arbitrary IO with transformers
Self Attention & Non-Parametric Transformers
GLOM: Representing part-whole hierarchies in a neural network
Interpretability with transformers
Transformers for Applications in Audio, Speech and Music: From Language
https://twitter.com/rasbt/status/1572616437977546754
کلا همیشه در مورد اینکه روش‌های tree boosting روی داده جدولی بهتر جواب میده بحث بوده این مقاله اومده روی 40 تا دیتاست از 400 تا داده تا 40k داده رو بررسی کرده.
حالا اینش مهم نیست یه چیز جالبی داره از اون کلی چیز میشه یاد گرفت ۱۳ تا روش regularization روی اومده بررسی کرده که من حتی اسم چندتاش رو نشنیده بودم.
Implicit:
(1) BatchNorm (https://arxiv.org/abs/1502.03167)
(2) stochastic weight averaging (https://arxiv.org/abs/1803.05407)
(3) Look-ahead optimizer (https://arxiv.org/abs/1907.08610)
(4) Weight decay (https://bbabenko.github.io/weight-decay/)

Ensembling techniques:
(5) Dropout (https://arxiv.org/abs/1207.0580)
(6) Snapshot ensembles (https://arxiv.org/abs/1704.00109)

Structural regularization and linearization:
(7) Skip connections (https://arxiv.org/abs/1512.03385)
(8) Shake-Drop (https://arxiv.org/abs/1802.02375)
(9) Shake-Shake (https://arxiv.org/abs/1705.07485)

Augmentation:
(10) Mix-Up (https://arxiv.org/abs/1710.09412)
(11) Cut-Mix (https://arxiv.org/abs/1905.04899)
(12) Cut-Out (https://arxiv.org/abs/1708.04552)
(13) FGSM adversarial learning (https://arxiv.org/abs/1412.6572)

بهتر از همه چی کدشه که تو گیت‌هاب گذاشته 🔥
https://github.com/releaunifreiburg/WellTunedSimpleNets

به نظرم چیزی که تو کدش باید جالب باشه اینه که چطوری این ۱۳ تا روش regularization رو توی parameter searchش میاره
Forwarded from David S
I'm David - currently a senior at Stanford studying CS / ML. I'm spending my free time building projects with LLMs and writing about them. Would love to chat and trade ideas. Currently prototyping some tools to make monitoring / productionizing LLM/ML models easier
David S
Yes for sure, here's the link for the group: https://news.1rj.ru/str/+NkSoONxchxUwNjYx
این گروه برای این فارغ التحصیل standford که روی LLM های کار می کنه لینکش رو گذاشته بود توئیتر
تقریبا یک گروه تلگرامی دیپ لرنینگ بین المللیه میشه احتمالا.
البته هنوز فعالیت خاصی نکرده
خالق backpropagation میگه دیگه انتشار عقبرو به درد نمی‌خوره.
این رو خیلی قبل پیش تو یه مصاحبه گفته. همونجا میگه اون موقعی که اختراع‌ش کردم خیلی باهاش حال نکردم می دونستم بهترین ایده برای پیدا کردن local minima نیست.
ولی امسال #NeurIPS22 اومده یه طرح جایگزین بجاش داده و ارائه کرده.
از اهمیت این ایده بخوام بگم به این پست اشاره می‌کنم اونجا لیکان اومده بود گفته بود خفن‌ترین ایده هوش مصنوعی تا الان چی بوده کلی ادم خفن نظر داده بودند یه تعداد زیادی گفتند Gradient Descent. ایده گرادیان کاهش برای حل مساله خیلی وقت قبل از backpropagation مطرح بوده ولی چون روش محاسباتی کارآمدی براش نبوده شبکه عصبی عرض اندام نمی‌کرده. بخاطر همین backpropagation ستون فقرات یادگیری عمیقه. اینکه میگن ستون فقرات یعنی اگه نبود ما هیچ شبکه عصبی‌ای چه عمیق و چه غیر عمیق رو نمی‌تونستیم آموزش بدیم.
Dev Tweet
خالق backpropagation میگه دیگه انتشار عقبرو به درد نمی‌خوره. این رو خیلی قبل پیش تو یه مصاحبه گفته. همونجا میگه اون موقعی که اختراع‌ش کردم خیلی باهاش حال نکردم می دونستم بهترین ایده برای پیدا کردن local minima نیست. ولی امسال #NeurIPS22 اومده یه طرح جایگزین…
بطور خلاصه ایده‌ش اینه که یک مسیر رفت و یک مسیر برگشت propagation رو با دو مسیر رفت(رو به جلو) عوض کنه. پایه‌‌ی ایده‌ش هم اینه که میگه اون موقع فکر می‌کردیم مغز داره با backpropagation یاد می‌گیره و الان فک می‌کنم اینطوری نیست.
این فقط یه تئوری نبوده بلکه رفته مقاله Feed-Forward رو روی MNIST پیاده‌سازی کرده و نتیجه قابل توجه در سطح backpropagation گرفته.
واسه اینکه بیشتر بخونید ازش اینم بد نیست.
https://twitter.com/ylecun/status/1605450677806895104?s=20&t=32v_26cJcTvcx6Gv_HsaMQ
هر موقع از اینکه ارشد یا دکتری توی هوش مصنوعی/علوم کامپیوتر ندارید/نمی‌خونید، نا امید شدید این توئیت رو بخونید:))
Dev Tweet
https://twitter.com/ylecun/status/1605450677806895104?s=20&t=32v_26cJcTvcx6Gv_HsaMQ هر موقع از اینکه ارشد یا دکتری توی هوش مصنوعی/علوم کامپیوتر ندارید/نمی‌خونید، نا امید شدید این توئیت رو بخونید:))
طرف با لیسانس از دانشگاه نیویورک نویسنده اصلی DALL-E شده.
از لیکان پرسیدن این بنده خدا تئوری‌ش ضعیف نیست؟
گفته برو مقالات‌ش رو بخون ببین ضعف پیدا می‌کنی:)) تو لیسانس ریاضی و علوم کامپیوتر رو دو رشته‌ای کرده:)) اونم توی NYU که تو ریاضی تو آمریکا اوله!

انصافا طرف خیلی خفنه نمیشه تعمیم داد:)
یه چیزی امروز بهش برخوردم گفتم شاید بد نباشه به شما هم بگم.
خیلی احتمالا شنیدید که از گیت‌هاب هر چیزی رو نگیرید نصب کنید، چون ممکنه یکی یه کد malicious زده باشه داخل کدهاش.
من چند روز پیش وقتی می خواستم یه اسکریپتی روی وی‌پی‌اس‌م نصب کنم به عینه به این مساله برخوردم!
https://github.com/scvps/noscriptvps

این ریپو رو ببنید. کلی کد bash داره ولی خیلی عادی به نظر می‌رسه.
اما وقتی نصب کردم دیدم هیچ اتفاق خاصی نیفتاد! (حالا شاید شما نصب کنید و پیگیرش بشید و براتون اون سرویسها رو نصب کنه اما مساله‌ام اینجا نیست!)
رفتم فایل setup.sh رو بخونم ببینم چه خبره دیدم فایل باینریه! یعنی کد shell نیست. حالا شاید بیاید بگید ممکنه از این ابزارهایی استفاده کرده باشه که کد shell رو به باینری تبدیل می‌کنند ولی می‌پرسم چرا باید چنین کاری کنه؟! 🤔 خیلی مشکوکه 🤨!
به طور خاص به این اسکریپت و برنامه نویس‌ش اتهام نمی‌زنم ولی دقت کنید که من این اسکریپت رو با دستور root اجرا کردم! حتی اگر این اسکریپت به طور خاص خرابکارانه نباشه کاملا احتمالش معقوله که یه عده برن یه چنین اسکریپتی بنویسن و یه عده کد اسکریپت رو اجرا کنند و یه دسترسی تپل از وی پی اس‌شون بدن به برنامه‌نویس!
من درخواست reinstall os وی پی اس رو دادم.
ولی این روزا کلی از این اسکریپت‌ها افتاده تو دست و بال کامیونیتی تک ایران واسه دور زدن فیلترینگ با وی‌پی‌اس‌های شخصی. آدم‌های سوء استفاده‌چی هم کلی هست. حواستون باشه نکات امنیتی رو بیشتر رعایت کنید.

ویدئو رو ببنید یک Code generation ساده است که احتمالا خودتون خیلی با ChatGPT تجربه کردید و بگید این که چیز خاصی نیست ولی باید خدمتتون عرض کنم این کد رو داره مدلی تولید میکنه که روی لپ تاپ شخصی قابل اجراست!
یه خبر مهم امروز دنیا یادگیری عمیق این مدل کد لاما CodeLlama شرکت متا(فیس بوک) بود.
برای تسک کد اومده مدل Llama 2 رو fine-tune کرده.
تصویر رو ببنید توی سه تا معیار ارزیابی با فقط 34 میلیارد پارامتر در جایگاهی بهتر از ChatGPT 3.5 و پائین‌تر از ChatGPT4 قرار گرفته که اولی 175 میلیارد پارامتر داره دومی 1.7 تریلیون پارامتر!
لاما Llama یک و دو دو مجموعه مدل زبانی متن باز شرکت متا هستند که لایسنس خیلی آسان‌گیری نسبت به استفاده تجاری دارند و ممکنه به زودی برای سرویس‌های غیر متن‌باز چالش جدی درست کنه.

البته باید دقت کنید که در جدول مقایسه تعداد پارامترهای ChatGPT 3,4 رو نزده چون اطلاعات شفافی در مورد مدلی که پشت سرورهای فعلی OpenAI ران میشه وجود نداره.

یک نکته جالب دیگه اینکه طول کانکس(Context Length) این مدل 100 هزار تا توکنه! یه چیزی در حدود شش هزار خط کد پایتون!
👍1

در مطلب قبل در مورد قابلیت اجرا شدن مدل‌های اپن سورس Llama 1 , 2 بر روی لپ‌تاپ نوشتم. وقتی در مورد اجرا شدن مدل روی سیستم شخصی مثل لپ تاپ صحبت می‌کنیم باید دقت کنیم منظور آموزشه یا استنتاج! قطعا وقتی در مورد اجرا LLM ها روی لپ‌تاپ که ترند مهم این روزهای دنیا هوش مصنوعی هستند صحبت می‌کنم منظور استنتاج مدله نه آموزش! استنتاج یعنی اینکه به یک مدل آموزش دیده ورودی بدی و خروجی بگیری.
سر همین قضیه توجه به پردازند‌های سری جدید اپل یعنی M2 که سال گذشته عرضه کرد خیلی زیاد شده. مثلا Llama با 65 میلیارد پارامتر بر روی این دو سری پردازنده‌ی اپل اجرا میشه:
- M2 Max (~$2.6k w/ 64 GB RAM) for 5 tokens/s
- M2 Ultra (~$5k w/ 64 GB RAM) for 10 tokens/s

پردازنده‌ی M2 Max با قیمت 2600 دلار با رم 64 گیگ می‌تونه با سرعت 5 تا کلمه در ثانیه و پردازنده‌ی M2 Ultra با قیمت 5000 دلار با رم 64 گیگ با سرعت 10 کلمه در ثانیه جواب بده.
حالا چرا اپل پردازنده‌ش سر این موضوع جذابیت پیدا کرده؟ هزینه‌ی اجرای همین مدل‌ها را با قیمت‌های پردازنده‌های گرافیکی Nvidia مقایسه کنید:

- Professional RTX A6000 (~$4.6k w/ 48 GB RAM) 6 token/s
- RTX 6000 Ada (~$6.8k w/ 48 GB RAM) 12 token/s

پردازنده‌ی گرافیکی RTX A6000 برای خروجی نزدیک به M2 Max حدود 2000 دلار گرونتره و RTX 6000 Ada برای خروجی نزدیک به M2 Ultra حدود 1800 دلار گرون‌تره.

حالا اگر بخواهید مدل 175 میلیاردی chatGPT3.5 رو که 110 گیگ حافظه لازم داره روی لپ‌تاپ اجرا کنید از سری پردازنده‌های Nvidia باید برید A100 که 2*80 گیگ حافظه داره رو بگیرید که 20000 دلار قیمتشه ولی می تونید M2 Ultra با 192 گیگ رمش رو بخرید که 6600 دلاره.

پ.ن:
حالا توکن(کلمه) بر ثانیه چیه؟
دید وقتی chatGPT جواب میده در خروجی‌ش جواب رو یک دفعه‌ای نمیده بلکه چند کلمه چند کلمه خروجی میده این بخاطر مدل خروجی دادن ترنسفورمرها است. حتی یه نکته بامزه اینکه اگر در براتون پیش اومده باشه اگر جوابی بده که شامل محتوای NSFW هست یک دفعه وسط نوشتن کل جوابش رو پاک می‌کنه و عذرخواهی می‌کنه که نمی‌تونه جواب بده. این بخاطره اینکه یک بار جواب رو بافر نمی‌کنه بعد برای محتوای مناسب پردازش‌ش کنه بلکه جوابی که از مدل رو میگیره به کلاینت می‌فرسته بصورت استریم خروجی رو از لحاظ NSFW بودن بررسی میکنه.

منبع توئیت:
https://twitter.com/convequity/status/1668879950940901376
👍1
Live stream started
دیگه دکه‌های چای‌ فروشی هند هم میدونن GPT چیه!
اگر فکر می‌کنید GPT مخفف Generative Pre-trained Transformer است سخت اشتباه می‌کنید، مخفف عبارت Genuinely Pure Tea است:)) (چای واقعا خالص)