Dev Tweet – Telegram
Dev Tweet
850 subscribers
113 photos
15 videos
3 files
98 links
گعده‌ای در باب برنامه نویسی، پایتون، هوش مصنوعی و داده
Download Telegram
Channel name was changed to «Dev Tweet»
Channel photo updated
بسم الله الرحمن الرحیم
در اینجا آنچه را که در باب هر چیزی که در موضوع علوم کامپیوتر و برنامه نویسی و پایتون و علم داده و هوش مصنوعی، جالب، دیدنی و شنیدنی یافتیم با شما به اشتراک می‌گذاریم.

Transformers:


اگر می خواهید معماری Transformerها در شبکه‌های عصبی عمیق رو یاد بگیرید دو تا مسیر دارید:
الف){مسیر طولانی} شروع کنید از RNN ها برید سراغ GRU بعد برید سراغ LSTM بعد با مشکلات و محدودیت‌های LSTM آشنا می‌شید. نویسنده‌های مقاله‌ی GRU می‌آید اولین پایه‌ی ایده‌ی Attention رو مطرح می‌کند. یکی دو سالی انواع مختلف مکانیزم‌های Attention مطرح می‌شده با انواع توابع similarity مختلف بعد یک دفعه سال ۲۰۱۷ مقاله‌ی Attention is all you need از گوگل مطرح‌ میشه و یک نوع خاصی از مکانیزم توجه رو مطرح می‌کنه به اسم Multi-head self attention. یادگیری Transformer از این مسیر واقعه مناسب کار پژوهشیه. کسی می‌خواهد صرفا با این معماری آشنا باشه این مسیر اصلا efficient نیست اگر چه دانش‌ش واقعا عمیق میشه.
تازه وقتی بخو‌اهید خیلی عمیق بشوید می‌بینید که این ایده از یه جائی دیگه هم مطرح شده اون هم بحث Neural Turing Machine و تاپیک عمومی‌تر Memory-augumented Machines که واقعا ایده‌های جذابیه. شاید بعدا در موردشون نوشتم.
یک بلاگ معروفی که این مسیر رو رفته یعنی از RNN شروع کرده رسیده به Transformer. نویسنده این بلاگ یک بلاگر خیلی خفن از OpenAI هست که در زمینه‌های دیگه مثل Self-supervised Learning هم به بهترین شکل آموزش داده.

ب){مسیر کوتاه} مستقیم از خود Transformer شروع کنید به یاد گرفتن و هر مفهومی رو هر جايی با آن مواجه می شود یاد بگیرید. مثلا وقتی از Transformer شروع کنید همانجا با مفهوم word-embeding آشنا می‌شود جلوتر با self-attention در ادامه با cross-attention و ... .
برای این منظور من چهار ویدئو زیر رو توصیه می‌کنم که سه ویدئو اول به بهترین شکل معماری Transformer رو ویژوالایز کردند و چهارمی لکچر دانشگاه نیویورک از آلفردو کازیانی است که از یک نگاه متفاوت با بیان ساده از روابط جبری شروع به توضیح Attention و Transformer می‌کنه.
قسمت اول: positional encoding
توضیحی که در مورد positional encoding آورده هیچ جا نمی‌بینید. خیلی قشنگ فلسفه‌ی طراحی رابطه‌ی positional encoding رو توجیه می‌کنه.
قسمت دوم: self/mult-head attention
قسمت سوم: دیکور ترنسفورمر و masked attention
جلسه ۱۰ تدریس آلفردو کازیانی- دانشگاه نیویورک

#transformer
#attention

https://news.1rj.ru/str/tweetdev
Dev Tweet
ㅤ Transformers: اگر می خواهید معماری Transformerها در شبکه‌های عصبی عمیق رو یاد بگیرید دو تا مسیر دارید: الف){مسیر طولانی} شروع کنید از RNN ها برید سراغ GRU بعد برید سراغ LSTM بعد با مشکلات و محدودیت‌های LSTM آشنا می‌شید. نویسنده‌های مقاله‌ی GRU می‌آید اولین…

هر آموزشی از Deep Learning دیدید بیاید در کنارش لکچر همون مبحث رو از آلفردو کازیانی ببنید. ایشون ایتالیائي و استاد دانشگاه نیویورک که یک کورس مشترکی با یان لیکان ارائه می‌کنه. نگاه خاصی به معماری‌های دیپ لرنینگ داره که احتمالا از مدل‌های Energy-Based Model یان لیکان گرفته. اگر با موضوع Transformerها کاملا آشنا هستید باز هم دقیقه 48 به بعد این ویدئو رو ببنید که میگه اصلا Transformerها معماری Decode-Encoder نیستند بلکه معماری Decoder-Predictor-Encoder هستند برای فهم این موضوع باید ۱۰ دقیقه از این ویدئو رو دید.
#tweet
https://twitter.com/iam_vee/status/1530591730961108994
نکاتی در مورد فایل فرمت های آرشیوی که وقتی به zip تغییرشون میدیم تعداد زیادی فایل رو در کنار هم package کردن
محدود به همین‌ها نیست
دولوپرهای اندروید و جاوا با چنین چیزی در مورد apk و jar آشنائی دارند.
امروز یه مقاله‌ای در نیچر چاپ شده در مورد اینکه یک کامپیوتر کوانتومی پردازشی رو که کامپیوترهای معمولی در 9000 هزار سال انجام دادم در 36 میکروثانیه انجام می‌ده!(به نقل از)

یه بحثی مطرح شد در مورد اینکه امنیت سیستم‌های رمزنگاری چی میشه؟ اگر کلیدهای رمزنگاری در کسری از ثانیه شکسته بشه چی میشه؟!
بیشترین خطر برای دارائي های مبتنی بر رمزنگاریه! بله یعنی رمز ارزها!

یه مقاله‌ای در مورد تاثیر الگوریتم‌های کوانتومی در امنیت شبکه‌ی بیت کوین دیدم یه سری نکات جالب داشت براتون می نویسم.
https://news.1rj.ru/str/tweetdev/18
Dev Tweet
امروز یه مقاله‌ای در نیچر چاپ شده در مورد اینکه یک کامپیوتر کوانتومی پردازشی رو که کامپیوترهای معمولی در 9000 هزار سال انجام دادم در 36 میکروثانیه انجام می‌ده!(به نقل از) یه بحثی مطرح شد در مورد اینکه امنیت سیستم‌های رمزنگاری چی میشه؟ اگر کلیدهای رمزنگاری…
1) مساله اصلی که امنیت رمز ارزها رو به خطر می اندازه چیه؟ الگوریتم امضا signing algorithm بلاکچین تراکنش‌هاست.
بلاکچین تراکنش‌های یعنی اون بلاکی که تعدادی زیادی تراکنش درش وجود دارد و با یک هش به خصوص از طریق proof of work امضا می‌شود.
این امضا با امضای انجام تراکنش فرق داره.
این امضای بلاک امضای miner است.
بحث ما اینجا در مورد امضای miner نیست در مورد امضای انجام دهنده‌ی تراکنشه.

2) مشکل دیگه کجاست؟ مشکل اصلی تهدید الگوریتم‌های حمله‌ی کوانتومی به رمزنگاری های عادی(رمزنگاریهای غیر از رمزنگاری post-quantum) بیش از پیش متوجه الگوریتم‌های نامتقارنه، یعنی همون الگوریتم‌های کلید خصوصی و کلید عمومی دارند.
الگوریتم امضای بیت کوین از همین رمزنگاریهای نامتقارنه.

3) همین الانش هم آدرس‌های بیت کوینی که قبل از 2010 ساخته شده اند و باهاش تراکنش کردند کلید خصوصی‌شون با الگوریتم‌های موجود و البته کامپیوترهای کوانتومی بزرگ در ریسکه!
این آدرس‌ها چقدر هستند؟ 4 میلیون آدرس بیت کوین.
چرا؟ چون با الگوریتم مناسب هش نشده بودند!الگوریتم‌های بعد از 2010 امن‌تر بودند.

4) یک تهدید در مورد استخراج کلید خصوصی امضاء وجود داره، یک تهدید بدتر در مورد تراکنش‌ها! این دومی خیلی خطرناک تره به اینا میگن transit attack به قبلی‌ها که کلید خصوصی رو در می‌آورد میگن storage attack


5) یه تیم سال 2022 در دانشگاه ساسکس روی تهدید پردازش کوانتومی برای بیت کوین کار کرده نتایجش جالبه:
این تحقیق برای حملات transit هست یعنی شامل کل تراکنش ها میشه.
همین الان با الگوریتم های موجود برای انکه بتونیم به سیتم رمزک نگاری موجود بیت‌کوین حمله transit کنیم به 1.9 میلیارد qubit نیاز داریم!!! این حمله به تراکنش 10 دقیقه طول می کشه، 317 میلیون qubit یک ساعت و 13 میلیون qubit یه روز طول می‌کشه.
تا جایی که می دونم کامپیوتر با بیشترین qubit رو تا الان ibm ساخته با 127 qubit!!!
پس با توان پردازشی تهدیدی از طرف پردازش کوانتومی متوجه رمز ارزها به طور بخصوص بیت کوین نیست و البته با الگوریتم‌های فعلی کوانتومی!
6) اما این به معنی امنیت بیت کوین نیست! چرا؟
چون با اینکه بیت کوین وقت داره یک برنامه مهاجرت به الگوریتم های post-quantum ای داشته باشه ولی چون همه چیز در این شبکه مبتنی بر اجماع هست و این تصمیم به سرعت اتفاق نمی افته وقتی کوانتوم تهدید جدی برای امنیت شبکه به حساب بیاد ممکنه دیگه برای اجماع دیر باشه.
تاثیر تورم آمریکا روی هوش مصنوعی

فدرال رزرو آمریکا به خاطر کنترل نرخ تورم نرخ بهره رو افزایش داده حالا سوال اینجاست که این چه تاثیری روی هوش مصنوعی میذاره؟!
جواب اینکه سرمایه‌گذاری‌ها میره به سمت پروژه‌های زود-بازده در عوض پروژه‌های طولانی مدت. یعنی پروژه‌های بلند پروازانه تعطیل میشه و این قطعا بده!

ولی با این وجود نرخ بهره انقدری کم هست که ارزشی که AI به دست میاد هنوز واسه سرمایه گذاری روی پروژه‌های بلند مدت بی‌ارزه.

منبع: هفته‌نامه deeplearning.ai متعلق به Andrew Ng
Elicit
Elicit
دستیار جستجو مقالات و دیتاست‌ها با کمک هوش مصنوعی.
آمدن مدل GPT-3 را با 175 میلیون مقاله آموزش دادن که جواب سوالات تحقیقاتی که می پرسید رو از مقالاتی که به اون سوال پرداختن پیدا کنه.
من خودم خیلی تست کردم. فوق العاده نیست ولی بدم نیست. حداقل به اندازه‌ی google scholar و semantic scholar خوبه.
دو تا مثالهایی که واقعا نتیجه معقولی داد.

یه تیم بین المللی که در زمینه‌ی reasoning کار می کنه توسعه‌اش داده.
بصورت دور کاری هم نیرو می گیره حتی نیروی Intern هم می گیره برید قسمت careerش رو ببینید:))
https://news.1rj.ru/str/tweetdev/23
در باب اهمیت گرادیان کاهشی Gradian Descent

این توئیت، سوال پرسیده که شکومند‌ترین/زیباترین ایده‌ی یادگیری ماشین رو چی میدونید؟
متخصص‌های خیلی خفن زیادی به این توئيت توجه کردند و به این سوال جواب دادند. یه سری از این‌ جوابا ایناست:
SVD, PCA, GAN, SVM, Manifold Learning,...
و بعضی جوابهای خاص دیگه.

اما این آقای کریس اولا که قبلا در گوگل برین و OpenAI بوده حرف جالبی میزنه میگه: گرادیان کاهشی. میگه گرادیان کاهشی در ML مثل تکامل در زیست شناسی زیباست بعد با مثال‌هایی توضیح میده این رو.

یان لیکان این توئيت رو مورد توجه قرار داده و میگه من از نیپس ۲۰۰۰ که ازم پرسیدم که مهمترین چیزی که در ML یاد گرفتیم چیه میگه از همون موقع جواب دادم گرادیان کاهشی.
دو متد و کی‌ورد کد خیلی جالب و کاربردی که معمولا خود من هم در کدها استفاده نمی‌کنم و اون رو پیاده می‌کنم
مخصوصا issubset
لینک
This media is not supported in your browser
VIEW IN TELEGRAM
یکی از اساسی‌ترین قضایای شگفت انگیز آمار قضیه حد مرکزیه!
این شکل به خوبی مفهوم این قضیه رو نشون میده!
اینجا عملا یه مثال از قضیه حد مرکزیه که مجموع تعدادی کافی توزیع دوجمله‌ای توزیع نرمال را تقریب می‌زنه.
منبع برای خوندن کامنت‌های توئیت
سوال نخ‌نمای مصاحبه‌های پایتون!
فرق آبجکت mutable با immutable چیست؟
یادتون باشه تایپ‌های معمولی که انسان برای انتقال مفاهیم استفاده‌ می‌کنه یعنی int و float و string بعلاوه tuple‌ها اینها همگی immutable هستند بصورت خیلی ساده یعنی متدی روی این objectهای call نمی‌شه که شکل‌شون رو عوض کنه.(جلوتر می‌فهمید)

بقیه‌ی انواع تایپ داده‌ها mutable هستند این‌ها رو انسان برای انتقال مفاهیم استفاده نمی‌کنه مثل dict , list و set. یعنی موقع حرف زدن که ساختار دیکشنری و مجموعه و لیست که نمی‌سازیم موقع حرف زدن با عدد یعنی float , int و کلمات یعنی string حرف می‌زنیم.

در اصطلاح به int, float, string, bool می‌گن primitive type یعنی تایپ‌های اولیه.
پس یادتون باشد primitive type + tuple میشه immutable.

اما اینکه dict, list, set میگن mutable هستند یعنی چی؟ یعنی تغییرپذیرند. یعنی اینکه یک لیست اگر عضوی هم بهش اضافه کنیم بازم همون object هست آن شی قبلی حذف نمیشه یه شی دیگه به جاش تولید بشه به زبان پایتونی id آن object ثابت می‌مونه.
https://twitter.com/ylecun/status/1545210275237953537

اتحادیه اروپا داره قانونی تصویب می‌کنه/ یا کرده:
۱. سیستم‌های همیار راننده که همگی مبتنی بر دیپ لرنینگ هستند اجباری می‌شود. مانند سیستم ترمز اتوماتیک AEBS
(۲. این سیستم‌های باید قابل توضیح باشند.)

لیکان نقد می‌کنه میگه:
از نظر من لزومی نداره وقتی تنها سیستم‌های وجود بازار Expainable نیستن بیاد شرط explainbality بذاره!
میگه وقتی بازار دست MobilEye اینتله که سیستمش Expainable نیست چرا باید چنین شرطی باشه بر اساس تست پذیری گواهی بدید!

بحثای زیر این توئيت رو بخونید خیلی جالبه
2201.00650.pdf
15.1 MB
کتاب سوالات مصاحبه‌ی دیپ لرنینگ
صدها سوال به همراه پاسخ‌نامه

به درد یه زمانی می‌خوره که آدم می‌خواد بره مصاحبه یه دو هفته قبلش دوپینگ کنه
طرح جلد کتاب مصاحبه‌های یادگیری عمیق
ببنید چقدر ترنسفورمرها مهم هستند که standford اومده یا کورس مستقل براش گذاشته
هر بخش‌ش رو یه نفر ارائه از نیروهای فنی بهترین شرکت‌های هوش‌ مصنوعی
از کسانی که خودشون جز افراد اصلی بودند که به پیشبرد معماری ترنسفورمرها کمک کردند.

https://web.stanford.edu/class/cs25/index.html

Introduction to Transformers
Transformers in Language: GPT-3, Codex
Applications in Vision
Transformers in RL & Universal
Scaling transformers
Perceiver: Arbitrary IO with transformers
Self Attention & Non-Parametric Transformers
GLOM: Representing part-whole hierarchies in a neural network
Interpretability with transformers
Transformers for Applications in Audio, Speech and Music: From Language