Singular Thinker – Telegram
Singular Thinker
948 subscribers
405 photos
17 videos
5 files
250 links
We talk about things that find them interesting.
توی این کانال از مطالبی که برامون جذاب باشه حرف
میزنیم، یا مطالب جذاب بقیه رو نشر می‌دیم.
Contact/راه ارتباطی:
@Singular_Thinker
Download Telegram
User-unfriendly introduction to "user-friendly introduction to PAC-Bayes bounds"
2/n

چیزی که باهاش متن قبلی رو تموم کردیم این بود که برای مدل یادگیری ماشینیمون میخوایم یه گارانتی(کران بالا) برای امید ریاضی خطا مدل مون در بیاریم و خیالمون رو راحت کنیم ولی شاید این نکته برای شما یه خورده عجیب به نظر برسه چون در عمل خیلی استفاده نمیشه. چرا؟ چون اثبات چنین کران بالایی در حالت کلی کار سختی به حساب میاد که با هم تو ادامه این متن میریم ببینیم که چرا این طوریه.

اما یه کاری که تو یادگیری ماشین در عمل به جای این کار میکنن اینه که شما میای و مجموعه دادگانت رو حداقل دو قسمت میکنی.
یه قسمتی رو برای آموزش یا همون بدست آوردن پارامترهای مدلت استفاده میکنی و از قسمت دیگه برای ارزیابی یا تست کردن مدل استفاده میکنی و این طوری عملا یه برآورد نااریبی از امیدریاضی خطات داری و طبیعتا دوباره طبق قانون اعداد بزرگ هر چی تعداد دادگان مجموعه تستت بیشتر باشه تخمین امیدریاضی ات دقیقتر میشه.

آآماا مشکل روش اول چیه که مجبور میشیم بریم سراغ این روش و عملا دیتاهای با ارزشمون رو تقسیم کنیم؟ چرا از همه اش برای آموزش استفاده نکنیم؟
نکته اینجاست که میشه به سادگی با در نظرگرفتن یه تابع دلخواه از مجموعه توابع چندجمله ای از درجه p که داشتیم
خیلی راحت بیایم و یه کران بالای خوشگل برای خطای بدست بیاریم و برای این کار کافیه که از Hoeffding Lemma و Chernoff's inequality استفاده کنیم.( برای اطلاعات بیشتر بخش ۱.۱.۲ این مقاله آموزشی که اسمشو رو عنوان متن هم گذاشتم ببینید.)

خب پس مشکل چیه؟ تو که میگی خیلی ساده است دو تا ناتساوی داری و تو کمتر از یه صفحه یه کران بالا در میاری، پس اسکل کردی مارو؟ د نه د. مشکل اینجاست که گفتم این کران بالای خطا برای پارامتری کار میکنه که از قبل فیکس شده باشه و به مجموعه دادگانت مرتبط نباشه. اگه پارامترهات خودش وابسته باشه به مشاهداتت دیگه شرط مستقل بودن متغییرهای تصادفی ای که براشون میای از این ناتساوی های تمرکزی استفاده میکین رو نقض میکنی. و سردردت ندم وقتی تو آمار و احتمال شنیدی متغییرهای تصادفی داری که بهم وابسته ان دستات رو بذار رو گوشات تا میتونی جیغ بزن و زیگزاگی راه برو حتی اگه نمیدی دونی چرا‌ :)))

پس حالا یعنی چه کنیم؟ برای اینکه بتونیم چیز معناداری برای خطای پارامترهای حاصل از ERM بدست میاد به جای در نظر گرفتن یه پارامتر خاص و بدست آوردن یه کران بالا برای اون باید بدبین باشیم و کران بالای خطا برای بدترین پارامتر تو مجموعه پارامترهامون رو پیدا کنیم و حالا مطمئنیم که خطای پارامتر ERM قطعا ازون کمتره.
ولی اینجاست که مشکل وارد میشه که این در حالت کلی کار آسونی نیست. میتونی تصور کنی که چند تا تابع چند جمله ای از درجه p داریم؟ بی نهایت تا.
حالا باید حساب کنیم کران بالا برای بدترین تابع چقدره؟ چطوری حساب کنیم؟ در حالت کلی ایده سر راستی نداریم.

يه راه اینه که اگر مجموعه توابعی که اون اول انتخاب کردیم محدود بود بیایم جمع بزنیم خطاهای تک تک اون تابع ها رو و بعد یه کران بالا در بیاریم.خب مشکلش چیه؟
نکته اینه که به کران بالات به صورت خطی با سایز مجموعه تابع هات مرتبطه و این یعنی باختی. چون که اگه سایز مجموعه تابع های ممکنت رو کوچیک بکنی درسته تو جمع خیلی چیزی رو از دست نمیدی ولی از اون طرف میشه حدس زد که خطای هر کدوم ازون ها در حالت کلی میتونه بزرگ باشه و از طرف دیگه اگه سایز مجموعه تابع هات رو بزرگ کنیی یه عدد خیلی بزرگ به خاطر جمع روی همه این توابع تو کران بالات داری که عملا کران بالات یه عدد خیلی بزرگ و غیرقابل استفاده میشه.

در زندگی عادی و به طور روزمره همین طور که اصن تو مثال قبلی هم دیدیم ما اصن تعداد توابعون غالبا نامحدوده و این فرض محدود بودن تخیلی محسوب میشه. پس باید یه فکری به حال این داستان بکنیم.

ازین جا به بعد دو تا راه داریم یا بر اینکه از الگوریتم ERM استفاده کنیم اصرار بکنیم و سختی درآوردن کران بالا در حالت نامحدود رو به جون بخریم یا رویکردمون رو عوض کنیم و بگیم حالا کی گفته ERM وحی منزله شاید چیز دیگه ای هم باشه که خوب باشه. راه اول راهی بود که Vapnik و Chervonenkis میرن و شروع میکن با اضافه کردن یه سری فرضیاتی (نامعقول) به مسئله فرض محدود بودن فضای پارامترها رو تخفیف میدن و اینجاست که VC-dim برای اندازه گیری میزان پیچیدگی فضای پارامترها متولد میشه. که بعدها تبدیل به Radamacher complexity میشه و ...
اما این قصه پیچیدگی های فنی داره که مشکل آفرینه. یعنی یا یه سری فرضیاتی داره که محقق شدنی نیست و اگه در حالت کلی هم داره چیزی میگه اون چیز اونقدر پیچیده و انتزاعیه که در عمل نمیشه حسابش کرد.

#note #learning_theory
@SingularThinker
👍3
User-unfriendly introduction to "user-friendly introduction to PAC-Bayes bounds"
3/3

اما اون راه حل دوم چیه؟ اونجا جاییه که PAC-Bayes Bounds در سال 1997-8 متولد شدن. این کرانها با یه تغییر رویکرد اساسی نسبت به رویکرد ERM بوجود میان. یعنی شما به جای اینکه دنبال یه پارامتر خاصی بگردی و بعد کران بالای خطا برای طبقه بند با استفاده از اون پارامتر پیدا بکنی میگی چی میشه اگه من یه توزیع احتمالی روی مجموعه پارامترها داشته باشم و بیایم برای یه نمونه از اون توزیع کران خطا پیدا کنم. اینجاست که مشخص میشه چرا اسم Bayes رو میذارن رو این روش. دیگه از آمار فراوانی گرایانه خارج میشیم و وارد آمار بیزی میشیم. دیگه پارامترهای مدل قطعی یا deterministic نیستند و خودشون تصادفی هستند و دارن از یه تابع توزیعی میان که حالا خوبیش اینه که کنترلش دست ماست. و این طوریه که این باندها متولد میشن.

و اسپویلر آلرت⚠️:‌این کران های بالا در خیلی از موارد قابل محاسبه و قابل قبول هستند
👍2
Singular Thinker
نمیدونم موفق بودم که پیام اصلی کار رو بدون وارد شدن به جزئیات ارائه کنم یا نه ولی این طوری در نظر بگیرید که برای فهمیدن اینکه آیا داده شما ساختارمند هست یا نه و به طور بالقوه میتونه Generalization خوبی داشته باشه یا نه ایده آندره اس این بود که بیایم ببینیم…
میدونم توضیح دادن ریاضی با متن کار خیلی جالبی نیست ولی صرفا چون این PAC-Bayes boundsها به نظرم خیلی موضوع جالبی بود و یه دید باحالی به مسائل میداد خواستم یه تیزر طور برم و توصیه کنم که User-friendly introduction to PAC-Bayes bounds
از آقا Pierre Alquier رو بخونید و لذتشو ببرید. (حداقل فصل اولش رو)

یه مشکلی که من موقع تحصیل ارشدم داشتم این بود که کسایی که یادگیری ماشین تدریس میکردن مفاهیم نظری رو مسلط نبودن و بنابراین خوب هم تدریسش نمیکردن و اصن من نمیدونستم که این چیزا چین و برای همین کلی سوال داشتم که اصن نمیدونستم باید کجا دنبال جوابش بگردم.
تو شریف فک کنم کمی اوضاع بهتر باشه و یه سری درس تئوری تدریس بشه هنوز.
خلاصه هدف این بود که سر نخ کنجکاوی بدم و گرنه میدونم خیلی سخته دنبال کردن یه متن برای فهمیدن یه سری معادله.
👍2
Singular Thinker
Photo
بریم یکم میم ببینیم بشوره ببره :))
#meme
@SingularThinker
9
Please RT - Open PhD position in my group at the Donders Center for Neuroscience, Radboud University.

We're looking for a PhD candidate interested in developing theories of learning in neural networks.

Applications are open until October 20th.

Info: https://www.ru.nl/en/working-at/job-opportunities/phd-position-theory-of-learning-in-artificial-and-biologically-inspired-neural-networks

🔗 Alessandro Ingrosso (@ai_ngrosso)

#phd_position
@SingularThinker
👍71
Singular Thinker
Please RT - Open PhD position in my group at the Donders Center for Neuroscience, Radboud University. We're looking for a PhD candidate interested in developing theories of learning in neural networks. Applications are open until October 20th. Info: ht…
دیسلایک راجع به این پوزیشن خاصه که گذاشتم یا اعتراض به اینکه چرا پوزیشن میذارم؟🤔چون من نمیشناختم طرفو ولی دیدم توییت کرده ددلاینشم ۸ روز دیگه است گفتم بفرستم.
پ.ن: خلاصه اگه چیزی میدونید به ما هم بگید. من دوست دارم بازخورد بگیرم از شمایی که براتون مهمه و ری‌اکت میذارید. اگه خواستید لینک ناشناسم هست به هر حال.
9
Forwarded from a pessimistic researcher (Kc)
Internship in AI @ MPI
——————————————
🌍 Ready for a transformative summer in Germany? Apply NOW for the CaCTüS Internship! 🇩🇪🌞

CaCTüS (Computation & Cognition Tübingen Summer Internship) is a fully funded, 3-month research internship taking place in summer 2026, hosted by the Max Planck Institute for Biological Cybernetics, the Tübingen AI Center and us.

🌱 Why CaCTüS? You’ll dive into groundbreaking projects in hashtag#MachineLearning, hashtag#TheoreticalNeuroscience, hashtag#BehavioralExperiments, and hashtag#DataAnalysis, surrounded by experts in hashtag#Tübingen and hashtag#Stuttgart, Germany.

https://www.projects.tuebingen.mpg.de/
💅4
تا حالا به این فک کردید که الگوریتم Gradient Descent از کجا اومده؟

از یه طرف میشه که فک کرد که این الگوریتم محصول گسسته سازی gradient flow عه ولی ازین نگاه من خیلی intuition ای نمیگیرم(اگه شما ولی دید خاصی دارید بگید حتما بهم) ولی از یه طرف دیگه میشه اون رو یک حالت خاص از اصل steepest descent دونست.

یعنی چی؟ ‌یعنی وقتی که شما اگه در لحظه t هستی، مقدار متغییرت در لحظه t+1 رو طوری انتخاب می کنی که بیشترین میزان کاهش در تابع هدفت داشته باشی. این رو بهش میگیم اصل بیشترین کاهش. حالا اگه بیای بسط تیلور رو تا مرتبه اول برای تابع هدفت حول نقطه x_t بنویسی و بخوای طبق اصل بیشترین کاهش پیش بری باید یه قدم فیلی(با طول بینهایت) در راستای معکوس گرادیان ورداری که چنین چیزی مناسب نیست چون تقریب مرتبه اولت فقط در همسایگی نقطه x_t ات درست بوده.

پس حالا میای میگی که یه قید به مسئله اضافه میکنیم در عین این که میخوایم اصل بیشترین کاهش رو رعایت کنیم. و اون این قید هستش که در یک همسایگی از نقطه x_t باقی بمونم. حالا اینجا باید بیایم مفهوم همسایگی رو تعریف کنیم که منظورمون چیه؟
حالت پیش فرض چیه که همه بلدیم؟ بله، فاصله ی اقلیدسی. پس با فرض داشتن فضای اقلیدسی و اعمال اصل بیشترین کاهش می رسیم به الگوریتم gradient descent ولی همون طور که از متن برمیاد میتونیم فاصله ها و فضاهای دیگری رو در نظر بگیریم و به چیزای دیگه ای برسیم.

اینجاست که اسم natural gradient استفاده میشه. اگه به نظرتون این موارد جذابه حتما توصیه میکنم این بلاگ پست زیبا رو بخونید:
https://andrewcharlesjones.github.io/journal/natural-gradients.html#appendix

#note
@SingularThinker
🔥12👍3
نمی‌دونم هیچ وقت فک نکنم شده باشه که در مورد کانمن تو اینجا نوشته باشم اون موقع که فک کنم خیلی درگیرش بودم، تو این کانال فعال نبودم. یه تایمی تو ارشد من داشتم تزم رو در مسیر کارای این بزرگوار تعریف میکردم.

خلاصه که اگه نمیشناسیدش، برنده نوبل اقتصاد و از افراد برجسته در زمینه اقتصاد رفتاری و علم تصمیم‌گیری بود. این بنده خدا در مارچ ۲۰۲۴ می‌میره و اخیرا معلوم میشه که مرگش به صورت طبیعی نبوده و با خواست خودش و به کمک پزشکان در سوئیس در ۹۰ سالگی به عمر خودش پایان داده.

این قضیه خیلی جنجال برانگیز شده و عباس سیدین، یکی از جالب‌انگیزترین تولیدکنندگان محتوا از نظر من‌، تو قسمت آخر کانال یوتیوبش در مورد این ماجرا صحبت میکنه.
https://youtu.be/2HSwnOkiyt4?si=Fg4exl8XesCy02c8


@SingularThinker
5
Forwarded from l'utopie (Pourya Bahiraei)
آرش افراز یکی از جالب‌ترین آدم‌هاییه که من تو زندگیم شناختم. شاید با همون ویدیوی چندقیقه‌ای صحبتش درباره اراده آزاد که از BBC منتشر شد بشناسیدش.

خودش تو بخشی از معرفیش می‌نویسه:
[ از کودکی علاقۀ دوگانه‌ام به علوم تجربی و علوم انسانی مرا زیر فشار انتخاب گذاشت – انتخابی که همچنان آن را انکار می‌کنم. علوم تجربی را دوست داشتم چون دقیق و عینی (objective) بودند. علوم انسانی را دوست داشتم چون به تجربۀ انسانی مربوط بودند، که بنا به تعریف موضوعی ذهنی‌ست (subjective). از دانشکده پزشکی دانشگاه تهران دکترای طب گرفتم امّا طبابت خرسندم نکرد، که اگرچه راجع به عینیت انسان بود، در آن از ذهنیت خبری نبود. در نهایت علوم اعصاب‌ (neuroscience) را محل تقاطع علایقم یافتم: مغز موجودیتی عینی‌ست که ذهن می‌زاید، پس زندگی را بر سر فهمیدنش گذاشتم. در تمام این سالیان،‌ کشف و شهود علمی را نه ناقض، بل مکمل علایقم در تاریخ و ادبیات یافتم. برای من، تاریخ به ادبیات همان نسبتی را دارد که پزشکی به روانشناسی: اولی عینی‌ست و دومی ذهنی و یکی بدون دیگری قابل درک نیست...]

این رو از این جهت گفتم که به تازگی اولین رمانشون رو به اسم "مات پروانه" منتشر کردن که دریافتش برای ایرانیان داخل کشور رایگانه و می‌تونید از طریق سایت انتشارات نوگام دانلود کنید.

https://www.nogaam.com/book/2475/

حکایت «ماتِ پروانه» از زبان یک دانشجوی پزشکی روایت می‌شود که از مسألۀ مرگ آدمی دغدغه‌­ای وسواس‌­گونه­ دارد. او نسخۀ خطی کهنسالی را از عمویش هدیه می‌گیرد و در آن، رمز و راز آیینی را می‌­یابد که به «تسخیر موکل اسرار» راه می­‌برد – جادویی که به او اجازه می‌دهد گذارهایی از زندگی گذشتگان را تجربه کند. راوی که در پی سوال‌هایش در مورد معنای مرگ و زندگی، به معمای مرگ امیر معین‌الدین پروانه، وزیر نیرومند سلاجقهٔ روم و حامی نامدار مولانا جلال‌الدین رومی، علاقه‌مند شده، موکلِ اسرارِ پروانه را تسخیر می‌کند تا سر از کار او در بیاورد. از اینجا خط زمانی داستان دو شاخه می‌شود و وقایع زمان حال و گذشتۀ تسخیر شده، در دو لایۀ زمانی موازی به سوی پایان داستان حرکت می‌کنند.
2
Forwarded from ScienceWay
Maat-e-Parvaneh eBook.pdf
4.6 MB
فایل رمان دکتر آرش افراز،
مات پروانه
#neurobooks
@Sourceofneuroscience
2👍1