Mathematical Musings
این هم هست: 'y که می گفتیم y پریم در واقع prime بوده.
جالبه که همه تلفظا رو هم نزدیک به فرانسوی میگیم. نمیگیم پرایم میگیم پریم.
همین واسه عنتگرال و ... برقراره.
البته اونقدر تعجب نداره هم زبان دوم فرانسوی بوده تو ایران هم سیستم آموزشی رو از فرانسه الهام گرفته بودن. فک کنم از نظر تاریخ ریاضیاتم هنوز سیستم آمریکایی انقدر محبوب نبوده.
بعد ما سوال میکنیم چرا انقدر جوانان ما شیفته چپ بودن اون زمان😂😅
همین واسه عنتگرال و ... برقراره.
البته اونقدر تعجب نداره هم زبان دوم فرانسوی بوده تو ایران هم سیستم آموزشی رو از فرانسه الهام گرفته بودن. فک کنم از نظر تاریخ ریاضیاتم هنوز سیستم آمریکایی انقدر محبوب نبوده.
بعد ما سوال میکنیم چرا انقدر جوانان ما شیفته چپ بودن اون زمان😂😅
1👍8❤1
خب بلاخره پیپرمون رو گذاشتیم رو آرکایو و میتونم در موردش صحبت کنم😍
خیلی برام جالب و عجیبه این کاره و هنوز خیلی چیزا هست که نمیفهمیم ولی تا اینجا هر چیزی رو که تست کردیم جواب داده.
خیلی برام جالب و عجیبه این کاره و هنوز خیلی چیزا هست که نمیفهمیم ولی تا اینجا هر چیزی رو که تست کردیم جواب داده.
1❤13🔥4👍2
Singular Thinker
خب بلاخره پیپرمون رو گذاشتیم رو آرکایو و میتونم در موردش صحبت کنم😍 خیلی برام جالب و عجیبه این کاره و هنوز خیلی چیزا هست که نمیفهمیم ولی تا اینجا هر چیزی رو که تست کردیم جواب داده.
Thermodynamics Reveals the Generalization in the Interpolation Regime
1/n
🔗 Link of the paper: https://arxiv.org/abs/2510.06028
In the realm of overparameterized NNs, one can achieve almost zero training error on any data, even random labels, that yield massive test errors.
So, how can we tell when such a model truly generalizes? 🤔
In the figure above from the famous paper, the same model achieves nearly zero training error on both random and true labels. Therefore, the key to generalization must lie within the structure of the data itself.
https://arxiv.org/abs/1611.03530
#neural_networks
#learning_theory
1/n
🔗 Link of the paper: https://arxiv.org/abs/2510.06028
In the realm of overparameterized NNs, one can achieve almost zero training error on any data, even random labels, that yield massive test errors.
So, how can we tell when such a model truly generalizes? 🤔
In the figure above from the famous paper, the same model achieves nearly zero training error on both random and true labels. Therefore, the key to generalization must lie within the structure of the data itself.
https://arxiv.org/abs/1611.03530
#neural_networks
#learning_theory
1❤5
Singular Thinker
Thermodynamics Reveals the Generalization in the Interpolation Regime 1/n 🔗 Link of the paper: https://arxiv.org/abs/2510.06028 In the realm of overparameterized NNs, one can achieve almost zero training error on any data, even random labels, that yield…
Thermodynamics Reveals the Generalization in the Interpolation Regime
2/n
To probe this question, we turn to randomized predictors rather than deterministic ones.
Here, predictors are sampled from a prescribed probability distribution, allowing us to apply PAC-Bayesian theory to study their generalization properties.
This leads naturally to the Gibbs posterior, which assigns higher probabilities to hypotheses with smaller training errors (exponentially decaying with loss).
Then comes our first contribution:
✅ We derive high-probability, data-dependent bounds on the test error for hypotheses sampled from the Gibbs posterior (for the first time in the low-temperature regime β > n).
2/n
To probe this question, we turn to randomized predictors rather than deterministic ones.
Here, predictors are sampled from a prescribed probability distribution, allowing us to apply PAC-Bayesian theory to study their generalization properties.
This leads naturally to the Gibbs posterior, which assigns higher probabilities to hypotheses with smaller training errors (exponentially decaying with loss).
Then comes our first contribution:
✅ We derive high-probability, data-dependent bounds on the test error for hypotheses sampled from the Gibbs posterior (for the first time in the low-temperature regime β > n).
Singular Thinker
Thermodynamics Reveals the Generalization in the Interpolation Regime 2/n To probe this question, we turn to randomized predictors rather than deterministic ones. Here, predictors are sampled from a prescribed probability distribution, allowing us to apply…
Thermodynamics Reveals the Generalization in the Interpolation Regime
3/n
Sampling from the Gibbs posterior is, however, typically difficult.
We show that it can be effectively approximated via Langevin Monte Carlo (LMC) algorithms, such as Stochastic Gradient Langevin Dynamics (SGLD), and crucially,
📎 Our bounds remain stable under this approximation (in both total variation and W₂ distance).
3/n
Sampling from the Gibbs posterior is, however, typically difficult.
We show that it can be effectively approximated via Langevin Monte Carlo (LMC) algorithms, such as Stochastic Gradient Langevin Dynamics (SGLD), and crucially,
📎 Our bounds remain stable under this approximation (in both total variation and W₂ distance).
Singular Thinker
Thermodynamics Reveals the Generalization in the Interpolation Regime 3/n Sampling from the Gibbs posterior is, however, typically difficult. We show that it can be effectively approximated via Langevin Monte Carlo (LMC) algorithms, such as Stochastic Gradient…
Thermodynamics Reveals the Generalization in the Interpolation Regime
4/n
Empirical results on MNIST and CIFAR-10 show:
1) Non-trivial upper bounds on test error for both true and random labels
2) Meaningful distinction between structure-rich and structure-poor datasets
The figures: Binary classification with FCNNs using SGLD using 8k MNIST images for random (top) and true (bottom) labels.
4/n
Empirical results on MNIST and CIFAR-10 show:
1) Non-trivial upper bounds on test error for both true and random labels
2) Meaningful distinction between structure-rich and structure-poor datasets
The figures: Binary classification with FCNNs using SGLD using 8k MNIST images for random (top) and true (bottom) labels.
Singular Thinker
Thermodynamics Reveals the Generalization in the Interpolation Regime 4/n Empirical results on MNIST and CIFAR-10 show: 1) Non-trivial upper bounds on test error for both true and random labels 2) Meaningful distinction between structure-rich and structure…
Thermodynamics Reveals the Generalization in the Interpolation Regime
5/n
🙀 One surprising insight: Generalization in the under-regularized low-temperature regime (β > n) is already signaled by small training errors in the over-regularized high-temperature regime.
😱 A second, equally striking factor: by applying a single scalar calibration factor computed from the data, the resulting upper bounds become not only tighter for true labels but also better aligned with the test error curve.
If you’re curious about the intersection of statistical learning theory, sampling-based optimization, generalization in deep learning, and PAC-Bayesian analysis, check out our paper:
https://arxiv.org/abs/2510.06028
We’d love to hear your thoughts, feedback, or questions. If you spot interesting connections to your work, let’s chat! 🙌
5/n
🙀 One surprising insight: Generalization in the under-regularized low-temperature regime (β > n) is already signaled by small training errors in the over-regularized high-temperature regime.
😱 A second, equally striking factor: by applying a single scalar calibration factor computed from the data, the resulting upper bounds become not only tighter for true labels but also better aligned with the test error curve.
If you’re curious about the intersection of statistical learning theory, sampling-based optimization, generalization in deep learning, and PAC-Bayesian analysis, check out our paper:
https://arxiv.org/abs/2510.06028
We’d love to hear your thoughts, feedback, or questions. If you spot interesting connections to your work, let’s chat! 🙌
arXiv.org
Generalization of Gibbs and Langevin Monte Carlo Algorithms in the...
The paper provides data-dependent bounds on the test error of the Gibbs algorithm in the overparameterized interpolation regime, where low training errors are also obtained for impossible data,...
Singular Thinker
Thermodynamics Reveals the Generalization in the Interpolation Regime 4/n Empirical results on MNIST and CIFAR-10 show: 1) Non-trivial upper bounds on test error for both true and random labels 2) Meaningful distinction between structure-rich and structure…
نمیدونم موفق بودم که پیام اصلی کار رو بدون وارد شدن به جزئیات ارائه کنم یا نه ولی این طوری در نظر بگیرید که برای فهمیدن اینکه آیا داده شما ساختارمند هست یا نه و به طور بالقوه میتونه Generalization خوبی داشته باشه یا نه ایده آندره اس این بود که بیایم ببینیم رفتار اون مدل با مقادیر متفاوت رگولاریزیشن(نویز) چطوریه و بر اساس رفتار خطای داده ی آموزش با استفاده از PAC-Bayes Bound بتونیم یه حد بالا برای خطای داده ی تست بتونیم ارائه کنیم.
یعنی شما نگاه میکنی به خط مشکی ها تو این تصاویر و میبینی که با چه نرخی دارن کاهش پیدا میکنن و بر اساس اون میتونی یه حد بالا برای خطای داده تست پیدا بکنی.
این کار در ابتدا چیزی شبیه معجزه به نظر میرسه ولی نکته جالب اینه که گویا کار میکنه :)
قطعا نیازه که تا حد خوبی ریاضیات پشت شو بفهمید اگه بخوایم وارد بحث تکنیکالش بشیم که اصلا ریاضیات سختی نداره کلا فقط یکم آمار و احتمال احتیاجه (بدون نظریه اندازه) ولی ایده اصلی کار یه همچین چیزی بوده و بنظرم من جالبه که چرا همچین چیزی کار میکنه.
ولی اگه رفتید و خوندید و هر سوال یا ایده ای داشتید حتما به من بگید مخصوصا اگر ایده ای دارید که چطوری میتونیم این کشف تجربی در مورد Calibration factor رو دقیق ترش بکنیم و justify اش بکنیم. ما خودمون دو بار در هفته داریم فرضیه تولید میکنیم که شاید بخاطر اینه شاید بخاطر اونه شما هم اگه فرضیه ای داشتید بگید ما امتحان میکنیم خلاصه.
یعنی شما نگاه میکنی به خط مشکی ها تو این تصاویر و میبینی که با چه نرخی دارن کاهش پیدا میکنن و بر اساس اون میتونی یه حد بالا برای خطای داده تست پیدا بکنی.
این کار در ابتدا چیزی شبیه معجزه به نظر میرسه ولی نکته جالب اینه که گویا کار میکنه :)
قطعا نیازه که تا حد خوبی ریاضیات پشت شو بفهمید اگه بخوایم وارد بحث تکنیکالش بشیم که اصلا ریاضیات سختی نداره کلا فقط یکم آمار و احتمال احتیاجه (بدون نظریه اندازه) ولی ایده اصلی کار یه همچین چیزی بوده و بنظرم من جالبه که چرا همچین چیزی کار میکنه.
ولی اگه رفتید و خوندید و هر سوال یا ایده ای داشتید حتما به من بگید مخصوصا اگر ایده ای دارید که چطوری میتونیم این کشف تجربی در مورد Calibration factor رو دقیق ترش بکنیم و justify اش بکنیم. ما خودمون دو بار در هفته داریم فرضیه تولید میکنیم که شاید بخاطر اینه شاید بخاطر اونه شما هم اگه فرضیه ای داشتید بگید ما امتحان میکنیم خلاصه.
❤7👍2
Mathematical Musings
Robert Aumann
که اصلا دکتراش رو در زمینه نظریه گره ها گرفته. بعدا به خاطر کارهایی که در نظریه بازی ها انجام داد، نوبل اقتصاد گرفت.
و یکی دو نفر دیگه که اون ها هم عموما در زمینه نظریه بازی ها کار کردند.
که اصلا دکتراش رو در زمینه نظریه گره ها گرفته. بعدا به خاطر کارهایی که در نظریه بازی ها انجام داد، نوبل اقتصاد گرفت.
و یکی دو نفر دیگه که اون ها هم عموما در زمینه نظریه بازی ها کار کردند.
این بزرگوار خیلی آدم عجیبیه از نظر من. یادمه که من همین طوری خیلی اتفاقی از ویکی پدیا پیداش کردم وقتی داشتم در مورد فرض rationality و اینا تحقیق میکردم. بعد که زندگی نامه و ایناشو خوندم دیدم نه پسر واقعا آدم جالبیه یک یهودی مخلص 🙂
و الان فهمیدم برنده جایزه نوبل.
الان که رفتم دیدم پشمام چقدر یه زمانی تو نظریه بازی ها عمیق شده بودم.
این پست من بود که قبلا راجع بهش نوشته بودم:
https://news.1rj.ru/str/SingularThinker/31
و الان فهمیدم برنده جایزه نوبل.
الان که رفتم دیدم پشمام چقدر یه زمانی تو نظریه بازی ها عمیق شده بودم.
این پست من بود که قبلا راجع بهش نوشته بودم:
https://news.1rj.ru/str/SingularThinker/31
Telegram
Singular Thinker
آقای Robert Aumman که در تصویر مشاهده میکنید سال 1930 در خانوادهای یهودی در شهر فرانکفورت آلمان بدنیا اومد و در 8 سالگی دو هفته قبل از "شب بلورین" یا "شب شیشههای شکسته" (شروع حملهی نازیها به یهودیان) به آمریکا سفر میکند. دورهی لیسانس رو در رشتهی…
❤6
Google Gemini:
Free Pro Plan for Students.
Free for 1 year. Get unlimited chats, image uploads, and quiz generations with more access to our 2.5 Pro model, Deep Research, and Audio Overviews, plus 2 TB of storage. Just for Students. Offer ends 9 December 2025.
https://gemini.google/tw/students/#:~:text=Google%20Gemini%3A,plus%202%20TB%20of%20storage.
پ.ن: نمیدونم واسه دانشگاه های ایران هم کار میکنه یا نه.
@SingularThinker
Free Pro Plan for Students.
Free for 1 year. Get unlimited chats, image uploads, and quiz generations with more access to our 2.5 Pro model, Deep Research, and Audio Overviews, plus 2 TB of storage. Just for Students. Offer ends 9 December 2025.
https://gemini.google/tw/students/#:~:text=Google%20Gemini%3A,plus%202%20TB%20of%20storage.
پ.ن: نمیدونم واسه دانشگاه های ایران هم کار میکنه یا نه.
@SingularThinker
Gemini
Gemini - 深獲學生喜愛的 Google AI 學習好夥伴
從寫作業的好幫手,到製作影片的小助理,Gemini 在校園內外都是你的得力助手。訂閱 Google AI Pro 方案,即可享有更多 Gemini 功能,立即開始免費試用!
❤2
Singular Thinker
نمیدونم موفق بودم که پیام اصلی کار رو بدون وارد شدن به جزئیات ارائه کنم یا نه ولی این طوری در نظر بگیرید که برای فهمیدن اینکه آیا داده شما ساختارمند هست یا نه و به طور بالقوه میتونه Generalization خوبی داشته باشه یا نه ایده آندره اس این بود که بیایم ببینیم…
User-unfriendly introduction to "user-friendly introduction to PAC-Bayes bounds"
1/n
خب بحث رو ازینجا شروع کنیم که به طور سنتی وقتی شما n تا مشاهده/نمونه از n تا متغییر تصادفی مستقل و هم توزیع (iid) داری که توزیعشون رو نمیدونی علم آمار و احتمال یه سری ابزار در اختیارت قرار میده که یه چیزایی بتونی در مورد میانگین این n تا مشاهده و امید ریاضی اون متغییرهای تصادفی بگی.
اون چیزی که به طور معمول به اکثر ماها تو دانشگاه تدریس میکردن قانون اعداد بزرگ بوده که میگه آقا میانگین این n تا مشاهده(realization) از متغییرهای هم توزیع و مستقل به امیدریاضی اون متغییرهای تصادفی میل میکنه، البته با کمی تساهل.(اینجا دیگه وارد تفاوت نسخه قوی و ضعیفش نشدم و بعدشم شرط وجود امید ریاضی همیشه برقرار نیست.تو تصویر فرق نسخه ضعیف و قوی رو میبینید.)
جالبه که به قول امیررضا تو این کلیپ قانون اعداد بزرگ جایی از احتمالات هست که ما از دنیای انتزاعی که ساختیم بیرون میایم و میتونیم بریم آزمایش انجام بدیم اما یه بدی ای که قانون اعداد بزرگ داره اینه که مثل وعده بهشت دادن در آخرته، حالا اون دنیا رو کی دیده اصلا؟ اینجا هم همینه ماجرا.
اون حدی که روی n میگیریم و میلش میدیم به بی نهایت باعث میشه تحلیل ما مجانبی/حدی باشه. و هر وقت شما به بی نهایت رسیدی برای ما دست تکون بده یه بوقم بزن .
ولی حالا یه سری ابزارهای دیگه هم هست که میشه ازشون استفاده کرد و تحلیل غیرمجانبی/حدی ارائه کرد و بهشون میگن concentration inequalities یا ناتساوی های تمرکزی. در واقع به کمک این ناتساوی ها میشه انحراف میانگین از امیدریاضی رو به طور کمی برای هر تعداد متغییر تصادفی دلخواه اندازه گیری کنیم.(قبلا یه مقدار راجع به همین چیزا تو این پیام صحبت کردم و اینم لینک مقاله ای که دارم در موردش تو پیام صحبت میکنم.)
بگذریم خلاصه، این ناتساوی ها ابزار دست کسایی هستن که learning theory کار میکنن. شما معمولا هر جایی وارد بحث های نظری یادگیری ماشین میشی که میخوای یه کران بالا برای خطا اثبات کنی معمولا از این ابزار استفاده میکنی و حقیقتش اینه که استفاده ازش خیلی سخت نیست. مثلا فرض کن که شما میخوای یه مسئله طبقه بندی دوتایی رو حل بکنی و بهت n تا نمونه مستقل و هم توزیع به همراه طبقه مربوطه هر کدوم دادن و گفتن که بفرما و یه طبقه بند برای ما بساز که بتونه هر عکس جدیدی که از همون توزیع بیاد رو تا حد خوبی به صورت درست طبقه بندی کنه.
شما هم میای میگی خیلی خب من میام اول یه کلاسی از توابع رو در نظر میگیرم مثلا توابع چند جمله ای از درجه p و بعد یه جوری یه تابعی رو مدلسازی میکنم که عکس رو بگیره و طبقه اون عکس رو برگردونه و حالا باید اون ضرایب اون چندجمله ای و یا به اصطلاح پارامترهای مدل رو طوری پیدا کنم که خطا کمینه بشه. یعنی اینکه یه تابع خطا تعریف میکنم در راحت ترین حالت اگه طبقه بند پیشنهادی تابع من با طبقه اصلی اون عکسه یکی بود خطام صفره در غیر این صورت خطام یکه. بعد شما میگی خب میرم یه مسئله بهینه سازی حل میکنم که پارامترهای مدلم رو طوری پیدا کنم که میانگین خطام بر حسب n تا داده ای که دارم رو کمینه کنم.(به این الگوریتم میگن ERM که مخفف empirical risk minimization عه)
خب تا اینجا خیلی هم عالی، خسته هم نباشید. ولی یکی پیدا میشه میگه اقا این چیزی که شما حل کردی و پیدا کردی و اون چیزی که ما گفتیم که یکی نبود. شما پارامترهایی رو پیدا کردی که خطای کمینه رو برای این n تا مشاهده ای که بهت دادیم رو داره(با فرض این که شما بهینه سازیت رو درست حل کردی) ولی من ازت خواستم خطای کمینه روی هر عکسی که ازون توزیع میاد داشته باشه نه صرفا برای n تا عکس خاص.
به عبارت دیگه، از کجا معلوم که پارامترهای مدل شما صرفا نیومده یه سری اطلاعات در مورد همون n تا عکس خاص رو حفظ نکرده باشه به جای اینکه یه سری اطلاعات در مورد توزیع شرطی E[Y|X] یاد گرفته باشه. اینجاست که مفهوم حفظ کردن (memorization) در مقابل تعمیم پذیری (generalization) مطرح میشه.
آیا لزومی داره که اگر مدلی برای n تا عکس خوب کار کنه برای هر عکسی از همون توزیع هم خوب کار کنه؟ جوابش اینه که والا حلوای تن تنانی تا نخوری ندانی. اینجا هم تا زمانی که ثابت نکنی نه.
حالا چی رو دوست داری ثابت کنی؟ میخوای ثابت کنی که اگر تو بیای و بر حسب n تا مشاهده از متغییرهای مستقل و هم توزیع پارامترهایی رو پیدا کنی که میانگین خطا رو واسه این n تا مشاهده کمینه کنن، اون پارامتر امید ریاضی خطای کمی هم خواهد داشت برای هر مشاهده جدیدی که از همون توزیع بیاد.
اینجاست که میشه دید پس احتمالا باید از ناتساوی های تمرکزی استفاده کنیم.
اما ادامه اش باشه برای متن بعدی چون همین طوریش حس میکنم که خیلی زیاد حرف زدم.
#note #learning_theory
@SingularThinker
1/n
خب بحث رو ازینجا شروع کنیم که به طور سنتی وقتی شما n تا مشاهده/نمونه از n تا متغییر تصادفی مستقل و هم توزیع (iid) داری که توزیعشون رو نمیدونی علم آمار و احتمال یه سری ابزار در اختیارت قرار میده که یه چیزایی بتونی در مورد میانگین این n تا مشاهده و امید ریاضی اون متغییرهای تصادفی بگی.
اون چیزی که به طور معمول به اکثر ماها تو دانشگاه تدریس میکردن قانون اعداد بزرگ بوده که میگه آقا میانگین این n تا مشاهده(realization) از متغییرهای هم توزیع و مستقل به امیدریاضی اون متغییرهای تصادفی میل میکنه، البته با کمی تساهل.(اینجا دیگه وارد تفاوت نسخه قوی و ضعیفش نشدم و بعدشم شرط وجود امید ریاضی همیشه برقرار نیست.تو تصویر فرق نسخه ضعیف و قوی رو میبینید.)
جالبه که به قول امیررضا تو این کلیپ قانون اعداد بزرگ جایی از احتمالات هست که ما از دنیای انتزاعی که ساختیم بیرون میایم و میتونیم بریم آزمایش انجام بدیم اما یه بدی ای که قانون اعداد بزرگ داره اینه که مثل وعده بهشت دادن در آخرته، حالا اون دنیا رو کی دیده اصلا؟ اینجا هم همینه ماجرا.
اون حدی که روی n میگیریم و میلش میدیم به بی نهایت باعث میشه تحلیل ما مجانبی/حدی باشه. و هر وقت شما به بی نهایت رسیدی برای ما دست تکون بده یه بوقم بزن .
ولی حالا یه سری ابزارهای دیگه هم هست که میشه ازشون استفاده کرد و تحلیل غیرمجانبی/حدی ارائه کرد و بهشون میگن concentration inequalities یا ناتساوی های تمرکزی. در واقع به کمک این ناتساوی ها میشه انحراف میانگین از امیدریاضی رو به طور کمی برای هر تعداد متغییر تصادفی دلخواه اندازه گیری کنیم.(قبلا یه مقدار راجع به همین چیزا تو این پیام صحبت کردم و اینم لینک مقاله ای که دارم در موردش تو پیام صحبت میکنم.)
بگذریم خلاصه، این ناتساوی ها ابزار دست کسایی هستن که learning theory کار میکنن. شما معمولا هر جایی وارد بحث های نظری یادگیری ماشین میشی که میخوای یه کران بالا برای خطا اثبات کنی معمولا از این ابزار استفاده میکنی و حقیقتش اینه که استفاده ازش خیلی سخت نیست. مثلا فرض کن که شما میخوای یه مسئله طبقه بندی دوتایی رو حل بکنی و بهت n تا نمونه مستقل و هم توزیع به همراه طبقه مربوطه هر کدوم دادن و گفتن که بفرما و یه طبقه بند برای ما بساز که بتونه هر عکس جدیدی که از همون توزیع بیاد رو تا حد خوبی به صورت درست طبقه بندی کنه.
شما هم میای میگی خیلی خب من میام اول یه کلاسی از توابع رو در نظر میگیرم مثلا توابع چند جمله ای از درجه p و بعد یه جوری یه تابعی رو مدلسازی میکنم که عکس رو بگیره و طبقه اون عکس رو برگردونه و حالا باید اون ضرایب اون چندجمله ای و یا به اصطلاح پارامترهای مدل رو طوری پیدا کنم که خطا کمینه بشه. یعنی اینکه یه تابع خطا تعریف میکنم در راحت ترین حالت اگه طبقه بند پیشنهادی تابع من با طبقه اصلی اون عکسه یکی بود خطام صفره در غیر این صورت خطام یکه. بعد شما میگی خب میرم یه مسئله بهینه سازی حل میکنم که پارامترهای مدلم رو طوری پیدا کنم که میانگین خطام بر حسب n تا داده ای که دارم رو کمینه کنم.(به این الگوریتم میگن ERM که مخفف empirical risk minimization عه)
خب تا اینجا خیلی هم عالی، خسته هم نباشید. ولی یکی پیدا میشه میگه اقا این چیزی که شما حل کردی و پیدا کردی و اون چیزی که ما گفتیم که یکی نبود. شما پارامترهایی رو پیدا کردی که خطای کمینه رو برای این n تا مشاهده ای که بهت دادیم رو داره(با فرض این که شما بهینه سازیت رو درست حل کردی) ولی من ازت خواستم خطای کمینه روی هر عکسی که ازون توزیع میاد داشته باشه نه صرفا برای n تا عکس خاص.
به عبارت دیگه، از کجا معلوم که پارامترهای مدل شما صرفا نیومده یه سری اطلاعات در مورد همون n تا عکس خاص رو حفظ نکرده باشه به جای اینکه یه سری اطلاعات در مورد توزیع شرطی E[Y|X] یاد گرفته باشه. اینجاست که مفهوم حفظ کردن (memorization) در مقابل تعمیم پذیری (generalization) مطرح میشه.
آیا لزومی داره که اگر مدلی برای n تا عکس خوب کار کنه برای هر عکسی از همون توزیع هم خوب کار کنه؟ جوابش اینه که والا حلوای تن تنانی تا نخوری ندانی. اینجا هم تا زمانی که ثابت نکنی نه.
حالا چی رو دوست داری ثابت کنی؟ میخوای ثابت کنی که اگر تو بیای و بر حسب n تا مشاهده از متغییرهای مستقل و هم توزیع پارامترهایی رو پیدا کنی که میانگین خطا رو واسه این n تا مشاهده کمینه کنن، اون پارامتر امید ریاضی خطای کمی هم خواهد داشت برای هر مشاهده جدیدی که از همون توزیع بیاد.
اینجاست که میشه دید پس احتمالا باید از ناتساوی های تمرکزی استفاده کنیم.
اما ادامه اش باشه برای متن بعدی چون همین طوریش حس میکنم که خیلی زیاد حرف زدم.
#note #learning_theory
@SingularThinker
Telegram
Probability Theory & Statistics
❤3
User-unfriendly introduction to "user-friendly introduction to PAC-Bayes bounds"
2/n
چیزی که باهاش متن قبلی رو تموم کردیم این بود که برای مدل یادگیری ماشینیمون میخوایم یه گارانتی(کران بالا) برای امید ریاضی خطا مدل مون در بیاریم و خیالمون رو راحت کنیم ولی شاید این نکته برای شما یه خورده عجیب به نظر برسه چون در عمل خیلی استفاده نمیشه. چرا؟ چون اثبات چنین کران بالایی در حالت کلی کار سختی به حساب میاد که با هم تو ادامه این متن میریم ببینیم که چرا این طوریه.
اما یه کاری که تو یادگیری ماشین در عمل به جای این کار میکنن اینه که شما میای و مجموعه دادگانت رو حداقل دو قسمت میکنی.
یه قسمتی رو برای آموزش یا همون بدست آوردن پارامترهای مدلت استفاده میکنی و از قسمت دیگه برای ارزیابی یا تست کردن مدل استفاده میکنی و این طوری عملا یه برآورد نااریبی از امیدریاضی خطات داری و طبیعتا دوباره طبق قانون اعداد بزرگ هر چی تعداد دادگان مجموعه تستت بیشتر باشه تخمین امیدریاضی ات دقیقتر میشه.
آآماا مشکل روش اول چیه که مجبور میشیم بریم سراغ این روش و عملا دیتاهای با ارزشمون رو تقسیم کنیم؟ چرا از همه اش برای آموزش استفاده نکنیم؟
نکته اینجاست که میشه به سادگی با در نظرگرفتن یه تابع دلخواه از مجموعه توابع چندجمله ای از درجه p که داشتیم
خیلی راحت بیایم و یه کران بالای خوشگل برای خطای بدست بیاریم و برای این کار کافیه که از Hoeffding Lemma و Chernoff's inequality استفاده کنیم.( برای اطلاعات بیشتر بخش ۱.۱.۲ این مقاله آموزشی که اسمشو رو عنوان متن هم گذاشتم ببینید.)
خب پس مشکل چیه؟ تو که میگی خیلی ساده است دو تا ناتساوی داری و تو کمتر از یه صفحه یه کران بالا در میاری، پس اسکل کردی مارو؟ د نه د. مشکل اینجاست که گفتم این کران بالای خطا برای پارامتری کار میکنه که از قبل فیکس شده باشه و به مجموعه دادگانت مرتبط نباشه. اگه پارامترهات خودش وابسته باشه به مشاهداتت دیگه شرط مستقل بودن متغییرهای تصادفی ای که براشون میای از این ناتساوی های تمرکزی استفاده میکین رو نقض میکنی. و سردردت ندم وقتی تو آمار و احتمال شنیدی متغییرهای تصادفی داری که بهم وابسته ان دستات رو بذار رو گوشات تا میتونی جیغ بزن و زیگزاگی راه برو حتی اگه نمیدی دونی چرا :)))
پس حالا یعنی چه کنیم؟ برای اینکه بتونیم چیز معناداری برای خطای پارامترهای حاصل از ERM بدست میاد به جای در نظر گرفتن یه پارامتر خاص و بدست آوردن یه کران بالا برای اون باید بدبین باشیم و کران بالای خطا برای بدترین پارامتر تو مجموعه پارامترهامون رو پیدا کنیم و حالا مطمئنیم که خطای پارامتر ERM قطعا ازون کمتره.
ولی اینجاست که مشکل وارد میشه که این در حالت کلی کار آسونی نیست. میتونی تصور کنی که چند تا تابع چند جمله ای از درجه p داریم؟ بی نهایت تا.
حالا باید حساب کنیم کران بالا برای بدترین تابع چقدره؟ چطوری حساب کنیم؟ در حالت کلی ایده سر راستی نداریم.
يه راه اینه که اگر مجموعه توابعی که اون اول انتخاب کردیم محدود بود بیایم جمع بزنیم خطاهای تک تک اون تابع ها رو و بعد یه کران بالا در بیاریم.خب مشکلش چیه؟
نکته اینه که به کران بالات به صورت خطی با سایز مجموعه تابع هات مرتبطه و این یعنی باختی. چون که اگه سایز مجموعه تابع های ممکنت رو کوچیک بکنی درسته تو جمع خیلی چیزی رو از دست نمیدی ولی از اون طرف میشه حدس زد که خطای هر کدوم ازون ها در حالت کلی میتونه بزرگ باشه و از طرف دیگه اگه سایز مجموعه تابع هات رو بزرگ کنیی یه عدد خیلی بزرگ به خاطر جمع روی همه این توابع تو کران بالات داری که عملا کران بالات یه عدد خیلی بزرگ و غیرقابل استفاده میشه.
در زندگی عادی و به طور روزمره همین طور که اصن تو مثال قبلی هم دیدیم ما اصن تعداد توابعون غالبا نامحدوده و این فرض محدود بودن تخیلی محسوب میشه. پس باید یه فکری به حال این داستان بکنیم.
ازین جا به بعد دو تا راه داریم یا بر اینکه از الگوریتم ERM استفاده کنیم اصرار بکنیم و سختی درآوردن کران بالا در حالت نامحدود رو به جون بخریم یا رویکردمون رو عوض کنیم و بگیم حالا کی گفته ERM وحی منزله شاید چیز دیگه ای هم باشه که خوب باشه. راه اول راهی بود که Vapnik و Chervonenkis میرن و شروع میکن با اضافه کردن یه سری فرضیاتی (نامعقول) به مسئله فرض محدود بودن فضای پارامترها رو تخفیف میدن و اینجاست که VC-dim برای اندازه گیری میزان پیچیدگی فضای پارامترها متولد میشه. که بعدها تبدیل به Radamacher complexity میشه و ...
اما این قصه پیچیدگی های فنی داره که مشکل آفرینه. یعنی یا یه سری فرضیاتی داره که محقق شدنی نیست و اگه در حالت کلی هم داره چیزی میگه اون چیز اونقدر پیچیده و انتزاعیه که در عمل نمیشه حسابش کرد.
#note #learning_theory
@SingularThinker
2/n
چیزی که باهاش متن قبلی رو تموم کردیم این بود که برای مدل یادگیری ماشینیمون میخوایم یه گارانتی(کران بالا) برای امید ریاضی خطا مدل مون در بیاریم و خیالمون رو راحت کنیم ولی شاید این نکته برای شما یه خورده عجیب به نظر برسه چون در عمل خیلی استفاده نمیشه. چرا؟ چون اثبات چنین کران بالایی در حالت کلی کار سختی به حساب میاد که با هم تو ادامه این متن میریم ببینیم که چرا این طوریه.
اما یه کاری که تو یادگیری ماشین در عمل به جای این کار میکنن اینه که شما میای و مجموعه دادگانت رو حداقل دو قسمت میکنی.
یه قسمتی رو برای آموزش یا همون بدست آوردن پارامترهای مدلت استفاده میکنی و از قسمت دیگه برای ارزیابی یا تست کردن مدل استفاده میکنی و این طوری عملا یه برآورد نااریبی از امیدریاضی خطات داری و طبیعتا دوباره طبق قانون اعداد بزرگ هر چی تعداد دادگان مجموعه تستت بیشتر باشه تخمین امیدریاضی ات دقیقتر میشه.
آآماا مشکل روش اول چیه که مجبور میشیم بریم سراغ این روش و عملا دیتاهای با ارزشمون رو تقسیم کنیم؟ چرا از همه اش برای آموزش استفاده نکنیم؟
نکته اینجاست که میشه به سادگی با در نظرگرفتن یه تابع دلخواه از مجموعه توابع چندجمله ای از درجه p که داشتیم
خیلی راحت بیایم و یه کران بالای خوشگل برای خطای بدست بیاریم و برای این کار کافیه که از Hoeffding Lemma و Chernoff's inequality استفاده کنیم.( برای اطلاعات بیشتر بخش ۱.۱.۲ این مقاله آموزشی که اسمشو رو عنوان متن هم گذاشتم ببینید.)
خب پس مشکل چیه؟ تو که میگی خیلی ساده است دو تا ناتساوی داری و تو کمتر از یه صفحه یه کران بالا در میاری، پس اسکل کردی مارو؟ د نه د. مشکل اینجاست که گفتم این کران بالای خطا برای پارامتری کار میکنه که از قبل فیکس شده باشه و به مجموعه دادگانت مرتبط نباشه. اگه پارامترهات خودش وابسته باشه به مشاهداتت دیگه شرط مستقل بودن متغییرهای تصادفی ای که براشون میای از این ناتساوی های تمرکزی استفاده میکین رو نقض میکنی. و سردردت ندم وقتی تو آمار و احتمال شنیدی متغییرهای تصادفی داری که بهم وابسته ان دستات رو بذار رو گوشات تا میتونی جیغ بزن و زیگزاگی راه برو حتی اگه نمیدی دونی چرا :)))
پس حالا یعنی چه کنیم؟ برای اینکه بتونیم چیز معناداری برای خطای پارامترهای حاصل از ERM بدست میاد به جای در نظر گرفتن یه پارامتر خاص و بدست آوردن یه کران بالا برای اون باید بدبین باشیم و کران بالای خطا برای بدترین پارامتر تو مجموعه پارامترهامون رو پیدا کنیم و حالا مطمئنیم که خطای پارامتر ERM قطعا ازون کمتره.
ولی اینجاست که مشکل وارد میشه که این در حالت کلی کار آسونی نیست. میتونی تصور کنی که چند تا تابع چند جمله ای از درجه p داریم؟ بی نهایت تا.
حالا باید حساب کنیم کران بالا برای بدترین تابع چقدره؟ چطوری حساب کنیم؟ در حالت کلی ایده سر راستی نداریم.
يه راه اینه که اگر مجموعه توابعی که اون اول انتخاب کردیم محدود بود بیایم جمع بزنیم خطاهای تک تک اون تابع ها رو و بعد یه کران بالا در بیاریم.خب مشکلش چیه؟
نکته اینه که به کران بالات به صورت خطی با سایز مجموعه تابع هات مرتبطه و این یعنی باختی. چون که اگه سایز مجموعه تابع های ممکنت رو کوچیک بکنی درسته تو جمع خیلی چیزی رو از دست نمیدی ولی از اون طرف میشه حدس زد که خطای هر کدوم ازون ها در حالت کلی میتونه بزرگ باشه و از طرف دیگه اگه سایز مجموعه تابع هات رو بزرگ کنیی یه عدد خیلی بزرگ به خاطر جمع روی همه این توابع تو کران بالات داری که عملا کران بالات یه عدد خیلی بزرگ و غیرقابل استفاده میشه.
در زندگی عادی و به طور روزمره همین طور که اصن تو مثال قبلی هم دیدیم ما اصن تعداد توابعون غالبا نامحدوده و این فرض محدود بودن تخیلی محسوب میشه. پس باید یه فکری به حال این داستان بکنیم.
ازین جا به بعد دو تا راه داریم یا بر اینکه از الگوریتم ERM استفاده کنیم اصرار بکنیم و سختی درآوردن کران بالا در حالت نامحدود رو به جون بخریم یا رویکردمون رو عوض کنیم و بگیم حالا کی گفته ERM وحی منزله شاید چیز دیگه ای هم باشه که خوب باشه. راه اول راهی بود که Vapnik و Chervonenkis میرن و شروع میکن با اضافه کردن یه سری فرضیاتی (نامعقول) به مسئله فرض محدود بودن فضای پارامترها رو تخفیف میدن و اینجاست که VC-dim برای اندازه گیری میزان پیچیدگی فضای پارامترها متولد میشه. که بعدها تبدیل به Radamacher complexity میشه و ...
اما این قصه پیچیدگی های فنی داره که مشکل آفرینه. یعنی یا یه سری فرضیاتی داره که محقق شدنی نیست و اگه در حالت کلی هم داره چیزی میگه اون چیز اونقدر پیچیده و انتزاعیه که در عمل نمیشه حسابش کرد.
#note #learning_theory
@SingularThinker
arXiv.org
User-friendly introduction to PAC-Bayes bounds
Aggregated predictors are obtained by making a set of basic predictors vote according to some weights, that is, to some probability distribution.
Randomized predictors are obtained by sampling...
Randomized predictors are obtained by sampling...
👍3
User-unfriendly introduction to "user-friendly introduction to PAC-Bayes bounds"
3/3
اما اون راه حل دوم چیه؟ اونجا جاییه که PAC-Bayes Bounds در سال 1997-8 متولد شدن. این کرانها با یه تغییر رویکرد اساسی نسبت به رویکرد ERM بوجود میان. یعنی شما به جای اینکه دنبال یه پارامتر خاصی بگردی و بعد کران بالای خطا برای طبقه بند با استفاده از اون پارامتر پیدا بکنی میگی چی میشه اگه من یه توزیع احتمالی روی مجموعه پارامترها داشته باشم و بیایم برای یه نمونه از اون توزیع کران خطا پیدا کنم. اینجاست که مشخص میشه چرا اسم Bayes رو میذارن رو این روش. دیگه از آمار فراوانی گرایانه خارج میشیم و وارد آمار بیزی میشیم. دیگه پارامترهای مدل قطعی یا deterministic نیستند و خودشون تصادفی هستند و دارن از یه تابع توزیعی میان که حالا خوبیش اینه که کنترلش دست ماست. و این طوریه که این باندها متولد میشن.
و اسپویلر آلرت⚠️:این کران های بالا در خیلی از موارد قابل محاسبه و قابل قبول هستند
3/3
اما اون راه حل دوم چیه؟ اونجا جاییه که PAC-Bayes Bounds در سال 1997-8 متولد شدن. این کرانها با یه تغییر رویکرد اساسی نسبت به رویکرد ERM بوجود میان. یعنی شما به جای اینکه دنبال یه پارامتر خاصی بگردی و بعد کران بالای خطا برای طبقه بند با استفاده از اون پارامتر پیدا بکنی میگی چی میشه اگه من یه توزیع احتمالی روی مجموعه پارامترها داشته باشم و بیایم برای یه نمونه از اون توزیع کران خطا پیدا کنم. اینجاست که مشخص میشه چرا اسم Bayes رو میذارن رو این روش. دیگه از آمار فراوانی گرایانه خارج میشیم و وارد آمار بیزی میشیم. دیگه پارامترهای مدل قطعی یا deterministic نیستند و خودشون تصادفی هستند و دارن از یه تابع توزیعی میان که حالا خوبیش اینه که کنترلش دست ماست. و این طوریه که این باندها متولد میشن.
و اسپویلر آلرت⚠️:این کران های بالا در خیلی از موارد قابل محاسبه و قابل قبول هستند
👍2
Singular Thinker
نمیدونم موفق بودم که پیام اصلی کار رو بدون وارد شدن به جزئیات ارائه کنم یا نه ولی این طوری در نظر بگیرید که برای فهمیدن اینکه آیا داده شما ساختارمند هست یا نه و به طور بالقوه میتونه Generalization خوبی داشته باشه یا نه ایده آندره اس این بود که بیایم ببینیم…
میدونم توضیح دادن ریاضی با متن کار خیلی جالبی نیست ولی صرفا چون این PAC-Bayes boundsها به نظرم خیلی موضوع جالبی بود و یه دید باحالی به مسائل میداد خواستم یه تیزر طور برم و توصیه کنم که User-friendly introduction to PAC-Bayes bounds
از آقا Pierre Alquier رو بخونید و لذتشو ببرید. (حداقل فصل اولش رو)
یه مشکلی که من موقع تحصیل ارشدم داشتم این بود که کسایی که یادگیری ماشین تدریس میکردن مفاهیم نظری رو مسلط نبودن و بنابراین خوب هم تدریسش نمیکردن و اصن من نمیدونستم که این چیزا چین و برای همین کلی سوال داشتم که اصن نمیدونستم باید کجا دنبال جوابش بگردم.
تو شریف فک کنم کمی اوضاع بهتر باشه و یه سری درس تئوری تدریس بشه هنوز.
خلاصه هدف این بود که سر نخ کنجکاوی بدم و گرنه میدونم خیلی سخته دنبال کردن یه متن برای فهمیدن یه سری معادله.
از آقا Pierre Alquier رو بخونید و لذتشو ببرید. (حداقل فصل اولش رو)
یه مشکلی که من موقع تحصیل ارشدم داشتم این بود که کسایی که یادگیری ماشین تدریس میکردن مفاهیم نظری رو مسلط نبودن و بنابراین خوب هم تدریسش نمیکردن و اصن من نمیدونستم که این چیزا چین و برای همین کلی سوال داشتم که اصن نمیدونستم باید کجا دنبال جوابش بگردم.
تو شریف فک کنم کمی اوضاع بهتر باشه و یه سری درس تئوری تدریس بشه هنوز.
خلاصه هدف این بود که سر نخ کنجکاوی بدم و گرنه میدونم خیلی سخته دنبال کردن یه متن برای فهمیدن یه سری معادله.
👍2
Singular Thinker
User-unfriendly introduction to "user-friendly introduction to PAC-Bayes bounds" 1/n خب بحث رو ازینجا شروع کنیم که به طور سنتی وقتی شما n تا مشاهده/نمونه از n تا متغییر تصادفی مستقل و هم توزیع (iid) داری که توزیعشون رو نمیدونی علم آمار و احتمال یه سری ابزار…
داشتم میدیدم این چیزایی که دیشب نوشتم واقعا مدیوم و مدل انتقالش user-friendly نبود اصلا😂 تبدیلشون کردم به user-unfriendly :)))