Singular Thinker – Telegram
Singular Thinker
948 subscribers
405 photos
17 videos
5 files
250 links
We talk about things that find them interesting.
توی این کانال از مطالبی که برامون جذاب باشه حرف
میزنیم، یا مطالب جذاب بقیه رو نشر می‌دیم.
Contact/راه ارتباطی:
@Singular_Thinker
Download Telegram
Forwarded from a pessimistic researcher (Kc)
تو مقاله بعدی تعارف شابدوالعظیمی یاد LLM بدید و Ultra AGI رو خلق کنید
🔥6
Interested in a #PhD in machine learning & theoretical neuroscience?

Applications for 2026 entry to the Gatsby Unit PhD programme are now open!

💰 Fully-funded 4-year programme
🤝 Close links to @SWC_Neuro & @uclcsml
ℹ️ http://www.ucl.ac.uk/life-sciences/gatsby/study-and-work/gatsby-unit-phd-programme

🔗 Gatsby Computational Neuroscience Unit (@GatsbyUCL)

#phd_position
@SingularThinker
🔥2
ELLIS PhD Program: Call for Applications 2025 and Info Session
­
The ELLIS PhD Program is now open for applications for 2026! The program offers joint supervision with advisors in different European countries, including at least six months of exchange, and connects students with both academic and industry mentors. Interested candidates should apply online through the ELLIS application portal by October 31, 2025, 23:59 AoE.

Virtual info session:
On October 1st, there will be an information session for prospective PhD students providing an overview of the ELLIS PhD program, the call for applications, and the expected application material to provide.

📍 Virtual
📅 October 1, 2025

🕓 16:00 CET
🔗 Register to join info session
#phd_position
@SingularThinker
Forwarded from a pessimistic researcher (Kc)
PhD in Learning Systems @ Max Planck & ETH
——————————————————————

این یک پورگرام جوینت هست بین eth و mpi بدین صورت که شما یه استاد از هر دو سمت خواهید داشت و متناسب با برنامه‌ریزی استادا، یک تایمی از سال رو mpi هستید و باقیش رو eth. ددلاینش هم ۵ نوامبر هستش.

📢 Apply now to join the doctoral program of the Max Planck ETH Center for Learning Systems (CLS) in 2026.

🇨🇭 🇩🇪 In our highly competitive CLS doctoral training program, fellows are co-supervised by one advisor from ETH Zürich and one from the Max Planck Institute for Intelligent Systems in Stuttgart / Tübingen, the Max Planck Institute for Informatics in Saarbrücken or the ELLIS Institute Tübingen. Each CLS fellow has a primary location (chosen based on interests and match) and conducts a mandatory 12-month exchange at the other location. Upon successful completion, the doctoral degree is awarded by ETH Zurich.

💡 Research fields covered include: Bio-inspired /Bio-hybrid Robotics, Biomechanics, Causal Inference, Computational Biology, Computer Graphics, Computer Vision, Control Systems, Deep Learning, Digital Humans, Earth Observation, Educational Technology, Efficient AI, Explainable AI, Graph Representation Learning, Haptics, Human-Computer Interaction, Human-Robot Interaction, Imaging Technology, Machine Learning, Medical Informatics, Medical Robotics, Natural Language Processing, Neuroinformatics, Optimization, Perceptual Inference, Probabilistic Models, Reinforcement Learning, Robotics, Safety, Security and Privacy, Scientific Machine Learning, Smart Materials, Social Questions, Soft Robotics, Statistical Learning Theory, Visual Analytics.

📅 Application deadline: November 05, 2025
🔗 Apply here: https://learning-systems.org/apply
2
ولشدگان
اجرای زنده آخ به توچه ای صنم
بامزه‌ان آخه و خُنُک.

اجرای زنده‌ی آخ به تو چه ای صنم | ولشدگان
@dalangdalangdalang
💅1
Forwarded from a pessimistic researcher (Kc)
PhD in AI/ML +‌ X @ Max Planck Society
——————————————————

دوستان این پروگرامی که میخوام معرفی کنم جدیده و برای اولین بار توسط مکس پلانک داره اجرا میشه. جامعه مکس پلانک قصد داره که یک موسسه تو حوزه AI بزنه و تا رسیدن به اون مرحله داره یک سری کارای مقدماتی میکنه. یکی از این کارها راه اندازی یک نتورک تو حوزه AI بین موسسه‌های خودشه. اسم این نتورک هستش Max Planck Artificial Intelligence Network (MP-AIX) که بین جامعه‌ی مکس پلانک و ELLIS شکل گرفته. طی اولین اقدام این نتورک قراره که تحت یک پروگرام، دانشجوی دکتری بگیرن و اون دانشجو در صورت قبولی با دو سوپروایزر کار میکنه. اولی متخصص حوزه‌ی AI/ML خواهد بود و دیگری متخصص هر حوزه‌ای که شما بخواید که اسمش رو می‌ذاریم X. این اساتید میتونن از بین تمام موسسات MPG مثل MPI-SWS, MPI-INf, MPI-IS, MPI-SP و کلا هر MPI ای که شما دلتون بخواد انتخاب بشن. علاوه بر اساتید MPI با استادای ELLIS هم میتونید کار کنید. پورتال این پروگرام از ۱ اکتبر باز میشه و ددلاینش هم ۳۱ اکتبر هستش. حتما حتما با دقت تمام بخونید بخش application اش رو و اون چیزایی که ازتون خواسته رو توی sop داشته باشید.

اینجا توضیحات درباره‌ی پروگرام و ساختارش رو نوشته. اینجا هم پورتال اپلای‌شون هستش.

با آرزوی موفقیت برای دوستان
6
Singular Thinker
آیا میدونستید که lemmata جمع lemma است؟ تا رندوم فکت های دیگه قبل ددلاین خدانگهدار.
ازونجایی که دوباره مریض شدم و در خانه محبوس‌ میپرسم:
شما چند سالتون بود که فهمیدید "y که بهش میگفتیم "وای زگوند" در واقع همون وای second عه ؟
👍4
Mathematical Musings
این هم هست: 'y که می گفتیم y پریم در واقع prime بوده.
جالبه که همه تلفظا رو هم نزدیک به فرانسوی میگیم. نمیگیم پرایم میگیم پریم.
همین واسه عنتگرال و ... برقراره.

البته اونقدر تعجب نداره هم زبان دوم فرانسوی بوده تو ایران هم سیستم آموزشی رو از فرانسه الهام گرفته بودن. فک کنم از نظر تاریخ ریاضیاتم هنوز سیستم آمریکایی انقدر محبوب نبوده.
بعد ما سوال میکنیم چرا انقدر جوانان ما شیفته چپ بودن اون زمان😂😅
1👍81
خب بلاخره پیپرمون رو گذاشتیم رو آرکایو و میتونم در موردش صحبت کنم😍
خیلی برام جالب و عجیبه این کاره و هنوز خیلی چیزا هست که نمیفهمیم ولی تا اینجا هر چیزی رو که تست کردیم جواب داده.
113🔥4👍2
Singular Thinker
خب بلاخره پیپرمون رو گذاشتیم رو آرکایو و میتونم در موردش صحبت کنم😍 خیلی برام جالب و عجیبه این کاره و هنوز خیلی چیزا هست که نمیفهمیم ولی تا اینجا هر چیزی رو که تست کردیم جواب داده.
Thermodynamics Reveals the Generalization in the Interpolation Regime
1/n

🔗 Link of the paper: https://arxiv.org/abs/2510.06028

In the realm of overparameterized NNs, one can achieve almost zero training error on any data, even random labels, that yield massive test errors.
So, how can we tell when such a model truly generalizes? 🤔

In the figure above from the famous paper, the same model achieves nearly zero training error on both random and true labels. Therefore, the key to generalization must lie within the structure of the data itself.
https://arxiv.org/abs/1611.03530

#neural_networks
#learning_theory
15
Singular Thinker
Thermodynamics Reveals the Generalization in the Interpolation Regime 1/n 🔗 Link of the paper: https://arxiv.org/abs/2510.06028 In the realm of overparameterized NNs, one can achieve almost zero training error on any data, even random labels, that yield…
Thermodynamics Reveals the Generalization in the Interpolation Regime
2/n

To probe this question, we turn to randomized predictors rather than deterministic ones.
Here, predictors are sampled from a prescribed probability distribution, allowing us to apply PAC-Bayesian theory to study their generalization properties.

This leads naturally to the Gibbs posterior, which assigns higher probabilities to hypotheses with smaller training errors (exponentially decaying with loss).

Then comes our first contribution:
We derive high-probability, data-dependent bounds on the test error for hypotheses sampled from the Gibbs posterior (for the first time in the low-temperature regime β > n).
Singular Thinker
Thermodynamics Reveals the Generalization in the Interpolation Regime 2/n To probe this question, we turn to randomized predictors rather than deterministic ones. Here, predictors are sampled from a prescribed probability distribution, allowing us to apply…
Thermodynamics Reveals the Generalization in the Interpolation Regime
3/n

Sampling from the Gibbs posterior is, however, typically difficult.

We show that it can be effectively approximated via Langevin Monte Carlo (LMC) algorithms, such as Stochastic Gradient Langevin Dynamics (SGLD), and crucially,

📎 Our bounds remain stable under this approximation (in both total variation and W₂ distance).
Singular Thinker
Thermodynamics Reveals the Generalization in the Interpolation Regime 3/n Sampling from the Gibbs posterior is, however, typically difficult. We show that it can be effectively approximated via Langevin Monte Carlo (LMC) algorithms, such as Stochastic Gradient…
Thermodynamics Reveals the Generalization in the Interpolation Regime
4/n
Empirical results on MNIST and CIFAR-10 show:
1) Non-trivial upper bounds on test error for both true and random labels
2) Meaningful distinction between structure-rich and structure-poor datasets

The figures: Binary classification with FCNNs using SGLD using 8k MNIST images for random (top) and true (bottom) labels.
Singular Thinker
Thermodynamics Reveals the Generalization in the Interpolation Regime 4/n Empirical results on MNIST and CIFAR-10 show: 1) Non-trivial upper bounds on test error for both true and random labels 2) Meaningful distinction between structure-rich and structure…
Thermodynamics Reveals the Generalization in the Interpolation Regime
5/n

🙀 One surprising insight: Generalization in the under-regularized low-temperature regime (β > n) is already signaled by small training errors in the over-regularized high-temperature regime.

😱 A second, equally striking factor: by applying a single scalar calibration factor computed from the data, the resulting upper bounds become not only tighter for true labels but also better aligned with the test error curve.

If you’re curious about the intersection of statistical learning theory, sampling-based optimization, generalization in deep learning, and PAC-Bayesian analysis, check out our paper:
https://arxiv.org/abs/2510.06028

We’d love to hear your thoughts, feedback, or questions. If you spot interesting connections to your work, let’s chat! 🙌
Singular Thinker
Thermodynamics Reveals the Generalization in the Interpolation Regime 4/n Empirical results on MNIST and CIFAR-10 show: 1) Non-trivial upper bounds on test error for both true and random labels 2) Meaningful distinction between structure-rich and structure…
نمیدونم موفق بودم که پیام اصلی کار رو بدون وارد شدن به جزئیات ارائه کنم یا نه ولی این طوری در نظر بگیرید که برای فهمیدن اینکه آیا داده شما ساختارمند هست یا نه و به طور بالقوه میتونه Generalization خوبی داشته باشه یا نه ایده آندره اس این بود که بیایم ببینیم رفتار اون مدل با مقادیر متفاوت رگولاریزیشن(نویز) چطوریه و بر اساس رفتار خطای داده ی آموزش با استفاده از PAC-Bayes Bound بتونیم یه حد بالا برای خطای داده ی تست بتونیم ارائه کنیم.
یعنی شما نگاه میکنی به خط مشکی ها تو این تصاویر و میبینی که با چه نرخی دارن کاهش پیدا میکنن و بر اساس اون میتونی یه حد بالا برای خطای داده تست پیدا بکنی.
این کار در ابتدا چیزی شبیه معجزه به نظر میرسه ولی نکته جالب اینه که گویا کار میکنه :)


قطعا نیازه که تا حد خوبی ریاضیات پشت شو بفهمید اگه بخوایم وارد بحث تکنیکالش بشیم که اصلا ریاضیات سختی نداره کلا فقط یکم آمار و احتمال احتیاجه (بدون نظریه اندازه) ولی ایده اصلی کار یه همچین چیزی بوده و بنظرم من جالبه که چرا همچین چیزی کار میکنه.
ولی اگه رفتید و خوندید و هر سوال یا ایده ای داشتید حتما به من بگید مخصوصا اگر ایده ای دارید که چطوری میتونیم این کشف تجربی در مورد Calibration factor رو دقیق ترش بکنیم و justify اش بکنیم. ما خودمون دو بار در هفته داریم فرضیه تولید میکنیم که شاید بخاطر اینه شاید بخاطر اونه شما هم اگه فرضیه ای داشتید بگید ما امتحان میکنیم خلاصه.
7👍2
Mathematical Musings
Robert Aumann
که اصلا دکتراش رو در زمینه نظریه گره ها گرفته. بعدا به خاطر کارهایی که در نظریه بازی ها انجام داد، نوبل اقتصاد گرفت.
و یکی دو نفر دیگه که اون ها هم عموما در زمینه نظریه بازی ها کار کردند.
این بزرگوار خیلی آدم عجیبیه از نظر من. یادمه که من همین طوری خیلی اتفاقی از ویکی پدیا پیداش کردم وقتی داشتم در مورد فرض rationality و اینا تحقیق میکردم. بعد که زندگی نامه و ایناشو خوندم دیدم نه پسر واقعا آدم جالبیه یک یهودی مخلص 🙂
و الان فهمیدم برنده جایزه نوبل.
الان که رفتم دیدم پشمام چقدر یه زمانی تو نظریه بازی ها عمیق شده بودم.

این پست من بود که قبلا راجع بهش نوشته بودم:
https://news.1rj.ru/str/SingularThinker/31
6
بچه‌ها یکم جمع و جور بشینید و سروصدا نکنید Kurt Gödel هم تو جمع ماست :))
🔥17💅51
Google Gemini:
Free Pro Plan for Students.


Free for 1 year. Get unlimited chats, image uploads, and quiz generations with more access to our 2.5 Pro model, Deep Research, and Audio Overviews, plus 2 TB of storage. Just for Students. Offer ends 9 December 2025.

https://gemini.google/tw/students/#:~:text=Google%20Gemini%3A,plus%202%20TB%20of%20storage.

پ.ن: نمیدونم واسه دانشگاه های ایران هم کار میکنه یا نه.
@SingularThinker
2
Singular Thinker
نمیدونم موفق بودم که پیام اصلی کار رو بدون وارد شدن به جزئیات ارائه کنم یا نه ولی این طوری در نظر بگیرید که برای فهمیدن اینکه آیا داده شما ساختارمند هست یا نه و به طور بالقوه میتونه Generalization خوبی داشته باشه یا نه ایده آندره اس این بود که بیایم ببینیم…
User-unfriendly introduction to "user-friendly introduction to PAC-Bayes bounds"
1/n

خب بحث رو ازینجا شروع کنیم که به طور سنتی وقتی شما n تا مشاهده/نمونه از n تا متغییر تصادفی مستقل و هم توزیع (iid) داری که توزیعشون رو نمیدونی علم آمار و احتمال یه سری ابزار در اختیارت قرار میده که یه چیزایی بتونی در مورد میانگین این n تا مشاهده و امید ریاضی اون متغییرهای تصادفی بگی.

اون چیزی که به طور معمول به اکثر ماها تو دانشگاه تدریس میکردن قانون اعداد بزرگ بوده که میگه آقا میانگین این n تا مشاهده(realization) از متغییرهای هم توزیع و مستقل به امیدریاضی اون متغییرهای تصادفی میل میکنه، البته با کمی تساهل.(اینجا دیگه وارد تفاوت نسخه قوی و ضعیفش نشدم و بعدشم شرط وجود امید ریاضی همیشه برقرار نیست.تو تصویر فرق نسخه ضعیف و قوی رو میبینید.)

جالبه که به قول امیررضا تو این کلیپ قانون اعداد بزرگ جایی از احتمالات هست که ما از دنیای انتزاعی که ساختیم بیرون میایم و میتونیم بریم آزمایش انجام بدیم اما یه بدی ای که قانون اعداد بزرگ داره اینه که مثل وعده بهشت دادن در آخرته، حالا اون دنیا رو کی دیده اصلا؟ اینجا هم همینه ماجرا.
اون حدی که روی n میگیریم و میلش میدیم به بی نهایت باعث میشه تحلیل ما مجانبی/حدی باشه. و هر وقت شما به بی نهایت رسیدی برای ما دست تکون بده یه بوقم بزن .

ولی حالا یه سری ابزارهای دیگه هم هست که میشه ازشون استفاده کرد و تحلیل غیرمجانبی/حدی ارائه کرد و بهشون میگن concentration inequalities یا ناتساوی های تمرکزی. در واقع به کمک این ناتساوی ها میشه انحراف میانگین از امیدریاضی رو به طور کمی برای هر تعداد متغییر تصادفی دلخواه اندازه گیری کنیم.(قبلا یه مقدار راجع به همین چیزا تو این پیام صحبت کردم و اینم لینک مقاله ای که دارم در موردش تو پیام صحبت میکنم.)


بگذریم خلاصه، این ناتساوی ها ابزار دست کسایی هستن که learning theory کار میکنن. شما معمولا هر جایی وارد بحث های نظری یادگیری ماشین میشی که میخوای یه کران بالا برای خطا اثبات کنی معمولا از این ابزار استفاده میکنی و حقیقتش اینه که استفاده ازش خیلی سخت نیست. مثلا فرض کن که شما میخوای یه مسئله طبقه بندی دوتایی رو حل بکنی و بهت n تا نمونه مستقل و هم توزیع به همراه طبقه مربوطه هر کدوم دادن و گفتن که بفرما و یه طبقه بند برای ما بساز که بتونه هر عکس جدیدی که از همون توزیع بیاد رو تا حد خوبی به صورت درست طبقه بندی کنه.

شما هم میای میگی خیلی خب من میام اول یه کلاسی از توابع رو در نظر میگیرم مثلا توابع چند جمله ای از درجه p و بعد یه جوری یه تابعی رو مدلسازی میکنم که عکس رو بگیره و طبقه اون عکس رو برگردونه و حالا باید اون ضرایب اون چندجمله ای و یا به اصطلاح پارامترهای مدل رو طوری پیدا کنم که خطا کمینه بشه. یعنی اینکه یه تابع خطا تعریف میکنم در راحت ترین حالت اگه طبقه بند پیشنهادی تابع من با طبقه اصلی اون عکسه یکی بود خطام صفره در غیر این صورت خطام یکه. بعد شما میگی خب میرم یه مسئله بهینه سازی حل میکنم که پارامترهای مدلم رو طوری پیدا کنم که میانگین خطام بر حسب n تا داده ای که دارم رو کمینه کنم.(به این الگوریتم میگن ERM که مخفف empirical risk minimization عه)

خب تا اینجا خیلی هم عالی، خسته هم نباشید. ولی یکی پیدا میشه میگه اقا این چیزی که شما حل کردی و پیدا کردی و اون چیزی که ما گفتیم که یکی نبود. شما پارامترهایی رو پیدا کردی که خطای کمینه رو برای این n تا مشاهده ای که بهت دادیم رو داره‌(با فرض این که شما بهینه سازیت رو درست حل کردی) ولی من ازت خواستم خطای کمینه روی هر عکسی که ازون توزیع میاد داشته باشه نه صرفا برای n تا عکس خاص.

به عبارت دیگه، از کجا معلوم که پارامترهای مدل شما صرفا نیومده یه سری اطلاعات در مورد همون n تا عکس خاص رو حفظ نکرده باشه به جای اینکه یه سری اطلاعات در مورد توزیع شرطی E[Y|X] یاد گرفته باشه. اینجاست که مفهوم حفظ کردن (memorization) در مقابل تعمیم پذیری (generalization) مطرح میشه.
آیا لزومی داره که اگر مدلی برای n تا عکس خوب کار کنه برای هر عکسی از همون توزیع هم خوب کار کنه؟ جوابش اینه که والا حلوای تن تنانی تا نخوری ندانی. اینجا هم تا زمانی که ثابت نکنی نه.

حالا چی رو دوست داری ثابت کنی؟ میخوای ثابت کنی که اگر تو بیای و بر حسب n تا مشاهده از متغییرهای مستقل و هم توزیع پارامترهایی رو پیدا کنی که میانگین خطا رو واسه این n تا مشاهده کمینه کنن، اون پارامتر امید ریاضی خطای کمی هم خواهد داشت برای هر مشاهده جدیدی که از همون توزیع بیاد.
اینجاست که میشه دید پس احتمالا باید از ناتساوی های تمرکزی استفاده کنیم.
اما ادامه اش باشه برای متن بعدی چون همین طوریش حس میکنم که خیلی زیاد حرف زدم.

#note #learning_theory
@SingularThinker
3