The RL Hub – Telegram
The RL Hub
80 subscribers
68 photos
1 video
80 links
The RL Hub is a Persian platform teaching reinforcement learning from basics to advanced topics.

به طور ساده RLH یه پلتفرم فارسیه که یادگیری تقویتی رو از مبانی تا موضوعات پیشرفته آموزش می‌ده.

با ما از طریق دایرکت مسج در ارتباط باشید و نظراتتون رو بگید.
Download Telegram
📚 قانون اعداد بزرگ (Law of Large Numbers - LLN)

زمان مطالعه: ۱ دقیقه و نیم

💳 #آمار
💳 #احتمال

🎙 قانون اعداد بزرگ چیه؟
قانون اعداد بزرگ (LLN) می‌گه که هر چقدر تعداد نمونه‌هایی که از یک متغیر تصادفی می‌گیریم بیشتر بشه، میانگین نمونه‌ای ما به میانگین واقعی (امید ریاضی) اون متغیر نزدیک‌تر می‌شه.

💬 چرا مهمه؟
⬅️ پایه‌ی آمار و احتمال → این قانون اساس بسیاری از روش‌های آماری و یادگیری ماشینه.
⬅️ کاربرد در دنیای واقعی → از پیش‌بینی آب‌وهوا گرفته تا قمار و سرمایه‌گذاری، همه جا این قانون دیده می‌شه.
⬅️ تضمین همگرایی → می‌گه اگه داده‌های کافی داشته باشیم، تخمین‌های ما قابل اعتمادتر می‌شن.

💬 یک مثال شهودی
فرض کن یک سکه‌ای داریم که احتمال شیر اومدنش 0.5 هست.

⬅️ اگه فقط ۱۰ بار بندازیم، شاید ۷ بار شیر بیاد که با احتمال واقعی 0.5 خیلی فرق داره.
⬅️ اگه ۱۰۰۰ بار بندازیم، احتمالاً تعداد شیرها حدود 500 تا خواهد بود.
⬅️ اگه ۱۰۰,۰۰۰ بار بندازیم، درصد شیرها خیلی نزدیک به 50% می‌شه.

💬 نتیجه: هر چی تعداد آزمایش‌ها بیشتر بشه، میانگین مشاهدات ما به مقدار واقعی نزدیک‌تر می‌شه.

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3👏21
📚 قطری‌سازی ماتریس (Diagonalization)

زمان مطالعه: ۱ دقیقه و نیم

💳 #جبرخطی

🎙 قطری‌سازی چیست؟
قطری‌سازی (Diagonalization) یعنی تبدیل یک ماتریس مربعی به شکلی که فقط روی قطرش مقادیر غیر صفر داشته باشد. اگر یک ماتریس قابل قطری‌سازی باشد، می‌توان آن را به این صورت نوشت:
A = P D P^(-1)


که در آن:
◀️ ماتریس A، ماتریس اصلی است.
◀️ ماتریس D یک ماتریس قطری است (فقط روی قطر مقدار دارد).
◀️ ماتریس P ماتریسی است که ستون‌های آن بردارهای ویژه (eigenvectors) هستند.
◀️ ماتریس P^(-1) معکوس ماتریس P است.

🔽 چرا قطری‌سازی مهمه؟
⬅️ محاسبات راحت‌تر می‌شن → مثلاً به جای ضرب‌های پیچیده، می‌شه مستقیماً روی D کار کرد.
⬅️ معادلات دیفرانسیل ساده‌تر می‌شن → کاربرد در فیزیک و مهندسی.
⬅️ کاهش پیچیدگی در یادگیری ماشین → مخصوصاً در تحلیل داده‌های بزرگ.

📁 چه زمانی یک ماتریس قابل قطری‌سازیه؟
⬅️ اگر n تا بردار ویژه مستقل داشته باشه، یعنی n تا ستون P خطی مستقل باشن.
⬅️ معمولاً وقتی n مقدار ویژه متمایز داره، قابل قطری‌سازیه.

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3👏21
📚 تبدیل آفین (Affine Transformation)

زمان مطالعه: ۱ دقیقه و نیم

💳 #جبرخطی

🎙 تعریف تبدیل آفین
تبدیل آفین (Affine Transformation) نوعی نگاشت در فضای برداری است که خطوط راست را حفظ می‌کند، اما ممکن است اندازه، جهت، یا مکان اشیا را تغییر دهد. این تبدیل ترکیبی از یک تبدیل خطی و یک انتقال (Translation) است.

🔽 چرا تبدیل آفین مهم است؟

◀️ در پردازش تصویر و گرافیک کامپیوتری، برای تغییر مقیاس، چرخش، و انتقال اشیا استفاده می‌شود.
◀️ در یادگیری ماشین، برای تغییر فضای ویژگی‌ها و تنظیم داده‌ها به‌کار می‌رود.

📁 اجزای یک تبدیل آفین
یک تبدیل آفین شامل دو بخش است:
◀️ بخش خطی (مانند مقیاس، دوران، انعکاس)
◀️ بخش انتقالی (جابجایی بدون تغییر مقیاس یا چرخش)

💬 تفاوت با تبدیل خطی
◀️ در تبدیل خطی، نقطه مبدأ (۰,۰) تغییر نمی‌کند.
◀️ در تبدیل آفین، نقطه مبدأ می‌تواند جابه‌جا شود.

💬 مثال
- دوران یک شی حول مبدأ → تبدیل خطی
- دوران و سپس جابه‌جایی شی → تبدیل آفین

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👍2🥰1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
📚 تحلیل مؤلفه‌های اصلی (Principal Component Analysis - PCA)

زمان مطالعه: ۱ دقیقه و نیم

💳 #جبرخطی

🎙 تعریف PCA
تحلیل مؤلفه‌های اصلی (PCA) یک روش کاهش ابعاد است که داده‌های پیچیده را به ابعاد کمتری تبدیل می‌کند، در حالی که بیشترین میزان اطلاعات را حفظ می‌کند.

💬 چرا PCA مهم است؟
◀️ کاهش ابعاد
◀️ حذف نویز
◀️ تصویرسازی داده‌های پیچیده
◀️ افزایش کارایی مدل‌های یادگیری ماشین

شهودی از PCA
تصور کنید یک مجموعه عکس از دست‌خط افراد دارید. این دست‌خط‌ها ویژگی‌های متفاوتی مثل شیب حروف، اندازه، یا فاصله بین کلمات دارند.
در واقع، PCA تلاش می‌کند مهم‌ترین الگوها را پیدا کند.

🔑 مثلاً متوجه می‌شود که شیب حروف مهم‌ترین عامل تمایز است، سپس اندازه حروف و در نهایت فاصله بین کلمات را در نظر می‌گیرد.

🖋 چطور کار می‌کند؟
🔽 محاسبه میانگین و تغییرات داده‌ها
🔽 یافتن جهت‌هایی که بیشترین تغییرات را نشان می‌دهند (محورهای جدید)
🔽 تبدیل داده‌ها به این محورهای جدید

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👏3👍21
📚 گرادیان (Gradient)

زمان مطالعه: ۱ دقیقه و نیم

💳 #ریاضیات

🎙 گرادیان چیه؟
گرادیان یه بردار ریاضی‌ست که نشون می‌ده تابع ما توی هر نقطه در چه جهتی بیشترین رشد (کاهش) رو داره.
مقدار هر مؤلفه‌ی گرادیان، نشون‌دهنده‌ی میزان تغییر تابع نسبت به اون متغیر هست.

💬 شهود ساده
فرض کن روی یک تپه‌ای. چشم‌هات بسته‌ست ولی فقط با حس پا‌هات می‌فهمی شیب زمین چجوریه.
گرادیان به ما نشون می‌ده که:
به کدوم سمت برو که بیشترین افزایش ارتفاع رو داشته باشی.

یا اگه بخوای بری پایین تپه (کمینه‌سازی)، برعکسش رو انتخاب می‌کنی، یعنی خلاف جهت گرادیان.

📄 مثال شهودی در یادگیری ماشین
در یک مدل یادگیری ماشین، ما می‌خوایم خطا (Loss) رو کم کنیم.
گرادیان به ما نشون می‌ده که:
اگه پارامترها رو فلان مقدار تغییر بدی، خطا کم‌تر می‌شه!

و تو الگوریتم‌هایی مثل Gradient Descent دقیقاً از همین مفهوم برای به‌روزرسانی وزن‌ها استفاده می‌شه.

⬅️ کاربردهای مهم:
بهینه‌سازی (Optimization): پیدا کردن کمینه یا بیشینه توابع
یادگیری ماشین: آموزش مدل‌ها با بهینه‌سازی تابع هزینه

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🥰2👏21
📚 تجزیه ماتریس (Matrix Decomposition)

زمان مطالعه: ۱ دقیقه

💳 #جبرخطی

تجزیه ماتریس یعنی شکستن یک ماتریس پیچیده به چند ماتریس ساده‌تر. این کار مثل باز کردن یک دستگاه پیچیده به قطعات کوچک‌تره که فهم و استفاده ازش رو راحت‌تر می‌کنه.

💬 در ریاضیات، ماتریس A ممکنه به شکل‌های مختلفی تجزیه بشه، مثلاً:

➡️ LU Decomposition (به دو ماتریس مثلثی پایین و بالا)
➡️ QR Decomposition
➡️ SVD (تجزیه مقدارهای منفرد)
➡️ Eigen Decomposition (ویژه‌بردارها و ویژه‌مقدارها)

⭐️ چرا مهمه؟
⬅️ حل سریع‌تر معادلات خطی
⬅️ کاهش ابعاد داده‌ها (مثلاً با SVD توی فشرده‌سازی تصویر یا یادگیری ماشین)
⬅️ بررسی ساختار داده
⬅️ افزایش پایداری عددی در محاسبات

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6👍2🔥21
📚 ماتریس‌های مثبت نیمه معین (Positive Semidefinite Matrices)

زمان مطالعه: ۱ دقیقه

💳 #جبرخطی

ماتریس مثبت نیمه معین، یعنی یک ماتریس مربعی که وقتی یک بردار رو بهش بدی و ضرب داخلی بگیری، مقدار به‌دست‌اومده منفی نیست.

📁 تعریف ساده‌شده:
برای هر بردار x ≠ 0 داریم
xᵀ A x ≥ 0


این یعنی ماتریس A باعث نمی‌شه جهت و مقدار بردار x منفی یا معکوس بشه—حداقل انرژی یا فاصله رو حفظ می‌کنه یا بیشتر می‌کنه.

⭐️ کاربردها
◀️ در یادگیری ماشین، ماتریس کوواریانس همیشه نیمه مثبت معینه (چون واریانس‌ها هیچ‌وقت منفی نمی‌شن)
◀️ در بهینه‌سازی محدب (convex optimization)، خیلی مهم هستن، چون تضمین می‌کنن که مینیمم واقعی داریم
◀️ در SVM و kernel methods برای بررسی فاصله‌ها و شباهت‌ها

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍2
📚 روش مونت‌کارلو (Monte Carlo Method)

زمان مطالعه: ۱ دقیقه و نیم

💳 #آمار
💳 #احتمال

📁 ایده کلی
روش مونت‌کارلو یعنی حل مسائل پیچیده (مثل انتگرال‌گیری، احتمال، یا بهینه‌سازی) با استفاده از نمونه‌گیری تصادفی.
به‌جای اینکه جواب دقیق ریاضی رو حساب کنی، تعداد زیادی نمونه تصادفی تولید می‌کنی و با میانگین‌گیری از اون‌ها، تقریب خوبی از جواب واقعی به‌دست میاری.

📁 تشبیه شهودی
فرض کن می‌خوای مساحت یک ناحیه عجیب رو حساب کنی، ولی فرمولش رو نمی‌دونی.
میای روی اون ناحیه یک مربع می‌کشی، تعداد زیادی نقطه تصادفی توی مربع می‌پاشی، بعد می‌شماری چند تاشون داخل ناحیه افتادن.
نسبت نقطه‌هایی که داخل افتادن، به کل نقاط، ضربدر مساحت مربع، می‌شه تخمینی از مساحت اون ناحیه.

⬅️ کاربردها
◀️ محاسبه انتگرال‌های پیچیده
◀️ مدل‌سازی‌های آماری
◀️ شبیه‌سازی رفتار سیستم‌های تصادفی
◀️ گرافیک کامپیوتری
◀️ یادگیری تقویتی و MCMC

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍2
📚 آپدیت وبسایت RLH

📁 در نسخه‌ی اولیه‌ی ریلیز شده‌ی وب‌سایت، مشکلاتی مانند کندی در بارگذاری محتوا و گاهی عدم بارگذاری مطالب مشاهده شد. در این آپدیت تلاش شده این نواقص برطرف شوند تا تجربه‌ی کاربری روان‌تر و بهینه‌تری فراهم شود.

پی‌نوشت: در صورت عدم کامپایل درست نوتیشن‌های ریاضی در یک صفحه، با ی ‌بار رفرش کردن، مشکل برطرف خواهد شد.


🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👍1
📚 Intro to Value-Based methods

📁 فصل ششم (لینک) با موضوع Intro to Value-Based methods هم‌اکنون روی سایت RLHub در دسترس هست. با مراجعه به سایت، می‌تونید از این مطالب استفاده کنید.

📁 توجه داشته باشید این فصل فصل اول از بخش Value-Based methods هست و باقی فصل‌های این بخش در آینده ریلیز می‌شن.

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍2
📚 استنتاج واریانسی چیه؟ (Variational Inference)

زمان مطالعه: ۱ دقیقه و نیم

💳 #آمار
💳 #احتمال

📁 ایده کلی
استنتاج واریانسی یک روش تقریبی برای حل مسائل پیچیدهٔ احتمالاتیه؛ مخصوصاً وقتی محاسبهٔ توزیع پسین (posterior) غیرقابل حل یا خیلی گرون باشه.

به‌جای اینکه مستقیم سراغ توزیع پسین بریم (که سخته)، میایم یک توزیع ساده‌تر رو بهش نزدیک می‌کنیم.

📁 چطوری کار می‌کنه؟
ما یک خانواده‌ای از توزیع‌های ساده (مثلاً نرمال) در نظر می‌گیریم. بعدش، دنبال اون عضوی از این خانواده می‌گردیم که بیشترین شباهت رو به توزیع پسین واقعی داشته باشه.

برای سنجش این شباهت، از KL Divergence استفاده می‌کنیم و تلاش می‌کنیم اون رو مینیمم کنیم.

⭐️ کاربردها:

◀️ مدل‌های گرافیکی پیچیده (مثل Latent Dirichlet Allocation)
◀️یادگیری عمیق احتمالاتی (مثل VAE — Autoencoder واریانسی)
◀️ جایگزین سریع‌تر برای MCMC

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍32
📚 Intro to Value-Based methods

📁 جوپیتر نوتبوک مرتبط به فصل 6 (لینک) با موضوع Intro to Value-Based methods هم‌اکنون روی ریپو RLH-Material در دسترس هست. با مراجعه به این ریپو می‌تونید از این مطالب استفاده کنید.

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍42
📚 تنسور چیست؟ (Tensor)

زمان مطالعه: ۱ دقیقه

💳 #جبرخطی

📁 ایده کلی
تنسور یه ساختار ریاضی برای نگه‌داشتن داده‌هاست، چیزی شبیه بردار و ماتریسه، ولی در ابعاد بالاتر.
در واقع، تنسور یه آرایه چند بعدیه که می‌تونه داده‌های عددی رو در چندین محور ذخیره کنه.
پس مثلاً یه تصویر رنگی 256×256 با 3 کانال رنگی یه تنسور 3 بعدیه.

📁 نمایش تنسورها (Tensor Representation)
برای نمایش تنسورها معمولاً از نماد Tijk استفاده می‌کنیم که نشون می‌ده عنصر مربوط به محور اول، دوم و سوم چیه.

در زبان‌های برنامه‌نویسی مثل Python (مثلاً با NumPy یا PyTorch)، تنسورها با tensor[i][j][k] یا tensor[i,j,k] نمایش داده می‌شن.

⭐️ کاربردها
◀️ شبکه‌های عصبی (مثل ورودی تصویر، توزیع زمان‌)
◀️ فیزیک (مثلاً تنسور تنش یا انرژی)
◀️ تحلیل داده‌های چند بعدی
◀️ گرافیک و رندرینگ

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥3
📚 یادگیری ماشین چیست؟ (Machine Learning)

زمان مطالعه: ۱ دقیقه

💳 #یادگیری‌ماشین

📁 یک برنامهٔ کامپیوتری زمانی می‌گوییم «یاد می‌گیرد» که با تجربه (E) در انجام یک وظیفه خاص (T)، عملکردش طبق یک معیار مشخص (P) بهبود یابد.
یعنی اگر برنامه‌ای با گذر زمان و دریافت داده‌های بیشتر، در انجام یک کار خاص بهتر شود و این بهبود قابل اندازه‌گیری باشد، آن برنامه در حال یادگیری است.

📁 انواع یادگیری ماشین (فقط اسامی):

1. یادگیری با نظارت (Supervised Learning)
2. یادگیری بدون نظارت (Unsupervised Learning)
3. یادگیری نیمه‌نظارتی (Semi-supervised Learning)
4. یادگیری تقویتی (Reinforcement Learning)
5. یادگیری خودنظارتی (Self-supervised Learning)

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥43
📚 Probability Theory Essentials for RL

📁 جوپیتر نوتبوک مرتبط به فصل 4 (لینک) با موضوع Probability Theory Essentials for RL هم‌اکنون روی ریپو RLH-Material در دسترس هست. با مراجعه به این ریپو می‌تونید از این مطالب استفاده کنید.

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍43
📚 RL Courses

🎓 از اون‌جایی که دنیای Reinforcement Learning خیلی بزرگه و شرکت‌ها هم کارهای زیادی در زمینه‌های مرتبط دارن انجام می‌دن، عملا یادگیری RL روز به روز داره مهم‌تر می‌شه. برای همین در این پست به معرفی تعدادی از courseهای بسیار خوب موجود در اینترنت با منبع می‌پردازیم.

🤖 این سایت، منبع course شرکت OpenAI با موضوع Deep RL هست که توسط developerهای این شرکت در توئیتر معرفی شده. از پایه شروع می‌شه، به معرفی الگوریتم‌ها می‌پردازه و به استفاده از ابزارهای به‌روز می‌رسه. در نهایت محتوا شامل هر آن‌چه ممکنه در مصاحبه‌های کاری مرتبط پرسیده بشه، هست.

🙋 این پلی‌لیست یوتیوب، course ارائه شده توسط Deep Mind و دانشگاه UCL به شکل مشترک هست که ویدیوهاش در سال ۲۰۱۵ ضبط شده. در این course با عنوان Introduction to Reinforcement Learning، ده lecture از basic مبحث RL قرار گرفته و طی کمتر از ۲۰ ساعت، شما رو پایه‌ی RL آشنا می‌کنه.

💳 OpenAI Course:
🔗 https://spinningup.openai.com/en/latest

💳 Deep Mind & UCL Course:
🔗 https://www.youtube.com/playlist?list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👏32
📚 مدل‌های Qwen3-4B-SafeRL و Qwen3GuardTest؛ اوپن‌سورس جدید برای ایمن‌سازی LLMها

زمان مطالعه: ۱ دقیقه و نیم

💳 #LLMs

📁 تیم Qwen چند جزء کلیدی از Qwen3Guard Technical Report را اوپن‌سورس کرده است. مهم‌ترین آن‌ها Qwen3-4B-SafeRL است؛ نسخه‌ی safety-aligned مدل Qwen3-4B که با Reinforcement Learning و فیدبک از Qwen3Guard-Gen-4B آموزش داده شده. این مدل روی WildJailbreak نرخ safety را از 64.7 به 98.1 می‌رساند، در حالی که کارایی روی تسک‌های عمومی تقریباً ثابت مانده و نرخ refusal هم کاهش پیدا کرده است.

📁 برای جلوگیری از این‌که مدل صرفاً همه‌چیز را رد کند، در SafeRL از یک hybrid reward استفاده شده که هم‌زمان سه هدف را بهینه می‌کند:

1. هدف Safety maximization با جریمه‌ی محتوای ناامن،
2. هدف Helpfulness maximization با پاداش به پاسخ‌های مفید (با مدل WorldPM-Helpsteer2)،
3. هدف Refusal minimization با جریمه برای refusal‌های غیرضروری.

در کنار آن، Qwen3GuardTest هم معرفی شده؛ یک benchmark برای ارزیابی Guard modelها که دو جنبه را پوشش می‌دهد:

۱. جنبه‌ی Safety classification برای محتوای intermediate reasoning / thinking،
۲. جنبه‌ی moderation خروجی‌های streaming / token-by-token.

این اوپن‌سورس‌ها ابزار خوبی برای پژوهش روی safety و طراحی guardrail‌های بهتر برای LLMها فراهم می‌کنند.

لینک منبع:
🔗 https://x.com/Alibaba_Qwen/status/1978732145297576081

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👏2
📚 معرفی نسخه‌ی ScaleRL از Meta |مقاله‌ی The Art of Scaling RL Compute for LLMs

زمان مطالعه: ۱ دقیقه و نیم

💳 #LLMs

🔺 تیمی از Meta و چند دانشگاه در مقاله‌ی The Art of Scaling Reinforcement Learning Compute for LLMs اولین مطالعه‌ی سیستماتیک در مقیاس بزرگ روی RL scaling برای LLMها را منتشر کرده‌اند؛ مطالعه‌ای با بیش از 400,000 GPU-hours که یک framework اصولی برای تحلیل و پیش‌بینی رفتار RL در مقیاس‌های مختلف ارائه می‌کند.

🔹 آن‌ها یک «recipe» پیشنهادی به نام ScaleRL معرفی می‌کنند و نشان می‌دهند می‌توان با آن، عملکرد validation را برای یک single RL run تا مقیاس 100,000 GPU-hours با دقت خوبی پیش‌بینی و سپس واقعاً به همان مقیاس اسکِل کرد.

مدل ScaleRL یک نسخه‌ی asynchronous RL است که از PipelineRL با 8 steps off-policyness، کنترل طول بر پایه‌ی interruption-based truncation، محاسبات FP32 برای logits و بهینه‌سازی روی تابع هزینه‌ی JScaleRL(θ) استفاده می‌کند. این loss چند جزء کلیدی را ترکیب می‌کند:

🔽 prompt-level loss aggregation
🔽 batch-level advantage normalization
🔽 truncated importance-sampling REINFORCE loss (CISPO)
🔽 zero-variance filtering
🔽 no-positive resampling

در عمل، این کار هم یک scientific framework برای فهم بهتر RL scaling روی LLMها می‌دهد و هم یک دستورالعمل عملی برای رسیدن به کارایی بالا بدون هدر دادن compute.

📑 لینک مقاله:
🔗 https://arxiv.org/abs/2510.13786

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍32
📚 مدل Agent Skills؛ فولدرهایی که Claude را به یک همکار واقعی تبدیل می‌کنند

زمان مطالعه: ۱ دقیقه و نیم

💳 #Agent

🔺 شرکت Anthropic با معرفی Agent Skills راهی داده تا از دل یک general-purpose agent مثل Claude، agentهای تخصصی بسازیم؛ نه با promptهای پراکنده، بلکه با فولدرهای منظم از instructions، noscripts و resources که مدل می‌تواند هر وقت لازم بود کشف و load کند.

🔹 هر Skill در ساده‌ترین حالت یک دایرکتوری با فایل SKILL.md است که در آن YAML frontmatter (name و denoscription) و راهنمای قدم‌به‌قدم برای کار مشخص قرار می‌گیرد. Claude در system prompt فقط متادیتای Skillها را می‌بیند و هر وقت لازم باشد، محتوای کامل SKILL.md و حتی فایل‌های کمکی مثل forms.md یا reference.md را می‌خواند؛ یعنی progressive disclosure و استفاده‌ی بهینه از context window.

مدل Skills می‌توانند علاوه بر متن، code هم شامل شوند؛ مثلاً در PDF skill، یک Python noscript برای خواندن فرم‌های داخل PDF به Claude اجازه می‌دهد بدون بلعیدن کل فایل در context، روی فایل کار کند. نتیجه این است که سازمان‌ها می‌توانند procedural knowledge و workflow‌های خود را مثل یک دفترچه‌ی onboarding در قالب Skill بسته‌بندی کنند و روی Claude.ai، Claude Code، Agent SDK و Developer Platform به‌طور یکپارچه استفاده کنند.

📑 منبع:
🔗 https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥3👍2
📚 ایجاد Scaling Reasoning بدون Scaling هزینه؛ روش جدید RL از Tencent Hunyuan

زمان مطالعه: ۱ دقیقه و نیم

💳 #Reasoning

📁 با پیشرفت reinforcement learning در LLM reasoning (از جنس جهش‌های O1-style)، حالا cost تبدیل به گلوگاه اصلی شده. تیم Tencent Hunyuan Reasoning & Pretrain یک رویکرد جدید RL معرفی کرده که می‌تواند reasoning را scale کند بدون این‌که به human-labeled data وابسته باشد.

🍏 ایده این است که به‌جای Next Token Prediction، از RL-driven Next Segment Prediction روی high-quality text استفاده شود؛ بدون نیاز به golden answers. دو تسک اصلی:

‍۱. تسک ASR (Autoregressive Segment Reasoning): پیش‌بینی پاراگراف بعدی از روی context قبلی، سپس تقویت generative continuity.

۲. تسک MSR (Middle Segment Reasoning): حدس‌زدن پاراگراف ماسک‌شده با استفاده از متن قبل و بعد، سپس وادار کردن مدل به deeper contextual understanding.

⭐️ مزیت‌ها
بدون نیاز به human annotation
مقیاس‌پذیری طبیعی با افزایش dataset size
هم‌زمان بهبود generation و reasoning

نتایج بعد از چند هزار RL steps روی base model چشم‌گیر است:
+3.0% MMLU | +5.1% MMLU-Pro | +8.1% GPQA-Diamond | +6.0% KOR-Bench | بیش از +5% روی AIME24/25.
در تنظیمات end-to-end RLVR هم: +2.3% AIME24 | +1.3% AIME25 | +3% AMC | +1.5% MATH500.

خلاصه این‌که کار Hunyuan نشان می‌دهد reasoning scaling ≠ cost scaling؛ با طراحی درست، RL می‌تواند فراتر از human supervision رشد کند.


🔽 منبع:
🔗 https://x.com/ZhihuFrontier/status/1977684644100468911

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👏52👍2