The RL Hub – Telegram
The RL Hub
80 subscribers
68 photos
1 video
80 links
The RL Hub is a Persian platform teaching reinforcement learning from basics to advanced topics.

به طور ساده RLH یه پلتفرم فارسیه که یادگیری تقویتی رو از مبانی تا موضوعات پیشرفته آموزش می‌ده.

با ما از طریق دایرکت مسج در ارتباط باشید و نظراتتون رو بگید.
Download Telegram
📚 یادگیری ماشین چیست؟ (Machine Learning)

زمان مطالعه: ۱ دقیقه

💳 #یادگیری‌ماشین

📁 یک برنامهٔ کامپیوتری زمانی می‌گوییم «یاد می‌گیرد» که با تجربه (E) در انجام یک وظیفه خاص (T)، عملکردش طبق یک معیار مشخص (P) بهبود یابد.
یعنی اگر برنامه‌ای با گذر زمان و دریافت داده‌های بیشتر، در انجام یک کار خاص بهتر شود و این بهبود قابل اندازه‌گیری باشد، آن برنامه در حال یادگیری است.

📁 انواع یادگیری ماشین (فقط اسامی):

1. یادگیری با نظارت (Supervised Learning)
2. یادگیری بدون نظارت (Unsupervised Learning)
3. یادگیری نیمه‌نظارتی (Semi-supervised Learning)
4. یادگیری تقویتی (Reinforcement Learning)
5. یادگیری خودنظارتی (Self-supervised Learning)

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥43
📚 Probability Theory Essentials for RL

📁 جوپیتر نوتبوک مرتبط به فصل 4 (لینک) با موضوع Probability Theory Essentials for RL هم‌اکنون روی ریپو RLH-Material در دسترس هست. با مراجعه به این ریپو می‌تونید از این مطالب استفاده کنید.

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍43
📚 RL Courses

🎓 از اون‌جایی که دنیای Reinforcement Learning خیلی بزرگه و شرکت‌ها هم کارهای زیادی در زمینه‌های مرتبط دارن انجام می‌دن، عملا یادگیری RL روز به روز داره مهم‌تر می‌شه. برای همین در این پست به معرفی تعدادی از courseهای بسیار خوب موجود در اینترنت با منبع می‌پردازیم.

🤖 این سایت، منبع course شرکت OpenAI با موضوع Deep RL هست که توسط developerهای این شرکت در توئیتر معرفی شده. از پایه شروع می‌شه، به معرفی الگوریتم‌ها می‌پردازه و به استفاده از ابزارهای به‌روز می‌رسه. در نهایت محتوا شامل هر آن‌چه ممکنه در مصاحبه‌های کاری مرتبط پرسیده بشه، هست.

🙋 این پلی‌لیست یوتیوب، course ارائه شده توسط Deep Mind و دانشگاه UCL به شکل مشترک هست که ویدیوهاش در سال ۲۰۱۵ ضبط شده. در این course با عنوان Introduction to Reinforcement Learning، ده lecture از basic مبحث RL قرار گرفته و طی کمتر از ۲۰ ساعت، شما رو پایه‌ی RL آشنا می‌کنه.

💳 OpenAI Course:
🔗 https://spinningup.openai.com/en/latest

💳 Deep Mind & UCL Course:
🔗 https://www.youtube.com/playlist?list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👏32
📚 مدل‌های Qwen3-4B-SafeRL و Qwen3GuardTest؛ اوپن‌سورس جدید برای ایمن‌سازی LLMها

زمان مطالعه: ۱ دقیقه و نیم

💳 #LLMs

📁 تیم Qwen چند جزء کلیدی از Qwen3Guard Technical Report را اوپن‌سورس کرده است. مهم‌ترین آن‌ها Qwen3-4B-SafeRL است؛ نسخه‌ی safety-aligned مدل Qwen3-4B که با Reinforcement Learning و فیدبک از Qwen3Guard-Gen-4B آموزش داده شده. این مدل روی WildJailbreak نرخ safety را از 64.7 به 98.1 می‌رساند، در حالی که کارایی روی تسک‌های عمومی تقریباً ثابت مانده و نرخ refusal هم کاهش پیدا کرده است.

📁 برای جلوگیری از این‌که مدل صرفاً همه‌چیز را رد کند، در SafeRL از یک hybrid reward استفاده شده که هم‌زمان سه هدف را بهینه می‌کند:

1. هدف Safety maximization با جریمه‌ی محتوای ناامن،
2. هدف Helpfulness maximization با پاداش به پاسخ‌های مفید (با مدل WorldPM-Helpsteer2)،
3. هدف Refusal minimization با جریمه برای refusal‌های غیرضروری.

در کنار آن، Qwen3GuardTest هم معرفی شده؛ یک benchmark برای ارزیابی Guard modelها که دو جنبه را پوشش می‌دهد:

۱. جنبه‌ی Safety classification برای محتوای intermediate reasoning / thinking،
۲. جنبه‌ی moderation خروجی‌های streaming / token-by-token.

این اوپن‌سورس‌ها ابزار خوبی برای پژوهش روی safety و طراحی guardrail‌های بهتر برای LLMها فراهم می‌کنند.

لینک منبع:
🔗 https://x.com/Alibaba_Qwen/status/1978732145297576081

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👏2
📚 معرفی نسخه‌ی ScaleRL از Meta |مقاله‌ی The Art of Scaling RL Compute for LLMs

زمان مطالعه: ۱ دقیقه و نیم

💳 #LLMs

🔺 تیمی از Meta و چند دانشگاه در مقاله‌ی The Art of Scaling Reinforcement Learning Compute for LLMs اولین مطالعه‌ی سیستماتیک در مقیاس بزرگ روی RL scaling برای LLMها را منتشر کرده‌اند؛ مطالعه‌ای با بیش از 400,000 GPU-hours که یک framework اصولی برای تحلیل و پیش‌بینی رفتار RL در مقیاس‌های مختلف ارائه می‌کند.

🔹 آن‌ها یک «recipe» پیشنهادی به نام ScaleRL معرفی می‌کنند و نشان می‌دهند می‌توان با آن، عملکرد validation را برای یک single RL run تا مقیاس 100,000 GPU-hours با دقت خوبی پیش‌بینی و سپس واقعاً به همان مقیاس اسکِل کرد.

مدل ScaleRL یک نسخه‌ی asynchronous RL است که از PipelineRL با 8 steps off-policyness، کنترل طول بر پایه‌ی interruption-based truncation، محاسبات FP32 برای logits و بهینه‌سازی روی تابع هزینه‌ی JScaleRL(θ) استفاده می‌کند. این loss چند جزء کلیدی را ترکیب می‌کند:

🔽 prompt-level loss aggregation
🔽 batch-level advantage normalization
🔽 truncated importance-sampling REINFORCE loss (CISPO)
🔽 zero-variance filtering
🔽 no-positive resampling

در عمل، این کار هم یک scientific framework برای فهم بهتر RL scaling روی LLMها می‌دهد و هم یک دستورالعمل عملی برای رسیدن به کارایی بالا بدون هدر دادن compute.

📑 لینک مقاله:
🔗 https://arxiv.org/abs/2510.13786

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍32
📚 مدل Agent Skills؛ فولدرهایی که Claude را به یک همکار واقعی تبدیل می‌کنند

زمان مطالعه: ۱ دقیقه و نیم

💳 #Agent

🔺 شرکت Anthropic با معرفی Agent Skills راهی داده تا از دل یک general-purpose agent مثل Claude، agentهای تخصصی بسازیم؛ نه با promptهای پراکنده، بلکه با فولدرهای منظم از instructions، noscripts و resources که مدل می‌تواند هر وقت لازم بود کشف و load کند.

🔹 هر Skill در ساده‌ترین حالت یک دایرکتوری با فایل SKILL.md است که در آن YAML frontmatter (name و denoscription) و راهنمای قدم‌به‌قدم برای کار مشخص قرار می‌گیرد. Claude در system prompt فقط متادیتای Skillها را می‌بیند و هر وقت لازم باشد، محتوای کامل SKILL.md و حتی فایل‌های کمکی مثل forms.md یا reference.md را می‌خواند؛ یعنی progressive disclosure و استفاده‌ی بهینه از context window.

مدل Skills می‌توانند علاوه بر متن، code هم شامل شوند؛ مثلاً در PDF skill، یک Python noscript برای خواندن فرم‌های داخل PDF به Claude اجازه می‌دهد بدون بلعیدن کل فایل در context، روی فایل کار کند. نتیجه این است که سازمان‌ها می‌توانند procedural knowledge و workflow‌های خود را مثل یک دفترچه‌ی onboarding در قالب Skill بسته‌بندی کنند و روی Claude.ai، Claude Code، Agent SDK و Developer Platform به‌طور یکپارچه استفاده کنند.

📑 منبع:
🔗 https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥3👍2
📚 ایجاد Scaling Reasoning بدون Scaling هزینه؛ روش جدید RL از Tencent Hunyuan

زمان مطالعه: ۱ دقیقه و نیم

💳 #Reasoning

📁 با پیشرفت reinforcement learning در LLM reasoning (از جنس جهش‌های O1-style)، حالا cost تبدیل به گلوگاه اصلی شده. تیم Tencent Hunyuan Reasoning & Pretrain یک رویکرد جدید RL معرفی کرده که می‌تواند reasoning را scale کند بدون این‌که به human-labeled data وابسته باشد.

🍏 ایده این است که به‌جای Next Token Prediction، از RL-driven Next Segment Prediction روی high-quality text استفاده شود؛ بدون نیاز به golden answers. دو تسک اصلی:

‍۱. تسک ASR (Autoregressive Segment Reasoning): پیش‌بینی پاراگراف بعدی از روی context قبلی، سپس تقویت generative continuity.

۲. تسک MSR (Middle Segment Reasoning): حدس‌زدن پاراگراف ماسک‌شده با استفاده از متن قبل و بعد، سپس وادار کردن مدل به deeper contextual understanding.

⭐️ مزیت‌ها
بدون نیاز به human annotation
مقیاس‌پذیری طبیعی با افزایش dataset size
هم‌زمان بهبود generation و reasoning

نتایج بعد از چند هزار RL steps روی base model چشم‌گیر است:
+3.0% MMLU | +5.1% MMLU-Pro | +8.1% GPQA-Diamond | +6.0% KOR-Bench | بیش از +5% روی AIME24/25.
در تنظیمات end-to-end RLVR هم: +2.3% AIME24 | +1.3% AIME25 | +3% AMC | +1.5% MATH500.

خلاصه این‌که کار Hunyuan نشان می‌دهد reasoning scaling ≠ cost scaling؛ با طراحی درست، RL می‌تواند فراتر از human supervision رشد کند.


🔽 منبع:
🔗 https://x.com/ZhihuFrontier/status/1977684644100468911

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👏52👍2
🤖 مدل Wan 2.5؛ قوی‌ترین مدل ویدیوی Alibaba تا امروز (اما دیگه open weights نیست)

زمان مطالعه: ۳۰ ثانیه

💳 #Video

📁 مدل Wan 2.5 از Alibaba Wan با ورود به رتبه‌ی #5 در Text to Video و #8 در Image to Video، قوی‌ترین نسخه‌ی ویدیویی این خانواده شده؛ اما برخلاف نسخه‌های قبلی، فقط از طریق proprietary API در دسترس است و دیگر open weights / Apache 2.0 نیست.

💬 این نسخه 24fps در 1080p تا 10s، ورودی audio برای lip sync، و قیمت حدود $0.15/s روی fal و replicate دارد؛ کمی گران‌تر از Kling 2.5 Turbo و Hailuo 02 Pro، ولی همچنان ارزان‌تر از مدل‌هایی مثل Veo 3 و Sora 2.

💬 لینک منبع:
🔗 https://x.com/ArtificialAnlys/status/1977910656566489143

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👏3👍2
🤖 مروری کوتاه بر مدل ویدیویی Wan 2.2 FLF2V

زمان مطالعه: ۱ دقیقه و نیم

💳 #Video

مدل Wan 2.2 به‌طور کلی یک مدل AI video generation در اکوسیستم Alibaba Wan / Tongyi Wanxiang است که برای سناریوهای text-to-video و image-to-video طراحی شده و در رزولوشن 720p / 24fps عملکرد بسیار خوبی دارد.

زیرشاخه‌ی Wan 2.2 FLF2V (مخفف First–Last Frame to Video) یک حالت / ورک‌فلو تخصصی است که این امکان را فراهم می‌کند تنها با دو تصویر ثابت (فریم ابتدا و انتها)، یک ویدئوی روان و با حال‌وهوای سینمایی تولید شود. مدل با استفاده از motion interpolation، فریم‌های میانی را به‌صورت خودکار تولید کرده و یک ترنزیشن نرم و منسجم بین شروع و پایان ایجاد می‌کند؛ قابلیتی که آن را برای character morphing، ترنزیشن‌های خلاقانه و visual storytelling بسیار محبوب کرده است.

در ساب‌ردیت r/StableDiffusion توجه قابل‌توجهی به مدل Wan 2.2 FLF2V شده است؛ به‌ویژه زمانی که با -Ellary- method (pipeline خطی SDXL در بخش pencil drawing lineart) ترکیب می‌شود. خروجی‌ها برای text-to-video / image-to-video بسیار تمیز، منسجم و خوش‌استایل گزارش شده‌اند.

با این حال، برخی کاربران برای بهبود temporal stability پیشنهاد می‌کنند در کنار آن از Wan VACE / clip joiner نیز استفاده شود تا camera / character jumps به حداقل برسد.

⭐️ لینک منبع:
🔗 https://www.reddit.com/r/StableDiffusion/comments/1o55qfy/youre_seriously_missing_out_if_you_havent_tried

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2
🤖 Multi-task RL

زمان مطالعه: ۱ دقیقه و نیم

💳 #MultiTask

⭐️ Paper: Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

فرض کنید یک ورزشکار ربات داریم که باید کلی کار مختلف یاد بگیره:
راه‌رفتن، پریدن، گرفتن توپ، هل‌دادن جعبه و …

در RL معمولاً دو بخش مهم داریم:
بخش policy = خودِ بازیکن که تصمیم می‌گیرد «الان چی کار کنم؟»
بحش critic / value function = مربی/داور که می‌گوید «این کار خوب بود یا بد؟ چقدر امتیاز می‌گیرد؟»

حرف این کار این است که:
۱. اگر یک مربی خیلی قوی و بزرگ (critic) درست کنیم و او را روی کارهای خیلی متنوع آموزش بدهیم،
۲. بعداً وقتی می‌خواهیم کار جدید یاد بگیریم،
۳. فقط با استفاده‌ی دوباره از همین مربی آموزش‌دیده، آن کار جدید خیلی سریع‌تر و بهتر یاد گرفته می‌شود.

نکته‌ی جالب این‌جاست که:
۱. بیشترین کمک به یادگیریِ کارهای جدید را همین critic می‌کند،
۲. نه لزوماً خود policy (بازیکن).

پس خلاصه:
اگر در multi-task RL یک critic بزرگ و خوب آموزش‌دیده روی کلی task داشته باشیم،
می‌تواند مثل یک foundation model عمل کند و کمک کند کارهای جدید را با داده‌ی کمتر و سرعت بیشتر یاد بگیریم.

🔽 لینک به مقاله‌ی BRC:
🔗 https://arxiv.org/abs/2505.23150

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62👏2
📊 یادگیری تقویتی (RL) ساده‌تر از آن است که فکر می‌کنید

زمان مطالعه: ۱ دقیقه و نیم

💳 #LLMs

بن رکت (Ben Recht) در مقاله جدید خود با عنوان Defining Reinforcement Learning Down، نگاهی انتقادی و مینی‌مالیستی به مفهوم یادگیری تقویتی انداخته است. او معتقد است که آموزش‌های کلاسیک (پر از معادلات پیچیده MDP) ما را از اصل ماجرا دور کرده‌اند.

خلاصه دیدگاه «RL اصلاح‌طلب» (Reformist RL) در چند خط:

💬 تعریف ساده‌سازی شده: یادگیری تقویتی چیزی جز یک چرخه تکراری بهینه‌سازی نیست:
۱. تولید مجموعه‌ای از پاسخ‌ها برای یک محیط تست.
۲. دریافت امتیاز (Score) برای این پاسخ‌ها.
۳. آپدیت کردن کُد برای افزایش میانگین امتیاز در دور بعدی.

💬 رابطه با مدل‌های مولد (Generative Models): نکته کلیدی اینجاست: در RL مدرن، «کد» همان «مدل مولد» است. اگر مدل پاسخی داد که امتیاز بالایی گرفت، ما صرفاً احتمالات مدل را طوری تغییر می‌دهیم که آن پاسخ در آینده محتمل‌تر شود (Policy Gradient).

🎙 چرا این مهم است؟ این دیدگاه توضیح می‌دهد که چرا RL روی مدل‌های زبانی بزرگ (LLM) به خوبی جواب می‌دهد.

فرآیند Pre-training: یادگیری احتمالات از روی متن‌های اینترنت.

فرآیند Post-training (RL): همان فرآیند، اما این‌بار وزن‌دهی بر اساس امتیازاتی که محیط (یا انسان) به خروجی می‌دهد.

🙋 جایگاه MDPها: در این نگاه، فرآیندهای تصمیم‌گیری مارکوف (MDP) اساسِ RL نیستند، بلکه صرفاً زیرمجموعه‌ای خاص از آن هستند که در آن تست‌ها به صورت دنباله‌دار و وابسته به هم طراحی شده‌اند.

💡 نتیجه‌گیری: اگر کدی برای ساخت Generative Model دارید، با اضافه کردن وزن‌دهی بر اساس امتیازات، شما عملاً یک ایجنت RL ساخته‌اید. به همین سادگی.

🔽 لینک به مقاله‌ی Ben Recht:
🔗 https://www.argmin.net/p/defining-reinforcement-learning-down

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥4👍2
📊 جعبه‌ابزار کامل Fine-Tuning (شخصی‌سازی مدل‌های زبانی)

زمان مطالعه: ۲ دقیقه

💳 #LLMs

اگر می‌خوای بدونی چطور مدل‌های هوش مصنوعی رو برای کار خودت کاستومایز کنی، باید این ۱۶ تکنیک رو بشناسی. اینجا کاربرد هر کدوم رو خیلی ساده برات نوشتم:

۱. روش LoRA (محبوب‌ترین روش؛ افزودن ماتریس‌های کوچک برای کاهش شدید هزینه آموزش)

۲. روش QLoRA (نسخه فشرده‌تر LoRA؛ مناسب وقتی کارت گرافیک قوی نداری)

۳. روش Prefix Tuning (اضافه کردن «پیش‌وند»های قابل آموزش به ورودی‌ها برای هدایت مدل)

۴. روش Adapter Tuning (تزریق لایه‌های کوچک و سبک بین لایه‌های اصلی مدل)

۵. روش BitFit (فقط پارامترهای بایاس مدل رو تغییر میده؛ فوق‌العاده سریع و سبک)

۶. روش P-Tuning v2 (بهینه‌سازی پرامپت‌ها در لایه‌های عمیق‌تر مدل برای دقت بیشتر)

۷. روش Soft Prompts (استفاده از کدهای عددی قابل تغییر به جای متن ثابت در ورودی)

۸. روش Instruction Tuning (یاد دادن نحوه اطاعت از دستورات و سوال/جواب به مدل)

۹. روش RLHF (آموزش مدل با بازخورد و امتیازدهی انسان‌ها؛ برای مودب و دقیق شدن)

۱۰. روش DPO (جایگزین ساده‌تر RLHF؛ تنظیم مستقیم مدل بر اساس ترجیحات ما بدون پیچیدگی)

۱۱. روش RLAIF (شبیه RLHF ولی به جای انسان، یک هوش مصنوعی دیگه به مدل بازخورد میده)

۱۲. روش Multi-Task Fine-Tuning (آموزش همزمان مدل برای انجام چندین کار مختلف مثل ترجمه و خلاصه سازی با هم)

۱۳. روش Full Fine-Tuning (تغییر کل مغز مدل؛ دقیق‌ترین اما سنگین‌ترین و گران‌ترین روش)

۱۴. روش Mixture-of-Experts Fine-Tuning (تنظیم مدل‌های خاصی که از چندین «متخصص» تشکیل شدن و فقط بخشی‌شون فعال میشه)

۱۵. روش Federated Fine-Tuning (آموزش روی دستگاه‌های کاربران برای حفظ حریم خصوصی بدون ارسال داده به سرور)

۱۶. روش On-Device Adaptation (بهینه‌سازی مدل برای اینکه روی موبایل یا لپ‌تاپ‌های معمولی اجرا بشه)

🤖 نکته: برای شروع، یادگیری شماره ۱ (LoRA) و شماره ۸ (Instruction Tuning) از همه واجب‌تره!

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👏2👍1
📊 پیشرفت در local training: انتشار Unsloth جدید

زمان مطالعه: ۱ دقیقه و نیم

💳 #LLMs

تیم Unsloth از کرنل‌های جدید Triton و قابلیت Smart Auto Packing رونمایی کرد. اگر روی GPU محدودیت دارید یا سرعت training برایتان مهم است، این آپدیت را از دست ندهید.

📊 خلاصه عملکرد
سرعت: ۳ تا ۵ برابر سریع‌تر.
حافظه: ۳۰٪ تا ۹۰٪ مصرف VRAM کمتر (مثلاً ترینینگ Qwen3-4B تنها با 3.9GB VRAM).
دقت: بدون هیچ‌گونه افت دقت (No accuracy degradation) و تطابق کامل Loss با روش‌های معمول.

📁 نکات فنی برای ریسرچرها
مورد Custom Triton Kernels: بازنویسی کرنل‌های RoPE و MLP برای حداکثر پرفورمنس.
مورد Uncontaminated Auto Packing: حذف هوشمند Paddingها بدون تاثیر منفی روی دیتای آموزشی (بک‌اند xformers و FA3).
مورد Long Context: پشتیبانی از ایندکس‌گذاری int64 در کرنل‌های SwiGLU/GeGLU برای مدل‌های کانتکست طولانی.
مورد Stability: بهبود پایداری SFT Loss و استفاده بهینه‌تر از GPU.

💬 لینک گیت‌هاب:
🔗 github.com/unslothai/unsloth

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍31
📊 برنامه‌نویسی رقابتی با LLMها (o1 / o1-ioi / o3)

زمان مطالعه: ۲ دقیقه

💳 #LLMs

این مقاله داره نشون می‌ده ریزنینگ مدل‌های ترین شده با RL چطوری از «یک LLM که فقط کد می‌زنه» می‌رسن به سطح طلای IOI + ریتینگ بالای ۲۷۰۰ تو Codeforces.

1️⃣ مدل o1 - به صورت Chain-of-Thought ترین با RL
مدل o1 از OpenAI با RL طوری ترین شده که اول فکر کنه بعد جواب بده:
یک زنجیره‌ی استدلال طولانی پشت‌صحنه می‌نویسه، خودش رو دیباگ می‌کنه، چند تا پلن مختلف رو تست می‌کنه، بعد هم از ابزارها (مثل secure code execution) کمک می‌گیره تا کد رو کامپایل/ران کنه و هی روی راه‌حلش ایتریت کنه.

🔽 مسابقات Codeforces Div 1 (اواخر ۲۰۲۳ و ۲۰۲۴)، یه سناریوی شبیه مسابقه‌ی واقعی می‌چینن و نتیجه اینه:

مدل GPT-4o حدوداً ریتینگ 808 (۱۱امین صدک)
مدل o1-preview حدوداً ریتینگ 1258 (۶۲امین صدک)
مدل o1 حدوداً ریتینگ 1673 (۸۹امین صدک)

یعنی فقط با اضافه‌کردن RL + reasoning، مدل می‌ره تو محدوده‌ی یک expert.

2️⃣ مدل o1-ioi – نسخه‌ی ویژه‌ی IOI با محاسبه‌ی سنگین موقع تست
یک Fine-tuning اضافه با RL روی تسک‌های سخت برنامه‌نویسی، C++ و فرمت IOI انجام می‌دن.

🔽 تو زمان تست، برای هر subtask تو IOI این کارها رو می‌کنن:
حدود ۱۰,۰۰۰ تا solution از مدل سمپل می‌گیرن،
تست‌های تصادفی تولید می‌کنن و روشون validate می‌گیرن،
در ادامه solutionها رو بر اساس رفتار خوشه‌بندی می‌کنن،
خوشه‌ها رو با یه scorer دوباره رنک می‌کنن (با پنالتی برای تست‌های fail شده و سابمیشن‌های قبلی)،
و نهایتاً تا ۵۰ تا سابمیشن می‌فرستن، به‌صورت round-robin بین subtasks.

🤖 نتایج:
روی Codeforces، با هر مرحله هیوریستیک زمان تست، ریتینگ o1-ioi از 1807 به 2092 و بعد به 2214 می‌ره بالا (حدود ۹۸امین صدک).
در IOI 2024 واقعی و با قوانین انسانی (حداکثر ۵۰ سابمیشن برای هر مسئله)، امتیاز 213 می‌گیره؛ یعنی حدود ۴۹امین صدک بین شرکت‌کننده‌ها.
اگر سقف سابمیشن رو ببرن روی ۱۰ هزار تا برای هر مسئله، امتیازش می‌ره روی 362.14، یعنی بالاتر از حد مدال طلا.


3️⃣ مدل o3 – به‌جای هیوریستیک دستی، اسکیل‌کردن خود RL
قدم بعدی اینه که به‌جای این‌که مدام هیوریستیک زمان تست اضافه کنن، خود RL رو اسکیل کنن و بذارن مدل خودش استراتژی زمان تست یاد بگیره. این می‌شه o3.

روی همون بنچمارک Codeforces، رفتن از o1-ioi به یه checkpoint اولیه‌ی o3 ریتینگ رو از 2214 به 2724 می‌بره بالا (حدود ۹۹.۸امین صدک)، یعنی محدوده‌ی international grandmaster.
مدل o3 خیلی وقت‌ها خودش brute-force checker می‌نویسه تا راه‌حل بهینه‌ای که تولید کرده رو چک کنه، خروجی‌ها رو باهم cross-check می‌کنه و الگوریتم‌هاش رو refine می‌کنه – یه چیزی شبیه pipeline انتخاب تو IOI، ولی این‌بار خودبه‌خود از RL درمیاد، نه این‌که دستی طراحی شده باشه.
روی IOI 2024 (ارزیابی retrospective، با محدودیت ۵۰ سابمیشن و sampling خیلی ساده‌تر از o1-ioi)، امتیاز 395.64 می‌گیره؛ راحت بالای حد طلای IOI و بهتر از o1-ioi، حتی وقتی به o1-ioi اجازه‌ی ۱۰ هزار سابمیشن می‌دن.

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍2
📊 راز برتری Gemini 3 Flash بر غول‌های هوش مصنوعی؛ نقش کلیدی Agentic RL

زمان مطالعه: ۱ دقیقه و نیم

💳 #LLMs

در دسامبر ۲۰۲۵، با معرفی Gemini 3 Flash، دنیای هوش مصنوعی شاهد یک اتفاق کم‌سابقه بود: مدلی که از نظر ابعاد کوچک‌تر و از نظر هزینه بسیار ارزان‌تر است، توانست در یکی از سخت‌ترین بنچ‌مارک‌های برنامه‌نویسی (SWE-bench Verified)، مدل‌های قدرتمندی چون Gemini 3 Pro، GPT-5.2 و Claude Opus 4.5 را شکست دهد.


۱. چرا Flash از Pro پیشی گرفت؟
برخلاف باور عمومی، مدل‌های سری Flash صرفاً نسخه‌های «تقطیر شده» (Distilled) یا کوچک‌شده‌ی مدل‌های Pro نیستند. طبق گفته‌ی آنکش آناند (از محققان گوگل DeepMind)، مدل Gemini 3 Flash از پیشرفت‌های جدیدی در زمینه‌ی RL (یادگیری تقویتی) بهره می‌برد که به دلیل زمان‌بندی توسعه، در نسخه‌ی اولیه Pro اعمال نشده بود.

۲. مفهوم Agentic RL (یادگیری تقویتی ایجنتی) چیست؟
تفاوت اصلی در روش آموزش است. در حالی که مدل‌های سنتی برای پیش‌بینی کلمه‌ی بعدی آموزش می‌بینند، Agentic RL بر روی توانایی مدل برای عمل کردن به‌عنوان یک «ایجنت» (کارگزار) تمرکز دارد:

🔽 تعامل با محیط: مدل یاد می‌گیرد که چگونه از ابزارها (مثل مفسر پایتون یا ترمینال) استفاده کند.

🔽 یادگیری از بازخورد: اگر کدی که مدل نوشته با خطا مواجه شود، در فرآیند RL یاد می‌گیرد که چگونه خطا را تحلیل و آن را اصلاح کند.

🔽 برنامه‌ریزی چندمرحله‌ای: مدل به جای تولید یک‌باره‌ی پاسخ، یاد می‌گیرد که مراحل حل مسئله را به ترتیب اجرا کرده و در هر مرحله درستی مسیر را بسنجد.

۳. تحلیل نتایج بنچ‌مارک SWE-bench
بنچ‌مارک SWE-bench Verified توانایی مدل را در حل مسائل واقعی مهندسی نرم‌افزار (در سطح گیت‌هاب) می‌سنجد.

مدل Gemini 3 Flash: با کسب امتیاز ۷۸٪، نه تنها از برادر بزرگتر خود (Pro با ۷۶.۲٪) پیشی گرفت، بلکه از رقبای سنگین‌وزنی مثل GPT-5.2 نیز فراتر رفت.

این نتیجه ثابت می‌کند که در وظایف پیچیده و ایجنتی (مثل رفع باگ یا توسعه نرم‌افزار)، بهینگی الگوریتم‌های یادگیری مهم‌تر از تعداد پارامترهای مدل است.

۴. نتیجه‌گیری برای آینده هوش مصنوعی

این جهش نشان‌دهنده‌ی یک تغییر پارادایم است:
هوش مصنوعی دیگر فقط یک ماشین تولید متن نیست، بلکه به سمتی می‌رود که به یک Decision Maker (تصمیم‌گیرنده) تبدیل شود که می‌تواند در محیط‌های فنی به صورت خودمختار فعالیت کند.


🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
👏5👍32
📚 Monte Carlo methods in RL

📁 فصل هفتم (لینک) با موضوع Monte Carlo methods in RL هم‌اکنون روی سایت RLHub در دسترس هست. با مراجعه به سایت، می‌تونید از این مطالب استفاده کنید.

📁 توجه داشته باشید این فصل فصل دوم از بخش Value-Based methods هست و باقی فصل‌های این بخش در آینده ریلیز می‌شن.

🔻 ما رو به رفیق‌هاتون معرفی کنین که هاب اصلی RL، همین‌جاست!

🌐 the-rl-hub.github.io
✈️ @RL_Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍31