Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤3👍2
استنتاج واریانسی یک روش تقریبی برای حل مسائل پیچیدهٔ احتمالاتیه؛ مخصوصاً وقتی محاسبهٔ توزیع پسین (posterior) غیرقابل حل یا خیلی گرون باشه.
بهجای اینکه مستقیم سراغ توزیع پسین بریم (که سخته)، میایم یک توزیع سادهتر رو بهش نزدیک میکنیم.
ما یک خانوادهای از توزیعهای ساده (مثلاً نرمال) در نظر میگیریم. بعدش، دنبال اون عضوی از این خانواده میگردیم که بیشترین شباهت رو به توزیع پسین واقعی داشته باشه.
برای سنجش این شباهت، از KL Divergence استفاده میکنیم و تلاش میکنیم اون رو مینیمم کنیم.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3❤2
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍4❤2
تنسور یه ساختار ریاضی برای نگهداشتن دادههاست، چیزی شبیه بردار و ماتریسه، ولی در ابعاد بالاتر.
در واقع، تنسور یه آرایه چند بعدیه که میتونه دادههای عددی رو در چندین محور ذخیره کنه.
پس مثلاً یه تصویر رنگی 256×256 با 3 کانال رنگی یه تنسور 3 بعدیه.
برای نمایش تنسورها معمولاً از نماد Tijk استفاده میکنیم که نشون میده عنصر مربوط به محور اول، دوم و سوم چیه.
در زبانهای برنامهنویسی مثل Python (مثلاً با NumPy یا PyTorch)، تنسورها با
tensor[i][j][k] یا tensor[i,j,k] نمایش داده میشن.Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥3
یعنی اگر برنامهای با گذر زمان و دریافت دادههای بیشتر، در انجام یک کار خاص بهتر شود و این بهبود قابل اندازهگیری باشد، آن برنامه در حال یادگیری است.
1. یادگیری با نظارت (Supervised Learning)
2. یادگیری بدون نظارت (Unsupervised Learning)
3. یادگیری نیمهنظارتی (Semi-supervised Learning)
4. یادگیری تقویتی (Reinforcement Learning)
5. یادگیری خودنظارتی (Self-supervised Learning)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍4❤3
🤖 این سایت، منبع course شرکت OpenAI با موضوع Deep RL هست که توسط developerهای این شرکت در توئیتر معرفی شده. از پایه شروع میشه، به معرفی الگوریتمها میپردازه و به استفاده از ابزارهای بهروز میرسه. در نهایت محتوا شامل هر آنچه ممکنه در مصاحبههای کاری مرتبط پرسیده بشه، هست.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👏3❤2
1. هدف Safety maximization با جریمهی محتوای ناامن،
2. هدف Helpfulness maximization با پاداش به پاسخهای مفید (با مدل WorldPM-Helpsteer2)،
3. هدف Refusal minimization با جریمه برای refusalهای غیرضروری.
در کنار آن، Qwen3GuardTest هم معرفی شده؛ یک benchmark برای ارزیابی Guard modelها که دو جنبه را پوشش میدهد:
۱. جنبهی Safety classification برای محتوای intermediate reasoning / thinking،
۲. جنبهی moderation خروجیهای streaming / token-by-token.
این اوپنسورسها ابزار خوبی برای پژوهش روی safety و طراحی guardrailهای بهتر برای LLMها فراهم میکنند.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👏2
در عمل، این کار هم یک scientific framework برای فهم بهتر RL scaling روی LLMها میدهد و هم یک دستورالعمل عملی برای رسیدن به کارایی بالا بدون هدر دادن compute.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3❤2
forms.md یا reference.md را میخواند؛ یعنی progressive disclosure و استفادهی بهینه از context window.Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥3👍2
۱. تسک ASR (Autoregressive Segment Reasoning): پیشبینی پاراگراف بعدی از روی context قبلی، سپس تقویت generative continuity.
۲. تسک MSR (Middle Segment Reasoning): حدسزدن پاراگراف ماسکشده با استفاده از متن قبل و بعد، سپس وادار کردن مدل به deeper contextual understanding.
بدون نیاز به human annotation
مقیاسپذیری طبیعی با افزایش dataset size
همزمان بهبود generation و reasoning
نتایج بعد از چند هزار RL steps روی base model چشمگیر است:
+3.0% MMLU | +5.1% MMLU-Pro | +8.1% GPQA-Diamond | +6.0% KOR-Bench | بیش از +5% روی AIME24/25.
در تنظیمات end-to-end RLVR هم: +2.3% AIME24 | +1.3% AIME25 | +3% AMC | +1.5% MATH500.
خلاصه اینکه کار Hunyuan نشان میدهد reasoning scaling ≠ cost scaling؛ با طراحی درست، RL میتواند فراتر از human supervision رشد کند.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏5❤2👍2
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👏3👍2
Reddit
From the StableDiffusion community on Reddit: You’re seriously missing out if you haven’t tried Wan 2.2 FLF2V yet! (-Ellary- method)
Explore this post and more from the StableDiffusion community
مدل Wan 2.2 بهطور کلی یک مدل AI video generation در اکوسیستم Alibaba Wan / Tongyi Wanxiang است که برای سناریوهای text-to-video و image-to-video طراحی شده و در رزولوشن 720p / 24fps عملکرد بسیار خوبی دارد.
زیرشاخهی Wan 2.2 FLF2V (مخفف First–Last Frame to Video) یک حالت / ورکفلو تخصصی است که این امکان را فراهم میکند تنها با دو تصویر ثابت (فریم ابتدا و انتها)، یک ویدئوی روان و با حالوهوای سینمایی تولید شود. مدل با استفاده از motion interpolation، فریمهای میانی را بهصورت خودکار تولید کرده و یک ترنزیشن نرم و منسجم بین شروع و پایان ایجاد میکند؛ قابلیتی که آن را برای character morphing، ترنزیشنهای خلاقانه و visual storytelling بسیار محبوب کرده است.
در سابردیت r/StableDiffusion توجه قابلتوجهی به مدل Wan 2.2 FLF2V شده است؛ بهویژه زمانی که با -Ellary- method (pipeline خطی SDXL در بخش pencil drawing lineart) ترکیب میشود. خروجیها برای text-to-video / image-to-video بسیار تمیز، منسجم و خوشاستایل گزارش شدهاند.
با این حال، برخی کاربران برای بهبود temporal stability پیشنهاد میکنند در کنار آن از Wan VACE / clip joiner نیز استفاده شود تا camera / character jumps به حداقل برسد.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2
فرض کنید یک ورزشکار ربات داریم که باید کلی کار مختلف یاد بگیره:
راهرفتن، پریدن، گرفتن توپ، هلدادن جعبه و …
در RL معمولاً دو بخش مهم داریم:
بخش policy = خودِ بازیکن که تصمیم میگیرد «الان چی کار کنم؟»
بحش critic / value function = مربی/داور که میگوید «این کار خوب بود یا بد؟ چقدر امتیاز میگیرد؟»
حرف این کار این است که:
۱. اگر یک مربی خیلی قوی و بزرگ (critic) درست کنیم و او را روی کارهای خیلی متنوع آموزش بدهیم،
۲. بعداً وقتی میخواهیم کار جدید یاد بگیریم،
۳. فقط با استفادهی دوباره از همین مربی آموزشدیده، آن کار جدید خیلی سریعتر و بهتر یاد گرفته میشود.
نکتهی جالب اینجاست که:
۱. بیشترین کمک به یادگیریِ کارهای جدید را همین critic میکند،
۲. نه لزوماً خود policy (بازیکن).
پس خلاصه:
اگر در multi-task RL یک critic بزرگ و خوب آموزشدیده روی کلی task داشته باشیم،
میتواند مثل یک foundation model عمل کند و کمک کند کارهای جدید را با دادهی کمتر و سرعت بیشتر یاد بگیریم.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2👏2
بن رکت (Ben Recht) در مقاله جدید خود با عنوان Defining Reinforcement Learning Down، نگاهی انتقادی و مینیمالیستی به مفهوم یادگیری تقویتی انداخته است. او معتقد است که آموزشهای کلاسیک (پر از معادلات پیچیده MDP) ما را از اصل ماجرا دور کردهاند.
خلاصه دیدگاه «RL اصلاحطلب» (Reformist RL) در چند خط:
۱. تولید مجموعهای از پاسخها برای یک محیط تست.
۲. دریافت امتیاز (Score) برای این پاسخها.
۳. آپدیت کردن کُد برای افزایش میانگین امتیاز در دور بعدی.
فرآیند Pre-training: یادگیری احتمالات از روی متنهای اینترنت.
فرآیند Post-training (RL): همان فرآیند، اما اینبار وزندهی بر اساس امتیازاتی که محیط (یا انسان) به خروجی میدهد.
Please open Telegram to view this post
VIEW IN TELEGRAM
arg min
Defining Reinforcement Learning Down
It's a lot simpler than I realized.
❤4🔥4👍2
اگر میخوای بدونی چطور مدلهای هوش مصنوعی رو برای کار خودت کاستومایز کنی، باید این ۱۶ تکنیک رو بشناسی. اینجا کاربرد هر کدوم رو خیلی ساده برات نوشتم:
۱. روش LoRA (محبوبترین روش؛ افزودن ماتریسهای کوچک برای کاهش شدید هزینه آموزش)
۲. روش QLoRA (نسخه فشردهتر LoRA؛ مناسب وقتی کارت گرافیک قوی نداری)
۳. روش Prefix Tuning (اضافه کردن «پیشوند»های قابل آموزش به ورودیها برای هدایت مدل)
۴. روش Adapter Tuning (تزریق لایههای کوچک و سبک بین لایههای اصلی مدل)
۵. روش BitFit (فقط پارامترهای بایاس مدل رو تغییر میده؛ فوقالعاده سریع و سبک)
۶. روش P-Tuning v2 (بهینهسازی پرامپتها در لایههای عمیقتر مدل برای دقت بیشتر)
۷. روش Soft Prompts (استفاده از کدهای عددی قابل تغییر به جای متن ثابت در ورودی)
۸. روش Instruction Tuning (یاد دادن نحوه اطاعت از دستورات و سوال/جواب به مدل)
۹. روش RLHF (آموزش مدل با بازخورد و امتیازدهی انسانها؛ برای مودب و دقیق شدن)
۱۰. روش DPO (جایگزین سادهتر RLHF؛ تنظیم مستقیم مدل بر اساس ترجیحات ما بدون پیچیدگی)
۱۱. روش RLAIF (شبیه RLHF ولی به جای انسان، یک هوش مصنوعی دیگه به مدل بازخورد میده)
۱۲. روش Multi-Task Fine-Tuning (آموزش همزمان مدل برای انجام چندین کار مختلف مثل ترجمه و خلاصه سازی با هم)
۱۳. روش Full Fine-Tuning (تغییر کل مغز مدل؛ دقیقترین اما سنگینترین و گرانترین روش)
۱۴. روش Mixture-of-Experts Fine-Tuning (تنظیم مدلهای خاصی که از چندین «متخصص» تشکیل شدن و فقط بخشیشون فعال میشه)
۱۵. روش Federated Fine-Tuning (آموزش روی دستگاههای کاربران برای حفظ حریم خصوصی بدون ارسال داده به سرور)
۱۶. روش On-Device Adaptation (بهینهسازی مدل برای اینکه روی موبایل یا لپتاپهای معمولی اجرا بشه)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤2👏2👍1
تیم Unsloth از کرنلهای جدید Triton و قابلیت Smart Auto Packing رونمایی کرد. اگر روی GPU محدودیت دارید یا سرعت training برایتان مهم است، این آپدیت را از دست ندهید.
سرعت: ۳ تا ۵ برابر سریعتر.
حافظه: ۳۰٪ تا ۹۰٪ مصرف VRAM کمتر (مثلاً ترینینگ Qwen3-4B تنها با 3.9GB VRAM).
دقت: بدون هیچگونه افت دقت (No accuracy degradation) و تطابق کامل Loss با روشهای معمول.
مورد Custom Triton Kernels: بازنویسی کرنلهای RoPE و MLP برای حداکثر پرفورمنس.
مورد Uncontaminated Auto Packing: حذف هوشمند Paddingها بدون تاثیر منفی روی دیتای آموزشی (بکاند xformers و FA3).
مورد Long Context: پشتیبانی از ایندکسگذاری int64 در کرنلهای SwiGLU/GeGLU برای مدلهای کانتکست طولانی.
مورد Stability: بهبود پایداری SFT Loss و استفاده بهینهتر از GPU.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3❤1
این مقاله داره نشون میده ریزنینگ مدلهای ترین شده با RL چطوری از «یک LLM که فقط کد میزنه» میرسن به سطح طلای IOI + ریتینگ بالای ۲۷۰۰ تو Codeforces.
1️⃣ مدل o1 - به صورت Chain-of-Thought ترین با RL
مدل o1 از OpenAI با RL طوری ترین شده که اول فکر کنه بعد جواب بده:
یک زنجیرهی استدلال طولانی پشتصحنه مینویسه، خودش رو دیباگ میکنه، چند تا پلن مختلف رو تست میکنه، بعد هم از ابزارها (مثل secure code execution) کمک میگیره تا کد رو کامپایل/ران کنه و هی روی راهحلش ایتریت کنه.
مدل GPT-4o حدوداً ریتینگ 808 (۱۱امین صدک)
مدل o1-preview حدوداً ریتینگ 1258 (۶۲امین صدک)
مدل o1 حدوداً ریتینگ 1673 (۸۹امین صدک)
یعنی فقط با اضافهکردن RL + reasoning، مدل میره تو محدودهی یک expert.
2️⃣ مدل o1-ioi – نسخهی ویژهی IOI با محاسبهی سنگین موقع تست
یک Fine-tuning اضافه با RL روی تسکهای سخت برنامهنویسی، C++ و فرمت IOI انجام میدن.
حدود ۱۰,۰۰۰ تا solution از مدل سمپل میگیرن،
تستهای تصادفی تولید میکنن و روشون validate میگیرن،
در ادامه solutionها رو بر اساس رفتار خوشهبندی میکنن،
خوشهها رو با یه scorer دوباره رنک میکنن (با پنالتی برای تستهای fail شده و سابمیشنهای قبلی)،
و نهایتاً تا ۵۰ تا سابمیشن میفرستن، بهصورت round-robin بین subtasks.
روی Codeforces، با هر مرحله هیوریستیک زمان تست، ریتینگ o1-ioi از 1807 به 2092 و بعد به 2214 میره بالا (حدود ۹۸امین صدک).
در IOI 2024 واقعی و با قوانین انسانی (حداکثر ۵۰ سابمیشن برای هر مسئله)، امتیاز 213 میگیره؛ یعنی حدود ۴۹امین صدک بین شرکتکنندهها.
اگر سقف سابمیشن رو ببرن روی ۱۰ هزار تا برای هر مسئله، امتیازش میره روی 362.14، یعنی بالاتر از حد مدال طلا.
3️⃣ مدل o3 – بهجای هیوریستیک دستی، اسکیلکردن خود RL
قدم بعدی اینه که بهجای اینکه مدام هیوریستیک زمان تست اضافه کنن، خود RL رو اسکیل کنن و بذارن مدل خودش استراتژی زمان تست یاد بگیره. این میشه o3.
روی همون بنچمارک Codeforces، رفتن از o1-ioi به یه checkpoint اولیهی o3 ریتینگ رو از 2214 به 2724 میبره بالا (حدود ۹۹.۸امین صدک)، یعنی محدودهی international grandmaster.
مدل o3 خیلی وقتها خودش brute-force checker مینویسه تا راهحل بهینهای که تولید کرده رو چک کنه، خروجیها رو باهم cross-check میکنه و الگوریتمهاش رو refine میکنه – یه چیزی شبیه pipeline انتخاب تو IOI، ولی اینبار خودبهخود از RL درمیاد، نه اینکه دستی طراحی شده باشه.
روی IOI 2024 (ارزیابی retrospective، با محدودیت ۵۰ سابمیشن و sampling خیلی سادهتر از o1-ioi)، امتیاز 395.64 میگیره؛ راحت بالای حد طلای IOI و بهتر از o1-ioi، حتی وقتی به o1-ioi اجازهی ۱۰ هزار سابمیشن میدن.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤3👍2
در دسامبر ۲۰۲۵، با معرفی Gemini 3 Flash، دنیای هوش مصنوعی شاهد یک اتفاق کمسابقه بود: مدلی که از نظر ابعاد کوچکتر و از نظر هزینه بسیار ارزانتر است، توانست در یکی از سختترین بنچمارکهای برنامهنویسی (SWE-bench Verified)، مدلهای قدرتمندی چون Gemini 3 Pro، GPT-5.2 و Claude Opus 4.5 را شکست دهد.
۱. چرا Flash از Pro پیشی گرفت؟
برخلاف باور عمومی، مدلهای سری Flash صرفاً نسخههای «تقطیر شده» (Distilled) یا کوچکشدهی مدلهای Pro نیستند. طبق گفتهی آنکش آناند (از محققان گوگل DeepMind)، مدل Gemini 3 Flash از پیشرفتهای جدیدی در زمینهی RL (یادگیری تقویتی) بهره میبرد که به دلیل زمانبندی توسعه، در نسخهی اولیه Pro اعمال نشده بود.
۲. مفهوم Agentic RL (یادگیری تقویتی ایجنتی) چیست؟
تفاوت اصلی در روش آموزش است. در حالی که مدلهای سنتی برای پیشبینی کلمهی بعدی آموزش میبینند، Agentic RL بر روی توانایی مدل برای عمل کردن بهعنوان یک «ایجنت» (کارگزار) تمرکز دارد:
۳. تحلیل نتایج بنچمارک SWE-bench
بنچمارک SWE-bench Verified توانایی مدل را در حل مسائل واقعی مهندسی نرمافزار (در سطح گیتهاب) میسنجد.
مدل Gemini 3 Flash: با کسب امتیاز ۷۸٪، نه تنها از برادر بزرگتر خود (Pro با ۷۶.۲٪) پیشی گرفت، بلکه از رقبای سنگینوزنی مثل GPT-5.2 نیز فراتر رفت.
این نتیجه ثابت میکند که در وظایف پیچیده و ایجنتی (مثل رفع باگ یا توسعه نرمافزار)، بهینگی الگوریتمهای یادگیری مهمتر از تعداد پارامترهای مدل است.
۴. نتیجهگیری برای آینده هوش مصنوعی
این جهش نشاندهندهی یک تغییر پارادایم است:
هوش مصنوعی دیگر فقط یک ماشین تولید متن نیست، بلکه به سمتی میرود که به یک Decision Maker (تصمیمگیرنده) تبدیل شود که میتواند در محیطهای فنی به صورت خودمختار فعالیت کند.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏5👍3❤2
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3❤1