قانون اعداد بزرگ (LLN) میگه که هر چقدر تعداد نمونههایی که از یک متغیر تصادفی میگیریم بیشتر بشه، میانگین نمونهای ما به میانگین واقعی (امید ریاضی) اون متغیر نزدیکتر میشه.
فرض کن یک سکهای داریم که احتمال شیر اومدنش
0.5 هست.0.5 خیلی فرق داره.500 تا خواهد بود.50% میشه.Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3👏2❤1
قطریسازی (Diagonalization) یعنی تبدیل یک ماتریس مربعی به شکلی که فقط روی قطرش مقادیر غیر صفر داشته باشد. اگر یک ماتریس قابل قطریسازی باشد، میتوان آن را به این صورت نوشت:
A = P D P^(-1)
که در آن:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3👏2❤1
تبدیل آفین (Affine Transformation) نوعی نگاشت در فضای برداری است که خطوط راست را حفظ میکند، اما ممکن است اندازه، جهت، یا مکان اشیا را تغییر دهد. این تبدیل ترکیبی از یک تبدیل خطی و یک انتقال (Translation) است.
یک تبدیل آفین شامل دو بخش است:
- دوران یک شی حول مبدأ → تبدیل خطی
- دوران و سپس جابهجایی شی → تبدیل آفین
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2👍2🥰1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
تحلیل مؤلفههای اصلی (PCA) یک روش کاهش ابعاد است که دادههای پیچیده را به ابعاد کمتری تبدیل میکند، در حالی که بیشترین میزان اطلاعات را حفظ میکند.
تصور کنید یک مجموعه عکس از دستخط افراد دارید. این دستخطها ویژگیهای متفاوتی مثل شیب حروف، اندازه، یا فاصله بین کلمات دارند.
در واقع، PCA تلاش میکند مهمترین الگوها را پیدا کند.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👏3👍2❤1
گرادیان یه بردار ریاضیست که نشون میده تابع ما توی هر نقطه در چه جهتی بیشترین رشد (کاهش) رو داره.
مقدار هر مؤلفهی گرادیان، نشوندهندهی میزان تغییر تابع نسبت به اون متغیر هست.
فرض کن روی یک تپهای. چشمهات بستهست ولی فقط با حس پاهات میفهمی شیب زمین چجوریه.
گرادیان به ما نشون میده که:
به کدوم سمت برو که بیشترین افزایش ارتفاع رو داشته باشی.
یا اگه بخوای بری پایین تپه (کمینهسازی)، برعکسش رو انتخاب میکنی، یعنی خلاف جهت گرادیان.
در یک مدل یادگیری ماشین، ما میخوایم خطا (Loss) رو کم کنیم.
گرادیان به ما نشون میده که:
اگه پارامترها رو فلان مقدار تغییر بدی، خطا کمتر میشه!
و تو الگوریتمهایی مثل Gradient Descent دقیقاً از همین مفهوم برای بهروزرسانی وزنها استفاده میشه.
بهینهسازی (Optimization): پیدا کردن کمینه یا بیشینه توابع
یادگیری ماشین: آموزش مدلها با بهینهسازی تابع هزینه
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🥰2👏2❤1
تجزیه ماتریس یعنی شکستن یک ماتریس پیچیده به چند ماتریس سادهتر. این کار مثل باز کردن یک دستگاه پیچیده به قطعات کوچکتره که فهم و استفاده ازش رو راحتتر میکنه.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6👍2🔥2❤1
ماتریس مثبت نیمه معین، یعنی یک ماتریس مربعی که وقتی یک بردار رو بهش بدی و ضرب داخلی بگیری، مقدار بهدستاومده منفی نیست.
برای هر بردار x ≠ 0 داریم
xᵀ A x ≥ 0
این یعنی ماتریس A باعث نمیشه جهت و مقدار بردار x منفی یا معکوس بشه—حداقل انرژی یا فاصله رو حفظ میکنه یا بیشتر میکنه.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤3👍2
روش مونتکارلو یعنی حل مسائل پیچیده (مثل انتگرالگیری، احتمال، یا بهینهسازی) با استفاده از نمونهگیری تصادفی.
بهجای اینکه جواب دقیق ریاضی رو حساب کنی، تعداد زیادی نمونه تصادفی تولید میکنی و با میانگینگیری از اونها، تقریب خوبی از جواب واقعی بهدست میاری.
فرض کن میخوای مساحت یک ناحیه عجیب رو حساب کنی، ولی فرمولش رو نمیدونی.
میای روی اون ناحیه یک مربع میکشی، تعداد زیادی نقطه تصادفی توی مربع میپاشی، بعد میشماری چند تاشون داخل ناحیه افتادن.
نسبت نقطههایی که داخل افتادن، به کل نقاط، ضربدر مساحت مربع، میشه تخمینی از مساحت اون ناحیه.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3👍2
پینوشت: در صورت عدم کامپایل درست نوتیشنهای ریاضی در یک صفحه، با ی بار رفرش کردن، مشکل برطرف خواهد شد.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤3👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤3👍2
استنتاج واریانسی یک روش تقریبی برای حل مسائل پیچیدهٔ احتمالاتیه؛ مخصوصاً وقتی محاسبهٔ توزیع پسین (posterior) غیرقابل حل یا خیلی گرون باشه.
بهجای اینکه مستقیم سراغ توزیع پسین بریم (که سخته)، میایم یک توزیع سادهتر رو بهش نزدیک میکنیم.
ما یک خانوادهای از توزیعهای ساده (مثلاً نرمال) در نظر میگیریم. بعدش، دنبال اون عضوی از این خانواده میگردیم که بیشترین شباهت رو به توزیع پسین واقعی داشته باشه.
برای سنجش این شباهت، از KL Divergence استفاده میکنیم و تلاش میکنیم اون رو مینیمم کنیم.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3❤2
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍4❤2
تنسور یه ساختار ریاضی برای نگهداشتن دادههاست، چیزی شبیه بردار و ماتریسه، ولی در ابعاد بالاتر.
در واقع، تنسور یه آرایه چند بعدیه که میتونه دادههای عددی رو در چندین محور ذخیره کنه.
پس مثلاً یه تصویر رنگی 256×256 با 3 کانال رنگی یه تنسور 3 بعدیه.
برای نمایش تنسورها معمولاً از نماد Tijk استفاده میکنیم که نشون میده عنصر مربوط به محور اول، دوم و سوم چیه.
در زبانهای برنامهنویسی مثل Python (مثلاً با NumPy یا PyTorch)، تنسورها با
tensor[i][j][k] یا tensor[i,j,k] نمایش داده میشن.Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥3
یعنی اگر برنامهای با گذر زمان و دریافت دادههای بیشتر، در انجام یک کار خاص بهتر شود و این بهبود قابل اندازهگیری باشد، آن برنامه در حال یادگیری است.
1. یادگیری با نظارت (Supervised Learning)
2. یادگیری بدون نظارت (Unsupervised Learning)
3. یادگیری نیمهنظارتی (Semi-supervised Learning)
4. یادگیری تقویتی (Reinforcement Learning)
5. یادگیری خودنظارتی (Self-supervised Learning)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍4❤3
🤖 این سایت، منبع course شرکت OpenAI با موضوع Deep RL هست که توسط developerهای این شرکت در توئیتر معرفی شده. از پایه شروع میشه، به معرفی الگوریتمها میپردازه و به استفاده از ابزارهای بهروز میرسه. در نهایت محتوا شامل هر آنچه ممکنه در مصاحبههای کاری مرتبط پرسیده بشه، هست.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👏3❤2
1. هدف Safety maximization با جریمهی محتوای ناامن،
2. هدف Helpfulness maximization با پاداش به پاسخهای مفید (با مدل WorldPM-Helpsteer2)،
3. هدف Refusal minimization با جریمه برای refusalهای غیرضروری.
در کنار آن، Qwen3GuardTest هم معرفی شده؛ یک benchmark برای ارزیابی Guard modelها که دو جنبه را پوشش میدهد:
۱. جنبهی Safety classification برای محتوای intermediate reasoning / thinking،
۲. جنبهی moderation خروجیهای streaming / token-by-token.
این اوپنسورسها ابزار خوبی برای پژوهش روی safety و طراحی guardrailهای بهتر برای LLMها فراهم میکنند.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👏2
در عمل، این کار هم یک scientific framework برای فهم بهتر RL scaling روی LLMها میدهد و هم یک دستورالعمل عملی برای رسیدن به کارایی بالا بدون هدر دادن compute.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3❤2
forms.md یا reference.md را میخواند؛ یعنی progressive disclosure و استفادهی بهینه از context window.Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥3👍2
۱. تسک ASR (Autoregressive Segment Reasoning): پیشبینی پاراگراف بعدی از روی context قبلی، سپس تقویت generative continuity.
۲. تسک MSR (Middle Segment Reasoning): حدسزدن پاراگراف ماسکشده با استفاده از متن قبل و بعد، سپس وادار کردن مدل به deeper contextual understanding.
بدون نیاز به human annotation
مقیاسپذیری طبیعی با افزایش dataset size
همزمان بهبود generation و reasoning
نتایج بعد از چند هزار RL steps روی base model چشمگیر است:
+3.0% MMLU | +5.1% MMLU-Pro | +8.1% GPQA-Diamond | +6.0% KOR-Bench | بیش از +5% روی AIME24/25.
در تنظیمات end-to-end RLVR هم: +2.3% AIME24 | +1.3% AIME25 | +3% AMC | +1.5% MATH500.
خلاصه اینکه کار Hunyuan نشان میدهد reasoning scaling ≠ cost scaling؛ با طراحی درست، RL میتواند فراتر از human supervision رشد کند.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏5❤2👍2