Machine Learning Melodies – Telegram
Machine Learning Melodies
215 subscribers
28 photos
3 files
5 links
توی این کانال، من تجربیات و علایق شخصی‌ام رو در زمینه ماشین لرنینگ، موسیقی و چند چیز دیگه به اشتراک می‌گذارم
Download Telegram
Entropy
آنتروپی یه مفهوم اساسی توی ماشین لرنینگ هست به ویژه در decision trees. این عدم قطعیت یا randomness رو اندازه گیری میکنه. میتونید بهش به عنوان راهی برای اندازه گیری میکس یا خالص بودن یه دیتاست هم فکر کنید.
تصور کنید یه جعبه پر از توپ های رنگی دارید. اگه همه توپ ها یه رنگ باشن، جعبه بسیار مرتبه و وقتی یه توپ رو بیرون میارید جای تعجب نیست. این نشون دهنده آنتروپی کمه.
اگر جعبه ترکیبی از توپ‌های رنگی مختلف داشته باشه، مطمین نیستید که بعدا چه توپ رنگی رو بیرون میارید. این نشون دهنده آنتروپی بالاست.
توی decision trees، آنتروپی به تصمیم گیری کمک میکنه که داده ها رو به زیر مجموعه ها تقسیم کنه. هدف ایجاد زیرمجموعه هایی هست که تا حد امکان خالص باشن (یعنی عمدتا شامل یک نوع نتیجه باشن).
آنتروپی کمتر به معنای خلوص بالاتره که هدف ما هنگام تقسیم داده ها هست.

تصور کنید یه شیشه با دو نوع آب نبات دارید: قرمز و آبی. اگه شیشه دارای تعداد مساوی آب نبات قرمز و آبی باشه، پیش بینی رنگ بعدی که انتخاب می کنید دشوارتره. این وضعیت آنتروپی بالاست.
اگه شیشه عمدتا آب نبات قرمز و فقط چند عدد آبی داره، پیش بینی اینکه احتمالا یه آب نبات قرمز انتخاب می کنید آسون تره. این وضعیت آنتروپی پایینه.
آنتروپی با استفاده از احتمالات محاسبه میشه. اگه احتمال برداشتن هر نوع آب نبات رو میدونید میتونید آنتروپی رو محاسبه بکنید.
فرمول آنتروپی شامل ضرب احتمال هر نوع نتیجه توی لگاریتم اون احتمال و سپس جمع کردن این مقادیره.
اگر 4 آب نبات قرمز و 6 آب نبات آبی وجود داشته باشه احتمال انتخاب یه آب نبات قرمز (P_red) 4 از 10 (4/10) و احتمال انتخاب یه آب نبات آبی (P_blue) 6 از 10 هست (6). /10).
Entropy = - (P_red * log2(P_red) + P_blue * log2(P_blue))
Entropy = - (0.4 * log2(0.4) + 0.6 * log2(0.6))
شما هر احتمال رو میگیرید، اون رو در log 2 اون احتمال ضرب می کنید و سپس نتایج رو جمع می کنید. علامت منفی نشون میده که مقدار آنتروپی مثبته.

در مورد لگاریتم (log2): تصور کنید در انتهای یه نردبان هستید و هر قدمی که برمیدارید قد شما رو دو برابر میکنه. بعد از یک قدم، شما 2 متر ارتفاع دارید. بعد از دو قدم، شما 4 متر ارتفاع دارید. بعد از سه قدم، شما 8 متر ارتفاع دارید.
اگه کسی به شما بگه که 8 متر ارتفاع دارد و میخوایید بدونید که چند قدم برداشته از log2 استفاده می کنید. Log2(8) = 3
کامپیوترها از سیستم باینری استفاده میکنن که بر اساس توانهای 2 هست. در باینری، همه چیز به صورت 0 و 1 نمایش داده میشه. با Log2 توی این سیستم میشه اندازه گیری کرد که چند بیت برای نمایش یک عدد مورد نیازه. بیت کوچکترین واحد داده در یه کامپیوتر هست و میتونه 0 یا 1 باشه.
و Log2 در این فرمول برای اندازه گیری اطلاعات استفاده میشه. آنتروپی کمتر به معنای عدم قطعیت کمتر و بیت های کمتر مورد نیازه. آنتروپی بالاتر به معنای عدم قطعیت بیشتر و بیت های بیشتر مورد نیازه.
4👍1💯1
Information Gain
حالا. Information Gain اندازه گیری میکنه که یه فیچر چقدر اطلاعات در مورد متغیر هدف به ما میده. یا به عبارت دیگه به ما میگه که چقدر با استفاده از یه فیچر خاص برای تقسیم داده های خود آشوب (آنتروپی) رو کاهش میدیم. این به ما کمک میکنه تصمیم بگیریم از کدوم فیچر برای تقسیم داده ها توی هر مرحله در ساخت decision tree استفاده کنیم. Information Gain عدم قطعیت توی پیش‌بینی متغیر هدف رو با انتخاب ویژگی‌ای که داده‌ها رو به بهترین شکل جدا میکنه کاهش میده.
تصور کنید یه دیتاست دارید و میخوایید یه متغیر هدف رو پیش بینی کنید، مثلا فردا باران خواهد بارید یا خیر. ابتدا شما کمی عدم اطمینان دارید چون هیچ اطلاعات اضافی ندارید. بهش میگن Initial Uncertainty.
برای کاهش این عدم قطعیت به فیچرهای مختلف (به عنوان مثال، رطوبت، دما، سرعت باد) نگاه میکنید و ارزیابی میکنید که هر فیچر چقدر توی پیش‌بینی متغیر هدف کمک میکنه. (Choosing a Feature)
برای هر فیچر محاسبه میکنید که چقدر به کاهش عدم اطمینان در مورد متغیر هدف کمک می کنه. فیچری که بیشترین کاهش uncertainty رو فراهم میکنه بالاترین Information Gain رو داره. (Calculating Information Gain)
شما فیچری با بالاترین Information Gain رو برای تقسیم داده ها انتخاب میکنید. این فرایند در هر مرحله با استفاده از اطلاعات بدست اومده برای ساخت درخت تصمیم ادامه پیدا میکنه (Splitting the Data)

فرض کنید یه کلاس 10 دانش آموزه دارید. 6 نفر توی امتحان قبول و 4 نفر مردود میشن.
ابتدا آنتروپی رو محاسبه میکنیم:
H=−(0.6log2​0.6+0.4log2​0.4)
حالا باید بریم سراغ محاسبه آنتروپی بعد از تقسیم داده ها:
فرض کنید داده ها رو بر اساس اینکه دانش آموزها بیش از 2 ساعت مطالعه کرده باشن یا نه تقسیم میکنیم. (فیچر بیش از 2 ساعت مطالعه داشتن)
گروه 1: دانش آموزهایی که بیش از 2 ساعت درس خوندن (8 دانش آموز، 6 نفر قبولی، 2 نفر مردود میشن).
گروه 2: دانش آموزهایی که 2 ساعت یا کمتر درس خوندن (2 دانش آموز، 0 قبولی، 2 نفر مردود میشن).
آنتروپی رو برای هر گروه محاسبه میکنیم
H1​=−(0.75log2​0.75+0.25log2​0.25)
H2​=−(0log2​0+1log2​1)=0

حالا Weighted Average آنتروپی رو محاسبه میکنیم:
H split​= 8/10H1 + 2/10H2
در نهایت Information Gain میشه:
IG=H−H split
👍3💯1
Mutual Information
این به ما کمک میکنه تا بفهمیم که دونستن یه متغیر چقدر در مورد متغیر دیگه به ما میگه. در واقع این mutual dependence بین دو متغیر رو کمی میکنه. به ما میگه که دونستن یه متغیر تا چه اندازه عدم قطعیت ما رو در مورد دیگری کاهش میده.
به عنوان مثال اگر بخواییم پیش بینی کنیم که فردا بارون خواهد بارید یا خیر عدم قطعیت در مورد آب و هوا وجود داره. اگر اطلاعاتی در مورد متغیر دیگری مثل رطوبت امروز داشته باشیم ممکنه عدم قطعیت ما رو در مورد هوای فردا کاهش بده.
و Mutual Information اندازه‌گیری میکنه که با شناخت متغیر دیگه که رطوبت هست عدم قطعیت در مورد یک متغیر (بارش باران) چقدر کاهش پیدا میکنه.
این مهمه چون به شناسایی فیچرهایی که در مورد متغیر هدف اطلاعات بیشتری دارن کمک میکنه. همچنین بینش هایی رو در مورد روابط بین متغیرها ارایه میده.

در مورد محاسبه‌اش. باید دوتا مفهوم رو بدونیم. Joint Entropy (H(X, Y)) که combined uncertainty دو متغیر باهم دیگه ست. Conditional Entropy (H(X|Y)) که uncertainty باقی مانده در مورد یه متغیر پس از شناخت متغیر دیگر هست.
ابتدا باید آنتروپی هر متغیر رو حساب کنیم. سپس باید Joint Entropy (H(X, Y)) رو محاسبه کنیم. برای درک این به پرتاب یک سکه و تاس فکر کنید. Joint Entropy بما میگه که چقدر در مورد نتیجه هر دو عمل باهم نامطمین هستیم. مثلا برای دو متغیر ابری و بارانی این احتمال همه ترکیبات رو در نظر می گیره (باران و ابری، باران و نه ابری، بدون باران و ابری، بدون باران و نه ابری).
بعد Conditional Entropy (H(X|Y)) رو محاسبه میکنیم.
و محاسبه Mutual Information:
I(R;C)=H(R)−H(R∣C)
یا
I(R;C)=H(R)+H(C)−H(R,C)
اگر دونستن اینکه هوا ابریه عدم قطعیت رو مورد باران رو کاهش میده محاسبه می کنیم که چقدر از عدم قطعیت کاهش پیدا میکنه.
👍1💯1
Least Squares and Linear Regression
رگرسیون خطی روشی برای مدل سازی رابطه بین دو متغیر با برازش یه معادله خطی به داده های مشاهده شده هست. یه متغیر به عنوان متغیر توضیحی (independent variable) و دیگری به عنوان متغیر وابسته (response variable) در نظر گرفته میشه. معادله خطی یه خط رو میشه به این صورت نوشت: y=mx+b که در اون: y متغیر وابسته (مقدار پیش بینی شده)، x متغیر مستقل (مقدار ورودی) هست. m شیب خط (نرخ تغییر y نسبت به x)، b عرض از مبدا هست (مقدار y زمانی که x=0).
متد least squares یه اپروچ استاندارد برای پیدا کردن بهترین خطه. ایده اینه که مجموع مجذور تفاوت (خطا)- Sum of Squared Errors (SSE) بین مقادیر مشاهده شده و مقادیر پیش بینی شده توسط خط رو به حداقل برسونیم.
برای پیدا کردن مقادیر m و b که SSE رو به حداقل میرسونن مشتقات جزیی SSE رو نسبت به m و b میگیریم. اونها رو برابر صفر قرار میدیم و معادلات حاصل رو حل میکنیم.
مشتق جزیی SSR رو نسبت به m محاسبه میکنیم:
∂/∂m ​∑​(yi​−(mxi​+b))**2
همون مشتق جزیی Sum of Squared Errors (SSE) نسبت به m
بعد مشتق جزیی SSR رو نسبت به b محاسبه میکنیم:

∂/∂b ​∑​(yi​−(mxi​+b))**2
دو معادله رو برابر صفر قرار میدیم و حل میکنیم تا m و b بهینه بدست بیان.
👍1💯1
R-Squared
که به عنوان coefficient of determination هم شناخته میشه یه معیار آماری هست که در زمینه تحلیل رگرسیون برای تعیین نسبت واریانس در متغیر وابسته که از متغیر(های) مستقل قابل پیش بینی هست استفاده میشه. به عبارت ساده‌تر، R-squared به ما میگه که نقاط داده تا چه حد با یه مدل آماری مطابقت دارن - به‌ویژه خط رگرسیون چقدر به نقاط داده واقعی تقریب می‌کنه.
برای درک R2 باید با SSR و TSS آشنا بشیم. بیایید در مورد Total Variation حرف بزنیم. وقتی مجموعه ای از نقاط داده دارید، این نقاط حول یه مقدار مرکزی که میانگین اونهاست پخش میشن. به میزانی که نقاط داده از این میانگین متفاوت هستن Total Variation میگن. TSS معیاریه برای کمی کردن total variation در یک متغیر وابسته.
TSS=∑​(Yi​−Yˉ)**2
Yˉ= mean of the observed values
و SSR هم variation متغیر وابسته که توسط مدل توضیح داده نشده رو اندازه گیری میکنه. در واقع انحراف کل مقادیر مشاهده شده رو از مقادیر پیش بینی شده توسط مدل رگرسیون اندازه گیری میکنه. همون مجموع مجذور اختلافات بین نقاط داده واقعی و مقادیر پیش بینی هست.
R2 =1− SSR/TSS
مقدار R-squared از 0 تا 1 متغیره. مقادیر بالاتر نشون‌دهنده فیت شدن بهتره اما لزوما به معنای کامل بودن مدل نیست.
حالا SSR هرگز نمیتونه از TSS تجاوز کنه چون TSS نشون دهندهtotal variability هست و SSR نشون دهنده بخشی از variability که بعد از برازش مدل باقی میمونه. بنابراین مقدار R2 همیشه بین 0 و 1 هست. وقتی برازش بسیار ضعیفه. SSR برابر با TSS میشه. و طبق فرمول R2 صفر میشه. وقتی یه پرفکت فیت داریم SSR/TSS برابر صفر و R2 برابر 1 میشه.
حالا ​فرض کنید که از مدل یه خودرو برای پیش بینی ارزش فروش مجدد اون استفاده کنید. خودروهای قدیمی تر معمولا ارزش فروش مجدد پایین تری دارن، اما عوامل دیگری هم وجود داره (به عنوان مثال، نام تجاری، وضعیت) که بر قیمت تاثیر میزارن.
پس از برازش یک خط رگرسیون متوجه میشید که این خط مقداری اما نه همه تغییرات در ارزش فروش مجدد رو توضیح میده.
در این مورد SSR کمتر از TSS هست. اما صفر نیست. SSR/TSS یه مقدار مثبت کمتر از 1 هست. اگر R-squared = 0.6 باشه به این معنیه که 60٪ از variability توی ارزش فروش مجدد با مدل خودرو توضیح داده میشه، در حالی که 40٪ به دلیل عوامل دیگه هست.
👍1💯1
P-Value
این راهی برای درک اینکه نتایج ما در هنگام انجام آزمایش چقدر غافلگیر کننده یا غیرعادی هستن با این فرض که هیچ چیز غیرعادی اتفاق نمی افته (درست بودن فرضیه صفر). این کمک میکنه تا بفهمیم که آیا یافته های ما واقعی هست یا تصادفی.
فرضیه صفر (H0): این فرضیه "خسته کننده" هست. میگه که هیچ چیز خاص یا متفاوتی اتفاق نمی افته.
فرضیه جایگزین (H1): این فرضیه "هیجان انگیز" هست. میگه که یک اتفاق خاص یا متفاوت در حال رخ دادنه.
تصور کنید یه سکه دارید و می خوایید بدونید که آیا سکه منصفانه ای هست یا نه (احتمال یکسانی برای فرود شیر یا روباه داره). شما سکه رو 100 بار پرتاب می کنید و تعداد دفعاتی که روی شیر فرود میاد رو میشمارید.
فرض کنید از هر 100 پرتاب 60 شیر میگیرید. اگر سکه منصفانه باشه انتظار دارید حدود 50 شیر باشه. گرفتن 60 شیر کمی غیرعادی به نظر میرسه، درسته؟
حالا p value به ما کمک میکنه تا بفهمیم اگه سکه واقعا منصفانه باشه، دریافت 60 شیر چقدر غیرعادیه.
یه p value کوچیک (مثل 0.04) به این معنیه که اگر سکه منصفانه باشه، گرفتن 60 شیر از 100 پرتاب بسیار نادره. این نشون میده که شاید سکه در نهایت منصفانه نباشه. (رد فرضیه صفر)
یه p value بزرگ (مثل 0.25) به این معنیه که اگر سکه منصفانه باشه، گرفتن 60 شیر از 100 پرتاب آنقدرها هم غیرعادی نیست. این نشون میده که نتایج به راحتی میتونن به طور تصادفی رخ بدن.
💯1
Audio
💯1
Probability vs Likelihood
ممکنه این دو به یک معنا به نظر برسن. اما توی آمار، اونها متفاوت هستن و به روش های متمایز استفاده میشن. Probability در مورد آنچه ممکنه در آینده بر اساس برخی شرایط یا مدل های شناخته شده اتفاق بیفته صحبت میکنه. اما در Likelihood صحبت در مورد یافتن بهترین توضیح برای چیزیه که قبلا اتفاق افتاده. Probability در مورد اینه که احتمال وقوع چیزی رو قبل از وقوع اون مشخص کنیم. Likelihood در مورد اینه که بفهمید کدوم توضیح یا مدل به بهترین وجه با آنچه قبلا مشاهده کرده اید مطابقت داره. برای مثال دوست شما یک سکه رو سه بار پرتاب میکنه و HTH دریافت می کنه.
حالا میخوایید بدونید که آیا سکه منصفانه هست یا نیست. شما با این فرضیه شروع میکنید که سکه منصفانه هست (به معنی که p=0.5 برای شیر و p=0.5 برای روباه). اگه سکه منصفانه باشه، احتمال دریافت HTH رو محاسبه می‌کنید: بررسی کنید که احتمالات دیگه چقدر با دریافت HTH مطابقت دارن. این کمک می کنه تصمیم بگیرید که آیا حدس اولیه شما (منصفانه بودن سکه) منطقی هست یا توضیح دیگه ای بهتره.
💯1
Odds, Log(Odds), Odds Ratios, and Log(Odds Ratios)
شانس نسبت احتمال (probability) وقوع یک رویداد به احتمال رخ ندادن اونه.
Odds = P(event)​/1−P(event)
برای مثال اگر احتمال موفقیت 0.8 باشه شانسش میشه
0.8/ 1-0.8 = 4
اینطور معنی میده که احتمال وقوع اون رویداد 4 برابر بیشتر از عدم وقوع هست.
حالا log(odds) لگاریتم طبیعی(Ln) شانس هست. بعنوان logit function هم شناخته میشه. برای مثال بالا log(odds) میشه Log(Odds) = ln(4) ≈1.3
و odds ratio نسبت شانس وقوع یک رویداد رو در یک گروه با شانس وقوع رویداد در گروه دیگه مقایسه میکنه. برای مثال اگر شانس ابتلا به یه بیماری در گروه درمان 3 و در گروه کنترل 1.5 باشه odds ratio میشه 3/1.5=2
و log(odds ratio) که لگاریتم طبیعی odds ratio هست. این بیشتر توی مدل های رگرسیون لجستیک برای سهولت در تفسیر استفاده میشه.
💯1
Logistic Regression
رگرسیون لجستیک یه روش آماریه که برای طبقه بندی باینری استفاده میشه. به این معنی که برای پیش بینی یکی از دو نتیجه ممکن استفاده میشه. برخلاف نامش رگرسیون لجستیک برای مسایل طبقه بندی استفاده میشه نه مشکلات رگرسیون. این یه نوع تحلیل رگرسیونی هست که در اون متغیر وابسته کتگوریکال هست.
این مدل توی نام خودش کلمه لجستیک رو داره چون از تابع لجستیک (sigmoid) برای تبدیل ترکیب خطی فیچرهای ورودی به احتمالات استفاده میکنه. همچنین کلمه رگرسیون رو توی نام خودش داره چون خروجی اون یک مقدار پیوسته بین 0 و 1 هست.
رگرسیون لجستیک یه probabilistic classifier هست که مسایل binary classification رو هندل میکنه. یک سمپل رو میگیره و خروجی میده probability p رو که احتمال اینکه سمپل به کلاس مثبت تعلق داشته باشه رو میگه. اگه این احتمال بالاتر از مقدار آستانه باشه (معمولاً 0.5) سمپل به کلاس 1 طبقه بندی میشه در غیر این صورت به کلاس 0 طبقه بندی میشه.
اما مدل چطور احتمال p رو تخمین میزنه؟ فرض اساسی توی رگرسیون لجستیک اینه که log(odds) رویدادی که نمونه به کلاس مثبت تعلق داره ترکیبی خطی از فیچر های اونه. Log(odds) که logit هم شناخته میشه لگاریتم odds ratio هست که بالا دیدیم. که نسبت بین احتمال تعلق نمونه به کلاس مثبت و احتمال تعلق همون به کلاس منفی هست.
logit (p) = p/ 1-p
ما اینجا فرض می کنیم که پایه لگاریتم e (یعنی لگاریتم طبیعی) هست اگرچه میشه از پایه های دیگه ای هم استفاده کرد.
پس logit function احتمالات بین 0 و 1 رو به اعداد در بازه (-∞, +∞) تبدیل میکنه.
همچنین گفتیم که در رگرسیون لجستیک ما فرض می کنیم که log odds ترکیبی خطی از فیچر هاست به عنوان مثال:
logit (p) = p/ 1-p = w0 + w1x1 + ... + wmxm = wᵗx
اینجا w = (w₀, …, wₘ) پارامترهای مدل هستن و w0 همون بایاس هست.
نقاطی که p = 0.5 (یعنی log odds صفر دارن) ابرصفحه (hyperplane) جداکننده بین دو کلاس رو تعریف می میکنن. که معادله اون
wᵗx = 0
هست. بردار وزن w متعامد به این ابر صفحه هست. هر سمپل بالای هایپرپلان (wᵗx > 0) به عنوان یه سمپل مثبت طبقه بندی میشه در حالی که هر سمپل زیر هایپرپلان (wᵗx < 0) به عنوان سمپل منفی طبقه بندی میشه
این رگرسیون لجستیک رو به یه کلاسیفایر خطی تبدیل می‌کنه چون فرض میکنه که مرز بین کلاس‌ها یه سطح خطی هست.
میتونیم معادله logit (p) = p/ 1-p = wᵗx رو توسعه بدیم:
ابتدا دو طرف معادله رو به توان e میبریم تا ln سمت چپ حذف بشه.
p/ 1-p = e** (wᵗx)
p = (1-p) e** (wᵗx)
p*(1+e** (wᵗx)) = e** (wᵗx)
p = e** (wᵗx) / (1+e** (wᵗx)) = 1 / (1+e** (-wᵗx)) = σ(wᵗx) = sigmoid function یا logistic function (wᵗx)
تابع سیگموید برای تبدیل (wᵗx) یا log odds به احتمالات استفاده میشه. این تابع اعداد توی رنج (-∞، +∞) رو به احتمالات توی رنج (0، 1) نگاشت میکنه.
هدف ما پیدا کردن پارامترهای w هست که پیش‌بینی‌های مدل p = σ(wᵗx) رو تا حد امکان به لیبلهای واقعی y نزدیک میکنه. برای این منظور باید یه loss function تعریف کنیم که میزان فاصله پیش‌بینی‌های مدل ما از برچسب‌های واقعی رو اندازه‌گیری کنه. میشه اونو با استفاده از تکنیک هایی مثل gradient descent بهینه کرد. loss function ی که توی رگرسیون لجستیک استفاده میشه log loss (logistic loss) هست.
L_log(y, p) = -(y log (p) + (1 - y) log (1 - p))
چطور به این تابع رسیدیم؟ این تابع بر اساس اصل maximum likelihood بدست اومده. بطور خلاصه به حداکثر رسوندن log likelihood معادل مینیمم کردن log loss هست.
👍1💯1
مجتبی شکوری - نافرمانی راهی برای رشد
📻@podchi
رشد اغلب به شجاعتِ به چالش کشیدن قراردادها و پذیرش ناراحتی‌هایِ کاوش فکری نیاز داره.
💯1
💯1
نشستم براتون یکم کد زدم. این بهترین سیستم طراحی داخلی هست که میتونید با اون فضای زندگی خودتون رو از نو تصور کنید. با چند سلول کد میشه چنین سیستمی ساخت. میتونید توی colab ران کنید. همچنین پیشنهاد میکنم متناسب با کاری که میخوایید انجام بدید از یه مدل lora برای بهتر شدن نتایج استفاده کنید.
مدلی که اینجا استفاده کردم stable-diffusion-xl-1.0-inpainting-0.1 هست. این بهترین مدل اوپن سورس ممکنه. بنابراین اگر جایی نتایج بهتری دیدید یا فیکه یا خودشون ترین کردن.
کدش رو زیر قرار میدم
2
Ridge, Lasso, and Elastic-Net Regression
رگولاریزیشن تکنیکی هست که برای جلوگیری از برازش بیش از حد (اورفیتینگ) با اضافه کردن یه پنالتی به پیچیدگی مدل استفاده میشه. هدف ساده نگه داشتن مدل (با جلوگیری از بیش از حد بزرگ شدن پارامترها) هست که به تعمیم بهتر داده های جدید کمک میکنه. Ridge regression که بعنوان L2 regularization هم شناخته میشه cost function رگرسیون رو با اضافه کردن یه عبارت جریمه اصلاح میکنه. این جریمه مجموع مجذور ضرایب مدل (بدون احتساب بایاس) هست. Lasso regression که یه تکنیک دیگه رگولاریزیشن هست و با نام L1 regularization هم شناخته میشه cost function رگرسیون رو با اضافه کردن یه پنالتی به اون که مجموع مقادیر مطلق ضرایب مدل (بدون احتساب بایاس) هست اصلاح میکنه. و Elastic-Net regression هم پنالتی های دو متد Lasso (L1 regularization) و Ridge (L2 regularization) رو ترکیب میکنه. هر دو رو به cost function اضافه میکنه.اما در حالی که این متدها برای مسیله رگرسیون توسعه دادن شدن اما میشه از اونها در مسیله کلاسیفیکیشن هم استفاده کرد.
👍1🤩1
1
Machine Learning Melodies
GIF
Stable Video Diffusion - Img2Vid - XT
🤩1