ی مقاله جدیدی که قشنگ میتونه تصاویر رو بخونه تو این مقاله از مدل SigLIP و LLaVA و SLM Phi-2 (2.7B) برای دیکودر کردن استفاده کردند
▪️ Imp-v1: An Emprical Study of Multimodal Small Language Models
▪️ model
▪️ demo
پ.ن: اگه مقاله ش رو پیدا کردین کامنت کنین.
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ Imp-v1: An Emprical Study of Multimodal Small Language Models
▪️ model
▪️ demo
پ.ن: اگه مقاله ش رو پیدا کردین کامنت کنین.
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍3👎1🔥1
#مقاله
میخوام در مورد SimCLR صحبت کنم. کاری از google research! این متد تونسته با استفاده از ایدههای ساده اما کاربردی، تحولی در self supervised learning ایجاد کنه.
بازم مثل مقاله barlow twins که برسی کردیم اینجا هم تصور کنید سیستمی رو برای درک و تفسیر visual data بدون صرف ساعتهای بیشماری برای لیبل زدن اون تصاویر ترین کنید! نکته مهم در اینجاست: SimCLR بر معماری های پیچیده یا یه memory bank عظیم متکی نیست. در عوض، به استراتژی های هوشمندانه و ساده بستگی داره.
توی SimCLR هدف اینه که با استفاده از تابع زیان موسوم به Contrastive Loss بیاییم و representations موثری از تصاویر به دست بیاریم. این کار از طریق مقایسه دو نمای مختلف اما مرتبط از یک سمپل انجام میشه. خیلی جالبه، نه؟
اولین قدم، استفاده از ماژول Data Augmentation هست که با اعمال تغییراتی مثل Random Cropping، Color Distortions و Gaussian Blur به تصاویر، دو نمای متفاوت از یک تصویر اصلی ایجاد میکنه. این دو نمای جدید، یک پیر مثبت در فرآیند یادگیری محسوب میشن.
بعد از اون، یک شبکه عصبی به نام base encoder (معمولاً از نوع ResNet) وارد عمل میشه و بازنماییهای از این تصاویر رو استخراج میکنه. خروجی این شبکه، همون representationsی هستن که میخوایم روی اونها کار کنیم. نکته بعدی، projection head هست. این بخش، یه شبکه عصبی کوچکه که بازنماییهای استخراجشده رو به فضایی منتقل میکنه که تابع زیان Contrastive Loss روی اون اعمال میشه. این فرآیند کمک میکنه که نتایج یادگیری دقیقتر و کاربردیتر بشن. یجورایی نقش refiner رو بازی میکنه.
اما نکته کلیدی، استفاده از تابع زیان NT-Xent هست. این تابع با استفاده از شباهت کسینوسی و پارامتر دما (Temperature)، امکان مقایسه و بهینهسازی پیرهای مثبت و منفی رو فراهم میکنه. قراره پیرهای مثبت بهم نزدیک و پیرهای منفی از هم دور بشن(هر دو تصویر آگمنت شده برای هم پیر مثبت هستن و با سایر نمونهها بعنوان مثالهای منفی برخورد میشه). رویکرد SimCLR نشون میده که با استفاده از دستههای بزرگتر داده (Larger Batch Sizes)، نتایج بهتری حاصل میشه، چون تعداد نمونههای منفی بیشتری برای یادگیری وجود داره.
خلاصه کنم، SimCLR با استفاده از ایدههای نوآورانه در Data Augmentation، شبکههای عصبی مثل ResNet و Projection Head، و همچنین تابع زیان خلاقانهای مثل NT-Xent، تونسته تحولی در self supervised learning ایجاد کنه. این متد نه تنها سادهتر از متدهای موجوده، بلکه در عین حال کارایی بسیار بالایی داره و میتونه به علاقهمندان ماشین لرنینگ کمک زیادی کنه.
امیدوارم این پست براتون مفید باشه. سعی کردم مفهوم رو برسونم!
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
میخوام در مورد SimCLR صحبت کنم. کاری از google research! این متد تونسته با استفاده از ایدههای ساده اما کاربردی، تحولی در self supervised learning ایجاد کنه.
بازم مثل مقاله barlow twins که برسی کردیم اینجا هم تصور کنید سیستمی رو برای درک و تفسیر visual data بدون صرف ساعتهای بیشماری برای لیبل زدن اون تصاویر ترین کنید! نکته مهم در اینجاست: SimCLR بر معماری های پیچیده یا یه memory bank عظیم متکی نیست. در عوض، به استراتژی های هوشمندانه و ساده بستگی داره.
توی SimCLR هدف اینه که با استفاده از تابع زیان موسوم به Contrastive Loss بیاییم و representations موثری از تصاویر به دست بیاریم. این کار از طریق مقایسه دو نمای مختلف اما مرتبط از یک سمپل انجام میشه. خیلی جالبه، نه؟
اولین قدم، استفاده از ماژول Data Augmentation هست که با اعمال تغییراتی مثل Random Cropping، Color Distortions و Gaussian Blur به تصاویر، دو نمای متفاوت از یک تصویر اصلی ایجاد میکنه. این دو نمای جدید، یک پیر مثبت در فرآیند یادگیری محسوب میشن.
بعد از اون، یک شبکه عصبی به نام base encoder (معمولاً از نوع ResNet) وارد عمل میشه و بازنماییهای از این تصاویر رو استخراج میکنه. خروجی این شبکه، همون representationsی هستن که میخوایم روی اونها کار کنیم. نکته بعدی، projection head هست. این بخش، یه شبکه عصبی کوچکه که بازنماییهای استخراجشده رو به فضایی منتقل میکنه که تابع زیان Contrastive Loss روی اون اعمال میشه. این فرآیند کمک میکنه که نتایج یادگیری دقیقتر و کاربردیتر بشن. یجورایی نقش refiner رو بازی میکنه.
اما نکته کلیدی، استفاده از تابع زیان NT-Xent هست. این تابع با استفاده از شباهت کسینوسی و پارامتر دما (Temperature)، امکان مقایسه و بهینهسازی پیرهای مثبت و منفی رو فراهم میکنه. قراره پیرهای مثبت بهم نزدیک و پیرهای منفی از هم دور بشن(هر دو تصویر آگمنت شده برای هم پیر مثبت هستن و با سایر نمونهها بعنوان مثالهای منفی برخورد میشه). رویکرد SimCLR نشون میده که با استفاده از دستههای بزرگتر داده (Larger Batch Sizes)، نتایج بهتری حاصل میشه، چون تعداد نمونههای منفی بیشتری برای یادگیری وجود داره.
خلاصه کنم، SimCLR با استفاده از ایدههای نوآورانه در Data Augmentation، شبکههای عصبی مثل ResNet و Projection Head، و همچنین تابع زیان خلاقانهای مثل NT-Xent، تونسته تحولی در self supervised learning ایجاد کنه. این متد نه تنها سادهتر از متدهای موجوده، بلکه در عین حال کارایی بسیار بالایی داره و میتونه به علاقهمندان ماشین لرنینگ کمک زیادی کنه.
امیدوارم این پست براتون مفید باشه. سعی کردم مفهوم رو برسونم!
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍11
#مقاله
اینبار بریم سراغ برسی یه مقاله پایهای ماشین لرنینگ یعنی CycleGAN! ببینیم فیدبک نسبت به مقالات پایه چطوره؟!
به طور سنتی، برای ترین مدلها برای تبدیل یک تصویر از یک سبک به یه سبک دیگه (مثل تبدیل سلفی خودتون به یه شاهکار ون گوگ)، به تصاویر جفتی نیاز داشتیم - یک «قبل» و یک «بعد». اما اگه این جفت ها رو نداشته باشیم چه؟ اینجاست که CycleGAN وارد میشه!
این تکنیک به استفاده از دو مجموعه تصویر جفت نشده از حوزه های مختلف (به نقاشی های ون گوگ و سلفی های تصادفی فکر کنید) بستگی داره. نکته مهم اینه که ما نمیدونیم کدوم نقاشی با کدام سلفی مطابقت داره. چالش اینه که به یه neural network یاد بدیم که این تبدیل رو بدون جفت شدن مستقیم انجام بده. جالبه؟
میرسیم به Adversarial networks. این شبکه ها دو بازیگر اصلی دارن: یک generator و یک discriminator. شبکه generator تلاش می کنه تا یک سلفی رو به سبک نقاشی تبدیل کنه، در حالی که discriminator مثل یک منتقد هنری عمل می کنه و سعی می کنه موارد تقلبی رو در میان نقاشی های واقعی تشخیص بده.
اما موضوع فقط فریب دادن این منتقد نیست. این مدل از "cycle consistency" برای اطمینان از تحولات معنی دار استفاده می کنه. بخش جالب اینجاست: اگه یک سلفی بگیرید، اونو به یک نقاشی تبدیل کنید، و سپس اونو به یک سلفی تبدیل کنید، باید چیزی شبیه به عکس اصلی خود داشته باشید. این مثل ترجمه یک جمله از انگلیسی به فرانسوی و بازگشت به انگلیسی است، با انتظار حفظ معنای اصلی!
حالا، برای اطمینان از اینکه ترجمهها نه تنها از نظر بصری دقیق هستن، بلکه معنادار هستن، نویسندهها یک «cycle consistency loss» رو معرفی کردن. این مکانیسم دگرگونیها رو در هر دو جهت کنترل میکنه و مطمین میشه که یک سلفی به یک نقاشی تبدیل شده و سپس به یک سلفی برمیگرده همچنان به تصویر اصلی وفاداره.
اینجا جاییه که قراره مفهوم جا بیوفته! ما دوتا generator داریم. معمولا autoencoder هستن. اولی یه تصویر سلفی رو میگیره و اونو به نقاشی تبدیل میکنه. discriminator چک میکنه که این نقاشی فیک هست یا نه. generator دومی سعی میکنه نقاشی رو به تصویر اصلی تبدیل کنه. اینطور کار میکنه!
من loss رو در تصویر زیر آوردم. بیایید اونو برسی کنیم. تصور کنید دو مترجم دارید: یکی (بیایید اونو G بنامیم) انگلیسی رو به فرانسوی ترجمه می کنه و دیگری (به نام F) فرانسوی رو به انگلیسی ترجمه می کنه. حالا، اگر یک جمله انگلیسی رو انتخاب کنید، اونو با G به فرانسوی ترجمه کنید، و بلافاصله اونو با F به انگلیسی ترجمه کنید، امیدوارید که به جمله اصلی انگلیسی خودتون برسید، درسته؟ این اساسا همون فرمول cycle consistency loss هست. شما همین کارو میکنید، اما با تصاویر به جای زبان ها: چرخه برای X به Y و بازگشت به X: ابتدا یه تصویر از دامنه X (مثل یه عکس) می گیرید، اونو با استفاده از G به دامنه Y (مثل یه نقاشی) ترجمه می کنید. سپس با استفاده از F به دامنه X برمی گرده. فرمول سپس تفاوت این تصویر دو بار ترجمه شده رو با عکس اصلی اندازه می گیره. هدف اینه که این تفاوت رو تا حد امکان کوچک کنید. هدف؟ با انجام این کار، مدل یاد می گیره که در ترجمه های خودش دقت کنه. این نمیتونه فقط یک نقاشی تصادفی از یک عکس ایجاد کنه یا بالعکس. باید اصل تصویر اصلی رو حفظ کنه تا وقتی دوباره ترجمه میشه، همچنان شبیه تصویر اصلی باشه! F و G همون دوتا generatorمون هستن!
امیدوارم این پست براتون مفید باشه.
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
اینبار بریم سراغ برسی یه مقاله پایهای ماشین لرنینگ یعنی CycleGAN! ببینیم فیدبک نسبت به مقالات پایه چطوره؟!
به طور سنتی، برای ترین مدلها برای تبدیل یک تصویر از یک سبک به یه سبک دیگه (مثل تبدیل سلفی خودتون به یه شاهکار ون گوگ)، به تصاویر جفتی نیاز داشتیم - یک «قبل» و یک «بعد». اما اگه این جفت ها رو نداشته باشیم چه؟ اینجاست که CycleGAN وارد میشه!
این تکنیک به استفاده از دو مجموعه تصویر جفت نشده از حوزه های مختلف (به نقاشی های ون گوگ و سلفی های تصادفی فکر کنید) بستگی داره. نکته مهم اینه که ما نمیدونیم کدوم نقاشی با کدام سلفی مطابقت داره. چالش اینه که به یه neural network یاد بدیم که این تبدیل رو بدون جفت شدن مستقیم انجام بده. جالبه؟
میرسیم به Adversarial networks. این شبکه ها دو بازیگر اصلی دارن: یک generator و یک discriminator. شبکه generator تلاش می کنه تا یک سلفی رو به سبک نقاشی تبدیل کنه، در حالی که discriminator مثل یک منتقد هنری عمل می کنه و سعی می کنه موارد تقلبی رو در میان نقاشی های واقعی تشخیص بده.
اما موضوع فقط فریب دادن این منتقد نیست. این مدل از "cycle consistency" برای اطمینان از تحولات معنی دار استفاده می کنه. بخش جالب اینجاست: اگه یک سلفی بگیرید، اونو به یک نقاشی تبدیل کنید، و سپس اونو به یک سلفی تبدیل کنید، باید چیزی شبیه به عکس اصلی خود داشته باشید. این مثل ترجمه یک جمله از انگلیسی به فرانسوی و بازگشت به انگلیسی است، با انتظار حفظ معنای اصلی!
حالا، برای اطمینان از اینکه ترجمهها نه تنها از نظر بصری دقیق هستن، بلکه معنادار هستن، نویسندهها یک «cycle consistency loss» رو معرفی کردن. این مکانیسم دگرگونیها رو در هر دو جهت کنترل میکنه و مطمین میشه که یک سلفی به یک نقاشی تبدیل شده و سپس به یک سلفی برمیگرده همچنان به تصویر اصلی وفاداره.
اینجا جاییه که قراره مفهوم جا بیوفته! ما دوتا generator داریم. معمولا autoencoder هستن. اولی یه تصویر سلفی رو میگیره و اونو به نقاشی تبدیل میکنه. discriminator چک میکنه که این نقاشی فیک هست یا نه. generator دومی سعی میکنه نقاشی رو به تصویر اصلی تبدیل کنه. اینطور کار میکنه!
من loss رو در تصویر زیر آوردم. بیایید اونو برسی کنیم. تصور کنید دو مترجم دارید: یکی (بیایید اونو G بنامیم) انگلیسی رو به فرانسوی ترجمه می کنه و دیگری (به نام F) فرانسوی رو به انگلیسی ترجمه می کنه. حالا، اگر یک جمله انگلیسی رو انتخاب کنید، اونو با G به فرانسوی ترجمه کنید، و بلافاصله اونو با F به انگلیسی ترجمه کنید، امیدوارید که به جمله اصلی انگلیسی خودتون برسید، درسته؟ این اساسا همون فرمول cycle consistency loss هست. شما همین کارو میکنید، اما با تصاویر به جای زبان ها: چرخه برای X به Y و بازگشت به X: ابتدا یه تصویر از دامنه X (مثل یه عکس) می گیرید، اونو با استفاده از G به دامنه Y (مثل یه نقاشی) ترجمه می کنید. سپس با استفاده از F به دامنه X برمی گرده. فرمول سپس تفاوت این تصویر دو بار ترجمه شده رو با عکس اصلی اندازه می گیره. هدف اینه که این تفاوت رو تا حد امکان کوچک کنید. هدف؟ با انجام این کار، مدل یاد می گیره که در ترجمه های خودش دقت کنه. این نمیتونه فقط یک نقاشی تصادفی از یک عکس ایجاد کنه یا بالعکس. باید اصل تصویر اصلی رو حفظ کنه تا وقتی دوباره ترجمه میشه، همچنان شبیه تصویر اصلی باشه! F و G همون دوتا generatorمون هستن!
امیدوارم این پست براتون مفید باشه.
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍15❤1
#مقاله
دوستان عزیز میخوام در مورد یک پروژه نوآورانه دیگه در حوزه ماشین لرنینگ صحبت کنم، که توسط OpenAI انجام شده و همزمان مفهوم zero shot learning رو براتون کاملا جا بندازم: مدل CLIP (Contrastive Language-Image Pre-Training). این مدل که بر پایه مفاهیم multimodal و neural network هست، روی ۴۰۰ میلیون پیر image-text ترین شده.
هر پیر image-text شامل یک عکس و یک کپشن مرتبط با اونه. پس یجورایی هدف CLIP، پیشبینی مرتبطترین متن برای هر تصویر هست. معمولا، مدلهای ماشین لرنینگ روی یک تسک خاص ترین میشن، اما CLIP از این قاعده مستثناست. این مدل، حتی در مواردی که مستقیما برای اونها ترین نشده، عملکرد خوبی داره، که به این قابلیت zero-shot learning میگن.
به عنوان مثال، اگر یک مدل روی تشخیص سگها و گربهها ترین شده باشه، انتظار نمیره که در تشخیص ماشینها عملکرد خوبی داشته باشه. اما CLIP، به دلیل استفاده موثر از اطلاعات متنی در کنار تصاویر، در چنین مواردی نیز عملکرد قابل توجهی داره.
برای ایجاد کانکشن بین تصاویر و متنها ما به embeddings اونها نیاز داریم. CLIP از دو sub model استفاده میکنه: یک text encoder و یک image encoder، که به تولید embeddings برای هر کدوم میپردازن. اینجاست که مفهوم contrastive learning به کار گرفته میشه، که هدف اون نزدیک کردن embeddings مرتبط و دور کردن embeddings نامرتبط هست (با کمی جزییات بیشتر).
در زمان تست، کل کلاسهای مورد نظر برای طبقهبندی از طریق text encoder عبور داده میشن تا embeddings اونها بدست آید. سپس، وقتی تصویر جدیدی وارد میشه، از image encoder عبور داده میشه و برای اون هم embedding تولید میشه. طبقهبندی بر اساس شباهت بین embedding تصویر ورودی و embeddings کلاسها انجام میشه. به همین سادگی!
ترینینگ CLIP، سی روز زمان برده و از ۵۹۲ پردازنده V100 استفاده شده. هزینه این ترینینگ در AWS، حدود یک میلیون دلار بوده!
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
دوستان عزیز میخوام در مورد یک پروژه نوآورانه دیگه در حوزه ماشین لرنینگ صحبت کنم، که توسط OpenAI انجام شده و همزمان مفهوم zero shot learning رو براتون کاملا جا بندازم: مدل CLIP (Contrastive Language-Image Pre-Training). این مدل که بر پایه مفاهیم multimodal و neural network هست، روی ۴۰۰ میلیون پیر image-text ترین شده.
هر پیر image-text شامل یک عکس و یک کپشن مرتبط با اونه. پس یجورایی هدف CLIP، پیشبینی مرتبطترین متن برای هر تصویر هست. معمولا، مدلهای ماشین لرنینگ روی یک تسک خاص ترین میشن، اما CLIP از این قاعده مستثناست. این مدل، حتی در مواردی که مستقیما برای اونها ترین نشده، عملکرد خوبی داره، که به این قابلیت zero-shot learning میگن.
به عنوان مثال، اگر یک مدل روی تشخیص سگها و گربهها ترین شده باشه، انتظار نمیره که در تشخیص ماشینها عملکرد خوبی داشته باشه. اما CLIP، به دلیل استفاده موثر از اطلاعات متنی در کنار تصاویر، در چنین مواردی نیز عملکرد قابل توجهی داره.
برای ایجاد کانکشن بین تصاویر و متنها ما به embeddings اونها نیاز داریم. CLIP از دو sub model استفاده میکنه: یک text encoder و یک image encoder، که به تولید embeddings برای هر کدوم میپردازن. اینجاست که مفهوم contrastive learning به کار گرفته میشه، که هدف اون نزدیک کردن embeddings مرتبط و دور کردن embeddings نامرتبط هست (با کمی جزییات بیشتر).
در زمان تست، کل کلاسهای مورد نظر برای طبقهبندی از طریق text encoder عبور داده میشن تا embeddings اونها بدست آید. سپس، وقتی تصویر جدیدی وارد میشه، از image encoder عبور داده میشه و برای اون هم embedding تولید میشه. طبقهبندی بر اساس شباهت بین embedding تصویر ورودی و embeddings کلاسها انجام میشه. به همین سادگی!
ترینینگ CLIP، سی روز زمان برده و از ۵۹۲ پردازنده V100 استفاده شده. هزینه این ترینینگ در AWS، حدود یک میلیون دلار بوده!
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍6🔥3❤1
#مقاله
میخوام در مورد Supervised Contrastive Learning حرف بزنم. کاری مشترک از Google Research، Boston University و MIT!
در چشمانداز در حال تکامل دیپ لرنینگ، درخت بارور برای classification models مدتها cross entropy loss function بوده. با این حال، این loss بدون اشکال نیست - به ویژه، حساسیت به noisy labels و suboptimal margins که منجر به کاهش تعمیم میشه. اینجاست که کاوش ما شروع میشه، و وارد قلمرو supervised contrastive learning میشیم!
ماهیت supervised contrastive (SupCon) learning ریشه در اصول self-supervised contrastive learning داره. به طور مرسوم، self-supervised learning شامل نزدیک کردن یک anchor و یک positive sample (معمولا آگمنت همون دیتا) در embedding space بهم دیگه و دور کردن anchor از negative samples (دیتای دیگر) در این فضا هست! این یه رقص نزدیکی و جدایی هست که در embedding space رخ میده.
حالا، بیایید به متد SupCon بپردازیم، که به طرز درخشانی این استراتژی رو برای یک fully supervised context تطبیق میده. در اینجا، بازی تغییر می کنه: ما دیگه به data augmentation برای ساخت موارد مثبت محدود نمیشیم. درعوض، هر سمپلای که لیبل کلاس یکسانی رو با anchor داره، یه سمپل "مثبت" میشه. این یه تغییر ظریف و در عین حال عمیقه. اینطور فکر کنید - اگه anchor ما تصویری از یک "گربه" هست، پس هر تصویر "گربه" دیگری در دیتاست ما، مثبته.
میشه اینطور گفت. جایی که self-supervised contrastive loss ممکنه فقط یک مورد مثبت رو در نظر بگیره (نمای متفاوتی از یک سمپل)، SupCon loss چندین مثبت رو برای هر anchor در نظر میگیره - به اصطلاح همه گربه های مختلف. این سمپلهای مثبت در کنار بسیاری از موارد منفی هستن (مثلا تصاویر سگ، پرندگان و غیره). این بازنگری به چندین مثبت برای هر anchor به مدل اجازه میده تا بازنمایی های قوی تری رو یاد بگیره، چون باید تفاوت های ظریف رو در یک کلاس تشخیص بده و در عین حال بین کلاس ها تمایز قایل بشه.
از نظر تجربی، نتایج قانع کننده هستن. در معماری ResNet 200، این متد به top-1 accuracyی 81.4 درصد روی دیتاست ImageNet دست پیدا کرد- یک پیشرفت قابل توجه نسبت به cross entropy loss.
به طور خلاصه، متد SupCon فقط یک گام رو به جلوی دیگه در دیپ لرنینگ نیست. این بازنگری در نحوه فکر کردن ما به فرایند یادگیریه! درسهایی رو از self supervised learning یاد میگیریم و اونهارو به supervised setting بسط میدیم.
سعی کردم مفهوم رو برسونم. هر سوالی دارید بپرسید پاسخ میدم!
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
میخوام در مورد Supervised Contrastive Learning حرف بزنم. کاری مشترک از Google Research، Boston University و MIT!
در چشمانداز در حال تکامل دیپ لرنینگ، درخت بارور برای classification models مدتها cross entropy loss function بوده. با این حال، این loss بدون اشکال نیست - به ویژه، حساسیت به noisy labels و suboptimal margins که منجر به کاهش تعمیم میشه. اینجاست که کاوش ما شروع میشه، و وارد قلمرو supervised contrastive learning میشیم!
ماهیت supervised contrastive (SupCon) learning ریشه در اصول self-supervised contrastive learning داره. به طور مرسوم، self-supervised learning شامل نزدیک کردن یک anchor و یک positive sample (معمولا آگمنت همون دیتا) در embedding space بهم دیگه و دور کردن anchor از negative samples (دیتای دیگر) در این فضا هست! این یه رقص نزدیکی و جدایی هست که در embedding space رخ میده.
حالا، بیایید به متد SupCon بپردازیم، که به طرز درخشانی این استراتژی رو برای یک fully supervised context تطبیق میده. در اینجا، بازی تغییر می کنه: ما دیگه به data augmentation برای ساخت موارد مثبت محدود نمیشیم. درعوض، هر سمپلای که لیبل کلاس یکسانی رو با anchor داره، یه سمپل "مثبت" میشه. این یه تغییر ظریف و در عین حال عمیقه. اینطور فکر کنید - اگه anchor ما تصویری از یک "گربه" هست، پس هر تصویر "گربه" دیگری در دیتاست ما، مثبته.
میشه اینطور گفت. جایی که self-supervised contrastive loss ممکنه فقط یک مورد مثبت رو در نظر بگیره (نمای متفاوتی از یک سمپل)، SupCon loss چندین مثبت رو برای هر anchor در نظر میگیره - به اصطلاح همه گربه های مختلف. این سمپلهای مثبت در کنار بسیاری از موارد منفی هستن (مثلا تصاویر سگ، پرندگان و غیره). این بازنگری به چندین مثبت برای هر anchor به مدل اجازه میده تا بازنمایی های قوی تری رو یاد بگیره، چون باید تفاوت های ظریف رو در یک کلاس تشخیص بده و در عین حال بین کلاس ها تمایز قایل بشه.
از نظر تجربی، نتایج قانع کننده هستن. در معماری ResNet 200، این متد به top-1 accuracyی 81.4 درصد روی دیتاست ImageNet دست پیدا کرد- یک پیشرفت قابل توجه نسبت به cross entropy loss.
به طور خلاصه، متد SupCon فقط یک گام رو به جلوی دیگه در دیپ لرنینگ نیست. این بازنگری در نحوه فکر کردن ما به فرایند یادگیریه! درسهایی رو از self supervised learning یاد میگیریم و اونهارو به supervised setting بسط میدیم.
سعی کردم مفهوم رو برسونم. هر سوالی دارید بپرسید پاسخ میدم!
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍11
The Man Who Sold The World
Nirvana
#متفرقه
دوست داشتم امروزو با اهنگ که چی داره میشه بگم
مردی که دنیا را فروخت - نیروانا
The man who sold the world - nirvana
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
دوست داشتم امروزو با اهنگ که چی داره میشه بگم
مردی که دنیا را فروخت - نیروانا
The man who sold the world - nirvana
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
🔥5👎4👌1
سال ۲۰۲۳ سال مولتی مدلها بود در #مقاله زیر نگاهی کلی به مقالات منتشر شده در سالی که گذاشت داشته ایده های جذاب رو برای پژوهش های خودتون استخراج کنید .
▪️ MM-LLMs: Recent Advances in MultiModal Large Language Models
#ایده_جذاب
پ.ن: به نظر شما سال ۲۰۲۴ چه موضوعاتی رونق خواهند گرفت هوش مصنوعی به کدام سمت خواهد رفت. کامنت کنید
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ MM-LLMs: Recent Advances in MultiModal Large Language Models
#ایده_جذاب
پ.ن: به نظر شما سال ۲۰۲۴ چه موضوعاتی رونق خواهند گرفت هوش مصنوعی به کدام سمت خواهد رفت. کامنت کنید
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍5
تنسرفلو قبلتر مدل mamba معرف حضور بوده مدل ویژنی معرفی شده الان
CNNs??? Transformers??? No, it is VMamba
▪️ VMamba: Visual State Space Model
▪️ GitHub
An Alternative to Convolutional Neural Networks CNNs and Vision Transformers for Enhanced Computational Efficiency
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
CNNs??? Transformers??? No, it is VMamba
▪️ VMamba: Visual State Space Model
▪️ GitHub
An Alternative to Convolutional Neural Networks CNNs and Vision Transformers for Enhanced Computational Efficiency
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
Forwarded from Recommender system (MehriMoon 🌙)
⭕️ دوره ریاضیات هوش مصنوعی به فارسی
دکتر سید بهروز نصیحت کن استادیار دانشکده مهندسی کامپیوتر دانشگاه خواجه نصیر، دوره "ریاضیات هوش مصنوعی" ؛ پاییز امسال (1402) رو که شامل 25 جلسه و بیش از 29 ساعت ویدیو آموزشی هست رو، به زبان فارسی و رایگان در آپارات منتشر کردن.💯
🔰 لینک دسترسی به پلیلیست دوره:👇🏼
🏷 دوره ریاضیات هوش مصنوعی
┘ ◼️ لینک دوره Mathematics for AI
دکتر سید بهروز نصیحت کن استادیار دانشکده مهندسی کامپیوتر دانشگاه خواجه نصیر، دوره "ریاضیات هوش مصنوعی" ؛ پاییز امسال (1402) رو که شامل 25 جلسه و بیش از 29 ساعت ویدیو آموزشی هست رو، به زبان فارسی و رایگان در آپارات منتشر کردن.💯
🔰 لینک دسترسی به پلیلیست دوره:👇🏼
🏷 دوره ریاضیات هوش مصنوعی
┘ ◼️ لینک دوره Mathematics for AI
آپارات - سرویس اشتراک ویدیو
ریاضیات هوش مصنوعی - جلسه 7 - دانشگاه خواجه نصیر - پاییز ۱۴۰۲
👍15❤6👎2
Forwarded from DeepMind AI Expert (Farzad 🦅)
اگر دنبال کتاب میگردید این سایتها مفیدند ممکنه دامنه این سایتها تغییر کرده باشه و نتوانید سایت رو ببنید در صورت تغیر اسم سایتو سرچ کنید تا دامنه فعال اون دسترسی داشته باشید.
http://ebookee.org
http://it-ebooks.info
http://en.bookfi.org
http://www.free-ebooks.net
http://www.getfreeebooks.com
http://www.e-book.com.au
http://avaxhome.ws/ebooks
http://gen.lib.rus.ec
http://btdigg.org
http://libgen.info/
http://monoskop.org/log/
http://libgen.info/
http://bookova.com
http://free-books.us.to
http://bookos.org
https://sci-hub.ru/
ربات مقاله
@nexus_search_brian_bot
🔸 پ.ن: موارد تکمیلیتر رو لطفا کامنت کنید تا دیگران دسترسی داشته باشند
#منابع #کتاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
http://ebookee.org
http://it-ebooks.info
http://en.bookfi.org
http://www.free-ebooks.net
http://www.getfreeebooks.com
http://www.e-book.com.au
http://avaxhome.ws/ebooks
http://gen.lib.rus.ec
http://btdigg.org
http://libgen.info/
http://monoskop.org/log/
http://libgen.info/
http://bookova.com
http://free-books.us.to
http://bookos.org
https://sci-hub.ru/
ربات مقاله
@nexus_search_brian_bot
🔸 پ.ن: موارد تکمیلیتر رو لطفا کامنت کنید تا دیگران دسترسی داشته باشند
#منابع #کتاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍8
Media is too big
VIEW IN TELEGRAM
This is an AI generated Ad using Midjourney and Runway!
Future is Here! 😳💥
AI has an absolute impact on future marketing !
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
Future is Here! 😳💥
AI has an absolute impact on future marketing !
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
🆒6👌2👍1
Forwarded from Recommender system (MehriMoon 🌙)
This media is not supported in your browser
VIEW IN TELEGRAM
این جالب ترین چیزی است که امروز می بینید!
(𝗗𝗿𝗮𝘄𝗱𝗮𝘁𝗮)
یک کتابخانه پایتون است که به شما امکان می دهد یک مجموعه داده دو بعدی از هر شکلی را در یک نوت بوک Jupyter رسم کنید.
بسیار مفید برای یادگیری و درک رفتار الگوریتم های ML!
(𝗗𝗿𝗮𝘄𝗱𝗮𝘁𝗮)
یک کتابخانه پایتون است که به شما امکان می دهد یک مجموعه داده دو بعدی از هر شکلی را در یک نوت بوک Jupyter رسم کنید.
بسیار مفید برای یادگیری و درک رفتار الگوریتم های ML!
👍19👌1
This media is not supported in your browser
VIEW IN TELEGRAM
چطور از طریق ترمینال لپ تاپمون فیلم ببینیم؟
ssh http://watch.ascii.theater
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
ssh http://watch.ascii.theater
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍5👎2🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت meta مدل جدید CodeLlama را معرفی کرده یه سری تکنیک هم برای نوشتن پرامپت گذاشته برای اینکه جواب های بهتری بگیریم از این مدل ها. حتما ریپو را چک کنید.
https://github.com/facebookresearch/llama-recipes/blob/main/examples/Prompt_Engineering_with_Llama_2.ipynb
Code Llama 70B: LLM for code generation.
Download the models
➡️ bit.ly/3Oil6bQ
• CodeLlama-70B
• CodeLlama-70B-Python
• CodeLlama-70B-Instruct
#مقاله #هوش_مصنوعی #پروژه
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
https://github.com/facebookresearch/llama-recipes/blob/main/examples/Prompt_Engineering_with_Llama_2.ipynb
Code Llama 70B: LLM for code generation.
Download the models
➡️ bit.ly/3Oil6bQ
• CodeLlama-70B
• CodeLlama-70B-Python
• CodeLlama-70B-Instruct
#مقاله #هوش_مصنوعی #پروژه
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍2❤1
آینده سری های زمانی دوستان آماری و غیر آماری این مقاله جالب رو مطالعه کنن
https://www.santafe.edu/research/results/working-papers/the-future-of-time-series
#مقاله #هوش_مصنوعی #پروژه
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
https://www.santafe.edu/research/results/working-papers/the-future-of-time-series
#مقاله #هوش_مصنوعی #پروژه
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
www.santafe.edu
sfiscience
Welcome to Santa Fe Institute.
👍4🔥1
منبعی جامع و خلاصه
▪️ Natural Language Processing • Word Vectors/Embeddings
#مقاله #هوش_مصنوعی #منابع #الگوریتمها #پردازش_زبان_طبیعی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ Natural Language Processing • Word Vectors/Embeddings
#مقاله #هوش_مصنوعی #منابع #الگوریتمها #پردازش_زبان_طبیعی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍3
یه ریپازیتوری منابع الگوریتمهای #هوش_مصنوعی در این گیتهاب دارم جمع اوری میکنم اگه میدونین چیزایی جا افتاده برام بفرستید تا اضافه کنم یا اونجا تو چت برام بفرستید تا اضافه کنم هرچی که نیاز دارید اینجا میتونین پیدا کنید.
https://github.com/farzadhs/ML-Courses-on-YouTube
#مقاله #هوش_مصنوعی #منابع #الگوریتمها #پردازش_زبان_طبیعی
پ.ن: در دیده شدن این ریپازیتوری لطفا ستاره بدید
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
https://github.com/farzadhs/ML-Courses-on-YouTube
#مقاله #هوش_مصنوعی #منابع #الگوریتمها #پردازش_زبان_طبیعی
پ.ن: در دیده شدن این ریپازیتوری لطفا ستاره بدید
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
❤4👍2