DeepMind AI Expert – Telegram
DeepMind AI Expert
14.9K subscribers
1.28K photos
385 videos
120 files
2.26K links
مقالات کاربردی هوش مصنوعی در پایتون، علوم پزشکی، علوم انسانی، علوم اعصاب و...
دوره های آموزشی از دانشگاه های بزرگ و موسسات انلاین
@ffarzaddh
پژوهشگران هوش مصنوعی ایران

تبادلات پیام بدید
Download Telegram
ی مقاله جدیدی که قشنگ میتونه تصاویر رو بخونه تو این مقاله از مدل SigLIP و LLaVA و SLM Phi-2 (2.7B) برای دیکودر کردن استفاده کردند
▪️ Imp-v1: An Emprical Study of Multimodal Small Language Models
▪️ model
▪️ demo

پ.ن: اگه مقاله ش رو پیدا کردین کامنت کنین.

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍3👎1🔥1
#مقاله
می‌خوام در مورد SimCLR صحبت کنم. کاری از google research! این متد تونسته با استفاده از ایده‌های ساده اما کاربردی، تحولی در self supervised learning ایجاد کنه.

بازم مثل مقاله barlow twins که برسی کردیم اینجا هم تصور کنید سیستمی رو برای درک و تفسیر visual data بدون صرف ساعت‌های بی‌شماری برای لیبل زدن اون تصاویر ترین کنید! نکته مهم در اینجاست: SimCLR بر معماری های پیچیده یا یه memory bank عظیم متکی نیست. در عوض، به استراتژی های هوشمندانه و ساده بستگی داره.

توی SimCLR هدف اینه که با استفاده از تابع زیان موسوم به Contrastive Loss بیاییم و representations موثری از تصاویر به دست بیاریم. این کار از طریق مقایسه دو نمای مختلف اما مرتبط از یک سمپل انجام می‌شه. خیلی جالبه، نه؟

اولین قدم، استفاده از ماژول Data Augmentation هست که با اعمال تغییراتی مثل Random Cropping، Color Distortions و Gaussian Blur به تصاویر، دو نمای متفاوت از یک تصویر اصلی ایجاد می‌کنه. این دو نمای جدید، یک پیر مثبت در فرآیند یادگیری محسوب می‌شن.

بعد از اون، یک شبکه عصبی به نام base encoder (معمولاً از نوع ResNet) وارد عمل می‌شه و بازنمایی‌های از این تصاویر رو استخراج می‌کنه. خروجی این شبکه، همون representationsی هستن که می‌خوایم روی اون‌ها کار کنیم. نکته بعدی، projection head هست. این بخش، یه شبکه عصبی کوچکه که بازنمایی‌های استخراج‌شده رو به فضایی منتقل می‌کنه که تابع زیان Contrastive Loss روی اون اعمال می‌شه. این فرآیند کمک می‌کنه که نتایج یادگیری دقیق‌تر و کاربردی‌تر بشن. یجورایی نقش refiner رو بازی میکنه.

اما نکته کلیدی، استفاده از تابع زیان NT-Xent هست. این تابع با استفاده از شباهت کسینوسی و پارامتر دما (Temperature)، امکان مقایسه و بهینه‌سازی پیرهای مثبت و منفی رو فراهم می‌کنه. قراره پیرهای مثبت بهم نزدیک و پیرهای منفی از هم دور بشن(هر دو تصویر آگمنت شده برای هم پیر مثبت هستن و با سایر نمونه‌ها بعنوان مثال‌های منفی برخورد میشه). رویکرد SimCLR نشون می‌ده که با استفاده از دسته‌های بزرگتر داده (Larger Batch Sizes)، نتایج بهتری حاصل می‌شه، چون تعداد نمونه‌های منفی بیشتری برای یادگیری وجود داره.

خلاصه کنم، SimCLR با استفاده از ایده‌های نوآورانه در Data Augmentation، شبکه‌های عصبی مثل ResNet و Projection Head، و همچنین تابع زیان خلاقانه‌ای مثل NT-Xent، تونسته تحولی در self supervised learning ایجاد کنه. این متد نه‌ تنها ساده‌تر از متدهای موجوده، بلکه در عین حال کارایی بسیار بالایی داره و می‌تونه به علاقه‌مندان ماشین لرنینگ کمک زیادی کنه.

امیدوارم این پست براتون مفید باشه. سعی کردم مفهوم رو برسونم!

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍11
#مقاله
اینبار بریم سراغ برسی یه مقاله پایه‌ای ماشین لرنینگ یعنی CycleGAN! ببینیم فیدبک نسبت به مقالات پایه چطوره؟!

به طور سنتی، برای ترین مدلها برای تبدیل یک تصویر از یک سبک به یه سبک دیگه (مثل تبدیل سلفی خودتون به یه شاهکار ون گوگ)، به تصاویر جفتی نیاز داشتیم - یک «قبل» و یک «بعد». اما اگه این جفت ها رو نداشته باشیم چه؟ اینجاست که CycleGAN وارد میشه!

این تکنیک به استفاده از دو مجموعه تصویر جفت نشده از حوزه های مختلف (به نقاشی های ون گوگ و سلفی های تصادفی فکر کنید) بستگی داره. نکته مهم اینه که ما نمیدونیم کدوم نقاشی با کدام سلفی مطابقت داره. چالش اینه که به یه neural network یاد بدیم که این تبدیل رو بدون جفت شدن مستقیم انجام بده. جالبه؟

میرسیم به Adversarial networks. این شبکه ها دو بازیگر اصلی دارن: یک generator و یک discriminator. شبکه generator تلاش می کنه تا یک سلفی رو به سبک نقاشی تبدیل کنه، در حالی که discriminator مثل یک منتقد هنری عمل می کنه و سعی می کنه موارد تقلبی رو در میان نقاشی های واقعی تشخیص بده.

اما موضوع فقط فریب دادن این منتقد نیست. این مدل از "cycle consistency" برای اطمینان از تحولات معنی دار استفاده می کنه. بخش جالب اینجاست: اگه یک سلفی بگیرید، اونو به یک نقاشی تبدیل کنید، و سپس اونو به یک سلفی تبدیل کنید، باید چیزی شبیه به عکس اصلی خود داشته باشید. این مثل ترجمه یک جمله از انگلیسی به فرانسوی و بازگشت به انگلیسی است، با انتظار حفظ معنای اصلی!

حالا، برای اطمینان از اینکه ترجمه‌ها نه تنها از نظر بصری دقیق هستن، بلکه معنادار هستن، نویسنده‌ها یک «cycle consistency loss» رو معرفی کردن. این مکانیسم دگرگونی‌ها رو در هر دو جهت کنترل می‌کنه و مطمین میشه که یک سلفی به یک نقاشی تبدیل شده و سپس به یک سلفی برمی‌گرده همچنان به تصویر اصلی وفاداره.

اینجا جاییه که قراره مفهوم جا بیوفته! ما دوتا generator داریم. معمولا autoencoder هستن. اولی یه تصویر سلفی رو میگیره و اونو به نقاشی تبدیل میکنه. discriminator چک میکنه که این نقاشی فیک هست یا نه. generator دومی سعی میکنه نقاشی رو به تصویر اصلی تبدیل کنه. اینطور کار میکنه!

من loss رو در تصویر زیر آوردم. بیایید اونو برسی کنیم. تصور کنید دو مترجم دارید: یکی (بیایید اونو G بنامیم) انگلیسی رو به فرانسوی ترجمه می کنه و دیگری (به نام F) فرانسوی رو به انگلیسی ترجمه می کنه. حالا، اگر یک جمله انگلیسی رو انتخاب کنید، اونو با G به فرانسوی ترجمه کنید، و بلافاصله اونو با F به انگلیسی ترجمه کنید، امیدوارید که به جمله اصلی انگلیسی خودتون برسید، درسته؟ این اساسا همون فرمول cycle consistency loss هست. شما همین کارو میکنید، اما با تصاویر به جای زبان ها: چرخه برای X به Y و بازگشت به X: ابتدا یه تصویر از دامنه X (مثل یه عکس) می گیرید، اونو با استفاده از G به دامنه Y (مثل یه نقاشی) ترجمه می کنید. سپس با استفاده از F به دامنه X برمی گرده. فرمول سپس تفاوت این تصویر دو بار ترجمه شده رو با عکس اصلی اندازه می گیره. هدف اینه که این تفاوت رو تا حد امکان کوچک کنید. هدف؟ با انجام این کار، مدل یاد می گیره که در ترجمه های خودش دقت کنه. این نمیتونه فقط یک نقاشی تصادفی از یک عکس ایجاد کنه یا بالعکس. باید اصل تصویر اصلی رو حفظ کنه تا وقتی دوباره ترجمه می‌شه، همچنان شبیه تصویر اصلی باشه! F و G همون دوتا generatorمون هستن!

امیدوارم این پست براتون مفید باشه.

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍151
#مقاله
دوستان عزیز می‌خوام در مورد یک پروژه نوآورانه دیگه در حوزه ماشین لرنینگ صحبت کنم، که توسط OpenAI انجام شده و همزمان مفهوم zero shot learning رو براتون کاملا جا بندازم: مدل CLIP (Contrastive Language-Image Pre-Training). این مدل که بر پایه مفاهیم multimodal و neural network هست، روی ۴۰۰ میلیون پیر image-text ترین شده.
هر پیر image-text شامل یک عکس و یک کپشن مرتبط با اونه. پس یجورایی هدف CLIP، پیش‌بینی مرتبط‌ترین متن برای هر تصویر هست. معمولا، مدل‌های ماشین لرنینگ روی یک تسک خاص ترین میشن، اما CLIP از این قاعده مستثناست. این مدل، حتی در مواردی که مستقیما برای اونها ترین نشده، عملکرد خوبی داره، که به این قابلیت zero-shot learning میگن.
به عنوان مثال، اگر یک مدل روی تشخیص سگ‌ها و گربه‌ها ترین شده باشه، انتظار نمیره که در تشخیص ماشین‌ها عملکرد خوبی داشته باشه. اما CLIP، به دلیل استفاده موثر از اطلاعات متنی در کنار تصاویر، در چنین مواردی نیز عملکرد قابل توجهی داره.
برای ایجاد کانکشن بین تصاویر و متن‌ها ما به embeddings اونها نیاز داریم. CLIP از دو sub model استفاده می‌کنه: یک text encoder و یک image encoder، که به تولید embeddings برای هر کدوم می‌پردازن. اینجاست که مفهوم contrastive learning به کار گرفته می‌شه، که هدف اون نزدیک کردن embeddings مرتبط و دور کردن embeddings نامرتبط هست (با کمی جزییات بیشتر).
در زمان تست، کل کلاس‌های مورد نظر برای طبقه‌بندی از طریق text encoder عبور داده میشن تا embeddings اونها بدست آید. سپس، وقتی تصویر جدیدی وارد میشه، از image encoder عبور داده میشه و برای اون هم embedding تولید میشه. طبقه‌بندی بر اساس شباهت بین embedding تصویر ورودی و embeddings کلاس‌ها انجام میشه. به همین سادگی!
ترینینگ CLIP، سی روز زمان برده و از ۵۹۲ پردازنده V100 استفاده شده. هزینه این ترینینگ در AWS، حدود یک میلیون دلار بوده!


#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍6🔥31
#مقاله
میخوام در مورد Supervised Contrastive Learning حرف بزنم. کاری مشترک از Google Research، Boston University و MIT!

در چشم‌انداز در حال تکامل دیپ لرنینگ، درخت بارور برای classification models مدت‌ها cross entropy loss function بوده. با این حال، این loss بدون اشکال نیست - به ویژه، حساسیت به noisy labels و suboptimal margins که منجر به کاهش تعمیم میشه. اینجاست که کاوش ما شروع میشه، و وارد قلمرو supervised contrastive learning میشیم!

ماهیت supervised contrastive (SupCon) learning ریشه در اصول self-supervised contrastive learning داره. به طور مرسوم، self-supervised learning شامل نزدیک کردن یک anchor و یک positive sample (معمولا آگمنت همون دیتا) در embedding space بهم دیگه و دور کردن anchor از negative samples (دیتای دیگر) در این فضا هست! این یه رقص نزدیکی و جدایی هست که در embedding space رخ میده.

حالا، بیایید به متد SupCon بپردازیم، که به طرز درخشانی این استراتژی رو برای یک fully supervised context تطبیق میده. در اینجا، بازی تغییر می کنه: ما دیگه به data augmentation برای ساخت موارد مثبت محدود نمیشیم. درعوض، هر سمپل‌ای که لیبل کلاس یکسانی رو با anchor داره، یه سمپل "مثبت" میشه. این یه تغییر ظریف و در عین حال عمیقه. اینطور فکر کنید - اگه anchor ما تصویری از یک "گربه" هست، پس هر تصویر "گربه" دیگری در دیتاست ما، مثبته.

میشه اینطور گفت. جایی که self-supervised contrastive loss ممکنه فقط یک مورد مثبت رو در نظر بگیره (نمای متفاوتی از یک سمپل)، SupCon loss چندین مثبت رو برای هر anchor در نظر میگیره - به اصطلاح همه گربه های مختلف. این سمپل‌های مثبت در کنار بسیاری از موارد منفی هستن (مثلا تصاویر سگ، پرندگان و غیره). این بازنگری به چندین مثبت برای هر anchor به مدل اجازه میده تا بازنمایی های قوی تری رو یاد بگیره، چون باید تفاوت های ظریف رو در یک کلاس تشخیص بده و در عین حال بین کلاس ها تمایز قایل بشه.

از نظر تجربی، نتایج قانع کننده هستن. در معماری ResNet 200، این متد به top-1 accuracyی 81.4 درصد روی دیتاست ImageNet دست پیدا کرد- یک پیشرفت قابل توجه نسبت به cross entropy loss.

به طور خلاصه، متد SupCon فقط یک گام رو به جلوی دیگه در دیپ لرنینگ نیست. این بازنگری در نحوه فکر کردن ما به فرایند یادگیریه! درس‌هایی رو از self supervised learning یاد میگیریم و اونهارو به supervised setting بسط میدیم.

سعی کردم مفهوم رو برسونم. هر سوالی دارید بپرسید پاسخ میدم!

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍11
The Man Who Sold The World
Nirvana
#متفرقه
دوست داشتم امروزو با اهنگ که چی داره میشه بگم

مردی که دنیا را فروخت - نیروانا
The man who sold the world - nirvana

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
🔥5👎4👌1
سال ۲۰۲۳ سال مولتی مدلها بود در #مقاله زیر نگاهی کلی به مقالات منتشر شده در سالی که گذاشت داشته ایده های جذاب رو برای پژوهش های خودتون استخراج کنید .

▪️ MM-LLMs: Recent Advances in MultiModal Large Language Models

#ایده_جذاب

پ.ن: به نظر شما سال ۲۰۲۴ چه موضوعاتی رونق خواهند گرفت هوش مصنوعی به کدام سمت خواهد رفت. کامنت کنید

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍5
تنسرفلو قبلتر مدل mamba معرف حضور بوده مدل ویژنی معرفی شده الان

CNNs??? Transformers??? No, it is VMamba


▪️ VMamba: Visual State Space Model
▪️ GitHub

An Alternative to Convolutional Neural Networks CNNs and Vision Transformers for Enhanced Computational Efficiency

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
Forwarded from Recommender system (MehriMoon 🌙)
⭕️ دوره ریاضیات هوش مصنوعی به فارسی

دکتر سید بهروز نصیحت کن استادیار دانشکده مهندسی کامپیوتر دانشگاه خواجه نصیر، دوره "ریاضیات هوش مصنوعی" ؛ پاییز امسال (1402) رو که شامل 25 جلسه و بیش از 29 ساعت ویدیو آموزشی هست رو، به زبان فارسی و رایگان در آپارات منتشر کردن.💯

🔰 لینک دسترسی به پلی‌لیست دوره:👇🏼


🏷 دوره ریاضیات هوش مصنوعی

◼️
لینک دوره Mathematics for AI
👍156👎2
Forwarded from DeepMind AI Expert (Farzad 🦅)
اگر دنبال کتاب میگردید این سایتها مفیدند ممکنه دامنه این سایتها تغییر کرده باشه و نتوانید سایت رو ببنید در صورت تغیر اسم سایتو سرچ کنید تا دامنه فعال اون دسترسی داشته باشید.

http://ebookee.org
http://it-ebooks.info
http://en.bookfi.org
http://www.free-ebooks.net
http://www.getfreeebooks.com
http://www.e-book.com.au
http://avaxhome.ws/ebooks
http://gen.lib.rus.ec
http://btdigg.org
http://libgen.info/
http://monoskop.org/log/
http://libgen.info/
http://bookova.com
http://free-books.us.to
http://bookos.org
https://sci-hub.ru/
ربات مقاله
@nexus_search_brian_bot

🔸 پ.ن: موارد تکمیلی‌تر رو لطفا کامنت کنید تا دیگران دسترسی داشته باشند

#منابع #کتاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍8
Media is too big
VIEW IN TELEGRAM
This is an AI generated Ad using Midjourney and Runway!

Future is Here! 😳💥

AI has an absolute impact on future marketing !

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
🆒6👌2👍1
Forwarded from Recommender system (MehriMoon 🌙)
This media is not supported in your browser
VIEW IN TELEGRAM
این جالب ترین چیزی است که امروز می بینید!

(𝗗𝗿𝗮𝘄𝗱𝗮𝘁𝗮)
یک کتابخانه پایتون است که به شما امکان می دهد یک مجموعه داده دو بعدی از هر شکلی را در یک نوت بوک Jupyter رسم کنید.

بسیار مفید برای یادگیری و درک رفتار الگوریتم های ML!
👍19👌1
This media is not supported in your browser
VIEW IN TELEGRAM
چطور از طریق ترمینال لپ تاپمون فیلم ببینیم؟

ssh http://watch.ascii.theater


🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍5👎2🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت meta مدل جدید CodeLlama را معرفی کرده یه سری تکنیک هم برای نوشتن پرامپت گذاشته برای اینکه جواب های بهتری بگیریم از این مدل ها. حتما ریپو را چک کنید.
https://github.com/facebookresearch/llama-recipes/blob/main/examples/Prompt_Engineering_with_Llama_2.ipynb

Code Llama 70B: LLM for code generation.

Download the models

➡️ bit.ly/3Oil6bQ

• CodeLlama-70B
• CodeLlama-70B-Python
• CodeLlama-70B-Instruct

#مقاله #هوش_مصنوعی #پروژه

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍21
آینده سری های زمانی دوستان آماری و غیر آماری این مقاله جالب رو مطالعه کنن
https://www.santafe.edu/research/results/working-papers/the-future-of-time-series

#مقاله #هوش_مصنوعی #پروژه

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍4🔥1
یه ریپازیتوری منابع الگوریتمهای #هوش_مصنوعی در این گیتهاب دارم جمع اوری میکنم اگه میدونین چیزایی جا افتاده برام بفرستید تا اضافه کنم یا اونجا تو چت برام بفرستید تا اضافه کنم هرچی که نیاز دارید اینجا میتونین پیدا کنید.

https://github.com/farzadhs/ML-Courses-on-YouTube

#مقاله #هوش_مصنوعی #منابع #الگوریتمها #پردازش_زبان_طبیعی

پ.ن: در دیده شدن این ریپازیتوری لطفا ستاره بدید

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
4👍2