DeepMind AI Expert – Telegram
DeepMind AI Expert
14.9K subscribers
1.28K photos
385 videos
120 files
2.26K links
مقالات کاربردی هوش مصنوعی در پایتون، علوم پزشکی، علوم انسانی، علوم اعصاب و...
دوره های آموزشی از دانشگاه های بزرگ و موسسات انلاین
@ffarzaddh
پژوهشگران هوش مصنوعی ایران

تبادلات پیام بدید
Download Telegram
Automatically calculate the family tree of a given model. It also displays the type of license each model uses (permissive, noncommercial, or unknown).
https://huggingface.co/spaces/mlabonne/model-family-tree

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍1
مقاله خوبیه راجب vision-language models

▪️ Red Teaming Visual Language Models

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
مدلهای بنیادی و کلی اتفاق جذاب دیگه که میشه زندگیو راحتتر کرد!!

▪️ Lumiere: A Space-Time Diffusion Model for Video Generation

* Text-to-Video
* Image-to-Video
* Stylized Generation
* Inpainting
* Cinemagraphs

#پروژه #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍5
#کتاب جدید #یادگیری_ماشین برای مهندسین منتشر شده علاقه داشتید مطالعه کنید

▪️ Machine Learning Engineering


#منابع

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
2👍2
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
استاد بزرگ گفتن :
"A 4-year-old child has seen 50x more information than the biggest LLMs that we have."

LLMs may have consumed all available text, but when it comes to other sensory inputs...they haven't even started.

#هوش_مصنوعی

پ.ن: نظر شما چیه ؟ کامنت کنید

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍20👎5
پادکست خوب میخواهید گوش کنید بفرمایید تو کار #فریلنسرر هستید جان وینسور، بنیانگذار علوم نوآوری‌ دانشگاه هاروارد درباره فریلنسری صحبت کرده

▪️ HBR IdeaCast: What the New Freelance Economy Means for Your Talent Strategy

#پادکست #منابع

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍6
▪️ New embedding models and API updates

• text-embedding-3-small: 5x cheaper and stronger performance compared to the previous generation
• text-embedding-3-large: our best performing model, creating embeddings with up to 3072 dimensions

#پروژه #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
۵هزارتایی شد کانال الان حسودا پلاستیکیا میان میگن ۴۹۹۹ هستش اگه دیس لایک نمیزنین تعداد علاقمندان زیاد شد 😒🥹😍
78👎15😍4🆒4🔥3
یک لیستی از #مقاله های خوب و متفاوت با #ایده_جذاب

SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wild

VMamba: Visual State Space Model

FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder

CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

DiffusionGPT: LLM-Driven Text-to-Image Generation System

Improving fine-grained understanding in image-text pre-training

ChatQA: Building GPT-4 Level Conversational QA Models

Self-Rewarding Language Models

WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍10
طریقه کارکرد GAN به زبان خیلی ساده و کاربردی به زبان تصویر
❗️ ادامه در پست بعدی

𝗚𝗼𝗮𝗹: Generate realistic 4-D data from 2-D noise.

[1] Given
↳ 4 noise vectors in 2D (N)
↳ 4 real data vectors in 4D (X)

[2] 🟩 Generator: First Layer
↳ Multiply the noise vectors with weights and biases to obtain new feature vectors

[3] 🟩 Generator: ReLU
↳ Apply the ReLU activation function, which has the effect of suppressing negative values. In this exercise, -1 and -2 are crossed out and set to 0.

[4] 🟩 Generator: Second Layer
↳ Multiply the features with weights and biases to obtain new feature vectors.
↳ ReLU is applied. But since every value is positive, there's no effect.
↳ These new feature vectors are the "Fake" data (F) generated by this simple 2-layer Generator network.

[5] 🟦 Discriminator: First Layer
↳ Feed both Fake data (F) and real data (X) to the first linear layer
↳ Multiply F and X with weights and biases to obtain new feature vectors.
↳ ReLU is applied. But since every value is positive, there's no effect.

[6] 🟦 Discriminator: Second Layer
↳ Multiply the features with one set of weights and bias to obtain new features.
↳ The intended effect is to reduce to just one feature value per data vector.

[7] 🟦 Discriminator: Sigmoid σ
↳ Convert features (Z) to probability values (Y) using the Sigmoid function
↳ 1 means the Discriminator is 100% confident the data is real.
↳ 0 means the Discriminator is 100% confident the data is fake.

[8] 🏋️ Training: 🟦 Discriminator
↳ Compute the loss gradients of the Discriminator by the simple equation of Y - YD. Why so simple? Because when we use sigmoid and binary entropy loss together, the math magically simplifies to this equation.
↳ YD are the target predictions from the Discriminator's perspective. The Discriminator must learn to predict 0 for the four Fake data (F) and 1 for the four Real data (X). YD=[0,0,0,0,1,1,1,1].
↳ Note that the Discriminator's loss involves both the Fake data and Real data.
↳ With the loss gradients computed, we can kickoff the back propagation process to update the Discriminator's weights and biases (blue borders).

[9] 🏋️ Training: 🟩 Generator
↳ Compute the loss gradients of the Generator by the simple equation of Y - YG.
↳ YG are the target predictions from the Generator's perspective. The Generator must fool the Discriminator into predicting 1 for the four Fake data (F). YG=[1,1,1,1].
↳ Note that the Generator's loss involves only the Fake data.
↳ With the loss gradients computed, we can kickoff the back propagation process to update the Generator's weights and biases (green borders).

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
طریقه کارکرد GAN به زبان خیلی ساده و کاربردی به زبان تصویر ( گیف)

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍3👎1
#مقاله
قراره توی این پست مقاله Barlow Twins رو باهم برسی کنیم. کاری از facebook research!

پس Let's unpack this from the ground up

در هسته خود، متد Barlow Twins در مورد یادگیری از تصاویر بدون نیاز به لیبل گذاری هست - نوعی یادگیری که به عنوان self supervised learning شناخته میشه! تصور کنید سیستمی رو برای درک و تفسیر visual data بدون صرف ساعت‌های بی‌شماری برای لیبل زدن اون تصاویر ترین کنید.

حالا، ممکنه تعجب کنید، این چطور کار میکنه؟ بیایید با اصول اولیه شروع کنیم. این متد یک تصویر رو می گیره، دو ورژن تغییر یافته از اون می سازه (like flipping it or changing its color balance)، و بعد این ورژنها رو به neural networks یکسان فید می کنه. باید اطمینان حاصل بشه از اینکه این شبکه‌ها یاد می‌گیرن این ورژنهای مختلف رو شبیه به هم ببینن، در عین حال مطمین میشن که هر بخش از خروجی شبکه (embedding) اطلاعات منحصربه‌فردی رو حمل میکنه. این تعادل برای جلوگیری از اونچه trivial solutions نام داره بسیار مهمه – جایی که شبکه ممکنه یک چیز ثابت رو برای همه تصاویر خروجی بده، که بدیهیه خیلی مفید نیست.

ببینید novelty این متد در loss function اون هست. یه loss function توی ماشین لرنینگ مثل یه راهنماست که به مدل میگه چقدر خوب عمل میکنه و کجا باید بهبود پیدا کنه. Barlow Twins' loss function دو بخش اصلی داره. بخش اول بر شبیه کردن خروجی های دو ورژن مختلف از یک تصویر تا حد امکان تمرکز داره. این تضمین میکنه که مدل نسبت به augmentationی که قبلا معرفی کردیم تغییر نمیکنه(invariant هست).

بخش دوم جاییه که جالب تر میشه. این بخش بر روی به حداقل رسوندن افزونگی(redundancy) در اطلاعاتی که هر جز از بردار خروجی حمل میکنه کار میکنه. مثل اینه که به مدل بگید: "مطمین شو که فقط خودت رو به روش های مختلف تکرار نمی کنی. هر قسمت از خروجی تو باید چیزای جدید و مفیدی در مورد تصویر به ما بگه."

اونچه در اینجا جالبه، الهام بخش این موضوعه. این از یک اصل توی علوم اعصاب به نام کاهش افزونگی(redundancy reduction) ناشی میشه که توسط Horace Barlow پیشنهاد شده. این در مورد اینه که چگونه مغز ما اطلاعات حسی رو با کاهش داده های اضافی پردازش میکنه. با به کارگیری این اصل، Barlow Twins از یک دام رایج در self supervised learning که در اون مدل‌ها به خروجی‌های بیش از حد ساده شده(oversimplified) یا غیر اطلاعاتی!(non informative) ختم میشن، اجتناب میکنه.

اما نکته مهم اینجاست – در حالی که اکثر متدها به شدت بر روی سمپل‌های «مثبت» و «منفی» تمرکز می کنن، barlow twins مسیر متفاوتی رو در پیش می گیره. این متد فقط از پیرهای مثبت استفاده میکنه! یعنی برخلاف متدهایی مثل simCLR که قراره برسی کنیم نیاز به پیر منفی نداره!

امیدوارم این پست براتون مفید باشه! سعی کردم مفهوم رو برسونم

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍153👎1🔥1
ی مقاله جدیدی که قشنگ میتونه تصاویر رو بخونه تو این مقاله از مدل SigLIP و LLaVA و SLM Phi-2 (2.7B) برای دیکودر کردن استفاده کردند
▪️ Imp-v1: An Emprical Study of Multimodal Small Language Models
▪️ model
▪️ demo

پ.ن: اگه مقاله ش رو پیدا کردین کامنت کنین.

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍3👎1🔥1
#مقاله
می‌خوام در مورد SimCLR صحبت کنم. کاری از google research! این متد تونسته با استفاده از ایده‌های ساده اما کاربردی، تحولی در self supervised learning ایجاد کنه.

بازم مثل مقاله barlow twins که برسی کردیم اینجا هم تصور کنید سیستمی رو برای درک و تفسیر visual data بدون صرف ساعت‌های بی‌شماری برای لیبل زدن اون تصاویر ترین کنید! نکته مهم در اینجاست: SimCLR بر معماری های پیچیده یا یه memory bank عظیم متکی نیست. در عوض، به استراتژی های هوشمندانه و ساده بستگی داره.

توی SimCLR هدف اینه که با استفاده از تابع زیان موسوم به Contrastive Loss بیاییم و representations موثری از تصاویر به دست بیاریم. این کار از طریق مقایسه دو نمای مختلف اما مرتبط از یک سمپل انجام می‌شه. خیلی جالبه، نه؟

اولین قدم، استفاده از ماژول Data Augmentation هست که با اعمال تغییراتی مثل Random Cropping، Color Distortions و Gaussian Blur به تصاویر، دو نمای متفاوت از یک تصویر اصلی ایجاد می‌کنه. این دو نمای جدید، یک پیر مثبت در فرآیند یادگیری محسوب می‌شن.

بعد از اون، یک شبکه عصبی به نام base encoder (معمولاً از نوع ResNet) وارد عمل می‌شه و بازنمایی‌های از این تصاویر رو استخراج می‌کنه. خروجی این شبکه، همون representationsی هستن که می‌خوایم روی اون‌ها کار کنیم. نکته بعدی، projection head هست. این بخش، یه شبکه عصبی کوچکه که بازنمایی‌های استخراج‌شده رو به فضایی منتقل می‌کنه که تابع زیان Contrastive Loss روی اون اعمال می‌شه. این فرآیند کمک می‌کنه که نتایج یادگیری دقیق‌تر و کاربردی‌تر بشن. یجورایی نقش refiner رو بازی میکنه.

اما نکته کلیدی، استفاده از تابع زیان NT-Xent هست. این تابع با استفاده از شباهت کسینوسی و پارامتر دما (Temperature)، امکان مقایسه و بهینه‌سازی پیرهای مثبت و منفی رو فراهم می‌کنه. قراره پیرهای مثبت بهم نزدیک و پیرهای منفی از هم دور بشن(هر دو تصویر آگمنت شده برای هم پیر مثبت هستن و با سایر نمونه‌ها بعنوان مثال‌های منفی برخورد میشه). رویکرد SimCLR نشون می‌ده که با استفاده از دسته‌های بزرگتر داده (Larger Batch Sizes)، نتایج بهتری حاصل می‌شه، چون تعداد نمونه‌های منفی بیشتری برای یادگیری وجود داره.

خلاصه کنم، SimCLR با استفاده از ایده‌های نوآورانه در Data Augmentation، شبکه‌های عصبی مثل ResNet و Projection Head، و همچنین تابع زیان خلاقانه‌ای مثل NT-Xent، تونسته تحولی در self supervised learning ایجاد کنه. این متد نه‌ تنها ساده‌تر از متدهای موجوده، بلکه در عین حال کارایی بسیار بالایی داره و می‌تونه به علاقه‌مندان ماشین لرنینگ کمک زیادی کنه.

امیدوارم این پست براتون مفید باشه. سعی کردم مفهوم رو برسونم!

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍11
#مقاله
اینبار بریم سراغ برسی یه مقاله پایه‌ای ماشین لرنینگ یعنی CycleGAN! ببینیم فیدبک نسبت به مقالات پایه چطوره؟!

به طور سنتی، برای ترین مدلها برای تبدیل یک تصویر از یک سبک به یه سبک دیگه (مثل تبدیل سلفی خودتون به یه شاهکار ون گوگ)، به تصاویر جفتی نیاز داشتیم - یک «قبل» و یک «بعد». اما اگه این جفت ها رو نداشته باشیم چه؟ اینجاست که CycleGAN وارد میشه!

این تکنیک به استفاده از دو مجموعه تصویر جفت نشده از حوزه های مختلف (به نقاشی های ون گوگ و سلفی های تصادفی فکر کنید) بستگی داره. نکته مهم اینه که ما نمیدونیم کدوم نقاشی با کدام سلفی مطابقت داره. چالش اینه که به یه neural network یاد بدیم که این تبدیل رو بدون جفت شدن مستقیم انجام بده. جالبه؟

میرسیم به Adversarial networks. این شبکه ها دو بازیگر اصلی دارن: یک generator و یک discriminator. شبکه generator تلاش می کنه تا یک سلفی رو به سبک نقاشی تبدیل کنه، در حالی که discriminator مثل یک منتقد هنری عمل می کنه و سعی می کنه موارد تقلبی رو در میان نقاشی های واقعی تشخیص بده.

اما موضوع فقط فریب دادن این منتقد نیست. این مدل از "cycle consistency" برای اطمینان از تحولات معنی دار استفاده می کنه. بخش جالب اینجاست: اگه یک سلفی بگیرید، اونو به یک نقاشی تبدیل کنید، و سپس اونو به یک سلفی تبدیل کنید، باید چیزی شبیه به عکس اصلی خود داشته باشید. این مثل ترجمه یک جمله از انگلیسی به فرانسوی و بازگشت به انگلیسی است، با انتظار حفظ معنای اصلی!

حالا، برای اطمینان از اینکه ترجمه‌ها نه تنها از نظر بصری دقیق هستن، بلکه معنادار هستن، نویسنده‌ها یک «cycle consistency loss» رو معرفی کردن. این مکانیسم دگرگونی‌ها رو در هر دو جهت کنترل می‌کنه و مطمین میشه که یک سلفی به یک نقاشی تبدیل شده و سپس به یک سلفی برمی‌گرده همچنان به تصویر اصلی وفاداره.

اینجا جاییه که قراره مفهوم جا بیوفته! ما دوتا generator داریم. معمولا autoencoder هستن. اولی یه تصویر سلفی رو میگیره و اونو به نقاشی تبدیل میکنه. discriminator چک میکنه که این نقاشی فیک هست یا نه. generator دومی سعی میکنه نقاشی رو به تصویر اصلی تبدیل کنه. اینطور کار میکنه!

من loss رو در تصویر زیر آوردم. بیایید اونو برسی کنیم. تصور کنید دو مترجم دارید: یکی (بیایید اونو G بنامیم) انگلیسی رو به فرانسوی ترجمه می کنه و دیگری (به نام F) فرانسوی رو به انگلیسی ترجمه می کنه. حالا، اگر یک جمله انگلیسی رو انتخاب کنید، اونو با G به فرانسوی ترجمه کنید، و بلافاصله اونو با F به انگلیسی ترجمه کنید، امیدوارید که به جمله اصلی انگلیسی خودتون برسید، درسته؟ این اساسا همون فرمول cycle consistency loss هست. شما همین کارو میکنید، اما با تصاویر به جای زبان ها: چرخه برای X به Y و بازگشت به X: ابتدا یه تصویر از دامنه X (مثل یه عکس) می گیرید، اونو با استفاده از G به دامنه Y (مثل یه نقاشی) ترجمه می کنید. سپس با استفاده از F به دامنه X برمی گرده. فرمول سپس تفاوت این تصویر دو بار ترجمه شده رو با عکس اصلی اندازه می گیره. هدف اینه که این تفاوت رو تا حد امکان کوچک کنید. هدف؟ با انجام این کار، مدل یاد می گیره که در ترجمه های خودش دقت کنه. این نمیتونه فقط یک نقاشی تصادفی از یک عکس ایجاد کنه یا بالعکس. باید اصل تصویر اصلی رو حفظ کنه تا وقتی دوباره ترجمه می‌شه، همچنان شبیه تصویر اصلی باشه! F و G همون دوتا generatorمون هستن!

امیدوارم این پست براتون مفید باشه.

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍151
#مقاله
دوستان عزیز می‌خوام در مورد یک پروژه نوآورانه دیگه در حوزه ماشین لرنینگ صحبت کنم، که توسط OpenAI انجام شده و همزمان مفهوم zero shot learning رو براتون کاملا جا بندازم: مدل CLIP (Contrastive Language-Image Pre-Training). این مدل که بر پایه مفاهیم multimodal و neural network هست، روی ۴۰۰ میلیون پیر image-text ترین شده.
هر پیر image-text شامل یک عکس و یک کپشن مرتبط با اونه. پس یجورایی هدف CLIP، پیش‌بینی مرتبط‌ترین متن برای هر تصویر هست. معمولا، مدل‌های ماشین لرنینگ روی یک تسک خاص ترین میشن، اما CLIP از این قاعده مستثناست. این مدل، حتی در مواردی که مستقیما برای اونها ترین نشده، عملکرد خوبی داره، که به این قابلیت zero-shot learning میگن.
به عنوان مثال، اگر یک مدل روی تشخیص سگ‌ها و گربه‌ها ترین شده باشه، انتظار نمیره که در تشخیص ماشین‌ها عملکرد خوبی داشته باشه. اما CLIP، به دلیل استفاده موثر از اطلاعات متنی در کنار تصاویر، در چنین مواردی نیز عملکرد قابل توجهی داره.
برای ایجاد کانکشن بین تصاویر و متن‌ها ما به embeddings اونها نیاز داریم. CLIP از دو sub model استفاده می‌کنه: یک text encoder و یک image encoder، که به تولید embeddings برای هر کدوم می‌پردازن. اینجاست که مفهوم contrastive learning به کار گرفته می‌شه، که هدف اون نزدیک کردن embeddings مرتبط و دور کردن embeddings نامرتبط هست (با کمی جزییات بیشتر).
در زمان تست، کل کلاس‌های مورد نظر برای طبقه‌بندی از طریق text encoder عبور داده میشن تا embeddings اونها بدست آید. سپس، وقتی تصویر جدیدی وارد میشه، از image encoder عبور داده میشه و برای اون هم embedding تولید میشه. طبقه‌بندی بر اساس شباهت بین embedding تصویر ورودی و embeddings کلاس‌ها انجام میشه. به همین سادگی!
ترینینگ CLIP، سی روز زمان برده و از ۵۹۲ پردازنده V100 استفاده شده. هزینه این ترینینگ در AWS، حدود یک میلیون دلار بوده!


#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍6🔥31