DeepMind AI Expert – Telegram
DeepMind AI Expert
14.9K subscribers
1.28K photos
385 videos
120 files
2.26K links
مقالات کاربردی هوش مصنوعی در پایتون، علوم پزشکی، علوم انسانی، علوم اعصاب و...
دوره های آموزشی از دانشگاه های بزرگ و موسسات انلاین
@ffarzaddh
پژوهشگران هوش مصنوعی ایران

تبادلات پیام بدید
Download Telegram
Take Me To Church
Hozier
قشنگه دوست داشتم بفرستمش اینجا خاطره‌ها بسازین

#متفرقه

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍9👎4🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
وضعیت دانشجوی دکترا و استاد راهنما😂

نظرتون چیه؟!

#فان


🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👌13👎5🆒3👍2😍1
Audio
Öyle günler var

#متفرقه

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👎43
کتاب جدید منتشر شده
▪️ State Space Models: A Modern Approach

#کتاب #منابع

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
This media is not supported in your browser
VIEW IN TELEGRAM
وقتی که دیزاینرها قراره بی کار بشن 😀
مدل های بنیاد و تبدیل text-to-3D
«هرکسی در آینده میتونه دیزاین داخلی ساختمان خودشو به هوش مصنوعی بده و قبل چیدمان وسایل ساختمان میشه نظر #هوش_مصنوعی رو پرسید!»

▪️ Text-to-3D Foundation Model

#پروژه #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
🔥2👍1👎1
Automatically calculate the family tree of a given model. It also displays the type of license each model uses (permissive, noncommercial, or unknown).
https://huggingface.co/spaces/mlabonne/model-family-tree

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍1
مقاله خوبیه راجب vision-language models

▪️ Red Teaming Visual Language Models

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
مدلهای بنیادی و کلی اتفاق جذاب دیگه که میشه زندگیو راحتتر کرد!!

▪️ Lumiere: A Space-Time Diffusion Model for Video Generation

* Text-to-Video
* Image-to-Video
* Stylized Generation
* Inpainting
* Cinemagraphs

#پروژه #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍5
#کتاب جدید #یادگیری_ماشین برای مهندسین منتشر شده علاقه داشتید مطالعه کنید

▪️ Machine Learning Engineering


#منابع

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
2👍2
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
استاد بزرگ گفتن :
"A 4-year-old child has seen 50x more information than the biggest LLMs that we have."

LLMs may have consumed all available text, but when it comes to other sensory inputs...they haven't even started.

#هوش_مصنوعی

پ.ن: نظر شما چیه ؟ کامنت کنید

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍20👎5
پادکست خوب میخواهید گوش کنید بفرمایید تو کار #فریلنسرر هستید جان وینسور، بنیانگذار علوم نوآوری‌ دانشگاه هاروارد درباره فریلنسری صحبت کرده

▪️ HBR IdeaCast: What the New Freelance Economy Means for Your Talent Strategy

#پادکست #منابع

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍6
▪️ New embedding models and API updates

• text-embedding-3-small: 5x cheaper and stronger performance compared to the previous generation
• text-embedding-3-large: our best performing model, creating embeddings with up to 3072 dimensions

#پروژه #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
۵هزارتایی شد کانال الان حسودا پلاستیکیا میان میگن ۴۹۹۹ هستش اگه دیس لایک نمیزنین تعداد علاقمندان زیاد شد 😒🥹😍
78👎15😍4🆒4🔥3
یک لیستی از #مقاله های خوب و متفاوت با #ایده_جذاب

SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wild

VMamba: Visual State Space Model

FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder

CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

DiffusionGPT: LLM-Driven Text-to-Image Generation System

Improving fine-grained understanding in image-text pre-training

ChatQA: Building GPT-4 Level Conversational QA Models

Self-Rewarding Language Models

WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍10
طریقه کارکرد GAN به زبان خیلی ساده و کاربردی به زبان تصویر
❗️ ادامه در پست بعدی

𝗚𝗼𝗮𝗹: Generate realistic 4-D data from 2-D noise.

[1] Given
↳ 4 noise vectors in 2D (N)
↳ 4 real data vectors in 4D (X)

[2] 🟩 Generator: First Layer
↳ Multiply the noise vectors with weights and biases to obtain new feature vectors

[3] 🟩 Generator: ReLU
↳ Apply the ReLU activation function, which has the effect of suppressing negative values. In this exercise, -1 and -2 are crossed out and set to 0.

[4] 🟩 Generator: Second Layer
↳ Multiply the features with weights and biases to obtain new feature vectors.
↳ ReLU is applied. But since every value is positive, there's no effect.
↳ These new feature vectors are the "Fake" data (F) generated by this simple 2-layer Generator network.

[5] 🟦 Discriminator: First Layer
↳ Feed both Fake data (F) and real data (X) to the first linear layer
↳ Multiply F and X with weights and biases to obtain new feature vectors.
↳ ReLU is applied. But since every value is positive, there's no effect.

[6] 🟦 Discriminator: Second Layer
↳ Multiply the features with one set of weights and bias to obtain new features.
↳ The intended effect is to reduce to just one feature value per data vector.

[7] 🟦 Discriminator: Sigmoid σ
↳ Convert features (Z) to probability values (Y) using the Sigmoid function
↳ 1 means the Discriminator is 100% confident the data is real.
↳ 0 means the Discriminator is 100% confident the data is fake.

[8] 🏋️ Training: 🟦 Discriminator
↳ Compute the loss gradients of the Discriminator by the simple equation of Y - YD. Why so simple? Because when we use sigmoid and binary entropy loss together, the math magically simplifies to this equation.
↳ YD are the target predictions from the Discriminator's perspective. The Discriminator must learn to predict 0 for the four Fake data (F) and 1 for the four Real data (X). YD=[0,0,0,0,1,1,1,1].
↳ Note that the Discriminator's loss involves both the Fake data and Real data.
↳ With the loss gradients computed, we can kickoff the back propagation process to update the Discriminator's weights and biases (blue borders).

[9] 🏋️ Training: 🟩 Generator
↳ Compute the loss gradients of the Generator by the simple equation of Y - YG.
↳ YG are the target predictions from the Generator's perspective. The Generator must fool the Discriminator into predicting 1 for the four Fake data (F). YG=[1,1,1,1].
↳ Note that the Generator's loss involves only the Fake data.
↳ With the loss gradients computed, we can kickoff the back propagation process to update the Generator's weights and biases (green borders).

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
طریقه کارکرد GAN به زبان خیلی ساده و کاربردی به زبان تصویر ( گیف)

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍3👎1
#مقاله
قراره توی این پست مقاله Barlow Twins رو باهم برسی کنیم. کاری از facebook research!

پس Let's unpack this from the ground up

در هسته خود، متد Barlow Twins در مورد یادگیری از تصاویر بدون نیاز به لیبل گذاری هست - نوعی یادگیری که به عنوان self supervised learning شناخته میشه! تصور کنید سیستمی رو برای درک و تفسیر visual data بدون صرف ساعت‌های بی‌شماری برای لیبل زدن اون تصاویر ترین کنید.

حالا، ممکنه تعجب کنید، این چطور کار میکنه؟ بیایید با اصول اولیه شروع کنیم. این متد یک تصویر رو می گیره، دو ورژن تغییر یافته از اون می سازه (like flipping it or changing its color balance)، و بعد این ورژنها رو به neural networks یکسان فید می کنه. باید اطمینان حاصل بشه از اینکه این شبکه‌ها یاد می‌گیرن این ورژنهای مختلف رو شبیه به هم ببینن، در عین حال مطمین میشن که هر بخش از خروجی شبکه (embedding) اطلاعات منحصربه‌فردی رو حمل میکنه. این تعادل برای جلوگیری از اونچه trivial solutions نام داره بسیار مهمه – جایی که شبکه ممکنه یک چیز ثابت رو برای همه تصاویر خروجی بده، که بدیهیه خیلی مفید نیست.

ببینید novelty این متد در loss function اون هست. یه loss function توی ماشین لرنینگ مثل یه راهنماست که به مدل میگه چقدر خوب عمل میکنه و کجا باید بهبود پیدا کنه. Barlow Twins' loss function دو بخش اصلی داره. بخش اول بر شبیه کردن خروجی های دو ورژن مختلف از یک تصویر تا حد امکان تمرکز داره. این تضمین میکنه که مدل نسبت به augmentationی که قبلا معرفی کردیم تغییر نمیکنه(invariant هست).

بخش دوم جاییه که جالب تر میشه. این بخش بر روی به حداقل رسوندن افزونگی(redundancy) در اطلاعاتی که هر جز از بردار خروجی حمل میکنه کار میکنه. مثل اینه که به مدل بگید: "مطمین شو که فقط خودت رو به روش های مختلف تکرار نمی کنی. هر قسمت از خروجی تو باید چیزای جدید و مفیدی در مورد تصویر به ما بگه."

اونچه در اینجا جالبه، الهام بخش این موضوعه. این از یک اصل توی علوم اعصاب به نام کاهش افزونگی(redundancy reduction) ناشی میشه که توسط Horace Barlow پیشنهاد شده. این در مورد اینه که چگونه مغز ما اطلاعات حسی رو با کاهش داده های اضافی پردازش میکنه. با به کارگیری این اصل، Barlow Twins از یک دام رایج در self supervised learning که در اون مدل‌ها به خروجی‌های بیش از حد ساده شده(oversimplified) یا غیر اطلاعاتی!(non informative) ختم میشن، اجتناب میکنه.

اما نکته مهم اینجاست – در حالی که اکثر متدها به شدت بر روی سمپل‌های «مثبت» و «منفی» تمرکز می کنن، barlow twins مسیر متفاوتی رو در پیش می گیره. این متد فقط از پیرهای مثبت استفاده میکنه! یعنی برخلاف متدهایی مثل simCLR که قراره برسی کنیم نیاز به پیر منفی نداره!

امیدوارم این پست براتون مفید باشه! سعی کردم مفهوم رو برسونم

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍153👎1🔥1
ی مقاله جدیدی که قشنگ میتونه تصاویر رو بخونه تو این مقاله از مدل SigLIP و LLaVA و SLM Phi-2 (2.7B) برای دیکودر کردن استفاده کردند
▪️ Imp-v1: An Emprical Study of Multimodal Small Language Models
▪️ model
▪️ demo

پ.ن: اگه مقاله ش رو پیدا کردین کامنت کنین.

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍3👎1🔥1
#مقاله
می‌خوام در مورد SimCLR صحبت کنم. کاری از google research! این متد تونسته با استفاده از ایده‌های ساده اما کاربردی، تحولی در self supervised learning ایجاد کنه.

بازم مثل مقاله barlow twins که برسی کردیم اینجا هم تصور کنید سیستمی رو برای درک و تفسیر visual data بدون صرف ساعت‌های بی‌شماری برای لیبل زدن اون تصاویر ترین کنید! نکته مهم در اینجاست: SimCLR بر معماری های پیچیده یا یه memory bank عظیم متکی نیست. در عوض، به استراتژی های هوشمندانه و ساده بستگی داره.

توی SimCLR هدف اینه که با استفاده از تابع زیان موسوم به Contrastive Loss بیاییم و representations موثری از تصاویر به دست بیاریم. این کار از طریق مقایسه دو نمای مختلف اما مرتبط از یک سمپل انجام می‌شه. خیلی جالبه، نه؟

اولین قدم، استفاده از ماژول Data Augmentation هست که با اعمال تغییراتی مثل Random Cropping، Color Distortions و Gaussian Blur به تصاویر، دو نمای متفاوت از یک تصویر اصلی ایجاد می‌کنه. این دو نمای جدید، یک پیر مثبت در فرآیند یادگیری محسوب می‌شن.

بعد از اون، یک شبکه عصبی به نام base encoder (معمولاً از نوع ResNet) وارد عمل می‌شه و بازنمایی‌های از این تصاویر رو استخراج می‌کنه. خروجی این شبکه، همون representationsی هستن که می‌خوایم روی اون‌ها کار کنیم. نکته بعدی، projection head هست. این بخش، یه شبکه عصبی کوچکه که بازنمایی‌های استخراج‌شده رو به فضایی منتقل می‌کنه که تابع زیان Contrastive Loss روی اون اعمال می‌شه. این فرآیند کمک می‌کنه که نتایج یادگیری دقیق‌تر و کاربردی‌تر بشن. یجورایی نقش refiner رو بازی میکنه.

اما نکته کلیدی، استفاده از تابع زیان NT-Xent هست. این تابع با استفاده از شباهت کسینوسی و پارامتر دما (Temperature)، امکان مقایسه و بهینه‌سازی پیرهای مثبت و منفی رو فراهم می‌کنه. قراره پیرهای مثبت بهم نزدیک و پیرهای منفی از هم دور بشن(هر دو تصویر آگمنت شده برای هم پیر مثبت هستن و با سایر نمونه‌ها بعنوان مثال‌های منفی برخورد میشه). رویکرد SimCLR نشون می‌ده که با استفاده از دسته‌های بزرگتر داده (Larger Batch Sizes)، نتایج بهتری حاصل می‌شه، چون تعداد نمونه‌های منفی بیشتری برای یادگیری وجود داره.

خلاصه کنم، SimCLR با استفاده از ایده‌های نوآورانه در Data Augmentation، شبکه‌های عصبی مثل ResNet و Projection Head، و همچنین تابع زیان خلاقانه‌ای مثل NT-Xent، تونسته تحولی در self supervised learning ایجاد کنه. این متد نه‌ تنها ساده‌تر از متدهای موجوده، بلکه در عین حال کارایی بسیار بالایی داره و می‌تونه به علاقه‌مندان ماشین لرنینگ کمک زیادی کنه.

امیدوارم این پست براتون مفید باشه. سعی کردم مفهوم رو برسونم!

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍11