Tensorflow(@CVision) – Telegram
Tensorflow(@CVision)
15.3K subscribers
1.29K photos
310 videos
81 files
2.53K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت:
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

لینک گروه:
@tf2keras
Download Telegram
🚀 نسخه جدید Deep Learning with Python: رایگان + محتوای LLM و GenAI

توئیت 16 ساعت پیش François Chollet:

ویرایش سوم کتاب من با عنوان Deep Learning with Python هم‌اکنون در حال چاپ است و ظرف دو هفته آینده در کتاب‌فروشی‌ها خواهد بود. شما می‌توانید آن را همین حالا از آمازون یا انتشارات Manning سفارش دهید.

این بار، ما کل کتاب را به‌صورت یک وب‌سایت کاملاً رایگان منتشر می‌کنیم.

برایم مهم نیست اگر این کار باعث کاهش فروش کتاب شود؛ من فکر می‌کنم این بهترین مقدمه برای یادگیری عمیق است و افراد بیشتری باید بتوانند آن را بخوانند.

🔗کتاب آنلاین رایگان:
https://deeplearningwithpython.io/

ویرایش جدید محتوای بسیار بیشتری در زمینه هوش مصنوعی مولد دارد. همچنین شامل مباحث پایه‌ای JAX و PyTorch و تمام قابلیت‌های جدید در Keras 3 می‌شود.

مقدار زیادی محتوای جدید درباره مدل‌های زبانی بزرگ (LLM) و جریان‌های کاری مبتنی بر LLM نیز اضافه شده است.

🌀 @cvision 🌀
👍3011🔥7👏21
This media is not supported in your browser
VIEW IN TELEGRAM
مدل OmniInsert به شما امکان می‌دهد که هر جسم یا سوژه‌ای را بدون ماسک‌گذاری دستی (mask-free) در یک ویدئوی پس‌زمینه قرار دهید — طوری که گویی از ابتدا در همان صحنه بوده است.
این روش فشار زیادی روی کاربر نمی‌گذارد و نتیجه را به شکلی طبیعی و هماهنگ با صحنه تولید می‌کند.

https://phantom-video.github.io/OmniInsert/
19👍2🔥1
با فرزاد عزیز از فعالان هوش مصنوعی در الکامپ
@AI_DeepMind


همچنین خوشحال میشم اگر دوست داشتید پیج کلاس ویژنو در اینستا دنبال کنید

https://www.instagram.com/class.vision
28👍3👌31🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل در تحقیق جدیدی، روشی به نام In-Context Fine-Tuning (ICF) معرفی کرده است که با استفاده از آن، مدل پیش‌بینی سری زمانی TimesFM می‌تواند به صورت few-shot، یعنی با تعداد کمی نمونه در زمان اجرا (inference)، تنظیم شود؛ بدون نیاز به آموزش مجدد جداگانه برای هر مجموعه داده.


در هنگام پیش‌بینی، چند سری زمانی مشابه (به عنوان «نمونه کمکی») همراه با داده هدف به عنوان ورودی به مدل داده می‌شوند، و مدل با توجه به این مثال‌ها خود را تطبیق می‌دهد.

در بنچمارک‌هایی که داده‌ها از توزیع متفاوت بودند، مدل جدید عملکردی معادل آموزش تحت نظارت (supervised fine-tuning) داشت و نسبت به نسخه پایه TimesFM بهبود ۶٫۸٪ در دقت نشان داد.

عدم نیاز به پیاده‌سازی و نگهداری چرخه‌های آموزش مخصوص برای هر دیتاست، کاهش هزینه‌های عملیاتی و ساده‌تر شدن استقرار مدل‌ها در محیط‌های چند کاربری و متغیر از جمله مزیتهای این روش است.

https://research.google/blog/time-series-foundation-models-can-be-few-shot-learners/

https://icml.cc/virtual/2025/poster/43707
18🔥2👍1
مدل مولتی مدال Qwen 3-VL منتشر شد:


این VLM همون توانایی‌های Qwen2.5 VL مثل درک ویدیو و تصویر و چارت و ... را داره، ولی خیلی دقیق‌تر، با حافظه خیلی بلندتر، و از همه مهمتر با قابلیت عامل‌محور (Agentic) قوی‌تر.

Blog:
https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list

Github:
https://github.com/QwenLM/Qwen3-VL
11🔥1
این AI را برای ساخت اسلاید حتما تست کنید

https://www.kimi.com/kimiplus/cvvm7bkheutnihqi2100

من خودم یه pdf پروپوزال دادم، و با کمی تغییرات از روش ارائه دادم...
17❤‍🔥1🔥1
Forwarded from آموزش LLM و VLM
🎉 دوره جدید منتشر شد:
آموزش مدل‌های زبانی-تصویری (VLM): از درک تصویر و ویدیو تا فاین‌تیون پیشرفته
از درک تصویر و ویدیو تا فاین‌تیون پیشرفته 🚀

📚 در 4 فصل:
1️⃣ آشنایی با مدل‌های مولتی‌مدال (CLIP تا SigLIP)
2️⃣ کاربرد VLM در درک تصویر و ویدیو
3️⃣ فاین‌تیون و پروژه‌های تخصصی
4️⃣ آموزش پیشرفته با DPO، GRPO و MPO

🔑 ویژگی‌های کلیدی:
✔️ معرفی روش‌ها و مدل‌های جدید مثل MPO و FASTVLM اپل
✔️ استفاده از HuggingFace و Unsloth
✔️ بیش از 15 کد عملی همراه توضیح کامل

🎁 تخفیف ویژه 70٪ با کد زیر:
COUPON-c4cd3


🔗 تهیه دوره:
https://mktb.me/e3gx/

کانال تلگرامی دوره | کانال تلگرام کلاس‌ویژن | کدهای دوره
اسلایدهای دوره | کوئیزهای دوره | تمرین+پروژه
12👍3🔥1
Yolo26 و Edge device

به‌تازگی پیش‌نمایش YOLO26 توسط Ultralytics منتشر شد — و به‌نظر می‌رسه یک نقطه عطف در بینایی real-time باشه...
مدل‌های فعلی معمولاً:
سنگین
وابسته به GPU
سخت برای اجرا روی دستگاه‌های edge


🔑 چی باعث تفاوت YOLO26 میشه؟
1️⃣ End-to-End، بدون NMS → دیگه خبری از Non-Maximum Suppression نیست. پیش‌بینی‌ها مستقیم از شبکه میان.
2️⃣ استقرار ساده‌تر → حذف Distribution Focal Loss (DFL). خروجی راحت به ONNX، TensorRT، CoreML، TFLite و OpenVINO.
3️⃣ بهینه‌ساز MuSGD → ترکیبی از SGD + Muon (الهام‌گرفته از آموزش LLMها). پایدارتر، همگرا سریع‌تر.
4️⃣ تشخیص بهتر اجسام کوچک → با ProgLoss + STAL عملکرد قوی‌تر برای پهپادها، IoT، رباتیک و نظارت.
5️⃣ تا ۴۳٪ سریع‌تر در inference روی CPUها.

📦 یک فریم‌ورک، وظایف متعدد
YOLO26 از Detection، Segmentation، Pose، Classification و Oriented Object Detection (OBB) پشتیبانی می‌کنه.


🏁 جمع‌بندی

پیچیدگی کمتر
قابلیت استقرار بیشتر
سرعت بالاتر روی CPU
الهام‌گرفته از دستاوردهای LLM


🔗https://docs.ultralytics.com/models/yolo26/

#yolo #yolo26 #edge #ultralytics
🔥152👍2
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🎉 دوره جدید منتشر شد:

آموزش مدل‌های زبانی-تصویری (VLM):
از درک تصویر و ویدیو تا فاین‌تیون پیشرفته 🚀

🎁 تخفیف ویژه 70٪ با کد زیر:
COUPON-c4cd3


🔗 تهیه دوره:
https://mktb.me/e3gx/
~~~~~~~
اطلاعات بیشتر
~~~~~~~
🔥 برای اطلاع از  کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision
6👍2🔥1
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🌟 آموزش مدل‌های زبانی-تصویری (VLM) با تدریس علیرضا اخوان‌پور منتشر شد🎉

مردادماه دوره‌ی مدل‌های زبانی بزرگ (LLM) در مکتب‌خونه منتشر شد؛ دوره‌ای که توش یاد می‌گرفتید مدل‌هایی مثل ChatGPT یا Gemini چطور آموزش می‌بینن، چطور کار می‌کنن و چطور می‌تونن به زبان‌های مختلف – حتی فارسی – پاسخ بدن و ...

♨️حالا نوبت یکی از داغ‌ترین موضوعات دنیای AI رسیده:
🔹 مدل‌های زبانی-تصویری (VLM)

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

👨‍🏫 تدریس هر دو دوره توسط مهندس علیرضا اخوان‌پور انجام شده


🔗 مشاهده دوره:
https://mktb.me/e3gx/
👍31❤‍🔥1🔥1
Forwarded from آموزش LLM و VLM
کد تخفیف 70 درصدی تست شده

فقط موقع استفاده حتما تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

COUPON-c4cd3

https://mktb.me/e3gx/
🤔63❤‍🔥1🔥1
▪️ اشنایی با مقالات و منابع هوش مصنوعی و علوم پزشکی

@AI_DeepMind
3❤‍🔥1🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DLeX: AI Python (NaviD DariYa)
مقایسه کوتاه Google A2A با MCP :

👉 @ai_python ✍️

https://youtube.com/shorts/Dxn1ku9nkRc?si=QOI1fBFdAmdS0ZrK
Please open Telegram to view this post
VIEW IN TELEGRAM
4❤‍🔥1🔥1
Media is too big
VIEW IN TELEGRAM
🌟 آموزش مدل‌های زبانی-تصویری (VLM) منتشر شد🎉


مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🎁 تخفیف ویژه 70٪ با کد زیر:

COUPON-c4cd3

🔥 برای اطلاع از  کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

🔗 مشاهده دوره:
https://mktb.me/e3gx/
5❤‍🔥1👍1🔥1
دنیایی از منابع برنامه‌نویسی توی این کانال بصورت دسته‌بندی شده با هشتگ بصورت روزانه قرار داده میشه.

@pythony
7❤‍🔥1🔥1
Forwarded from آموزش LLM و VLM
امروز نسخه سبکتر Qwen3-VL رو منتشر شد!

امروز، ۴ اکتبر ۲۰۲۵، تیم Qwen دو مدل جدید از خانواده Qwen3-VL رو منتشر کرد:
مدل Qwen3-VL-30B-A3B-Instruct
و Qwen3-VL-30B-A3B-Thinking
به‌همراه نسخه‌ی FP8 برای هر دو مدل که حجم و مصرف حافظه رو به‌طور قابل‌توجهی پایین میاره.

تا قبل از این، Qwen3-VL فقط مدل‌های خیلی سنگین داشت و عملاً نسخه‌ای سبک یا بهینه برای استفاده عمومی نداشت. حالا با این نسخه FP8 و تنظیمات جدید، بالاخره میشه مدل‌های Qwen3-VL رو راحت‌تر روی GPUهای معمولی هم بالا آورد.

🔹 نسخه Instruct بیشتر برای کارهای گفت‌وگومحور و دستورمحور طراحی شده.
🔹 نسخه Thinking روی استدلال پیچیده و فهم عمیق‌تر تصویر و ویدیو تمرکز داره.

هر دو مدل از فهم متن و تصویر پشتیبانی می‌کنن، OCR قوی دارن (تا ۳۲ زبان)، و حتی می‌تونن از روی تصویر کد HTML یا JS بسازن!
پشتیبانی از context طولانی (تا ۱ میلیون توکن) هم داره — چیزی که برای پروژه‌های چندرسانه‌ای واقعاً غنیمته.

📦 https://github.com/QwenLM/Qwen3-VL
👍121❤‍🔥1🔥1