Forwarded from آموزش LLM و VLM
🚀 نوتبوکهای جدید دوره Vision-Language Models (VLM) روی گیتهاب قرار گرفت!
👈از شماره 20 تا 35
https://github.com/Alireza-Akhavan/LLM
📢[این دوره به عنوان کورس ادامه LLM به زودی منتشر میگردد]
مباحث کلیدی که پوشش داده شده:
✨ بررسی CLIP و SigLIP
👁 درک تصویر و ویدیو با VLMها
🔧 فاینتیون با روش SFT
⚡️ بهینهسازی ترجیحات با DPO / GRPO / MPO
🐇 استفاده از Unsloth برای آموزش سریعتر و بهینهتر
📌 اگر به مباحث مولتیمدال و فاینتیون مدلهای Vision-Language علاقهمندید، این بخش رو از دست ندید!
👈از شماره 20 تا 35
https://github.com/Alireza-Akhavan/LLM
📢[این دوره به عنوان کورس ادامه LLM به زودی منتشر میگردد]
مباحث کلیدی که پوشش داده شده:
✨ بررسی CLIP و SigLIP
👁 درک تصویر و ویدیو با VLMها
🔧 فاینتیون با روش SFT
⚡️ بهینهسازی ترجیحات با DPO / GRPO / MPO
🐇 استفاده از Unsloth برای آموزش سریعتر و بهینهتر
📌 اگر به مباحث مولتیمدال و فاینتیون مدلهای Vision-Language علاقهمندید، این بخش رو از دست ندید!
❤🔥14❤10🔥1
🚀 نسخه جدید Deep Learning with Python: رایگان + محتوای LLM و GenAI
توئیت 16 ساعت پیش François Chollet:
ویرایش سوم کتاب من با عنوان Deep Learning with Python هماکنون در حال چاپ است و ظرف دو هفته آینده در کتابفروشیها خواهد بود. شما میتوانید آن را همین حالا از آمازون یا انتشارات Manning سفارش دهید.
این بار، ما کل کتاب را بهصورت یک وبسایت کاملاً رایگان منتشر میکنیم.
برایم مهم نیست اگر این کار باعث کاهش فروش کتاب شود؛ من فکر میکنم این بهترین مقدمه برای یادگیری عمیق است و افراد بیشتری باید بتوانند آن را بخوانند.
🔗کتاب آنلاین رایگان:
https://deeplearningwithpython.io/
ویرایش جدید محتوای بسیار بیشتری در زمینه هوش مصنوعی مولد دارد. همچنین شامل مباحث پایهای JAX و PyTorch و تمام قابلیتهای جدید در Keras 3 میشود.
مقدار زیادی محتوای جدید درباره مدلهای زبانی بزرگ (LLM) و جریانهای کاری مبتنی بر LLM نیز اضافه شده است.
🌀 @cvision 🌀
توئیت 16 ساعت پیش François Chollet:
ویرایش سوم کتاب من با عنوان Deep Learning with Python هماکنون در حال چاپ است و ظرف دو هفته آینده در کتابفروشیها خواهد بود. شما میتوانید آن را همین حالا از آمازون یا انتشارات Manning سفارش دهید.
این بار، ما کل کتاب را بهصورت یک وبسایت کاملاً رایگان منتشر میکنیم.
برایم مهم نیست اگر این کار باعث کاهش فروش کتاب شود؛ من فکر میکنم این بهترین مقدمه برای یادگیری عمیق است و افراد بیشتری باید بتوانند آن را بخوانند.
🔗کتاب آنلاین رایگان:
https://deeplearningwithpython.io/
ویرایش جدید محتوای بسیار بیشتری در زمینه هوش مصنوعی مولد دارد. همچنین شامل مباحث پایهای JAX و PyTorch و تمام قابلیتهای جدید در Keras 3 میشود.
مقدار زیادی محتوای جدید درباره مدلهای زبانی بزرگ (LLM) و جریانهای کاری مبتنی بر LLM نیز اضافه شده است.
🌀 @cvision 🌀
👍30❤11🔥7👏2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
مدل OmniInsert به شما امکان میدهد که هر جسم یا سوژهای را بدون ماسکگذاری دستی (mask-free) در یک ویدئوی پسزمینه قرار دهید — طوری که گویی از ابتدا در همان صحنه بوده است.
این روش فشار زیادی روی کاربر نمیگذارد و نتیجه را به شکلی طبیعی و هماهنگ با صحنه تولید میکند.
https://phantom-video.github.io/OmniInsert/
این روش فشار زیادی روی کاربر نمیگذارد و نتیجه را به شکلی طبیعی و هماهنگ با صحنه تولید میکند.
https://phantom-video.github.io/OmniInsert/
❤19👍2🔥1
با فرزاد عزیز از فعالان هوش مصنوعی در الکامپ
@AI_DeepMind
همچنین خوشحال میشم اگر دوست داشتید پیج کلاس ویژنو در اینستا دنبال کنید
https://www.instagram.com/class.vision
@AI_DeepMind
همچنین خوشحال میشم اگر دوست داشتید پیج کلاس ویژنو در اینستا دنبال کنید
https://www.instagram.com/class.vision
❤28👍3👌3⚡1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل در تحقیق جدیدی، روشی به نام In-Context Fine-Tuning (ICF) معرفی کرده است که با استفاده از آن، مدل پیشبینی سری زمانی TimesFM میتواند به صورت few-shot، یعنی با تعداد کمی نمونه در زمان اجرا (inference)، تنظیم شود؛ بدون نیاز به آموزش مجدد جداگانه برای هر مجموعه داده.
در هنگام پیشبینی، چند سری زمانی مشابه (به عنوان «نمونه کمکی») همراه با داده هدف به عنوان ورودی به مدل داده میشوند، و مدل با توجه به این مثالها خود را تطبیق میدهد.
در بنچمارکهایی که دادهها از توزیع متفاوت بودند، مدل جدید عملکردی معادل آموزش تحت نظارت (supervised fine-tuning) داشت و نسبت به نسخه پایه TimesFM بهبود ۶٫۸٪ در دقت نشان داد.
عدم نیاز به پیادهسازی و نگهداری چرخههای آموزش مخصوص برای هر دیتاست، کاهش هزینههای عملیاتی و سادهتر شدن استقرار مدلها در محیطهای چند کاربری و متغیر از جمله مزیتهای این روش است.
https://research.google/blog/time-series-foundation-models-can-be-few-shot-learners/
https://icml.cc/virtual/2025/poster/43707
در هنگام پیشبینی، چند سری زمانی مشابه (به عنوان «نمونه کمکی») همراه با داده هدف به عنوان ورودی به مدل داده میشوند، و مدل با توجه به این مثالها خود را تطبیق میدهد.
در بنچمارکهایی که دادهها از توزیع متفاوت بودند، مدل جدید عملکردی معادل آموزش تحت نظارت (supervised fine-tuning) داشت و نسبت به نسخه پایه TimesFM بهبود ۶٫۸٪ در دقت نشان داد.
عدم نیاز به پیادهسازی و نگهداری چرخههای آموزش مخصوص برای هر دیتاست، کاهش هزینههای عملیاتی و سادهتر شدن استقرار مدلها در محیطهای چند کاربری و متغیر از جمله مزیتهای این روش است.
https://research.google/blog/time-series-foundation-models-can-be-few-shot-learners/
https://icml.cc/virtual/2025/poster/43707
❤18🔥2👍1
مدل مولتی مدال Qwen 3-VL منتشر شد:
این VLM همون تواناییهای Qwen2.5 VL مثل درک ویدیو و تصویر و چارت و ... را داره، ولی خیلی دقیقتر، با حافظه خیلی بلندتر، و از همه مهمتر با قابلیت عاملمحور (Agentic) قویتر.
Blog:
https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
Github:
https://github.com/QwenLM/Qwen3-VL
این VLM همون تواناییهای Qwen2.5 VL مثل درک ویدیو و تصویر و چارت و ... را داره، ولی خیلی دقیقتر، با حافظه خیلی بلندتر، و از همه مهمتر با قابلیت عاملمحور (Agentic) قویتر.
Blog:
https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
Github:
https://github.com/QwenLM/Qwen3-VL
GitHub
GitHub - QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.
Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud. - QwenLM/Qwen3-VL
❤11🔥1
Forwarded from تکنوگرام
آپارات - سرویس اشتراک ویدیو
الکامپ 11: مولدمدلهای زبانی بزرگ و چتباتها عاملهای هوشمصنوعی
بیست و هشتمین نمایشگاه بینالمللی الکامپ
طراح و تهیه کننده آرش سروری
حامیان:
irancell.ir
bitaarts.ir
zibal.ir
mihanwebhost.com
در این قسمت گفتوگویی داریم با علیرضا اخوانپور، مدرس دانشگاه، مشاور هوشمصنوعی
طراح و تهیه کننده آرش سروری
حامیان:
irancell.ir
bitaarts.ir
zibal.ir
mihanwebhost.com
در این قسمت گفتوگویی داریم با علیرضا اخوانپور، مدرس دانشگاه، مشاور هوشمصنوعی
❤7❤🔥1🔥1
این AI را برای ساخت اسلاید حتما تست کنید
https://www.kimi.com/kimiplus/cvvm7bkheutnihqi2100
من خودم یه pdf پروپوزال دادم، و با کمی تغییرات از روش ارائه دادم...
https://www.kimi.com/kimiplus/cvvm7bkheutnihqi2100
من خودم یه pdf پروپوزال دادم، و با کمی تغییرات از روش ارائه دادم...
Kimi
Kimi Slides
Kimi Slides helps you turn ideas into stunning slides with Nano Banana Pro — unleash your productivity with Kimi now
❤17❤🔥1🔥1
Forwarded from آموزش LLM و VLM
🎉 دوره جدید منتشر شد:
آموزش مدلهای زبانی-تصویری (VLM): از درک تصویر و ویدیو تا فاینتیون پیشرفته
از درک تصویر و ویدیو تا فاینتیون پیشرفته 🚀
📚 در 4 فصل:
1️⃣ آشنایی با مدلهای مولتیمدال (CLIP تا SigLIP)
2️⃣ کاربرد VLM در درک تصویر و ویدیو
3️⃣ فاینتیون و پروژههای تخصصی
4️⃣ آموزش پیشرفته با DPO، GRPO و MPO
🔑 ویژگیهای کلیدی:
✔️ معرفی روشها و مدلهای جدید مثل MPO و FASTVLM اپل
✔️ استفاده از HuggingFace و Unsloth
✔️ بیش از 15 کد عملی همراه توضیح کامل
🎁 تخفیف ویژه 70٪ با کد زیر:
🔗 تهیه دوره:
https://mktb.me/e3gx/
کانال تلگرامی دوره | کانال تلگرام کلاسویژن | کدهای دوره
اسلایدهای دوره | کوئیزهای دوره | تمرین+پروژه
آموزش مدلهای زبانی-تصویری (VLM): از درک تصویر و ویدیو تا فاینتیون پیشرفته
از درک تصویر و ویدیو تا فاینتیون پیشرفته 🚀
📚 در 4 فصل:
1️⃣ آشنایی با مدلهای مولتیمدال (CLIP تا SigLIP)
2️⃣ کاربرد VLM در درک تصویر و ویدیو
3️⃣ فاینتیون و پروژههای تخصصی
4️⃣ آموزش پیشرفته با DPO، GRPO و MPO
🔑 ویژگیهای کلیدی:
✔️ معرفی روشها و مدلهای جدید مثل MPO و FASTVLM اپل
✔️ استفاده از HuggingFace و Unsloth
✔️ بیش از 15 کد عملی همراه توضیح کامل
🎁 تخفیف ویژه 70٪ با کد زیر:
COUPON-c4cd3
🔗 تهیه دوره:
https://mktb.me/e3gx/
کانال تلگرامی دوره | کانال تلگرام کلاسویژن | کدهای دوره
اسلایدهای دوره | کوئیزهای دوره | تمرین+پروژه
مکتبخونه
آموزش مدلهای زبانی-تصویری (VLM): از درک تصویر و ویدیو تا فاینتیون پیشرفته
هدف دوره این است که شما نه تنها مفاهیم را یاد بگیرید، بلکه بتوانید بلافاصله آنها را در پروژههای واقعی پیادهسازی کنید. دوره شامل 15 نوتبوک عملی (Jupyter Notebook) آماده اجراست – بدون نیاز به نصب پیچیده است.
❤12👍3🔥1
Yolo26 و Edge device
بهتازگی پیشنمایش YOLO26 توسط Ultralytics منتشر شد — و بهنظر میرسه یک نقطه عطف در بینایی real-time باشه...
مدلهای فعلی معمولاً:
❌ سنگین
❌ وابسته به GPU
❌ سخت برای اجرا روی دستگاههای edge
🔑 چی باعث تفاوت YOLO26 میشه؟
1️⃣ End-to-End، بدون NMS → دیگه خبری از Non-Maximum Suppression نیست. پیشبینیها مستقیم از شبکه میان.
2️⃣ استقرار سادهتر → حذف Distribution Focal Loss (DFL). خروجی راحت به ONNX، TensorRT، CoreML، TFLite و OpenVINO.
3️⃣ بهینهساز MuSGD → ترکیبی از SGD + Muon (الهامگرفته از آموزش LLMها). پایدارتر، همگرا سریعتر.
4️⃣ تشخیص بهتر اجسام کوچک → با ProgLoss + STAL عملکرد قویتر برای پهپادها، IoT، رباتیک و نظارت.
5️⃣ تا ۴۳٪ سریعتر در inference روی CPUها.
📦 یک فریمورک، وظایف متعدد
YOLO26 از Detection، Segmentation، Pose، Classification و Oriented Object Detection (OBB) پشتیبانی میکنه.
🏁 جمعبندی
✅ پیچیدگی کمتر
✅ قابلیت استقرار بیشتر
✅ سرعت بالاتر روی CPU
✅ الهامگرفته از دستاوردهای LLM
🔗https://docs.ultralytics.com/models/yolo26/
#yolo #yolo26 #edge #ultralytics
بهتازگی پیشنمایش YOLO26 توسط Ultralytics منتشر شد — و بهنظر میرسه یک نقطه عطف در بینایی real-time باشه...
مدلهای فعلی معمولاً:
❌ سنگین
❌ وابسته به GPU
❌ سخت برای اجرا روی دستگاههای edge
🔑 چی باعث تفاوت YOLO26 میشه؟
1️⃣ End-to-End، بدون NMS → دیگه خبری از Non-Maximum Suppression نیست. پیشبینیها مستقیم از شبکه میان.
2️⃣ استقرار سادهتر → حذف Distribution Focal Loss (DFL). خروجی راحت به ONNX، TensorRT، CoreML، TFLite و OpenVINO.
3️⃣ بهینهساز MuSGD → ترکیبی از SGD + Muon (الهامگرفته از آموزش LLMها). پایدارتر، همگرا سریعتر.
4️⃣ تشخیص بهتر اجسام کوچک → با ProgLoss + STAL عملکرد قویتر برای پهپادها، IoT، رباتیک و نظارت.
5️⃣ تا ۴۳٪ سریعتر در inference روی CPUها.
📦 یک فریمورک، وظایف متعدد
YOLO26 از Detection، Segmentation، Pose، Classification و Oriented Object Detection (OBB) پشتیبانی میکنه.
🏁 جمعبندی
✅ پیچیدگی کمتر
✅ قابلیت استقرار بیشتر
✅ سرعت بالاتر روی CPU
✅ الهامگرفته از دستاوردهای LLM
🔗https://docs.ultralytics.com/models/yolo26/
#yolo #yolo26 #edge #ultralytics
🔥15❤2👍2
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🎉 دوره جدید منتشر شد:
آموزش مدلهای زبانی-تصویری (VLM):
از درک تصویر و ویدیو تا فاینتیون پیشرفته 🚀
🎁 تخفیف ویژه 70٪ با کد زیر:
🔗 تهیه دوره:
https://mktb.me/e3gx/
~~~~~~~
اطلاعات بیشتر
~~~~~~~
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
🎓ما رو تو اینستاگرام هم دنبال کنید...
https://www.instagram.com/class.vision
آموزش مدلهای زبانی-تصویری (VLM):
از درک تصویر و ویدیو تا فاینتیون پیشرفته 🚀
🎁 تخفیف ویژه 70٪ با کد زیر:
COUPON-c4cd3
🔗 تهیه دوره:
https://mktb.me/e3gx/
~~~~~~~
اطلاعات بیشتر
~~~~~~~
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
🎓ما رو تو اینستاگرام هم دنبال کنید...
https://www.instagram.com/class.vision
❤6👍2🔥1
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🌟 آموزش مدلهای زبانی-تصویری (VLM) با تدریس علیرضا اخوانپور منتشر شد🎉
مردادماه دورهی مدلهای زبانی بزرگ (LLM) در مکتبخونه منتشر شد؛ دورهای که توش یاد میگرفتید مدلهایی مثل ChatGPT یا Gemini چطور آموزش میبینن، چطور کار میکنن و چطور میتونن به زبانهای مختلف – حتی فارسی – پاسخ بدن و ...
♨️حالا نوبت یکی از داغترین موضوعات دنیای AI رسیده:
🔹 مدلهای زبانی-تصویری (VLM)
مدلهای زبانی-تصویری (VLM) نسل جدیدی از مدلهای مولد هستن که علاوه بر متن، تصویر رو هم میفهمن. یعنی میتونن عکس رو توصیف کنن، به سوال دربارهی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.
📚 در این دوره یاد میگیرید:
- ساختار و معماری مدلهای VLM
- کاربردهای جذاب مثل پرسشوپاسخ تصویری و مولتیمودال
- نحوهی آموزش و بهکارگیری این مدلها در پروژههای واقعی
👨🏫 تدریس هر دو دوره توسط مهندس علیرضا اخوانپور انجام شده
🔗 مشاهده دوره:
https://mktb.me/e3gx/
مردادماه دورهی مدلهای زبانی بزرگ (LLM) در مکتبخونه منتشر شد؛ دورهای که توش یاد میگرفتید مدلهایی مثل ChatGPT یا Gemini چطور آموزش میبینن، چطور کار میکنن و چطور میتونن به زبانهای مختلف – حتی فارسی – پاسخ بدن و ...
♨️حالا نوبت یکی از داغترین موضوعات دنیای AI رسیده:
🔹 مدلهای زبانی-تصویری (VLM)
مدلهای زبانی-تصویری (VLM) نسل جدیدی از مدلهای مولد هستن که علاوه بر متن، تصویر رو هم میفهمن. یعنی میتونن عکس رو توصیف کنن، به سوال دربارهی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.
📚 در این دوره یاد میگیرید:
- ساختار و معماری مدلهای VLM
- کاربردهای جذاب مثل پرسشوپاسخ تصویری و مولتیمودال
- نحوهی آموزش و بهکارگیری این مدلها در پروژههای واقعی
👨🏫 تدریس هر دو دوره توسط مهندس علیرضا اخوانپور انجام شده
🔗 مشاهده دوره:
https://mktb.me/e3gx/
👍3❤1❤🔥1🔥1
Forwarded from آموزش LLM و VLM
کد تخفیف 70 درصدی تست شده
فقط موقع استفاده حتما تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.
https://mktb.me/e3gx/
فقط موقع استفاده حتما تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.
COUPON-c4cd3
https://mktb.me/e3gx/
🤔6❤3❤🔥1🔥1
❤3❤🔥1🔥1
Forwarded from DLeX: AI Python (NaviD DariYa)
مقایسه کوتاه Google A2A با MCP :
👉 @ai_python ✍️
https://youtube.com/shorts/Dxn1ku9nkRc?si=QOI1fBFdAmdS0ZrK
https://youtube.com/shorts/Dxn1ku9nkRc?si=QOI1fBFdAmdS0ZrK
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
A2A vs MCP for AI Agents: Which One to Choose? (60 Sec Guide)|A2A vs MCP: The AI Agent Showdown
❤4❤🔥1🔥1
Media is too big
VIEW IN TELEGRAM
🌟 آموزش مدلهای زبانی-تصویری (VLM) منتشر شد🎉
مدلهای زبانی-تصویری (VLM) نسل جدیدی از مدلهای مولد هستن که علاوه بر متن، تصویر رو هم میفهمن. یعنی میتونن عکس رو توصیف کنن، به سوال دربارهی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.
📚 در این دوره یاد میگیرید:
🎁 تخفیف ویژه 70٪ با کد زیر:
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
🎓ما رو تو اینستاگرام هم دنبال کنید...
https://www.instagram.com/class.vision
🔗 مشاهده دوره:
https://mktb.me/e3gx/
مدلهای زبانی-تصویری (VLM) نسل جدیدی از مدلهای مولد هستن که علاوه بر متن، تصویر رو هم میفهمن. یعنی میتونن عکس رو توصیف کنن، به سوال دربارهی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.
📚 در این دوره یاد میگیرید:
- ساختار و معماری مدلهای VLM
- کاربردهای جذاب مثل پرسشوپاسخ تصویری و مولتیمودال
- نحوهی آموزش و بهکارگیری این مدلها در پروژههای واقعی
🎁 تخفیف ویژه 70٪ با کد زیر:
COUPON-c4cd3🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
🎓ما رو تو اینستاگرام هم دنبال کنید...
https://www.instagram.com/class.vision
🔗 مشاهده دوره:
https://mktb.me/e3gx/
❤5❤🔥1👍1🔥1
دنیایی از منابع برنامهنویسی توی این کانال بصورت دستهبندی شده با هشتگ بصورت روزانه قرار داده میشه.
@pythony
@pythony
❤7❤🔥1🔥1
Forwarded from آموزش LLM و VLM
امروز نسخه سبکتر Qwen3-VL رو منتشر شد!
امروز، ۴ اکتبر ۲۰۲۵، تیم Qwen دو مدل جدید از خانواده Qwen3-VL رو منتشر کرد:
مدل Qwen3-VL-30B-A3B-Instruct
و Qwen3-VL-30B-A3B-Thinking
بههمراه نسخهی FP8 برای هر دو مدل که حجم و مصرف حافظه رو بهطور قابلتوجهی پایین میاره.
تا قبل از این، Qwen3-VL فقط مدلهای خیلی سنگین داشت و عملاً نسخهای سبک یا بهینه برای استفاده عمومی نداشت. حالا با این نسخه FP8 و تنظیمات جدید، بالاخره میشه مدلهای Qwen3-VL رو راحتتر روی GPUهای معمولی هم بالا آورد.
🔹 نسخه Instruct بیشتر برای کارهای گفتوگومحور و دستورمحور طراحی شده.
🔹 نسخه Thinking روی استدلال پیچیده و فهم عمیقتر تصویر و ویدیو تمرکز داره.
هر دو مدل از فهم متن و تصویر پشتیبانی میکنن، OCR قوی دارن (تا ۳۲ زبان)، و حتی میتونن از روی تصویر کد HTML یا JS بسازن!
پشتیبانی از context طولانی (تا ۱ میلیون توکن) هم داره — چیزی که برای پروژههای چندرسانهای واقعاً غنیمته.
📦 https://github.com/QwenLM/Qwen3-VL
امروز، ۴ اکتبر ۲۰۲۵، تیم Qwen دو مدل جدید از خانواده Qwen3-VL رو منتشر کرد:
مدل Qwen3-VL-30B-A3B-Instruct
و Qwen3-VL-30B-A3B-Thinking
بههمراه نسخهی FP8 برای هر دو مدل که حجم و مصرف حافظه رو بهطور قابلتوجهی پایین میاره.
تا قبل از این، Qwen3-VL فقط مدلهای خیلی سنگین داشت و عملاً نسخهای سبک یا بهینه برای استفاده عمومی نداشت. حالا با این نسخه FP8 و تنظیمات جدید، بالاخره میشه مدلهای Qwen3-VL رو راحتتر روی GPUهای معمولی هم بالا آورد.
🔹 نسخه Instruct بیشتر برای کارهای گفتوگومحور و دستورمحور طراحی شده.
🔹 نسخه Thinking روی استدلال پیچیده و فهم عمیقتر تصویر و ویدیو تمرکز داره.
هر دو مدل از فهم متن و تصویر پشتیبانی میکنن، OCR قوی دارن (تا ۳۲ زبان)، و حتی میتونن از روی تصویر کد HTML یا JS بسازن!
پشتیبانی از context طولانی (تا ۱ میلیون توکن) هم داره — چیزی که برای پروژههای چندرسانهای واقعاً غنیمته.
📦 https://github.com/QwenLM/Qwen3-VL
👍12❤1❤🔥1🔥1