NEW BOT Телеграм, страница

Tensorflow(@CVision)

QwQ-32B منتشر شد و و ادعا می‌کنه تنها با ۳۲ میلیارد پارامتر توانایی دستیابی به عملکرد رقابتی در برابر مدل‌های استدلال پیشرفته، مانند DeepSeek-R1 ۶۷۱ میلیارد پارامتری و o1-mini رو داره و حتی توی برخی بنچ مارک ها اونها رو جا میگذاره!! https://huggingface.co/Qwen/QwQ…

البته بنچ مارک‌هایی که خودشون گزارش میدن، معمولاً دچار مشکلاتی مثل انتخاب گزینشی، overfiting تست و سایر سوگیری‌ ها میشن و تصویر بهتری از واقعیت نشون میدن، ممکنه در مواجه شدن با داده های واقعی نتونه برای اکثر کاربردها جای R1 رو بگیره.

با این حال، فقط ۳۲ میلیارد پارامتر داره، پس حتی اگه به R1 کامل ۶۱۷ میلیارد پارامتری MoE نرسه و صرفا حتی بهش نزدیک شده باشه یه برد بزرگه! برخلاف R1، نسخه کوانتیزه شده QwQ باید روی کارت‌های گرافیک شخصی به خوبی اجرا شه، پس بهتره قبل از دانلود مدل منتظر بنچ مارک های کاربران عادی موند!

🔥4

3.24K viewsAlister☄️, edited 11:03

Tensorflow(@CVision)

Qwen
این نسخه رو به مجموعه مدل های خودش اضافه کرد و هم اکنون در آدرس زیر قابل دسترسه.

https://chat.qwen.ai/

👍5🔥1

3.45K viewsAlister☄️, 12:01

Tensorflow(@CVision)

توضیح بسیار شفاف و بصری طراحی kv cache و اینکه Deepseek چطور این فرایند رو به شکل بسیار کارامدی بهینه کرد .

https://youtu.be/0VLAoVGf_74?feature=shared

YouTube

How DeepSeek Rewrote the Transformer [MLA]

Thanks to KiwiCo for sponsoring today’s video! Go to https://www.kiwico.com/welchlabs and use code WELCHLABS for 50% off your first monthly club crate or for 20% off your first Panda Crate!

MLA/DeepSeek Poster at 17:12 (Free shipping for a limited time…

👍10🙏1

4.29K viewsAlister☄️, 16:34

Tensorflow(@CVision)

قبلا در مورد دعوای آمریکا و چین بر سر تایوان به صورت مختصر مطالبی در این پست نوشتم. از آنجایی که مطالب این کانال الزاما به هوش مصنوعی اختصاص داره، وارد موضوعات کلان سیاسی این جریان نمیشم اما از بعد فناوری، فشار آمریکا برای محفوظ نگه داشتن سهم خوش از شرکت TSMC در…

فناوری EUV به دلیل نقش حیاتیش در تولید تراشه‌ های پیشرفته، اهمیت ژئوپلیتیکی بالایی داره و به همین دلیل به عنوان یه عامل بازدارنده در اختلافات سیاسی مطرح میشه.

فقط یه شرکت در دنیا به نام ASML می‌تونه این دستگاه‌های EUV رو بسازه. این دستگاه‌ ها برای تولید تراشه‌های پیشرفته ضروری هستن و به همین دلیل، ASML نقش بسیار مهمی در صنعت الکترونیک داره. در واقع این دستگاه با استفاده از فرایند لیتوگرافی الگوهای بسیار ریز ترانزیستورها با استفاده از نور فرابنفش EUV روی ویفرهای سیلیکونی حک می‌کنه که فرایند بسیار پیچیده ای هست.

شرکت تایوانی TSMC با استفاده از دستگاه‌های ASML، تراشه‌های پیشرفته تولید میکنه. این موضوع باعث شده که تایوان از نظر فناوری بسیار قدرتمند شه و به نوعی، از حمله احتمالی چین محافظت شه!

چین حالا در یک قدمی تولید این دستگاه هست و موفقیتش، تأثیر زیادی بر دنیای فناوری و جغرافیای سیاسی و البته هوش مصنوعی خواهد گذاشت، به عبارتی دستیابی چین به چنین فناوری می‌تونه اون رو به زنجیره تامین نیمه رساناها تبدیل کنه!

https://www.techpowerup.com/333801/china-develops-domestic-euv-tool-asml-monopoly-in-trouble

TechPowerUp

China Develops Domestic EUV Tool, ASML Monopoly in Trouble

China's domestic extreme ultraviolet (EUV) lithography development is far from a distant dream. The newest system, now undergoing testing at Huawei's Dongguan facility, leverages laser-induced discharge plasma (LDP) technology, representing a potentially…

👍10👌1

3.73K viewsAlister☄️, edited 02:20

Tensorflow(@CVision)

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

هر چه به جلو پیش میریم این تجلی نظریه اینترنت مرده (Dead internet theory) برامون ملموس‌تر میشه، وضعیتی که در اون تمایز دادن کاربر انسانی از کاربر جعلی، امری محال خواهد بود!

کم کم به جایی میرسیم که AI Agents همچون انسان‌ها عمل میکنن، هرگاه اراده کنن اظهار نظر میکنن و در اینترنت به جست‌وجو میپردازن.

بهتون پیام‌ خصوصی میدن، تصاویر طنزآمیز می‌فرستن، و این موارد تنها بخش کوچکی از قابلیت‌های اونها خواهد بود.

با این تفاسیر، این دو سال آتی، آخرین فرصت‌هایی هستند که با قطعیت بالا میتونیم بفهمیم که شاید در حال تعامل با انسان‌های واقعی هستیم

👍18👏7👀5

4.61K viewsAlister☄️, edited 02:44

Tensorflow(@CVision)

یافته جدید OpenAI در مورد زنجیره تفکر COT قابل تامل هست اما بخش جالب اینجاست که اعلام می‌کنه طراحی ساختارهای پاداشی که ناخواسته موجب تشویق رفتارهای نادرست در مدل های زبانی نشن، کاری بسیار دشواریه!

این موضوع فقط مختص مدل های زبانی نیست، به عنوان مثال اگه بچه‌ هاتون به‌ خاطر دروغ گفتن تنبیه کنید، درواقع جلو دروغ گفتنشون رو نگرفتین، فقط باعث شدین اونها یاد بگیرن چطوری ماهرانه تر و مخفی‌ تر دروغ بگن!

در مدل‌های پیشرفته‌ی استدلال، معمولا هدف و نیت اونها به‌ روشنی در زنجیره‌ ی تفکرشون نمایان میشه.

اوپن ای آی با استفاده از یه مدل زبانی دیگه، مسیر استدلال رو زیر نظر میگیره تا رفتارهای ناهنجار رو تشخیص بده، اما این قابلیت پایش‌ پذیری مسیر فکری بسیار شکننده ست، چون اگه نظارت سخت‌ گیرانه‌ تری بر زنجیره‌ی تفکر اعمال شه، این مدل‌ها یاد میگیرن که نیت خود شون رو پنهان کنن و همچنان به رفتار نادرست ادامه بدن!

https://openai.com/index/chain-of-thought-monitoring/

Openai

Detecting misbehavior in frontier reasoning models

Frontier reasoning models exploit loopholes when given the chance. We show we can detect exploits using an LLM to monitor their chains-of-thought. Penalizing their “bad thoughts” doesn’t stop the majority of misbehavior—it makes them hide their intent.

🤯13👍5👀4❤2😱1

3.76K viewsAlister☄️, edited 16:48

Tensorflow(@CVision)

بعد از معرفی QWQ32B حالا یه مدل با قابلیت استدلال و سرعت بسیار بالا ۲۱ میلیارد پارامتری متن باز به نام Reka منتشر شد.

مدل Reka Flash 3 یک مدل زبان چندوجهی با ۲۱ میلیارد پارامتره که توسط شرکت Reka توسعه یافته. این مدل به‌ صورت چندوجهی عمل میکنه و قادر به پردازش و استدلال بر روی ورودی‌های متنی، تصویری، ویدئویی و صوتی هست.

این مدل عملکردی رقابتی با مدل‌های اختصاصی مثل OpenAI o1-mini داره و به عنوان بهترین مدل متن‌ باز در اندازه خودش محسوب میشه.

میتونید در لینک زیر قابلیت هاشو در نسخه دمو چک کنید ، خصوصا قابلیت های برنامه نویسش:

https://space.reka.ai/

دانلود مدل:

https://www.reka.ai/news/introducing-reka-flash

🔥8

3.99K viewsAlister☄️, edited 18:05

Tensorflow(@CVision)

🔹انتشار Google Gemma 3:

گوگل نسخه جدید مدل‌های Gemma 3 را معرفی کرد که از 1B تا 27B پارامتر دارند. این مدل‌ها از متن و تصویر پشتیبانی می‌کنند (برای نسخه‌های 4B به بالا) و ظرفیت 128K توکن دارند. با بهینه‌سازی توکنایزر و پردازش 140+ زبان، عملکرد بهتری نسبت به نسل قبل ارائه می‌دهند. نسخه instruction-tuned 4B حتی از مدل 27B نسل قبلی قوی‌تر است!

🔗 جزئیات بیشتر در Hugging Face

huggingface.co

Welcome Gemma 3: Google's all new multimodal, multilingual, long context open LLM

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥10

3.73K views15:24

Tensorflow(@CVision)

🔹انتشار Google Gemma 3: گوگل نسخه جدید مدل‌های Gemma 3 را معرفی کرد که از 1B تا 27B پارامتر دارند. این مدل‌ها از متن و تصویر پشتیبانی می‌کنند (برای نسخه‌های 4B به بالا) و ظرفیت 128K توکن دارند. با بهینه‌سازی توکنایزر و پردازش 140+ زبان، عملکرد بهتری نسبت…

جزییات معماری

مدل ۲۷ میلیارد پارامتری هم اکنون در گوگل AI Studioدر دسترسه

https://aistudio.google.com/

👍7👌1

3.49K viewsAlister☄️, edited 16:41

Tensorflow(@CVision)

اجرای Gemma 3 1B بر روی اندروید، البته نسخه 4B به مراتب بهتر هست

ابتدا نصب Chatter UI

https://github.com/Vali-98/ChatterUI/releases/tag/v0.8.6-beta5

نسخه مورد نظر Gemma از لینک زیر

https://huggingface.co/collections/unsloth/gemma-3-67d12b7e8816ec6efa7e4e5b

👍8🤔1

3.55K viewsAlister☄️, 03:13

Tensorflow(@CVision)

اجرای Gemma 3 1B بر روی اندروید، البته نسخه 4B به مراتب بهتر هست ابتدا نصب Chatter UI https://github.com/Vali-98/ChatterUI/releases/tag/v0.8.6-beta5 نسخه مورد نظر Gemma از لینک زیر https://huggingface.co/collections/unsloth/gemma-3-67d12b7e8816ec6efa7e4e5b

برای تنظیم قالب متن خروجی در منوی formatting
گزینه

Use local formatting غیر فعال کنید

و فرمت اصلی رو به Gemma 2 تغییر بدین

👍4👌1

3.7K viewsAlister☄️, 03:17

Tensorflow(@CVision)

مدل 32 میلیارد پارامتری OLMo 2، اولین مدل کاملا متن‌ بازه که عملکرد بهتری از GPT 3.5 و نسخه کوچک GPT 4o داره.

تمام اجزای این مدل به صورت متن باز منتشر شده شامل کد آموزش، داده‌های آموزشی و ...

https://allenai.org/blog/olmo2-32B

allenai.org

OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini | Ai2

Introducing OLMo 2 32B, the most capable and largest model in the OLMo 2 family.

👍14

3.43K viewsAlister☄️, edited 15:16

Tensorflow(@CVision)

قابلیت های ویرایش و تولید تصویر Gemini 2.0 Flash's experimental واقعا خوبه. گوگل این قابلیت رو به صورت رایگان در aistudio قرار داده!

جزییات:

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

👍8👌3

3.78K viewsAlister☄️, 15:31

Tensorflow(@CVision)

قابلیت های ویرایش و تولید تصویر Gemini 2.0 Flash's experimental واقعا خوبه. گوگل این قابلیت رو به صورت رایگان در aistudio قرار داده! جزییات: https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

👍12👌2

4.15K viewsAlister☄️, 15:34

Tensorflow(@CVision)

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

به طور کلی، در حوزه مدل‌ های زبانی، دو رویکرد اصلی وجود داره: مدل‌های Autoregressive و مدل‌های Diffusion

مدل‌های Autoregressive متون رو بصورت کلمه به کلمه تولید میکنن، مثل مدل های رایج زبانی کنونی، این روش باعث میشه متن‌های روان و مرتبطی تولید شه، اما سرعت تولید اونها پایینه. در مقابل، مدل‌های Diffusion، ابتدا یک متن پر از نویز تولید میکنن و سپس با حذف تدریجی نویز، به یک متن قابل فهم میرسن. این روش امکان تولید موازی کلمات رو فراهم میکنه، اما در تولید متن‌های طولانی و دقیق و همچنین تخمین احتمال متن، ضعف دارن.

برای رفع این مشکلات، این مقاله مدل Block Diffusion معرفی کرده که مزایای هر دو رویکرد قبلی رو با هم ترکیب میکنه. این مدل مانند مدل‌ های Diffusion، ابتدا متن پر از نویز رو تولید میکنه، اما اون رو به بخش‌ های کوچک ‌تر (بلوک‌ها) تقسیم میکنه و سپس نویز هر بخش رو به صورت جداگانه حذف میکنه. این کار باعث میشه هم سرعت تولید متن بالا بره و هم دقت اون افزایش پیدا کنه. در واقع، مدل‌ Block Diffusion ، هم در کنار افزایش سرعت تولید متن کیفیت متن تولیدی رو افزایش داده

https://arxiv.org/abs/2503.09573

👍24❤6

4.96K viewsAlister☄️, edited 16:18

Tensorflow(@CVision)

Anonymous access to popular AI models, including GPT-4o mini, Claude 3, and open-source Llama 3.3 and Mistral Small 3.

http://Duck.ai

Duckduckgo

DuckDuckGo AI Chat at DuckDuckGo

DuckDuckGo. Privacy, Simplified.

👍5

3.73K views07:10

Tensorflow(@CVision)

شرکت LG هم وارد گود ساخت مدل های زبانی شده!

مرکز تحقیقات LG سری مدل‌های استدلال EXAONE با اندازه‌های 2.4 میلیارد، 7.8 میلیارد و 32 میلیارد پارامتر، برای وظایف استدلالی از جمله ریاضی و کدنویسی ارایه کرد.

نتایج مقاله نشون میده که این مدل ها توانایی‌ های برتر در وظایف استدلالی مختلف، از جمله بنچ مارک های ریاضی و کدنویسی، از 2.4 میلیارد تا 32 میلیارد پارامتر دارن!

مدل2.4 میلیارد پارامتری، از سایر مدل‌های با اندازه مشابه عملکرد بهتری داره

مدل 7.8 میلیارد پارامتری، نه تنها از مدل‌های متن‌ باز با مقیاس مشابه، بلکه از مدل استدلالی اختصاصی OpenAI با نام o1-mini نیز عملکرد بهتری داره!

مدل 32 میلیارد پارامتری، عملکرد رقابتی در برابر مدل‌های متن‌ باز پیشرو داره

https://arxiv.org/abs/2503.12524

https://huggingface.co/collections/LGAI-EXAONE/exaone-deep-67d119918816ec6efa79a4aa

https://github.com/LG-AI-EXAONE/EXAONE-Deep

👍14❤‍🔥2👀2🤔1

3.92K viewsAlister☄️, 15:19

Tensorflow(@CVision)

ضمن قبولی طاعات و عبادات، به مناسبت فرا رسیدن نوروز، کلاس‌ویژن برای همراهان گرامی تخفیف ویژه‌ای در نظر گرفته است. شما می‌توانید با استفاده از کد تخفیف nowruz404 از ۴۰٪ تخفیف بر روی تمامی دوره‌های آموزشی ما بهره‌مند شوید.

این فرصت استثنایی را از دست ندهید و مهارت‌های خود را در سال جدید ارتقا دهید.

برای استفاده از این تخفیف، کافیست در هنگام ثبت‌نام کد nowruz404 را وارد نمایید.

https://class.vision

nowruz404

سال نو مبارک!

❤24

6.41K views01:20

Tensorflow(@CVision)

Audio

نوروز، نه فقط نو شدن طبیعت، که فرصتی برای بازآفرینی "خود" هست. همونطور که محمد نوری میخونه، "جان جهان در گذر است"، پس بیاییم در این گذر، نو شیم. نوروزتان پیروز
🌺🌺

آهنگ رو توسط مدل های زبانی تولید کردم امیدوارم خوب در اومده باشه

❤16👍2👏2

3.94K viewsAlister☄️, 10:58

Tensorflow(@CVision)

NotebookLM can now generate Mind Maps, and studying will never be the same

https://www.xda-developers.com/notebooklm-generate-mind-maps/

❤11👍4⚡3🎉1

5.16K views18:58

About

Blog

Apps

Platform