Tensorflow(@CVision) – Telegram
Tensorflow(@CVision)
15.3K subscribers
1.29K photos
310 videos
81 files
2.53K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت:
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

لینک گروه:
@tf2keras
Download Telegram
اگر در 15 سال اخیر در حوزه هوش مصنوعی فعال بودین میدونید که عصر هوش مصنوعی نوین که همراه با معرفی سخت افزار و دیتا زیاد بود از اواخر سال 2011 شروع شد.

یه فلش بک بزنیم به گذشته و راهی که معماری شبکه های کانولوشن طی کردن و اینکه چه مسیری رو میشه برای مدل های بزرگ زبانی(Transformer) برای دو سال پیش رو متصور بود، که من دوست دارم به سه دوره تقسیمش کنم:

شروع از AlexNet (2012) بود یه دوره تقریبا سه ساله از افزایش مقیاس مدل‌ها رو داشتیم و مدل VGGNet که در سال 2014 ظاهر شد، یک مدل بسیار قوی از لحاظ عملکرد و مقیاس بود.

سپس، دوره‌ای از کوچک‌سازی مقیاس شروع شد.

در سال 2015، GoogleNet اندازه مدل رواز سطح "گیگابایت" به سطح "مگابایت" کاهش داد، یعنی اندازه اون 100 برابر کوچک‌تر شد؛ اما عملکرد مدل به طور چشمگیری کاهش نیافت، بلکه همچنان عملکرد خوبی داشت.

مدل‌های دیگری نیز این روند رودنبال کردند، از جمله مدل SqueezeNet که در سال 2015 معرفی شد.

در دوره‌ای بعد، تمرکز بر تعادل بود.

تحقیقات بعدی، مانند ResNet (2015) و ResNeXT (2016)، همگی اندازه مدل متوسطی روحفظ کردند.

نکته قابل توجه اینه که کنترل اندازه مدل منجر به کاهش محاسبات نشد، در واقع، همه حاضر بودند منابع محاسباتی بیشتری روبه کار گیرند و به دنبال وضعیت "همان تعداد پارامترها اما کارآمدتر" بودند.

به دنبال آن دوره‌ای شروع شد که شبکه‌های عصبی (CNN) در دستگاه‌های نهایی مثل موبایل شروع به کار کردند.

برای مثال، MobileNet یک کار جالبی بود که گوگل در سال 2017 معرفی کرد.

جالبی این مدل در اینه که منابع بسیار کمی روآشغال می‌کرد، اما عملکرد بسیار عالی داشت

ادامه دارد...
👍238💯4
Tensorflow(@CVision)
اگر در 15 سال اخیر در حوزه هوش مصنوعی فعال بودین میدونید که عصر هوش مصنوعی نوین که همراه با معرفی سخت افزار و دیتا زیاد بود از اواخر سال 2011 شروع شد. یه فلش بک بزنیم به گذشته و راهی که معماری شبکه های کانولوشن طی کردن و اینکه چه مسیری رو میشه برای مدل های…
آیا اندازه مدل‌های LLM دوباره راه CNNها رو می‌پیمایند؟

در روزهای ImageNet، ما شاهد رشد سریع اندازه پارامترها بودیم قبل از اینکه به مدل‌های کوچک‌تر و کارآمدتر برگردیم. این قبل از روزهای LLM بود که بسیاری از ما ممکنه فراموش کرده باشیم

آیا این شبیه به روند کنونی نیست که در اون مدل‌های GPT با افزایش پارامترها روبرو هستن و قانون مقیاس‌بندی به طور گسترده‌ای پذیرفته شده، و بعد مدل‌های کوچکتر مانند GPT-4o mini، اپل DCLM-7B، و گوگل Gemma 2B ظاهر می‌شن؟

Andrej Karpathy
میگه که رقابت برای کوچک‌تر کردن مدل‌های LLM در حال شدت گرفتنه و در نهایت به مدل‌های کوچکتر اما با هوشمندی بالا خواهیم رسید. او به هدر رفتن منابع در آموزش مدل‌های بزرگ اشاره داره و بیان میکنه که مدل‌های فعلی برای حفظ حجم زیادی از داده‌های اینترنتی طراحی شدن

شاید یکی از دلایل بزرگ بودن مدل‌های کنونی اینه که ما از اونها می‌خواهیم که اینترنت رو به خاطر بسپارن و به‌طور قابل‌توجهی، اونها این کار رو انجام میدن. مثلاً هش اعداد رو به خاطر میسپارن، یا حقایق کاملاً خاص رو به یاد میارن. (در واقع LLMها در یادآوری خیلی خوب هستن، به‌طور کیفی بهتر از انسان‌ها، گاهی اوقات فقط به یک بار بروزرسانی نیاز دارن تا جزئیات زیادی رو برای مدت طولانی به خاطر بسپارن

در واقع، مثال‌های زیادی وجود داره که مانند GPT-4o mini در مسیر توسعه مدل‌های بزرگ به مدل‌های کوچکتر حرکت می‌کنن

یک مثال دیگه و جدید از این موارد، تقطیر دانش Gemma-2 از مدل 27B به نسخه‌های کوچکتر یا MiniLM هستش.

همونطور که میدونید Knowledge Distillation یا تقطیر دانش در یادگیری ماشینی به فرآیندی اطلاق میشه که طی اون یک مدل بزرگ (که به عنوان "مدل معلم" یا "مدل والد" شناخته می‌شه) برای آموزش یک مدل کوچکتر و ساده‌تر (که به عنوان "مدل دانش‌آموز" یا "مدل فرزند" شناخته میشه) مورد استفاده قرار میگیره. هدف از این فرآیند اینه که عملکرد مدل دانش‌آموز تا حد امکان به مدل معلم نزدیک بشه، اما با نیاز به منابع محاسباتی کمتر و استفاده از حافظه کمتر.

ادامه دارد...
👍93
Tensorflow(@CVision)
آیا اندازه مدل‌های LLM دوباره راه CNNها رو می‌پیمایند؟ در روزهای ImageNet، ما شاهد رشد سریع اندازه پارامترها بودیم قبل از اینکه به مدل‌های کوچک‌تر و کارآمدتر برگردیم. این قبل از روزهای LLM بود که بسیاری از ما ممکنه فراموش کرده باشیم آیا این شبیه به روند…
شخصا مدل های متن باز زیر 100 میلیارد پارامتری که در فرآیند تقطیر دانش اطلاعاتشون رو از مدل های با پارامتر های زیاد گرفتند استقبال میکنم و مدل های زیر 9 میلیارد پارامتر رو برای کارهایی در زمینه هایی که نیاز به دانش تخصصی داریم رو میپسندم، به چند دلیل:

با بودجه منطقی در بعد سخت افزار قابل اجرا شدن و حتی هاست شدن رو دارند

برای شرکت هایی که دارای اطلاعات حساس سازمانی هستند و نیاز به مدل های متن باز در موارد تخصصی دارند، بسیار کارا هستند.

در پایان بایستی بگم که ما هنوز در شیوه ذخیره و انجام محاسبات فاصله بسیار زیادی با ارگان های طبیعی مثل مغز انسان داریم. به عنوان مثال مغز یک انسان بالغ به طور متوسط توانایی ذخیره معادل 2.5 میلیون گیگابایت حافظه دیجیتال رو داره و انجام پروسه فکر کردن به هزینه محاسباتی بسیار کمتر و بهینه تر.

در مقاله زیر که لینکش رو میگذارم محقیقن مقاله میگن که مدل‌های زبانی میتونن به ازای هر پارامتر ۲ بیت دانش ذخیره کنن. بنابراین، یک مدل ۷ میلیارد پارامتری میتونه ۱۴ میلیارد بیت دانش ذخیره کنه که بر اساس برآورد، این مقدار بیشتر از مجموع دانش ویکی‌پدیای انگلیسی و کتاب‌های درسی هست. حالا تصور مدلی که پتانسیله ذخیره حجم اطلاعاتی در حد مغز انسان با توجه به تکنولوژی امروزی داشته باشه، غیر ممکنه( هر چند شاید هیچگاه نیازی به ساختن چنین مدلی با این حجم از پارامتر نداشته باشیم)

https://arxiv.org/abs/2404.05405
👍173
اعضای اصلی تیم Stable Diffusion تأسیس یک شرکت جدید را اعلام کردن

Robin Rombach
که یکی از نویسندگان اصلی Stable Diffusion هستش و در ماه مارس از Stability AI جدا شد، به همراه چندین همکار سابق خود، به طور رسمی خبر تشکیل یک شرکت جدید رو اعلام کرد

نام این شرکت جدید Black Forest Lab هست و به محض معرفی، یک سری از مدل‌های تولید تصویر رو منتشر کردن که شامل سه مدل هست، از این میان دو مدل به صورت متن باز ارائه شدن.
کیفیت تصاویر تولیدی و قدرت اون در به تصویر کشیدن جزییات با mid journey  قابل رقابت هستش. 


https://blackforestlabs.ai/

دمو(مدل پرو):

https://fal.ai/models/fal-ai/flux-pro?ref=blog.fal.ai
9
. برای تصاویر بالا به ترتیب پرامپت های زیر رو نوشتم:

یک:

In an underwater scene, two cats are sitting at a beautiful dining table with candles lit in the middle of the table, enjoying delicious dinner (falafel) together. They are discussing the upcoming war . The cat on the right is wearing a tuxedo and cat on the left is wearing Iranian national team clothes with Iran flag on its shoulder. In the background an Iranian submarine passes by with the word "IRAN" painted on its side with Iran flag painted underneath. there are some small and beautiful cyberpunk jellyfish following the submarine with camera carrying on their back, a beautiful digital artwork like a movie.

دو:

Photo of a beautiful street in Tehran with Milad tower in the distance horizon, some people are walking with VR headset, and some riding cyberpunk-like bicycles. There is a billboard Advertising product of a cotton candy brand with the word "Pashmak is all you need" on it which is located on the side of street 😁
🔥22👍5😁4
Tensorflow(@CVision)
Photo
سه:

A teenage boy wearing t-shirt is building an origami of a drone with Iranian flag in a barn. There is a framed photo of "Persepolis" in the background
👍8👌3
در حال حاضر، ما در آستانه موج چهارم تکامل انسانی قرار داریم و در حال گذر حیاتی از جامعه اطلاعاتی به جامعه هوشمند هستیم که در اون انسان، فیزیک و اطلاعات با هم ادغام می‌شن

هوش مصنوعی بدون شک یکی از مهم‌ترین موضوعات امروزه، که از طریق مدل‌های بزرگ، برنامه‌های کاربردی عمودی، عامل‌های هوشمند و روش‌های مختلف دیگه، توسعه اقتصاد دیجیتال رو پیش می‌برن

با این حال، زیرساخت‌های پشتیبانی‌کننده هوش مصنوعی، یعنی قدرت محاسباتی و داده‌ها، به عنوان گلوگاهی برای توسعه هوش مصنوعی هستند

چرا تاکنون چنین گلوگاهی وجود داشته است؟ و چگونه می‌توان اون رو برطرف کرد؟

از دیدگاه تقاضا، با رشد سریع هوش مصنوعی مولد به عنوان نمونه‌ای از مدل‌های بزرگ، رقابت شدید و فرا رسیدن عصر استدلال، بدون شک تقاضا برای قدرت محاسباتی به شدت افزایش یافته.

گزارشی که توسط آکادمی مهندسی چین و بیش از ده موسسه دیگر به صورت مشترک در مجله Intelligent Computing، منتشر شده نشان می‌ده که نیاز به قدرت محاسباتی برای هوش مصنوعی هر 100 روز دو برابر می‌شه و با این نرخ، پیش‌بینی می‌شه که در پنج سال آینده، این نیاز بیش از یک میلیون برابر افزایش پیدا کنه

بر اساس برآوردها، حجم داده‌های چین از 23.88 زتابایت در سال 2022 به 76.6 زتابایت در سال 2027 خواهد رسید و در مقایسه با سایر کشورهای جهان، رتبه اول رو به خودش اختصاص خواهد داد

این مقاله مروری جامع بر محاسبات هوشمند ارائه می‌ده که شامل اصول نظری، تلفیق فناوری هوش و محاسبات، کاربردهای مهم، چالش‌ها و جهت‌گیری‌های آینده است

https://arxiv.org/abs/2211.11281
👍132
Media is too big
VIEW IN TELEGRAM
ChatGPT
برای تولید پرامت

Midjourney
برای ایجاد تصاویر مرجع

برای تبدیل کردن تصاویر به ویدیو از مدل های
Runway Gen-3
استفاده شده بطوریکه حرکت دوربین و آنچه در تصویر می‌بینید برای مدل توصیف شده

Elevenlabs
برای افکت‌های صوتی

Suno AI
برای موسیقی
👍18🤯5👏4
Forwarded from School of AI (Hamidreza Hosseinkhani)
پدیده‌ی Double Descent


در یادگیری ماشین، می‌دانید که اگر مدل خیلی ساده‌تر از حد نیاز باشد، آموزش نمی‌بیند و درنهایت، پس از چند تلاش، کم‌برازش (Underfit) خواهد شد. هرچه مدل را پیچده‌تر کنیم (مثلا تعداد پارامترها را بیش‌تر کنیم)، بیش‌تر آموزش می‌بیند و قابلیت تعمیم (Generalization) آن به‌تر می‌شود. این به‌ترشدن قابلت تعمیم، از روی کاهش مقدار خطا به‌ازای داده‌های ارزیابی مشخص‌ست.

اما این خطا تا کجا کاهش می‌یابد؟ آیا هرچه‌قدر مدل پیچیده‌تر شود، خطای ارزیابی آن کمتر و قابلیت تعمیم آن بیش‌تر می‌شود؟!

در مدل‌های ساده‌تر و سنتی‌تر یادگری ماشین، هرچه مدل پیچیده‌تر می‌شد، نیاز به داده‌ی آموزشی بیش‌تری هم داشت. بنابراین با ثابت بودن سایز مجموعه داده، افزایش پیچیدگی از یک‌جا به بعد باعث بیش‌برازش (Overfitting) مدل و حفظ‌کردن داده‌ها و نویزها می‌شد و قابلیت تعمیم مدل از بین می‌رفت.

اما در دنیای مدل‌های جدید (مثلا مدل‌های زبانی بزرگ) شاهد آن‌یم که مدل هرچه بزرگ‌تر و پیچیده‌تر می‌شود قدرت‌مندتر و قابل تعمیم‌تر می‌شود! این تناقض ناشی از چی‌ست؟!

از پدیده‌ی جالبی به‌نام Double Descent که در شبکه‌های عصبی بسیار بزرگ دیده می‌شود. نوعی Regularization ضمنی که ظاهرا به‌علت رویه‌ی آموزش (مثلا الگوریتم کاهش گرادیان) اتفاق می‌افتد. در این حالت، با پیچیده‌تر شدن مدل (مثلا بیشترشدن تعداد پارامترها)، ابتدا خطای ارزیابی کاهش یافته، پس از آن در جایی با پدیده‌ی بیش‌برازش روبه‌رو شده و خطای ارزیابی افزایش می‌یابد، اما با پیچیده‌ترشدن مدل، از جایی به بعد، برای بار دوم خطای ارزیابی کاهشی شده و عمومیت مدل به‌تر می‌شود!

تصویر زیر را ببینید 👇👇👇
👍18
Forwarded from School of AI (Hamidreza Hosseinkhani)
👍11
ربات انسان‌نمایی که ادعا میشه قدرتمندترین در جهان است، معرفی شد.

این ربات با نام Figure 02 معرفی شده و با حرکات ظریف و طبیعی خود، یک قدم به شبیه‌سازی دقیق حرکات انسان نزدیک‌تر شده

شرکت سازنده این ربات، Figure Robotics نام داره. این شرکت از حمایت شرکت‌های بزرگی مانند OpenAI، انویدیا، مایکروسافت و حتی جف بزوس (بنیانگذار آمازون) برخورداره

در کارخانه‌ی BMW، چه بلند کردن قطعات فولادی باشه چه مونتاژ ابزارآلات، این ربات از پس همه برمیاد

طبق اطلاعات ارائه شده، این ربات دارای 16 درجه آزادی در دست‌های خودش هست که به اون اجازه می‌ده وزنی معادل یک انسان را تحمل کنه

این ربات قادر به انجام انواع کارهای سخت و خسته‌کننده ست علاوه بر این، مدیرعامل شرکت سازنده، ادعا میکنه  که این ربات میتونه تا 20 ساعت به طور مداوم کار کنه

با بهره‌گیری از مدل‌های بزرگ زبانی OpenAI، توانایی این ربات در مکالمه و گفتگو به سطح بسیار بالایی رسیده 

این ربات حالا قادره به صورت روان و مستقیم با انسان‌ها صحبت کنه. این ویژگی به لطف توانایی‌های پیشرفته‌ی پردازش زبان طبیعی هست که از مدل‌های زبانی بزرگ OpenAI نشأت می‌گیره
Tensorflow(@CVision)
ربات انسان‌نمایی که ادعا میشه قدرتمندترین در جهان است، معرفی شد. این ربات با نام Figure 02 معرفی شده و با حرکات ظریف و طبیعی خود، یک قدم به شبیه‌سازی دقیق حرکات انسان نزدیک‌تر شده شرکت سازنده این ربات، Figure Robotics نام داره. این شرکت از حمایت شرکت‌های…
طبق اعلام رسمی، ربات Figure 02 از نظر سخت‌افزار و نرم‌افزار دستخوش تغییرات اساسی شده. برخی از مهم‌ترین ویژگی‌های جدید این ربات عبارتند از:

سیستم بینایی پیشرفته: مجهز به 6 دوربین باکیفیت و هوش مصنوعی برای درک بهتر محیط اطراف.

باتری قدرتمندتر: عمر باتری 50 درصد افزایش یافته

قدرت محاسباتی بیشتر: توانایی پردازش اطلاعات و یادگیری ماشینی سه برابر شده

دست‌های ماهرتر: نسل چهارم دست‌های ربات با ظرفیت حمل 25 کیلوگرم

طراحی بهبودیافته: سیم‌کشی داخلی بهینه شده و ظاهر ربات زیباتر و قابل اعتمادتر شده

ساختار مستحکم‌تر: استفاده از ساختار بیرونی (اگزواسکلتون) برای افزایش استحکام و پایداری.

گفتگوی صوتی مستقیم: امکان برقراری ارتباط صوتی روان و بدون واسطه با ربات.


در قسمت سر، تنه‌ی جلو و تنه‌ی عقب در مجموع 6 دوربین مجهز شده که همراه با یک مدل زبانی بصری روی خود ربات کار می‌کنه

این ربات با استفاده از سیستم بینایی مبتنی بر هوش مصنوعی، قادره که دنیای فیزیکی را درک کنه و موقعیت اشیاء را تشخیص بده و استدلال‌های بصری ساده را انجام بده
Tensorflow(@CVision)
طبق اعلام رسمی، ربات Figure 02 از نظر سخت‌افزار و نرم‌افزار دستخوش تغییرات اساسی شده. برخی از مهم‌ترین ویژگی‌های جدید این ربات عبارتند از: سیستم بینایی پیشرفته: مجهز به 6 دوربین باکیفیت و هوش مصنوعی برای درک بهتر محیط اطراف. باتری قدرتمندتر: عمر باتری 50…
شرکت Figure AI در سال 2022 تأسیس شد و در سال 2023 اولین محصول خود یعنی Figure 01 را معرفی کرد. طبق ادعای شرکت Figure 01 اولین ربات انسان‌نمای تجاری در جهانه

در ماه فوریه‌ی امسال، این شرکت موفق شد مبلغ 6.75 میلیارد دلار را از سرمایه‌گذاران بزرگی مثل OpenAI، مایکروسافت، انویدیا و جف بزوس جذب کنه، با این سرمایه‌گذاری، ارزش این شرکت به 26 میلیارد دلار رسید و به یکی از جذاب‌ترین شرکت‌های فعال در حوزه ربات‌های انسان‌نما تبدیل شد

تنها چند هفته بعد، ربات Figure 01 با بهره‌گیری از مدل‌های زبانی بزرگ OpenAI به نمایش گذاشته شد. این ربات به لطف این ارتقاء، توانایی شنیدن، صحبت کردن و انجام حرکات پیچیده را پیدا کرده بود و همه را شگفت‌زده کرده
Tensorflow(@CVision)
اکثر عموم جامعه درگیر مسایل عام و روزمره ای مثل تورم، مسایل مربوط به سلامتی، دنبال کردن اخبار جنگ، سیاستمداران و ... هستند اما جنگ اصلی در بکارگیری قدرت هوش مصنوعی خلاصه شده بخوابم بپذیریم یا نه اکثر مردم از دیدگاه گردانندگان قدرت موجوداتی مصرف گرا و هزینه…
قبلا در این مورد بحث کرده بودیم، کارگران انسانی شغل خودشون رو به دو دلیل عمده در دنیای مبتنی بر هوش مصنوعی از دست خواهند داد

یک: نبود مهارت
دو : سرعت پایین تطبیق پذیری

کسی که نتونه مهارت هاش رو با هوش مصنوعی تلفیق کنه در طوفان پیشرفت های هوش مصنوعی محو خواهد شد. در واقع کسی برنده هست که بتونه قدرت هوش مصنوعی رو به عنوان ابزار کارامند در کسب و کارش به کار ببنده، اما چرا ؟

یک افزایش سود دو کاهش هزینه های انسانی!

همینطور که مطلعید شرکت اینتل چند روز پیش اعلام کرد که بیش از ۱۰ هزار نفر از کارمندان خودش رو اخراج خواهد کرد و هزینه‌های خود را ۱۰ میلیارد دلار کاهش خواهد داد.

این کار با سه هدف عمده انجام شد

کاهش سود و درآمد: اینتل در ماه‌های اخیر با کاهش قابل توجه سود و درآمد روبرو بوده

افزایش هزینه‌ها: هزینه‌های عملیاتی اینتل به دلیل رقابت شدید در بازار و سرمایه‌گذاری‌های سنگین، افزایش یافته

نیاز به بازنگری در استراتژی: اینتل در تلاشه تا با تغییر استراتژی خود و کاهش هزینه‌ها، به سودآوری برسه

این موضوع رو به دولت ها خصوصا دولت ایران که یک ساختار اداری بسیار ناکارآمد با کارمندان زیاد داره بسط بدید. دولت بزرگ یعنی هزینه های زیاد، هزینه های زیاد در جایی که درآمد و سود در خروجی ساختار بی معناست منجر به افزایش اعتبار در سیستم بانکی و در نهایت خلق پول بدون پشتوانه می‌شود . خلق پول بدون پشتوانه در نهایت منجر به تورم و تورم ریشه تمام فساد های انسانی در بعد فرهنگی، اخلاقی، اقتصادی و ... در دنیای نوین هست
👍14
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت ژیژو AI برای اولین بار یک مدل متن به ویدیو رو به صورت متن‌باز منتشر کرد

شرکت های چینی با سرعت بسیار زیادی در حال رقابت با مدل های آمریکایی مثل Sora هستند که در یک ماه اخیر مدل های بسیار خوبی رو عرضه کردن

این اولین مدل هوش مصنوعی تولید ویدیو هست که برای استفاده تجاری آزاده .در عرض 5 ساعت، این پروژه در گیت‌هاب بیش از ۴ هزار ستاره گرفته

لازم به ذکر که مدل CogVideoX شرکت ژیژو AI در چندین اندازه مختلف ارائه میشه و مدلی که این بار به صورت متن‌باز منتشر شده، CogVideoX-2B هست

این مدل برای inference با دقت FP-16 تنها به 18 گیگابایت حافظه گرافیکی نیاز داره، البته خروجی که من با اجرای مدل روی کارت گرافیک RTX 4090 گرفتم زیاد قابل قبول نبود

متن پرامتی که برای ویدیو بالا وارد وارد کردم:
Achaemenid soldiers are playing football. A number of spectators dressed in ancient Iranian clothing are cheering them on. The camera pans around the filed

https://github.com/THUDM/CogVideo
12👍3😁1😢1
به طور کلی، برای استفاده از مدل‌های زبانی بزرگ روی دستگاه‌های شخصی مثل گوشی، کامپیوتر یا دستگاه‌های کوچک مثل رزبری پای، باید دو مشکل اصلی رو حل کنیم: مشکل فضای ذخیره سازی و مشکل محاسبات.

یکی از روش‌های معمول برای حل این مشکل، کاهش دقت مدل هست. یعنی اینکه اعداد داخل مدل رو به جای اینکه با دقت خیلی بالا ذخیره کنیم، با دقت کمتری ذخیره می‌کنیم. مثلاً به جای اینکه هر عدد رو با 32 بیت ذخیره کنیم، با 4 یا 3 بیت ذخیره‌ش می‌کنیم. این کار باعث میشه که حجم مدل خیلی کمتر بشه و محاسبات هم ساده‌تر و سریع‌تر انجام بشن.

اما این به این معنیه که در هنگام انجام محاسبات، ما نیاز به انجام یک نوع خاص از ضرب ماتریس داریم که در آن از اعداد با دقت‌های مختلف استفاده می‌شه. این نوع ضرب ماتریس، ضرب ماتریس با دقت مختلط (mpGEMM) نامیده میشه. در این نوع ضرب، وزن‌های مدل از دقت کمتری برخوردار هستند، در حالی که مقادیر فعال‌سازی (که نتایج محاسبات قبلی هستند) از دقت بالاتری برخوردارند.

https://www.tensorflow.org/guide/mixed_precision
👍9😁1
Tensorflow(@CVision)
به طور کلی، برای استفاده از مدل‌های زبانی بزرگ روی دستگاه‌های شخصی مثل گوشی، کامپیوتر یا دستگاه‌های کوچک مثل رزبری پای، باید دو مشکل اصلی رو حل کنیم: مشکل فضای ذخیره سازی و مشکل محاسبات. یکی از روش‌های معمول برای حل این مشکل، کاهش دقت مدل هست. یعنی اینکه…
با این حال، سیستم‌ها و سخت‌افزارهای موجود به طور طبیعی از این نوع ضرب ماتریس پشتیبانی نمی‌کنند. بنابراین، معمولاً وزن‌های مدل با دقت پایین رو به دقت بالاتر تبدیل می‌کنند تا بتوان از اونها در محاسبات استفاده کرد. این فرایند رو "کوانتیزاسیون معکوس" می‌نامند.

برای حل این مشکل، تکنولوژی جدیدی به نام T-MAC از یک روش محاسباتی جدید استفاده می‌کنه که بر اساس "جدول جستجو" هست. با استفاده از این روش، نیازی به تبدیل وزن‌ها به دقت بالاتر نیست و میتونیم مستقیماً ضرب ماتریس با دقت مختلط رو انجام داد.

به این ترتیب، T-MAC نه تنها عملکرد استنتاج (inference) رو بهبود می‌بخشه، بلکه مدل رو یکپارچه‌تر و قابل توسعه‌تر می‌کند. به خصوص برای دستگاه‌های کم‌مصرف و با منابع محدود بسیار مناسب است.

علاوه بر این، T-MAC به شتاب‌دهنده‌های سخت‌افزاری خاصی مانند NPU یا GPU وابسته نیست و می‌تونه فقط با استفاده از CPU مدل رو اجرا کنه. حتی در برخی موارد، سرعت استنتاج اون میتونه از شتاب‌دهنده‌های تخصصی هم بیشتر باشه.

وقتی مدل llama-2-7B-4bit را اجرا می‌کنیم، حتی با استفاده از پردازنده‌های تخصصی هوش مصنوعی (NPU) هم می‌توانیم حداکثر 10.4 توکن در ثانیه تولید کنیم. اما با استفاده از پردازنده معمولی (CPU) و تکنولوژی T-MAC، با تنها دو هسته پردازنده می‌تونیم به سرعت 12.6 توکن در ثانیه برسیم و در بهترین حالت، این سرعت تا 22 توکن در ثانیه هم می‌رسه


حتی روی دستگاهی با مشخصات پایین مثل رزبری پای 5، تکنولوژی T-MAC می‌تونه مدل 3B BitNet-b1.58 رو با سرعت 11 توکن در ثانیه اجرا کنه

https://github.com/microsoft/T-MAC
👍14
مدل زبانی جدیدی به نام Falcon Mamba 7B معرفی شده که خیلی قدرتمنده! این مدل میتونه متن‌های خیلی بلند رو بدون اینکه نیاز به سخت‌افزار خیلی قوی داشته باشه، پردازش کنه. این یعنی می‌تونه کارهای خلاقانه‌ای مثل نوشتن داستان یا مقاله انجام بده

این مدل بر پایه نسل اول Mamba ساخته شده

Mamba
یک مدل فضای حالته (State Space Model) که ویژگی‌های شبکه‌های عصبی بازگشتی (RNN) و شبکه‌های عصبی کانولوشنی (CNN) را در خود جای داده . با استفاده از یک مکانیزم انتخابی، این مدل می‌توانه بسته به ورودی فعلی، اطلاعات را به طور انتخابی حفظ یا فراموش کنه و به این ترتیب، کارایی پردازش متن را بهبود بخشه

علاوه بر این، Mamba از یک الگوریتم موازی طراحی شده برای سخت‌افزار استفاده می‌کنه که به صورت بازگشتی اجرا می‌شه و از دسترسی‌های ورودی/خروجی بین سطوح حافظه GPU جلوگیری می‌کنه، در نتیجه باعث افزایش کارایی محاسباتی میشه

با حذف مکانیزم attention، به طور موثر مشکل کندی محاسبات مدل در پردازش دنباله‌های طولانی را برطرف کرده از طرفی این مدل می‌توانه دنباله‌هایی با طول نامحدود را پردازش کنه، بدون اینکه نیاز به حافظه بیشتری داشته باشه

صرف نظر از طول متن زمینه، زمان تولید هر توکن تقریباً ثابت هستش!

https://huggingface.co/blog/falconmamba#hardware-performance
👍192