NEW BOT Телеграм, страница

School of AI

از Transformer ها می‌شه علاوه بر تسک‌های NLP برای تسک‌های Vision نیز بهره برد.

در واقع ابتدا تصویر به patch هایی (کاشی‌هایی) با طول ثابت تقسیم شده، سپس هر پچ توسط یک لایه‌ی CNN، به یک بردار امبدینگ تبدیل می‌شود. پچ‌ها به‌صورت متوالی flatten شده و پوزیشن هر patch توسط positional embedding در امبدینگ آن پچ انکود می‌شود. نهایتا این دنباله به انکودر ترنسفورمر ارسال می‌شود.

به ترنسفورمرهایی که برروی بینایی کار می‌کنند، ViT یا Vision Transformer گفته می‌شه.

منبع: TheAiEdge.io

کورس آموزشی خوب برای یادگیری ViT ها:
https://www.crcv.ucf.edu/courses/cap6412-spring-2022/schedule/

👍42❤7🙏1

5.16K viewsHamidreza Hosseinkhani, edited 23:34

School of AI

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

میان‌افزار ROS2 یا Robot Operating System 2 یک اکوسیستم کامل برای پیاده‌سازی ادراک، برنامه‌ریزی، کنترل و شبیه‌سازی در روبات‌هاست که طی ۱۰ سال گذشته، بسیار در جامعه‌ی روباتیک مورداستفاده قرار گرفته‌ست.

بلاگ‌پُست زیر توضیح خوبی برای درک عمیق‌تر این پلتفرم ارائه می‌دهد.

https://learnopencv.com/robot-operating-system-introduction/

👍12❤2

5.28K viewsHamidreza Hosseinkhani, 13:55

School of AI

هاگینگ‌فیس خانواده‌ی جدیدی از مدل‌های زبانی فوق سبک به‌نام SmolLM را در سه اندازه‌ی ۱۳۵ میلیون پارامتری، ۳۶۰ میلیون پارامتری و ۱/۷ میلیارد پارامتری معرفی کرد.

این مدل‌ها، از مدل MobileLLM متا، مدل Phi-1.5 مایکروسافت و مدل Qwen2 علی‌بابا به‌تر عمل می‌کنند با این حال آنقدر سبک‌اند که به‌راحتی برروی مرورگر وب و یا دستگاه‌های موبایل اجرا می‌شوند.

این مدل‌ها اوپن-سورس‌اند و تحت مجوز Apache 2 منتشر شده‌اند.

علاوه بر مدل‌های پیش‌آموزش‌دیده به‌صورت پایه و instruct، مجموعه داده‌ی آموزشی (Corpus) نیز منتشر شده‌ست.

بلاگ‌پست معرفی:
https://huggingface.co/blog/smollm

دمو:
https://huggingface.co/spaces/HuggingFaceTB/SmolLM-360M-Instruct-WebGPU

دانلود مدل‌ها:
https://huggingface.co/collections/HuggingFaceTB/smollm-6695016cad7167254ce15966

دانلود دیتاست:
https://huggingface.co/datasets/HuggingFaceTB/smollm-corpus

👍25🔥6❤3

5.22K viewsHamidreza Hosseinkhani, edited 19:32

School of AI

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

آقای Andrej Karpathy که به‌تازگی برای تمرکز روی آموزش هوش مصنوعی، کار در صنعت را رها کرده بود، قدم جای پای Andrew Ng (موسس کورسرا) گذاشته و استارتاپ آموزشی خود به‌نام Eureka Labs را تاسیس کرد.

این استارتاپ، به گفته‌ی آقای کارپاثی، یک مدرسه‌ی آنلاین مبتنی بر هوش مصنوعی‌ست.

در این مدرسه، یک دستیار هوش مصنوعی از ابتدای مسیر آموزش تا انتها، به‌عنوان مربی، کنار دانش‌آموزست و قدم‌به‌قدم او را راهنمایی می‌کند.

مخزن LLM101n در گیت‌هاب که اخیرا توسط کارپاتی ساخته شده بود، اولین کورس آموزشی این مدرسه خواهد بود.

وب‌سایت:
https://eurekalabs.ai/

گیت‌هاب:
https://github.com/EurekaLabsAI/

👍22❤8

4.32K viewsHamidreza Hosseinkhani, edited 09:37

School of AI

مدل RT-DETR یکی از به‌ترین مدل‌های شناسایی اشیا به‌صورت بی‌درنگ‌ست.

این مدل که برپایه‌ی یک Vision Transformer ساخته شده، به دلیل اوپن-سورس بودن (Apache 2) و سرعت و دقت بالا، بسیار مناسب استفاده در پروژه‌های صنعتی‌ست.

در پست زیر که توسط Roboflow منتشر شده، آموزش فاین‌تیون‌کردن این مدل روی دیتاست خود را مشاهده می‌کنید.

https://blog.roboflow.com/train-rt-detr-custom-dataset-transformers/

👍11❤10

4.34K viewsHamidreza Hosseinkhani, edited 09:47

School of AI

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

پیش‌تر در مورد Devin که یک AI Agent برای مهندسی نرم‌افزار بود توضیح دادیم.

حال، یک عامل هوشمند مشابه و جدید به‌نام Claude Engineer و براساس مدل Claude-3.5-Sonnet معرفی شده‌ست.

این عامل به‌کمک Tavily می‌تواند در اینترنت جست‌و‌جو کند، می‌تواند با فایل‌سیستم در سیستم‌عامل‌های مختلف ارتباط برقرار کرده و فایل‌ها را بخواند و بنویسد، ساختار فولدربندی پروژه را مشخص کند، پرفورمنس کد را بررسی و تحلیل کند، با زبان طبیعی با ترمینال ارتباط برقرار کند و …

گیت‌هاب:
https://github.com/Doriandarko/claude-engineer

👍6❤2🔥1

5.29K viewsHamidreza Hosseinkhani, edited 10:34

School of AI

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

پژوهش‌گران دانشگاه Johns Hopkins و دانشگاه Stanford به‌کمک imitation learning و با نگاه به حدود ۱۲ میلیون جراحی انجام‌شده توسط جراح به‌کمک روبات اوپن-سورس da Vinci Research Kit توانستند برخی از اعمال در حین جراحی مانند گره‌زدن یا چرخاندن سوزن را به روبات یادداده تا به‌صورت خودکار انجام شوند.

https://surgical-robot-transformer.github.io/

👍27❤5

5.05K viewsHamidreza Hosseinkhani, edited 11:22

🔥 معرفی مدل gpt-4o-mini

📌سه روز پیش، OpenAI مدل جدید و بسیار مهمی را معرفی کرد که تأثیر فوق‌العاده‌ای بر تمامی محصولات، توسعه‌دهندگان و صاحبان ایده خواهد داشت. در این ویدیو، به بررسی مدل gpt-4o-mini پرداختیم.

📍برای دسترسی راحت‌تر، ویدیو در یوتیوب و آپارات آپلود شده.

یوتیوب:

https://youtu.be/Foe9m_Y1RPE

آپارات:
https://aparat.com/v/xihf38s

❤19👍7

5.92K viewsPedram T, 14:01

هری پاتر، اگر در دنیای بازی ویدئویی Cyberpunk 2077 ساخته می‌شد…

🔥7❤4👍2

4.41K viewsHamidreza Hosseinkhani, 13:00

School of AI

Forwarded from Tensorflow(@CVision) (Hassan Yousefzade)

"Meta releases the biggest and best open-source AI model yet: Llama 3.1 outperforms OpenAI and other rivals on certain benchmarks. Now, Mark Zuckerberg expects Meta’s AI assistant to surpass ChatGPT’s usage in the coming months."
link

👍9❤1

3.44K viewsHamidreza Hosseinkhani, 20:38

School of AI

خانواده‌ مدل‌های زبانی اوپن‌-سورس Llama 3.1 توسط Meta معرفی شد.

بزرگ‌ترین مدل این خانواده، ۴۰۵ میلیارد پارامتر دارد!
مدل به بزرگی ۴۰۵ میلیارد پارامتر اون هم به‌صورت اوپن‌سورس خودش می‌تونه انقلابی به‌حساب بیاد!

معماری، کد و وزن‌های آموزش‌داده‌شده، به‌صورت اوپن-سورس منتشر شده‌اند و می‌توان مدل را به‌صورت لوکال اجرا یا فاین‌تیون کرد.
اما به‌دلیل مسايل مربوط به کپی‌رایت و امنیت اطلاعات، داده‌های آموزشی و هایپرپارامترهای استفاده‌شده هنگام آموزش، عمومی نشده‌اند.

همچنین این مدل تحت یک لیسانس پژوهشی غیرتجاری منتشر شده‌ست. به‌عبارت دیگه، فقط برای کارهای پژوهشی (نه محصولات تجاری) قابل استفاده‌ست.

بلاگ‌پست معرفی
https://ai.meta.com/blog/meta-llama-3-1/

مقاله
https://scontent-fra3-2.xx.fbcdn.net/v/t39.2365-6/452387774_1036916434819166_4173978747091533306_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=t6egZJ8QdI4Q7kNvgHrQvZO&_nc_ht=scontent-fra3-2.xx&oh=00_AYDMw5kHFSclnw1cdHaYK8x2ASMvaKkuC5-MCGlyimnRUg&oe=66A60A8D

دانلود از هاگینگ‌فیس
https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f

❤17👍11🔥1

10.2K viewsHamidreza Hosseinkhani, edited 21:17

School of AI

This media is not supported in your browser

VIEW IN TELEGRAM

در این ویدئوی آموزشی، دوست عزیزمون، Ahmad Byagowi دانشمند پژوهشی تیم Meta، قدم‌به‌قدم و به‌ساده‌ترین روش ممکن (استفاده از پلتفرم Ollama) سایزهای مختلف مدل Llama 3.1 (۸ میلیاردی، ۷۰ میلیاردی و ۴۰۵ میلیاردی) را به‌صورت لوکال و روی یک ماشین از نوع Grand Teton با ۲ ترابایت رم اجرا و سرعت و عمل‌کرد آن‌ها را مقایسه می‌کند.

👍16❤9

10.3K viewsHamidreza Hosseinkhani, edited 10:38

School of AI

مخزن Git زیر، شامل نوت‌بوک‌ها و راهنماهای لازم برای فاین‌تیون‌کردن و موارداستفاده از Llama 3.1 است:

https://go.fb.me/wy18hm

GitHub

Meta Llama

Meta Llama has 12 repositories available. Follow their code on GitHub.

👍14🔥1

6.3K viewsHamidreza Hosseinkhani, 04:39

School of AI

خانواده‌ مدل‌های زبانی اوپن‌-سورس Llama 3.1 توسط Meta معرفی شد. بزرگ‌ترین مدل این خانواده، ۴۰۵ میلیارد پارامتر دارد! مدل به بزرگی ۴۰۵ میلیارد پارامتر اون هم به‌صورت اوپن‌سورس خودش می‌تونه انقلابی به‌حساب بیاد! معماری، کد و وزن‌های آموزش‌داده‌شده، به‌صورت…

اصلاحیه

در پُست معرفی مدل Llama 3.1 گفتیم که این مدل تحت یک لیسانس پژوهشی غیرتجاری منتشر شده.
پس از مطالعه‌ی دقیق لیسانس این مدل، متوجه شدیم که این یک اشتباه بود.
استفاده از مدل Llama 3.1 در هر محصول تجاری‌ای که همین الان کمتر از ۷۰۰ میلیون کاربر فعال در ماه دارد، بی‌مانع‌ست.
برای محصولاتی که ماهانه بیش از ۷۰۰ میلیون کاربر فعال دارند، نیاز به اخذ مجوز از Meta است.

https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE

GitHub

llama-models/models/llama3_1/LICENSE at main · meta-llama/llama-models

Utilities intended for use with Llama models. Contribute to meta-llama/llama-models development by creating an account on GitHub.

👍17

4.59K viewsHamidreza Hosseinkhani, edited 12:23

School of AI

🔔خبر جذاب برای علاقه‌مندان به کار پژوهشی🔔 با فرارسیدن تابستان، و بنابر درخواست عده‌ی زیادی از دوستانِ علاقه‌مند، تصمیم گرفتیم چند پروژه‌ی پژوهشی داغ در حوزه‌های مختلف هوش مصنوعی تعریف کرده و طی یک هم‌کاری تیمی منسجم، فشرده و برنامه‌ریزی‌شده، تا انتهای تابستان،…

دوستان عزیز
درود بر شما

پیش از هرچیز از عزیزانی که برای شرکت در دور نخست طرح پژوهشی مدرسه‌ی هوش مصنوعی ابراز علاقه کردند، سپاس‌گزاریم.
میزان تقاضا بیش از حد انتظار بود و البته ظرفیت، بسیار محدود.

تا امروز، همه‌ی تیم‌ها تشکیل شده‌اند. بنابراین، اگر تا امروز ایمیلی در رابطه با پذیرش یا عدم‌پذیرش دریافت نکرده‌اید، ازطریق ایمیل hamidreza@hosseinkhani.me پیگیری بفرمایید.

❤27👍2

3.97K viewsHamidreza Hosseinkhani, 10:35

School of AI

مدل بنیادین Microsoft Florence-2 در مدت کوتاهی که معرفی شده، توانسته به‌علت سبک‌بودن، دقت مناسب و اوپن-سورس بودن، توجه بسیاری را به‌سمت خود جلب کند.

در یکی از تازه‌ترین کارها به‌نام TFT-ID، مدل Florence-2 برای تسک Layout Detection روی بیش از ۳۶۰۰۰ مقاله‌ی علمی فاین‌تیون شده‌ست. این مدل، در ورودی تصویر یک صفحه از مقاله را گرفته و در خروجی، به‌کمک Bounding Box هایی، نوشتار، تصویر، نمودار و جدول را با نرخ موفقیت ۹۸/۸۴ درصد از هم جدا می‌کند.

خروجی این مدل می‌تواند برای OCR یا RAG مورداستفاده قرار گیرد.

پیش‌تر نیز اپل یک VLM سبک به‌نام Ferret-UI را برای استفاده در آیفون معرفی کرده بود که علاوه بر Layout Detection روی اسکرین‌شات موبایل، تفسیر ساده‌ای نیز برای هر بخش ارائه می‌داد. باتوجه به قدرت Florence -2، مدل TFT-ID نیز شاید می‌توانست پتانسیل لازم برای تفسیر تصاویر و نمودارها و جداول و ... را داشته باشد. :)

گیت‌هاب:
https://github.com/ai8hyf/TF-ID

هاگینگ‌فیس:
https://huggingface.co/yifeihu/TFT-ID-1.0

❤10👍5

4.82K viewsHamidreza Hosseinkhani, edited 04:34

School of AI

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

پای OpenAI در کفش Google

شرکت OpenAI موتور جست‌و‌جوی مبتنی‌-بر-هوش‌مصنوعی خود را معرفی کرد.

در پی این معرفی، سهام گروه آلفابت با ۳ درصد کاهش روبه‌رو شد.

https://openai.com/index/searchgpt-prototype/

👍26❤1🔥1

10.8K viewsHamidreza Hosseinkhani, edited 05:32

School of AI

به‌ترین کورس‌های آموزشی برای بینایی رایانه (Computer Vision) کدام‌ها‌اند؟!

معمولا بیشتر افراد ابتدا مفاهیم پایه‌ی یادگیری ماشین و یادگیری ژرف رو از روی دوره‌های Adrew Ng دنبال کرده و بعد به دنبال کورس‌هایی برای عمیق‌ترشدن در زمینه‌ی بینایی رایانه می‌گردند.

برای بیشتر افراد، قدم بعد، کورس CS231n دانشگاه استنفورد به‌سرپرستی Fei Fei Li است. این کورس درحال حاضر توسط دکتر احسان عادلی تدریس می‌شه اما ویدئوهای اون در دسترس عموم نیست. بنابراین اکثرا از ویدئو‌های سال ۲۰۱۶ که توسط Andrej Karpathy تدریس شده استفاده می‌کنند.
https://youtube.com/playlist?list=PLkt2uSq6rBVctENoVBg1TpCC7OQi31AlC&si=DOTA00h5bfMHkpXT

اما چون این کورس قدیمی‌ست، برای مطالب جدیدتر می‌توانید این کورس‌ها رو نیز دنبال کنید:

دانشگاه MIT
https://youtube.com/playlist?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&si=mUXWYRAa12CFQZEx
دانشگاه برکلی
https://youtube.com/playlist?list=PLzWRmD0Vi2KVsrCqA4VnztE4t71KnTnP5&si=BehKB33rafYEG5rM
دانشگاه نیویورک
https://youtube.com/playlist?list=PLLHTzKZzVU9d_3TcHbyiAjl5qCbpJR-o0&si=zGmfW99l-5uS1VuO
دانشگاه فلوریدا (ViT)
https://www.crcv.ucf.edu/courses/cap6412-spring-2022/schedule/

اگر شما هم کورس خوبی می‌شناسید در کامنت‌ها با دوستان به‌اشتراک بذارید 😊

👍24❤8

6.25K viewsHamidreza Hosseinkhani, edited 10:46

School of AI

Forwarded from Tensorflow(@CVision) (Alister ☄️)

0:44

This media is not supported in your browser

VIEW IN TELEGRAM

نمایی بصری و تحلیل گام‌به‌گام از الگوریتم (LLM) که مدل زبانی ChatGPT شرکت OpenAI بر پایه آن ساخته شده است. این تحلیل، تمامی جزئیات الگوریتم از جمله عملیات جمع و ضرب را به‌صورت عملی و گام‌به‌گام به نمایش می‌گذارد

https://bbycroft.net/llm

👍18❤4

4.77K viewsHamidreza Hosseinkhani, 19:45

School of AI

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

پژوهش‌گران گوگل و دانشگاه MIT با استفاده از یک Diffusion Model توانستند ویژگی‌های مادی مربوط به جنس اشیا مثل شفافیت (Trasparency)، زبری (Roughness)، فلزی بودن (Metalic) و سپیدایی (Alpedo) را در تصاویر تغییر دهند.

اطلاعات فنی:
www.prafullsharma.net/alchemist/

مقاله:
arxiv.org/pdf/2312.02970

👍25👏13

8.12K viewsHamidreza Hosseinkhani, edited 12:59

School of AI

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

دومین نسخه از مدل Segment Anything یا SAM 2 توسط متا منتشر شد!

مدل SAM یک مدل بنیادین برای بخش‌بندی (Segmentation) تصاویرست که می‌تواند با دریافت یک پرامپت به صورت نقطه یا Bounding Box هر موجودیتی را در تصویر، سگمنت کند.

نسخه‌ی دوم علاوه بر تصویر، از ویدئو هم با سرعت ۶ برابر (۴۴ فریم-بر-ثانیه - مناسب کاربردهای بی‌درنگ) و عمل‌کردی حیرت‌انگیز پشتیبانی می‌کند.

وزن‌های مدل، کد و مجموعه‌داده‌ی SA-V، به‌صورت کاملا اوپن‌سورس‌ و تحت یک لیسانس Apache 2 permissive منتشر شده‌اند.

بلاگ‌پست معرفی:
https://ai.meta.com/blog/segment-anything-2/

دمو:
https://sam2.metademolab.com/
https://huggingface.co/spaces/SkalskiP/segment-anything-model-2

نوت‌بوک:
https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/how-to-segment-images-with-sam-2.ipynb

👍28❤7

6.32K viewsHamidreza Hosseinkhani, edited 23:46

About

Blog

Apps

Platform