School of AI – Telegram
School of AI
10.6K subscribers
290 photos
94 videos
11 files
612 links
هدف ما در این اجتماع کوچک، آموزش و ترویج هوش مصنوعی و افزایش سطح آگاهی و تخصص نسبت به آن است.
باشد که دست در دست هم، آینده‌ی این صنعت را در میهن‌مان ایران بسازیم.

https://www.aparat.com/v/Pmrs8
Download Telegram
از Transformer ها می‌شه علاوه بر تسک‌های NLP برای تسک‌های Vision نیز بهره برد.

در واقع ابتدا تصویر به patch هایی (کاشی‌هایی) با طول ثابت تقسیم شده، سپس هر پچ توسط یک لایه‌ی CNN، به یک بردار امبدینگ تبدیل می‌شود. پچ‌ها به‌صورت متوالی flatten شده و پوزیشن هر patch توسط positional embedding در امبدینگ آن پچ انکود می‌شود. نهایتا این دنباله به انکودر ترنسفورمر ارسال می‌شود.

به ترنسفورمرهایی که برروی بینایی کار می‌کنند، ViT یا Vision Transformer گفته می‌شه.

منبع: TheAiEdge.io


کورس آموزشی خوب برای یادگیری ViT ها:
https://www.crcv.ucf.edu/courses/cap6412-spring-2022/schedule/
👍427🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
میان‌افزار ROS2 یا Robot Operating System 2 یک اکوسیستم کامل برای پیاده‌سازی ادراک، برنامه‌ریزی، کنترل و شبیه‌سازی در روبات‌هاست که طی ۱۰ سال گذشته، بسیار در جامعه‌ی روباتیک مورداستفاده قرار گرفته‌ست.

بلاگ‌پُست زیر توضیح خوبی برای درک عمیق‌تر این پلتفرم ارائه می‌دهد.

https://learnopencv.com/robot-operating-system-introduction/
👍122
هاگینگ‌فیس خانواده‌ی جدیدی از مدل‌های زبانی فوق سبک به‌نام SmolLM را در سه اندازه‌ی ۱۳۵ میلیون پارامتری، ۳۶۰ میلیون پارامتری و ۱/۷ میلیارد پارامتری معرفی کرد.

این مدل‌ها، از مدل MobileLLM متا، مدل Phi-1.5 مایکروسافت و مدل Qwen2 علی‌بابا به‌تر عمل می‌کنند با این حال آنقدر سبک‌اند که به‌راحتی برروی مرورگر وب و یا دستگاه‌های موبایل اجرا می‌شوند.

این مدل‌ها اوپن-سورس‌اند و تحت مجوز Apache 2 منتشر شده‌اند.

علاوه بر مدل‌های پیش‌آموزش‌دیده به‌صورت پایه و instruct، مجموعه داده‌ی آموزشی (Corpus) نیز منتشر شده‌ست.

بلاگ‌پست معرفی:
https://huggingface.co/blog/smollm

دمو:
https://huggingface.co/spaces/HuggingFaceTB/SmolLM-360M-Instruct-WebGPU

دانلود مدل‌ها:
https://huggingface.co/collections/HuggingFaceTB/smollm-6695016cad7167254ce15966

دانلود دیتاست:
https://huggingface.co/datasets/HuggingFaceTB/smollm-corpus
👍25🔥63
This media is not supported in your browser
VIEW IN TELEGRAM
آقای Andrej Karpathy که به‌تازگی برای تمرکز روی آموزش هوش مصنوعی، کار در صنعت را رها کرده بود، قدم جای پای Andrew Ng (موسس کورسرا) گذاشته و استارتاپ آموزشی خود به‌نام Eureka Labs را تاسیس کرد.

این استارتاپ، به گفته‌ی آقای کارپاثی، یک مدرسه‌ی آنلاین مبتنی بر هوش مصنوعی‌ست.

در این مدرسه، یک دستیار هوش مصنوعی از ابتدای مسیر آموزش تا انتها، به‌عنوان مربی، کنار دانش‌آموزست و قدم‌به‌قدم او را راهنمایی می‌کند.

مخزن LLM101n در گیت‌هاب که اخیرا توسط کارپاتی ساخته شده بود، اولین کورس آموزشی این مدرسه خواهد بود.

وب‌سایت:
https://eurekalabs.ai/

گیت‌هاب:
https://github.com/EurekaLabsAI/
👍228
مدل RT-DETR یکی از به‌ترین مدل‌های شناسایی اشیا به‌صورت بی‌درنگ‌ست.

این مدل که برپایه‌ی یک Vision Transformer ساخته شده، به دلیل اوپن-سورس بودن (Apache 2) و سرعت و دقت بالا، بسیار مناسب استفاده در پروژه‌های صنعتی‌ست.

در پست زیر که توسط Roboflow منتشر شده، آموزش فاین‌تیون‌کردن این مدل روی دیتاست خود را مشاهده می‌کنید.

https://blog.roboflow.com/train-rt-detr-custom-dataset-transformers/
👍1110
This media is not supported in your browser
VIEW IN TELEGRAM
پیش‌تر در مورد Devin که یک AI Agent برای مهندسی نرم‌افزار بود توضیح دادیم.

حال، یک عامل هوشمند مشابه و جدید به‌نام Claude Engineer و براساس مدل Claude-3.5-Sonnet معرفی شده‌ست.

این عامل به‌کمک Tavily می‌تواند در اینترنت جست‌و‌جو کند، می‌تواند با فایل‌سیستم در سیستم‌عامل‌های مختلف ارتباط برقرار کرده و فایل‌ها را بخواند و بنویسد، ساختار فولدربندی پروژه را مشخص کند، پرفورمنس کد را بررسی و تحلیل کند، با زبان طبیعی با ترمینال ارتباط برقرار کند و …

گیت‌هاب:
https://github.com/Doriandarko/claude-engineer
👍62🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهش‌گران دانشگاه Johns Hopkins و دانشگاه Stanford به‌کمک imitation learning و با نگاه به حدود ۱۲ میلیون جراحی انجام‌شده توسط جراح به‌کمک روبات اوپن-سورس da Vinci Research Kit توانستند برخی از اعمال در حین جراحی مانند گره‌زدن یا چرخاندن سوزن را به روبات یادداده تا به‌صورت خودکار انجام شوند.

https://surgical-robot-transformer.github.io/
👍275
Media is too big
VIEW IN TELEGRAM
🔥 معرفی مدل gpt-4o-mini

📌سه روز پیش، OpenAI مدل جدید و بسیار مهمی را معرفی کرد که تأثیر فوق‌العاده‌ای بر تمامی محصولات، توسعه‌دهندگان و صاحبان ایده خواهد داشت. در این ویدیو، به بررسی مدل gpt-4o-mini پرداختیم.


📍برای دسترسی راحت‌تر، ویدیو در یوتیوب و آپارات آپلود شده.

یوتیوب:

https://youtu.be/Foe9m_Y1RPE

آپارات:
https://aparat.com/v/xihf38s
19👍7
Media is too big
VIEW IN TELEGRAM
هری پاتر، اگر در دنیای بازی ویدئویی Cyberpunk 2077 ساخته می‌شد…
🔥74👍2
Forwarded from Tensorflow(@CVision) (Hassan Yousefzade)
"Meta releases the biggest and best open-source AI model yet: Llama 3.1 outperforms OpenAI and other rivals on certain benchmarks. Now, Mark Zuckerberg expects Meta’s AI assistant to surpass ChatGPT’s usage in the coming months."
link
👍91
خانواده‌ مدل‌های زبانی اوپن‌-سورس Llama 3.1 توسط Meta معرفی شد.

بزرگ‌ترین مدل این خانواده، ۴۰۵ میلیارد پارامتر دارد!
مدل به بزرگی ۴۰۵ میلیارد پارامتر اون هم به‌صورت اوپن‌سورس خودش می‌تونه انقلابی به‌حساب بیاد!

معماری، کد و وزن‌های آموزش‌داده‌شده، به‌صورت اوپن-سورس منتشر شده‌اند و می‌توان مدل را به‌صورت لوکال اجرا یا فاین‌تیون کرد.
اما به‌دلیل مسايل مربوط به کپی‌رایت و امنیت اطلاعات، داده‌های آموزشی و هایپرپارامترهای استفاده‌شده هنگام آموزش، عمومی نشده‌اند.

همچنین این مدل تحت یک لیسانس پژوهشی غیرتجاری منتشر شده‌ست. به‌عبارت دیگه، فقط برای کارهای پژوهشی (نه محصولات تجاری) قابل استفاده‌ست.

بلاگ‌پست معرفی
https://ai.meta.com/blog/meta-llama-3-1/

مقاله
https://scontent-fra3-2.xx.fbcdn.net/v/t39.2365-6/452387774_1036916434819166_4173978747091533306_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=t6egZJ8QdI4Q7kNvgHrQvZO&_nc_ht=scontent-fra3-2.xx&oh=00_AYDMw5kHFSclnw1cdHaYK8x2ASMvaKkuC5-MCGlyimnRUg&oe=66A60A8D

دانلود از هاگینگ‌فیس
https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
17👍11🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
در این ویدئوی آموزشی، دوست عزیزمون، Ahmad Byagowi دانشمند پژوهشی تیم Meta، قدم‌به‌قدم و به‌ساده‌ترین روش ممکن (استفاده از پلتفرم Ollama) سایزهای مختلف مدل Llama 3.1 (۸ میلیاردی، ۷۰ میلیاردی و ۴۰۵ میلیاردی) را به‌صورت لوکال و روی یک ماشین از نوع Grand Teton با ۲ ترابایت رم اجرا و سرعت و عمل‌کرد آن‌ها را مقایسه می‌کند.
👍169
مخزن Git زیر، شامل نوت‌بوک‌ها و راهنماهای لازم برای فاین‌تیون‌کردن و موارداستفاده از Llama 3.1 است:

https://go.fb.me/wy18hm
👍14🔥1
School of AI
خانواده‌ مدل‌های زبانی اوپن‌-سورس Llama 3.1 توسط Meta معرفی شد. بزرگ‌ترین مدل این خانواده، ۴۰۵ میلیارد پارامتر دارد! مدل به بزرگی ۴۰۵ میلیارد پارامتر اون هم به‌صورت اوپن‌سورس خودش می‌تونه انقلابی به‌حساب بیاد! معماری، کد و وزن‌های آموزش‌داده‌شده، به‌صورت…
اصلاحیه

در پُست معرفی مدل Llama 3.1 گفتیم که این مدل تحت یک لیسانس پژوهشی غیرتجاری منتشر شده.
پس از مطالعه‌ی دقیق لیسانس این مدل، متوجه شدیم که این یک اشتباه بود.
استفاده از مدل Llama 3.1 در هر محصول تجاری‌ای که همین الان کمتر از ۷۰۰ میلیون کاربر فعال در ماه دارد، بی‌مانع‌ست.
برای محصولاتی که ماهانه بیش از ۷۰۰ میلیون کاربر فعال دارند، نیاز به اخذ مجوز از Meta است.

https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE
👍17
School of AI
🔔خبر جذاب برای علاقه‌مندان به کار پژوهشی🔔 با فرارسیدن تابستان، و بنابر درخواست عده‌ی زیادی از دوستانِ علاقه‌مند، تصمیم گرفتیم چند پروژه‌ی پژوهشی داغ در حوزه‌های مختلف هوش مصنوعی تعریف کرده و طی یک هم‌کاری تیمی منسجم، فشرده و برنامه‌ریزی‌شده، تا انتهای تابستان،…
دوستان عزیز
درود بر شما

پیش از هرچیز از عزیزانی که برای شرکت در دور نخست طرح پژوهشی مدرسه‌ی هوش مصنوعی ابراز علاقه کردند، سپاس‌گزاریم.
میزان تقاضا بیش از حد انتظار بود و البته ظرفیت، بسیار محدود.

تا امروز، همه‌ی تیم‌ها تشکیل شده‌اند. بنابراین، اگر تا امروز ایمیلی در رابطه با پذیرش یا عدم‌پذیرش دریافت نکرده‌اید، ازطریق ایمیل hamidreza@hosseinkhani.me پیگیری بفرمایید.
27👍2
مدل بنیادین Microsoft Florence-2 در مدت کوتاهی که معرفی شده، توانسته به‌علت سبک‌بودن، دقت مناسب و اوپن-سورس بودن، توجه بسیاری را به‌سمت خود جلب کند.

در یکی از تازه‌ترین کارها به‌نام TFT-ID، مدل Florence-2 برای تسک Layout Detection روی بیش از ۳۶۰۰۰ مقاله‌ی علمی فاین‌تیون شده‌ست. این مدل، در ورودی تصویر یک صفحه از مقاله را گرفته و در خروجی، به‌کمک Bounding Box هایی، نوشتار، تصویر، نمودار و جدول را با نرخ موفقیت ۹۸/۸۴ درصد از هم جدا می‌کند.

خروجی این مدل می‌تواند برای OCR یا RAG مورداستفاده قرار گیرد.

پیش‌تر نیز اپل یک VLM سبک به‌نام Ferret-UI را برای استفاده در آیفون معرفی کرده بود که علاوه بر Layout Detection روی اسکرین‌شات موبایل، تفسیر ساده‌ای نیز برای هر بخش ارائه می‌داد. باتوجه به قدرت Florence -2، مدل TFT-ID نیز شاید می‌توانست پتانسیل لازم برای تفسیر تصاویر و نمودارها و جداول و ... را داشته باشد. :)


گیت‌هاب:
https://github.com/ai8hyf/TF-ID

هاگینگ‌فیس:
https://huggingface.co/yifeihu/TFT-ID-1.0
10👍5
This media is not supported in your browser
VIEW IN TELEGRAM
پای OpenAI در کفش Google

شرکت OpenAI موتور جست‌و‌جوی مبتنی‌-بر-هوش‌مصنوعی خود را معرفی کرد.

در پی این معرفی، سهام گروه آلفابت با ۳ درصد کاهش روبه‌رو شد.

https://openai.com/index/searchgpt-prototype/
👍261🔥1
به‌ترین کورس‌های آموزشی برای بینایی رایانه (Computer Vision) کدام‌ها‌اند؟!

معمولا بیشتر افراد ابتدا مفاهیم پایه‌ی یادگیری ماشین و یادگیری ژرف رو از روی دوره‌های Adrew Ng دنبال کرده و بعد به دنبال کورس‌هایی برای عمیق‌ترشدن در زمینه‌ی بینایی رایانه می‌گردند.

برای بیشتر افراد، قدم بعد، کورس CS231n دانشگاه استنفورد به‌سرپرستی Fei Fei Li است. این کورس درحال حاضر توسط دکتر احسان عادلی تدریس می‌شه اما ویدئوهای اون در دسترس عموم نیست. بنابراین اکثرا از ویدئو‌های سال ۲۰۱۶ که توسط Andrej Karpathy تدریس شده استفاده می‌کنند.
https://youtube.com/playlist?list=PLkt2uSq6rBVctENoVBg1TpCC7OQi31AlC&si=DOTA00h5bfMHkpXT

اما چون این کورس قدیمی‌ست، برای مطالب جدیدتر می‌توانید این کورس‌ها رو نیز دنبال کنید:

دانشگاه MIT
https://youtube.com/playlist?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&si=mUXWYRAa12CFQZEx
دانشگاه برکلی
https://youtube.com/playlist?list=PLzWRmD0Vi2KVsrCqA4VnztE4t71KnTnP5&si=BehKB33rafYEG5rM
دانشگاه نیویورک
https://youtube.com/playlist?list=PLLHTzKZzVU9d_3TcHbyiAjl5qCbpJR-o0&si=zGmfW99l-5uS1VuO
دانشگاه فلوریدا (ViT)
https://www.crcv.ucf.edu/courses/cap6412-spring-2022/schedule/

اگر شما هم کورس خوبی می‌شناسید در کامنت‌ها با دوستان به‌اشتراک بذارید 😊
👍248
Forwarded from Tensorflow(@CVision) (Alister ☄️)
This media is not supported in your browser
VIEW IN TELEGRAM
نمایی بصری و تحلیل گام‌به‌گام از الگوریتم (LLM) که مدل زبانی ChatGPT شرکت OpenAI بر پایه آن ساخته شده است. این تحلیل، تمامی جزئیات الگوریتم از جمله عملیات جمع و ضرب را به‌صورت عملی و گام‌به‌گام به نمایش می‌گذارد

https://bbycroft.net/llm
👍184
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهش‌گران گوگل و دانشگاه MIT با استفاده از یک Diffusion Model توانستند ویژگی‌های مادی مربوط به جنس اشیا مثل شفافیت (Trasparency)، زبری (Roughness)، فلزی بودن (Metalic) و سپیدایی (Alpedo) را در تصاویر تغییر دهند.

اطلاعات فنی:
www.prafullsharma.net/alchemist/

مقاله:
arxiv.org/pdf/2312.02970
👍25👏13
This media is not supported in your browser
VIEW IN TELEGRAM
دومین نسخه از مدل Segment Anything یا SAM 2 توسط متا منتشر شد!

مدل SAM یک مدل بنیادین برای بخش‌بندی (Segmentation) تصاویرست که می‌تواند با دریافت یک پرامپت به صورت نقطه یا Bounding Box هر موجودیتی را در تصویر، سگمنت کند.

نسخه‌ی دوم علاوه بر تصویر، از ویدئو هم با سرعت ۶ برابر (۴۴ فریم-بر-ثانیه - مناسب کاربردهای بی‌درنگ) و عمل‌کردی حیرت‌انگیز پشتیبانی می‌کند.

وزن‌های مدل، کد و مجموعه‌داده‌ی SA-V، به‌صورت کاملا اوپن‌سورس‌ و تحت یک لیسانس Apache 2 permissive منتشر شده‌اند.

بلاگ‌پست معرفی:
https://ai.meta.com/blog/segment-anything-2/

دمو:
https://sam2.metademolab.com/
https://huggingface.co/spaces/SkalskiP/segment-anything-model-2

نوت‌بوک:
https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/how-to-segment-images-with-sam-2.ipynb
👍287