از Transformer ها میشه علاوه بر تسکهای NLP برای تسکهای Vision نیز بهره برد.
در واقع ابتدا تصویر به patch هایی (کاشیهایی) با طول ثابت تقسیم شده، سپس هر پچ توسط یک لایهی CNN، به یک بردار امبدینگ تبدیل میشود. پچها بهصورت متوالی flatten شده و پوزیشن هر patch توسط positional embedding در امبدینگ آن پچ انکود میشود. نهایتا این دنباله به انکودر ترنسفورمر ارسال میشود.
به ترنسفورمرهایی که برروی بینایی کار میکنند، ViT یا Vision Transformer گفته میشه.
منبع: TheAiEdge.io
کورس آموزشی خوب برای یادگیری ViT ها:
https://www.crcv.ucf.edu/courses/cap6412-spring-2022/schedule/
در واقع ابتدا تصویر به patch هایی (کاشیهایی) با طول ثابت تقسیم شده، سپس هر پچ توسط یک لایهی CNN، به یک بردار امبدینگ تبدیل میشود. پچها بهصورت متوالی flatten شده و پوزیشن هر patch توسط positional embedding در امبدینگ آن پچ انکود میشود. نهایتا این دنباله به انکودر ترنسفورمر ارسال میشود.
به ترنسفورمرهایی که برروی بینایی کار میکنند، ViT یا Vision Transformer گفته میشه.
منبع: TheAiEdge.io
کورس آموزشی خوب برای یادگیری ViT ها:
https://www.crcv.ucf.edu/courses/cap6412-spring-2022/schedule/
👍42❤7🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
میانافزار ROS2 یا Robot Operating System 2 یک اکوسیستم کامل برای پیادهسازی ادراک، برنامهریزی، کنترل و شبیهسازی در روباتهاست که طی ۱۰ سال گذشته، بسیار در جامعهی روباتیک مورداستفاده قرار گرفتهست.
بلاگپُست زیر توضیح خوبی برای درک عمیقتر این پلتفرم ارائه میدهد.
https://learnopencv.com/robot-operating-system-introduction/
بلاگپُست زیر توضیح خوبی برای درک عمیقتر این پلتفرم ارائه میدهد.
https://learnopencv.com/robot-operating-system-introduction/
👍12❤2
هاگینگفیس خانوادهی جدیدی از مدلهای زبانی فوق سبک بهنام SmolLM را در سه اندازهی ۱۳۵ میلیون پارامتری، ۳۶۰ میلیون پارامتری و ۱/۷ میلیارد پارامتری معرفی کرد.
این مدلها، از مدل MobileLLM متا، مدل Phi-1.5 مایکروسافت و مدل Qwen2 علیبابا بهتر عمل میکنند با این حال آنقدر سبکاند که بهراحتی برروی مرورگر وب و یا دستگاههای موبایل اجرا میشوند.
این مدلها اوپن-سورساند و تحت مجوز Apache 2 منتشر شدهاند.
علاوه بر مدلهای پیشآموزشدیده بهصورت پایه و instruct، مجموعه دادهی آموزشی (Corpus) نیز منتشر شدهست.
بلاگپست معرفی:
https://huggingface.co/blog/smollm
دمو:
https://huggingface.co/spaces/HuggingFaceTB/SmolLM-360M-Instruct-WebGPU
دانلود مدلها:
https://huggingface.co/collections/HuggingFaceTB/smollm-6695016cad7167254ce15966
دانلود دیتاست:
https://huggingface.co/datasets/HuggingFaceTB/smollm-corpus
این مدلها، از مدل MobileLLM متا، مدل Phi-1.5 مایکروسافت و مدل Qwen2 علیبابا بهتر عمل میکنند با این حال آنقدر سبکاند که بهراحتی برروی مرورگر وب و یا دستگاههای موبایل اجرا میشوند.
این مدلها اوپن-سورساند و تحت مجوز Apache 2 منتشر شدهاند.
علاوه بر مدلهای پیشآموزشدیده بهصورت پایه و instruct، مجموعه دادهی آموزشی (Corpus) نیز منتشر شدهست.
بلاگپست معرفی:
https://huggingface.co/blog/smollm
دمو:
https://huggingface.co/spaces/HuggingFaceTB/SmolLM-360M-Instruct-WebGPU
دانلود مدلها:
https://huggingface.co/collections/HuggingFaceTB/smollm-6695016cad7167254ce15966
دانلود دیتاست:
https://huggingface.co/datasets/HuggingFaceTB/smollm-corpus
👍25🔥6❤3
This media is not supported in your browser
VIEW IN TELEGRAM
آقای Andrej Karpathy که بهتازگی برای تمرکز روی آموزش هوش مصنوعی، کار در صنعت را رها کرده بود، قدم جای پای Andrew Ng (موسس کورسرا) گذاشته و استارتاپ آموزشی خود بهنام Eureka Labs را تاسیس کرد.
این استارتاپ، به گفتهی آقای کارپاثی، یک مدرسهی آنلاین مبتنی بر هوش مصنوعیست.
در این مدرسه، یک دستیار هوش مصنوعی از ابتدای مسیر آموزش تا انتها، بهعنوان مربی، کنار دانشآموزست و قدمبهقدم او را راهنمایی میکند.
مخزن LLM101n در گیتهاب که اخیرا توسط کارپاتی ساخته شده بود، اولین کورس آموزشی این مدرسه خواهد بود.
وبسایت:
https://eurekalabs.ai/
گیتهاب:
https://github.com/EurekaLabsAI/
این استارتاپ، به گفتهی آقای کارپاثی، یک مدرسهی آنلاین مبتنی بر هوش مصنوعیست.
در این مدرسه، یک دستیار هوش مصنوعی از ابتدای مسیر آموزش تا انتها، بهعنوان مربی، کنار دانشآموزست و قدمبهقدم او را راهنمایی میکند.
مخزن LLM101n در گیتهاب که اخیرا توسط کارپاتی ساخته شده بود، اولین کورس آموزشی این مدرسه خواهد بود.
وبسایت:
https://eurekalabs.ai/
گیتهاب:
https://github.com/EurekaLabsAI/
👍22❤8
مدل RT-DETR یکی از بهترین مدلهای شناسایی اشیا بهصورت بیدرنگست.
این مدل که برپایهی یک Vision Transformer ساخته شده، به دلیل اوپن-سورس بودن (Apache 2) و سرعت و دقت بالا، بسیار مناسب استفاده در پروژههای صنعتیست.
در پست زیر که توسط Roboflow منتشر شده، آموزش فاینتیونکردن این مدل روی دیتاست خود را مشاهده میکنید.
https://blog.roboflow.com/train-rt-detr-custom-dataset-transformers/
این مدل که برپایهی یک Vision Transformer ساخته شده، به دلیل اوپن-سورس بودن (Apache 2) و سرعت و دقت بالا، بسیار مناسب استفاده در پروژههای صنعتیست.
در پست زیر که توسط Roboflow منتشر شده، آموزش فاینتیونکردن این مدل روی دیتاست خود را مشاهده میکنید.
https://blog.roboflow.com/train-rt-detr-custom-dataset-transformers/
👍11❤10
This media is not supported in your browser
VIEW IN TELEGRAM
پیشتر در مورد Devin که یک AI Agent برای مهندسی نرمافزار بود توضیح دادیم.
حال، یک عامل هوشمند مشابه و جدید بهنام Claude Engineer و براساس مدل Claude-3.5-Sonnet معرفی شدهست.
این عامل بهکمک Tavily میتواند در اینترنت جستوجو کند، میتواند با فایلسیستم در سیستمعاملهای مختلف ارتباط برقرار کرده و فایلها را بخواند و بنویسد، ساختار فولدربندی پروژه را مشخص کند، پرفورمنس کد را بررسی و تحلیل کند، با زبان طبیعی با ترمینال ارتباط برقرار کند و …
گیتهاب:
https://github.com/Doriandarko/claude-engineer
حال، یک عامل هوشمند مشابه و جدید بهنام Claude Engineer و براساس مدل Claude-3.5-Sonnet معرفی شدهست.
این عامل بهکمک Tavily میتواند در اینترنت جستوجو کند، میتواند با فایلسیستم در سیستمعاملهای مختلف ارتباط برقرار کرده و فایلها را بخواند و بنویسد، ساختار فولدربندی پروژه را مشخص کند، پرفورمنس کد را بررسی و تحلیل کند، با زبان طبیعی با ترمینال ارتباط برقرار کند و …
گیتهاب:
https://github.com/Doriandarko/claude-engineer
👍6❤2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهشگران دانشگاه Johns Hopkins و دانشگاه Stanford بهکمک imitation learning و با نگاه به حدود ۱۲ میلیون جراحی انجامشده توسط جراح بهکمک روبات اوپن-سورس da Vinci Research Kit توانستند برخی از اعمال در حین جراحی مانند گرهزدن یا چرخاندن سوزن را به روبات یادداده تا بهصورت خودکار انجام شوند.
https://surgical-robot-transformer.github.io/
https://surgical-robot-transformer.github.io/
👍27❤5
Media is too big
VIEW IN TELEGRAM
🔥 معرفی مدل gpt-4o-mini
📌سه روز پیش، OpenAI مدل جدید و بسیار مهمی را معرفی کرد که تأثیر فوقالعادهای بر تمامی محصولات، توسعهدهندگان و صاحبان ایده خواهد داشت. در این ویدیو، به بررسی مدل gpt-4o-mini پرداختیم.
📍برای دسترسی راحتتر، ویدیو در یوتیوب و آپارات آپلود شده.
یوتیوب:
https://youtu.be/Foe9m_Y1RPE
آپارات:
https://aparat.com/v/xihf38s
📌سه روز پیش، OpenAI مدل جدید و بسیار مهمی را معرفی کرد که تأثیر فوقالعادهای بر تمامی محصولات، توسعهدهندگان و صاحبان ایده خواهد داشت. در این ویدیو، به بررسی مدل gpt-4o-mini پرداختیم.
📍برای دسترسی راحتتر، ویدیو در یوتیوب و آپارات آپلود شده.
یوتیوب:
https://youtu.be/Foe9m_Y1RPE
آپارات:
https://aparat.com/v/xihf38s
❤19👍7
Media is too big
VIEW IN TELEGRAM
هری پاتر، اگر در دنیای بازی ویدئویی Cyberpunk 2077 ساخته میشد…
🔥7❤4👍2
Forwarded from Tensorflow(@CVision) (Hassan Yousefzade)
"Meta releases the biggest and best open-source AI model yet: Llama 3.1 outperforms OpenAI and other rivals on certain benchmarks. Now, Mark Zuckerberg expects Meta’s AI assistant to surpass ChatGPT’s usage in the coming months."
link
link
👍9❤1
خانواده مدلهای زبانی اوپن-سورس Llama 3.1 توسط Meta معرفی شد.
بزرگترین مدل این خانواده، ۴۰۵ میلیارد پارامتر دارد!
مدل به بزرگی ۴۰۵ میلیارد پارامتر اون هم بهصورت اوپنسورس خودش میتونه انقلابی بهحساب بیاد!
معماری، کد و وزنهای آموزشدادهشده، بهصورت اوپن-سورس منتشر شدهاند و میتوان مدل را بهصورت لوکال اجرا یا فاینتیون کرد.
اما بهدلیل مسايل مربوط به کپیرایت و امنیت اطلاعات، دادههای آموزشی و هایپرپارامترهای استفادهشده هنگام آموزش، عمومی نشدهاند.
همچنین این مدل تحت یک لیسانس پژوهشی غیرتجاری منتشر شدهست. بهعبارت دیگه، فقط برای کارهای پژوهشی (نه محصولات تجاری) قابل استفادهست.
بلاگپست معرفی
https://ai.meta.com/blog/meta-llama-3-1/
مقاله
https://scontent-fra3-2.xx.fbcdn.net/v/t39.2365-6/452387774_1036916434819166_4173978747091533306_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=t6egZJ8QdI4Q7kNvgHrQvZO&_nc_ht=scontent-fra3-2.xx&oh=00_AYDMw5kHFSclnw1cdHaYK8x2ASMvaKkuC5-MCGlyimnRUg&oe=66A60A8D
دانلود از هاگینگفیس
https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
بزرگترین مدل این خانواده، ۴۰۵ میلیارد پارامتر دارد!
مدل به بزرگی ۴۰۵ میلیارد پارامتر اون هم بهصورت اوپنسورس خودش میتونه انقلابی بهحساب بیاد!
معماری، کد و وزنهای آموزشدادهشده، بهصورت اوپن-سورس منتشر شدهاند و میتوان مدل را بهصورت لوکال اجرا یا فاینتیون کرد.
اما بهدلیل مسايل مربوط به کپیرایت و امنیت اطلاعات، دادههای آموزشی و هایپرپارامترهای استفادهشده هنگام آموزش، عمومی نشدهاند.
همچنین این مدل تحت یک لیسانس پژوهشی غیرتجاری منتشر شدهست. بهعبارت دیگه، فقط برای کارهای پژوهشی (نه محصولات تجاری) قابل استفادهست.
بلاگپست معرفی
https://ai.meta.com/blog/meta-llama-3-1/
مقاله
https://scontent-fra3-2.xx.fbcdn.net/v/t39.2365-6/452387774_1036916434819166_4173978747091533306_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=t6egZJ8QdI4Q7kNvgHrQvZO&_nc_ht=scontent-fra3-2.xx&oh=00_AYDMw5kHFSclnw1cdHaYK8x2ASMvaKkuC5-MCGlyimnRUg&oe=66A60A8D
دانلود از هاگینگفیس
https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
❤17👍11🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
در این ویدئوی آموزشی، دوست عزیزمون، Ahmad Byagowi دانشمند پژوهشی تیم Meta، قدمبهقدم و بهسادهترین روش ممکن (استفاده از پلتفرم Ollama) سایزهای مختلف مدل Llama 3.1 (۸ میلیاردی، ۷۰ میلیاردی و ۴۰۵ میلیاردی) را بهصورت لوکال و روی یک ماشین از نوع Grand Teton با ۲ ترابایت رم اجرا و سرعت و عملکرد آنها را مقایسه میکند.
👍16❤9
مخزن Git زیر، شامل نوتبوکها و راهنماهای لازم برای فاینتیونکردن و موارداستفاده از Llama 3.1 است:
https://go.fb.me/wy18hm
https://go.fb.me/wy18hm
GitHub
Meta Llama
Meta Llama has 12 repositories available. Follow their code on GitHub.
👍14🔥1
School of AI
خانواده مدلهای زبانی اوپن-سورس Llama 3.1 توسط Meta معرفی شد. بزرگترین مدل این خانواده، ۴۰۵ میلیارد پارامتر دارد! مدل به بزرگی ۴۰۵ میلیارد پارامتر اون هم بهصورت اوپنسورس خودش میتونه انقلابی بهحساب بیاد! معماری، کد و وزنهای آموزشدادهشده، بهصورت…
اصلاحیه
در پُست معرفی مدل Llama 3.1 گفتیم که این مدل تحت یک لیسانس پژوهشی غیرتجاری منتشر شده.
پس از مطالعهی دقیق لیسانس این مدل، متوجه شدیم که این یک اشتباه بود.
استفاده از مدل Llama 3.1 در هر محصول تجاریای که همین الان کمتر از ۷۰۰ میلیون کاربر فعال در ماه دارد، بیمانعست.
برای محصولاتی که ماهانه بیش از ۷۰۰ میلیون کاربر فعال دارند، نیاز به اخذ مجوز از Meta است.
https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE
در پُست معرفی مدل Llama 3.1 گفتیم که این مدل تحت یک لیسانس پژوهشی غیرتجاری منتشر شده.
پس از مطالعهی دقیق لیسانس این مدل، متوجه شدیم که این یک اشتباه بود.
استفاده از مدل Llama 3.1 در هر محصول تجاریای که همین الان کمتر از ۷۰۰ میلیون کاربر فعال در ماه دارد، بیمانعست.
برای محصولاتی که ماهانه بیش از ۷۰۰ میلیون کاربر فعال دارند، نیاز به اخذ مجوز از Meta است.
https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE
GitHub
llama-models/models/llama3_1/LICENSE at main · meta-llama/llama-models
Utilities intended for use with Llama models. Contribute to meta-llama/llama-models development by creating an account on GitHub.
👍17
School of AI
🔔خبر جذاب برای علاقهمندان به کار پژوهشی🔔 با فرارسیدن تابستان، و بنابر درخواست عدهی زیادی از دوستانِ علاقهمند، تصمیم گرفتیم چند پروژهی پژوهشی داغ در حوزههای مختلف هوش مصنوعی تعریف کرده و طی یک همکاری تیمی منسجم، فشرده و برنامهریزیشده، تا انتهای تابستان،…
دوستان عزیز
درود بر شما
پیش از هرچیز از عزیزانی که برای شرکت در دور نخست طرح پژوهشی مدرسهی هوش مصنوعی ابراز علاقه کردند، سپاسگزاریم.
میزان تقاضا بیش از حد انتظار بود و البته ظرفیت، بسیار محدود.
تا امروز، همهی تیمها تشکیل شدهاند. بنابراین، اگر تا امروز ایمیلی در رابطه با پذیرش یا عدمپذیرش دریافت نکردهاید، ازطریق ایمیل hamidreza@hosseinkhani.me پیگیری بفرمایید.
درود بر شما
پیش از هرچیز از عزیزانی که برای شرکت در دور نخست طرح پژوهشی مدرسهی هوش مصنوعی ابراز علاقه کردند، سپاسگزاریم.
میزان تقاضا بیش از حد انتظار بود و البته ظرفیت، بسیار محدود.
تا امروز، همهی تیمها تشکیل شدهاند. بنابراین، اگر تا امروز ایمیلی در رابطه با پذیرش یا عدمپذیرش دریافت نکردهاید، ازطریق ایمیل hamidreza@hosseinkhani.me پیگیری بفرمایید.
❤27👍2
مدل بنیادین Microsoft Florence-2 در مدت کوتاهی که معرفی شده، توانسته بهعلت سبکبودن، دقت مناسب و اوپن-سورس بودن، توجه بسیاری را بهسمت خود جلب کند.
در یکی از تازهترین کارها بهنام TFT-ID، مدل Florence-2 برای تسک Layout Detection روی بیش از ۳۶۰۰۰ مقالهی علمی فاینتیون شدهست. این مدل، در ورودی تصویر یک صفحه از مقاله را گرفته و در خروجی، بهکمک Bounding Box هایی، نوشتار، تصویر، نمودار و جدول را با نرخ موفقیت ۹۸/۸۴ درصد از هم جدا میکند.
خروجی این مدل میتواند برای OCR یا RAG مورداستفاده قرار گیرد.
پیشتر نیز اپل یک VLM سبک بهنام Ferret-UI را برای استفاده در آیفون معرفی کرده بود که علاوه بر Layout Detection روی اسکرینشات موبایل، تفسیر سادهای نیز برای هر بخش ارائه میداد. باتوجه به قدرت Florence -2، مدل TFT-ID نیز شاید میتوانست پتانسیل لازم برای تفسیر تصاویر و نمودارها و جداول و ... را داشته باشد. :)
گیتهاب:
https://github.com/ai8hyf/TF-ID
هاگینگفیس:
https://huggingface.co/yifeihu/TFT-ID-1.0
در یکی از تازهترین کارها بهنام TFT-ID، مدل Florence-2 برای تسک Layout Detection روی بیش از ۳۶۰۰۰ مقالهی علمی فاینتیون شدهست. این مدل، در ورودی تصویر یک صفحه از مقاله را گرفته و در خروجی، بهکمک Bounding Box هایی، نوشتار، تصویر، نمودار و جدول را با نرخ موفقیت ۹۸/۸۴ درصد از هم جدا میکند.
خروجی این مدل میتواند برای OCR یا RAG مورداستفاده قرار گیرد.
پیشتر نیز اپل یک VLM سبک بهنام Ferret-UI را برای استفاده در آیفون معرفی کرده بود که علاوه بر Layout Detection روی اسکرینشات موبایل، تفسیر سادهای نیز برای هر بخش ارائه میداد. باتوجه به قدرت Florence -2، مدل TFT-ID نیز شاید میتوانست پتانسیل لازم برای تفسیر تصاویر و نمودارها و جداول و ... را داشته باشد. :)
گیتهاب:
https://github.com/ai8hyf/TF-ID
هاگینگفیس:
https://huggingface.co/yifeihu/TFT-ID-1.0
❤10👍5
This media is not supported in your browser
VIEW IN TELEGRAM
پای OpenAI در کفش Google
شرکت OpenAI موتور جستوجوی مبتنی-بر-هوشمصنوعی خود را معرفی کرد.
در پی این معرفی، سهام گروه آلفابت با ۳ درصد کاهش روبهرو شد.
https://openai.com/index/searchgpt-prototype/
شرکت OpenAI موتور جستوجوی مبتنی-بر-هوشمصنوعی خود را معرفی کرد.
در پی این معرفی، سهام گروه آلفابت با ۳ درصد کاهش روبهرو شد.
https://openai.com/index/searchgpt-prototype/
👍26❤1🔥1
بهترین کورسهای آموزشی برای بینایی رایانه (Computer Vision) کدامهااند؟!
معمولا بیشتر افراد ابتدا مفاهیم پایهی یادگیری ماشین و یادگیری ژرف رو از روی دورههای Adrew Ng دنبال کرده و بعد به دنبال کورسهایی برای عمیقترشدن در زمینهی بینایی رایانه میگردند.
برای بیشتر افراد، قدم بعد، کورس CS231n دانشگاه استنفورد بهسرپرستی Fei Fei Li است. این کورس درحال حاضر توسط دکتر احسان عادلی تدریس میشه اما ویدئوهای اون در دسترس عموم نیست. بنابراین اکثرا از ویدئوهای سال ۲۰۱۶ که توسط Andrej Karpathy تدریس شده استفاده میکنند.
https://youtube.com/playlist?list=PLkt2uSq6rBVctENoVBg1TpCC7OQi31AlC&si=DOTA00h5bfMHkpXT
اما چون این کورس قدیمیست، برای مطالب جدیدتر میتوانید این کورسها رو نیز دنبال کنید:
دانشگاه MIT
https://youtube.com/playlist?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&si=mUXWYRAa12CFQZEx
دانشگاه برکلی
https://youtube.com/playlist?list=PLzWRmD0Vi2KVsrCqA4VnztE4t71KnTnP5&si=BehKB33rafYEG5rM
دانشگاه نیویورک
https://youtube.com/playlist?list=PLLHTzKZzVU9d_3TcHbyiAjl5qCbpJR-o0&si=zGmfW99l-5uS1VuO
دانشگاه فلوریدا (ViT)
https://www.crcv.ucf.edu/courses/cap6412-spring-2022/schedule/
اگر شما هم کورس خوبی میشناسید در کامنتها با دوستان بهاشتراک بذارید 😊
معمولا بیشتر افراد ابتدا مفاهیم پایهی یادگیری ماشین و یادگیری ژرف رو از روی دورههای Adrew Ng دنبال کرده و بعد به دنبال کورسهایی برای عمیقترشدن در زمینهی بینایی رایانه میگردند.
برای بیشتر افراد، قدم بعد، کورس CS231n دانشگاه استنفورد بهسرپرستی Fei Fei Li است. این کورس درحال حاضر توسط دکتر احسان عادلی تدریس میشه اما ویدئوهای اون در دسترس عموم نیست. بنابراین اکثرا از ویدئوهای سال ۲۰۱۶ که توسط Andrej Karpathy تدریس شده استفاده میکنند.
https://youtube.com/playlist?list=PLkt2uSq6rBVctENoVBg1TpCC7OQi31AlC&si=DOTA00h5bfMHkpXT
اما چون این کورس قدیمیست، برای مطالب جدیدتر میتوانید این کورسها رو نیز دنبال کنید:
دانشگاه MIT
https://youtube.com/playlist?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&si=mUXWYRAa12CFQZEx
دانشگاه برکلی
https://youtube.com/playlist?list=PLzWRmD0Vi2KVsrCqA4VnztE4t71KnTnP5&si=BehKB33rafYEG5rM
دانشگاه نیویورک
https://youtube.com/playlist?list=PLLHTzKZzVU9d_3TcHbyiAjl5qCbpJR-o0&si=zGmfW99l-5uS1VuO
دانشگاه فلوریدا (ViT)
https://www.crcv.ucf.edu/courses/cap6412-spring-2022/schedule/
اگر شما هم کورس خوبی میشناسید در کامنتها با دوستان بهاشتراک بذارید 😊
👍24❤8
Forwarded from Tensorflow(@CVision) (Alister ☄️)
This media is not supported in your browser
VIEW IN TELEGRAM
نمایی بصری و تحلیل گامبهگام از الگوریتم (LLM) که مدل زبانی ChatGPT شرکت OpenAI بر پایه آن ساخته شده است. این تحلیل، تمامی جزئیات الگوریتم از جمله عملیات جمع و ضرب را بهصورت عملی و گامبهگام به نمایش میگذارد
https://bbycroft.net/llm
https://bbycroft.net/llm
👍18❤4
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهشگران گوگل و دانشگاه MIT با استفاده از یک Diffusion Model توانستند ویژگیهای مادی مربوط به جنس اشیا مثل شفافیت (Trasparency)، زبری (Roughness)، فلزی بودن (Metalic) و سپیدایی (Alpedo) را در تصاویر تغییر دهند.
اطلاعات فنی:
www.prafullsharma.net/alchemist/
مقاله:
arxiv.org/pdf/2312.02970
اطلاعات فنی:
www.prafullsharma.net/alchemist/
مقاله:
arxiv.org/pdf/2312.02970
👍25👏13
This media is not supported in your browser
VIEW IN TELEGRAM
دومین نسخه از مدل Segment Anything یا SAM 2 توسط متا منتشر شد!
مدل SAM یک مدل بنیادین برای بخشبندی (Segmentation) تصاویرست که میتواند با دریافت یک پرامپت به صورت نقطه یا Bounding Box هر موجودیتی را در تصویر، سگمنت کند.
نسخهی دوم علاوه بر تصویر، از ویدئو هم با سرعت ۶ برابر (۴۴ فریم-بر-ثانیه - مناسب کاربردهای بیدرنگ) و عملکردی حیرتانگیز پشتیبانی میکند.
وزنهای مدل، کد و مجموعهدادهی SA-V، بهصورت کاملا اوپنسورس و تحت یک لیسانس Apache 2 permissive منتشر شدهاند.
بلاگپست معرفی:
https://ai.meta.com/blog/segment-anything-2/
دمو:
https://sam2.metademolab.com/
https://huggingface.co/spaces/SkalskiP/segment-anything-model-2
نوتبوک:
https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/how-to-segment-images-with-sam-2.ipynb
مدل SAM یک مدل بنیادین برای بخشبندی (Segmentation) تصاویرست که میتواند با دریافت یک پرامپت به صورت نقطه یا Bounding Box هر موجودیتی را در تصویر، سگمنت کند.
نسخهی دوم علاوه بر تصویر، از ویدئو هم با سرعت ۶ برابر (۴۴ فریم-بر-ثانیه - مناسب کاربردهای بیدرنگ) و عملکردی حیرتانگیز پشتیبانی میکند.
وزنهای مدل، کد و مجموعهدادهی SA-V، بهصورت کاملا اوپنسورس و تحت یک لیسانس Apache 2 permissive منتشر شدهاند.
بلاگپست معرفی:
https://ai.meta.com/blog/segment-anything-2/
دمو:
https://sam2.metademolab.com/
https://huggingface.co/spaces/SkalskiP/segment-anything-model-2
نوتبوک:
https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/how-to-segment-images-with-sam-2.ipynb
👍28❤7