DANA | علم داده و هوش مصنوعی – Telegram
DANA | علم داده و هوش مصنوعی
63 subscribers
135 photos
23 videos
31 files
155 links
معرفی کتاب‌ها و مقالات در حوزه علم داده و هوش مصنوعی
معرفی دوره‌ها و منابع یادگیری علم داده
اخبار علم داده و هوش مصنوعی
مطالب آموزشی در حوزه تحلیل داده

کانال یوتیوب دانا
https://www.youtube.com/@elmedade_offical

@elmedade_admin | ارتباط با ما
Download Telegram
💠 مدل‌های زبانی بزرگ با جادی میرمیرانی

جادی جدیدا یه رویکرد جدید توی کانال یوتیوبش در پیش گرفته و روی مدل‌های زبانی #LM کار می‌کنه و آموزشای خوبی می‌زاره پیشنهاد می‌کنم اگه به حوزه مدل‌های زبانی و کار با #GPT و... علاقه دارین، این آموزش کوتاه یه دید کلی بهت می‌ده.

از اینجا می‌تونی ویدیو رو ببینی:
https://youtu.be/FRRndyC3kyM
👍1
🔶 تفاوت دانشمند داده، آنالیزور داده و مهندس داده
💠 دانشمند داده

🔹تمرکز دانشمند داده روی استخراج بینش و خلق مدل‌های پیش بینه (Predictive Models).
یه پس زمینه قوی ریاضی، آمار و یادگیری ماشین داره.
🔹دیتاست های پیچیده رو بمنظور شناسایی الگو، روند و بینش آنالیز می‌کنه.
مدل‌های پیش‌بین و الگوریتم‌های یادگیری ماشینی رو توسعه می‌ده.
🔹سعی می‌کنه با ارائه گزارشات و مصورسازی داده‌ها سهامدار جذب کنه.
🔹با مهندسین داده و تحلیلگران بمنظور ارائه راه‌حل‌های داده محور تعامل داره.
🔹از ابزارهایی مثل پایتون، R، SQL، Tableau و... استفاده می‌کنه.

💠تحلیلگر داده
🔹بیشتر روی تفسیر و مصورسازی داده‌ها بجای خلق مدل‌های پیش‌بین تمرکز می‌کنه.
🔹اکثراً با تیم‌های بیزینس برای فراهم کردن یه بینش عملی همکاری می‌کنه.
🔹دیتاست های بزرگ رو جمع، پردازش و روی اونا آنالیز آماری رو پیاده سازی می‌کنه.
🔹داده‌ها رو مصورسازی می‌کنه و داشبوردها رو توسعه می‌ده تا بتونه ارتباطات رو توسعه بده.
🔹آنالیزهای ad-hoc رو هدایت می‌کنه و گزارشات رو برای تصمیم‌گیری، ایجاد می‌کنه.
🔹دقت و کیفیت داده‌ها رو تضمین می‌کنه
🔹از ابزارهایی مثل Excel, SQL, ابزارهای هوش تجاری (BI) و SAS استفاده می‌کنه.

💠مهندس داده
🔹تمرکزش روی زیرساخت‌ها و ابزارهای مورد نیاز برای فروش، فرایند و بازیابی دیتا هست.
🔹طراحی، ساخت و نگهداری از خطوط لوله داده‌ها (data pipeline) و ساختارها بعهده مهندس دادست.
🔹اطمینان میده که داده‌ها در دسترس، قابل تغییر و برای فرایند تحلیل موثرند.
🔹جمع‌آوری و یکپارچه سازی داده‌ها از منابع و در فرمت‌های مختلف.
🔹بهینه‌سازی عملکرد دیتابیس‌ها و ارائه راه‌حل برای ذخیره داده‌ها.
🔹از ابزارهایی مثل پایتون، جاوا، Scala و همینطور بسیار از SQL و NOSQL و ابزارهای ETL و همینطور ابزارهای انبار داده و... استفاده می‌کنه.

منبع: https://news.1rj.ru/str/datasciencefree/747

#علم_داده #تحلیل_داده #مهندسی_داده

@elmedade | آموزش علم داده و هوش مصنوعی
👍1
⚠️ جدیدترین تحقیقات DeepMind از ابداع یک تابع فعالساز جدید برای مدل‌های زبانی خبر می‌ده.

▫️دیکودرهای خودکار پراکنده (#SAE) ها نوعی از شبکه‌های عصبی هستن که برای یادگیری کارآمد نمایش‌های پراکنده داده‌ها طراحی شدن. SAE برای اینکه فقط مهم‌ترین ویژگی داده‌ها برای یادگیری سریع‌تر رو برای مصرف مدل جدا می‌کنن. این شبکه‌های عصبی #Overfitting رو بشدت کاهش می‌دن و با محدود کردن نورون‌های فعال تعمیم مدل به اطلاعات غیرقابل مشاهده رو بهبود می‌دن.

▪️فعالسازهای مدل‌های زبانی (#LM)مستقیماً توسط دیکشنری‌های بزرگ گاها با میلیاردها توکن به اجزای خطی تجذیه می‌شن و برای اینکه یه تجربه خوب داشته باشیم باید فعالسازی دو ویژگی داشته باشه:
۱. باید پراکندگی رو حفظ کنه: به این معنا که بازسازی هر فعالساز معین به عناصر کمتری از دیکشنری احتیاج داشته باشه.

۲. فعالساز باید به مدل وفادار بمونه: یعنی خطای تقریبی بین فعالساز اصلی و ترکیب مجدد حداقل باشه.

اما این دو شرط باهم قابل تحقق نیستن و با اکثر روشهای آموزشی SAE و اندازه ثابت دیکشنری‌ها معمولاً وفاداری بازسازی با افزایش پراکندگی، کاهش پیدا می‌کنه.

حالا محققان DeepMind مفهوم جدیدی بنام JumpRelu# SAEs رو معرفی کرد که نسخه اصلاح شده تابع فعالساز #Relu هستن که به بهبود موثر تعداد نورون‌ها رو کاهش می‌ده و تعمیم مدل رو بهبود می‌بخشه.

#مدل‌های_زبانی #گوگل #دیپ‌مایند

@elmedade | آموزش علم داده و هوش مصنوعی
👍2
اگه برای شما هم این سوالا پیش اومده که:
شبکه‌های عصبی مصنوعی چطور کار می‌کنن؟
اینکه می‌گیم یه شبکه آموزشی یادگرفته منظورمون چیه؟
اینکه اجزای یک شبکه عصبی چرا و چطور با هم در ارتباطن؟

این أموزش کوتاه و مفید از 3blue1Brown رو از دست ندید. این آموزش کوتاه با استفاده از یه مثال جالب (درواقع مثال تشخیص اعداد با دیتاست #mnist) همه چیو خیلی خوب توضیح میده.
👍1
ماتریس سردرگمی (Confusion Matrix)، همراه با پیاده سازی عملی روی دیتاست Mnist
🌀 ارزیابی مدل # کلاس بندی (#classificatiob) بعد از آموزش مدل با استفاده از روش‌هایی متعددی قابل محاسبه است که یکی از مهم‌ترین اونها ماتریس سردرگمی (#confusion_matrix) هست. این مفهوم خیلی مهمیه که در #مصاحبه‌ ها هم امکان مطرح شدن سوال رو داره.
◀️ توی این ویدیو منتشر شده در کانال یوتیوب علم داده در این مفهوم بطور کامل و با اجرای یک پروژه کامل و استخراج ماتریس سردرگمی توضیح داده میشه.
این مفهوم رو یکبار برای همیشه یادبگیر 👈بزن بریم
کانال یوتیوب علم داده رو دنبال کنین 👈 دنبال کردن

@elmedade | آموزش علم داده
👍1
📉 ده تابع خطا برای مسائل از نوع رگرسیون و کلاس‌بندی
توابع خطا (#loss_function) معیارهایی برای سنجش میزان دقت مدل در طول پروسه یادگیری هستن. توابع خطا در واقع با مقایسه خروجی مدل و خروجی مورد انتظار که در یادگیری نظارت‌ شده در واقع برچسب‌ها یا target ها نامیده میشن، مقدار خطای مدل رو محاسبه می‌کنن.
در این روابط N تعداد نمونه‌های آموزش، y_i خروجی مورد انتظار و f(x_i) خروجی مودلمونن.

#یادگیری_ماشین #هوش_مصنوعی #تابع_خطا

@elmedade | آموزش علم داده
👍1
DANA | علم داده و هوش مصنوعی pinned «ماتریس سردرگمی (Confusion Matrix)، همراه با پیاده سازی عملی روی دیتاست Mnist 🌀 ارزیابی مدل # کلاس بندی (#classificatiob) بعد از آموزش مدل با استفاده از روش‌هایی متعددی قابل محاسبه است که یکی از مهم‌ترین اونها ماتریس سردرگمی (#confusion_matrix) هست. این مفهوم…»
knn.pdf
113.9 KB
◀️ الگوریتم نزدیکترین همسایه (K-Nearest Neighbors)
الگوریتم k-نزدیکترین همسایه (#knn) یکی از الگوریتم‌های پرکاربرد و البته ساده در یادگیری ماشینه. از این الگوریتم در مسائل رگرسیون و طبقه‌بندی استفاده میشه. در این الگوریتم برای پیش‌بینی نمونه‌های جدید از k همسایه نزدیک‌ترین نقاط به نمونه‌ها استفاده می‌کنیم.

#یادگیری_ماشین #الگوریتم_یادگیری_ماشین

@elmedade | آموزش علم داده و هوش مصنوعی
👍1
لانگچین ترکوند! اولین IDE برنامه‌های هوش مصنوعی معرفی شد
آمادهای پروژههای هوش مصنوعیت رو راحتتر از همیشه بسازی؟ 😎

لانگچین یه IDE (محیط توسعه) جدید معرفی کرده که مخصوص کار با مدل‌های زبانی بزرگه (مثل #ChatGPT)

با این ابزار میتونی خیلی راحت‌تر:
- مراحل مختلف کار رو مثل یه نقشه گنج ببینی،
- اگه جایی گیر کردی، سریع مشکل رو حل کنی
- و حتی به صورت گروهی روی پروژه‌هات کار کنی (چی بهتر از این😉)

این ابزار یه تجربه جدید و فوق‌العاده برای ساخت برنامه‌های هوش مصنوعی فراهم کرده که همه چی رو سادهتر و سریعتر میکنه! 🚀

منبع: کانال لینکدین دیتاهاب

@elmedade | آموزش علم داده و هوش مصنوعی
👍1
ابراز Lagent: فریم ورک سبک و متن باز پایتون که به کاربران اجازه میده مدل‌های LLM کارآمد بسازن.
🔹 امروزه با توجه به اهمیت مدل‌های زبانی بزرگ، توسعه فریم‌ورک‌های کارآمد مورد توجه قرار گرفته. با توجه به حجم محاسباتی بالا در مدل‌های زبانی بزرگ توسعه فریم ورک‌های سنگین و غیرقابل انعطاف بازخورد خوبی نخواهند داشت.

🔹حالا #Lagent به عنوان یک چارچوب متن باز و جدید معرفی شده که فرایند ساخت عامل‌های مبتنی بر LLM رو ساده می‌کنه. این ابزار با ارائه یک راه‌حل سبک وزن و انعطاف پذیر از مدل‌های مختلف پشتیبانی می‌کنه و ابزارهایی برای افزایش قابلیت‌های LLM ارائه میده.

🔹این ابزار یک طراحی رابط یکپارچه است که به توسعه دهندگان این امکان رو میده تا بین مدل‌هایی مثل Transformers, OpenAI API و LMDeploy جابجا بشه. علاوه بر این Largent این امکان رو فراهم کرده تا ابزار شخصی‌سازی شده رو ایجاد کنید که با #GPT و #internLM سازگاره.

گیت‌هاب پروژه: Lagent
منبع: ΜarkTechpost

@elmedade | آموزش علم داده
👍1
💯 دوره رایگان پایتون برای علم داده (Python for Data Science)
توی این پلی لیست یوتیوب زبان برنامه نویسی پایتون با رویکرد علم داده رو شروع کردیم. و تا الان پنج جلسه از آموزش تشکیل شده.

پایتون به عنوان یکی از محبوب‌ترین زبان‌های برنامه نویسی در بحث علم داده (Data Science) بشمار میاد. تو این آموزش قدم به قدم زبان پایتون رو (نه از مقدماتی) برای کار با داده‌ها یاد می‌گیریم:

جلسه اول: پایتون چیست؟
جلسه دوم: انواع داده‌‌ای در پایتون
جلسه سوم: نصب و راه‌اندازی Anaconda
جلسه چهارم: لیست‌ها و معرفی Numpy
جلسه پنجم: کتابخانه Numpy (بخش اول)

با ما همراه باشید😉.
@elmedade | آموزش علم داده و هوش مصنوعی
👍4
هوش تجاری چیست؟ همه چیز در مورد هوش تجاری و ابزارهای مورد نیاز
هوش تجاری (Businesses Intelligence یا اختصارا BI) مجموعه‌ای از تکنیک‌ها، استراتژی‌ها و عواملی است که به منظور جمع‌آوری، آنالیز و ارائه داده‌های تجاری انجام میشه. کمک کردن به سازمان‌ها  بصورت داده محور برای تصمیم‌گیری جزو اولین اهداف هوش تجاریه.

🔶 هوش تجاری چیکار میکنه؟
🔹1. جمع‌آوری داده: جمع‌آوری داده‌ها از منابع مختلفی مثل دیتابیس‌ها، دیتاشیت‌ها، سیستم‌های CRM و سایر اپلیکیشن‌های تجاری.
🔹2. ذخیره‌سازی داده‌ها: ذخیره‌سازی داده‌های ساختار یافته از جمله دیگر وظایف یک متخصص هوش تجاریه.
🔹3. آنالیز داده‌ها: هوش تجاری از ابزارهای متعدد آنالیز داده و تکنیک‌های مختلفی برای تفسیر داده‌ها استفاده می‌کنه. این شامل آنالیز آماری، مدل‌های پیش‌بین و پردازش داده هاست.
🔹4. بصری سازی داده‌ها: ارائه داده‌های آنالیز شده در یک فرمت تصویری مثل چارت‌ها، نمودارها و داشبوردها، کمک می‌کنه تا پاسخ سرمایه‌گذاران داده‌ها رو درک و اطلاعات رو تفسیر کنند.
🔹5. گزارش نویسی: ایجاد گزارشاتی که یافته‌ها رو خلاصه می‌کنه و نتایج حاصل از تحلیل داده‌ها رو توضیح میده یکی از مهم‌ترین وظایف هوش تجاریه.

🔶 ابزار رایج BI:
🔹نرم‌افزار Tableau: یک ابزار قدرتمند برای مصورسازی داده هاست. به کاربران اجازه میده تا داشبورد‌های فعال بسازن.
🔹نرم‌افزار PowerBI: یکی از ابزارهای مایکروسافت که برای آنالیز و مصورسازی داده‌ها بکار میاد.
🔹نرم‌افزار QlikView/Qlik Sense: ابزاری برای مصورسازی داده‌ها و آنالیز سلف سرویس.
🔹نرم‌افزار Looker: این ابزار به سازمان‌ها امکان کاوش و آنالیز داده‌ها رو میده.
🔹نرم‌افزار SAP BusinessObjects: مجموعه‌ای از اپلیکیشن‌های front-end که به کاربران تجاری اجازه میده تا داده‌های هوش تجاری رو ببینن، مرتب کنم و اونها رو آنالیز کنن.

#هوش_تجاری #BI #علم_داده #تحلیل_داده
@elmedade | آموزش علم داده و هوش مصنوعی
🌀ارتقاء تعبیه متن در مدل‌های زبانی کوچک: رویکرد تنظیم دقیق متضاد با MiniCPM

مدل‌های زبانی بزرگ (#LLM) در درک زبان طبیعی (#NLU) عملکرد فوق‌العاده‌ای دارن، اما به منابع محاسباتی زیادی نیاز دارن اما مدل‌های کوچک‌تر مانند #MiniCPM مقیاس‌پذیری بهتری دارند، اما برای دستیابی به عملکرد بالا به بهینه‌سازی هدفمند نیاز دارند.

محققان دانشگاه Tsinghua برای این منظور از تنظیم دقیق متضاد با استفاده از مجموعه داده #NLI برای بهبود تعبیه متن در مدل‌های کوچک (#SLM) استفاده کردند.

این روش به طور قابل توجهی کیفیت تعبیه متن را در مدل‌های #MiniCPM، Phi2 و #Gemma در مقایسه با مدل‌های دیگر بهبود داده. MiniCPM با افزایش 56.33 درصدی عملکرد، نتایج چشمگیری نشان داده است.

منبع: Marktechpost

@elmedade | آموزش علم داد و هوش مصنوعی
👍1
Baysian Linear Regression.pdf
106.8 KB
رگرسیون خطی بیزی
رگرسیون خطی بیزی یک روش آماری قدرتمنده که ظرافت رگرسیون خطی را با انعطاف پذیری استنتاج بیزی ترکیب میکنه. این به ما این امکان رو میده که نه تنها پارامترهای یک مدل خطی رو تخمین بزنیم بلکه عدم قطعیت خودمونو در مورد آن تخمین‌ها هم کمی کنیم. این با در نظر گرفتن پارامترهای مدل به عنوان متغیرهای تصادفی و تخصیص توزیع‌های قبلی به اونها به دست میاد که منعکس‌کننده باورهای قبلی ما در مورد مقادیر اونهاست.

در این پروژه یک مدل رگرسیون خطی توسط تفکر بیزی آموزش می‌بینه و در نهایت خلاصه‌لی از مدل و پارامترهای تخمین زده شده استخراج میشن.

#تفکر_بیزی #رگرسیون_خطی #تئوری_بیزی #آمار

@elmedade | آموزش علم داده
Forwarded from School of AI (Hamidreza Hosseinkhani)
پدیده‌ی Double Descent


در یادگیری ماشین، می‌دانید که اگر مدل خیلی ساده‌تر از حد نیاز باشد، آموزش نمی‌بیند و درنهایت، پس از چند تلاش، کم‌برازش (Underfit) خواهد شد. هرچه مدل را پیچده‌تر کنیم (مثلا تعداد پارامترها را بیش‌تر کنیم)، بیش‌تر آموزش می‌بیند و قابلیت تعمیم (Generalization) آن به‌تر می‌شود. این به‌ترشدن قابلت تعمیم، از روی کاهش مقدار خطا به‌ازای داده‌های ارزیابی مشخص‌ست.

اما این خطا تا کجا کاهش می‌یابد؟ آیا هرچه‌قدر مدل پیچیده‌تر شود، خطای ارزیابی آن کمتر و قابلیت تعمیم آن بیش‌تر می‌شود؟!

در مدل‌های ساده‌تر و سنتی‌تر یادگری ماشین، هرچه مدل پیچیده‌تر می‌شد، نیاز به داده‌ی آموزشی بیش‌تری هم داشت. بنابراین با ثابت بودن سایز مجموعه داده، افزایش پیچیدگی از یک‌جا به بعد باعث بیش‌برازش (Overfitting) مدل و حفظ‌کردن داده‌ها و نویزها می‌شد و قابلیت تعمیم مدل از بین می‌رفت.

اما در دنیای مدل‌های جدید (مثلا مدل‌های زبانی بزرگ) شاهد آن‌یم که مدل هرچه بزرگ‌تر و پیچیده‌تر می‌شود قدرت‌مندتر و قابل تعمیم‌تر می‌شود! این تناقض ناشی از چی‌ست؟!

از پدیده‌ی جالبی به‌نام Double Descent که در شبکه‌های عصبی بسیار بزرگ دیده می‌شود. نوعی Regularization ضمنی که ظاهرا به‌علت رویه‌ی آموزش (مثلا الگوریتم کاهش گرادیان) اتفاق می‌افتد. در این حالت، با پیچیده‌تر شدن مدل (مثلا بیشترشدن تعداد پارامترها)، ابتدا خطای ارزیابی کاهش یافته، پس از آن در جایی با پدیده‌ی بیش‌برازش روبه‌رو شده و خطای ارزیابی افزایش می‌یابد، اما با پیچیده‌ترشدن مدل، از جایی به بعد، برای بار دوم خطای ارزیابی کاهشی شده و عمومیت مدل به‌تر می‌شود!

تصویر زیر را ببینید 👇👇👇
💥 داکاپو (Dacapo) ، یک فریم ورک یادگیری عمیق منبع باز که برای تسریع آموزش مدل‌های یادگیری ماشین روی داده‌های تصویر بزرگ و تقریباً همسانگرد طراحی شده

آموزش مدل‌های یادگیری ماشین روی داده‌های بزرگ تصویری و همسانگر (مانند تصاویر ماهواره‌ای) زمان بر و پرهزینه است.
برای رفع این مشکل #Dacapo از استراتژی‌های بهینه‌سازی مختلف برای تسریع آموزش استفاده می‌کنه.

این فریم‌ورک از پردازش موازی برای تقسیم داده‌های آموزش به بخش‌های کوچکتر و پردازش اونها بطور همزمان استفاده می‌کنه. داکاپو با استفاده از تکنیک‌های بهینه‌سازی حافظه، میزان حافظه مورد نیاز برای آموزش رو کاهش میده و همینطور از این تکنیک‌ها بجهت بهبود دقت و سرعت آموزش مدل استفاده میکنه.

لینک مقاله: https://arxiv.org/abs/2408.02834v1

مخزن گیت‌هاب پروژه: https://github.com/janelia-cellmap/dacapo

#یادگیری_ماشین #پردازش_تصویر

@elmedade | آموزش علم داده و هوش مصنوعی
🔶 طبقه‌بندی چند کلاسه رو یکبار برای همیشه یاد بگیر
در این تلگراف طبقه‌بندی چندکلاسه به زبان ساده و برگرفته از کتاب Hand on Machine Learning-Gerone توضیح داده شده.

پروژه مربوط به طبقه‌بندی چندکلاسه همراه با توضیحات مربوطه، در اولین فرصت در کانال شیر میشه.

امیدوارم که این تلگراف دید خوبی از طبقه‌بندی چند کلاسه بهتون بده و براتون مفید واقع بشه😉.

تلگراف رو از اینجا بخونید: مطالعه تلگراف

#یادگیری_ماشین #کلاس_بندی #شبکه‌های_عصبی

@elmedade | آموزش علم داده و هوش مصنوعی
اولین بخش از مجموعه آموزش‌های نامپای (Numpy) در کانال یوتیوب منتشر شد.
در این مجموعه سعی دارم نامپای رو از صفر تا صد آموزش بدم. این کتابخونه یکی از مهم‌ترین کتابخونه‌هائیه که انتظار می‌ره به عنوان یه تحلیلگر داده بدونید.
کمتر پروژه‌ای رو میشه پیدا کرد که از متدهای این کتابخونه استفاده نکرده باشه. سعی کنید این کتابخونه رو خیلی خوب یاد بگیرین.

◀️مشاهده ویدیو در یوتیوب👈 از اینجا ببینین
◀️کانال علم داده رو در یوتیوب سایبسکرایب کنید تا از جدیدترین آموزش‌های منتشر شده مطلع باشین👈 دنبال کردن کانال

@elmedade | آموزش علم داده
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
دانا | آکادمی آنلاین آموزش علم داده و هوش مصنوعی
سلام دوست خوبم
خیلی خوشحالم از اینکه اینجا و اینطور باهات آشنا میشم!
🌟 با افتخار می‌خوام ازت دعوت کنم که به جمعمون در دانا ملحق بشی و از کلی محتوای آموزشی (متنی و تصویری) که هر روز برات آماده می‌کنم و به اشتراک می‌زارم استفاده کنی. اونم رایگان!
اینجا از اینکه هر روز یه قدم به سمت تبدیل شدن به یک متخصص و تحلیل‌گر داده برمی‌داری، لذت می‌برید. اینو مطمئنم!
روی لینک زیر کلیک کن و در کانالمون جوین شو تا بهت ثابت بشه😉.

te.me/elmedade | آموزش علم داده
👍2