FaraData | فرا داده: علم داده و داده‌کاوی – Telegram
FaraData | فرا داده: علم داده و داده‌کاوی
1.32K subscribers
50 photos
11 videos
246 links
فرا داده — کانال تخصصی علم داده و داده کاوی

🔸کلان داده
🔸 داده کاوی
🔸 پردازش داده
🔸 یادگیری عمیق
🔸 یادگیری ماشین
🔸 کلان داده و Big Data
🔸 و صدها ساعت آموزش جذاب

🚀 برای مشاهده تمام آموزش‌های ویدیویی، روی لینک زیر بزنید:👇
fdrs.ir/tc/ds
Download Telegram

🔴 رایگان آموزش ببینید و مهارت کسب کنید.

🌟 معرفی آموزش‌های رایگان و پرطرفدار فرادرس

♨️ صدها عنوان آموزش رایگان فرادرس در دسترس هستند که در طول ماه، توسط ده‌ها هزار دانشجو مورد مطالعه قرار می‌گیرند.
شما عزیزان نیز می‌توانید با مراجعه به لینک‌های زیر، آموزش‌های پرمخاطب در دسته‌بندی مورد نظر خود را مشاهده کرده و رایگان دانلود کنید👇


آموزش‌های رایگان داده‌کاوی [+]


📚 تمامی آموزش‌های رایگان و پرمخاطب [+]


@FaraDars - فرادرس
✳️ یادگیری علم داده (Data Science) با پایتون — از صفر تا صد

‏همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار می‌ساخت آغاز شد. «تحلیل داده» (Data Analytics) و «داده‌کاوی» (Data Mining) خیلی زود به گرایش‌های روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسب‌و‌کارها نیز به دلیل کاربردها و مزایای متعدد این حوزه‌ها به آن‌ها روی آوردند.

══ فهرست مطالب ══

‏ ○ ۱. مبانی پایتون برای تحلیل داده
‏ ○ کتابخانه‌ها و ساختارهای داده در پایتون
‏ ○ پیش‌پرداز داده‌ها (Data Munging) در پایتون با استفاده از Pandas
‏ ○ ساخت یک مدل پیش‌بین در پایتون
‏ ○ سخن پایانی


🔸 ۱. مبانی پایتون برای تحلیل داده

‏در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شده‌اند.

‏پایتون اخیرا توجهات زیادی را به عنوان زبان منتخب برای تحلیل داده به خود جلب کرده است. در ادامه برخی مزایای پایتون که موجب شده تا به یکی از ابزارهای اصلی تحلیل‌گران داده مبدل شود بیان شده‌اند.

‏– متن‌باز بودن و نصب رایگان

‏– جامعه آنلاین فوق‌العاده

‏– یادگیری بسیار آسان

‏– قابلیت تبدیل شدن به یک زمان متداول برای علم داده و تولید محصولات تحلیلی مبتنی بر وب

‏البته پایتون در کنار مزایا، معیابی نیز دارد که مهم‌ترین آن‌ها در ادمه بیان شده است.


🔸 کتابخانه‌ها و ساختارهای داده در پایتون

‏پیش از آن که به طور جدی‌تر به حل مساله پرداخته شود، یک گام عقب‌تر رفته و به مبانی پایتون پرداخته می‌شود. چنانکه مشهود است ساختارهای داده، حلقه‌ها و ساختارهای شرطی مبانی زبان‌های برنامه‌نویسی را شکل می‌دهند. در پایتون، لیست‌ها (lists)، رشته‌ها (strings)، تاپل‌ها (tuples) و دیکشنری‌ها (dictionaries) از جمله ساختارهای داده، for و while از حلقه‌ها و if-else از جمله ساختارهای شرطی است.

‏در ادامه برخی از ساختارهای داده مورد استفاده در پایتون بیان شده‌اند. برای استفاده درست و موثر از این ساختارها، آشنایی با آن‌ها نیاز است.

‏لیست‌ها (Lists): لیست‌ها یکی از همه‌کارترین ساختارها در پایتون هستند. یک لیست را می‌توان به سادگی با نوشتن مجموعه‌ای از مقادیر جدا شده به وسیله ویرگول در میان دو کروشه تعریف کرد. لیست‌ها ممکن است شامل آیتم‌هایی از انواع گوناگون باشند، اما معمولا کلیه آیتم‌های یک لیست نوع یکسانی دارند. لیست‌های پایتون و عناصر منفرد از لیست قابل تغییر هستند. در ادامه مثالی برای تعریف لیست و دسترسی به آن ارائه شده است.



مطالعه ادامه مطلب 👇👇

🔗 یادگیری علم داده (Data Science) با پایتون — از صفر تا صد — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

👍1
✳️ هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف

‏هادوپ یک چارچوب نرم‌افزاری منبع‌باز است که پردازش توزیع‌شده‌ ‌داده‌های بزرگ را بر روی خوشه‌هایی از سرورها ممکن می‌سازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحمل‌پذیری خطای بالا طراحی شده است. به جای تکیه بر سخت‌افزار‌های گران‌قیمت، تحمل‌پذیری در مقابل خطا در این خوشه‌ها از توانایی نرم‌افزاری در تشخیص و اداره‌ی خرابی‌ در لایه کاربرد می‌آید. استفاده‌کنندگان برجسته هادوپ، فیسبوک و یاهو هستند. RPC یا Remote Procedure Call نیز یکی از پروتکل‌های به کار گرفته شده در محاسبات توزیعی به حساب می‌آید.

══ فهرست مطالب ══

‏ ○ مقدمه
‏ ○ چارچوب هادوپ
‏ ○ Map/Reduce هادوپ
‏ ○ HDFS هادوپ


🔸 مقدمه

‏هسته اصلی هادوپ از یک بخش ذخیره‌سازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایل‌ها را به بلوک‌های بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع می‌کند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال می‌کند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره می‌برد (نودها بر روی بخشی از داده‌ کار می‌کنند که در دسترشان قرار دارد). بدین ترتیب داده‌ها سریع‌تر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل می‌کند، پردازش می‌شوند.

‏چارچوب هادوپ همانطور که گفته شد به زبان جاوا نوشته شده است، اما از زبان C و همچنین از شل-اسکریپت نیز در بخش‌هایی از آن بهره گرفته شده است. کاربران نهایی می‌توانند در کار با هادوپ، هر زبان برنامه‌نویسی‌ای را برای پیاده‌سازی بخش‌های “map” و “reduce” به کار ببرند.


🔸 چارچوب هادوپ

‏چارچوب اصلی هادوپ از ماژول‌های زیر تشکیل شده است:

‏– بخش مشترکات هادوپ: شامل کتابخانه‌ها و utilityهای لازم توسط دیگر ماژول‌های هادوپ است.

‏– سیستم فایل توزیع شده هادوپ (HDFS): یک سیستم فایل توزیع شده است که داده را بر روی ماشین‌های خوشه ذخیره کرده و پهنای باند وسیعی را به وجود می‌آورد.

‏– YARN هادوپ: یک پلتفرم مدیریت منابع که مسئول مدیریت منابع محاسباتی در خوشه‌ها است.

‏– Map/Reduce هادوپ: یک مدل برنامه‌نویسی برای پردازش داده در مقیاس‌های بالا است.

‏در واقع هادوپ یک سیستم فایل توزیع شده تهیه می‌کند که می‌تواند داده را بر روی هزاران سرور ذخیره کند، و تسک (وظیفه) را بر روی این ماشین‌ها پخش کرده (کارهای Map/Reduce)، و کار را در کنار داده انجام می‌دهد.



مطالعه ادامه مطلب 👇👇

🔗 هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

👍1
Forwarded from مجله فرادرس

📙 دسته داده کاوی: پربازدیدترین مطالب اخیر «داده کاوی» مجله فرادرس


1️⃣ ساخت شبکه عصبی در پایتون — به زبان ساده

‏───────────────

2️⃣ یادگیری تقویتی — راهنمای ساده و کاربردی

‏───────────────

3️⃣ الگوریتم جنگل تصادفی — راهنمای جامع و کاربردی

‏───────────────

4️⃣ مجموعه داده های رایگان برای علم داده و یادگیری ماشین

‏───────────────

5️⃣ مقایسه علم داده، تحلیل داده، داده‌کاوی و یادگیری ماشین


#داده_کاوی


📚 سایر مطالب مجله فرادرس
🔗 fdrs.ir/blog


@FaraDarsMag — مجله فرادرس
✳️ علم داده، تحلیل داده، داده‌کاوی و یادگیری ماشین ــ تفاوت‌ها و شباهت‌ها

‏«علم داده» (data science)، «تحلیل داده‌ها» (Data analytics)، «یادگیری ماشین» (machine learning) و «داده‌کاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از این‌رو شرکت‌ها به‌دنبال کارشناسانی می‌گردند که با کیمیاگری داده‌ها به آن‌ها در اتخاذ تصمیم‌های چابک، اثرگذار و کارا در کسب‌و‌کار کمک کنند.

══ فهرست مطالب ══

‏ ○ علم داده چیست؟
‏ ○ چه مهارت‌هایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
‏ ○ تحلیل‌گر داده کیست؟
‏ ○ چه مهارت‌هایی برای مبدل شدن به یک تحلیل‌گر داده مورد نیاز است؟
‏ ○ آیا بین علم داده و تحلیل داده هم‌پوشانی وجود دارد؟
‏ ○ یادگیری ماشین چیست؟
‏ ○ چه مهارت‌هایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
‏ ○ آیا بین یادگیری ماشین و علم داده هم‌پوشانی وجود دارد؟
‏ ○ داده‌کاوی چیست؟
‏ ○ چه مهارت‌هایی برای تبدیل شدن به یک داده‌کاو مورد نیاز است؟
‏ ○ آیا همپوشانی بین داده‌کاوی و علم داده وجود دارد؟


🔸 علم داده چیست؟

‏افراد زیادی برای بیش از یک دهه تلاش کرده‌اند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است. این نمودار توسط «هوق کانوی» (Hugh Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنه‌ای که محاسبات و خلاصه‌سازی در آن انجام می‌شود) و مهارت‌های هک می‌شود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.

‏علم داده مفهومی است که برای کار با داده‌های کلان (مِه‌داده) به کار می‌رود و شامل پاکسازی، آماده‌سازی و تحلیل داده می‌شود. یک دانشمند داده، داده‌ها را از چندین منبع گردآوردی کرده و تحلیل‌های پیش‌بین و یادگیری ماشین را بر آن‌ها اعمال می‌کند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه داده‌های گردآوری شده بهره می‌برد. این دانشمندان، داده‌ها را از نقطه نظر کسب‌و‌کار درک می‌کنند و قادر به فراهم کردن پیش‌بینی‌ها و بینش‌های صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسب‌وکار قابل استفاده است.


🔸 چه مهارت‌هایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟

‏هر کسی که به ساخت موقعیت شغلی قدرتمند‌تر در این دامنه علاقمند است، باید مهارت‌های کلیدی در سه حوزه تحلیل، برنامه‌نویسی و دانش دامنه را کسب کند. با نگاهی عمیق‌تر، می‌توان گفت مهارت‌های بیان شده در زیر می‌تواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.

‏– دانش قوی از پایتون، R، اسکالا و SAS

‏– مهارت داشتن در نوشتن کدهای پایگاه داده SQL

‏– توانایی کار با داده‌های ساختار نیافته از منابع گوناگون مانند ویدئو و شبکه‌های اجتماعی

‏– درک توابع تحلیل چندگانه

‏– دانش یادگیری ماشین



مطالعه ادامه مطلب 👇👇

🔗 علم داده، تحلیل داده، داده‌کاوی و یادگیری ماشین ــ تفاوت‌ها و شباهت‌ها — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


📱 در شبکه‌های اجتماعی فرادرس چه مطالبی منتشر می‌شود؟

✔️ اطلاع‌رسانی فرصت‌های ویژه و جشنواره‌های تخفیف

✔️ اطلاع‌رسانی جدیدترین آموزش‌های منتشر شده همراه با تخفیف ویژه انتشار

✔️ انتشار مطالب، مقالات و ویدئوهای آموزشی رایگان

✔️ اطلاع‌رسانی آخرین رویدادها و وبینارها

✔️ برگزاری مسابقات و طرح‌های تخفیف همراه با هدایای آموزشی


☸️ فرادرس را در شبکه‌های اجتماعی و کانال‌های ارتباطی مختلف دنبال کنید.👇👇👇


📌 اینستاگرام
🔗 instagram.com/FaraDars

📌 یوتیوب
🔗 youtube.com/c/FaraDarsCourses

📌 لینکدین
🔗 linkedin.com/company/FaraDars

📌 توئیتر
🔗 twitter.com/FaraDars

📌 کانال رسمی تلگرام
🔗 t.me/FaraDars

📌 کانال فرصت‌های ویژه (فراپُن)
🔗 t.me/FaraPon

📌 کانال تازه‌های نشر
🔗 t.me/FDPub

📌 کانال‌های موضوعی و تخصصی
🔗 t.me/faradars/5006



_______________

📚 فرادرس
دانش در دسترس همه
همیشه و همه جا


@FaraDars — فرادرس
✳️ چگونه یک دانشمند داده شوید؟ — راهنمای گام‌به‌گام به همراه معرفی منابع

‏علم داده، تحلیل داده و داده‌کاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینه‌ها به میزانی است که در دانشگاه‌های گوناگون سراسر جهان دوره‌های اختصاصی برای آن‌ها تدوین شده. این در حالیست که تعداد پژوهش‌های آکادمیک پیرامون این حوزه‌ها نیز همواره رو به رشد است.


🔸 نقشه راه مبدل شدن به دانشمند داده

‏یادگیری علم داده در گام اول نیازمند یک انتخاب است! انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصت‌های شغلی، درآمد و طول دوره یادگیری آن انجام شود. از این‌رو توصیه می‌شود که علاقمندان به داده‌کاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمان‌های مردم‌نهاد مربوط به داده‌کاوان و دانشمندان داده حضور پیدا کنند.

‏انجام گفت‌و‌گوی تخصصی با خبرگان این حوزه نیز می‌تواند به شکل‌گیری ذهنیت بهتری از فضای شغلی دانشمندان داده کمک شایان توجهی کند. پس از این مراحل است که فرد می‌تواند تصمیم بگیرد آیا علاقمند به گام نهادن در مسیر پر پیج و خم و طولانی آموختن علم داده و مبدل شدن به یک دانشمند داده هست یا خیر! اما اگر فردی تصمیم قاطع خود را اتخاذ کرده، توصیه می‌شود که ادامه این مطلب را مطالعه کند.

‏همانطور که پیش از این نیز بیان شد، برای فعالیت در حوزه علم داده نیاز به فراگیری علوم گوناگونی است. گام‌های لازم برای آموختن آنچه از فرد یک دانشمند داده می‌سازد در ادامه بیان شده‌اند.



مطالعه ادامه مطلب 👇👇

🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گام‌به‌گام به همراه معرفی منابع — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ الگوریتم جنگل تصادفی (Random Forest) — راهنمای جامع و کاربردی

‏«جنگل تصادفی» (Random Forest)، یک الگوریتم یادگیری ماشین با قابلیت استفاده آسان است که اغلب اوقات نتایج بسیار خوبی را حتی بدون تنظیم فراپارامترهای آن، فراهم می‌کند. این الگوریتم به دلیل سادگی و قابلیت استفاده، هم برای «دسته‌بندی» (Classification) و هم «رگرسیون» (Regression)، یکی از پر کاربردترین الگوریتم‌های یادگیری ماشین محسوب می‌شود. در این مطلب، چگونگی عملکرد جنگل تصادفی و دیگر مباحث مهم پیرامون آن مورد بررسی قرار خواهند گرفت.

══ فهرست مطالب ══

‏ ○ درخت تصمیم، بلوک سازنده جنگل تصادفی
‏ ○ چگونگی عملکرد جنگل تصادفی
‏ ○ مثال جهان واقعی از جنگل تصادفی
‏ ○ اهمیت ویژگی‌ها
‏ ○ تفاوت بین درخت تصمیم و جنگل تصادفی
‏ ○ هایپرپارامترهای مهم
‏ ○ مزایا و معایب
‏ ○ برخی از زمینه‌های کاربرد
‏ ○ خلاصه


🔸 درخت تصمیم، بلوک سازنده جنگل تصادفی

‏برای درک چگونگی عملکرد جنگل تصادفی، ابتدا باید الگوریتم «درخت تصمیم» (Decision Tree) که بلوک سازنده جنگل تصادفی است را آموخت. انسان‌ها همه روزه از درخت تصمیم برای تصمیم‌گیری‌ها و انتخاب‌های خود استفاده می‌کنند، حتی اگر ندانند آنچه که از آن بهره می‌برند نوعی الگوریتم یادگیری ماشین است. برای شفاف کردن مفهوم الگوریتم درخت تصمیم، از یک مثال روزمره یعنی پیش‌بینی حداکثر درجه حرارت هوای شهر برای روز بعد (فردا) استفاده می‌شود.

‏در اینجا فرض بر آن است که که شهر مورد نظر سیاتل در ایالت واشینگتن واقع شده (این مثال قابل تعمیم به شهرهای گوناگون دیگر نیز هست). برای پاسخ دادن به پرسش ساده «درجه حرارت فردا چقدر است؟»، نیاز به کار کردن روی یک سری از کوئری‌ها وجود دارد. این کار با ایجاد یک بازه درجه حرارات پیشنهادی اولیه که بر اساس «دانش زمینه‌ای» (Domain Knowledge) انتخاب شده، انجام می‌شود.

‏در این مساله چنانچه در آغاز کار مشخص نباشد که «فردا» (که قرار است درجه حرارت آن حدس زده شود) مربوط به چه زمانی از سال است، بازه پیشنهادی اولیه می‌تواند بین ۳۰ الی ۷۰ درجه (فارنهایت) باشد. در ادامه و به تدریج، از طریق یک مجموعه پرسش و پاسخ، این بازه کاهش پیدا می‌کند تا اطمینان حاصل شود که می‌توان یک پیش‌بینی به اندازه کافی مطمئن داشت.


🔸 چگونگی عملکرد جنگل تصادفی

‏جنگل تصادفی یک الگوریتم یادگیری نظارت شده محسوب می‌شود. همانطور که از نام آن مشهود است، این الگوریتم جنگلی را به طور تصادفی می‌سازد. «جنگل» ساخته شده، در واقع گروهی از «درخت‌های تصمیم» (Decision Trees) است. کار ساخت جنگل با استفاده از درخت‌ها اغلب اوقات به روش «کیسه‌گذاری» (Bagging) انجام می‌شود. ایده اصلی روش کیسه‌گذاری آن است که ترکیبی از مدل‌های یادگیری، نتایج کلی مدل را افزایش می‌دهد. به بیان ساده، جنگل تصادفی چندین درخت تصمیم ساخته و آن‌ها را با یکدیگر ادغام می‌کند تا پیش‌بینی‌های صحیح‌تر و پایدارتری حاصل شوند.

‏یکی از مزایای جنگل تصادفی قابل استفاده بودن آن، هم برای مسائل دسته‌بندی و هم رگرسیون است که غالب سیستم‌های یادگیری ماشین کنونی را تشکیل می‌دهند. در اینجا، عملکرد جنگل تصادفی برای انجام «دسته‌بندی» (Classification) تشریح خواهد شد، زیرا گاهی دسته‌بندی را به عنوان بلوک سازنده یادگیری ماشین در نظر می‌گیرند. در تصویر زیر، می‌توان دو جنگل تصادفی ساخته شده از دو درخت را مشاهده کرد.

‏جنگل تصادفی دارای فراپارامترهایی مشابه درخت تصمیم یا «دسته‌بند کیسه‌گذاری» (Bagging Classifier) است. خوشبختانه، نیازی به ترکیب یک درخت تصمیم با یک دسته‌بند کیسه‌گذاری نیست و می‌توان از «کلاس دسته‌بندی» (Classifier-Class) جنگل تصادفی استفاده کرد. چنانکه پیش‌تر بیان شد، با جنگل تصادفی، و در واقع «رگرسور جنگل تصادفی» (Random Forest Regressor) می‌توان به حل مسائل رگرسیون نیز پرداخت.



مطالعه ادامه مطلب 👇👇

🔗 الگوریتم جنگل تصادفی (Random Forest) — راهنمای جامع و کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ الگوریتم K-نزدیک‌ترین همسایگی به همراه کد پایتون

‏«k-نزدیک‌ترین همسایگی» (k-Nearest Neighbors) یک روش ناپارامتری است که در داده‌کاوی، یادگیری ماشین و تشخیص الگو مورد استفاده قرار می‌گیرد. بر اساس آمارهای ارائه شده در وب‌سایت kdnuggets الگوریتم k-نزدیک‌ترین همسایگی یکی از ده الگوریتمی است که بیشترین استفاده را در پروژه‌های گوناگون یادگیری ماشین و داده‌کاوی، هم در صنعت و هم در دانشگاه داشته است.

══ فهرست مطالب ══

‏ ○ چه زمانی باید از الگوریتم k-نزدیک‌ترین همسایگی استفاده کرد؟
‏ ○ الگوریتم k-نزدیک‌ترین همسایگی چگونه کار می‌کند؟
‏ ○ شبه کد k-نزدیک‌ترین همسایگی
‏ ○ مقایسه مدل ارائه شده در این نوشتار با scikit-learn
‏ ○ سخن پایانی


🔸 چه زمانی باید از الگوریتم k-نزدیک‌ترین همسایگی استفاده کرد؟

‏الگوریتم k-نزدیک‌ترین همسایگی برای مسائل طبقه‌بندی و رگرسیون قابل استفاده است. اگرچه، در اغلب مواقع از آن برای مسائل طبقه‌بندی استفاده می‌شود. برای ارزیابی هر روشی به طور کلی به سه جنبه مهم آن توجه می‌شود:

‏– سهولت تفسیر خروجی‌ها

‏– زمان محاسبه

‏– قدرت پیش‌بینی

‏در جدول ۱ الگوریتم نزدیک‌ترین همسایگی با الگوریتم‌های «رگرسیون لجستیک»، «CART» و «جنگل‌های تصادفی» (random forests) مقایسه شده است. همان‌گونه که از جدول مشخص است، الگوریتم k-نزدیک‌ترین همسایگی بر اساس جنبه‌های بیان شده در بالا، نسبت به دیگر الگوریتم‌های موجود در جایگاه مناسبی قرار دارد. این الگوریتم اغلب به دلیل سهولت تفسیر نتایج و زمان محاسبه پایین مورد استفاده قرار می‌گیرد.


🔸 الگوریتم k-نزدیک‌ترین همسایگی چگونه کار می‌کند؟

‏برای درک بهتر شیوه کار این الگوریتم، عملکرد آن با یک مثال ساده مورد بررسی قرار گرفته است.


مطالعه ادامه مطلب 👇👇

🔗 الگوریتم K-نزدیک‌ترین همسایگی به همراه کد پایتون — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ کاربرد جبر خطی در علم داده‌ها و یادگیری ماشین — بخش اول

‏یکی از سؤالات رایج در زمینه یادگیری «علم داده‌ها» (Data Science) و «یادگیری ماشین» (Machine Learning)، این است که برای تبدیل‌شدن به یک «داده پژوه» (Data Scientist)، چه میزان آشنایی با ریاضیات نیاز است؟ اگرچه این سؤال، ساده به نظر می‌رسد؛ جواب آسانی برای آن وجود ندارد. معمولاً، به علاقه‌مندان یادگیری حوزه علم داده‌ها گفته می‌شود که برای شروع یادگیری این حوزه، باید با مفاهیم پایه‌ای آمار توصیفی و استنباطی آشنا شوند. یادگیری این مفاهیم برای شروع کار، بسیار مناسب است.

══ فهرست مطالب ══

‏ ○ فهرست مطالب
‏ ○ ۱- چرا باید جبر خطی را بیاموزیم؟
‏ ○ ۲- نمایش مسائل در جبر خطی
‏ ○ ۳- ماتریس


🔸 ۱- چرا باید جبر خطی را بیاموزیم؟

‏اگر در حال یادگیری علم داده‌ها و یادگیری ماشین هستید، چهار سناریوی مختلف را برای شما ارائه می‌کنیم تا متوجه شوید که چرا باید جبر خطی را یاد بگیرید؟




مطالعه ادامه مطلب 👇👇

🔗 کاربرد جبر خطی در علم داده‌ها و یادگیری ماشین — بخش اول — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

👍1
Forwarded from مجله فرادرس

📙 دسته داده کاوی: پربازدیدترین مطالب اخیر «داده کاوی» مجله فرادرس


1️⃣ رسم نمودار داده ها در پایتون

‏───────────────

2️⃣ پردازش زبان طبیعی (NLP) با پایتون

‏───────────────

3️⃣ یادگیری عمیق (Deep Learning) با پایتون

‏───────────────

4️⃣ آموزش یادگیری ماشین با مثال‌ های کاربردی

‏───────────────

5️⃣ مفاهیم کلان داده (Big Data) و انواع تحلیل داده


#داده_کاوی


📚 سایر مطالب مجله فرادرس
🔗 fdrs.ir/blog


@FaraDarsMag — مجله فرادرس
✳️ مصور سازی داده | معرفی ابزارها و نرم افزارها

‏در دوره یا زمانی از زندگی بشر، نوشتن و خواندن به عنوان یک قدرت محسوب می‌شد و عده کمی قادر به انجام این کار بودند. بعد از بوجود آمدن اعداد، کسانی که قادر به انجام محاسبات بودند دارای قدرت و منزلت اجتماعی شدند. مهندسین و محاسب‌ها، قادر به ساختن بناهایی شدند که هرگز به ذهن انسان آن موقع نیز خطور نمی‌کرد که چنین سازه‌هایی، قابل اجرا هستند. با حضور در قرن اطلاعات، شرکت‌ها و کشورهایی که صاحب تکنولوژی ذخیره و انتقال اطلاعات محسوب می‌شدند، قدرت‌های بلامنازع قرن رایانه و داده‌ها بودند. ولی امروزه کسانی که بتوانند ابزارها و روش‌های کشف اطلاعات و استخراج دانش از داده‌ها را رهبری کنند، قدرتمند خواهند بود. یکی از روش‌های تفسیر و تشکیل یا تشخیص الگو از روی داده‌ها، استفاده از تکنیک‌های مصور سازی داده و ابزارهای آن است که در این متن به چند نمونه از بسته‌ها و نرم افزارهای خاص این حوزه اشاره خواهیم کرد.

══ فهرست مطالب ══

‏ ○ مصور سازی داده‌ و ابزارهای آن
‏ ○ معرفی فیلم آموزش مصور سازی داده (Data Visualization) در نرم افزار R با بسته ggplot۲
‏ ○ خلاصه و جمع‌بندی


🔸 مصور سازی داده‌ و ابزارهای آن

‏به کارگیری و نمایش مجموعه‌های بزرگ داده همیشه ساده نیست. بعضی اوقات، مجموعه داده‌ آنقدر بزرگ هستند که تشخیص الگوی مفیدی از آن‌ها بدون ابزارهای رایانه‌ای، کاملاً غیرممکن است. در اینجا لازم است که از نرم‌افزارهایی بهره ببریم که تجسم یا مصور سازی داده را امکان‌پذیر می‌سازند.

‏ایجاد تجسم برای داده‌ها اغلب کار ساده‌ای نیست. البته خوشبختانه این کار، امری شدنی بوده ولی احتیاج به ابزار و همچنین ذوق و سلیقه دارد. در این نوشتار به بعضی از ابزارها و نرم‌افزارهای معروف که در مصور سازی داده به کار می‌روند، اشاره کرده و خصوصیات هر یک را با هم مقایسه خواهیم کرد. واضح است که بهره‌گیری از این نرم‌افزارها، در هزینه و زمان صرفه‌جویی کرده و نتیجه را هم به شکلی قابل فهم و گویا، ارائه می‌کند.

‏ابزارهای تجسم یا مصور سازی داده روشی آسان برای ایجاد نمایش‌های تصویری و بصری از مجموعه داده‌های بزرگ را به طراحان ارائه می‌دهند. هنگام کار با مجموعه‌ای که شامل صدها هزار یا میلیون‌ها نقطه داده باشد، کار مشکلی است. با استفاده از این نرم‌افزارها، فرآیند ایجاد یک تصویر یا نمودار، تا حدی زیادی، خودکار شده و کار یک طراح را به طور قابل توجهی ساده می‌کند.


🔸 معرفی فیلم آموزش مصور سازی داده (Data Visualization) در نرم افزار R با بسته ggplot۲

‏در تحلیل داده، بسیار مهم است که ابتدا آن‌ها را به درستی درک کرده و برای انتقال اطلاعات حاصل از آن‌ها، روش‌های مناسبی را انتخاب کنیم. توصیف داده‌ها و کشف قوانین آن‌ها که به مصور سازی داده (Exploratory Data Visualization) معروف است، در این فرادرس مورد بررسی قرار گرفته است. به طوری که ضمن آشنایی اولیه با تصویر سازی مقدماتی با استفاده از زبان برنامه نویسی R (بسته نرم افزاری Base) که یکی از قدرتمندترین زبان‌ها در راستای تحلیل داده ها است، امکان ترسیم و نمایش اطلاعات از بین داده‌ها به مخاطبان آموزش داده می‌شود. ابزارها به کار رفته در این آموزش بسته نرم افزاری ggplot۲ در زبان R است که محبوبیت زیادی نیز دارد.

‏این آموزش با هفت درس و ۷ ساعت و ۱۹ دقیقه محتوای آموزشی به فراگیران ارائه شده است. سرفصل‌های آموزشی به قرار زیر هستند.

‏– درس یکم: آشنایی مقدماتی با مفهوم تصویرسازی در علم داده و رسم انواع نمودار در R (دستورات بسته یا پکیج Base)

‏– درس دوم: نکاتی در مورد نمودارهای پرکاربرد

‏– درس سوم: دستور زبان گرافیک، مقدمه ای بر پکیج ggplot۲

‏– درس چهارم: لایه زیبا شناختی (Aesthetic) در ggplot۲ و حل مشکل Overplotting

‏– درس پنجم: لایه هندسی (Geometrics) و لایه صورت بندی (Facet)

‏– درس ششم: لایه آماری، لایه مختصات، لایه تم و مقدمه ای بر پکیج های dplyr و tidyr

‏– درس هفتم: مقدمه ای بر پکیج‌های GGally و Plotly



مطالعه ادامه مطلب 👇👇

🔗 مصور سازی داده | معرفی ابزارها و نرم افزارها — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

👍1
✳️ تحلیل شبکه های اجتماعی از صفر تا صد — راهنمای جامع

‏یک «شبکه اجتماعی» (Social Network)، ساختار اجتماعی تشکیل شده از افراد (یا سازمان‌ها) است. تحلیل شبکه‌‌های اجتماعی، رویکردی است که در آن شبکه را به صورت مجموعه‌ای از «گره‌ها» (Nodes) و روابط میان آن ها در نظر می‌گیرند. گره‌ها، اشخاص و در واقع بازیگران درون شبکه هستند و روابط میان آن‌ها به صورت اتصالاتی بین گره‌ها نمایش داده می‌شود. ساختار شبکه‌های اجتماعی که ساختارهایی مبتنی بر گراف است، معمولا بسیار پیچیده‌اند. انواع گوناگونی از روابط مانند دوستی، همکاری، خویشاوندی، علاقمندی و مبادلات مالی ممکن است بین گره‌ها وجود داشته باشد. در واقع «تحلیل شبکه‌های اجتماعی» (Social Network Analysis | SNA) یک استراتژی برای بررسی ساختارهای اجتماعی با استفاده از نظریه‌های شبکه و گراف است.

══ فهرست مطالب ══

‏ ○ تاریخچه تحلیل شبکه‌های اجتماعی
‏ ○ سنجه‌ها
‏ ○ مدل‌سازی و بصری‌سازی شبکه
‏ ○ نظریه گراف در مدل‌سازی شبکه
‏ ○ چرایی و کاربردهای تحلیل


🔸 تاریخچه تحلیل شبکه‌های اجتماعی

‏تحلیل شبکه‌های اجتماعی ریشه‌های نظری در کارهای جامعه‌شناسان اولیه مانند «گئورگ زیمل» (Georg Simmel) و «امیل دورکیم» (Émile Durkheim) که در رابطه با اهمیت مطالعه الگوهای روابطی که بازیگران اجتماعی را به یکدیگر متصل می‌کند آثار مکتوبی منتشر کرده‌اند دارد. دانشمندان اجتماعی مفهوم «شبکه‌های اجتماعی» را از اوایل قرن بیستم به منظور اشاره ضمنی به مجموعه‌های پیچیده از روابط بین اعضای سیستم‌های اجتماعی در همه مقیاس‌ها از بین‌شخصی گرفته تا بین‌المللی استفاده کردند. در سال۱۹۳۰ میلادی، «جاکوب مورنو» (Jacob L. Moreno) و «هلن جنگینز» (Helen Jennings)، روش‌های تحلیلی پایه‌ای را برای شبکه‌های اجتماعی معرفی کردند.

‏در سال ۱۹۵۴، «جی‌ای بارنز» (John Arundel Barnes)، از اصطلاحات گروه‌های محدود (مانند قبایل و خانواده‌ها) و دسته‌های اجتماعی (مانند جنسیت و قومیت) استفاده کرد. پژوهشگرانی مانند «رونالد برت» (Ronald Burt)، «کاتلین کارلی» (Kathleen Carley)، «مارک گرانوتر» (Mark Granovetter)، «دیوید کراکخاردت» (David Krackhardt)، «ادوارد لوامان» (Edward Laumann)، «آناتول راپوپورت» (Anatol Rapoport)، «بری ولمن» (Barry Wellman)، «داگلاس آروایت» (Douglas R. White) و «هریسون وایت» (Harrison Whit)، استفاده از تحلیل‌های سیستماتیک شبکه‌های اجتماعی را گسترش دادند. امروزه تحلیل‌های شبکه‌های اجتماعی در رشته‌های آکادمیک گوناگون کاربرد پیدا کرده است.


🔸 سنجه‌ها

‏در تحلیل شبکه‌های اجتماعی برخط، مفاهیم، اصطلاحات و سنجه‌هایی وجود دارد که در پژوهش‌های گوناگون و توسط دانشمندان این حوزه استفاده شده‌اند. سه دسته اصلی از این سنجه‌ها، «ارتباطات» (Connections)، «توزیع‌ها» (Distributions) و «بخش‌بندی» (Segmentation) هستند.

‏از این سنجه‌ها برای اندازه‌گیری مسائل گوناگونی که در گراف ساختاری مربوط به شبکه‌های اجتماعی برخط به وقوع می‌پیوندد بهره ‌می‎برند. آشنایی با این مفاهیم به منظور تحلیل شبکه‌های اجتماعی الزامی است. در ادامه هر یک از این دسته‌ها توضیح داده شده است.

‏ارتباطات: این دسته از سنجه‌ها به مفاهیم و اصطلاحات مربوط به ویژگی‌های ارتباطات میان بازیگران در یک شبکه اجتماعی برخط می‌پردازند. «هوموفیلی» (Homophily)، رابطه متقابل، Multiplexity، بسته بودن شبکه و قرابت از این جمله هستند. اینکه بازیگران تا چه میزان با دیگر بازیگران شبیه یا غیرشبیه خود رابطه ایجاد می‌کنند را هوموفیلی گویند.



مطالعه ادامه مطلب 👇👇

🔗 تحلیل شبکه های اجتماعی از صفر تا صد — راهنمای جامع — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ پیاده سازی الگوریتم های یادگیری ماشین با پایتون و R — به زبان ساده

‏«هوش مصنوعی» (Artificial Intelligence)، «یادگیری ماشین» (Machine Learning)، «علم داده» (Data Scientist) و «داده‌کاوی» (Data Mining) از جمله موضوعات داغ روز هستند. این روزها، کمتر صنعتی مشاهده می‌شود که در آن به طور مستقیم یا غیرمستقیم از یادگیری ماشین استفاده نشود. از جمله ابزارهای مهمی که برای پیاده‌سازی روش‌ها و الگوریتم‌های یادگیری ماشین از آن‌ها استفاده می‌شود، زبان‌های برنامه‌نویسی پایتون و R‌ هستند. در این مطلب، علاوه بر ارائه توضیحات پیرامون انواع روش‌های یادگیری ماشین، پیاده سازی الگوریتم های یادگیری ماشین با پایتون و R نیز انجام می‌شود.

══ فهرست مطالب ══

‏ ○ این راهنما برای چه افرادی مناسب است؟
‏ ○ الگوریتم‌های یادگیری ماشین
‏ ○ پیاده سازی الگوریتم های یادگیری ماشین با پایتون
‏ ○ ۱. رگرسیون خطی
‏ ○ ۲. رگرسیون لجستیک
‏ ○ ۳. درخت تصمیم
‏ ○ ۴. ماشین بردار پشتیبان
‏ ○ ۵. نایو بیز
‏ ○ ۶. k نزدیک‌ترین همسایگی
‏ ○ ۷. K-Means
‏ ○ ۸. جنگل تصادفی
‏ ○ ۹. الگوریتم‌های کاهش ابعاد
‏ ○ ۱۰. الگوریتم‌های گرادیان تقویتی
‏ ○ جمع‌بندی


🔸 این راهنما برای چه افرادی مناسب است؟

‏ایده نهفته در پس این راهنما آن است که سفر دانشمندان داده مشتاق و علاقمندان به یادگیری ماشین را آسان‌تر سازد. با بهره‌گیری از این راهنما، افراد قادر می‌شوند مسائل یادگیری ماشین را حل و ضمن آن تجربه کسب کنند. در ادامه، علاوه بر ارائه توضیحات مناسب و کافی که درک خوبی از الگوریتم‌های یادگیری ماشین متعدد مطرح شده در این مطلب ارائه می‌کنند، کدهای پایتون و R هر یک از الگوریتم‌ها نیز ارائه شده‌اند. اما از پرداختن به جزئیات مباحث آماری نهفته در پس این الگوریتم ها اجتناب شده است. زیرا افراد در آغاز راه، نیازی به دانستن حجم بالایی از مباحث ریاضیاتی ندارند. بنابراین، به افرادی که به دنبال یادگیری مفاهیم آماری نهفته در پس این الگوریتم‌ها هستند، استفاده از دیگر مطالب موجود در «مجله فرادرس» توصیه می‌شود.


🔸 الگوریتم‌های یادگیری ماشین

‏در حالت کلی، سه دسته از الگوریتم‌های یادگیری ماشین وجود دارند. این دسته‌ها عبارتند از «یادگیری نظارت شده» (Supervised Learning)، «یادگیری نظارت نشده» (Unsupervised Learning) و «یادگیری تقویتی» (Reinforcement Learning)، که هر یک در ادامه شرح داده شده‌اند.

‏این نوع از الگوریتم‌ها دارای یک متغیر «هدف» (Target)/«خروجی» (Outcome)/«متغیر وابسته» (Dependent Variable) هستند که باید برای یک مجموعه از «پیش‌بین‌ها» (Predictors)، پیش‌بینی شود. با استفاده از این مجموعه متغیرها، می‌توان تابعی ساخت که ورودی‌ها را به خروجی‌های موردنظر نگاشت کند. فرآیند آموزش تا هنگامی ادامه پیدا می‌کند که مدل به سطح مناسبی از «صحت» (Accuracy) روی داده‌های آموزش دست پیدا کند. از جمله الگوریتم‌های یادگیری نظارت شده می‌توان به «رگرسیون» (Regression)، «درخت تصمیم» (Decision Tree)، «جنگل تصادفی» (Random Forest)، «رگرسیون لوجستیک» (Logistic Regression) و «K-نزدیک‌ترین همسایگی» (K Nearest Neighbors) و دیگر موارد اشاره کرد.

‏در الگوریتم‌های یادگیری نظارت نشده، هیچ متغیر هدف یا خروجی وجود ندارد که برای پیش‌بینی/«برآورد» (Estimate) مورد استفاده قرار بگیرد. این الگوریتم‌ها برای «خوشه‌بندی» (Clustering) جامعه در گروه‌های مختلف مورد استفاده قرار می‌گیرند و برای مثال به طور گسترده‌ای برای بخش‌بندی مشتریان در گروه‌های مختلف استفاده می‌شوند. از جمله الگوریتم‌های نظارت نشده می‌توان به «K-میانگین» (K-means) و «اَپریوری» (Apriori) اشاره کرد.


مطالعه ادامه مطلب 👇👇

🔗 پیاده سازی الگوریتم های یادگیری ماشین با پایتون و R — به زبان ساده — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

👍1
✳️ یادگیری ماشین (Machine Learning) چیست؟ — راهنمای کامل

‏در علم یادگیری ماشین (Machine Learning)، به موضوع طراحی ماشین‌هایی پرداخته می‌شود که با استفاده از مثال‌های داده شده به آن‌ها و تجربیات خودشان، بیاموزند. در واقع، در این علم تلاش می‌شود تا با بهره‌گیری از الگوریتم‌ها، یک ماشین به شکلی طراحی شود که بدون آنکه صراحتا برنامه‌ریزی و تک تک اقدامات به آن دیکته شود بتواند بیاموزد و عمل کند. در یادگیری ماشین، به جای برنامه‌نویسی همه چیز، داده‌ها به یک الگوریتم عمومی داده می‌شوند و این الگوریتم است که براساس داده‌هایی که به آن داده شده منطق خود را می‌سازد. یادگیری ماشین روش‌های گوناگونی دارد که از آن جمله می‌توان به یادگیری نظارت شده، نظارت نشده و یادگیری تقویتی اشاره کرد. الگوریتم‌های مورد استفاده در یادگیری ماشین جزو این سه دسته هستند.

══ فهرست مطالب ══

‏ ○ مثال‌هایی از یادگیری ماشین
‏ ○ نیازهای یادگیری ماشین
‏ ○ انواع یادگیری ماشین
‏ ○ یادگیری تقویتی
‏ ○ ریاضیات هوشمندی


🔸 مثال‌هایی از یادگیری ماشین

‏مثال‌های متعددی برای یادگیری ماشین وجود دارند. در اینجا چند مثال از مسائل طبقه‌بندی زده می‌شود که در آن‌ها هدف دسته‌بندی اشیا به مجموعه‌ای مشخص از گروه‌ها است.

‏– تشخیص چهره: شناسایی چهره در یک تصویر (یا تشخیص اینکه آیا چهره‌ای وجود دارد یا خیر).

‏– فیلتر کردن ایمیل‌ها: دسته‌بندی ایمیل‌ها در دو دسته هرزنامه و غیر هرزنامه.

‏– تشخیص پزشکی: تشخیص اینکه آیا بیمار مبتلا به یک بیماری است یا خیر.

‏– پیش‌بینی آب و هوا: پیش‌بینی اینکه برای مثال فردا باران می‌بارد یا خیر.


🔸 نیازهای یادگیری ماشین

‏یادگیری ماشین زمینه مطالعاتی است که از هوش مصنوعی سر بر آورده. بشر با استفاده از هوش مصنوعی به‌دنبال ساخت ماشین‌های بهتر و هوشمند است. اما پژوهشگران در ابتدا به جز چند وظیفه ساده، مانند یافتن کوتاه‌ترین مسیر بین نقطه A و B، در برنامه‌ریزی ماشین‌ها برای انجام وظایف پیچیده‌تری که به‌طور مداوم با چالش همراه هستند ناتوان بودند. بر همین اساس، ادراکی مبنی بر این شکل گرفت که تنها راه ممکن برای تحقق بخشیدن این مهم، طراحی ماشین‌هایی است که بتوانند از خودشان یاد بگیرند. ماشین در این رویکرد به مثابه کودکی است که از خودش می‌آموزد. بنابراین، یادگیری ماشین به‌عنوان یک توانایی جدید برای رایانه‌ها مطرح شد. امروزه این علم در بخش‌های گوناگون فناوری مورد استفاده قرار می‌گیرد، و بهره‌گیری از آن به اندازه‌ای زیاد شده که افراد اغلب از وجودش در ابزارها و لوازم روزمره‌ خود بی‌خبرند.

‏یافتن الگوها در داده‌های موجود در سیاره زمین، تنها برای مغز انسان امکان‌پذیر است. اما هنگامی که حجم داده‌ها بسیار زیاد می‌شود و زمان لازم برای انجام محاسبات افزایش می‌یابد، نیاز به یادگیری ماشین به عنوان علمی مطرح می‌شود که به افراد در کار با داده‌های انبوه در حداقل زمان کمک می‌کند.

‏با وجود آنکه مباحث مِه‌داده (کلان داده/big data) و پردازش ابری به دلیل کاربردی که در جنبه‌های گوناگون زندگی بشر دارند حائز اهمیت شده‌اند، اما در حقیقت یادگیری ماشین فناوری است که به دانشمندان داده در تحلیل بخش‌های بزرگ داده، خودکارسازی فرآیندها، بازشناسی الگوها و ارزش‌آفرینی کمک می‌کند.



مطالعه ادامه مطلب 👇👇


🔗 یادگیری ماشین (Machine Learning) چیست؟ — راهنمای کامل — کلیک کنید (+)

📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [‎‌‎@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


🟢 رایگان آموزش ببینید و مهارت کسب کنید.

🌟 برای مشاهده آموزش‌های پرطرفدار فرادرس روی لینک زیر کلیک کنید و آموزش‌های مورد علاقه خود را رایگان دانلود کنید:👇

🔸 آموزش‌های رایگان داده‌کاوی [+]


🔹 تمامی آموزش‌های رایگان و پرمخاطب [+]


@FaraDars - فرادرس
✳️ الگوریتم K-نزدیک‌ترین همسایگی به همراه کد پایتون

‏«k-نزدیک‌ترین همسایگی» (k-Nearest Neighbors) یک روش ناپارامتری است که در داده‌کاوی، یادگیری ماشین و تشخیص الگو مورد استفاده قرار می‌گیرد. بر اساس آمارهای ارائه شده در وب‌سایت kdnuggets الگوریتم k-نزدیک‌ترین همسایگی یکی از ده الگوریتمی است که بیشترین استفاده را در پروژه‌های گوناگون یادگیری ماشین و داده‌کاوی، هم در صنعت و هم در دانشگاه داشته است.

══ فهرست مطالب ══

‏ ○ چه زمانی باید از الگوریتم k-نزدیک‌ترین همسایگی استفاده کرد؟
‏ ○ الگوریتم k-نزدیک‌ترین همسایگی چگونه کار می‌کند؟
‏ ○ شبه کد k-نزدیک‌ترین همسایگی
‏ ○ مقایسه مدل ارائه شده در این نوشتار با scikit-learn
‏ ○ سخن پایانی


🔸 چه زمانی باید از الگوریتم k-نزدیک‌ترین همسایگی استفاده کرد؟

‏الگوریتم k-نزدیک‌ترین همسایگی برای مسائل طبقه‌بندی و رگرسیون قابل استفاده است. اگرچه، در اغلب مواقع از آن برای مسائل طبقه‌بندی استفاده می‌شود. برای ارزیابی هر روشی به طور کلی به سه جنبه مهم آن توجه می‌شود:

‏– سهولت تفسیر خروجی‌ها

‏– زمان محاسبه

‏– قدرت پیش‌بینی

‏در جدول ۱ الگوریتم نزدیک‌ترین همسایگی با الگوریتم‌های «رگرسیون لجستیک»، «CART» و «جنگل‌های تصادفی» (random forests) مقایسه شده است. همان‌گونه که از جدول مشخص است، الگوریتم k-نزدیک‌ترین همسایگی بر اساس جنبه‌های بیان شده در بالا، نسبت به دیگر الگوریتم‌های موجود در جایگاه مناسبی قرار دارد. این الگوریتم اغلب به دلیل سهولت تفسیر نتایج و زمان محاسبه پایین مورد استفاده قرار می‌گیرد.


🔸 الگوریتم k-نزدیک‌ترین همسایگی چگونه کار می‌کند؟

‏برای درک بهتر شیوه کار این الگوریتم، عملکرد آن با یک مثال ساده مورد بررسی قرار گرفته است.


مطالعه ادامه مطلب 👇👇

🔗 الگوریتم K-نزدیک‌ترین همسایگی به همراه کد پایتون — کلیک کنید (+)


📌 کانال اختصاصی آموزشی برنامه نویسی پایتون

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی برنامه نویسی پایتون را در کانال اختصاصی [@FaraPython] دنبال کنید. 👇

@FaraPython — مطالب و آموزش‌های برنامه نویسی پایتون فرادرس

1
✳️ مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی

‏ریاضیات سنگ بنای همه رشته‌های علوم معاصر به حساب می‌آید. تقریباً همه تکنیک‌های علم داده مدرن که شامل «یادگیری ماشین» (Machine Learning) نیز می‌شود، زیرساخت عمیقی از ریاضیات دارند. البته بدیهی است که یک «دانشمند داده» (Data Scientist) به انواع مختلفی از علوم مانند توانایی برنامه‌نویسی، قدرت داوری در مورد مسائل تجاری و ذهنیت منحصربه‌فرد تحلیلی و کاوشگر در مورد داده‌ها هم برای رشد در این حوزه نیاز دارد. اما می‌دانیم که این کسب اطلاع از زیرساخت‌های یک دانش به هزینه‌های زیادی نیاز دارد. از این رو کسب اطلاعات از سازوکارهای ریاضیاتی که در پسِ الگوریتم‌های زیبا قرار دارند، باعث می‌شود که نسبت به همکاران خود یک پله بالاتر بایستید.

══ فهرست مطالب ══

‏ ○ تابع‌ها، متغیرها، معادله‌ها و گراف‌ها
‏ ○ آمار
‏ ○ جبر خطی
‏ ○ حسابان
‏ ○ ریاضیات گسسته
‏ ○ موضوعات بهینه‌سازی و تحقیق عملیات


🔸 تابع‌ها، متغیرها، معادله‌ها و گراف‌ها

‏این حوزه از ریاضیات شامل مباحث مقدماتی از معادله یک خط تا قضیه دوجمله‌ای و مشخصات آن می‌شود:

‏– توابع لگاریتم، توابع نمایی، اعداد گویا

‏– مفاهیم و قضیه‌های هندسه مقدماتی، مباحث مثلثات

‏– اعداد حقیقی، مختلط و مشخصات مقدماتی

‏– سری‌ها، سری هندسی، تصاعد حسابی و نامعادلات

‏– رسم گراف و نمودار، مختصات دکارتی، قطبی، استوانه‌ای، کروی و مقاطع مخروطی

‏اگر می‌خواهید درک کنید چگونه یک جستجو روی پایگاه داده با چند میلیون آیتم به صورت سریع اجرا می‌شود، باید با مفهوم «جستجوی دودویی» آشنا باشید. برای درک دینامیک این مسئله باید لگاریتم‌ها و معادلات بازگشتی را بشناسید. همچنین اگر می‌خواهید یک سری زمانی را تحلیل کنید، باید با مفاهیمی مانند «تابع‌های متناوب» و «نزول نمایی» آشنا باشید.

‏بهترین منبع برای شروع یادگیری این مفاهیم، مراجعه به مجموعه آموزش‌های «ریاضیات» و انتخاب مباحث مورد نیاز با توجه به راهنمایی فوق است.


🔸 آمار

‏اهمیت کسب دانشی قوی از مفاهیم ضروری آمار و احتمال در زمینه علم داده غیر قابل انکار است. بسیاری از متخصصان این حوزه، «یادگیری ماشین» کلاسیک (بدون شبکه عصبی) را اساساً چیزی به جز یادگیری آماری نمی‌شمارند. این حوزه بسیار گسترده است و برنامه‌ریزی متمرکزی برای مطالعه همه مفاهیم ضروری مورد نیاز است:

‏– آمار توصیفی و جمع‌بندی داده‌ها، گرایش به مرکز، واریانس، کوواریانس، همبستگی

‏– احتمال مقدماتی: ایده مقدماتی، امید ریاضی، حسابان احتمال، قضیه بیز، احتمال شرطی

‏– تابع‌های توزیع احتمال شامل تابع توزیع یکنواخت، نرمال، دوجمله‌ای، کای ۲، توزیع t استیودنت و قضیه حد مرکزی

‏– نمونه‌گیری، اندازه‌گیری، خطا، تولید عدد تصادفی

‏– تست کردن فرضیه، تست A/B، بازه‌های اطمینان، مقادیر p

‏– آنووا (ANOVA)، آزمون t

‏– رگرسیون خطی، منظم‌سازی (regularization)

‏این مفاهیم در مصاحبه‌های شغلی به کار می‌آیند. اگر بتوانید در این مصاحبه‌ها نشان دهید که بر این مفاهیم تسلط دارید، می‌توانید مصاحبه‌شونده خود را بسیار سریع‌تر تحت تأثیر قرار دهید. همچنین از این مفاهیم تقریباً به صورت روزمره به عنوان یک دانشمند داده استفاده خواهید کرد.

‏یکی از جامع‌ترین مجموعه آموزش‌های ویدیویی آمار، احتمالات و داده‌کاوی از طریق این لینک در دسترس است و می‌توانید از این مجموعه برای یادگیری مفاهیمی که پیش‌تر ذکر شد به بهترین شکل ممکن بهره بگیرید.



مطالعه ادامه مطلب 👇👇

🔗 مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی — کلیک کنید (+)

📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [‎@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

👍21
Forwarded from مجله فرادرس

✳️ طرح استوار و ابزارهای نوین کیفیت | با رویکرد تاگوچی

‏با توجه به رویکرد تاکوچی در مورد کیفیت و آزمایش یا طرح استوار ابزارهایی لازم است که به کمک آن‌ها قادر به اجرای استراتژی طرح استوار باشیم. در این متن از مجله فرادرس به این عنوان یعنی استراتژی طرح استوار و روش تاگوچی خواهیم پرداخت و مولفه‌های اصلی آن را بازگو خواهیم کرد. البته در نوشتارهای دیگر نیز به اهمیت استفاده از رویکرد تاگوچی اشاره داشته‌ایم. در این مطلب، طرح استوار و ابزارهای نوین کیفیت را مورد توجه قرار داده و با رویکرد تاگوچی به آن‌ها می‌پردازیم.

══ فهرست مطالب ══

‏ ○ طرح استوار و ابزارهای نوین کیفیت
‏ ○ معرفی فیلم آموزش مقدماتی طراحی آزمایش ها با Minitab
‏ ○ خلاصه و جمع‌بندی


🔸 طرح استوار و ابزارهای نوین کیفیت

‏کاهش تنوع و پراکندگی در پارامتر محصول تولید شده و یکسان بودن خدمات یا تولید، به عنوان یک کلید برای اطمینان و بهبود بهره‌وری شناخته شده است. رویکردهای زیادی برای کاهش این پراکندگی یا «تغییر پذیری» (Variability) وجود دارد که هر کدام جایگاه خود را در چرخه توسعه محصول دارند.

‏با پرداختن به کاهش پراکندگی در یک مرحله خاص از چرخه عمر یک محصول، می‌توان از شکست در مراحل پایین دست، یا گام‌های بعدی تولید، جلوگیری کرد. «رویکرد شش سیگما» (Six Sigma Method) با یافتن مشکلاتی که در عملیات تولید ایجاد می‌شوند و رفع علل فوری، دستاوردهای چشمگیری در کاهش هزینه‌ها به دست آورده است. استراتژی استوار و طراحی استوار برای جلوگیری از مشکلات احتمالی از طریق بهینه‌سازی طرح‌های محصول و طرح‌های فرآیند تولید است. ابتدا به یک مثال در این مورد توجه کنید.

‏نکته: به عنوان رویکرد دیگری در این زمینه می‌توان به «تکنیک پوکایوکه» (Poka-Yoke) نیز اشاره کرد که برای کاهش و حتی از بین بردن ضایعات و خطای فرآیند تولید به کار می‌رود.


🔸 معرفی فیلم آموزش مقدماتی طراحی آزمایش ها با Minitab

‏وجود رقابت بین شرکت‌ها به منظور کاهش هزینه تولید باعث شده، به جنبه‌های طراحی آزمایش ها و همچنین جلوگیری از تولید ظایعات توجه بیشتری شود. تجزیه و طراحی آزمایش‌ها (Design of Experiments) به عنوان یکی از مهم ترین رویکردها، سعی در کاهش تغییرات در فرآیند تولید یا ارائه خدمات شده در نتیجه بهبود کیفیت در سازمان یا شرکت‌ها را به همراه داشته باشد. در این فرادرس، به موضوع طراحی آزمایش‌ها و بخصوص طرح استوار به نحوی کاملا کاربردی و به کمک نرم‌افزار MINITAB پرداخته شده است و زوایا و شیوه‌های مختلف اجرای آن براساس سرفصل ارائه شده، آموزش داده می‌شود.

‏– درس یکم: شامل آشنایی با مفاهیم طراحی آزمایش ها و تعریف طراحی آزمایش‌ها، مدل کردن فرایند طراحی آزمایش‌ها است.

‏– درس دوم: به معرفی طرح‌های عاملی، طرح های عاملی کسری، طراحی طرح های عاملی و نمودار Split – Plot، طراحی طرح‌های «پلاکت
برمن» (Plackett-Burman) اختصاص دارد.


درس سوم: از بخش‌هایی به منظور معرفی طرح های سطح پاسخ با عنوان‌های فرعی، نظیر مواردی چون معرفی طرح های سطح پاسخ، ایجاد طرح مرکب مرکزی، ایجاد طرح «باکس – بنکن» (Box-Behnken)، انتخاب طرح بهینه در طرح های سطح پاسخ، تجزیه و تحلیل طرح های سطح پاسخ، استفاده از نمودارها در طرح های سطح پاسخ، بهینه سازی پاسخ در طرح های سطح پاسخ، تشکیل شده است.

درس چهارم: «روش تاگوچی»، اصطلاحات روش تاگوچی، طراحی آزمایش‌های ایستا و پویا، تجزیه و تحلیل طرح‌های در رویکرد تاگوچی و پیش بینی نتایج حاصل از طرح آزمایش‌های تاگوچی، را معرفی کرده است.





مطالعه ادامه مطلب 👇👇

🔗 طرح استوار و ابزارهای نوین کیفیت | با رویکرد تاگوچی — کلیک کنید (+)

📚 طبقه‌بندی موضوعی: صنایع | مهندسی


📖 مجله فرادرس
بزرگ‌ترین رسانه متنی آموزشی در ایران

@FaraDarsMag — مجله فرادرس
1

🔴 رایگان آموزش ببینید و مهارت کسب کنید.

🌟 معرفی آموزش‌های رایگان و پرطرفدار فرادرس

♨️ صدها عنوان آموزش رایگان فرادرس در دسترس هستند که در طول ماه، توسط ده‌ها هزار دانشجو مورد مطالعه قرار می‌گیرند.

شما عزیزان نیز می‌توانید با مراجعه به لینک‌های زیر، آموزش‌های پرمخاطب در دسته‌بندی مورد نظر خود را مشاهده کرده و رایگان دانلود کنید👇


آموزش‌های رایگان داده‌کاوی [+]


📚 تمامی آموزش‌های رایگان و پرمخاطب [+]


@FaraDars — فرادرس

✳️ کلان داده یا مِه داده (Big Data) — از صفر تا صد

‏کلان داده (مِه داده | Big Data)، یکی از موضوعات داغ روز است. پژوهشگران زیادی به تحقیق و بررسی در این حوزه مشغول هستند و در عین حال کسب‌و‌کارهای زیادی نیز با اهداف گوناگون به آن گرایش پیدا کرده‌اند. همچنین، صنایع و علوم گوناگون به ویژه بهداشت و درمان، علوم اجتماعی، بیمه، بانکداری و حتی دولت‌ها نیز به دلیل کاربردهای قابل توجه تحلیل کلان‌داده‌ها (تحلیل مِه‌داده‌ها) به آن روی آورده‌اند.

══ فهرست مطالب ══

‏ ○ کلان داده چیست و چرا اهمیت دارد؟
‏ ○ ارزش کسب‌و‌کار تحلیل‌های کلان‌داده
‏ ○ کاربردهای کلان داده در بخش صنعتی
‏ ○ دانشمند داده
‏ ○ مولفه اصلی فناوری در اکوسیستم کلان‌داده
‏ ○ بصری‌سازی
‏ ○ خلاصه


🔸 کلان داده چیست و چرا اهمیت دارد؟

‏پرداختن به مبحثی مانند کلان‌داده (مِه‌داده) که به طور گسترده و سریع توجهات را به خود جلب کرده کاری دشوار است. در حالیکه مبحث کلان‌داده تا چند سال پیش بسیار ناشناخته بود، امروزه یکی از پربحث‌ترین موضوعات در بخش‌های صنعتی است. در این قسمت از مقاله پیش رو، چیستی کلان‌داده (مِه‌داده)، دلایل اهمیت و مزایای تحلیل آن تشریح شده.

‏با وجود آنکه کلان‌داده (مِه‌داده) یکی از مورد توجه‌ترین اصطلاحات در بازار این روزها است، اما هیچ اتفاق نظری میان پژوهشگران گوناگون در رابطه با چگونگی تعریف آن وجود ندارد. این عبارت اغلب به عنوان مترادفی برای دیگر مفاهیم مرتبط مانند «هوش تجاری» (Business Intelligence) و داده‌کاوی (data mining) مورد استفاده قرار می‌گیرد.

‏درست است که هر سه این عبارات در رابطه با تحلیل داده‌ها هستند و در اغلب شرایط برای تحلیل‌های پیشرفته داده مورد استفاده قرار می‌گیرند، اما مفهوم کلان‌داده (مِه‌داده) هنگامی که حجم داده‌ها و تعداد منابع داده بسیار زیاد و پیچیدگی روش‌ها و فناوری‌های لازم برای کسب بینش از آن‌ها بالا باشد، از دو مورد دیگر متمایز و متفاوت خواهد بود (برای مثال، راهکارهای سنتی انبار داده ممکن است در کار با کلان‌داده‌ها کم بیاوردند). آنچه بیان شد، مبانی لازم برای ارائه پرکاربردترین تعریف کلان‌داده (مِه‌داده) که در برگیرنده سه «V» یعنی «حجم» (Volume)، «سرعت» (Velocity) و «تنوع» (Variety) است، را فراهم می‌کند. شکل زیر نمای کلی این تعریف را نشان می‌دهد.


🔸 ارزش کسب‌و‌کار تحلیل‌های کلان‌داده

‏مجددا تعریف گارتنر برای کلان‌داده (مِه‌داده) مورد بررسی قرار می‌گیرد: «کلان‌داده دارایی اطلاعاتی با حجم، سرعت و تنوع بالا محسوب می‌شود که نیازمند شکلی از پردازش اطلاعات نوآورانه و مقرون به صرفه است که بینش، تصمیم‌سازی و خودکارسازی فرآیندها را به طور بهینه فراهم می‌کند.» این تعریف از گارتنر مزایای تحلیل‌های کلان‌داده را خلاصه‌سازی کرده است. این مزایا در ادامه بیان شده‌اند:

‏– کسب بینش از داده‌ها

‏– تصمیم‌سازی بهتر بر مبنای بینش

‏– خودکارسازی تصمیم‌سازی و گنجاندن آن در فرآیندهای کسب‌و‌کار و در نتیجه خودکارسازی فرآیندها

‏در یک سطح همراه با جزئیات بیشتر، هر راهکار کلان داده ممکن است یک مشکل کسب‌و‌کاری خاص که سازمان امکان مواجهه با آن را دارد حل کند و همچنین ارزش کسب‌و‌کاری راهکار را به مساله اصلی مرتبط سازد. برای مثال، پیش‌بینی رویگردانی مشتریان می‌تواند این امر را کاهش دهد و بنابراین از کاهش درآمد پیشگیری کند. حائز اهمیت است که ساخت یک «مورد کسب‌و‌کار» (Business case) برای پروژه تحلیل کلان‌داده (تحلیل مِه‌داده)، با مساله کسب‌و‌کار آغاز شود نه با داده یا فناوری موجود یا مورد نیاز. گردآوری داده یا خرید فناوری بدون هدف‌گذاری صحیح کسب‌و‌کار یک استراتژی بازنده است. یک مورد کسب‌و‌کار برای تحلیل‌ها باید یک مساله واقعی که سازمان با آن مواجه می‌شود را حل کند.



مطالعه ادامه مطلب 👇👇

🔗 کلان داده یا مِه داده (Big Data) — از صفر تا صد — کلیک کنید (+)

📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [‎@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

1👍1