FaraData | فرا داده: علم داده و داده‌کاوی – Telegram
FaraData | فرا داده: علم داده و داده‌کاوی
1.32K subscribers
50 photos
11 videos
246 links
فرا داده — کانال تخصصی علم داده و داده کاوی

🔸کلان داده
🔸 داده کاوی
🔸 پردازش داده
🔸 یادگیری عمیق
🔸 یادگیری ماشین
🔸 کلان داده و Big Data
🔸 و صدها ساعت آموزش جذاب

🚀 برای مشاهده تمام آموزش‌های ویدیویی، روی لینک زیر بزنید:👇
fdrs.ir/tc/ds
Download Telegram
✳️ زبان برنامه نویسی R — معرفی و کاربردها

‏امروزه، استفاده از رایانه‌ها برای انجام تحلیل داده‌ها، امری اجتناب ناپذیر است. در این بین زبان‌های برنامه‌نویسی برای انجام عملیات محاسباتی، توسعه یافته، به طوری که هر روز دارای امکانات بیشتری شده و روزآمد (Update) می‌شوند. در این بین زبان‌های برنامه‌نویسی محاسباتی مانند R و «پایتون» Python از محبوبیت زیادی برخوردارند. در این نوشتار از مجله فرادرس به زبان برنامه نویسی R پرداخته شده است و علاوه بر معرفی آن، کاربردهای آن در حوزه تحلیل داده مورد بررسی قرار می‌دهیم. در انتهای این متن، مزایا و معایب استفاده از این زبان برنامه‌نویسی نیز برای خوانندگان ارائه خواهد شد.

══ فهرست مطالب ══

‏ ○ زبان برنامه نویسی R
‏ ○ چرا از R استفاده کنیم؟
‏ ○ آیا باید زبان برنامه ‌نویسی R را برای کار انتخاب کرد؟
‏ ○ مزایا و معایب زبان برنامه نویسی R
‏ ○ نرم‌افزار RStudio
‏ ○ معرفی فیلم آموزشی برنامه نویسی R و نرم افزار RStudio – مقدماتی
‏ ○ خلاصه و جمع‌بندی


🔸 زبان برنامه نویسی R

‏R یک زبان برنامه‌نویسی و نرم افزار رایگان است که توسط «راس ایهاکا» (Ross Ihaka) و «رابرت جنتلمن» (Robert Gentleman) در سال ۱۹۹۳ تهیه شده است. R دارای کتابخانه‌های گسترده‌ای از انواع روش‌های آماری و شیوه‌های ترسیم نمودارها است. در این زبان برنامه نویسی، «الگوریتم‌های یادگیری ماشین» (Machine Learning Algorithm)، «رگرسیون خطی» (Linear Regression)، «سری‌های زمانی» (Time Series) و «استنباط آماری» (Statistical Inference)‌ قابل استفاده هستند.

‏بیشتر «کتابخانه‌های» (Library) یا «بسته‌های» (Package) قابل دسترس در R، با خود زبان برنامه نویسی R نوشته شده‌اند، اما برای کارهای محاسباتی سنگین، کدهایی به زبان‌های C++ ،C و Fortran نیز قابل دسترس بوده و کتابخانه‌هایی با این زبان‌ها، نوشته شده‌اند.

‏زبان برنامه‌نویسی R نه تنها در بین دانشگا‌هیان و محققین مورد اقبال قرار گرفته است، بلکه بسیاری از شرکت‌های بزرگ نیز از زبان برنامه نویسی R استفاده می‌کنند. در این بین می‌توان به شرکت‌هایی مانند Uber ،Google ،Airbnb و Facebook اشاره کرد.


🔸 چرا از R استفاده کنیم؟

‏علم داده در حال شکل دادن به نحوه فعالیت شرکت‌ها است. بدون شک استفاده نکردن از هوش مصنوعی و یادگیری ماشین باعث شکست شرکت‌ها در فعالیت‌های تجاری خواهد شد. سوال اصلی این است که از کدام ابزار یا زبان برای تحلیل داده‌ها استفاده کنیم؟

‏تعداد زیادی از ابزارهای تجاری برای اجرای تعاملات مالی و تجزیه و تحلیل آن‌ها وجود دارد. ولی متاسفانه اغلب آن‌ها پولی هستند. از طرفی ممکن است سازگاری لازم با نحوه کار شرکت شما یا روند داده‌هایتان را نداشته باشند. از جنبه دیگر، آموختن یک زبان برنامه‌نویسی جدید، کار طولانی و پیچیده‌ای است.

‏آیا واقعاً آموختن زبان برنامه‌نویسی R پیچیده است؟ توجه داشته باشید که باید یک توازن بین پیچیدگی و کارایی در نظر گرفت و بهترین زبان برنامه‌نویسی را برای امور شرکت انتخاب کرد. در تصویر ۴، نموداری را مشاهده می‌کنید که به مقایسه کارایی و سادگی در آموزش بین زبان‌ها و نرم‌افزارهای تحلیل مالی پرداخته است. اگر می‌خواهید بهترین اطلاعات را از داده‌ها کسب کرده و به نمایش بگذارید، باید مدتی را صرف یادگیری ابزار مناسب آن، یعنی زبان برنامه نویسی R کنید.



مطالعه ادامه مطلب 👇👇

🔗 زبان برنامه نویسی R — معرفی و کاربردها — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ مسئله منشی و تصمیم بهینه | به زبان ساده

‏مسئله منشی معمای مشهوری در حوزه تصمیم و احتمال همچنین بهینه‌سازی است. هدف از طرح این مسئله، پیدا کردن بهترین استراتژی در زمانی است که دنباله‌ای از انتخاب‌ها وجود داشته و باید از بین آن‌ها بهترین را انتخاب کنیم. این مسئله در اواخر دهه ۵۰ و ۶۰ میلادی ظاهر شد و تبدیل به یک بازی فکری برای ریاضیدانان و آمارشناسان گردید. به دلیل اهمیت این موضوع، همچنین ترکیب مسائل احتمال با بهینه کردن یک تابع، مسئله منشی و تصمیم بهینه را مبنای این متن از مجله فرادرس قرار داده‌ایم.

══ فهرست مطالب ══

‏ ○ مسئله منشی و تصمیم بهینه
‏ ○ خلاصه و جمع‌بندی


🔸 مسئله منشی و تصمیم بهینه

‏مسئله منشی مربوط به انتخاب یا تصمیم در شرایط بدون اطمینان یا تصادفی است. در نتیجه با احتمال و بخصوص احتمال شرطی در نظریه احتمال سروکار داریم. از طرفی براساس شرایط مسئله به دنبال بهترین تصمیم می‌گردیم. پس مسئله یک موضوع بهینه‌سازی نیز هست. فرمول‌بندی و ادغام شرط‌های مسئله باعث ایجاد یک الگو برای حل مسائلی از این نوع خواهد شد که به زبان ریاضی بیان شده و قابل حل هستند. ابتدا خود مسئله منشی و تصمیم بهینه را در موقعیت مشخص، ذکر کرده و شرط‌های مربوطه را بیان می‌کنیم.

‏فرض کنید که شما مدیر منابع انسانی یک شرکت هستید و باید از بین تعداد مشخصی از درخواست‌کنندگان موقعیت شغلی، بهترین منشی را استخدام کنید. این کار را می‌توانید به صورت انتخاب تصادفی از بین همه افرادی که مصاحبه شده‌اند انجام دهید. ولی در این صورت شاید بهترین فرد برای کار شما انتخاب نشود.

‏شرایط مسئله منشی و تصمیم بهینه نیز مقداری پیچیده است. برای مثال، تصمیم گیری در مورد قبول یا رد یک متقاضی خاص باید بلافاصله پس از مصاحبه انجام شود. اگر کسی قبل از پایان، پذیرفته نشده باشد، آخرین داوطلب انتخاب می‌شود. بنابراین سوال این است که از چه راهکاری برای به حداکثر رساندن شانس استخدام بهترین متقاضی لازم است؟


🔸 خلاصه و جمع‌بندی

‏در این نوشتار به یکی از مسائل جالب در حوزه بهینه‌سازی و احتمال به نام مسئله منشی و تصمیم بهینه پرداختیم. همانطور که دیدید، طرح یک مسئله بهینه‌سازی ریاضیاتی براساس احتمال شرطی ساخته و حل شد. جالب است که حاصل این بهینه‌سازی ما را به عکس عدد نپر ($$\frac{۱}{e}$$) سوق می‌دهد. در این بین مثال‌هایی از طرح‌ها و سناریوهای مختلف، برای روشن‌تر شدن موضوع نیز ارائه شد.

‏اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالب زیر نیز به شما پیشنهاد می‌شوند:

‏– مجموعه آموزش‌های الگوریتم‌‌های بهینه‌‌سازی هوشمند

‏– آموزش تئوری و عملی الگوریتم‌های ژنتیک

‏– مجموعه آموزش‌‌های هوش مصنوعی

‏– مجموعه آموزش‌‌های الگوریتم‌های ژنتیک و محاسبات تکاملی

‏– بهینه‌سازی چند هدفه چیست؟ — راهنمای جامع

‏– بهینه‌سازی نسبت طلایی — از صفر تا صد



مطالعه ادامه مطلب 👇👇

🔗 مسئله منشی و تصمیم بهینه | به زبان ساده — کلیک کنید (+)



📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آنالیز واریانس دو طرفه در اکسل — راهنمای کاربردی

‏تجزیه و تحلیل یا به اصطلاح «آنالیز واریانس» (Analysis of Variance) یک تکنیک آماری است که با استفاده از تجزیه واریانس به چند بخش، اثر تیمارها روی یک متغیر وابسته را تعیین می‌کند. در این بین تحلیل یا آنالیز واریانس دو طرفه به علت پیچیدگی محاسباتی کمتر به صورت دستی مورد بهره برداری قرار می‌گیرد. در این نوشتار از مجله فرادرس به بررسی آنالیز واریانس دو طرفه در اکسل پرداخته و شیوه اجرای آن را به کمک ابزار محاسبات آماری در اکسل (Analysis Toolpack) بازگو خواهیم کرد. البته در نوشتار قبلی از این سری، آنالیز واریانس یک طرفه در اکسل نیز معرفی شد.

══ فهرست مطالب ══

‏ ○ آنالیز واریانس دو طرفه در اکسل
‏ ○ معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab
‏ ○ خلاصه و جمع‌بندی


🔸 آنالیز واریانس دو طرفه در اکسل

‏از تکنیک «آنالیز واریانس دو طرفه» (two-way ANOVA) برای ارزیابی و نمایش تفاوت معنی‌دار بین دو نوع تیمار (با تعداد سطوح مختلف) استفاده می‌شود. گاهی به این تیمارها، عامل نیز گفته شده و در نتیجه ANOVA دو طرفه را، تحلیل واریانس دو عاملی (Two Factor ANOVA) نیز می‌نامند.

‏در این نوشتار، ما از طریق ANOVA دو طرفه و با استفاده از ابزارهای تحلیل آماری اکسل، یک مثال در این زمینه را مورد بررسی قرار داده و نتایج را تفسیر خواهیم کرد.

‏در این بین از بسته تحلیل یا محاسبات آماری اختصاصی اکسل بهره می‌بریم. حتی اگر به بسته آماری اکسل (Analysis ToolPak) نیز دسترسی ندارید، باز هم به کارگیری تحلیل واریانس دو طرفه در اکسل قابل اجرا است. کافی است الگوی محاسباتی که در این متن به آن اشاره می‌شود را به صورت فرمول در سلول‌ها درج کنید، هر چند به کارگیری بسته تحلیل اکسل کار را ساده‌تر و دقیق‌تر انجام می‌دهد.


🔸 معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab

‏یکی از کاربردهای تجزیه و تحلیل یا همان آنالیز واریانس در طراحی و تحلیل آزمایش‌ها (Experimental Design) است. فرادرس نیز در یکی از فیلم‌های آموزشی خود به این موضوع پرداخته است.

‏از آنجایی که بار محاسباتی زیادی برای طرح آزمایش‌ها و دریافت نتایج آن مورد احتیاج است، از نرم‌افزارهای محاسباتی یا بسته‌های آماری نظیر SPSS یا MINITAB برای انجام این کار استفاده می‌کنند. به همین دلیل در این بخش به معرفی فیلم آموزشی فرادرس با عنوان «طراحی و تحلیل آزمایش ها با SPSS و Minitab» پرداخته‌ایم.

‏این آموزش دارای ۱۲ درس بوده و فیلم آموزشی آن ۹ ساعت و ۳۹ دقیقه است. عنوان‌های اصلی آموزشی، در فهرست زیر شرح داده شده‌اند.



مطالعه ادامه مطلب 👇👇

🔗 آنالیز واریانس دو طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آزمون تی طبقه ای در SAS و R — راهنمای کابردی

‏آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه می‌دهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمون‌های دیگری به جای آزمون تی طبقه ای مورد استفاده قرار می‌گیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روش‌های جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.

══ فهرست مطالب ══

‏ ○ آزمون تی طبقه ای
‏ ○ پیش‌فرض‌های آزمون تی طبقه ای
‏ ○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
‏ ○ خلاصه و جمع‌بندی


🔸 آزمون تی طبقه ای

‏آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار می‌گیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت می‌گیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونه‌ها است.

‏اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونه‌ها براساس یک طرح نمونه‌گیری طبقه‌ای است. در این صورت نمونه‌ها مستقل از دو جامعه، طی یک «نمونه‌گیری طبقه‌ای» (Stratified) جمع‌آوری شده‌اند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدول‌های این توزیع مراجعه می‌شود.

‏از آنجایی که طرح نمونه‌گیری طبقه‌ای به کار رفته و ممکن است رابطه‌ای بین طبقه‌ها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance می‌دانند.


🔸 پیش‌فرض‌های آزمون تی طبقه ای

‏ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامه‌نویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید داده‌های مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آن‌ها اطمینان حاصل کنیم.

‏در روشهای آمار پارامتری فرض بر این است که داده‌ها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای داده‌ها، توزیع گاوسی یا نرمال در نظر گرفته می‌شود. ولی اگر توزیع این داده‌ها گاوسی یا نرمال نباشد، پیش‌فرض‌های مربوط به آزمون‌ها و تحلیل‌های آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روش‌های آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن داده‌ها مطلع شویم؟

‏خوشبختانه روش‌های زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که می‌توان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان می‌آید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روش‌های نرمالیتی و سنجش توزیع داده‌ها را بهتر درک کنید. البته در اینجا از معرفی این تکنیک‌ها صرف نظر کرده و خواننده را به لینک‌ها ارائه شده، ارجاع می‌دهیم.



مطالعه ادامه مطلب 👇👇

🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی

‏هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق می‌افتد که در هنگام جمع اوری داده‌ها دقت کافی صورت نگرفته باشد. در چنین مواردی می‌گوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج می‌برد. راه‌ کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آن‌ها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامه‌نویسی پایتون مورد تحلیل قرار می‌دهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتم‌ها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.

══ فهرست مطالب ══

‏ ○ مدیریت داده گمشده در داده کاوی با پایتون
‏ ○ خلاصه و جمع‌بندی


🔸 مدیریت داده گمشده در داده کاوی با پایتون

‏به روش‌های مختلفی می‌توان بر مشکل داده‌ها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آن‌ها لزوم توجه به داده‌های گمشده را به نوعی بیان می‌کند.

‏– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمی‌کند.

‏– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.

‏کتابخانه‌های پایتون داده‌های گمشده را به صورت عبارت nan نشان می‌دهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانه‌ها می‌توانید مشخص کنید که کدام سلول‌ها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:

‏اگر می‌خواهید با استفاده از داده‌ها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانه‌ها (از جمله scikit-learn) و تابع مدل‌سازی پیغامی مبنی بر وجود خطا ظاهر می‌سازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.


🔸 خلاصه و جمع‌بندی

‏در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی داده‌ها است، بررسی داده گمشده بسیار مهم جلوه می‌کند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونه‌های مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتم‌های متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیاده‌سازی شده‌اند. در این متن به بررسی این الگوریتم‌ها یا راه‌ کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.

‏اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالب زیر نیز به شما پیشنهاد می‌شوند:

‏– مجموعه آموزش‌های آمار و احتمالات

‏– آموزش داده کاوی و زبان برنامه نویسی R

‏– مجموعه آموزش‌های داده کاوی و یادگیری ماشین

‏– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب

‏– داده‌ گمشده یا ناموجود (Missing Data) در R – روش‌های پاکسازی داده‌ها

‏– داده‌‌های سانسور شده (Censored Data) در آمار — به زبان ساده



مطالعه ادامه مطلب 👇👇

🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)



📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ بوت استرپ در علم داده به زبان پایتون | راهنمای کاربردی

‏یکی از تکنیک‌های مهم و ناپارامتری برای برآورد خطای مدل‌ها و برآوردگرهای آماری، استفاده از نمونه‌گیری مجدد (بازنمونه‌گیری- Resampling) و محاسبه برآوردگر تحت نمونه‌های مختلف است. در این صورت واریانس یا انحراف معیار مقدار برآوردگرها حاصل از نمونه‌های مختلف، به عنوان خطای برآوردگر در نظر گرفته می‌شود. در حقیقت، چنین شیوه‌ای برای پیدا کردن خطای برآوردگر را «بوت استرپ» (Bootstrap) می‌نامند. از آنجایی که بوت استرپ در علم داده یک روش و تکنیک رایانه‌ای است، در این نوشتار به کمک زبان برنامه‌نویسی پایتون به پیاده سازی آن پرداخته‌ایم.

══ فهرست مطالب ══

‏ ○ بوت استرپ در علم داده به زبان پایتون
‏ ○ خلاصه و جمع‌بندی


🔸 بوت استرپ در علم داده به زبان پایتون

‏بوت استرپ در علم داده روشی قدرتمند و مبتنی بر رایانه برای استنباط آماری بدون تکیه بر فرضیه‌های زیاد است. این فقط جادویی است که از یک نمونه داده می‌توان یک توزیع نمونه برداری تولید کرد. برای استنباط آماری در بوت استرپ هیچ احتیاجی به اطلاع از توزیع آماری برآوردگرها نیست. به این ترتیب «بوت استرپ» (Bootstrap) برای ایجاد «فاصله اطمینان» (Confidence Interval)، «مدل رگرسیونی» (Regression Model)، حتی در زمینه «یادگیری ماشین» (Machine Learning) به طور گسترده‌ای به کار برده می‌شود.
در این متن ما در مورد دو موضوع وابسته به بوت استرپ در علم داده صحبت خواهیم کرد:

‏– ساخت فاصله اطمینان

‏– انجام آزمون فرض آماری

‏البته هر یک از این موارد را هم به کمک روش‌های صریح آماری و هم به کمک بوت استرپ انجام داده و نتایج حاصل را با هم مقایسه می‌کنیم. در این بین با توجه به گستردگی زبان پایتون در انجام روش‌های مطرح در علم داده، کدهایی نیز به این زبان برای اجرای محاسبات و عملیات مربوطه معرفی می‌کنیم.

‏در دنیای واقعی، به طور صریح در مورد جمعیت یا جامعه آماری و خصوصیات و ویژگی‌های متغیرهای آن اطلاعاتی نداریم. برای مثال جامعه آماری مورد بحث ما آن می‌تواند کل جمعیت کره زمین یا معاملات گذشته در بازار سهام و حتی، گردش مالی حال و آینده یک شرکت باشد. مشکل اصلی این است که با توجه به زیاد بودن اندازه جامعه آماری، مجبور به نمونه‌گیری هستیم تا برآورد مناسبی برای ویژگی‌های آماری جامعه در اختیار داشته باشیم.


🔸 خلاصه و جمع‌بندی

‏در این نوشتار با توجه به شیوه باز نمونه‌گیری بوت استرپ در علم داده به محاسبه فاصله اطمینان و آزمون آماری پرداختیم و براساس مثالی از داده‌ها، در زبان پایتون به پیاده‌سازی تکنیک بوت استرپ اقدام کردیم. همانطور که دیده شد، نتایج حاصل از برآوردگرهای بدست آمده از تکنیک بوت استرپ در علم داده با مقدارهای حاصل از روش‌های آماری تفاوت چندانی ندارند و به طور تقریبی زمانی که از توزیع آماره‌های مورد نظر اطلاعی نداریم، نتایج رضایت بخشی از بوت استرپ بدست می‌آید.

‏اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالب زیر نیز به شما پیشنهاد می‌شوند:

‏– مجموعه آموزش های SPSS

‏– آموزش آزمون آماری و پی مقدار (p-value)

‏– مجموعه آموزش‌های مینی تب | آموزش Minitab

‏– آموزش مقدماتی تحلیل داده ها با نرم افزار آماری Minitab

‏– فاصله اطمینان (Confidence Interval) — به زبان ساده

‏– بوت استرپ (Bootstrapping) در SPSS — راهنمای کاربردی

‏– روش‌ های نمونه‌گیری (Sampling) در آمار — به زبان ساده



مطالعه ادامه مطلب 👇👇

🔗 بوت استرپ در علم داده به زبان پایتون | راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی

‏در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آن‌ها برای ایجاد یک گردش کاری با بهره‌وری بالا و کار تیمی در حوزه علوم داده می‌پردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژه‌های یادگیری ماشین کرده‌اند. همچنین برای برخی دانشمندان علوم داده که می‌خواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پاره‌ای موارد مفید خواهد بود.

══ فهرست مطالب ══

‏ ○ گیت
‏ ○ پایتون
‏ ○ VSCode
‏ ○ Notion
‏ ○ Grammarly
‏ ○ سخن پایانی


🔸 گیت

‏در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیت‌هاب آشنا هستید. اگر فکر می‌کنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، می‌توانید از مطلب زیر استفاده کنید:

‏– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده

‏مؤثرترین روش برای تعامل با ریپازیتوری گیت‌هاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستم‌های مک) که یکپارچگی شگفت‌انگیزی با گیت ارائه می‌کند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی می‌کند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم می‌شود.

‏پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو می‌توانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدال‌ها (Badges) مانند تصویر زیر بر آن بیفزایید.


🔸 پایتون

‏در این بخش به توضیح روش نصب لوکال پکیج‌های پایتون با استفاده از pip و virtualenv می‌پردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، می‌توانید از دستور زیر بهره بگیرید:

‏دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب می‌کند. اگر از قبل نسخه‌ای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه می‌کند.

‏ابتدا ابزار مدیریت محیط را با دستور زیر نصب می‌کنیم:



مطالعه ادامه مطلب 👇👇

🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)



📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ برنامه نویسی پویا در علم داده | راهنمای کاربردی

‏در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثال‌هایی که درک آن‌ها آسان باشد شرح داده شده است.

══ فهرست مطالب ══

‏ ○ برنامه نویسی پویا در علم داده
‏ ○ برنامه نویسی پویا در علم داده چطور کار می‌کند؟
‏ ○ چرا برنامه نویسی پویا در علم داده دشوار است؟
‏ ○ مثالی از برنامه نویسی پویا در علم داده
‏ ○ کدنویسی و برنامه نویسی پویا در علم داده
‏ ○ جمع‌بندی


🔸 برنامه نویسی پویا در علم داده

‏الگوریتم‌ها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دوره‌های تحلیل و طراحی الگوریتم مناسبی را نمی‌گذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکت‌ها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسش‌هایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح می‌کنند. اکنون، پرسشی که افراد زیادی با آن مواجه می‌شوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در ساده‌ترین حالت می‌توان گفت، جوابی که فرد به این پرسش می‌دهد، می‌تواند به نوعی سطح دانش برنامه‌نویسی او را نشان دهد. بنابراین، توصیه می‌شود که علاقه‌مندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.


🔸 برنامه نویسی پویا در علم داده چطور کار می‌کند؟

‏فرض می‌شود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:

‏۱, ۱, ۲, ۳, ۵, ۸

‏برنامه محاسبه سری فیبوناچی در ادامه آمده است.



مطالعه ادامه مطلب 👇👇

🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آزمون Z در آمار — به زبان ساده

‏آزمون‌های آماری بسیار متنوع بوده و تحت شرایط مختلف باید نسبت به انتخاب هر یک اقدام کرد. این شرایط می‌تواند بسته به نوع داده یا توزیع آن‌ها تغییر کند. بنابراین شناخت هر آزمون و شرایط اجرای آن برای کسانی که به تحلیل داده و آزمون‌های آماری می‌پردازند، امری مهم محسوب می‌شود. در این نوشتار با آزمون Z در آمار آشنا شده و کاربردهای آن را با ذکر مثال‌هایی پی‌ می‌گیریم.

══ فهرست مطالب ══

‏ ○ آزمون Z در آمار
‏ ○ معرفی فیلم آموزشی آزمون آماری و پی مقدار (p-value)
‏ ○ خلاصه و جمع‌بندی


🔸 آزمون Z در آمار

‏اگر آماره مربوط به یک آزمون آماری، تحت فرض صفر، دارای توزیع نرمال (Normal Distribution) باشد، می‌توان از آزمون Z برای تصمیم نسبت به رد یا تایید فرضیه‌های آماری کمک گرفت.

‏آماره Z، در هر سطح معنی‌داری برای آزمون Z، برای پارامتر مرکزی توزیع، یک مقدار بحرانی دارد. همچنین برای ایجاد «فاصله اطمینان» (Confidence Interval) برای پارامتر مکان (مانند میانگین)، یک مقدار بحرانی در نحوه تشکیل فاصله اطمینان قابل استفاده است. برای مثال در سطح خطای ۵٪ برای آزمون دو طرفه، مقدار بحرانی Z برابر با ۱٫۹۶ است. در حالیکه مقدار بحرانی آزمون t وابسته به اندازه نمونه ($$n$$) بوده و با توجه به حجم نمونه یا در حقیقت همان «درجه آزادی» (Degree of Freedom)، مقدار بحرانی تعیین می‌شود. این موضوع یک مزیت برای آزمون Z نسبت به آزمون مشابه آن یعنی آزمون t محسوب می‌شود.

‏از طرفی با توجه به «قضیه حد مرکزی» (Central Limit Theorem)، بسیاری از توزیع‌ها، تحت شرایطی مشخص، به سمت توزیع نرمال میل می‌کنند. البته یکی از مهمترین شرط‌ها در قضیه حد مرکزی، بزرگ بودن حجم نمونه است. بنابراین بسیاری از آزمون‌های آماری یا در حقیقت توزیع آماره آزمون می‌توانند با توزیع نرمال یکسان در نظر گرفته شوند به شرطی که اندازه نمونه بزرگ و واریانس جامعه نیز معلوم باشد.


🔸 معرفی فیلم آموزشی آزمون آماری و پی مقدار (p-value)

‏یکی از مباحث مربوط به آزمون فرض و استنباط آماری، محاسبه پی مقدار یا همان «پی ولیو» (p-Value) است. در بیشتر نرم‌افزارهای آماری این مقدار را با نماد .Sig نشان می‌دهند. در این آموزش که توسط فرادرس و در مدت زمان ۴۰ دقیقه تهیه شده است، مدرس به نحوه محاسبه پی مقدار و چگونگی استفاده از آن می‌پردازد.

‏این آموزش شامل دو درس است. در درس اول به مفاهیم اولیه مرتبط با آزمون آماری پرداخته شده و در درس دوم نیز ناحیه بحرانی مورد بررسی قرار گرفته است. شیوه محاسبه پی مقدار و همچنین برداشت‌های غلط از آن در فصل دوم پی‌گیری می‌شود.

‏– None



مطالعه ادامه مطلب 👇👇

🔗 آزمون Z در آمار — به زبان ساده — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ منحنی ROC و کاربردهای آن — به زبان ساده

‏یکی از روش‌های بررسی و ارزیابی عملکرد دسته‌بندی دو دویی، «نمودار مشخصه عملکرد» (Receiver Operating Characteristic) یا به اختصار منحنی ROC است. کارایی الگوریتم‌های «دسته‌بندهای دو دویی» (‌Binary Classifier) معمولا توسط شاخص‌هایی به نام «حساسیت» (Sensitivity) یا «بازیابی» (Recall) سنجیده می‌شود. اما در نمودار ROC هر دوی این شاخص‌ها ترکیب شده و به صورت یک منحنی نمایش داده می‌شوند. اغلب برای بررسی کارایی الگوریتم‌های دسته‌بندی یا ایجاد داده‌های رسته‌ای از منحنی ROC استفاده می‌کنند. این موضوع در شاخه یادگیری ماشین با نظارت (Supervised Machine Learning)، بیشتر مورد توجه قرار گرفته است. به همین دلیل این نوشتار از مجله فرادرس را به بررسی منحنی ROC و کاربردهای آن اختصاص داده‌ایم. ابتدا تاریخچه‌ای از پدید آمدن منحنی ROC خواهیم گفت و در ادامه، این منحنی را معرفی و نحوه ترسیم آن را بیان خواهیم کرد. همینطور در این متن، به شاخص‌های مرتبط با منحنی ROC نیز می‌پردازیم.

══ فهرست مطالب ══

‏ ○ منحنی ROC و کاربردهای آن
‏ ○ منحنی ROC و کاربردهای آن در فراتر از دسته‌بندی دو دویی
‏ ○ خلاصه و جمع‌بندی


🔸 منحنی ROC و کاربردهای آن

‏شاید بتوان تحلیل سیگنال‌های رادار در جنگ جهانی دوم را اولین زمان ظهور منحنی ROC و کاربردهای آن دانست. البته بعدها از چنین منحنی در «نظریه شناسایی سیگنال» (Signal Detection Theory) نیز استفاده شد. پس از جنگ در «پرل هاربر» (Pearl Harber) در سال ۱۹۴۱، که نیروهایی آمریکایی به شدت آسیب دیدند، ارتش آمریکا تصمیم گرفت سیگنال‌های راداری (Radar Signal) به منظور کشف و شناسایی هواپیماهای ژاپنی را بهبود دهد. برای این کار، آن‌ها توانایی یک گیرنده رادار را در تشخیص هواپیما اندازه‌گیری کردند و از آن پس واژه «مشخصه عملکرد گیرنده» (Receiver Operating Characteristic) برای ارزیابی عملکرد دستگاه‌های تشخیص سیگنال، مورد استفاده قرار گرفت.

‏در دهه ۱۹۵۰، منحنی‌های ROC در روانشناسی نیز به کار گرفته شدند تا ضعف در قوه تشخیص انسان‌ها (و گاهی حیوان) را مورد بررسی و ارزیابی قرار دهند. در پزشکی، تجزیه و تحلیل ROC به طور گسترده‌ای در سنجش صحت آزمایش‌های تشخیص پزشکی و تعیین میزان دقت چنین آزمایشاتی، مورد استفاده قرار گرفته است.

‏منحنی‌های ROC همچنین در اپیدمیولوژی و تحقیقات پزشکی بسیار مورد استفاده قرار می‌گیرند. در رادیولوژی، تجزیه و تحلیل ROC یک روش معمول برای ارزیابی تکنیک‌های جدید رادیولوژی است. همچنین در علوم اجتماعی، آنالیز منحنی ROC اغلب به عنوان «نسبت دقت مشخصه عملکرد» (ROC Accuracy Ratio)، یاد شده و یک تکنیک معمول برای قضاوت در مورد مدل‌های احتمال پیش‌بین (Predictive Probability Model) است.


🔸 منحنی ROC و کاربردهای آن در فراتر از دسته‌بندی دو دویی

‏با توجه به موفقیت منحنی‌های ROC برای ارزیابی مدل‌های طبقه‌بندی، گسترش کاربرد آن‌ها برای سایر عملکردهای یادگیری نظارت شده نیز مورد بررسی قرار گرفته است. پیشنهادهای قابل توجه برای مسئله رگرسیون و به کارگیری منحنی ROC، عبارتند از:

‏– «منحنی مشخصه عملکرد خطای رگرسیون» (regression error characteristic) که اختصارا با حروف REC نشان داده می‌شود.

‏– «منحنی مشخصه عملکرد رگرسیون» (Regression ROC) که بطور خلاصه آن را به شکل PROC معرفی می‌کنند.

‏در حالت دوم، منحنی‌های RROC با توجه به عدم تقارن و بدنه محدب، بسیار شبیه به منحنی‌های ROC برای طبقه‌بندی هستند. همچنین منطقه زیر منحنی‌های RROC متناسب با واریانس خطای مدل رگرسیون است.

‏نکته: گاهی در منحنی ROC به سطح زیر نمودار توجه می‌شود که به آن AUC یا (Area Under Curve) گفته می‌شود. برای کسب اطلاعات بیشتر در این زمینه بهتر است نوشتار پیش بینی ریزش مشتریان با داده کاوی و R — راهنمای جامع را مطالعه کنید.



مطالعه ادامه مطلب 👇👇

🔗 منحنی ROC و کاربردهای آن — به زبان ساده — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ داده کاوی (Data Mining) — از صفر تا صد

‏در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیت‌های گردآوری و ذخیره‌سازی آن در دامنه‌های گوناگون بوده است. در جهان کسب‌و‌کار، «پایگاه‌داده‌های» (Databases) بسیار بزرگی برای تراکنش‌های تجاری وجود دارند که توسط خرده‌فروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شده‌اند. از سوی دیگر، همه روزه حجم عظیمی از داده‌های علمی در زمینه‌های گوناگون تولید می‌شوند.

══ فهرست مطالب ══

‏ ○ داده کاوی چیست؟
‏ ○ تاریخچه داده‌کاوی
‏ ○ چرا داده‌کاوی؟
‏ ○ انواع منابع داده
‏ ○ فرایند داده‌کاوی
‏ ○ مشکلات داده‌کاوی
‏ ○ اصطلاح‌شناسی
‏ ○
‏ ○ ماهیت مساله داده‌کاوی
‏ ○ مزایا و معایب داده‌کاوی
‏ ○ کاربردهای داده‌کاوی


🔸 داده کاوی چیست؟

‏به مجموعه‌ای از روش‌های قابل اعمال بر پایگاه داده‌های بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان داده‌ها، داده‌کاوی گفته می‌شود. روش‌های داده‌کاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میان‌رشته‌ای داده‌کاوی، پیرامون ابزارها، متدولوژی‌ها و تئوری‌هایی است که برای آشکارسازی الگوهای موجود در داده‌ها مورد استفاده قرار می‌گیرند و گامی اساسی در راستای کشف دانش محسوب می‌شود. دلایل گوناگونی پیرامون چرایی مبدل شدن داده‌کاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شده‌اند.

‏۱. رشد انفجاری داده‌ها در گستره وسیعی از زمینه‌ها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی می‌شود:

‏– دستگاه‌های ذخیره‌سازی نسبت به گذشته ارزان‌تر و با ظرفیت نامحدود، مانند فضاهای ذخیره‌سازی ابری

‏– ارتباطات سریع‌تر با سرعت اتصال بیشتر

‏– سیستم‌های مدیریت پایگاه داده و پشتیبانی نرم‌افزاری بهتر

‏۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش


🔸 تاریخچه داده‌کاوی

‏در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیت‌های «تحلیل داده» (Data Analytics) استفاده می‌کردند. اصطلاح «داده‌کاوی» در حدود سال ۱۹۹۰ در جامعه پایگاه‌داده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسب‌تر برای فرآیند داده‌کاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.

‏در حال حاضر، یادگیری آماری، «تحلیل داده» و «علم داده» (Data Science) از دیگر عباراتی هستند که با معنای مشابه داده‌کاوی مورد استفاده قرار می‌گیرند، حال آنکه گاه تفاوت‌های ظریفی میان این موارد وجود دارد. برای آشنایی با این تفاوت‌ها، مطالعه مطلب «علم داده، تحلیل داده، داده‌کاوی و یادگیری ماشین ــ تفاوت‌ها و شباهت‌ها» توصیه می‌شود. همچنین، برای مطالعه همراه با جزئیات بیشتر پیرامون تاریخچه داده‌کاوی، مطلب «داده‌کاوی چیست؟ بخش اول: مبانی» پیشنهاد می‌شود.

‏از روش‌های داده‌کاوی در فرآیند طویل پژوهش و توسعه محصول استفاده می‌شود. از همین رو، تکامل داده‌کاوی نیز از هنگامی آغاز شد که داده‌های کسب‌و‌کارها روی کامپیوترها ذخیره شدند. داده‌کاوی به کاربران امکان حرکت در میان داده‌ها را در زمان واقعی می‌دهد. از داده‌کاوی در جامعه کسب‌و‌کار بدین دلیل استفاده می‌شود که از سه فناوری بلوغ یافته استفاده می‌کند، این فناوری‌ها عبارتند از:



مطالعه ادامه مطلب 👇👇

🔗 داده کاوی (Data Mining) — از صفر تا صد — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس



✳️ علم داده، تحلیل داده، داده‌کاوی و یادگیری ماشین ــ تفاوت‌ها و شباهت‌ها

‏«علم داده» (data science)، «تحلیل داده‌ها» (Data analytics)، «یادگیری ماشین» (machine learning) و «داده‌کاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از این‌رو شرکت‌ها به‌دنبال کارشناسانی می‌گردند که با کیمیاگری داده‌ها به آن‌ها در اتخاذ تصمیم‌های چابک، اثرگذار و کارا در کسب‌و‌کار کمک کنند.

══ فهرست مطالب ══

‏ ○ علم داده چیست؟
‏ ○ چه مهارت‌هایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
‏ ○ تحلیل‌گر داده کیست؟
‏ ○ چه مهارت‌هایی برای مبدل شدن به یک تحلیل‌گر داده مورد نیاز است؟
‏ ○ آیا بین علم داده و تحلیل داده هم‌پوشانی وجود دارد؟
‏ ○ یادگیری ماشین چیست؟
‏ ○ چه مهارت‌هایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
‏ ○ آیا بین یادگیری ماشین و علم داده هم‌پوشانی وجود دارد؟
‏ ○ داده‌کاوی چیست؟
‏ ○ چه مهارت‌هایی برای تبدیل شدن به یک داده‌کاو مورد نیاز است؟
‏ ○ آیا همپوشانی بین داده‌کاوی و علم داده وجود دارد؟


🔸 علم داده چیست؟

‏افراد زیادی برای بیش از یک دهه تلاش کرده‌اند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است. این نمودار توسط «هوق کانوی» (Hugh Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنه‌ای که محاسبات و خلاصه‌سازی در آن انجام می‌شود) و مهارت‌های هک می‌شود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.

‏علم داده مفهومی است که برای کار با داده‌های کلان (مِه‌داده) به کار می‌رود و شامل پاکسازی، آماده‌سازی و تحلیل داده می‌شود. یک دانشمند داده، داده‌ها را از چندین منبع گردآوردی کرده و تحلیل‌های پیش‌بین و یادگیری ماشین را بر آن‌ها اعمال می‌کند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه داده‌های گردآوری شده بهره می‌برد. این دانشمندان، داده‌ها را از نقطه نظر کسب‌و‌کار درک می‌کنند و قادر به فراهم کردن پیش‌بینی‌ها و بینش‌های صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسب‌وکار قابل استفاده است.


🔸 چه مهارت‌هایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟

‏هر کسی که به ساخت موقعیت شغلی قدرتمند‌تر در این دامنه علاقمند است، باید مهارت‌های کلیدی در سه حوزه تحلیل، برنامه‌نویسی و دانش دامنه را کسب کند. با نگاهی عمیق‌تر، می‌توان گفت مهارت‌های بیان شده در زیر می‌تواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.

‏– دانش قوی از پایتون، R، اسکالا و SAS

‏– مهارت داشتن در نوشتن کدهای پایگاه داده SQL

‏– توانایی کار با داده‌های ساختار نیافته از منابع گوناگون مانند ویدئو و شبکه‌های اجتماعی

‏– درک توابع تحلیل چندگانه

‏– دانش یادگیری ماشین



مطالعه ادامه مطلب 👇👇

🔗 علم داده، تحلیل داده، داده‌کاوی و یادگیری ماشین ــ تفاوت‌ها و شباهت‌ها — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ داده‌کاوی چیست؟ بخش اول: مبانی

‏داده‌کاوی یک زمینه علمی دارای رشد سریع است که با عنوان کشف دانش از داده (Knowledge Discovery From Data | KDD) نیز شناخته می‌شود. در این مطلب به دلایل استفاده از داده‌کاوی و تعاریف آن (با توجه به فرآیند انجام داده‌کاوی) پرداخته می‌شود. هدف از این نوشتار، ارائه یک نمای کل‌نگر از داده‌کاوی به مخاطبان است.

══ فهرست مطالب ══

‏ ○ چرا داده‌کاوی
‏ ○ پیش‌روی در عصر اطلاعات
‏ ○ داده‌کاوی، نتیجه تکامل فناوری اطلاعات
‏ ○ داده‌کاوی چیست؟


🔸 چرا داده‌کاوی

‏«پلاتو»

‏بشر در جهانی زندگی می‌کند که هر روز حجم انبوهی از داده‌ها در آن تولید می‌شوند. تحلیل چنین داده‌هایی یک نیاز مهم است. در ادامه به این مبحث پرداخته می‌شود که داده‌کاوی چگونه می‌تواند ابزارهای لازم برای کشف دانش از داده را فراهم کند. پس از مطالعه این مطلب به سادگی می‌توان پی برد که داده‌کاوی نتیجه تکامل طبیعی فناوری اطلاعات است.


🔸 پیش‌روی در عصر اطلاعات

‏«بشر در عصر اطلاعات زندگی می‌کند»، یک گفتار معروف است. اما حقیقت این است که بشر در عصر داده‌ها زندگی می‌کند. همه روزه چندین ترابایت یا پتابایت داده در شبکه‌های کامپیوتری، دستگاه‌های ذخیره‌سازی گوناگون، کسب‌و‌کارها، جامعه‌شناسی، علوم و مهندسی، بهداشت و درمان و دیگر جنبه‌های زندگی بشر جریان داشته و ذخیره‌سازی می‌شوند.

‏این رشد انفجاری حجم داده‌های موجود، نتیجه کامپیوتری شدن جوامع و توسعه سریع ابزارهای قدرتمند ذخیره‌سازی و گردآوری داده است. کسب‌و‌کارها در سراسر جهان مجموعه داده‌های عظیمی را تولید می‌کنند که شامل تراکنش‌های فروش، داده‌های بازاریابی، توضیحات محصول‌ها، آگهی‌های تبلیغاتی، سوابق و گزارش‌های شرکت‌ها و بازخوردهای مشتریان می‌شود.

‏برای مثال فروشگاه‌های بزرگی مانند وال‌مارت (Walmart) چند صد میلیون تراکنش را در هزاران شعبه خود در سراسر جهان مدیریت می‌کنند. فعالیت‌های علمی و مهندس نیز حجم زیادی از داده‌ها را به صورت مستمر با استفاده از حسگرهای دوربرد، اندازه‌گیری فرآیندها، تجربیات علمی، کارایی سیستم‌ها، مشاهدات مهندسی و نظارت‌های زیست محیطی فراهم می‌کنند. شبکه‌هایی که ستون فقرات ارتباطات جهانی هستند، ده‌ها پتابایت ترافیک داده را همه روزه حمل می‌کنند. در صنعت بهداشت و درمان، حجم عظیمی متشکل از داده‌ها از اسناد، داده‌های حاصل از نظارت بر بیماران و تصویربرداری‌های پزشکی تولید می‌شود.



مطالعه ادامه مطلب 👇👇

🔗 داده‌کاوی چیست؟ بخش اول: مبانی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده

‏در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب می‌شوند و یادگیری آن‌ها از الزامات یادگیری داده‌کاوی است. هدف از این نوشته پرداختن به هر یک از این مفاهیم همراه با جزئیات نیست، بلکه یک دید کلی از آن‌ها به منظور آماده‌سازی ذهن مخاطب ارائه خواهد شد و برای مطالعه همراه با جزئیات هر مبحث، لینک‌هایی در متن و انتهای این نوشته قرار گرفته است.

══ فهرست مطالب ══

‏ ○ مفاهیم مقدماتی
‏ ○ انواع ویژگی
‏ ○ جبر خطی و آمار
‏ ○ روش‌های داده‌کاوی
‏ ○ ارزیابی مدل
‏ ○ سایر مفاهیم
‏ ○ نتیجه‌گیری


🔸 مفاهیم مقدماتی

‏در ادامه برخی مفاهیم مقدماتی داده‌کاوی و علم داده مورد بررسی قرار می‌گیرند.

‏«نویز» (Noise | نوفه) از یک سو، در تعریف به نمادها و سمبل‌ها و یا داده‌های ایجاد شده به صورت تصادفی که فاقد معنای خاصی هستند گفته می‌شود. بر همین اساس، گاهی داده‌هایی که دارای خطا هستند نویزی (دارای نویز) نامیده می‌شوند. از جمله این داده‌ها می‌توان به «مقادیر ناموجود» (Missing Values) و مقادیر غلط (مانند عدد ۲۰۰۰ برای وزن یک انسان) اشاره کرد. از سوی دیگر، تفاوت بین یک مدل و پیش‌بینی‌های آن را نویز گویند.

‏«داده»ها (Data) نمادها و سمبل‌های خامی هستند که به تنهایی فاقد معنای کامل هستند. از جمله داده‌ها می‌توان به تراکنش‌ها، اعداد، متن، تصاویر و ویدئوها اشاره کرد.


🔸 انواع ویژگی

‏یک مجموعه داده از نمونه‌ها و ویژگی‌ها (خصیصه‌ها) تشکیل می‌شود. یک ویژگی، فیلد داده‌ای است که مشخصه‌های یک شی داده را ارائه می‌کند. واژگان بُعد و متغیر معمولا در ادبیات این حوزه با معنای مشابه به کار می‌روند. اصطلاح بُعد به طور معمول توسط کارشناسان انبار داده مورد استفاده قرار می‌گیرد. نوع یک ویژگی توسط مجموعه‌ای از مقادیر ممکن تعیین می‌شود. این انواع شامل «اسمی» (nominal) که به آن «دسته‌ای» (categorical) نیز گفته می‌شود، «دودویی» (binary) و «عددی» (numeric) می‌شوند.

‏«داده‌های پیوسته» (Continuous) می‌توانند هر مقداری را در یک بازه از اعداد حقیقی بپذیرند. این مقدار الزاما نباید صحیح باشد. داده‌های پیوسته متفاوت و به نوعی متضاد داده‌های گسسته (Discrete) یا دسته‌ای هستند.

‏یک قلم داده که دارای مجموعه متناهی از مقادیر است را «گسسته» گویند. گسسته در اینجا متضاد «پیوسته» است.



مطالعه ادامه مطلب 👇👇

🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ کدام زبان برای داده کاوی بهتر است، پایتون یا R؟

‏«علم داده» (Data Science) از جمله مباحث جذاب و داغ روز است که توجه پژوهشگران، سازمان‌ها و صنایع گوناگون را به خود جلب کرده است. این مبحث، منجر به شکل‌گیری مشاغل گوناگونی نیز شده است؛ اغلب مشاغل حوزه علم داده، پردرآمد و جذاب هستند. افرادی که علاقه‌مند به اشتغال در حوزه علم داده هستند و با مجموعه مهارت‌های لازم برای این حوزه آشنایی دارند، می‌دانند که زبان‌های برنامه‌نویسی «پایتون» (Python) و «آر» (R) دو مورد از محبوب‌ترین و توانمندترین زبان‌ها برای تحلیل داده محسوب می‌شوند. افرادی که اطمینان ندارند ابتدا کدام یک از این دو زبان را بیاموزند، می‌توانند با مطالعه این مطلب به تردید خود پایان دهند و پس از انتخاب زبان، کار یادگیری را آغاز کنند. هنگامی که صحبت از تحلیل داده می‌شود، زبان‌های پایتون و R به عنوان دو زبان آزاد و رایگان که نصب و فراگیری آن‌ها ساده است، مطرح می‌شوند. برای افراد تازه‌ وارد به دنیای علم داده که فاقد تجربه برنامه‌نویسی در این دو زبان یا به طور کلی زبان‌های برنامه‌نویسی هستند، طبیعی است که در ابتدای راه مردد باشند که ابتدا پایتون را بیاموزند یا R. خوشبختانه، فرد هر کدام از این زبان‌ها را که اول بیاموزد، ضرر نکرده و توانسته مهارت مفیدی در حوزه علم داده به دست بیاورد. در ادامه، ابتدا به چرایی انتخاب زبان R، سپس پایتون و در نهایت با پاسخ دادن به پرسش «زبان پایتون یا R»، به چگونگی انتخاب از میان این دو پرداخته می‌شود.

══ فهرست مطالب ══

‏ ○ چرا R؟
‏ ○ چرا پایتون؟
‏ ○ زبان پایتون یا R


🔸 چرا R؟

‏R از جمله زبان‌های قدیمی و قابل اعتماد به شمار می‌آید که دارای یک جامعه کاربری قدرتمند در حوزه علم داده است. جامعه کاربری R، پشتیبانی مستحکمی را پیرامون این زبان ارائه می‌کنند. این یعنی می‌توان به دریافت پشتیبانی آنلاین از دیگر افراد فعال در زمینه زبان برنامه‌نویسی R امیدوارم بود و در واقع، در صورتی که فرد نیاز به راهنمایی داشته باشد، می‌تواند به جامعه کاربری بزرگ R اعتماد کند.

‏در عین حال، میزان زیاد و در واقع، بیش از ۵,۰۰۰ «بسته» (Package) آماده برای این زبان وجود دارد که می‌توان آن‌ها را دانلود و همراه با R استفاده کرد تا توانایی‌های این زبان برای انجام وظایف گوناگون و جدید، توسعه پیدا کند. این امر موجب می‌شود زبان R گزینه مناسبی برای انجام تحلیل‌های داده اکتشافی باشد. همچنین، R به خوبی با دیگر زبان‌های محاسباتی مانند «سی‌پلاس‌پلاس» (++C)، «جاوا» (Java) و «سی» (C) یکپارچه می‌شود. هنگامی که نیاز به انجام تحلیل‌های آماری سنگین یا رسم نمودار باشد، R یک گزینه قابل توجه است. عملیات ریاضی متداول مانند ضرب ماتریس‌ها، در زبان R به خوبی و سادگی قابل انجام است و «نحو» (Syntax) آرایه محور این زبان، آن را به گزینه‌ای مناسب برای ترجمه ریاضیات به کد به ویژه برای افراد فاقد پیش‌زمینه برنامه‌نویسی مبدل کرده است.


🔸 چرا پایتون؟

‏پایتون یک زبان برنامه‌نویسی همه منظوره است که می‌تواند تقریبا هر کاری که کاربر نیاز داشته باشد را انجام دهد. از جمله این کارها می‌توان به «پیش‌پردازش داده‌ها» (Data Preprocessing)، «مهندسی داده‌ها» (Data Engineering)، «وب اسکرپینگ» (Website Scraping)، ساخت «اپلیکیشن وب» (Web App) و دیگر موارد اشاره کرد. برای افرادی که دانش پیشین در حوزه «برنامه‌نویسی شی‌گرا» (Object-Oriented Programming) دارند، تسلط بر پایتون ساده‌تر از فراگیری R است.

‏علاوه بر آن، به دلیل آنکه پایتون یک زبان برنامه‌نویسی شی‌گرا است، نوشتن کدهای بزرگ مقیاس، قابل نگهداری و مستحکم در پایتون، نسبت به R ساده‌تر است. با بهره‌گیری از زبان برنامه‌نویسی پایتون، کاربر می‌تواند کد نمونه اولیه‌ای که برای خود و روی کامپیوتر شخصی‌اش نوشته است را به عنوان کد محصول، مورد استفاده قرار دهد. اگرچه پایتون مانند زبان R دارای بسته‌های جامعی برای انجام تحلیل‌های آماری نیست، اما وجود کتابخانه‌ها و ابزارهایی مانند «پانداس» (Pandas)، «نام‌پای» (NumPy)، «سای‌پای» (Scipy)، «سایکیت‌لرن» (Scikit-Learn) و «سیبورن» (Seaborn) موجب شده تا زبان پایتون به گزینه‌ای فوق‌العاده برای «تحلیل داده» (Data Analytics)، «هوش مصنوعی» (Artificial Intelligence) و «یادگیری ماشین» (Machine Learning) مبدل شود. این زبان کم کم در حال مبدل شدن به گزینه‌ای بی‌نظیر برای یادگیری ماشین و انجام وظایف آماری ابتدایی و متوسط (قبلا در دامنه وظایف زبان R بود) است.



مطالعه ادامه مطلب 👇

🔗 کدام زبان برای داده کاوی بهتر است، پایتون یا R؟ — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آزمون تی طبقه ای در SAS و R — راهنمای کابردی

‏آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه می‌دهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمون‌های دیگری به جای آزمون تی طبقه ای مورد استفاده قرار می‌گیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روش‌های جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.

══ فهرست مطالب ══

‏ ○ آزمون تی طبقه ای
‏ ○ پیش‌فرض‌های آزمون تی طبقه ای
‏ ○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
‏ ○ خلاصه و جمع‌بندی


🔸 آزمون تی طبقه ای

‏آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار می‌گیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت می‌گیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونه‌ها است.

‏اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونه‌ها براساس یک طرح نمونه‌گیری طبقه‌ای است. در این صورت نمونه‌ها مستقل از دو جامعه، طی یک «نمونه‌گیری طبقه‌ای» (Stratified) جمع‌آوری شده‌اند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدول‌های این توزیع مراجعه می‌شود.

‏از آنجایی که طرح نمونه‌گیری طبقه‌ای به کار رفته و ممکن است رابطه‌ای بین طبقه‌ها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance می‌دانند.


🔸 پیش‌فرض‌های آزمون تی طبقه ای

‏ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامه‌نویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید داده‌های مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آن‌ها اطمینان حاصل کنیم.

‏در روشهای آمار پارامتری فرض بر این است که داده‌ها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای داده‌ها، توزیع گاوسی یا نرمال در نظر گرفته می‌شود. ولی اگر توزیع این داده‌ها گاوسی یا نرمال نباشد، پیش‌فرض‌های مربوط به آزمون‌ها و تحلیل‌های آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روش‌های آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن داده‌ها مطلع شویم؟

‏خوشبختانه روش‌های زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که می‌توان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان می‌آید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روش‌های نرمالیتی و سنجش توزیع داده‌ها را بهتر درک کنید. البته در اینجا از معرفی این تکنیک‌ها صرف نظر کرده و خواننده را به لینک‌ها ارائه شده، ارجاع می‌دهیم.



مطالعه ادامه مطلب 👇👇

🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی

‏هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق می‌افتد که در هنگام جمع اوری داده‌ها دقت کافی صورت نگرفته باشد. در چنین مواردی می‌گوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج می‌برد. راه‌ کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آن‌ها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامه‌نویسی پایتون مورد تحلیل قرار می‌دهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتم‌ها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.

══ فهرست مطالب ══

‏ ○ مدیریت داده گمشده در داده کاوی با پایتون
‏ ○ خلاصه و جمع‌بندی


🔸 مدیریت داده گمشده در داده کاوی با پایتون

‏به روش‌های مختلفی می‌توان بر مشکل داده‌ها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آن‌ها لزوم توجه به داده‌های گمشده را به نوعی بیان می‌کند.

‏– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمی‌کند.

‏– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.

‏کتابخانه‌های پایتون داده‌های گمشده را به صورت عبارت nan نشان می‌دهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانه‌ها می‌توانید مشخص کنید که کدام سلول‌ها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:

‏اگر می‌خواهید با استفاده از داده‌ها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانه‌ها (از جمله scikit-learn) و تابع مدل‌سازی پیغامی مبنی بر وجود خطا ظاهر می‌سازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.


🔸 خلاصه و جمع‌بندی

‏در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی داده‌ها است، بررسی داده گمشده بسیار مهم جلوه می‌کند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونه‌های مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتم‌های متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیاده‌سازی شده‌اند. در این متن به بررسی این الگوریتم‌ها یا راه‌ کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.

‏اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالب زیر نیز به شما پیشنهاد می‌شوند:

‏– مجموعه آموزش‌های آمار و احتمالات

‏– آموزش داده کاوی و زبان برنامه نویسی R

‏– مجموعه آموزش‌های داده کاوی و یادگیری ماشین

‏– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب

‏– داده‌ گمشده یا ناموجود (Missing Data) در R – روش‌های پاکسازی داده‌ها

‏– داده‌‌های سانسور شده (Censored Data) در آمار — به زبان ساده



مطالعه ادامه مطلب 👇👇

🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی

‏آزمون واریانس یک طرفه (One-way ANOVA) یکی از محبوب‌ترین آزمون‌های آماری است که به مقایسه و بررسی میانگین بین سه یا چند جامعه می‌پردازد. البته برای استفاده از این آزمون یا تحلیل، شرایطی نیز وجود دارد که قبل از اجرای آن باید مورد بررسی قرار گیرند. در این نوشتار از مجله فرادرس به نحوه انجام آنالیز واریانس یک طرفه در اکسل خواهیم پرداخت و با ذکر مثالی، خروجی‌های حاصل در اکسل را مشاهده و نتیجه آزمون را مشخص خواهیم کرد.

══ فهرست مطالب ══

‏ ○ آنالیز واریانس یک طرفه در اکسل
‏ ○ فیلم آموزش محاسبات آماری با اکسل
‏ ○ خلاصه و جمع‌بندی


🔸 آنالیز واریانس یک طرفه در اکسل

‏از مطالب دیگر مجله فرادرس در زمینه تحلیل یا آنالیز واریانس، فرا گرفتید که جدول تحلیل واریانس برای مقایسه میانگین در بین سه گروه یا بیشتر مورد استفاده قرار می‌گیرد. فرض کنید سه جامعه مستقل از یکدیگر (دانش آموزان مقطع پیش‌دبستان، دبستان و دبیرستان) دارید که برایشان یک ویژگی (مثلا وزن) را اندازه‌گیری کرده‌اید. به کمک تحلیل واریانس می‌توانیم نشان دهیم که وزن این سه گروه، با یکدیگر اختلاف داشته و این تفاوت‌ها، از لحاظ آماری نیز معنی‌دار است. البته توجه داشته باشید که ممکن است توسط تحلیل واریانس به این نتیجه برسیم که هر سه گروه یکسان هستند و میانگین در بین این سه جامعه تفاوت یا اختلاف آماری ندارند.

‏نکته: منظور از اختلاف آماری، با اختلاف ریاضی متفاوت است. از آنجایی که با استفاده از نمونه آماری دست به استنباط زده‌ایم، ممکن است اختلاف در میانگین نمونه‌ها ناشی از خطای نمونه‌گیری بوده و واقعا جوامع با هم تفاوت نداشته باشند. این مفهوم نشانگر عدم اختلاف آماری بین میانگین جوامع است در حالیکه از لحاظ ریاضی میانگین نمونه‌ها، با یکدیگر متفاوت هستند.

‏به این ترتیب، آنالیز واریانس یک تکنیک برای اجرای آزمون فرض آماری محسوب می‌شود که اجازه انجام آزمون همزمان روی میانگین برای بیش از سه جامعه یا گروه را به محقق یا تحلیل‌گر آماری، می‌دهد. توجه دارید که در آزمون فرض آماری، ابتدا نمونه‌هایی جمع آوری شده، سپس براساس مقادیر آن‌ها در سه گروه مختلف، می‌توانیم نسبت به رد یا تایید فرضیه آماری تصمیم بگیریم. فرضیه‌های آماری احکامی هستند که برای جامعه آماری صادر می‌شود. به این معنی که به واسطه مقادیر جمع‌آوری شده از نمونه و به کارگیری محاسبات و قوانین مربوط به آزمون فرض، در مورد جامعه آماری به یک نتیجه‌گیری می‌رسیم.


🔸 فیلم آموزش محاسبات آماری با اکسل

‏اغلب کسانی که در سطح ابتدایی یا متوسط به کار تحلیل داده یا محاسبات آماری می‌پردازند، از اکسل به عنوان ابزار محاسباتی بهره می‌برند. خوشبختانه در یکی از آموزش‌های فرادرس به معرفی قابلیت‌های این نرم‌افزار در انجام تحلیل‌های آماری و اجرای فرمول‌های آماری پرداخته شده است. از آنجایی که ممکن است پیاده‌سازی فرمول‌های آماری در اکسل برای کاربران مبتدی سخت باشد، افزونه‌ای برای انجام این گونه تحلیل‌ها در اکسل تعبیه شده که در فیلم آموزش محاسبات آماری در اکسل نیز به آن اشاره شده است. بعضی از مواردی که در این آموزش در مورد آن بحث و بررسی صورت گرفته در ادامه شرح داده شده‌اند:

‏– درس اول: شیوه بدست آوردن شاخص‌های توصیفی (Denoscriptive Statistics) که نمایی کلی از جامعه و ویژگی‌های آن در اختیار کاربر قرار می‌دهد، از موارد اولیه درس اول محسوب می‌شود. همچنین تشکیل فاصله اطمینان (Confidence Interval) برای میانگین، رسم نمودار هیستوگرام (Histogram)، آزمون فرض مربوط به میانگین جامعه نرمال، آزمون و تجزیه و تحلیل واریانس یک طرفه و دوطرفه، همچنین رگرسیون خطی (Linear regression) و ایجاد اعداد تصادفی (random number generation) از دیگر مواردی است که در درس اول به آن‌ها پرداخته می‌شود.

‏– درس دوم: توابع توزیع آماری (distribution function) و معادله خط برگشت (Regression) محاسباتی شامل توابع شاخص‌های تمرکز، شاخص‌های پراکندگی، شاخص‌های تقارن و عدم تقارن، ضرایب همبستگی و کوواریانس، معکوس توابع توزیع آماری و رگرسیون و خط بازگشت است.



مطالعه ادامه مطلب 👇👇

🔗 آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی

‏در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آن‌ها برای ایجاد یک گردش کاری با بهره‌وری بالا و کار تیمی در حوزه علوم داده می‌پردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژه‌های یادگیری ماشین کرده‌اند. همچنین برای برخی دانشمندان علوم داده که می‌خواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پاره‌ای موارد مفید خواهد بود.

══ فهرست مطالب ══

‏ ○ گیت
‏ ○ پایتون
‏ ○ VSCode
‏ ○ Notion
‏ ○ Grammarly
‏ ○ سخن پایانی


🔸 گیت

‏در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیت‌هاب آشنا هستید. اگر فکر می‌کنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، می‌توانید از مطلب زیر استفاده کنید:

‏– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده

‏مؤثرترین روش برای تعامل با ریپازیتوری گیت‌هاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستم‌های مک) که یکپارچگی شگفت‌انگیزی با گیت ارائه می‌کند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی می‌کند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم می‌شود.

‏پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو می‌توانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدال‌ها (Badges) مانند تصویر زیر بر آن بیفزایید.


🔸 پایتون

‏در این بخش به توضیح روش نصب لوکال پکیج‌های پایتون با استفاده از pip و virtualenv می‌پردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، می‌توانید از دستور زیر بهره بگیرید:

‏دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب می‌کند. اگر از قبل نسخه‌ای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه می‌کند.

‏ابتدا ابزار مدیریت محیط را با دستور زیر نصب می‌کنیم:



مطالعه ادامه مطلب 👇👇

🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ برنامه نویسی پویا در علم داده | راهنمای کاربردی

‏در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثال‌هایی که درک آن‌ها آسان باشد شرح داده شده است.

══ فهرست مطالب ══

‏ ○ برنامه نویسی پویا در علم داده
‏ ○ برنامه نویسی پویا در علم داده چطور کار می‌کند؟
‏ ○ چرا برنامه نویسی پویا در علم داده دشوار است؟
‏ ○ مثالی از برنامه نویسی پویا در علم داده
‏ ○ کدنویسی و برنامه نویسی پویا در علم داده
‏ ○ جمع‌بندی


🔸 برنامه نویسی پویا در علم داده

‏الگوریتم‌ها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دوره‌های تحلیل و طراحی الگوریتم مناسبی را نمی‌گذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکت‌ها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسش‌هایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح می‌کنند. اکنون، پرسشی که افراد زیادی با آن مواجه می‌شوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در ساده‌ترین حالت می‌توان گفت، جوابی که فرد به این پرسش می‌دهد، می‌تواند به نوعی سطح دانش برنامه‌نویسی او را نشان دهد. بنابراین، توصیه می‌شود که علاقه‌مندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.


🔸 برنامه نویسی پویا در علم داده چطور کار می‌کند؟

‏فرض می‌شود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:

‏۱, ۱, ۲, ۳, ۵, ۸

‏برنامه محاسبه سری فیبوناچی در ادامه آمده است.



مطالعه ادامه مطلب 👇👇

🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ داده‌کاوی (Data Mining)

در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیت‌های گردآوری و ذخیره‌سازی آن در دامنه‌های گوناگون بوده است. در جهان کسب‌و‌کار، «پایگاه‌داده‌های» (Databases) بسیار بزرگی برای تراکنش‌های تجاری وجود دارند که توسط خرده‌فروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شده‌اند.


🔹 فهرست مطالب این نوشته

▫️ داده کاوی چیست؟

▫️ تاریخچه داده‌کاوی

▫️ چرا داده کاوی

▫️ انواع منابع داده


🔸 داده کاوی چیست؟

به مجموعه‌ای از روش‌های قابل اعمال بر پایگاه داده‌های بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان داده‌ها، داده‌کاوی گفته می‌شود.


🔸 تاریخچه داده‌کاوی

در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیت‌های «تحلیل داده» (Data Analytics) استفاده می‌کردند. اصطلاح «داده‌کاوی» در حدود سال ۱۹۹۰ در جامعه پایگاه‌داده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسب‌تر برای فرآیند داده‌کاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.


🔸 چرا داده کاوی

با رشد و افزایش توجهات به داده‌کاوی، پرسش «چرا داده‌کاوی؟» همواره مطرح می‌شود. در پاسخ به این پرسش باید گفت، داده‌کاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینه‌ای جوان و آینده‌دار برای نسل کنونی محسوب می‌شود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع داده‌ها، نیاز حتمی به تبدیل چنین داده‌هایی به اطلاعات و دانش وجود دارد.


🔸 انواع منابع داده

در این بخش، انواع منابع داده‌ای که همه روزه حجم انبوهی از داده‌ها را تولید و یا ذخیره می‌کنند، مورد بررسی قرار گرفته‌اند.

● تراکنش‌های کسب‌و‌کار

● داده‌های علمی

● داده‌های شخصی و پزشکی

● تصاویر و ویدئوهای نظارتی

●رقابت‌های ورزشی

● رسانه‌های دیجیتال

● دنیاهای مجازی

● جهان‌های مجازی

● گزارش‌ها و اسناد متنی



ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 داده‌کاوی (Data Mining) — از صفر تا صد — کلیک کنید.




📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس