FaraData | فرا داده: علم داده و داده‌کاوی – Telegram
FaraData | فرا داده: علم داده و داده‌کاوی
1.32K subscribers
50 photos
11 videos
246 links
فرا داده — کانال تخصصی علم داده و داده کاوی

🔸کلان داده
🔸 داده کاوی
🔸 پردازش داده
🔸 یادگیری عمیق
🔸 یادگیری ماشین
🔸 کلان داده و Big Data
🔸 و صدها ساعت آموزش جذاب

🚀 برای مشاهده تمام آموزش‌های ویدیویی، روی لینک زیر بزنید:👇
fdrs.ir/tc/ds
Download Telegram
✳️ ریکامندر چیست ؟ | مبانی سیستم پیشنهاد دهنده — به زبان ساده

‏در این مطلب، ضمن پاسخگویی به پرسش ریکامندر چیست به بررسی مبانی سیستم پیشنهاد دهنده به زبان ساده، به طور جامع و کامل و همراه با ارائه مثال پرداخته شده است. شایان توجه است که در سراسر این مطلب از کلمه قلم و اقلام برای اشاره به مفهوم «Item» و «Items» استفاده شده است.

══ فهرست مطالب ══

‏ ○ چکیده مطلب ریکامندر چیست ؟
‏ ○ مقدمه‌ای بر مبحث ریکامندر چیست ؟
‏ ○ ریکامندر معادل چه کلمه‌ای در فارسی و انگلیسی است؟
‏ ○ ریکامندر چیست ؟
‏ ○ دلیل استفاده از سیستم ریکامندر چیست ؟
‏ ○ کاربرد سیستم ریکامندر چیست ؟
‏ ○ چه زمانی کسب و کار باید ریکامندر سیستم پیاده‌سازی کند؟
‏ ○ پیش‌نیازهای لازم برای راه‌اندازی یک سیستم ریکامندر چیست ؟
‏ ○ ریکامندر سیستم چگونه کار می‌کند؟
‏ ○ منابع اطلاعاتی سیستم ریکامندر چیست ؟
‏ ○ روش فراهم کردن داده برای سیستم ریکامندر چیست ؟
‏ ○ رابطه و داده در ریکامندر سیستم ها
‏ ○ انواع سیستم‌های ریکامندر چه هستند؟
‏ ○ از چه روش‌هایی برای ساخت ریکامندر سیستم استفاده می‌شود؟
‏ ○ چطور می‌توان یک ریکامندر سیستم را ارزیابی کرد؟
‏ ○ مثال از ریکامندر سیستم: موتور پیشنهاد هوشمند با پالایش گروهی
‏ ○ مثال از ریکامندر سیستم: ریکامندر سیستم محتوا محور پیشنهاد مقالات
‏ ○ معرفی یک پروژه ریکامندر سیستم فعال و تجاری ایرانی: کاپریلا
‏ ○ پرسش‌های متداول پیرامون ریکامندر سیستم


🔸 چکیده مطلب ریکامندر چیست ؟

‏اینترنت به عنوان منبعی برای حجم انبوه داده‌ها و اطلاعات محسوب می‌شود. در عین حال، کالاها و خدمات متنوعی نیز از طریق اینترنت در دسترس عموم مردم هستند. در این اقیانوس، نیاز به ابزاری برای پالایش، اولویت‌بندی و تحویل موثر اطلاعات مورد نیاز و مرتبط به هر کاربر به او محسوس است. این کار به عنوان راهکاری مُسَکن‌وار برای مسئله وجود سرریز اطلاعات (Information Overload) در نظر گرفته شده است. امروزه، سرریز اطلاعات مشکلات متعددی را برای کاربران اینترنت به وجود آورده است. ریکامندر سیستم در صدد است تا این مشکل را با جستجو در میان حجم انبوهی از اطلاعاتی حل کند که همه روزه به صورت پویا تولید می‌شوند و محتوا و خدمات شخصی‌سازی شده برای هر کاربر را در اختیار او قرار دهد.

‏در مطلب ریکامندر چیست ابتدا مفهوم ریکامندر سیستم بیان و به پرسش ریکامندر چیست پاسخ داده شده است. سپس، به پرسش دلیل استفاده از سیستم ریکامندر چیست پاسخ داده شده و کاربرد ریکامندر سیستم مورد بررسی قرار گرفته است. در ادامه، پیش‌نیازهای لازم برای یک ریکامندر سیستم تشریح شده‌اند و به روش‌های تامین منابع اطلاعاتی برای ریکامندر سیستم پرداخته شده است. پس از آن، روش کار و روش ساخت ریکامندر سیستم مورد بررسی قرار گرفته و انواع ریکامندر سیستم تشریح شده است. سپس، مثال‌هایی از پیاده‌سازی ریکامندر سیستم همراه با ارائه کدهای لازم برای آن ارائه شده است تا مخاطب بتواند هر چه بهتر پاسخ پرسش ریکامندر چیست را دریافت کند. در نهایت، به پرسش‌های متداول پیرامون ریکامندر سیستم یا همان سیستم پیشنهاد دهنده پاسخ داده شده است.


🔸 مقدمه‌ای بر مبحث ریکامندر چیست ؟

‏رشد انفجاری اطلاعات دیجیتالی در دسترس و تعداد کاربران اینترنت، مشکل بالقوه سرریز اطلاعاتی را ایجاد می‌کند. این سرریز اطلاعاتی مانع دسترسی سریع و به موقع کاربران به اطلاعات مورد نظر خودشان در اینترنت می‌شود. سیستم‌های بازیابی اطلاعات (Information Retrieval Systems) مانند گوگل، آلتاویستا و دیگر موارد، تا اندازه‌ای این مشکل را حل کرده‌اند.



مطالعه ادامه مطلب 👇👇

🔗 ریکامندر چیست ؟ | مبانی سیستم پیشنهاد دهنده — به زبان ساده — کلیک کنید (+)



📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ تفسیر نتایج رگرسیون در SPSS | گام به گام و تشریحی

‏رگرسیون خطی چه در حالت تک متغیره (ساده)، یا چندگانه و چند متغیره، در نرم‌افزار SPSS قابل اجرا است. در اغلب موارد خروجی حاصل از این مدل‌ها در این نرم‌افزار، مشابه یکدیگر هستند. از آنجایی که تفسیر و توجیه مدل ارائه شده، در تحلیل و مدل‌سازی آماری، امری مهم تلقی می‌شود، در این نوشتار از مجله فرادرس، به بررسی خروجی و تفسیر نتایج رگرسیون در SPSS پرداخته‌ایم. البته در این متن، مبنا مدل رگرسیونی چندگانه است و مسیر اجرا و نتایج حاصل براساس این تکنیک مورد توجه قرار گرفته است.

══ فهرست مطالب ══

‏ ○ تفسیر نتایج رگرسیون در SPSS
‏ ○ معرفی فیلم آموزش آمار استنباطی برای مدیریت و علوم انسانی
‏ ○ خلاصه و جمع‌بندی


🔸 تفسیر نتایج رگرسیون در SPSS

‏همانطور که گفته شد، در این نوشتار قرار است با نتایج حاصل از اجرای رگرسیون خطی در SPSS آشنا شده و از آن‌ها، تفسیر درستی ارائه کنیم. در این بین از یک فایل داده آموزشی استفاده خواهیم کرد.

‏اطلاعات مربوط به نمرات ۲۰۰ دانش آموز دبیرستان در سه درس «ریاضیات» (Math)، «مطالعات اجتماعی» (Socst) و «خواندن» و … معرفی شده‌اند. جدول ۱، این متغیرها را مشخص و ویژگی‌های آن را معرفی کرده است.

‏جدول ۱: ویژگی‌های متغیرهای مورد تحلیل


🔸 معرفی فیلم آموزش آمار استنباطی برای مدیریت و علوم انسانی

‏آمار استنباطی، یکی از شیوه‌های تعمیم خصوصیات نمونه به جامعه آماری است. این مباحث شامل تخمین نقطه‌ای و تخمین فاصله‌ای، آزمون فرض و مدل‌سازی است. بر این اساس، در این آموزش فرادرس موضوعات استنباط آماری به زبان ساده و به کمک نرم‌افزارهای آماری مانند اکسل و SPSS مطرح شده و با ذکر مثال‌های کاربردی، اهمیت به کارگیری آن‌ها به کاربران آموخته می‌شود.

‏بحث تفسیر نتایج رگرسیون در SPSS از مواردی است که در این آموزش به طور مفصل مورد توجه قرار گرفته و رگرسیون چندگانه و غیرخطی نیز مطرح می‌شود. فهرست سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه آمده است:

‏– درس یکم: جامعه و نمونه و ارتباط بین آن ها

‏– درس دوم: برآورد آماری

‏– درس سوم: آزمون فرضیه

‏– درس چهارم: آزمون تحلیل واریانس

‏– درس پنجم: رگرسیون و همبستگی

‏– درس ششم: رگرسیون چندگانه و غیر خطی

‏این آموزش مناسب برای سطوح تحصیلی، کارشناسی و کارشناسی ارشد برای رشته‌های مدیریت، آمار، اقتصاد، حسابداری و مهندسی صنایع است. نرم افزارهای مرتبط با آموزش Microsoft Excel و IBM SPSS ۱۹ هستند. در مجموع فیلم آموزشی شامل ۵ ساعت و ۲۷ دقیقه محتوایی ویدیویی است.



مطالعه ادامه مطلب 👇👇

🔗 تفسیر نتایج رگرسیون در SPSS | گام به گام و تشریحی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ انتخاب دو وضعیتی و تحلیل آماری | پیاده سازی در R

‏اغلب لازم است بین دو وضعیت یا موقعیت، دست به انتخاب بزنیم. این که کدام انتخاب، صحیح و به واقعیت نزدیک‌تر است، یک امر عقلانی است. ولی اگر با پدیده‌های تصادفی سروکار داشته باشیم و لازم باشد احتمال قرارگیری هر شی را در گروه A یا در گروه B برآورد یا مورد آزمون قرار دهیم، احتیاج به یک بررسی آماری داریم. در این نوشتار از مجله فرادرس به بررسی انتخاب دو وضعیتی و تحلیل آماری آن خواهیم پرداخت. البته در این بین از کدهای نوشته شده به زبان R نیز استفاده کرده و در محیط RStudio برنامه‌ها را ایجاد و پس از اجرا، نتایج را مشاهده خواهیم کرد.

══ فهرست مطالب ══

‏ ○ انتخاب دو وضعیتی و تحلیل آماری
‏ ○ معرفی فیلم آموزش نرم ‌افزار مدل‌ سازی داده ‌ها Eureqa Formulize
‏ ○ خلاصه و جمع‌بندی


🔸 انتخاب دو وضعیتی و تحلیل آماری

‏هدف این مقاله ارائه راهنمایی در مورد چگونگی انجام تجزیه و تحلیل نتایج نمونه آزمایشی A / B با استفاده از R و همچنین ارزیابی نتایج و نتیجه‌گیری بر اساس تجزیه و تحلیل آماری است. قبل از شروع، بهتر است که مشخص کنیم، منظور از آزمایش A / B چیست و به طور معمول برای چه مواردی استفاده می‌شود و البته در انتها نیز به برخی از محدودیت‌های آن اشاره خواهیم کرد.

‏آزمون A / B که به عنوان «تست تفکیک» (Split Test) نیز شناخته می‌شود، یک روش کلی است که به کمک آن محصول یا ویژگی جدیدی را مورد آزمایش قرار می‌دهند. هدف این است که یک آزمایش قوی طراحی شود و نتایج قابل تکرار داشته باشد تا تصمیمی آگاهانه یا الگویی برای انتخاب یا رد فراهم شود.

‏فرض کنید با دو صفحه وب (Web Page) مواجه هستیم که باید مشخص کنیم کارایی نوع A بیشتر است یا B. برای مثال باید تشخیص دهیم که این صفحه وب که برای رزرو هتل طراحی شده، با عکس بیشتر جذابیت داشته و بازدید کننده را به خریدار بدل می‌کند یا خیر.


🔸 معرفی فیلم آموزش نرم ‌افزار مدل‌ سازی داده ‌ها Eureqa Formulize

‏نرم‌افزار Eureqa، بدون احتیاج به کدنویسی، به کاربران اجازه مدل‌سازی آماری را می‌دهد. به همین دلیل یادگیری و اجرای مدل‌ها به وسیله این نرم افزار هوش مصنوعی، بسیار ساده بوده و گروه زیادی از کاربران و دانشجویان را به خود جلب کرده است. این نرم‌افزار توسط شرکت Nutonian توسعه یافته و با بهره گیری از الگوریتم ژنتیک، روابط بین پارامترها را کشف و شکل یک مدل رگرسیونی با استفاده از نمادها، ارائه و در اختیار کاربر قرار می‌دهد.

‏این آموزش در زمانی کوتاه، مبانی اولیه مدل‌سازی و همچنین توانایی کار و انجام عملیات با نرم‌افزار Eureqa Formulize را به کاربر آموزش داده و با اجرای یک پروژه کامل از صفر تا صد آموزش، مراحل و گام‌های مدل‌سازی را بازگو می‌کند. سرفصل‌های اصلی این آموزش به صورت زیر فهرست شده‌اند.

‏– درس اول: معرفی نرم ‌افزار و آشنایی با مفاهیم پایه مدل ‌سازی

‏– درس دوم: پیش‌ پردازش داده‎ ها، تعریف توابع، اجرای مدل و تجزیه و تحلیل نتایج

‏زمان اجرای این آموزش ۳۸ دقیقه است. در ضمن از نسخه Eureqa ۱٫۲۴٫۰ برای آموزش دستورات و محاسبات، استفاده شده است. این آموزش برای کسانی که در رشته مهندسی نرم افزار، علوم کامپیوتر و هوش مصنوعی در حال تحصیل هستند، مفید خواهد بود.



مطالعه ادامه مطلب 👇👇

🔗 انتخاب دو وضعیتی و تحلیل آماری | پیاده سازی در R — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آزمون فرض آماری مناسب | راهنمای کاربردی

‏یکی از مهم‌ترین تحلیل‌های آماری، آزمون فرض آماری است که نقش مهمی در برآوردیابی و سنجش اهمیت یک متغیر در مدل‌های آماری دارد. خوشبختانه (یا متاسفانه) آزمون‌های فرض در آمار بسیار متنوع بوده و با توجه به شرایط مسئله و داده‌ها با یکدیگر تفاوت دارند. به همین دلیل انتخاب آزمون فرض آماری مناسب یکی از فعالیت‌های مهم بعد از جمع‌آوری داده‌ها محسوب می‌شود. در این نوشتار سعی داریم که با بعضی از اصلی‌ترین روش‌های آزمون فرض آماری مناسب برای داده‌ها، آشنا شده و به زمینه کاربرد هر یک از آن‌ها اشاره کنیم.

══ فهرست مطالب ══

‏ ○ آزمون فرض آماری مناسب
‏ ○ معرفی فیلم آموزش تحلیل رگرسیون لجستیک دو حالتی در SPSS
‏ ○ خلاصه و جمع‌بندی


🔸 آزمون فرض آماری مناسب

‏آزمون های فرض آماری (Statistical Hypothesis Tests) شامل تکنیک‌های آماری است که برای صدور یک حکم در مورد جامعه آماری به کار می‌رود. به کمک چنین آزمون‌هایی، می‌توانیم ارتباط بین دو یا چند جامعه را مشخص کرده، همچنین برای سنجش پارامتر یا پارامترهای جامعه و مقایسه آن‌ها با یکدیگر از آزمون‌های آماری استفاده می‌کنیم. به همین دلیل انبوهی از آزمون‌های فرض در مباحث آماری مطرح شده که ممکن است کاربران و محققین را نسبت به انتخاب هر کدام، دچار سردرگمی کند. به همین دلیل این مطلب از مجله فرادرس را به انتخاب آزمون فرض آماری مناسب اختصاص داده‌ایم تا راهکارهایی برای تعیین آزمون صحیح در اختیار کاربران قرار دهیم.

‏در این میان، از آزمون‌های آماری ساده و پارامتری آغاز کرده و در بخش‌های مختلف به بررسی روش‌های اجرای آزمون‌های ناپارامتری نیز خواهیم پرداخت. از آنجایی که برای درک بیشتر این دنباله نوشته‌ها احتیاج به آگاهی از شیوه انجام آزمون آماری دارید بهتر است ابتدا نوشتار استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات را مطالعه کنید. همچنین آگاهی از نحوه محاسبه احتمال-مقدار (P-value) نیز مفید به نظر می‌رسد، بنابراین مطالعه مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری نیز توصیه می‌شود. امیدواریم پس از مطالعه این مطلب، قادر باشید هنگام انتخاب روش مناسب آزمون آماری، بهترین و دقیق‌ترین روش را در نظر بگیرید.

‏نکته: اگر می‌خواهید آزمون فرض آماری مناسب در محیط SPSS‌ را بهتر بشناسید، به نوشتار آزمون آماری مناسب در SPSS | راهنمای کاربردی مراجعه کنید.


🔸 معرفی فیلم آموزش تحلیل رگرسیون لجستیک دو حالتی در SPSS

‏در این فیلم آموزشی مدل‌های مبتنی بر رگرسیونی لجستیک به همراه کاربردهای آن، مورد توجه قرار گرفته است و برای انجام محاسبات مربوطه نیز از محیط تعاملی نرم افزار SPSS استفاده شده. وجود مثال‌های کاربردی و متعدد در این آموزش از مزایای مهم محسوب می‌شود. بطوری که مخاطب در انتهای آموزش به راحتی تحلیل صحیح و مناسب را در نرم افزار SPSS شناخته و می‌تواند برای مسئله خود، راه حل مناسبی پیدا کند.

‏رگرسیون لجستیک دو حالتی (برای متغیرهای دو وضعیتی)، در بسیاری از رشته‌های کاربردی از جمله پزشکی و علوم اجتماعی کاربرد دارد. در این مدل‌ها، متغیر پاسخ دو حالتی با یک مجموعه از متغیرهای توضیحی (مستقل) در ارتباط هستند. البته متغیرها توصیفی یا مستقل ممکن است کمی یا کیفی بوده و در مدل نقش داشته باشند. احتمال یا بخت پاسخ بر مبنای ترکیبی از مقادیر پیشگوها در این گونه مدل‌ها، ساخته و محاسبه شده و از تابع لوجیت برای ایجاد الگوی رابطه بین متغیرها استفاده می‌شود. به همین جهت نیز چنین رگرسیونی را لجستیک می‌نامند. سرفصل‌های مورد توجه شامل دو درس بوده که به قرار زیر هستند.

‏– درس اول: مقدمه بر تحلیل رگرسیون، رگرسیون لجستیک، رگرسیون لجستیک ساده در نرم افزار SPSS که شامل مواردی مانند، بررسی مقدماتی خروجی SPSS در رگرسیون لجستیک ساده، بخت، نسبت بخت‌ها، نمایش مدل رگرسیون ساده و بررسی مدل و گزارش نویسی خروجی نرم افزار SPSS

‏– درس دوم: انجام تحلیل رگرسیون لجستیک چندگانه در محیط SPSS




مطالعه ادامه مطلب 👇👇

🔗 آزمون فرض آماری مناسب | راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ مصور سازی داده | معرفی ابزارها و نرم افزارها

‏در دوره یا زمانی از زندگی بشر، نوشتن و خواندن به عنوان یک قدرت محسوب می‌شد و عده کمی قادر به انجام این کار بودند. بعد از بوجود آمدن اعداد، کسانی که قادر به انجام محاسبات بودند دارای قدرت و منزلت اجتماعی شدند. مهندسین و محاسب‌ها، قادر به ساختن بناهایی شدند که هرگز به ذهن انسان آن موقع نیز خطور نمی‌کرد که چنین سازه‌هایی، قابل اجرا هستند. با حضور در قرن اطلاعات، شرکت‌ها و کشورهایی که صاحب تکنولوژی ذخیره و انتقال اطلاعات محسوب می‌شدند، قدرت‌های بلامنازع قرن رایانه و داده‌ها بودند. ولی امروزه کسانی که بتوانند ابزارها و روش‌های کشف اطلاعات و استخراج دانش از داده‌ها را رهبری کنند، قدرتمند خواهند بود. یکی از روش‌های تفسیر و تشکیل یا تشخیص الگو از روی داده‌ها، استفاده از تکنیک‌های مصور سازی داده و ابزارهای آن است که در این متن به چند نمونه از بسته‌ها و نرم افزارهای خاص این حوزه اشاره خواهیم کرد.

══ فهرست مطالب ══

‏ ○ مصور سازی داده‌ و ابزارهای آن
‏ ○ معرفی فیلم آموزش مصور سازی داده (Data Visualization) در نرم افزار R با بسته ggplot۲
‏ ○ خلاصه و جمع‌بندی


🔸 مصور سازی داده‌ و ابزارهای آن

‏به کارگیری و نمایش مجموعه‌های بزرگ داده همیشه ساده نیست. بعضی اوقات، مجموعه داده‌ آنقدر بزرگ هستند که تشخیص الگوی مفیدی از آن‌ها بدون ابزارهای رایانه‌ای، کاملاً غیرممکن است. در اینجا لازم است که از نرم‌افزارهایی بهره ببریم که تجسم یا مصور سازی داده را امکان‌پذیر می‌سازند.

‏ایجاد تجسم برای داده‌ها اغلب کار ساده‌ای نیست. البته خوشبختانه این کار، امری شدنی بوده ولی احتیاج به ابزار و همچنین ذوق و سلیقه دارد. در این نوشتار به بعضی از ابزارها و نرم‌افزارهای معروف که در مصور سازی داده به کار می‌روند، اشاره کرده و خصوصیات هر یک را با هم مقایسه خواهیم کرد. واضح است که بهره‌گیری از این نرم‌افزارها، در هزینه و زمان صرفه‌جویی کرده و نتیجه را هم به شکلی قابل فهم و گویا، ارائه می‌کند.

‏ابزارهای تجسم یا مصور سازی داده روشی آسان برای ایجاد نمایش‌های تصویری و بصری از مجموعه داده‌های بزرگ را به طراحان ارائه می‌دهند. هنگام کار با مجموعه‌ای که شامل صدها هزار یا میلیون‌ها نقطه داده باشد، کار مشکلی است. با استفاده از این نرم‌افزارها، فرآیند ایجاد یک تصویر یا نمودار، تا حدی زیادی، خودکار شده و کار یک طراح را به طور قابل توجهی ساده می‌کند.


🔸 معرفی فیلم آموزش مصور سازی داده (Data Visualization) در نرم افزار R با بسته ggplot۲

‏در تحلیل داده، بسیار مهم است که ابتدا آن‌ها را به درستی درک کرده و برای انتقال اطلاعات حاصل از آن‌ها، روش‌های مناسبی را انتخاب کنیم. توصیف داده‌ها و کشف قوانین آن‌ها که به مصور سازی داده (Exploratory Data Visualization) معروف است، در این فرادرس مورد بررسی قرار گرفته است. به طوری که ضمن آشنایی اولیه با تصویر سازی مقدماتی با استفاده از زبان برنامه نویسی R (بسته نرم افزاری Base) که یکی از قدرتمندترین زبان‌ها در راستای تحلیل داده ها است، امکان ترسیم و نمایش اطلاعات از بین داده‌ها به مخاطبان آموزش داده می‌شود. ابزارها به کار رفته در این آموزش بسته نرم افزاری ggplot۲ در زبان R است که محبوبیت زیادی نیز دارد.

‏این آموزش با هفت درس و ۷ ساعت و ۱۹ دقیقه محتوای آموزشی به فراگیران ارائه شده است. سرفصل‌های آموزشی به قرار زیر هستند.

‏– درس یکم: آشنایی مقدماتی با مفهوم تصویرسازی در علم داده و رسم انواع نمودار در R (دستورات بسته یا پکیج Base)

‏– درس دوم: نکاتی در مورد نمودارهای پرکاربرد

‏– درس سوم: دستور زبان گرافیک، مقدمه ای بر پکیج ggplot۲

‏– درس چهارم: لایه زیبا شناختی (Aesthetic) در ggplot۲ و حل مشکل Overplotting

‏– درس پنجم: لایه هندسی (Geometrics) و لایه صورت بندی (Facet)

‏– درس ششم: لایه آماری، لایه مختصات، لایه تم و مقدمه ای بر پکیج های dplyr و tidyr

‏– درس هفتم: مقدمه ای بر پکیج‌های GGally و Plotly



مطالعه ادامه مطلب 👇👇

🔗 مصور سازی داده | معرفی ابزارها و نرم افزارها — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ انواع داده ها در SPSS — راهنمای کاربردی

‏داده‌ها، نتیجه مشاهده یا اندازه‌گیری پدیده‌ها طبیعی یا مصنوعی هستند. از طرفی می‌دانیم، افراد و اشیائی که مشخصات و ویژگی‌های مربوط به موضوع مورد بررسی از آن‌ها اندازه‌گیری می‌شوند، جامعه آماری را شکل می‌دهند. به این ترتیب، در جامعه آماری، مشخصات و ویژگی‌های یک پدیده مورد اندازه‌گیری قرار گرفته و نسبت به شناخت آن، دانش مفیدی کسب می‌کنیم. اعضای جامعه آماری، دارای خصوصیات یا ویژگی‌های مشترکی هستند، در غیر اینصورت امکان حضورشان در کنار یکدیگر میسر نمی‌شد. هر یک از این ویژگی‌ها، براساس شیوه خاصی اندازه‌گیری و مورد تجزیه و تحلیل قرار می‌گیرند. به همین جهت در این نوشتار از مجله فرادرس می‌خواهیم با انواع داده ها در SPSS به عنوان یک نرم افزار پرکاربرد در حوزه آمار و تحلیل داده، آشنا شویم.

══ فهرست مطالب ══

‏ ○ انواع داده ها در SPSS
‏ ○ انتخاب و تعیین انواع داده ها در SPSS
‏ ○ معرفی فیلم آموزش کنترل کیفیت آماری با SPSS فرادرس
‏ ○ خلاصه و جمع‌بندی


🔸 انواع داده ها در SPSS

‏زمانی که یک متغیر را در SPSS، تعریف می‌کنید، اولین کار انتخاب یک نام برای آن است. اسامی متغیرها در بالای ستون‌های مقادیر در برگه Data View از «پنجره ویرایشگر داده» (Data Editor) ظاهر می‌شوند. به این ترتیب ستون‌ها را می‌توان همان «فیلدها» (Fields) در «بانک‌های اطلاعاتی» (Database) محسوب کرد.

‏هنگام انتخاب نام، باید دقت کنید تا با موازین SPSS، هماهنگ باشد. محدودیت‌هایی که برای تعیین نام متغیر در SPSS وجود دارند، در ادامه فهرست شده‌اند.

‏– تعداد حروف: حداکثر نام برای متغیرها، ۶۴ حرف یا در حقیقت ۶۴ بایت (Byte) است. البته اگر از نام‌گذاری متغیرها با حروف فارسی استفاده کنید، تعداد این حروف نصف شده و به ۳۲ حرف می‌رسد. زیرا حروف فارسی به جای یک بایت، از دو بایت هنگام ذخیره سازی، استفاده می‌کنند.

‏– علائم غیرمجاز: استفاده از فاصله در نام‌گذاری غیر مجاز است. معمولا برای جدا کردن بخش‌های نام متغیر از علامت «ـ» استفاده می‌کنند. همچنین هنگام نام‌گذاری، نباید ابتدای هیچ متغیری از اعداد یا علائم، $ , # و @ استفاده شود ولی می‌توان از آن‌ها در میان عبارت نام، استفاده کرد. برای مثال Noneیک نام معتبر است.

‏– اسامی غیرمجاز: بعضی از اسامی برای متغیرها در spss، غیر مجاز هستند، زیرا در جای دیگری از این اسامی به عنوان «متغیرهای سیستمی» (System Variables) استفاده شده است. برای مثال عبارتی مانند AND, OR و یا ALL برای نام‌گذاری مناسب نیستند و با انتخاب آن‌ها برای متغیرها، با پیغام خطا مواجه خواهید شد.

‏– غیرتکراری: نام هیچ متغیری در یک مجموعه داده (Dataset)، نباید تکراری باشد. تکراری بودن نام متغیرها، طی پیامی به اطلاع کاربران SPSS می‌رسد.

‏نکته: به کار بردن اسامی فارسی برای متغیرها مجاز است به شرطی که امکان به کارگیری حروف با Unicode را فعال کرده باشید. البته بهتر است اسامی متغیرها را انگلیسی ولی برچسب (Label) آن‌ها را فارسی انتخاب کنید. باز هم تاکید می‌کنیم که به کار بردن فاصله بین اجزای نام متغیر، مجاز نیست. برای فعال سازی Unicode به تصویر ۱ توجه کنید.


🔸 انتخاب و تعیین انواع داده ها در SPSS

‏قبل از شروع کار با نرم‌افزار محاسبات آماری SPSS، لازم است که متغیرها را معرفی کنیم. هر مقدار یا دسته‌ای از مقادیر حتما باید وابسته به یک متغیر باشد. انتخاب صحیح برای انواع داده ها در SPSS بسیار با اهمیت است، زیرا بعضی از روش‌های آماری در این نرم‌افزار فقط با توجه به انتخاب صحیح نوع داده صورت می‌گیرد. برای مثال، رسم نمودار یا ترسیم جدول برای داده‌ها، با توجه به اینکه کاربر به درستی نوع مقادیر یا مقیاس اندازه را وارد کرده، امکان‌پذیر می‌گردند. بنابراین اگر این کار به درستی انجام نشده باشد، کاربر، یا با پیغام خطا مواجه خواهد شد، یا خروجی به شکل اشتباه در پنجره نتایج SPSS، نقش خواهد بست.

‏به یاد داشته باشید که اغلب در یک جامعه آماری، از متغیرهای کمی برای محاسبه شاخص‌ها و از متغیرهای کیفی برای طبقه‌بندی یا تفکیک جامعه آماری به بخش‌های کوچکتر، استفاده می‌شود. همین موضوع، بخصوص در نرم‌افزارهای آماری، نظیر SPSS نیز لحاظ شده است. سه نوع مقیاس اندازه، در این نرم‌افزار مورد توجه است که در زیر فهرست شده‌اند.



مطالعه ادامه مطلب 👇👇

🔗 انواع داده ها در SPSS — راهنمای کاربردی — کلیک کنید (+)



📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ زبان برنامه نویسی R — معرفی و کاربردها

‏امروزه، استفاده از رایانه‌ها برای انجام تحلیل داده‌ها، امری اجتناب ناپذیر است. در این بین زبان‌های برنامه‌نویسی برای انجام عملیات محاسباتی، توسعه یافته، به طوری که هر روز دارای امکانات بیشتری شده و روزآمد (Update) می‌شوند. در این بین زبان‌های برنامه‌نویسی محاسباتی مانند R و «پایتون» Python از محبوبیت زیادی برخوردارند. در این نوشتار از مجله فرادرس به زبان برنامه نویسی R پرداخته شده است و علاوه بر معرفی آن، کاربردهای آن در حوزه تحلیل داده مورد بررسی قرار می‌دهیم. در انتهای این متن، مزایا و معایب استفاده از این زبان برنامه‌نویسی نیز برای خوانندگان ارائه خواهد شد.

══ فهرست مطالب ══

‏ ○ زبان برنامه نویسی R
‏ ○ چرا از R استفاده کنیم؟
‏ ○ آیا باید زبان برنامه ‌نویسی R را برای کار انتخاب کرد؟
‏ ○ مزایا و معایب زبان برنامه نویسی R
‏ ○ نرم‌افزار RStudio
‏ ○ معرفی فیلم آموزشی برنامه نویسی R و نرم افزار RStudio – مقدماتی
‏ ○ خلاصه و جمع‌بندی


🔸 زبان برنامه نویسی R

‏R یک زبان برنامه‌نویسی و نرم افزار رایگان است که توسط «راس ایهاکا» (Ross Ihaka) و «رابرت جنتلمن» (Robert Gentleman) در سال ۱۹۹۳ تهیه شده است. R دارای کتابخانه‌های گسترده‌ای از انواع روش‌های آماری و شیوه‌های ترسیم نمودارها است. در این زبان برنامه نویسی، «الگوریتم‌های یادگیری ماشین» (Machine Learning Algorithm)، «رگرسیون خطی» (Linear Regression)، «سری‌های زمانی» (Time Series) و «استنباط آماری» (Statistical Inference)‌ قابل استفاده هستند.

‏بیشتر «کتابخانه‌های» (Library) یا «بسته‌های» (Package) قابل دسترس در R، با خود زبان برنامه نویسی R نوشته شده‌اند، اما برای کارهای محاسباتی سنگین، کدهایی به زبان‌های C++ ،C و Fortran نیز قابل دسترس بوده و کتابخانه‌هایی با این زبان‌ها، نوشته شده‌اند.

‏زبان برنامه‌نویسی R نه تنها در بین دانشگا‌هیان و محققین مورد اقبال قرار گرفته است، بلکه بسیاری از شرکت‌های بزرگ نیز از زبان برنامه نویسی R استفاده می‌کنند. در این بین می‌توان به شرکت‌هایی مانند Uber ،Google ،Airbnb و Facebook اشاره کرد.


🔸 چرا از R استفاده کنیم؟

‏علم داده در حال شکل دادن به نحوه فعالیت شرکت‌ها است. بدون شک استفاده نکردن از هوش مصنوعی و یادگیری ماشین باعث شکست شرکت‌ها در فعالیت‌های تجاری خواهد شد. سوال اصلی این است که از کدام ابزار یا زبان برای تحلیل داده‌ها استفاده کنیم؟

‏تعداد زیادی از ابزارهای تجاری برای اجرای تعاملات مالی و تجزیه و تحلیل آن‌ها وجود دارد. ولی متاسفانه اغلب آن‌ها پولی هستند. از طرفی ممکن است سازگاری لازم با نحوه کار شرکت شما یا روند داده‌هایتان را نداشته باشند. از جنبه دیگر، آموختن یک زبان برنامه‌نویسی جدید، کار طولانی و پیچیده‌ای است.

‏آیا واقعاً آموختن زبان برنامه‌نویسی R پیچیده است؟ توجه داشته باشید که باید یک توازن بین پیچیدگی و کارایی در نظر گرفت و بهترین زبان برنامه‌نویسی را برای امور شرکت انتخاب کرد. در تصویر ۴، نموداری را مشاهده می‌کنید که به مقایسه کارایی و سادگی در آموزش بین زبان‌ها و نرم‌افزارهای تحلیل مالی پرداخته است. اگر می‌خواهید بهترین اطلاعات را از داده‌ها کسب کرده و به نمایش بگذارید، باید مدتی را صرف یادگیری ابزار مناسب آن، یعنی زبان برنامه نویسی R کنید.



مطالعه ادامه مطلب 👇👇

🔗 زبان برنامه نویسی R — معرفی و کاربردها — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ مسئله منشی و تصمیم بهینه | به زبان ساده

‏مسئله منشی معمای مشهوری در حوزه تصمیم و احتمال همچنین بهینه‌سازی است. هدف از طرح این مسئله، پیدا کردن بهترین استراتژی در زمانی است که دنباله‌ای از انتخاب‌ها وجود داشته و باید از بین آن‌ها بهترین را انتخاب کنیم. این مسئله در اواخر دهه ۵۰ و ۶۰ میلادی ظاهر شد و تبدیل به یک بازی فکری برای ریاضیدانان و آمارشناسان گردید. به دلیل اهمیت این موضوع، همچنین ترکیب مسائل احتمال با بهینه کردن یک تابع، مسئله منشی و تصمیم بهینه را مبنای این متن از مجله فرادرس قرار داده‌ایم.

══ فهرست مطالب ══

‏ ○ مسئله منشی و تصمیم بهینه
‏ ○ خلاصه و جمع‌بندی


🔸 مسئله منشی و تصمیم بهینه

‏مسئله منشی مربوط به انتخاب یا تصمیم در شرایط بدون اطمینان یا تصادفی است. در نتیجه با احتمال و بخصوص احتمال شرطی در نظریه احتمال سروکار داریم. از طرفی براساس شرایط مسئله به دنبال بهترین تصمیم می‌گردیم. پس مسئله یک موضوع بهینه‌سازی نیز هست. فرمول‌بندی و ادغام شرط‌های مسئله باعث ایجاد یک الگو برای حل مسائلی از این نوع خواهد شد که به زبان ریاضی بیان شده و قابل حل هستند. ابتدا خود مسئله منشی و تصمیم بهینه را در موقعیت مشخص، ذکر کرده و شرط‌های مربوطه را بیان می‌کنیم.

‏فرض کنید که شما مدیر منابع انسانی یک شرکت هستید و باید از بین تعداد مشخصی از درخواست‌کنندگان موقعیت شغلی، بهترین منشی را استخدام کنید. این کار را می‌توانید به صورت انتخاب تصادفی از بین همه افرادی که مصاحبه شده‌اند انجام دهید. ولی در این صورت شاید بهترین فرد برای کار شما انتخاب نشود.

‏شرایط مسئله منشی و تصمیم بهینه نیز مقداری پیچیده است. برای مثال، تصمیم گیری در مورد قبول یا رد یک متقاضی خاص باید بلافاصله پس از مصاحبه انجام شود. اگر کسی قبل از پایان، پذیرفته نشده باشد، آخرین داوطلب انتخاب می‌شود. بنابراین سوال این است که از چه راهکاری برای به حداکثر رساندن شانس استخدام بهترین متقاضی لازم است؟


🔸 خلاصه و جمع‌بندی

‏در این نوشتار به یکی از مسائل جالب در حوزه بهینه‌سازی و احتمال به نام مسئله منشی و تصمیم بهینه پرداختیم. همانطور که دیدید، طرح یک مسئله بهینه‌سازی ریاضیاتی براساس احتمال شرطی ساخته و حل شد. جالب است که حاصل این بهینه‌سازی ما را به عکس عدد نپر ($$\frac{۱}{e}$$) سوق می‌دهد. در این بین مثال‌هایی از طرح‌ها و سناریوهای مختلف، برای روشن‌تر شدن موضوع نیز ارائه شد.

‏اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالب زیر نیز به شما پیشنهاد می‌شوند:

‏– مجموعه آموزش‌های الگوریتم‌‌های بهینه‌‌سازی هوشمند

‏– آموزش تئوری و عملی الگوریتم‌های ژنتیک

‏– مجموعه آموزش‌‌های هوش مصنوعی

‏– مجموعه آموزش‌‌های الگوریتم‌های ژنتیک و محاسبات تکاملی

‏– بهینه‌سازی چند هدفه چیست؟ — راهنمای جامع

‏– بهینه‌سازی نسبت طلایی — از صفر تا صد



مطالعه ادامه مطلب 👇👇

🔗 مسئله منشی و تصمیم بهینه | به زبان ساده — کلیک کنید (+)



📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آنالیز واریانس دو طرفه در اکسل — راهنمای کاربردی

‏تجزیه و تحلیل یا به اصطلاح «آنالیز واریانس» (Analysis of Variance) یک تکنیک آماری است که با استفاده از تجزیه واریانس به چند بخش، اثر تیمارها روی یک متغیر وابسته را تعیین می‌کند. در این بین تحلیل یا آنالیز واریانس دو طرفه به علت پیچیدگی محاسباتی کمتر به صورت دستی مورد بهره برداری قرار می‌گیرد. در این نوشتار از مجله فرادرس به بررسی آنالیز واریانس دو طرفه در اکسل پرداخته و شیوه اجرای آن را به کمک ابزار محاسبات آماری در اکسل (Analysis Toolpack) بازگو خواهیم کرد. البته در نوشتار قبلی از این سری، آنالیز واریانس یک طرفه در اکسل نیز معرفی شد.

══ فهرست مطالب ══

‏ ○ آنالیز واریانس دو طرفه در اکسل
‏ ○ معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab
‏ ○ خلاصه و جمع‌بندی


🔸 آنالیز واریانس دو طرفه در اکسل

‏از تکنیک «آنالیز واریانس دو طرفه» (two-way ANOVA) برای ارزیابی و نمایش تفاوت معنی‌دار بین دو نوع تیمار (با تعداد سطوح مختلف) استفاده می‌شود. گاهی به این تیمارها، عامل نیز گفته شده و در نتیجه ANOVA دو طرفه را، تحلیل واریانس دو عاملی (Two Factor ANOVA) نیز می‌نامند.

‏در این نوشتار، ما از طریق ANOVA دو طرفه و با استفاده از ابزارهای تحلیل آماری اکسل، یک مثال در این زمینه را مورد بررسی قرار داده و نتایج را تفسیر خواهیم کرد.

‏در این بین از بسته تحلیل یا محاسبات آماری اختصاصی اکسل بهره می‌بریم. حتی اگر به بسته آماری اکسل (Analysis ToolPak) نیز دسترسی ندارید، باز هم به کارگیری تحلیل واریانس دو طرفه در اکسل قابل اجرا است. کافی است الگوی محاسباتی که در این متن به آن اشاره می‌شود را به صورت فرمول در سلول‌ها درج کنید، هر چند به کارگیری بسته تحلیل اکسل کار را ساده‌تر و دقیق‌تر انجام می‌دهد.


🔸 معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab

‏یکی از کاربردهای تجزیه و تحلیل یا همان آنالیز واریانس در طراحی و تحلیل آزمایش‌ها (Experimental Design) است. فرادرس نیز در یکی از فیلم‌های آموزشی خود به این موضوع پرداخته است.

‏از آنجایی که بار محاسباتی زیادی برای طرح آزمایش‌ها و دریافت نتایج آن مورد احتیاج است، از نرم‌افزارهای محاسباتی یا بسته‌های آماری نظیر SPSS یا MINITAB برای انجام این کار استفاده می‌کنند. به همین دلیل در این بخش به معرفی فیلم آموزشی فرادرس با عنوان «طراحی و تحلیل آزمایش ها با SPSS و Minitab» پرداخته‌ایم.

‏این آموزش دارای ۱۲ درس بوده و فیلم آموزشی آن ۹ ساعت و ۳۹ دقیقه است. عنوان‌های اصلی آموزشی، در فهرست زیر شرح داده شده‌اند.



مطالعه ادامه مطلب 👇👇

🔗 آنالیز واریانس دو طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آزمون تی طبقه ای در SAS و R — راهنمای کابردی

‏آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه می‌دهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمون‌های دیگری به جای آزمون تی طبقه ای مورد استفاده قرار می‌گیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روش‌های جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.

══ فهرست مطالب ══

‏ ○ آزمون تی طبقه ای
‏ ○ پیش‌فرض‌های آزمون تی طبقه ای
‏ ○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
‏ ○ خلاصه و جمع‌بندی


🔸 آزمون تی طبقه ای

‏آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار می‌گیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت می‌گیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونه‌ها است.

‏اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونه‌ها براساس یک طرح نمونه‌گیری طبقه‌ای است. در این صورت نمونه‌ها مستقل از دو جامعه، طی یک «نمونه‌گیری طبقه‌ای» (Stratified) جمع‌آوری شده‌اند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدول‌های این توزیع مراجعه می‌شود.

‏از آنجایی که طرح نمونه‌گیری طبقه‌ای به کار رفته و ممکن است رابطه‌ای بین طبقه‌ها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance می‌دانند.


🔸 پیش‌فرض‌های آزمون تی طبقه ای

‏ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامه‌نویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید داده‌های مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آن‌ها اطمینان حاصل کنیم.

‏در روشهای آمار پارامتری فرض بر این است که داده‌ها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای داده‌ها، توزیع گاوسی یا نرمال در نظر گرفته می‌شود. ولی اگر توزیع این داده‌ها گاوسی یا نرمال نباشد، پیش‌فرض‌های مربوط به آزمون‌ها و تحلیل‌های آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روش‌های آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن داده‌ها مطلع شویم؟

‏خوشبختانه روش‌های زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که می‌توان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان می‌آید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روش‌های نرمالیتی و سنجش توزیع داده‌ها را بهتر درک کنید. البته در اینجا از معرفی این تکنیک‌ها صرف نظر کرده و خواننده را به لینک‌ها ارائه شده، ارجاع می‌دهیم.



مطالعه ادامه مطلب 👇👇

🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی

‏هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق می‌افتد که در هنگام جمع اوری داده‌ها دقت کافی صورت نگرفته باشد. در چنین مواردی می‌گوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج می‌برد. راه‌ کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آن‌ها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامه‌نویسی پایتون مورد تحلیل قرار می‌دهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتم‌ها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.

══ فهرست مطالب ══

‏ ○ مدیریت داده گمشده در داده کاوی با پایتون
‏ ○ خلاصه و جمع‌بندی


🔸 مدیریت داده گمشده در داده کاوی با پایتون

‏به روش‌های مختلفی می‌توان بر مشکل داده‌ها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آن‌ها لزوم توجه به داده‌های گمشده را به نوعی بیان می‌کند.

‏– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمی‌کند.

‏– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.

‏کتابخانه‌های پایتون داده‌های گمشده را به صورت عبارت nan نشان می‌دهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانه‌ها می‌توانید مشخص کنید که کدام سلول‌ها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:

‏اگر می‌خواهید با استفاده از داده‌ها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانه‌ها (از جمله scikit-learn) و تابع مدل‌سازی پیغامی مبنی بر وجود خطا ظاهر می‌سازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.


🔸 خلاصه و جمع‌بندی

‏در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی داده‌ها است، بررسی داده گمشده بسیار مهم جلوه می‌کند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونه‌های مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتم‌های متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیاده‌سازی شده‌اند. در این متن به بررسی این الگوریتم‌ها یا راه‌ کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.

‏اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالب زیر نیز به شما پیشنهاد می‌شوند:

‏– مجموعه آموزش‌های آمار و احتمالات

‏– آموزش داده کاوی و زبان برنامه نویسی R

‏– مجموعه آموزش‌های داده کاوی و یادگیری ماشین

‏– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب

‏– داده‌ گمشده یا ناموجود (Missing Data) در R – روش‌های پاکسازی داده‌ها

‏– داده‌‌های سانسور شده (Censored Data) در آمار — به زبان ساده



مطالعه ادامه مطلب 👇👇

🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)



📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس