✳️ ریکامندر چیست ؟ | مبانی سیستم پیشنهاد دهنده — به زبان ساده
در این مطلب، ضمن پاسخگویی به پرسش ریکامندر چیست به بررسی مبانی سیستم پیشنهاد دهنده به زبان ساده، به طور جامع و کامل و همراه با ارائه مثال پرداخته شده است. شایان توجه است که در سراسر این مطلب از کلمه قلم و اقلام برای اشاره به مفهوم «Item» و «Items» استفاده شده است.
══ فهرست مطالب ══
○ چکیده مطلب ریکامندر چیست ؟
○ مقدمهای بر مبحث ریکامندر چیست ؟
○ ریکامندر معادل چه کلمهای در فارسی و انگلیسی است؟
○ ریکامندر چیست ؟
○ دلیل استفاده از سیستم ریکامندر چیست ؟
○ کاربرد سیستم ریکامندر چیست ؟
○ چه زمانی کسب و کار باید ریکامندر سیستم پیادهسازی کند؟
○ پیشنیازهای لازم برای راهاندازی یک سیستم ریکامندر چیست ؟
○ ریکامندر سیستم چگونه کار میکند؟
○ منابع اطلاعاتی سیستم ریکامندر چیست ؟
○ روش فراهم کردن داده برای سیستم ریکامندر چیست ؟
○ رابطه و داده در ریکامندر سیستم ها
○ انواع سیستمهای ریکامندر چه هستند؟
○ از چه روشهایی برای ساخت ریکامندر سیستم استفاده میشود؟
○ چطور میتوان یک ریکامندر سیستم را ارزیابی کرد؟
○ مثال از ریکامندر سیستم: موتور پیشنهاد هوشمند با پالایش گروهی
○ مثال از ریکامندر سیستم: ریکامندر سیستم محتوا محور پیشنهاد مقالات
○ معرفی یک پروژه ریکامندر سیستم فعال و تجاری ایرانی: کاپریلا
○ پرسشهای متداول پیرامون ریکامندر سیستم
🔸 چکیده مطلب ریکامندر چیست ؟
اینترنت به عنوان منبعی برای حجم انبوه دادهها و اطلاعات محسوب میشود. در عین حال، کالاها و خدمات متنوعی نیز از طریق اینترنت در دسترس عموم مردم هستند. در این اقیانوس، نیاز به ابزاری برای پالایش، اولویتبندی و تحویل موثر اطلاعات مورد نیاز و مرتبط به هر کاربر به او محسوس است. این کار به عنوان راهکاری مُسَکنوار برای مسئله وجود سرریز اطلاعات (Information Overload) در نظر گرفته شده است. امروزه، سرریز اطلاعات مشکلات متعددی را برای کاربران اینترنت به وجود آورده است. ریکامندر سیستم در صدد است تا این مشکل را با جستجو در میان حجم انبوهی از اطلاعاتی حل کند که همه روزه به صورت پویا تولید میشوند و محتوا و خدمات شخصیسازی شده برای هر کاربر را در اختیار او قرار دهد.
در مطلب ریکامندر چیست ابتدا مفهوم ریکامندر سیستم بیان و به پرسش ریکامندر چیست پاسخ داده شده است. سپس، به پرسش دلیل استفاده از سیستم ریکامندر چیست پاسخ داده شده و کاربرد ریکامندر سیستم مورد بررسی قرار گرفته است. در ادامه، پیشنیازهای لازم برای یک ریکامندر سیستم تشریح شدهاند و به روشهای تامین منابع اطلاعاتی برای ریکامندر سیستم پرداخته شده است. پس از آن، روش کار و روش ساخت ریکامندر سیستم مورد بررسی قرار گرفته و انواع ریکامندر سیستم تشریح شده است. سپس، مثالهایی از پیادهسازی ریکامندر سیستم همراه با ارائه کدهای لازم برای آن ارائه شده است تا مخاطب بتواند هر چه بهتر پاسخ پرسش ریکامندر چیست را دریافت کند. در نهایت، به پرسشهای متداول پیرامون ریکامندر سیستم یا همان سیستم پیشنهاد دهنده پاسخ داده شده است.
🔸 مقدمهای بر مبحث ریکامندر چیست ؟
رشد انفجاری اطلاعات دیجیتالی در دسترس و تعداد کاربران اینترنت، مشکل بالقوه سرریز اطلاعاتی را ایجاد میکند. این سرریز اطلاعاتی مانع دسترسی سریع و به موقع کاربران به اطلاعات مورد نظر خودشان در اینترنت میشود. سیستمهای بازیابی اطلاعات (Information Retrieval Systems) مانند گوگل، آلتاویستا و دیگر موارد، تا اندازهای این مشکل را حل کردهاند.
مطالعه ادامه مطلب 👇👇
🔗 ریکامندر چیست ؟ | مبانی سیستم پیشنهاد دهنده — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب، ضمن پاسخگویی به پرسش ریکامندر چیست به بررسی مبانی سیستم پیشنهاد دهنده به زبان ساده، به طور جامع و کامل و همراه با ارائه مثال پرداخته شده است. شایان توجه است که در سراسر این مطلب از کلمه قلم و اقلام برای اشاره به مفهوم «Item» و «Items» استفاده شده است.
══ فهرست مطالب ══
○ چکیده مطلب ریکامندر چیست ؟
○ مقدمهای بر مبحث ریکامندر چیست ؟
○ ریکامندر معادل چه کلمهای در فارسی و انگلیسی است؟
○ ریکامندر چیست ؟
○ دلیل استفاده از سیستم ریکامندر چیست ؟
○ کاربرد سیستم ریکامندر چیست ؟
○ چه زمانی کسب و کار باید ریکامندر سیستم پیادهسازی کند؟
○ پیشنیازهای لازم برای راهاندازی یک سیستم ریکامندر چیست ؟
○ ریکامندر سیستم چگونه کار میکند؟
○ منابع اطلاعاتی سیستم ریکامندر چیست ؟
○ روش فراهم کردن داده برای سیستم ریکامندر چیست ؟
○ رابطه و داده در ریکامندر سیستم ها
○ انواع سیستمهای ریکامندر چه هستند؟
○ از چه روشهایی برای ساخت ریکامندر سیستم استفاده میشود؟
○ چطور میتوان یک ریکامندر سیستم را ارزیابی کرد؟
○ مثال از ریکامندر سیستم: موتور پیشنهاد هوشمند با پالایش گروهی
○ مثال از ریکامندر سیستم: ریکامندر سیستم محتوا محور پیشنهاد مقالات
○ معرفی یک پروژه ریکامندر سیستم فعال و تجاری ایرانی: کاپریلا
○ پرسشهای متداول پیرامون ریکامندر سیستم
🔸 چکیده مطلب ریکامندر چیست ؟
اینترنت به عنوان منبعی برای حجم انبوه دادهها و اطلاعات محسوب میشود. در عین حال، کالاها و خدمات متنوعی نیز از طریق اینترنت در دسترس عموم مردم هستند. در این اقیانوس، نیاز به ابزاری برای پالایش، اولویتبندی و تحویل موثر اطلاعات مورد نیاز و مرتبط به هر کاربر به او محسوس است. این کار به عنوان راهکاری مُسَکنوار برای مسئله وجود سرریز اطلاعات (Information Overload) در نظر گرفته شده است. امروزه، سرریز اطلاعات مشکلات متعددی را برای کاربران اینترنت به وجود آورده است. ریکامندر سیستم در صدد است تا این مشکل را با جستجو در میان حجم انبوهی از اطلاعاتی حل کند که همه روزه به صورت پویا تولید میشوند و محتوا و خدمات شخصیسازی شده برای هر کاربر را در اختیار او قرار دهد.
در مطلب ریکامندر چیست ابتدا مفهوم ریکامندر سیستم بیان و به پرسش ریکامندر چیست پاسخ داده شده است. سپس، به پرسش دلیل استفاده از سیستم ریکامندر چیست پاسخ داده شده و کاربرد ریکامندر سیستم مورد بررسی قرار گرفته است. در ادامه، پیشنیازهای لازم برای یک ریکامندر سیستم تشریح شدهاند و به روشهای تامین منابع اطلاعاتی برای ریکامندر سیستم پرداخته شده است. پس از آن، روش کار و روش ساخت ریکامندر سیستم مورد بررسی قرار گرفته و انواع ریکامندر سیستم تشریح شده است. سپس، مثالهایی از پیادهسازی ریکامندر سیستم همراه با ارائه کدهای لازم برای آن ارائه شده است تا مخاطب بتواند هر چه بهتر پاسخ پرسش ریکامندر چیست را دریافت کند. در نهایت، به پرسشهای متداول پیرامون ریکامندر سیستم یا همان سیستم پیشنهاد دهنده پاسخ داده شده است.
🔸 مقدمهای بر مبحث ریکامندر چیست ؟
رشد انفجاری اطلاعات دیجیتالی در دسترس و تعداد کاربران اینترنت، مشکل بالقوه سرریز اطلاعاتی را ایجاد میکند. این سرریز اطلاعاتی مانع دسترسی سریع و به موقع کاربران به اطلاعات مورد نظر خودشان در اینترنت میشود. سیستمهای بازیابی اطلاعات (Information Retrieval Systems) مانند گوگل، آلتاویستا و دیگر موارد، تا اندازهای این مشکل را حل کردهاند.
مطالعه ادامه مطلب 👇👇
🔗 ریکامندر چیست ؟ | مبانی سیستم پیشنهاد دهنده — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ تفسیر نتایج رگرسیون در SPSS | گام به گام و تشریحی
رگرسیون خطی چه در حالت تک متغیره (ساده)، یا چندگانه و چند متغیره، در نرمافزار SPSS قابل اجرا است. در اغلب موارد خروجی حاصل از این مدلها در این نرمافزار، مشابه یکدیگر هستند. از آنجایی که تفسیر و توجیه مدل ارائه شده، در تحلیل و مدلسازی آماری، امری مهم تلقی میشود، در این نوشتار از مجله فرادرس، به بررسی خروجی و تفسیر نتایج رگرسیون در SPSS پرداختهایم. البته در این متن، مبنا مدل رگرسیونی چندگانه است و مسیر اجرا و نتایج حاصل براساس این تکنیک مورد توجه قرار گرفته است.
══ فهرست مطالب ══
○ تفسیر نتایج رگرسیون در SPSS
○ معرفی فیلم آموزش آمار استنباطی برای مدیریت و علوم انسانی
○ خلاصه و جمعبندی
🔸 تفسیر نتایج رگرسیون در SPSS
همانطور که گفته شد، در این نوشتار قرار است با نتایج حاصل از اجرای رگرسیون خطی در SPSS آشنا شده و از آنها، تفسیر درستی ارائه کنیم. در این بین از یک فایل داده آموزشی استفاده خواهیم کرد.
اطلاعات مربوط به نمرات ۲۰۰ دانش آموز دبیرستان در سه درس «ریاضیات» (Math)، «مطالعات اجتماعی» (Socst) و «خواندن» و … معرفی شدهاند. جدول ۱، این متغیرها را مشخص و ویژگیهای آن را معرفی کرده است.
جدول ۱: ویژگیهای متغیرهای مورد تحلیل
🔸 معرفی فیلم آموزش آمار استنباطی برای مدیریت و علوم انسانی
آمار استنباطی، یکی از شیوههای تعمیم خصوصیات نمونه به جامعه آماری است. این مباحث شامل تخمین نقطهای و تخمین فاصلهای، آزمون فرض و مدلسازی است. بر این اساس، در این آموزش فرادرس موضوعات استنباط آماری به زبان ساده و به کمک نرمافزارهای آماری مانند اکسل و SPSS مطرح شده و با ذکر مثالهای کاربردی، اهمیت به کارگیری آنها به کاربران آموخته میشود.
بحث تفسیر نتایج رگرسیون در SPSS از مواردی است که در این آموزش به طور مفصل مورد توجه قرار گرفته و رگرسیون چندگانه و غیرخطی نیز مطرح میشود. فهرست سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه آمده است:
– درس یکم: جامعه و نمونه و ارتباط بین آن ها
– درس دوم: برآورد آماری
– درس سوم: آزمون فرضیه
– درس چهارم: آزمون تحلیل واریانس
– درس پنجم: رگرسیون و همبستگی
– درس ششم: رگرسیون چندگانه و غیر خطی
این آموزش مناسب برای سطوح تحصیلی، کارشناسی و کارشناسی ارشد برای رشتههای مدیریت، آمار، اقتصاد، حسابداری و مهندسی صنایع است. نرم افزارهای مرتبط با آموزش Microsoft Excel و IBM SPSS ۱۹ هستند. در مجموع فیلم آموزشی شامل ۵ ساعت و ۲۷ دقیقه محتوایی ویدیویی است.
مطالعه ادامه مطلب 👇👇
🔗 تفسیر نتایج رگرسیون در SPSS | گام به گام و تشریحی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
رگرسیون خطی چه در حالت تک متغیره (ساده)، یا چندگانه و چند متغیره، در نرمافزار SPSS قابل اجرا است. در اغلب موارد خروجی حاصل از این مدلها در این نرمافزار، مشابه یکدیگر هستند. از آنجایی که تفسیر و توجیه مدل ارائه شده، در تحلیل و مدلسازی آماری، امری مهم تلقی میشود، در این نوشتار از مجله فرادرس، به بررسی خروجی و تفسیر نتایج رگرسیون در SPSS پرداختهایم. البته در این متن، مبنا مدل رگرسیونی چندگانه است و مسیر اجرا و نتایج حاصل براساس این تکنیک مورد توجه قرار گرفته است.
══ فهرست مطالب ══
○ تفسیر نتایج رگرسیون در SPSS
○ معرفی فیلم آموزش آمار استنباطی برای مدیریت و علوم انسانی
○ خلاصه و جمعبندی
🔸 تفسیر نتایج رگرسیون در SPSS
همانطور که گفته شد، در این نوشتار قرار است با نتایج حاصل از اجرای رگرسیون خطی در SPSS آشنا شده و از آنها، تفسیر درستی ارائه کنیم. در این بین از یک فایل داده آموزشی استفاده خواهیم کرد.
اطلاعات مربوط به نمرات ۲۰۰ دانش آموز دبیرستان در سه درس «ریاضیات» (Math)، «مطالعات اجتماعی» (Socst) و «خواندن» و … معرفی شدهاند. جدول ۱، این متغیرها را مشخص و ویژگیهای آن را معرفی کرده است.
جدول ۱: ویژگیهای متغیرهای مورد تحلیل
🔸 معرفی فیلم آموزش آمار استنباطی برای مدیریت و علوم انسانی
آمار استنباطی، یکی از شیوههای تعمیم خصوصیات نمونه به جامعه آماری است. این مباحث شامل تخمین نقطهای و تخمین فاصلهای، آزمون فرض و مدلسازی است. بر این اساس، در این آموزش فرادرس موضوعات استنباط آماری به زبان ساده و به کمک نرمافزارهای آماری مانند اکسل و SPSS مطرح شده و با ذکر مثالهای کاربردی، اهمیت به کارگیری آنها به کاربران آموخته میشود.
بحث تفسیر نتایج رگرسیون در SPSS از مواردی است که در این آموزش به طور مفصل مورد توجه قرار گرفته و رگرسیون چندگانه و غیرخطی نیز مطرح میشود. فهرست سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه آمده است:
– درس یکم: جامعه و نمونه و ارتباط بین آن ها
– درس دوم: برآورد آماری
– درس سوم: آزمون فرضیه
– درس چهارم: آزمون تحلیل واریانس
– درس پنجم: رگرسیون و همبستگی
– درس ششم: رگرسیون چندگانه و غیر خطی
این آموزش مناسب برای سطوح تحصیلی، کارشناسی و کارشناسی ارشد برای رشتههای مدیریت، آمار، اقتصاد، حسابداری و مهندسی صنایع است. نرم افزارهای مرتبط با آموزش Microsoft Excel و IBM SPSS ۱۹ هستند. در مجموع فیلم آموزشی شامل ۵ ساعت و ۲۷ دقیقه محتوایی ویدیویی است.
مطالعه ادامه مطلب 👇👇
🔗 تفسیر نتایج رگرسیون در SPSS | گام به گام و تشریحی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ انتخاب دو وضعیتی و تحلیل آماری | پیاده سازی در R
اغلب لازم است بین دو وضعیت یا موقعیت، دست به انتخاب بزنیم. این که کدام انتخاب، صحیح و به واقعیت نزدیکتر است، یک امر عقلانی است. ولی اگر با پدیدههای تصادفی سروکار داشته باشیم و لازم باشد احتمال قرارگیری هر شی را در گروه A یا در گروه B برآورد یا مورد آزمون قرار دهیم، احتیاج به یک بررسی آماری داریم. در این نوشتار از مجله فرادرس به بررسی انتخاب دو وضعیتی و تحلیل آماری آن خواهیم پرداخت. البته در این بین از کدهای نوشته شده به زبان R نیز استفاده کرده و در محیط RStudio برنامهها را ایجاد و پس از اجرا، نتایج را مشاهده خواهیم کرد.
══ فهرست مطالب ══
○ انتخاب دو وضعیتی و تحلیل آماری
○ معرفی فیلم آموزش نرم افزار مدل سازی داده ها Eureqa Formulize
○ خلاصه و جمعبندی
🔸 انتخاب دو وضعیتی و تحلیل آماری
هدف این مقاله ارائه راهنمایی در مورد چگونگی انجام تجزیه و تحلیل نتایج نمونه آزمایشی A / B با استفاده از R و همچنین ارزیابی نتایج و نتیجهگیری بر اساس تجزیه و تحلیل آماری است. قبل از شروع، بهتر است که مشخص کنیم، منظور از آزمایش A / B چیست و به طور معمول برای چه مواردی استفاده میشود و البته در انتها نیز به برخی از محدودیتهای آن اشاره خواهیم کرد.
آزمون A / B که به عنوان «تست تفکیک» (Split Test) نیز شناخته میشود، یک روش کلی است که به کمک آن محصول یا ویژگی جدیدی را مورد آزمایش قرار میدهند. هدف این است که یک آزمایش قوی طراحی شود و نتایج قابل تکرار داشته باشد تا تصمیمی آگاهانه یا الگویی برای انتخاب یا رد فراهم شود.
فرض کنید با دو صفحه وب (Web Page) مواجه هستیم که باید مشخص کنیم کارایی نوع A بیشتر است یا B. برای مثال باید تشخیص دهیم که این صفحه وب که برای رزرو هتل طراحی شده، با عکس بیشتر جذابیت داشته و بازدید کننده را به خریدار بدل میکند یا خیر.
🔸 معرفی فیلم آموزش نرم افزار مدل سازی داده ها Eureqa Formulize
نرمافزار Eureqa، بدون احتیاج به کدنویسی، به کاربران اجازه مدلسازی آماری را میدهد. به همین دلیل یادگیری و اجرای مدلها به وسیله این نرم افزار هوش مصنوعی، بسیار ساده بوده و گروه زیادی از کاربران و دانشجویان را به خود جلب کرده است. این نرمافزار توسط شرکت Nutonian توسعه یافته و با بهره گیری از الگوریتم ژنتیک، روابط بین پارامترها را کشف و شکل یک مدل رگرسیونی با استفاده از نمادها، ارائه و در اختیار کاربر قرار میدهد.
این آموزش در زمانی کوتاه، مبانی اولیه مدلسازی و همچنین توانایی کار و انجام عملیات با نرمافزار Eureqa Formulize را به کاربر آموزش داده و با اجرای یک پروژه کامل از صفر تا صد آموزش، مراحل و گامهای مدلسازی را بازگو میکند. سرفصلهای اصلی این آموزش به صورت زیر فهرست شدهاند.
– درس اول: معرفی نرم افزار و آشنایی با مفاهیم پایه مدل سازی
– درس دوم: پیش پردازش داده ها، تعریف توابع، اجرای مدل و تجزیه و تحلیل نتایج
زمان اجرای این آموزش ۳۸ دقیقه است. در ضمن از نسخه Eureqa ۱٫۲۴٫۰ برای آموزش دستورات و محاسبات، استفاده شده است. این آموزش برای کسانی که در رشته مهندسی نرم افزار، علوم کامپیوتر و هوش مصنوعی در حال تحصیل هستند، مفید خواهد بود.
مطالعه ادامه مطلب 👇👇
🔗 انتخاب دو وضعیتی و تحلیل آماری | پیاده سازی در R — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
اغلب لازم است بین دو وضعیت یا موقعیت، دست به انتخاب بزنیم. این که کدام انتخاب، صحیح و به واقعیت نزدیکتر است، یک امر عقلانی است. ولی اگر با پدیدههای تصادفی سروکار داشته باشیم و لازم باشد احتمال قرارگیری هر شی را در گروه A یا در گروه B برآورد یا مورد آزمون قرار دهیم، احتیاج به یک بررسی آماری داریم. در این نوشتار از مجله فرادرس به بررسی انتخاب دو وضعیتی و تحلیل آماری آن خواهیم پرداخت. البته در این بین از کدهای نوشته شده به زبان R نیز استفاده کرده و در محیط RStudio برنامهها را ایجاد و پس از اجرا، نتایج را مشاهده خواهیم کرد.
══ فهرست مطالب ══
○ انتخاب دو وضعیتی و تحلیل آماری
○ معرفی فیلم آموزش نرم افزار مدل سازی داده ها Eureqa Formulize
○ خلاصه و جمعبندی
🔸 انتخاب دو وضعیتی و تحلیل آماری
هدف این مقاله ارائه راهنمایی در مورد چگونگی انجام تجزیه و تحلیل نتایج نمونه آزمایشی A / B با استفاده از R و همچنین ارزیابی نتایج و نتیجهگیری بر اساس تجزیه و تحلیل آماری است. قبل از شروع، بهتر است که مشخص کنیم، منظور از آزمایش A / B چیست و به طور معمول برای چه مواردی استفاده میشود و البته در انتها نیز به برخی از محدودیتهای آن اشاره خواهیم کرد.
آزمون A / B که به عنوان «تست تفکیک» (Split Test) نیز شناخته میشود، یک روش کلی است که به کمک آن محصول یا ویژگی جدیدی را مورد آزمایش قرار میدهند. هدف این است که یک آزمایش قوی طراحی شود و نتایج قابل تکرار داشته باشد تا تصمیمی آگاهانه یا الگویی برای انتخاب یا رد فراهم شود.
فرض کنید با دو صفحه وب (Web Page) مواجه هستیم که باید مشخص کنیم کارایی نوع A بیشتر است یا B. برای مثال باید تشخیص دهیم که این صفحه وب که برای رزرو هتل طراحی شده، با عکس بیشتر جذابیت داشته و بازدید کننده را به خریدار بدل میکند یا خیر.
🔸 معرفی فیلم آموزش نرم افزار مدل سازی داده ها Eureqa Formulize
نرمافزار Eureqa، بدون احتیاج به کدنویسی، به کاربران اجازه مدلسازی آماری را میدهد. به همین دلیل یادگیری و اجرای مدلها به وسیله این نرم افزار هوش مصنوعی، بسیار ساده بوده و گروه زیادی از کاربران و دانشجویان را به خود جلب کرده است. این نرمافزار توسط شرکت Nutonian توسعه یافته و با بهره گیری از الگوریتم ژنتیک، روابط بین پارامترها را کشف و شکل یک مدل رگرسیونی با استفاده از نمادها، ارائه و در اختیار کاربر قرار میدهد.
این آموزش در زمانی کوتاه، مبانی اولیه مدلسازی و همچنین توانایی کار و انجام عملیات با نرمافزار Eureqa Formulize را به کاربر آموزش داده و با اجرای یک پروژه کامل از صفر تا صد آموزش، مراحل و گامهای مدلسازی را بازگو میکند. سرفصلهای اصلی این آموزش به صورت زیر فهرست شدهاند.
– درس اول: معرفی نرم افزار و آشنایی با مفاهیم پایه مدل سازی
– درس دوم: پیش پردازش داده ها، تعریف توابع، اجرای مدل و تجزیه و تحلیل نتایج
زمان اجرای این آموزش ۳۸ دقیقه است. در ضمن از نسخه Eureqa ۱٫۲۴٫۰ برای آموزش دستورات و محاسبات، استفاده شده است. این آموزش برای کسانی که در رشته مهندسی نرم افزار، علوم کامپیوتر و هوش مصنوعی در حال تحصیل هستند، مفید خواهد بود.
مطالعه ادامه مطلب 👇👇
🔗 انتخاب دو وضعیتی و تحلیل آماری | پیاده سازی در R — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آزمون فرض آماری مناسب | راهنمای کاربردی
یکی از مهمترین تحلیلهای آماری، آزمون فرض آماری است که نقش مهمی در برآوردیابی و سنجش اهمیت یک متغیر در مدلهای آماری دارد. خوشبختانه (یا متاسفانه) آزمونهای فرض در آمار بسیار متنوع بوده و با توجه به شرایط مسئله و دادهها با یکدیگر تفاوت دارند. به همین دلیل انتخاب آزمون فرض آماری مناسب یکی از فعالیتهای مهم بعد از جمعآوری دادهها محسوب میشود. در این نوشتار سعی داریم که با بعضی از اصلیترین روشهای آزمون فرض آماری مناسب برای دادهها، آشنا شده و به زمینه کاربرد هر یک از آنها اشاره کنیم.
══ فهرست مطالب ══
○ آزمون فرض آماری مناسب
○ معرفی فیلم آموزش تحلیل رگرسیون لجستیک دو حالتی در SPSS
○ خلاصه و جمعبندی
🔸 آزمون فرض آماری مناسب
آزمون های فرض آماری (Statistical Hypothesis Tests) شامل تکنیکهای آماری است که برای صدور یک حکم در مورد جامعه آماری به کار میرود. به کمک چنین آزمونهایی، میتوانیم ارتباط بین دو یا چند جامعه را مشخص کرده، همچنین برای سنجش پارامتر یا پارامترهای جامعه و مقایسه آنها با یکدیگر از آزمونهای آماری استفاده میکنیم. به همین دلیل انبوهی از آزمونهای فرض در مباحث آماری مطرح شده که ممکن است کاربران و محققین را نسبت به انتخاب هر کدام، دچار سردرگمی کند. به همین دلیل این مطلب از مجله فرادرس را به انتخاب آزمون فرض آماری مناسب اختصاص دادهایم تا راهکارهایی برای تعیین آزمون صحیح در اختیار کاربران قرار دهیم.
در این میان، از آزمونهای آماری ساده و پارامتری آغاز کرده و در بخشهای مختلف به بررسی روشهای اجرای آزمونهای ناپارامتری نیز خواهیم پرداخت. از آنجایی که برای درک بیشتر این دنباله نوشتهها احتیاج به آگاهی از شیوه انجام آزمون آماری دارید بهتر است ابتدا نوشتار استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات را مطالعه کنید. همچنین آگاهی از نحوه محاسبه احتمال-مقدار (P-value) نیز مفید به نظر میرسد، بنابراین مطالعه مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری نیز توصیه میشود. امیدواریم پس از مطالعه این مطلب، قادر باشید هنگام انتخاب روش مناسب آزمون آماری، بهترین و دقیقترین روش را در نظر بگیرید.
نکته: اگر میخواهید آزمون فرض آماری مناسب در محیط SPSS را بهتر بشناسید، به نوشتار آزمون آماری مناسب در SPSS | راهنمای کاربردی مراجعه کنید.
🔸 معرفی فیلم آموزش تحلیل رگرسیون لجستیک دو حالتی در SPSS
در این فیلم آموزشی مدلهای مبتنی بر رگرسیونی لجستیک به همراه کاربردهای آن، مورد توجه قرار گرفته است و برای انجام محاسبات مربوطه نیز از محیط تعاملی نرم افزار SPSS استفاده شده. وجود مثالهای کاربردی و متعدد در این آموزش از مزایای مهم محسوب میشود. بطوری که مخاطب در انتهای آموزش به راحتی تحلیل صحیح و مناسب را در نرم افزار SPSS شناخته و میتواند برای مسئله خود، راه حل مناسبی پیدا کند.
رگرسیون لجستیک دو حالتی (برای متغیرهای دو وضعیتی)، در بسیاری از رشتههای کاربردی از جمله پزشکی و علوم اجتماعی کاربرد دارد. در این مدلها، متغیر پاسخ دو حالتی با یک مجموعه از متغیرهای توضیحی (مستقل) در ارتباط هستند. البته متغیرها توصیفی یا مستقل ممکن است کمی یا کیفی بوده و در مدل نقش داشته باشند. احتمال یا بخت پاسخ بر مبنای ترکیبی از مقادیر پیشگوها در این گونه مدلها، ساخته و محاسبه شده و از تابع لوجیت برای ایجاد الگوی رابطه بین متغیرها استفاده میشود. به همین جهت نیز چنین رگرسیونی را لجستیک مینامند. سرفصلهای مورد توجه شامل دو درس بوده که به قرار زیر هستند.
– درس اول: مقدمه بر تحلیل رگرسیون، رگرسیون لجستیک، رگرسیون لجستیک ساده در نرم افزار SPSS که شامل مواردی مانند، بررسی مقدماتی خروجی SPSS در رگرسیون لجستیک ساده، بخت، نسبت بختها، نمایش مدل رگرسیون ساده و بررسی مدل و گزارش نویسی خروجی نرم افزار SPSS
– درس دوم: انجام تحلیل رگرسیون لجستیک چندگانه در محیط SPSS
مطالعه ادامه مطلب 👇👇
🔗 آزمون فرض آماری مناسب | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
یکی از مهمترین تحلیلهای آماری، آزمون فرض آماری است که نقش مهمی در برآوردیابی و سنجش اهمیت یک متغیر در مدلهای آماری دارد. خوشبختانه (یا متاسفانه) آزمونهای فرض در آمار بسیار متنوع بوده و با توجه به شرایط مسئله و دادهها با یکدیگر تفاوت دارند. به همین دلیل انتخاب آزمون فرض آماری مناسب یکی از فعالیتهای مهم بعد از جمعآوری دادهها محسوب میشود. در این نوشتار سعی داریم که با بعضی از اصلیترین روشهای آزمون فرض آماری مناسب برای دادهها، آشنا شده و به زمینه کاربرد هر یک از آنها اشاره کنیم.
══ فهرست مطالب ══
○ آزمون فرض آماری مناسب
○ معرفی فیلم آموزش تحلیل رگرسیون لجستیک دو حالتی در SPSS
○ خلاصه و جمعبندی
🔸 آزمون فرض آماری مناسب
آزمون های فرض آماری (Statistical Hypothesis Tests) شامل تکنیکهای آماری است که برای صدور یک حکم در مورد جامعه آماری به کار میرود. به کمک چنین آزمونهایی، میتوانیم ارتباط بین دو یا چند جامعه را مشخص کرده، همچنین برای سنجش پارامتر یا پارامترهای جامعه و مقایسه آنها با یکدیگر از آزمونهای آماری استفاده میکنیم. به همین دلیل انبوهی از آزمونهای فرض در مباحث آماری مطرح شده که ممکن است کاربران و محققین را نسبت به انتخاب هر کدام، دچار سردرگمی کند. به همین دلیل این مطلب از مجله فرادرس را به انتخاب آزمون فرض آماری مناسب اختصاص دادهایم تا راهکارهایی برای تعیین آزمون صحیح در اختیار کاربران قرار دهیم.
در این میان، از آزمونهای آماری ساده و پارامتری آغاز کرده و در بخشهای مختلف به بررسی روشهای اجرای آزمونهای ناپارامتری نیز خواهیم پرداخت. از آنجایی که برای درک بیشتر این دنباله نوشتهها احتیاج به آگاهی از شیوه انجام آزمون آماری دارید بهتر است ابتدا نوشتار استنباط و آزمون فرض آماری — مفاهیم و اصطلاحات را مطالعه کنید. همچنین آگاهی از نحوه محاسبه احتمال-مقدار (P-value) نیز مفید به نظر میرسد، بنابراین مطالعه مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری نیز توصیه میشود. امیدواریم پس از مطالعه این مطلب، قادر باشید هنگام انتخاب روش مناسب آزمون آماری، بهترین و دقیقترین روش را در نظر بگیرید.
نکته: اگر میخواهید آزمون فرض آماری مناسب در محیط SPSS را بهتر بشناسید، به نوشتار آزمون آماری مناسب در SPSS | راهنمای کاربردی مراجعه کنید.
🔸 معرفی فیلم آموزش تحلیل رگرسیون لجستیک دو حالتی در SPSS
در این فیلم آموزشی مدلهای مبتنی بر رگرسیونی لجستیک به همراه کاربردهای آن، مورد توجه قرار گرفته است و برای انجام محاسبات مربوطه نیز از محیط تعاملی نرم افزار SPSS استفاده شده. وجود مثالهای کاربردی و متعدد در این آموزش از مزایای مهم محسوب میشود. بطوری که مخاطب در انتهای آموزش به راحتی تحلیل صحیح و مناسب را در نرم افزار SPSS شناخته و میتواند برای مسئله خود، راه حل مناسبی پیدا کند.
رگرسیون لجستیک دو حالتی (برای متغیرهای دو وضعیتی)، در بسیاری از رشتههای کاربردی از جمله پزشکی و علوم اجتماعی کاربرد دارد. در این مدلها، متغیر پاسخ دو حالتی با یک مجموعه از متغیرهای توضیحی (مستقل) در ارتباط هستند. البته متغیرها توصیفی یا مستقل ممکن است کمی یا کیفی بوده و در مدل نقش داشته باشند. احتمال یا بخت پاسخ بر مبنای ترکیبی از مقادیر پیشگوها در این گونه مدلها، ساخته و محاسبه شده و از تابع لوجیت برای ایجاد الگوی رابطه بین متغیرها استفاده میشود. به همین جهت نیز چنین رگرسیونی را لجستیک مینامند. سرفصلهای مورد توجه شامل دو درس بوده که به قرار زیر هستند.
– درس اول: مقدمه بر تحلیل رگرسیون، رگرسیون لجستیک، رگرسیون لجستیک ساده در نرم افزار SPSS که شامل مواردی مانند، بررسی مقدماتی خروجی SPSS در رگرسیون لجستیک ساده، بخت، نسبت بختها، نمایش مدل رگرسیون ساده و بررسی مدل و گزارش نویسی خروجی نرم افزار SPSS
– درس دوم: انجام تحلیل رگرسیون لجستیک چندگانه در محیط SPSS
مطالعه ادامه مطلب 👇👇
🔗 آزمون فرض آماری مناسب | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ مصور سازی داده | معرفی ابزارها و نرم افزارها
در دوره یا زمانی از زندگی بشر، نوشتن و خواندن به عنوان یک قدرت محسوب میشد و عده کمی قادر به انجام این کار بودند. بعد از بوجود آمدن اعداد، کسانی که قادر به انجام محاسبات بودند دارای قدرت و منزلت اجتماعی شدند. مهندسین و محاسبها، قادر به ساختن بناهایی شدند که هرگز به ذهن انسان آن موقع نیز خطور نمیکرد که چنین سازههایی، قابل اجرا هستند. با حضور در قرن اطلاعات، شرکتها و کشورهایی که صاحب تکنولوژی ذخیره و انتقال اطلاعات محسوب میشدند، قدرتهای بلامنازع قرن رایانه و دادهها بودند. ولی امروزه کسانی که بتوانند ابزارها و روشهای کشف اطلاعات و استخراج دانش از دادهها را رهبری کنند، قدرتمند خواهند بود. یکی از روشهای تفسیر و تشکیل یا تشخیص الگو از روی دادهها، استفاده از تکنیکهای مصور سازی داده و ابزارهای آن است که در این متن به چند نمونه از بستهها و نرم افزارهای خاص این حوزه اشاره خواهیم کرد.
══ فهرست مطالب ══
○ مصور سازی داده و ابزارهای آن
○ معرفی فیلم آموزش مصور سازی داده (Data Visualization) در نرم افزار R با بسته ggplot۲
○ خلاصه و جمعبندی
🔸 مصور سازی داده و ابزارهای آن
به کارگیری و نمایش مجموعههای بزرگ داده همیشه ساده نیست. بعضی اوقات، مجموعه داده آنقدر بزرگ هستند که تشخیص الگوی مفیدی از آنها بدون ابزارهای رایانهای، کاملاً غیرممکن است. در اینجا لازم است که از نرمافزارهایی بهره ببریم که تجسم یا مصور سازی داده را امکانپذیر میسازند.
ایجاد تجسم برای دادهها اغلب کار سادهای نیست. البته خوشبختانه این کار، امری شدنی بوده ولی احتیاج به ابزار و همچنین ذوق و سلیقه دارد. در این نوشتار به بعضی از ابزارها و نرمافزارهای معروف که در مصور سازی داده به کار میروند، اشاره کرده و خصوصیات هر یک را با هم مقایسه خواهیم کرد. واضح است که بهرهگیری از این نرمافزارها، در هزینه و زمان صرفهجویی کرده و نتیجه را هم به شکلی قابل فهم و گویا، ارائه میکند.
ابزارهای تجسم یا مصور سازی داده روشی آسان برای ایجاد نمایشهای تصویری و بصری از مجموعه دادههای بزرگ را به طراحان ارائه میدهند. هنگام کار با مجموعهای که شامل صدها هزار یا میلیونها نقطه داده باشد، کار مشکلی است. با استفاده از این نرمافزارها، فرآیند ایجاد یک تصویر یا نمودار، تا حدی زیادی، خودکار شده و کار یک طراح را به طور قابل توجهی ساده میکند.
🔸 معرفی فیلم آموزش مصور سازی داده (Data Visualization) در نرم افزار R با بسته ggplot۲
در تحلیل داده، بسیار مهم است که ابتدا آنها را به درستی درک کرده و برای انتقال اطلاعات حاصل از آنها، روشهای مناسبی را انتخاب کنیم. توصیف دادهها و کشف قوانین آنها که به مصور سازی داده (Exploratory Data Visualization) معروف است، در این فرادرس مورد بررسی قرار گرفته است. به طوری که ضمن آشنایی اولیه با تصویر سازی مقدماتی با استفاده از زبان برنامه نویسی R (بسته نرم افزاری Base) که یکی از قدرتمندترین زبانها در راستای تحلیل داده ها است، امکان ترسیم و نمایش اطلاعات از بین دادهها به مخاطبان آموزش داده میشود. ابزارها به کار رفته در این آموزش بسته نرم افزاری ggplot۲ در زبان R است که محبوبیت زیادی نیز دارد.
این آموزش با هفت درس و ۷ ساعت و ۱۹ دقیقه محتوای آموزشی به فراگیران ارائه شده است. سرفصلهای آموزشی به قرار زیر هستند.
– درس یکم: آشنایی مقدماتی با مفهوم تصویرسازی در علم داده و رسم انواع نمودار در R (دستورات بسته یا پکیج Base)
– درس دوم: نکاتی در مورد نمودارهای پرکاربرد
– درس سوم: دستور زبان گرافیک، مقدمه ای بر پکیج ggplot۲
– درس چهارم: لایه زیبا شناختی (Aesthetic) در ggplot۲ و حل مشکل Overplotting
– درس پنجم: لایه هندسی (Geometrics) و لایه صورت بندی (Facet)
– درس ششم: لایه آماری، لایه مختصات، لایه تم و مقدمه ای بر پکیج های dplyr و tidyr
– درس هفتم: مقدمه ای بر پکیجهای GGally و Plotly
مطالعه ادامه مطلب 👇👇
🔗 مصور سازی داده | معرفی ابزارها و نرم افزارها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در دوره یا زمانی از زندگی بشر، نوشتن و خواندن به عنوان یک قدرت محسوب میشد و عده کمی قادر به انجام این کار بودند. بعد از بوجود آمدن اعداد، کسانی که قادر به انجام محاسبات بودند دارای قدرت و منزلت اجتماعی شدند. مهندسین و محاسبها، قادر به ساختن بناهایی شدند که هرگز به ذهن انسان آن موقع نیز خطور نمیکرد که چنین سازههایی، قابل اجرا هستند. با حضور در قرن اطلاعات، شرکتها و کشورهایی که صاحب تکنولوژی ذخیره و انتقال اطلاعات محسوب میشدند، قدرتهای بلامنازع قرن رایانه و دادهها بودند. ولی امروزه کسانی که بتوانند ابزارها و روشهای کشف اطلاعات و استخراج دانش از دادهها را رهبری کنند، قدرتمند خواهند بود. یکی از روشهای تفسیر و تشکیل یا تشخیص الگو از روی دادهها، استفاده از تکنیکهای مصور سازی داده و ابزارهای آن است که در این متن به چند نمونه از بستهها و نرم افزارهای خاص این حوزه اشاره خواهیم کرد.
══ فهرست مطالب ══
○ مصور سازی داده و ابزارهای آن
○ معرفی فیلم آموزش مصور سازی داده (Data Visualization) در نرم افزار R با بسته ggplot۲
○ خلاصه و جمعبندی
🔸 مصور سازی داده و ابزارهای آن
به کارگیری و نمایش مجموعههای بزرگ داده همیشه ساده نیست. بعضی اوقات، مجموعه داده آنقدر بزرگ هستند که تشخیص الگوی مفیدی از آنها بدون ابزارهای رایانهای، کاملاً غیرممکن است. در اینجا لازم است که از نرمافزارهایی بهره ببریم که تجسم یا مصور سازی داده را امکانپذیر میسازند.
ایجاد تجسم برای دادهها اغلب کار سادهای نیست. البته خوشبختانه این کار، امری شدنی بوده ولی احتیاج به ابزار و همچنین ذوق و سلیقه دارد. در این نوشتار به بعضی از ابزارها و نرمافزارهای معروف که در مصور سازی داده به کار میروند، اشاره کرده و خصوصیات هر یک را با هم مقایسه خواهیم کرد. واضح است که بهرهگیری از این نرمافزارها، در هزینه و زمان صرفهجویی کرده و نتیجه را هم به شکلی قابل فهم و گویا، ارائه میکند.
ابزارهای تجسم یا مصور سازی داده روشی آسان برای ایجاد نمایشهای تصویری و بصری از مجموعه دادههای بزرگ را به طراحان ارائه میدهند. هنگام کار با مجموعهای که شامل صدها هزار یا میلیونها نقطه داده باشد، کار مشکلی است. با استفاده از این نرمافزارها، فرآیند ایجاد یک تصویر یا نمودار، تا حدی زیادی، خودکار شده و کار یک طراح را به طور قابل توجهی ساده میکند.
🔸 معرفی فیلم آموزش مصور سازی داده (Data Visualization) در نرم افزار R با بسته ggplot۲
در تحلیل داده، بسیار مهم است که ابتدا آنها را به درستی درک کرده و برای انتقال اطلاعات حاصل از آنها، روشهای مناسبی را انتخاب کنیم. توصیف دادهها و کشف قوانین آنها که به مصور سازی داده (Exploratory Data Visualization) معروف است، در این فرادرس مورد بررسی قرار گرفته است. به طوری که ضمن آشنایی اولیه با تصویر سازی مقدماتی با استفاده از زبان برنامه نویسی R (بسته نرم افزاری Base) که یکی از قدرتمندترین زبانها در راستای تحلیل داده ها است، امکان ترسیم و نمایش اطلاعات از بین دادهها به مخاطبان آموزش داده میشود. ابزارها به کار رفته در این آموزش بسته نرم افزاری ggplot۲ در زبان R است که محبوبیت زیادی نیز دارد.
این آموزش با هفت درس و ۷ ساعت و ۱۹ دقیقه محتوای آموزشی به فراگیران ارائه شده است. سرفصلهای آموزشی به قرار زیر هستند.
– درس یکم: آشنایی مقدماتی با مفهوم تصویرسازی در علم داده و رسم انواع نمودار در R (دستورات بسته یا پکیج Base)
– درس دوم: نکاتی در مورد نمودارهای پرکاربرد
– درس سوم: دستور زبان گرافیک، مقدمه ای بر پکیج ggplot۲
– درس چهارم: لایه زیبا شناختی (Aesthetic) در ggplot۲ و حل مشکل Overplotting
– درس پنجم: لایه هندسی (Geometrics) و لایه صورت بندی (Facet)
– درس ششم: لایه آماری، لایه مختصات، لایه تم و مقدمه ای بر پکیج های dplyr و tidyr
– درس هفتم: مقدمه ای بر پکیجهای GGally و Plotly
مطالعه ادامه مطلب 👇👇
🔗 مصور سازی داده | معرفی ابزارها و نرم افزارها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ انواع داده ها در SPSS — راهنمای کاربردی
دادهها، نتیجه مشاهده یا اندازهگیری پدیدهها طبیعی یا مصنوعی هستند. از طرفی میدانیم، افراد و اشیائی که مشخصات و ویژگیهای مربوط به موضوع مورد بررسی از آنها اندازهگیری میشوند، جامعه آماری را شکل میدهند. به این ترتیب، در جامعه آماری، مشخصات و ویژگیهای یک پدیده مورد اندازهگیری قرار گرفته و نسبت به شناخت آن، دانش مفیدی کسب میکنیم. اعضای جامعه آماری، دارای خصوصیات یا ویژگیهای مشترکی هستند، در غیر اینصورت امکان حضورشان در کنار یکدیگر میسر نمیشد. هر یک از این ویژگیها، براساس شیوه خاصی اندازهگیری و مورد تجزیه و تحلیل قرار میگیرند. به همین جهت در این نوشتار از مجله فرادرس میخواهیم با انواع داده ها در SPSS به عنوان یک نرم افزار پرکاربرد در حوزه آمار و تحلیل داده، آشنا شویم.
══ فهرست مطالب ══
○ انواع داده ها در SPSS
○ انتخاب و تعیین انواع داده ها در SPSS
○ معرفی فیلم آموزش کنترل کیفیت آماری با SPSS فرادرس
○ خلاصه و جمعبندی
🔸 انواع داده ها در SPSS
زمانی که یک متغیر را در SPSS، تعریف میکنید، اولین کار انتخاب یک نام برای آن است. اسامی متغیرها در بالای ستونهای مقادیر در برگه Data View از «پنجره ویرایشگر داده» (Data Editor) ظاهر میشوند. به این ترتیب ستونها را میتوان همان «فیلدها» (Fields) در «بانکهای اطلاعاتی» (Database) محسوب کرد.
هنگام انتخاب نام، باید دقت کنید تا با موازین SPSS، هماهنگ باشد. محدودیتهایی که برای تعیین نام متغیر در SPSS وجود دارند، در ادامه فهرست شدهاند.
– تعداد حروف: حداکثر نام برای متغیرها، ۶۴ حرف یا در حقیقت ۶۴ بایت (Byte) است. البته اگر از نامگذاری متغیرها با حروف فارسی استفاده کنید، تعداد این حروف نصف شده و به ۳۲ حرف میرسد. زیرا حروف فارسی به جای یک بایت، از دو بایت هنگام ذخیره سازی، استفاده میکنند.
– علائم غیرمجاز: استفاده از فاصله در نامگذاری غیر مجاز است. معمولا برای جدا کردن بخشهای نام متغیر از علامت «ـ» استفاده میکنند. همچنین هنگام نامگذاری، نباید ابتدای هیچ متغیری از اعداد یا علائم، $ , # و @ استفاده شود ولی میتوان از آنها در میان عبارت نام، استفاده کرد. برای مثال Noneیک نام معتبر است.
– اسامی غیرمجاز: بعضی از اسامی برای متغیرها در spss، غیر مجاز هستند، زیرا در جای دیگری از این اسامی به عنوان «متغیرهای سیستمی» (System Variables) استفاده شده است. برای مثال عبارتی مانند AND, OR و یا ALL برای نامگذاری مناسب نیستند و با انتخاب آنها برای متغیرها، با پیغام خطا مواجه خواهید شد.
– غیرتکراری: نام هیچ متغیری در یک مجموعه داده (Dataset)، نباید تکراری باشد. تکراری بودن نام متغیرها، طی پیامی به اطلاع کاربران SPSS میرسد.
نکته: به کار بردن اسامی فارسی برای متغیرها مجاز است به شرطی که امکان به کارگیری حروف با Unicode را فعال کرده باشید. البته بهتر است اسامی متغیرها را انگلیسی ولی برچسب (Label) آنها را فارسی انتخاب کنید. باز هم تاکید میکنیم که به کار بردن فاصله بین اجزای نام متغیر، مجاز نیست. برای فعال سازی Unicode به تصویر ۱ توجه کنید.
🔸 انتخاب و تعیین انواع داده ها در SPSS
قبل از شروع کار با نرمافزار محاسبات آماری SPSS، لازم است که متغیرها را معرفی کنیم. هر مقدار یا دستهای از مقادیر حتما باید وابسته به یک متغیر باشد. انتخاب صحیح برای انواع داده ها در SPSS بسیار با اهمیت است، زیرا بعضی از روشهای آماری در این نرمافزار فقط با توجه به انتخاب صحیح نوع داده صورت میگیرد. برای مثال، رسم نمودار یا ترسیم جدول برای دادهها، با توجه به اینکه کاربر به درستی نوع مقادیر یا مقیاس اندازه را وارد کرده، امکانپذیر میگردند. بنابراین اگر این کار به درستی انجام نشده باشد، کاربر، یا با پیغام خطا مواجه خواهد شد، یا خروجی به شکل اشتباه در پنجره نتایج SPSS، نقش خواهد بست.
به یاد داشته باشید که اغلب در یک جامعه آماری، از متغیرهای کمی برای محاسبه شاخصها و از متغیرهای کیفی برای طبقهبندی یا تفکیک جامعه آماری به بخشهای کوچکتر، استفاده میشود. همین موضوع، بخصوص در نرمافزارهای آماری، نظیر SPSS نیز لحاظ شده است. سه نوع مقیاس اندازه، در این نرمافزار مورد توجه است که در زیر فهرست شدهاند.
مطالعه ادامه مطلب 👇👇
🔗 انواع داده ها در SPSS — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
دادهها، نتیجه مشاهده یا اندازهگیری پدیدهها طبیعی یا مصنوعی هستند. از طرفی میدانیم، افراد و اشیائی که مشخصات و ویژگیهای مربوط به موضوع مورد بررسی از آنها اندازهگیری میشوند، جامعه آماری را شکل میدهند. به این ترتیب، در جامعه آماری، مشخصات و ویژگیهای یک پدیده مورد اندازهگیری قرار گرفته و نسبت به شناخت آن، دانش مفیدی کسب میکنیم. اعضای جامعه آماری، دارای خصوصیات یا ویژگیهای مشترکی هستند، در غیر اینصورت امکان حضورشان در کنار یکدیگر میسر نمیشد. هر یک از این ویژگیها، براساس شیوه خاصی اندازهگیری و مورد تجزیه و تحلیل قرار میگیرند. به همین جهت در این نوشتار از مجله فرادرس میخواهیم با انواع داده ها در SPSS به عنوان یک نرم افزار پرکاربرد در حوزه آمار و تحلیل داده، آشنا شویم.
══ فهرست مطالب ══
○ انواع داده ها در SPSS
○ انتخاب و تعیین انواع داده ها در SPSS
○ معرفی فیلم آموزش کنترل کیفیت آماری با SPSS فرادرس
○ خلاصه و جمعبندی
🔸 انواع داده ها در SPSS
زمانی که یک متغیر را در SPSS، تعریف میکنید، اولین کار انتخاب یک نام برای آن است. اسامی متغیرها در بالای ستونهای مقادیر در برگه Data View از «پنجره ویرایشگر داده» (Data Editor) ظاهر میشوند. به این ترتیب ستونها را میتوان همان «فیلدها» (Fields) در «بانکهای اطلاعاتی» (Database) محسوب کرد.
هنگام انتخاب نام، باید دقت کنید تا با موازین SPSS، هماهنگ باشد. محدودیتهایی که برای تعیین نام متغیر در SPSS وجود دارند، در ادامه فهرست شدهاند.
– تعداد حروف: حداکثر نام برای متغیرها، ۶۴ حرف یا در حقیقت ۶۴ بایت (Byte) است. البته اگر از نامگذاری متغیرها با حروف فارسی استفاده کنید، تعداد این حروف نصف شده و به ۳۲ حرف میرسد. زیرا حروف فارسی به جای یک بایت، از دو بایت هنگام ذخیره سازی، استفاده میکنند.
– علائم غیرمجاز: استفاده از فاصله در نامگذاری غیر مجاز است. معمولا برای جدا کردن بخشهای نام متغیر از علامت «ـ» استفاده میکنند. همچنین هنگام نامگذاری، نباید ابتدای هیچ متغیری از اعداد یا علائم، $ , # و @ استفاده شود ولی میتوان از آنها در میان عبارت نام، استفاده کرد. برای مثال Noneیک نام معتبر است.
– اسامی غیرمجاز: بعضی از اسامی برای متغیرها در spss، غیر مجاز هستند، زیرا در جای دیگری از این اسامی به عنوان «متغیرهای سیستمی» (System Variables) استفاده شده است. برای مثال عبارتی مانند AND, OR و یا ALL برای نامگذاری مناسب نیستند و با انتخاب آنها برای متغیرها، با پیغام خطا مواجه خواهید شد.
– غیرتکراری: نام هیچ متغیری در یک مجموعه داده (Dataset)، نباید تکراری باشد. تکراری بودن نام متغیرها، طی پیامی به اطلاع کاربران SPSS میرسد.
نکته: به کار بردن اسامی فارسی برای متغیرها مجاز است به شرطی که امکان به کارگیری حروف با Unicode را فعال کرده باشید. البته بهتر است اسامی متغیرها را انگلیسی ولی برچسب (Label) آنها را فارسی انتخاب کنید. باز هم تاکید میکنیم که به کار بردن فاصله بین اجزای نام متغیر، مجاز نیست. برای فعال سازی Unicode به تصویر ۱ توجه کنید.
🔸 انتخاب و تعیین انواع داده ها در SPSS
قبل از شروع کار با نرمافزار محاسبات آماری SPSS، لازم است که متغیرها را معرفی کنیم. هر مقدار یا دستهای از مقادیر حتما باید وابسته به یک متغیر باشد. انتخاب صحیح برای انواع داده ها در SPSS بسیار با اهمیت است، زیرا بعضی از روشهای آماری در این نرمافزار فقط با توجه به انتخاب صحیح نوع داده صورت میگیرد. برای مثال، رسم نمودار یا ترسیم جدول برای دادهها، با توجه به اینکه کاربر به درستی نوع مقادیر یا مقیاس اندازه را وارد کرده، امکانپذیر میگردند. بنابراین اگر این کار به درستی انجام نشده باشد، کاربر، یا با پیغام خطا مواجه خواهد شد، یا خروجی به شکل اشتباه در پنجره نتایج SPSS، نقش خواهد بست.
به یاد داشته باشید که اغلب در یک جامعه آماری، از متغیرهای کمی برای محاسبه شاخصها و از متغیرهای کیفی برای طبقهبندی یا تفکیک جامعه آماری به بخشهای کوچکتر، استفاده میشود. همین موضوع، بخصوص در نرمافزارهای آماری، نظیر SPSS نیز لحاظ شده است. سه نوع مقیاس اندازه، در این نرمافزار مورد توجه است که در زیر فهرست شدهاند.
مطالعه ادامه مطلب 👇👇
🔗 انواع داده ها در SPSS — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ زبان برنامه نویسی R — معرفی و کاربردها
امروزه، استفاده از رایانهها برای انجام تحلیل دادهها، امری اجتناب ناپذیر است. در این بین زبانهای برنامهنویسی برای انجام عملیات محاسباتی، توسعه یافته، به طوری که هر روز دارای امکانات بیشتری شده و روزآمد (Update) میشوند. در این بین زبانهای برنامهنویسی محاسباتی مانند R و «پایتون» Python از محبوبیت زیادی برخوردارند. در این نوشتار از مجله فرادرس به زبان برنامه نویسی R پرداخته شده است و علاوه بر معرفی آن، کاربردهای آن در حوزه تحلیل داده مورد بررسی قرار میدهیم. در انتهای این متن، مزایا و معایب استفاده از این زبان برنامهنویسی نیز برای خوانندگان ارائه خواهد شد.
══ فهرست مطالب ══
○ زبان برنامه نویسی R
○ چرا از R استفاده کنیم؟
○ آیا باید زبان برنامه نویسی R را برای کار انتخاب کرد؟
○ مزایا و معایب زبان برنامه نویسی R
○ نرمافزار RStudio
○ معرفی فیلم آموزشی برنامه نویسی R و نرم افزار RStudio – مقدماتی
○ خلاصه و جمعبندی
🔸 زبان برنامه نویسی R
R یک زبان برنامهنویسی و نرم افزار رایگان است که توسط «راس ایهاکا» (Ross Ihaka) و «رابرت جنتلمن» (Robert Gentleman) در سال ۱۹۹۳ تهیه شده است. R دارای کتابخانههای گستردهای از انواع روشهای آماری و شیوههای ترسیم نمودارها است. در این زبان برنامه نویسی، «الگوریتمهای یادگیری ماشین» (Machine Learning Algorithm)، «رگرسیون خطی» (Linear Regression)، «سریهای زمانی» (Time Series) و «استنباط آماری» (Statistical Inference) قابل استفاده هستند.
بیشتر «کتابخانههای» (Library) یا «بستههای» (Package) قابل دسترس در R، با خود زبان برنامه نویسی R نوشته شدهاند، اما برای کارهای محاسباتی سنگین، کدهایی به زبانهای C++ ،C و Fortran نیز قابل دسترس بوده و کتابخانههایی با این زبانها، نوشته شدهاند.
زبان برنامهنویسی R نه تنها در بین دانشگاهیان و محققین مورد اقبال قرار گرفته است، بلکه بسیاری از شرکتهای بزرگ نیز از زبان برنامه نویسی R استفاده میکنند. در این بین میتوان به شرکتهایی مانند Uber ،Google ،Airbnb و Facebook اشاره کرد.
🔸 چرا از R استفاده کنیم؟
علم داده در حال شکل دادن به نحوه فعالیت شرکتها است. بدون شک استفاده نکردن از هوش مصنوعی و یادگیری ماشین باعث شکست شرکتها در فعالیتهای تجاری خواهد شد. سوال اصلی این است که از کدام ابزار یا زبان برای تحلیل دادهها استفاده کنیم؟
تعداد زیادی از ابزارهای تجاری برای اجرای تعاملات مالی و تجزیه و تحلیل آنها وجود دارد. ولی متاسفانه اغلب آنها پولی هستند. از طرفی ممکن است سازگاری لازم با نحوه کار شرکت شما یا روند دادههایتان را نداشته باشند. از جنبه دیگر، آموختن یک زبان برنامهنویسی جدید، کار طولانی و پیچیدهای است.
آیا واقعاً آموختن زبان برنامهنویسی R پیچیده است؟ توجه داشته باشید که باید یک توازن بین پیچیدگی و کارایی در نظر گرفت و بهترین زبان برنامهنویسی را برای امور شرکت انتخاب کرد. در تصویر ۴، نموداری را مشاهده میکنید که به مقایسه کارایی و سادگی در آموزش بین زبانها و نرمافزارهای تحلیل مالی پرداخته است. اگر میخواهید بهترین اطلاعات را از دادهها کسب کرده و به نمایش بگذارید، باید مدتی را صرف یادگیری ابزار مناسب آن، یعنی زبان برنامه نویسی R کنید.
مطالعه ادامه مطلب 👇👇
🔗 زبان برنامه نویسی R — معرفی و کاربردها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
امروزه، استفاده از رایانهها برای انجام تحلیل دادهها، امری اجتناب ناپذیر است. در این بین زبانهای برنامهنویسی برای انجام عملیات محاسباتی، توسعه یافته، به طوری که هر روز دارای امکانات بیشتری شده و روزآمد (Update) میشوند. در این بین زبانهای برنامهنویسی محاسباتی مانند R و «پایتون» Python از محبوبیت زیادی برخوردارند. در این نوشتار از مجله فرادرس به زبان برنامه نویسی R پرداخته شده است و علاوه بر معرفی آن، کاربردهای آن در حوزه تحلیل داده مورد بررسی قرار میدهیم. در انتهای این متن، مزایا و معایب استفاده از این زبان برنامهنویسی نیز برای خوانندگان ارائه خواهد شد.
══ فهرست مطالب ══
○ زبان برنامه نویسی R
○ چرا از R استفاده کنیم؟
○ آیا باید زبان برنامه نویسی R را برای کار انتخاب کرد؟
○ مزایا و معایب زبان برنامه نویسی R
○ نرمافزار RStudio
○ معرفی فیلم آموزشی برنامه نویسی R و نرم افزار RStudio – مقدماتی
○ خلاصه و جمعبندی
🔸 زبان برنامه نویسی R
R یک زبان برنامهنویسی و نرم افزار رایگان است که توسط «راس ایهاکا» (Ross Ihaka) و «رابرت جنتلمن» (Robert Gentleman) در سال ۱۹۹۳ تهیه شده است. R دارای کتابخانههای گستردهای از انواع روشهای آماری و شیوههای ترسیم نمودارها است. در این زبان برنامه نویسی، «الگوریتمهای یادگیری ماشین» (Machine Learning Algorithm)، «رگرسیون خطی» (Linear Regression)، «سریهای زمانی» (Time Series) و «استنباط آماری» (Statistical Inference) قابل استفاده هستند.
بیشتر «کتابخانههای» (Library) یا «بستههای» (Package) قابل دسترس در R، با خود زبان برنامه نویسی R نوشته شدهاند، اما برای کارهای محاسباتی سنگین، کدهایی به زبانهای C++ ،C و Fortran نیز قابل دسترس بوده و کتابخانههایی با این زبانها، نوشته شدهاند.
زبان برنامهنویسی R نه تنها در بین دانشگاهیان و محققین مورد اقبال قرار گرفته است، بلکه بسیاری از شرکتهای بزرگ نیز از زبان برنامه نویسی R استفاده میکنند. در این بین میتوان به شرکتهایی مانند Uber ،Google ،Airbnb و Facebook اشاره کرد.
🔸 چرا از R استفاده کنیم؟
علم داده در حال شکل دادن به نحوه فعالیت شرکتها است. بدون شک استفاده نکردن از هوش مصنوعی و یادگیری ماشین باعث شکست شرکتها در فعالیتهای تجاری خواهد شد. سوال اصلی این است که از کدام ابزار یا زبان برای تحلیل دادهها استفاده کنیم؟
تعداد زیادی از ابزارهای تجاری برای اجرای تعاملات مالی و تجزیه و تحلیل آنها وجود دارد. ولی متاسفانه اغلب آنها پولی هستند. از طرفی ممکن است سازگاری لازم با نحوه کار شرکت شما یا روند دادههایتان را نداشته باشند. از جنبه دیگر، آموختن یک زبان برنامهنویسی جدید، کار طولانی و پیچیدهای است.
آیا واقعاً آموختن زبان برنامهنویسی R پیچیده است؟ توجه داشته باشید که باید یک توازن بین پیچیدگی و کارایی در نظر گرفت و بهترین زبان برنامهنویسی را برای امور شرکت انتخاب کرد. در تصویر ۴، نموداری را مشاهده میکنید که به مقایسه کارایی و سادگی در آموزش بین زبانها و نرمافزارهای تحلیل مالی پرداخته است. اگر میخواهید بهترین اطلاعات را از دادهها کسب کرده و به نمایش بگذارید، باید مدتی را صرف یادگیری ابزار مناسب آن، یعنی زبان برنامه نویسی R کنید.
مطالعه ادامه مطلب 👇👇
🔗 زبان برنامه نویسی R — معرفی و کاربردها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ مسئله منشی و تصمیم بهینه | به زبان ساده
مسئله منشی معمای مشهوری در حوزه تصمیم و احتمال همچنین بهینهسازی است. هدف از طرح این مسئله، پیدا کردن بهترین استراتژی در زمانی است که دنبالهای از انتخابها وجود داشته و باید از بین آنها بهترین را انتخاب کنیم. این مسئله در اواخر دهه ۵۰ و ۶۰ میلادی ظاهر شد و تبدیل به یک بازی فکری برای ریاضیدانان و آمارشناسان گردید. به دلیل اهمیت این موضوع، همچنین ترکیب مسائل احتمال با بهینه کردن یک تابع، مسئله منشی و تصمیم بهینه را مبنای این متن از مجله فرادرس قرار دادهایم.
══ فهرست مطالب ══
○ مسئله منشی و تصمیم بهینه
○ خلاصه و جمعبندی
🔸 مسئله منشی و تصمیم بهینه
مسئله منشی مربوط به انتخاب یا تصمیم در شرایط بدون اطمینان یا تصادفی است. در نتیجه با احتمال و بخصوص احتمال شرطی در نظریه احتمال سروکار داریم. از طرفی براساس شرایط مسئله به دنبال بهترین تصمیم میگردیم. پس مسئله یک موضوع بهینهسازی نیز هست. فرمولبندی و ادغام شرطهای مسئله باعث ایجاد یک الگو برای حل مسائلی از این نوع خواهد شد که به زبان ریاضی بیان شده و قابل حل هستند. ابتدا خود مسئله منشی و تصمیم بهینه را در موقعیت مشخص، ذکر کرده و شرطهای مربوطه را بیان میکنیم.
فرض کنید که شما مدیر منابع انسانی یک شرکت هستید و باید از بین تعداد مشخصی از درخواستکنندگان موقعیت شغلی، بهترین منشی را استخدام کنید. این کار را میتوانید به صورت انتخاب تصادفی از بین همه افرادی که مصاحبه شدهاند انجام دهید. ولی در این صورت شاید بهترین فرد برای کار شما انتخاب نشود.
شرایط مسئله منشی و تصمیم بهینه نیز مقداری پیچیده است. برای مثال، تصمیم گیری در مورد قبول یا رد یک متقاضی خاص باید بلافاصله پس از مصاحبه انجام شود. اگر کسی قبل از پایان، پذیرفته نشده باشد، آخرین داوطلب انتخاب میشود. بنابراین سوال این است که از چه راهکاری برای به حداکثر رساندن شانس استخدام بهترین متقاضی لازم است؟
🔸 خلاصه و جمعبندی
در این نوشتار به یکی از مسائل جالب در حوزه بهینهسازی و احتمال به نام مسئله منشی و تصمیم بهینه پرداختیم. همانطور که دیدید، طرح یک مسئله بهینهسازی ریاضیاتی براساس احتمال شرطی ساخته و حل شد. جالب است که حاصل این بهینهسازی ما را به عکس عدد نپر ($$\frac{۱}{e}$$) سوق میدهد. در این بین مثالهایی از طرحها و سناریوهای مختلف، برای روشنتر شدن موضوع نیز ارائه شد.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای الگوریتمهای بهینهسازی هوشمند
– آموزش تئوری و عملی الگوریتمهای ژنتیک
– مجموعه آموزشهای هوش مصنوعی
– مجموعه آموزشهای الگوریتمهای ژنتیک و محاسبات تکاملی
– بهینهسازی چند هدفه چیست؟ — راهنمای جامع
– بهینهسازی نسبت طلایی — از صفر تا صد
مطالعه ادامه مطلب 👇👇
🔗 مسئله منشی و تصمیم بهینه | به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
مسئله منشی معمای مشهوری در حوزه تصمیم و احتمال همچنین بهینهسازی است. هدف از طرح این مسئله، پیدا کردن بهترین استراتژی در زمانی است که دنبالهای از انتخابها وجود داشته و باید از بین آنها بهترین را انتخاب کنیم. این مسئله در اواخر دهه ۵۰ و ۶۰ میلادی ظاهر شد و تبدیل به یک بازی فکری برای ریاضیدانان و آمارشناسان گردید. به دلیل اهمیت این موضوع، همچنین ترکیب مسائل احتمال با بهینه کردن یک تابع، مسئله منشی و تصمیم بهینه را مبنای این متن از مجله فرادرس قرار دادهایم.
══ فهرست مطالب ══
○ مسئله منشی و تصمیم بهینه
○ خلاصه و جمعبندی
🔸 مسئله منشی و تصمیم بهینه
مسئله منشی مربوط به انتخاب یا تصمیم در شرایط بدون اطمینان یا تصادفی است. در نتیجه با احتمال و بخصوص احتمال شرطی در نظریه احتمال سروکار داریم. از طرفی براساس شرایط مسئله به دنبال بهترین تصمیم میگردیم. پس مسئله یک موضوع بهینهسازی نیز هست. فرمولبندی و ادغام شرطهای مسئله باعث ایجاد یک الگو برای حل مسائلی از این نوع خواهد شد که به زبان ریاضی بیان شده و قابل حل هستند. ابتدا خود مسئله منشی و تصمیم بهینه را در موقعیت مشخص، ذکر کرده و شرطهای مربوطه را بیان میکنیم.
فرض کنید که شما مدیر منابع انسانی یک شرکت هستید و باید از بین تعداد مشخصی از درخواستکنندگان موقعیت شغلی، بهترین منشی را استخدام کنید. این کار را میتوانید به صورت انتخاب تصادفی از بین همه افرادی که مصاحبه شدهاند انجام دهید. ولی در این صورت شاید بهترین فرد برای کار شما انتخاب نشود.
شرایط مسئله منشی و تصمیم بهینه نیز مقداری پیچیده است. برای مثال، تصمیم گیری در مورد قبول یا رد یک متقاضی خاص باید بلافاصله پس از مصاحبه انجام شود. اگر کسی قبل از پایان، پذیرفته نشده باشد، آخرین داوطلب انتخاب میشود. بنابراین سوال این است که از چه راهکاری برای به حداکثر رساندن شانس استخدام بهترین متقاضی لازم است؟
🔸 خلاصه و جمعبندی
در این نوشتار به یکی از مسائل جالب در حوزه بهینهسازی و احتمال به نام مسئله منشی و تصمیم بهینه پرداختیم. همانطور که دیدید، طرح یک مسئله بهینهسازی ریاضیاتی براساس احتمال شرطی ساخته و حل شد. جالب است که حاصل این بهینهسازی ما را به عکس عدد نپر ($$\frac{۱}{e}$$) سوق میدهد. در این بین مثالهایی از طرحها و سناریوهای مختلف، برای روشنتر شدن موضوع نیز ارائه شد.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای الگوریتمهای بهینهسازی هوشمند
– آموزش تئوری و عملی الگوریتمهای ژنتیک
– مجموعه آموزشهای هوش مصنوعی
– مجموعه آموزشهای الگوریتمهای ژنتیک و محاسبات تکاملی
– بهینهسازی چند هدفه چیست؟ — راهنمای جامع
– بهینهسازی نسبت طلایی — از صفر تا صد
مطالعه ادامه مطلب 👇👇
🔗 مسئله منشی و تصمیم بهینه | به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آنالیز واریانس دو طرفه در اکسل — راهنمای کاربردی
تجزیه و تحلیل یا به اصطلاح «آنالیز واریانس» (Analysis of Variance) یک تکنیک آماری است که با استفاده از تجزیه واریانس به چند بخش، اثر تیمارها روی یک متغیر وابسته را تعیین میکند. در این بین تحلیل یا آنالیز واریانس دو طرفه به علت پیچیدگی محاسباتی کمتر به صورت دستی مورد بهره برداری قرار میگیرد. در این نوشتار از مجله فرادرس به بررسی آنالیز واریانس دو طرفه در اکسل پرداخته و شیوه اجرای آن را به کمک ابزار محاسبات آماری در اکسل (Analysis Toolpack) بازگو خواهیم کرد. البته در نوشتار قبلی از این سری، آنالیز واریانس یک طرفه در اکسل نیز معرفی شد.
══ فهرست مطالب ══
○ آنالیز واریانس دو طرفه در اکسل
○ معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab
○ خلاصه و جمعبندی
🔸 آنالیز واریانس دو طرفه در اکسل
از تکنیک «آنالیز واریانس دو طرفه» (two-way ANOVA) برای ارزیابی و نمایش تفاوت معنیدار بین دو نوع تیمار (با تعداد سطوح مختلف) استفاده میشود. گاهی به این تیمارها، عامل نیز گفته شده و در نتیجه ANOVA دو طرفه را، تحلیل واریانس دو عاملی (Two Factor ANOVA) نیز مینامند.
در این نوشتار، ما از طریق ANOVA دو طرفه و با استفاده از ابزارهای تحلیل آماری اکسل، یک مثال در این زمینه را مورد بررسی قرار داده و نتایج را تفسیر خواهیم کرد.
در این بین از بسته تحلیل یا محاسبات آماری اختصاصی اکسل بهره میبریم. حتی اگر به بسته آماری اکسل (Analysis ToolPak) نیز دسترسی ندارید، باز هم به کارگیری تحلیل واریانس دو طرفه در اکسل قابل اجرا است. کافی است الگوی محاسباتی که در این متن به آن اشاره میشود را به صورت فرمول در سلولها درج کنید، هر چند به کارگیری بسته تحلیل اکسل کار را سادهتر و دقیقتر انجام میدهد.
🔸 معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab
یکی از کاربردهای تجزیه و تحلیل یا همان آنالیز واریانس در طراحی و تحلیل آزمایشها (Experimental Design) است. فرادرس نیز در یکی از فیلمهای آموزشی خود به این موضوع پرداخته است.
از آنجایی که بار محاسباتی زیادی برای طرح آزمایشها و دریافت نتایج آن مورد احتیاج است، از نرمافزارهای محاسباتی یا بستههای آماری نظیر SPSS یا MINITAB برای انجام این کار استفاده میکنند. به همین دلیل در این بخش به معرفی فیلم آموزشی فرادرس با عنوان «طراحی و تحلیل آزمایش ها با SPSS و Minitab» پرداختهایم.
این آموزش دارای ۱۲ درس بوده و فیلم آموزشی آن ۹ ساعت و ۳۹ دقیقه است. عنوانهای اصلی آموزشی، در فهرست زیر شرح داده شدهاند.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز واریانس دو طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
تجزیه و تحلیل یا به اصطلاح «آنالیز واریانس» (Analysis of Variance) یک تکنیک آماری است که با استفاده از تجزیه واریانس به چند بخش، اثر تیمارها روی یک متغیر وابسته را تعیین میکند. در این بین تحلیل یا آنالیز واریانس دو طرفه به علت پیچیدگی محاسباتی کمتر به صورت دستی مورد بهره برداری قرار میگیرد. در این نوشتار از مجله فرادرس به بررسی آنالیز واریانس دو طرفه در اکسل پرداخته و شیوه اجرای آن را به کمک ابزار محاسبات آماری در اکسل (Analysis Toolpack) بازگو خواهیم کرد. البته در نوشتار قبلی از این سری، آنالیز واریانس یک طرفه در اکسل نیز معرفی شد.
══ فهرست مطالب ══
○ آنالیز واریانس دو طرفه در اکسل
○ معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab
○ خلاصه و جمعبندی
🔸 آنالیز واریانس دو طرفه در اکسل
از تکنیک «آنالیز واریانس دو طرفه» (two-way ANOVA) برای ارزیابی و نمایش تفاوت معنیدار بین دو نوع تیمار (با تعداد سطوح مختلف) استفاده میشود. گاهی به این تیمارها، عامل نیز گفته شده و در نتیجه ANOVA دو طرفه را، تحلیل واریانس دو عاملی (Two Factor ANOVA) نیز مینامند.
در این نوشتار، ما از طریق ANOVA دو طرفه و با استفاده از ابزارهای تحلیل آماری اکسل، یک مثال در این زمینه را مورد بررسی قرار داده و نتایج را تفسیر خواهیم کرد.
در این بین از بسته تحلیل یا محاسبات آماری اختصاصی اکسل بهره میبریم. حتی اگر به بسته آماری اکسل (Analysis ToolPak) نیز دسترسی ندارید، باز هم به کارگیری تحلیل واریانس دو طرفه در اکسل قابل اجرا است. کافی است الگوی محاسباتی که در این متن به آن اشاره میشود را به صورت فرمول در سلولها درج کنید، هر چند به کارگیری بسته تحلیل اکسل کار را سادهتر و دقیقتر انجام میدهد.
🔸 معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab
یکی از کاربردهای تجزیه و تحلیل یا همان آنالیز واریانس در طراحی و تحلیل آزمایشها (Experimental Design) است. فرادرس نیز در یکی از فیلمهای آموزشی خود به این موضوع پرداخته است.
از آنجایی که بار محاسباتی زیادی برای طرح آزمایشها و دریافت نتایج آن مورد احتیاج است، از نرمافزارهای محاسباتی یا بستههای آماری نظیر SPSS یا MINITAB برای انجام این کار استفاده میکنند. به همین دلیل در این بخش به معرفی فیلم آموزشی فرادرس با عنوان «طراحی و تحلیل آزمایش ها با SPSS و Minitab» پرداختهایم.
این آموزش دارای ۱۲ درس بوده و فیلم آموزشی آن ۹ ساعت و ۳۹ دقیقه است. عنوانهای اصلی آموزشی، در فهرست زیر شرح داده شدهاند.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز واریانس دو طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آزمون تی طبقه ای در SAS و R — راهنمای کابردی
آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه میدهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمونهای دیگری به جای آزمون تی طبقه ای مورد استفاده قرار میگیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روشهای جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.
══ فهرست مطالب ══
○ آزمون تی طبقه ای
○ پیشفرضهای آزمون تی طبقه ای
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون تی طبقه ای
آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار میگیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت میگیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونهها است.
اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونهها براساس یک طرح نمونهگیری طبقهای است. در این صورت نمونهها مستقل از دو جامعه، طی یک «نمونهگیری طبقهای» (Stratified) جمعآوری شدهاند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدولهای این توزیع مراجعه میشود.
از آنجایی که طرح نمونهگیری طبقهای به کار رفته و ممکن است رابطهای بین طبقهها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance میدانند.
🔸 پیشفرضهای آزمون تی طبقه ای
ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامهنویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید دادههای مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آنها اطمینان حاصل کنیم.
در روشهای آمار پارامتری فرض بر این است که دادهها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای دادهها، توزیع گاوسی یا نرمال در نظر گرفته میشود. ولی اگر توزیع این دادهها گاوسی یا نرمال نباشد، پیشفرضهای مربوط به آزمونها و تحلیلهای آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روشهای آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن دادهها مطلع شویم؟
خوشبختانه روشهای زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که میتوان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان میآید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روشهای نرمالیتی و سنجش توزیع دادهها را بهتر درک کنید. البته در اینجا از معرفی این تکنیکها صرف نظر کرده و خواننده را به لینکها ارائه شده، ارجاع میدهیم.
مطالعه ادامه مطلب 👇👇
🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه میدهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمونهای دیگری به جای آزمون تی طبقه ای مورد استفاده قرار میگیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روشهای جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.
══ فهرست مطالب ══
○ آزمون تی طبقه ای
○ پیشفرضهای آزمون تی طبقه ای
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون تی طبقه ای
آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار میگیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت میگیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونهها است.
اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونهها براساس یک طرح نمونهگیری طبقهای است. در این صورت نمونهها مستقل از دو جامعه، طی یک «نمونهگیری طبقهای» (Stratified) جمعآوری شدهاند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدولهای این توزیع مراجعه میشود.
از آنجایی که طرح نمونهگیری طبقهای به کار رفته و ممکن است رابطهای بین طبقهها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance میدانند.
🔸 پیشفرضهای آزمون تی طبقه ای
ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامهنویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید دادههای مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آنها اطمینان حاصل کنیم.
در روشهای آمار پارامتری فرض بر این است که دادهها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای دادهها، توزیع گاوسی یا نرمال در نظر گرفته میشود. ولی اگر توزیع این دادهها گاوسی یا نرمال نباشد، پیشفرضهای مربوط به آزمونها و تحلیلهای آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روشهای آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن دادهها مطلع شویم؟
خوشبختانه روشهای زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که میتوان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان میآید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روشهای نرمالیتی و سنجش توزیع دادهها را بهتر درک کنید. البته در اینجا از معرفی این تکنیکها صرف نظر کرده و خواننده را به لینکها ارائه شده، ارجاع میدهیم.
مطالعه ادامه مطلب 👇👇
🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی
هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق میافتد که در هنگام جمع اوری دادهها دقت کافی صورت نگرفته باشد. در چنین مواردی میگوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج میبرد. راه کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آنها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامهنویسی پایتون مورد تحلیل قرار میدهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتمها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.
══ فهرست مطالب ══
○ مدیریت داده گمشده در داده کاوی با پایتون
○ خلاصه و جمعبندی
🔸 مدیریت داده گمشده در داده کاوی با پایتون
به روشهای مختلفی میتوان بر مشکل دادهها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آنها لزوم توجه به دادههای گمشده را به نوعی بیان میکند.
– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمیکند.
– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.
کتابخانههای پایتون دادههای گمشده را به صورت عبارت nan نشان میدهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانهها میتوانید مشخص کنید که کدام سلولها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:
اگر میخواهید با استفاده از دادهها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانهها (از جمله scikit-learn) و تابع مدلسازی پیغامی مبنی بر وجود خطا ظاهر میسازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.
🔸 خلاصه و جمعبندی
در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی دادهها است، بررسی داده گمشده بسیار مهم جلوه میکند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونههای مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتمهای متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیادهسازی شدهاند. در این متن به بررسی این الگوریتمها یا راه کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای آمار و احتمالات
– آموزش داده کاوی و زبان برنامه نویسی R
– مجموعه آموزشهای داده کاوی و یادگیری ماشین
– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب
– داده گمشده یا ناموجود (Missing Data) در R – روشهای پاکسازی دادهها
– دادههای سانسور شده (Censored Data) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق میافتد که در هنگام جمع اوری دادهها دقت کافی صورت نگرفته باشد. در چنین مواردی میگوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج میبرد. راه کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آنها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامهنویسی پایتون مورد تحلیل قرار میدهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتمها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.
══ فهرست مطالب ══
○ مدیریت داده گمشده در داده کاوی با پایتون
○ خلاصه و جمعبندی
🔸 مدیریت داده گمشده در داده کاوی با پایتون
به روشهای مختلفی میتوان بر مشکل دادهها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آنها لزوم توجه به دادههای گمشده را به نوعی بیان میکند.
– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمیکند.
– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.
کتابخانههای پایتون دادههای گمشده را به صورت عبارت nan نشان میدهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانهها میتوانید مشخص کنید که کدام سلولها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:
اگر میخواهید با استفاده از دادهها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانهها (از جمله scikit-learn) و تابع مدلسازی پیغامی مبنی بر وجود خطا ظاهر میسازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.
🔸 خلاصه و جمعبندی
در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی دادهها است، بررسی داده گمشده بسیار مهم جلوه میکند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونههای مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتمهای متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیادهسازی شدهاند. در این متن به بررسی این الگوریتمها یا راه کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای آمار و احتمالات
– آموزش داده کاوی و زبان برنامه نویسی R
– مجموعه آموزشهای داده کاوی و یادگیری ماشین
– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب
– داده گمشده یا ناموجود (Missing Data) در R – روشهای پاکسازی دادهها
– دادههای سانسور شده (Censored Data) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ بوت استرپ در علم داده به زبان پایتون | راهنمای کاربردی
یکی از تکنیکهای مهم و ناپارامتری برای برآورد خطای مدلها و برآوردگرهای آماری، استفاده از نمونهگیری مجدد (بازنمونهگیری- Resampling) و محاسبه برآوردگر تحت نمونههای مختلف است. در این صورت واریانس یا انحراف معیار مقدار برآوردگرها حاصل از نمونههای مختلف، به عنوان خطای برآوردگر در نظر گرفته میشود. در حقیقت، چنین شیوهای برای پیدا کردن خطای برآوردگر را «بوت استرپ» (Bootstrap) مینامند. از آنجایی که بوت استرپ در علم داده یک روش و تکنیک رایانهای است، در این نوشتار به کمک زبان برنامهنویسی پایتون به پیاده سازی آن پرداختهایم.
══ فهرست مطالب ══
○ بوت استرپ در علم داده به زبان پایتون
○ خلاصه و جمعبندی
🔸 بوت استرپ در علم داده به زبان پایتون
بوت استرپ در علم داده روشی قدرتمند و مبتنی بر رایانه برای استنباط آماری بدون تکیه بر فرضیههای زیاد است. این فقط جادویی است که از یک نمونه داده میتوان یک توزیع نمونه برداری تولید کرد. برای استنباط آماری در بوت استرپ هیچ احتیاجی به اطلاع از توزیع آماری برآوردگرها نیست. به این ترتیب «بوت استرپ» (Bootstrap) برای ایجاد «فاصله اطمینان» (Confidence Interval)، «مدل رگرسیونی» (Regression Model)، حتی در زمینه «یادگیری ماشین» (Machine Learning) به طور گستردهای به کار برده میشود.
در این متن ما در مورد دو موضوع وابسته به بوت استرپ در علم داده صحبت خواهیم کرد:
– ساخت فاصله اطمینان
– انجام آزمون فرض آماری
البته هر یک از این موارد را هم به کمک روشهای صریح آماری و هم به کمک بوت استرپ انجام داده و نتایج حاصل را با هم مقایسه میکنیم. در این بین با توجه به گستردگی زبان پایتون در انجام روشهای مطرح در علم داده، کدهایی نیز به این زبان برای اجرای محاسبات و عملیات مربوطه معرفی میکنیم.
در دنیای واقعی، به طور صریح در مورد جمعیت یا جامعه آماری و خصوصیات و ویژگیهای متغیرهای آن اطلاعاتی نداریم. برای مثال جامعه آماری مورد بحث ما آن میتواند کل جمعیت کره زمین یا معاملات گذشته در بازار سهام و حتی، گردش مالی حال و آینده یک شرکت باشد. مشکل اصلی این است که با توجه به زیاد بودن اندازه جامعه آماری، مجبور به نمونهگیری هستیم تا برآورد مناسبی برای ویژگیهای آماری جامعه در اختیار داشته باشیم.
🔸 خلاصه و جمعبندی
در این نوشتار با توجه به شیوه باز نمونهگیری بوت استرپ در علم داده به محاسبه فاصله اطمینان و آزمون آماری پرداختیم و براساس مثالی از دادهها، در زبان پایتون به پیادهسازی تکنیک بوت استرپ اقدام کردیم. همانطور که دیده شد، نتایج حاصل از برآوردگرهای بدست آمده از تکنیک بوت استرپ در علم داده با مقدارهای حاصل از روشهای آماری تفاوت چندانی ندارند و به طور تقریبی زمانی که از توزیع آمارههای مورد نظر اطلاعی نداریم، نتایج رضایت بخشی از بوت استرپ بدست میآید.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزش های SPSS
– آموزش آزمون آماری و پی مقدار (p-value)
– مجموعه آموزشهای مینی تب | آموزش Minitab
– آموزش مقدماتی تحلیل داده ها با نرم افزار آماری Minitab
– فاصله اطمینان (Confidence Interval) — به زبان ساده
– بوت استرپ (Bootstrapping) در SPSS — راهنمای کاربردی
– روش های نمونهگیری (Sampling) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 بوت استرپ در علم داده به زبان پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
یکی از تکنیکهای مهم و ناپارامتری برای برآورد خطای مدلها و برآوردگرهای آماری، استفاده از نمونهگیری مجدد (بازنمونهگیری- Resampling) و محاسبه برآوردگر تحت نمونههای مختلف است. در این صورت واریانس یا انحراف معیار مقدار برآوردگرها حاصل از نمونههای مختلف، به عنوان خطای برآوردگر در نظر گرفته میشود. در حقیقت، چنین شیوهای برای پیدا کردن خطای برآوردگر را «بوت استرپ» (Bootstrap) مینامند. از آنجایی که بوت استرپ در علم داده یک روش و تکنیک رایانهای است، در این نوشتار به کمک زبان برنامهنویسی پایتون به پیاده سازی آن پرداختهایم.
══ فهرست مطالب ══
○ بوت استرپ در علم داده به زبان پایتون
○ خلاصه و جمعبندی
🔸 بوت استرپ در علم داده به زبان پایتون
بوت استرپ در علم داده روشی قدرتمند و مبتنی بر رایانه برای استنباط آماری بدون تکیه بر فرضیههای زیاد است. این فقط جادویی است که از یک نمونه داده میتوان یک توزیع نمونه برداری تولید کرد. برای استنباط آماری در بوت استرپ هیچ احتیاجی به اطلاع از توزیع آماری برآوردگرها نیست. به این ترتیب «بوت استرپ» (Bootstrap) برای ایجاد «فاصله اطمینان» (Confidence Interval)، «مدل رگرسیونی» (Regression Model)، حتی در زمینه «یادگیری ماشین» (Machine Learning) به طور گستردهای به کار برده میشود.
در این متن ما در مورد دو موضوع وابسته به بوت استرپ در علم داده صحبت خواهیم کرد:
– ساخت فاصله اطمینان
– انجام آزمون فرض آماری
البته هر یک از این موارد را هم به کمک روشهای صریح آماری و هم به کمک بوت استرپ انجام داده و نتایج حاصل را با هم مقایسه میکنیم. در این بین با توجه به گستردگی زبان پایتون در انجام روشهای مطرح در علم داده، کدهایی نیز به این زبان برای اجرای محاسبات و عملیات مربوطه معرفی میکنیم.
در دنیای واقعی، به طور صریح در مورد جمعیت یا جامعه آماری و خصوصیات و ویژگیهای متغیرهای آن اطلاعاتی نداریم. برای مثال جامعه آماری مورد بحث ما آن میتواند کل جمعیت کره زمین یا معاملات گذشته در بازار سهام و حتی، گردش مالی حال و آینده یک شرکت باشد. مشکل اصلی این است که با توجه به زیاد بودن اندازه جامعه آماری، مجبور به نمونهگیری هستیم تا برآورد مناسبی برای ویژگیهای آماری جامعه در اختیار داشته باشیم.
🔸 خلاصه و جمعبندی
در این نوشتار با توجه به شیوه باز نمونهگیری بوت استرپ در علم داده به محاسبه فاصله اطمینان و آزمون آماری پرداختیم و براساس مثالی از دادهها، در زبان پایتون به پیادهسازی تکنیک بوت استرپ اقدام کردیم. همانطور که دیده شد، نتایج حاصل از برآوردگرهای بدست آمده از تکنیک بوت استرپ در علم داده با مقدارهای حاصل از روشهای آماری تفاوت چندانی ندارند و به طور تقریبی زمانی که از توزیع آمارههای مورد نظر اطلاعی نداریم، نتایج رضایت بخشی از بوت استرپ بدست میآید.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزش های SPSS
– آموزش آزمون آماری و پی مقدار (p-value)
– مجموعه آموزشهای مینی تب | آموزش Minitab
– آموزش مقدماتی تحلیل داده ها با نرم افزار آماری Minitab
– فاصله اطمینان (Confidence Interval) — به زبان ساده
– بوت استرپ (Bootstrapping) در SPSS — راهنمای کاربردی
– روش های نمونهگیری (Sampling) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 بوت استرپ در علم داده به زبان پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی
در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آنها برای ایجاد یک گردش کاری با بهرهوری بالا و کار تیمی در حوزه علوم داده میپردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژههای یادگیری ماشین کردهاند. همچنین برای برخی دانشمندان علوم داده که میخواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پارهای موارد مفید خواهد بود.
══ فهرست مطالب ══
○ گیت
○ پایتون
○ VSCode
○ Notion
○ Grammarly
○ سخن پایانی
🔸 گیت
در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیتهاب آشنا هستید. اگر فکر میکنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، میتوانید از مطلب زیر استفاده کنید:
– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده
مؤثرترین روش برای تعامل با ریپازیتوری گیتهاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستمهای مک) که یکپارچگی شگفتانگیزی با گیت ارائه میکند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی میکند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم میشود.
پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو میتوانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدالها (Badges) مانند تصویر زیر بر آن بیفزایید.
🔸 پایتون
در این بخش به توضیح روش نصب لوکال پکیجهای پایتون با استفاده از pip و virtualenv میپردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، میتوانید از دستور زیر بهره بگیرید:
دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب میکند. اگر از قبل نسخهای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه میکند.
ابتدا ابزار مدیریت محیط را با دستور زیر نصب میکنیم:
مطالعه ادامه مطلب 👇👇
🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آنها برای ایجاد یک گردش کاری با بهرهوری بالا و کار تیمی در حوزه علوم داده میپردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژههای یادگیری ماشین کردهاند. همچنین برای برخی دانشمندان علوم داده که میخواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پارهای موارد مفید خواهد بود.
══ فهرست مطالب ══
○ گیت
○ پایتون
○ VSCode
○ Notion
○ Grammarly
○ سخن پایانی
🔸 گیت
در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیتهاب آشنا هستید. اگر فکر میکنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، میتوانید از مطلب زیر استفاده کنید:
– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده
مؤثرترین روش برای تعامل با ریپازیتوری گیتهاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستمهای مک) که یکپارچگی شگفتانگیزی با گیت ارائه میکند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی میکند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم میشود.
پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو میتوانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدالها (Badges) مانند تصویر زیر بر آن بیفزایید.
🔸 پایتون
در این بخش به توضیح روش نصب لوکال پکیجهای پایتون با استفاده از pip و virtualenv میپردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، میتوانید از دستور زیر بهره بگیرید:
دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب میکند. اگر از قبل نسخهای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه میکند.
ابتدا ابزار مدیریت محیط را با دستور زیر نصب میکنیم:
مطالعه ادامه مطلب 👇👇
🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ برنامه نویسی پویا در علم داده | راهنمای کاربردی
در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثالهایی که درک آنها آسان باشد شرح داده شده است.
══ فهرست مطالب ══
○ برنامه نویسی پویا در علم داده
○ برنامه نویسی پویا در علم داده چطور کار میکند؟
○ چرا برنامه نویسی پویا در علم داده دشوار است؟
○ مثالی از برنامه نویسی پویا در علم داده
○ کدنویسی و برنامه نویسی پویا در علم داده
○ جمعبندی
🔸 برنامه نویسی پویا در علم داده
الگوریتمها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دورههای تحلیل و طراحی الگوریتم مناسبی را نمیگذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکتها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسشهایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح میکنند. اکنون، پرسشی که افراد زیادی با آن مواجه میشوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در سادهترین حالت میتوان گفت، جوابی که فرد به این پرسش میدهد، میتواند به نوعی سطح دانش برنامهنویسی او را نشان دهد. بنابراین، توصیه میشود که علاقهمندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.
🔸 برنامه نویسی پویا در علم داده چطور کار میکند؟
فرض میشود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:
۱, ۱, ۲, ۳, ۵, ۸
برنامه محاسبه سری فیبوناچی در ادامه آمده است.
مطالعه ادامه مطلب 👇👇
🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثالهایی که درک آنها آسان باشد شرح داده شده است.
══ فهرست مطالب ══
○ برنامه نویسی پویا در علم داده
○ برنامه نویسی پویا در علم داده چطور کار میکند؟
○ چرا برنامه نویسی پویا در علم داده دشوار است؟
○ مثالی از برنامه نویسی پویا در علم داده
○ کدنویسی و برنامه نویسی پویا در علم داده
○ جمعبندی
🔸 برنامه نویسی پویا در علم داده
الگوریتمها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دورههای تحلیل و طراحی الگوریتم مناسبی را نمیگذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکتها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسشهایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح میکنند. اکنون، پرسشی که افراد زیادی با آن مواجه میشوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در سادهترین حالت میتوان گفت، جوابی که فرد به این پرسش میدهد، میتواند به نوعی سطح دانش برنامهنویسی او را نشان دهد. بنابراین، توصیه میشود که علاقهمندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.
🔸 برنامه نویسی پویا در علم داده چطور کار میکند؟
فرض میشود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:
۱, ۱, ۲, ۳, ۵, ۸
برنامه محاسبه سری فیبوناچی در ادامه آمده است.
مطالعه ادامه مطلب 👇👇
🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آزمون Z در آمار — به زبان ساده
آزمونهای آماری بسیار متنوع بوده و تحت شرایط مختلف باید نسبت به انتخاب هر یک اقدام کرد. این شرایط میتواند بسته به نوع داده یا توزیع آنها تغییر کند. بنابراین شناخت هر آزمون و شرایط اجرای آن برای کسانی که به تحلیل داده و آزمونهای آماری میپردازند، امری مهم محسوب میشود. در این نوشتار با آزمون Z در آمار آشنا شده و کاربردهای آن را با ذکر مثالهایی پی میگیریم.
══ فهرست مطالب ══
○ آزمون Z در آمار
○ معرفی فیلم آموزشی آزمون آماری و پی مقدار (p-value)
○ خلاصه و جمعبندی
🔸 آزمون Z در آمار
اگر آماره مربوط به یک آزمون آماری، تحت فرض صفر، دارای توزیع نرمال (Normal Distribution) باشد، میتوان از آزمون Z برای تصمیم نسبت به رد یا تایید فرضیههای آماری کمک گرفت.
آماره Z، در هر سطح معنیداری برای آزمون Z، برای پارامتر مرکزی توزیع، یک مقدار بحرانی دارد. همچنین برای ایجاد «فاصله اطمینان» (Confidence Interval) برای پارامتر مکان (مانند میانگین)، یک مقدار بحرانی در نحوه تشکیل فاصله اطمینان قابل استفاده است. برای مثال در سطح خطای ۵٪ برای آزمون دو طرفه، مقدار بحرانی Z برابر با ۱٫۹۶ است. در حالیکه مقدار بحرانی آزمون t وابسته به اندازه نمونه ($$n$$) بوده و با توجه به حجم نمونه یا در حقیقت همان «درجه آزادی» (Degree of Freedom)، مقدار بحرانی تعیین میشود. این موضوع یک مزیت برای آزمون Z نسبت به آزمون مشابه آن یعنی آزمون t محسوب میشود.
از طرفی با توجه به «قضیه حد مرکزی» (Central Limit Theorem)، بسیاری از توزیعها، تحت شرایطی مشخص، به سمت توزیع نرمال میل میکنند. البته یکی از مهمترین شرطها در قضیه حد مرکزی، بزرگ بودن حجم نمونه است. بنابراین بسیاری از آزمونهای آماری یا در حقیقت توزیع آماره آزمون میتوانند با توزیع نرمال یکسان در نظر گرفته شوند به شرطی که اندازه نمونه بزرگ و واریانس جامعه نیز معلوم باشد.
🔸 معرفی فیلم آموزشی آزمون آماری و پی مقدار (p-value)
یکی از مباحث مربوط به آزمون فرض و استنباط آماری، محاسبه پی مقدار یا همان «پی ولیو» (p-Value) است. در بیشتر نرمافزارهای آماری این مقدار را با نماد .Sig نشان میدهند. در این آموزش که توسط فرادرس و در مدت زمان ۴۰ دقیقه تهیه شده است، مدرس به نحوه محاسبه پی مقدار و چگونگی استفاده از آن میپردازد.
این آموزش شامل دو درس است. در درس اول به مفاهیم اولیه مرتبط با آزمون آماری پرداخته شده و در درس دوم نیز ناحیه بحرانی مورد بررسی قرار گرفته است. شیوه محاسبه پی مقدار و همچنین برداشتهای غلط از آن در فصل دوم پیگیری میشود.
– None
مطالعه ادامه مطلب 👇👇
🔗 آزمون Z در آمار — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
آزمونهای آماری بسیار متنوع بوده و تحت شرایط مختلف باید نسبت به انتخاب هر یک اقدام کرد. این شرایط میتواند بسته به نوع داده یا توزیع آنها تغییر کند. بنابراین شناخت هر آزمون و شرایط اجرای آن برای کسانی که به تحلیل داده و آزمونهای آماری میپردازند، امری مهم محسوب میشود. در این نوشتار با آزمون Z در آمار آشنا شده و کاربردهای آن را با ذکر مثالهایی پی میگیریم.
══ فهرست مطالب ══
○ آزمون Z در آمار
○ معرفی فیلم آموزشی آزمون آماری و پی مقدار (p-value)
○ خلاصه و جمعبندی
🔸 آزمون Z در آمار
اگر آماره مربوط به یک آزمون آماری، تحت فرض صفر، دارای توزیع نرمال (Normal Distribution) باشد، میتوان از آزمون Z برای تصمیم نسبت به رد یا تایید فرضیههای آماری کمک گرفت.
آماره Z، در هر سطح معنیداری برای آزمون Z، برای پارامتر مرکزی توزیع، یک مقدار بحرانی دارد. همچنین برای ایجاد «فاصله اطمینان» (Confidence Interval) برای پارامتر مکان (مانند میانگین)، یک مقدار بحرانی در نحوه تشکیل فاصله اطمینان قابل استفاده است. برای مثال در سطح خطای ۵٪ برای آزمون دو طرفه، مقدار بحرانی Z برابر با ۱٫۹۶ است. در حالیکه مقدار بحرانی آزمون t وابسته به اندازه نمونه ($$n$$) بوده و با توجه به حجم نمونه یا در حقیقت همان «درجه آزادی» (Degree of Freedom)، مقدار بحرانی تعیین میشود. این موضوع یک مزیت برای آزمون Z نسبت به آزمون مشابه آن یعنی آزمون t محسوب میشود.
از طرفی با توجه به «قضیه حد مرکزی» (Central Limit Theorem)، بسیاری از توزیعها، تحت شرایطی مشخص، به سمت توزیع نرمال میل میکنند. البته یکی از مهمترین شرطها در قضیه حد مرکزی، بزرگ بودن حجم نمونه است. بنابراین بسیاری از آزمونهای آماری یا در حقیقت توزیع آماره آزمون میتوانند با توزیع نرمال یکسان در نظر گرفته شوند به شرطی که اندازه نمونه بزرگ و واریانس جامعه نیز معلوم باشد.
🔸 معرفی فیلم آموزشی آزمون آماری و پی مقدار (p-value)
یکی از مباحث مربوط به آزمون فرض و استنباط آماری، محاسبه پی مقدار یا همان «پی ولیو» (p-Value) است. در بیشتر نرمافزارهای آماری این مقدار را با نماد .Sig نشان میدهند. در این آموزش که توسط فرادرس و در مدت زمان ۴۰ دقیقه تهیه شده است، مدرس به نحوه محاسبه پی مقدار و چگونگی استفاده از آن میپردازد.
این آموزش شامل دو درس است. در درس اول به مفاهیم اولیه مرتبط با آزمون آماری پرداخته شده و در درس دوم نیز ناحیه بحرانی مورد بررسی قرار گرفته است. شیوه محاسبه پی مقدار و همچنین برداشتهای غلط از آن در فصل دوم پیگیری میشود.
– None
مطالعه ادامه مطلب 👇👇
🔗 آزمون Z در آمار — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ منحنی ROC و کاربردهای آن — به زبان ساده
یکی از روشهای بررسی و ارزیابی عملکرد دستهبندی دو دویی، «نمودار مشخصه عملکرد» (Receiver Operating Characteristic) یا به اختصار منحنی ROC است. کارایی الگوریتمهای «دستهبندهای دو دویی» (Binary Classifier) معمولا توسط شاخصهایی به نام «حساسیت» (Sensitivity) یا «بازیابی» (Recall) سنجیده میشود. اما در نمودار ROC هر دوی این شاخصها ترکیب شده و به صورت یک منحنی نمایش داده میشوند. اغلب برای بررسی کارایی الگوریتمهای دستهبندی یا ایجاد دادههای رستهای از منحنی ROC استفاده میکنند. این موضوع در شاخه یادگیری ماشین با نظارت (Supervised Machine Learning)، بیشتر مورد توجه قرار گرفته است. به همین دلیل این نوشتار از مجله فرادرس را به بررسی منحنی ROC و کاربردهای آن اختصاص دادهایم. ابتدا تاریخچهای از پدید آمدن منحنی ROC خواهیم گفت و در ادامه، این منحنی را معرفی و نحوه ترسیم آن را بیان خواهیم کرد. همینطور در این متن، به شاخصهای مرتبط با منحنی ROC نیز میپردازیم.
══ فهرست مطالب ══
○ منحنی ROC و کاربردهای آن
○ منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
○ خلاصه و جمعبندی
🔸 منحنی ROC و کاربردهای آن
شاید بتوان تحلیل سیگنالهای رادار در جنگ جهانی دوم را اولین زمان ظهور منحنی ROC و کاربردهای آن دانست. البته بعدها از چنین منحنی در «نظریه شناسایی سیگنال» (Signal Detection Theory) نیز استفاده شد. پس از جنگ در «پرل هاربر» (Pearl Harber) در سال ۱۹۴۱، که نیروهایی آمریکایی به شدت آسیب دیدند، ارتش آمریکا تصمیم گرفت سیگنالهای راداری (Radar Signal) به منظور کشف و شناسایی هواپیماهای ژاپنی را بهبود دهد. برای این کار، آنها توانایی یک گیرنده رادار را در تشخیص هواپیما اندازهگیری کردند و از آن پس واژه «مشخصه عملکرد گیرنده» (Receiver Operating Characteristic) برای ارزیابی عملکرد دستگاههای تشخیص سیگنال، مورد استفاده قرار گرفت.
در دهه ۱۹۵۰، منحنیهای ROC در روانشناسی نیز به کار گرفته شدند تا ضعف در قوه تشخیص انسانها (و گاهی حیوان) را مورد بررسی و ارزیابی قرار دهند. در پزشکی، تجزیه و تحلیل ROC به طور گستردهای در سنجش صحت آزمایشهای تشخیص پزشکی و تعیین میزان دقت چنین آزمایشاتی، مورد استفاده قرار گرفته است.
منحنیهای ROC همچنین در اپیدمیولوژی و تحقیقات پزشکی بسیار مورد استفاده قرار میگیرند. در رادیولوژی، تجزیه و تحلیل ROC یک روش معمول برای ارزیابی تکنیکهای جدید رادیولوژی است. همچنین در علوم اجتماعی، آنالیز منحنی ROC اغلب به عنوان «نسبت دقت مشخصه عملکرد» (ROC Accuracy Ratio)، یاد شده و یک تکنیک معمول برای قضاوت در مورد مدلهای احتمال پیشبین (Predictive Probability Model) است.
🔸 منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
با توجه به موفقیت منحنیهای ROC برای ارزیابی مدلهای طبقهبندی، گسترش کاربرد آنها برای سایر عملکردهای یادگیری نظارت شده نیز مورد بررسی قرار گرفته است. پیشنهادهای قابل توجه برای مسئله رگرسیون و به کارگیری منحنی ROC، عبارتند از:
– «منحنی مشخصه عملکرد خطای رگرسیون» (regression error characteristic) که اختصارا با حروف REC نشان داده میشود.
– «منحنی مشخصه عملکرد رگرسیون» (Regression ROC) که بطور خلاصه آن را به شکل PROC معرفی میکنند.
در حالت دوم، منحنیهای RROC با توجه به عدم تقارن و بدنه محدب، بسیار شبیه به منحنیهای ROC برای طبقهبندی هستند. همچنین منطقه زیر منحنیهای RROC متناسب با واریانس خطای مدل رگرسیون است.
نکته: گاهی در منحنی ROC به سطح زیر نمودار توجه میشود که به آن AUC یا (Area Under Curve) گفته میشود. برای کسب اطلاعات بیشتر در این زمینه بهتر است نوشتار پیش بینی ریزش مشتریان با داده کاوی و R — راهنمای جامع را مطالعه کنید.
مطالعه ادامه مطلب 👇👇
🔗 منحنی ROC و کاربردهای آن — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
یکی از روشهای بررسی و ارزیابی عملکرد دستهبندی دو دویی، «نمودار مشخصه عملکرد» (Receiver Operating Characteristic) یا به اختصار منحنی ROC است. کارایی الگوریتمهای «دستهبندهای دو دویی» (Binary Classifier) معمولا توسط شاخصهایی به نام «حساسیت» (Sensitivity) یا «بازیابی» (Recall) سنجیده میشود. اما در نمودار ROC هر دوی این شاخصها ترکیب شده و به صورت یک منحنی نمایش داده میشوند. اغلب برای بررسی کارایی الگوریتمهای دستهبندی یا ایجاد دادههای رستهای از منحنی ROC استفاده میکنند. این موضوع در شاخه یادگیری ماشین با نظارت (Supervised Machine Learning)، بیشتر مورد توجه قرار گرفته است. به همین دلیل این نوشتار از مجله فرادرس را به بررسی منحنی ROC و کاربردهای آن اختصاص دادهایم. ابتدا تاریخچهای از پدید آمدن منحنی ROC خواهیم گفت و در ادامه، این منحنی را معرفی و نحوه ترسیم آن را بیان خواهیم کرد. همینطور در این متن، به شاخصهای مرتبط با منحنی ROC نیز میپردازیم.
══ فهرست مطالب ══
○ منحنی ROC و کاربردهای آن
○ منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
○ خلاصه و جمعبندی
🔸 منحنی ROC و کاربردهای آن
شاید بتوان تحلیل سیگنالهای رادار در جنگ جهانی دوم را اولین زمان ظهور منحنی ROC و کاربردهای آن دانست. البته بعدها از چنین منحنی در «نظریه شناسایی سیگنال» (Signal Detection Theory) نیز استفاده شد. پس از جنگ در «پرل هاربر» (Pearl Harber) در سال ۱۹۴۱، که نیروهایی آمریکایی به شدت آسیب دیدند، ارتش آمریکا تصمیم گرفت سیگنالهای راداری (Radar Signal) به منظور کشف و شناسایی هواپیماهای ژاپنی را بهبود دهد. برای این کار، آنها توانایی یک گیرنده رادار را در تشخیص هواپیما اندازهگیری کردند و از آن پس واژه «مشخصه عملکرد گیرنده» (Receiver Operating Characteristic) برای ارزیابی عملکرد دستگاههای تشخیص سیگنال، مورد استفاده قرار گرفت.
در دهه ۱۹۵۰، منحنیهای ROC در روانشناسی نیز به کار گرفته شدند تا ضعف در قوه تشخیص انسانها (و گاهی حیوان) را مورد بررسی و ارزیابی قرار دهند. در پزشکی، تجزیه و تحلیل ROC به طور گستردهای در سنجش صحت آزمایشهای تشخیص پزشکی و تعیین میزان دقت چنین آزمایشاتی، مورد استفاده قرار گرفته است.
منحنیهای ROC همچنین در اپیدمیولوژی و تحقیقات پزشکی بسیار مورد استفاده قرار میگیرند. در رادیولوژی، تجزیه و تحلیل ROC یک روش معمول برای ارزیابی تکنیکهای جدید رادیولوژی است. همچنین در علوم اجتماعی، آنالیز منحنی ROC اغلب به عنوان «نسبت دقت مشخصه عملکرد» (ROC Accuracy Ratio)، یاد شده و یک تکنیک معمول برای قضاوت در مورد مدلهای احتمال پیشبین (Predictive Probability Model) است.
🔸 منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
با توجه به موفقیت منحنیهای ROC برای ارزیابی مدلهای طبقهبندی، گسترش کاربرد آنها برای سایر عملکردهای یادگیری نظارت شده نیز مورد بررسی قرار گرفته است. پیشنهادهای قابل توجه برای مسئله رگرسیون و به کارگیری منحنی ROC، عبارتند از:
– «منحنی مشخصه عملکرد خطای رگرسیون» (regression error characteristic) که اختصارا با حروف REC نشان داده میشود.
– «منحنی مشخصه عملکرد رگرسیون» (Regression ROC) که بطور خلاصه آن را به شکل PROC معرفی میکنند.
در حالت دوم، منحنیهای RROC با توجه به عدم تقارن و بدنه محدب، بسیار شبیه به منحنیهای ROC برای طبقهبندی هستند. همچنین منطقه زیر منحنیهای RROC متناسب با واریانس خطای مدل رگرسیون است.
نکته: گاهی در منحنی ROC به سطح زیر نمودار توجه میشود که به آن AUC یا (Area Under Curve) گفته میشود. برای کسب اطلاعات بیشتر در این زمینه بهتر است نوشتار پیش بینی ریزش مشتریان با داده کاوی و R — راهنمای جامع را مطالعه کنید.
مطالعه ادامه مطلب 👇👇
🔗 منحنی ROC و کاربردهای آن — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس