✳️ آنالیز واریانس دو طرفه در اکسل — راهنمای کاربردی
تجزیه و تحلیل یا به اصطلاح «آنالیز واریانس» (Analysis of Variance) یک تکنیک آماری است که با استفاده از تجزیه واریانس به چند بخش، اثر تیمارها روی یک متغیر وابسته را تعیین میکند. در این بین تحلیل یا آنالیز واریانس دو طرفه به علت پیچیدگی محاسباتی کمتر به صورت دستی مورد بهره برداری قرار میگیرد. در این نوشتار از مجله فرادرس به بررسی آنالیز واریانس دو طرفه در اکسل پرداخته و شیوه اجرای آن را به کمک ابزار محاسبات آماری در اکسل (Analysis Toolpack) بازگو خواهیم کرد. البته در نوشتار قبلی از این سری، آنالیز واریانس یک طرفه در اکسل نیز معرفی شد.
══ فهرست مطالب ══
○ آنالیز واریانس دو طرفه در اکسل
○ معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab
○ خلاصه و جمعبندی
🔸 آنالیز واریانس دو طرفه در اکسل
از تکنیک «آنالیز واریانس دو طرفه» (two-way ANOVA) برای ارزیابی و نمایش تفاوت معنیدار بین دو نوع تیمار (با تعداد سطوح مختلف) استفاده میشود. گاهی به این تیمارها، عامل نیز گفته شده و در نتیجه ANOVA دو طرفه را، تحلیل واریانس دو عاملی (Two Factor ANOVA) نیز مینامند.
در این نوشتار، ما از طریق ANOVA دو طرفه و با استفاده از ابزارهای تحلیل آماری اکسل، یک مثال در این زمینه را مورد بررسی قرار داده و نتایج را تفسیر خواهیم کرد.
در این بین از بسته تحلیل یا محاسبات آماری اختصاصی اکسل بهره میبریم. حتی اگر به بسته آماری اکسل (Analysis ToolPak) نیز دسترسی ندارید، باز هم به کارگیری تحلیل واریانس دو طرفه در اکسل قابل اجرا است. کافی است الگوی محاسباتی که در این متن به آن اشاره میشود را به صورت فرمول در سلولها درج کنید، هر چند به کارگیری بسته تحلیل اکسل کار را سادهتر و دقیقتر انجام میدهد.
🔸 معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab
یکی از کاربردهای تجزیه و تحلیل یا همان آنالیز واریانس در طراحی و تحلیل آزمایشها (Experimental Design) است. فرادرس نیز در یکی از فیلمهای آموزشی خود به این موضوع پرداخته است.
از آنجایی که بار محاسباتی زیادی برای طرح آزمایشها و دریافت نتایج آن مورد احتیاج است، از نرمافزارهای محاسباتی یا بستههای آماری نظیر SPSS یا MINITAB برای انجام این کار استفاده میکنند. به همین دلیل در این بخش به معرفی فیلم آموزشی فرادرس با عنوان «طراحی و تحلیل آزمایش ها با SPSS و Minitab» پرداختهایم.
این آموزش دارای ۱۲ درس بوده و فیلم آموزشی آن ۹ ساعت و ۳۹ دقیقه است. عنوانهای اصلی آموزشی، در فهرست زیر شرح داده شدهاند.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز واریانس دو طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
تجزیه و تحلیل یا به اصطلاح «آنالیز واریانس» (Analysis of Variance) یک تکنیک آماری است که با استفاده از تجزیه واریانس به چند بخش، اثر تیمارها روی یک متغیر وابسته را تعیین میکند. در این بین تحلیل یا آنالیز واریانس دو طرفه به علت پیچیدگی محاسباتی کمتر به صورت دستی مورد بهره برداری قرار میگیرد. در این نوشتار از مجله فرادرس به بررسی آنالیز واریانس دو طرفه در اکسل پرداخته و شیوه اجرای آن را به کمک ابزار محاسبات آماری در اکسل (Analysis Toolpack) بازگو خواهیم کرد. البته در نوشتار قبلی از این سری، آنالیز واریانس یک طرفه در اکسل نیز معرفی شد.
══ فهرست مطالب ══
○ آنالیز واریانس دو طرفه در اکسل
○ معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab
○ خلاصه و جمعبندی
🔸 آنالیز واریانس دو طرفه در اکسل
از تکنیک «آنالیز واریانس دو طرفه» (two-way ANOVA) برای ارزیابی و نمایش تفاوت معنیدار بین دو نوع تیمار (با تعداد سطوح مختلف) استفاده میشود. گاهی به این تیمارها، عامل نیز گفته شده و در نتیجه ANOVA دو طرفه را، تحلیل واریانس دو عاملی (Two Factor ANOVA) نیز مینامند.
در این نوشتار، ما از طریق ANOVA دو طرفه و با استفاده از ابزارهای تحلیل آماری اکسل، یک مثال در این زمینه را مورد بررسی قرار داده و نتایج را تفسیر خواهیم کرد.
در این بین از بسته تحلیل یا محاسبات آماری اختصاصی اکسل بهره میبریم. حتی اگر به بسته آماری اکسل (Analysis ToolPak) نیز دسترسی ندارید، باز هم به کارگیری تحلیل واریانس دو طرفه در اکسل قابل اجرا است. کافی است الگوی محاسباتی که در این متن به آن اشاره میشود را به صورت فرمول در سلولها درج کنید، هر چند به کارگیری بسته تحلیل اکسل کار را سادهتر و دقیقتر انجام میدهد.
🔸 معرفی فیلم آموزش طراحی و تحلیل آزمایش ها با SPSS و Minitab
یکی از کاربردهای تجزیه و تحلیل یا همان آنالیز واریانس در طراحی و تحلیل آزمایشها (Experimental Design) است. فرادرس نیز در یکی از فیلمهای آموزشی خود به این موضوع پرداخته است.
از آنجایی که بار محاسباتی زیادی برای طرح آزمایشها و دریافت نتایج آن مورد احتیاج است، از نرمافزارهای محاسباتی یا بستههای آماری نظیر SPSS یا MINITAB برای انجام این کار استفاده میکنند. به همین دلیل در این بخش به معرفی فیلم آموزشی فرادرس با عنوان «طراحی و تحلیل آزمایش ها با SPSS و Minitab» پرداختهایم.
این آموزش دارای ۱۲ درس بوده و فیلم آموزشی آن ۹ ساعت و ۳۹ دقیقه است. عنوانهای اصلی آموزشی، در فهرست زیر شرح داده شدهاند.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز واریانس دو طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آزمون تی طبقه ای در SAS و R — راهنمای کابردی
آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه میدهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمونهای دیگری به جای آزمون تی طبقه ای مورد استفاده قرار میگیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روشهای جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.
══ فهرست مطالب ══
○ آزمون تی طبقه ای
○ پیشفرضهای آزمون تی طبقه ای
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون تی طبقه ای
آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار میگیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت میگیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونهها است.
اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونهها براساس یک طرح نمونهگیری طبقهای است. در این صورت نمونهها مستقل از دو جامعه، طی یک «نمونهگیری طبقهای» (Stratified) جمعآوری شدهاند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدولهای این توزیع مراجعه میشود.
از آنجایی که طرح نمونهگیری طبقهای به کار رفته و ممکن است رابطهای بین طبقهها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance میدانند.
🔸 پیشفرضهای آزمون تی طبقه ای
ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامهنویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید دادههای مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آنها اطمینان حاصل کنیم.
در روشهای آمار پارامتری فرض بر این است که دادهها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای دادهها، توزیع گاوسی یا نرمال در نظر گرفته میشود. ولی اگر توزیع این دادهها گاوسی یا نرمال نباشد، پیشفرضهای مربوط به آزمونها و تحلیلهای آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روشهای آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن دادهها مطلع شویم؟
خوشبختانه روشهای زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که میتوان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان میآید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روشهای نرمالیتی و سنجش توزیع دادهها را بهتر درک کنید. البته در اینجا از معرفی این تکنیکها صرف نظر کرده و خواننده را به لینکها ارائه شده، ارجاع میدهیم.
مطالعه ادامه مطلب 👇👇
🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه میدهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمونهای دیگری به جای آزمون تی طبقه ای مورد استفاده قرار میگیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روشهای جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.
══ فهرست مطالب ══
○ آزمون تی طبقه ای
○ پیشفرضهای آزمون تی طبقه ای
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون تی طبقه ای
آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار میگیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت میگیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونهها است.
اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونهها براساس یک طرح نمونهگیری طبقهای است. در این صورت نمونهها مستقل از دو جامعه، طی یک «نمونهگیری طبقهای» (Stratified) جمعآوری شدهاند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدولهای این توزیع مراجعه میشود.
از آنجایی که طرح نمونهگیری طبقهای به کار رفته و ممکن است رابطهای بین طبقهها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance میدانند.
🔸 پیشفرضهای آزمون تی طبقه ای
ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامهنویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید دادههای مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آنها اطمینان حاصل کنیم.
در روشهای آمار پارامتری فرض بر این است که دادهها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای دادهها، توزیع گاوسی یا نرمال در نظر گرفته میشود. ولی اگر توزیع این دادهها گاوسی یا نرمال نباشد، پیشفرضهای مربوط به آزمونها و تحلیلهای آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روشهای آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن دادهها مطلع شویم؟
خوشبختانه روشهای زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که میتوان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان میآید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روشهای نرمالیتی و سنجش توزیع دادهها را بهتر درک کنید. البته در اینجا از معرفی این تکنیکها صرف نظر کرده و خواننده را به لینکها ارائه شده، ارجاع میدهیم.
مطالعه ادامه مطلب 👇👇
🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی
هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق میافتد که در هنگام جمع اوری دادهها دقت کافی صورت نگرفته باشد. در چنین مواردی میگوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج میبرد. راه کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آنها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامهنویسی پایتون مورد تحلیل قرار میدهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتمها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.
══ فهرست مطالب ══
○ مدیریت داده گمشده در داده کاوی با پایتون
○ خلاصه و جمعبندی
🔸 مدیریت داده گمشده در داده کاوی با پایتون
به روشهای مختلفی میتوان بر مشکل دادهها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آنها لزوم توجه به دادههای گمشده را به نوعی بیان میکند.
– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمیکند.
– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.
کتابخانههای پایتون دادههای گمشده را به صورت عبارت nan نشان میدهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانهها میتوانید مشخص کنید که کدام سلولها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:
اگر میخواهید با استفاده از دادهها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانهها (از جمله scikit-learn) و تابع مدلسازی پیغامی مبنی بر وجود خطا ظاهر میسازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.
🔸 خلاصه و جمعبندی
در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی دادهها است، بررسی داده گمشده بسیار مهم جلوه میکند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونههای مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتمهای متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیادهسازی شدهاند. در این متن به بررسی این الگوریتمها یا راه کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای آمار و احتمالات
– آموزش داده کاوی و زبان برنامه نویسی R
– مجموعه آموزشهای داده کاوی و یادگیری ماشین
– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب
– داده گمشده یا ناموجود (Missing Data) در R – روشهای پاکسازی دادهها
– دادههای سانسور شده (Censored Data) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق میافتد که در هنگام جمع اوری دادهها دقت کافی صورت نگرفته باشد. در چنین مواردی میگوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج میبرد. راه کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آنها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامهنویسی پایتون مورد تحلیل قرار میدهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتمها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.
══ فهرست مطالب ══
○ مدیریت داده گمشده در داده کاوی با پایتون
○ خلاصه و جمعبندی
🔸 مدیریت داده گمشده در داده کاوی با پایتون
به روشهای مختلفی میتوان بر مشکل دادهها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آنها لزوم توجه به دادههای گمشده را به نوعی بیان میکند.
– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمیکند.
– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.
کتابخانههای پایتون دادههای گمشده را به صورت عبارت nan نشان میدهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانهها میتوانید مشخص کنید که کدام سلولها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:
اگر میخواهید با استفاده از دادهها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانهها (از جمله scikit-learn) و تابع مدلسازی پیغامی مبنی بر وجود خطا ظاهر میسازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.
🔸 خلاصه و جمعبندی
در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی دادهها است، بررسی داده گمشده بسیار مهم جلوه میکند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونههای مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتمهای متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیادهسازی شدهاند. در این متن به بررسی این الگوریتمها یا راه کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای آمار و احتمالات
– آموزش داده کاوی و زبان برنامه نویسی R
– مجموعه آموزشهای داده کاوی و یادگیری ماشین
– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب
– داده گمشده یا ناموجود (Missing Data) در R – روشهای پاکسازی دادهها
– دادههای سانسور شده (Censored Data) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ بوت استرپ در علم داده به زبان پایتون | راهنمای کاربردی
یکی از تکنیکهای مهم و ناپارامتری برای برآورد خطای مدلها و برآوردگرهای آماری، استفاده از نمونهگیری مجدد (بازنمونهگیری- Resampling) و محاسبه برآوردگر تحت نمونههای مختلف است. در این صورت واریانس یا انحراف معیار مقدار برآوردگرها حاصل از نمونههای مختلف، به عنوان خطای برآوردگر در نظر گرفته میشود. در حقیقت، چنین شیوهای برای پیدا کردن خطای برآوردگر را «بوت استرپ» (Bootstrap) مینامند. از آنجایی که بوت استرپ در علم داده یک روش و تکنیک رایانهای است، در این نوشتار به کمک زبان برنامهنویسی پایتون به پیاده سازی آن پرداختهایم.
══ فهرست مطالب ══
○ بوت استرپ در علم داده به زبان پایتون
○ خلاصه و جمعبندی
🔸 بوت استرپ در علم داده به زبان پایتون
بوت استرپ در علم داده روشی قدرتمند و مبتنی بر رایانه برای استنباط آماری بدون تکیه بر فرضیههای زیاد است. این فقط جادویی است که از یک نمونه داده میتوان یک توزیع نمونه برداری تولید کرد. برای استنباط آماری در بوت استرپ هیچ احتیاجی به اطلاع از توزیع آماری برآوردگرها نیست. به این ترتیب «بوت استرپ» (Bootstrap) برای ایجاد «فاصله اطمینان» (Confidence Interval)، «مدل رگرسیونی» (Regression Model)، حتی در زمینه «یادگیری ماشین» (Machine Learning) به طور گستردهای به کار برده میشود.
در این متن ما در مورد دو موضوع وابسته به بوت استرپ در علم داده صحبت خواهیم کرد:
– ساخت فاصله اطمینان
– انجام آزمون فرض آماری
البته هر یک از این موارد را هم به کمک روشهای صریح آماری و هم به کمک بوت استرپ انجام داده و نتایج حاصل را با هم مقایسه میکنیم. در این بین با توجه به گستردگی زبان پایتون در انجام روشهای مطرح در علم داده، کدهایی نیز به این زبان برای اجرای محاسبات و عملیات مربوطه معرفی میکنیم.
در دنیای واقعی، به طور صریح در مورد جمعیت یا جامعه آماری و خصوصیات و ویژگیهای متغیرهای آن اطلاعاتی نداریم. برای مثال جامعه آماری مورد بحث ما آن میتواند کل جمعیت کره زمین یا معاملات گذشته در بازار سهام و حتی، گردش مالی حال و آینده یک شرکت باشد. مشکل اصلی این است که با توجه به زیاد بودن اندازه جامعه آماری، مجبور به نمونهگیری هستیم تا برآورد مناسبی برای ویژگیهای آماری جامعه در اختیار داشته باشیم.
🔸 خلاصه و جمعبندی
در این نوشتار با توجه به شیوه باز نمونهگیری بوت استرپ در علم داده به محاسبه فاصله اطمینان و آزمون آماری پرداختیم و براساس مثالی از دادهها، در زبان پایتون به پیادهسازی تکنیک بوت استرپ اقدام کردیم. همانطور که دیده شد، نتایج حاصل از برآوردگرهای بدست آمده از تکنیک بوت استرپ در علم داده با مقدارهای حاصل از روشهای آماری تفاوت چندانی ندارند و به طور تقریبی زمانی که از توزیع آمارههای مورد نظر اطلاعی نداریم، نتایج رضایت بخشی از بوت استرپ بدست میآید.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزش های SPSS
– آموزش آزمون آماری و پی مقدار (p-value)
– مجموعه آموزشهای مینی تب | آموزش Minitab
– آموزش مقدماتی تحلیل داده ها با نرم افزار آماری Minitab
– فاصله اطمینان (Confidence Interval) — به زبان ساده
– بوت استرپ (Bootstrapping) در SPSS — راهنمای کاربردی
– روش های نمونهگیری (Sampling) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 بوت استرپ در علم داده به زبان پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
یکی از تکنیکهای مهم و ناپارامتری برای برآورد خطای مدلها و برآوردگرهای آماری، استفاده از نمونهگیری مجدد (بازنمونهگیری- Resampling) و محاسبه برآوردگر تحت نمونههای مختلف است. در این صورت واریانس یا انحراف معیار مقدار برآوردگرها حاصل از نمونههای مختلف، به عنوان خطای برآوردگر در نظر گرفته میشود. در حقیقت، چنین شیوهای برای پیدا کردن خطای برآوردگر را «بوت استرپ» (Bootstrap) مینامند. از آنجایی که بوت استرپ در علم داده یک روش و تکنیک رایانهای است، در این نوشتار به کمک زبان برنامهنویسی پایتون به پیاده سازی آن پرداختهایم.
══ فهرست مطالب ══
○ بوت استرپ در علم داده به زبان پایتون
○ خلاصه و جمعبندی
🔸 بوت استرپ در علم داده به زبان پایتون
بوت استرپ در علم داده روشی قدرتمند و مبتنی بر رایانه برای استنباط آماری بدون تکیه بر فرضیههای زیاد است. این فقط جادویی است که از یک نمونه داده میتوان یک توزیع نمونه برداری تولید کرد. برای استنباط آماری در بوت استرپ هیچ احتیاجی به اطلاع از توزیع آماری برآوردگرها نیست. به این ترتیب «بوت استرپ» (Bootstrap) برای ایجاد «فاصله اطمینان» (Confidence Interval)، «مدل رگرسیونی» (Regression Model)، حتی در زمینه «یادگیری ماشین» (Machine Learning) به طور گستردهای به کار برده میشود.
در این متن ما در مورد دو موضوع وابسته به بوت استرپ در علم داده صحبت خواهیم کرد:
– ساخت فاصله اطمینان
– انجام آزمون فرض آماری
البته هر یک از این موارد را هم به کمک روشهای صریح آماری و هم به کمک بوت استرپ انجام داده و نتایج حاصل را با هم مقایسه میکنیم. در این بین با توجه به گستردگی زبان پایتون در انجام روشهای مطرح در علم داده، کدهایی نیز به این زبان برای اجرای محاسبات و عملیات مربوطه معرفی میکنیم.
در دنیای واقعی، به طور صریح در مورد جمعیت یا جامعه آماری و خصوصیات و ویژگیهای متغیرهای آن اطلاعاتی نداریم. برای مثال جامعه آماری مورد بحث ما آن میتواند کل جمعیت کره زمین یا معاملات گذشته در بازار سهام و حتی، گردش مالی حال و آینده یک شرکت باشد. مشکل اصلی این است که با توجه به زیاد بودن اندازه جامعه آماری، مجبور به نمونهگیری هستیم تا برآورد مناسبی برای ویژگیهای آماری جامعه در اختیار داشته باشیم.
🔸 خلاصه و جمعبندی
در این نوشتار با توجه به شیوه باز نمونهگیری بوت استرپ در علم داده به محاسبه فاصله اطمینان و آزمون آماری پرداختیم و براساس مثالی از دادهها، در زبان پایتون به پیادهسازی تکنیک بوت استرپ اقدام کردیم. همانطور که دیده شد، نتایج حاصل از برآوردگرهای بدست آمده از تکنیک بوت استرپ در علم داده با مقدارهای حاصل از روشهای آماری تفاوت چندانی ندارند و به طور تقریبی زمانی که از توزیع آمارههای مورد نظر اطلاعی نداریم، نتایج رضایت بخشی از بوت استرپ بدست میآید.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزش های SPSS
– آموزش آزمون آماری و پی مقدار (p-value)
– مجموعه آموزشهای مینی تب | آموزش Minitab
– آموزش مقدماتی تحلیل داده ها با نرم افزار آماری Minitab
– فاصله اطمینان (Confidence Interval) — به زبان ساده
– بوت استرپ (Bootstrapping) در SPSS — راهنمای کاربردی
– روش های نمونهگیری (Sampling) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 بوت استرپ در علم داده به زبان پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی
در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آنها برای ایجاد یک گردش کاری با بهرهوری بالا و کار تیمی در حوزه علوم داده میپردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژههای یادگیری ماشین کردهاند. همچنین برای برخی دانشمندان علوم داده که میخواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پارهای موارد مفید خواهد بود.
══ فهرست مطالب ══
○ گیت
○ پایتون
○ VSCode
○ Notion
○ Grammarly
○ سخن پایانی
🔸 گیت
در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیتهاب آشنا هستید. اگر فکر میکنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، میتوانید از مطلب زیر استفاده کنید:
– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده
مؤثرترین روش برای تعامل با ریپازیتوری گیتهاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستمهای مک) که یکپارچگی شگفتانگیزی با گیت ارائه میکند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی میکند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم میشود.
پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو میتوانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدالها (Badges) مانند تصویر زیر بر آن بیفزایید.
🔸 پایتون
در این بخش به توضیح روش نصب لوکال پکیجهای پایتون با استفاده از pip و virtualenv میپردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، میتوانید از دستور زیر بهره بگیرید:
دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب میکند. اگر از قبل نسخهای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه میکند.
ابتدا ابزار مدیریت محیط را با دستور زیر نصب میکنیم:
مطالعه ادامه مطلب 👇👇
🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آنها برای ایجاد یک گردش کاری با بهرهوری بالا و کار تیمی در حوزه علوم داده میپردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژههای یادگیری ماشین کردهاند. همچنین برای برخی دانشمندان علوم داده که میخواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پارهای موارد مفید خواهد بود.
══ فهرست مطالب ══
○ گیت
○ پایتون
○ VSCode
○ Notion
○ Grammarly
○ سخن پایانی
🔸 گیت
در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیتهاب آشنا هستید. اگر فکر میکنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، میتوانید از مطلب زیر استفاده کنید:
– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده
مؤثرترین روش برای تعامل با ریپازیتوری گیتهاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستمهای مک) که یکپارچگی شگفتانگیزی با گیت ارائه میکند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی میکند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم میشود.
پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو میتوانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدالها (Badges) مانند تصویر زیر بر آن بیفزایید.
🔸 پایتون
در این بخش به توضیح روش نصب لوکال پکیجهای پایتون با استفاده از pip و virtualenv میپردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، میتوانید از دستور زیر بهره بگیرید:
دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب میکند. اگر از قبل نسخهای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه میکند.
ابتدا ابزار مدیریت محیط را با دستور زیر نصب میکنیم:
مطالعه ادامه مطلب 👇👇
🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ برنامه نویسی پویا در علم داده | راهنمای کاربردی
در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثالهایی که درک آنها آسان باشد شرح داده شده است.
══ فهرست مطالب ══
○ برنامه نویسی پویا در علم داده
○ برنامه نویسی پویا در علم داده چطور کار میکند؟
○ چرا برنامه نویسی پویا در علم داده دشوار است؟
○ مثالی از برنامه نویسی پویا در علم داده
○ کدنویسی و برنامه نویسی پویا در علم داده
○ جمعبندی
🔸 برنامه نویسی پویا در علم داده
الگوریتمها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دورههای تحلیل و طراحی الگوریتم مناسبی را نمیگذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکتها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسشهایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح میکنند. اکنون، پرسشی که افراد زیادی با آن مواجه میشوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در سادهترین حالت میتوان گفت، جوابی که فرد به این پرسش میدهد، میتواند به نوعی سطح دانش برنامهنویسی او را نشان دهد. بنابراین، توصیه میشود که علاقهمندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.
🔸 برنامه نویسی پویا در علم داده چطور کار میکند؟
فرض میشود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:
۱, ۱, ۲, ۳, ۵, ۸
برنامه محاسبه سری فیبوناچی در ادامه آمده است.
مطالعه ادامه مطلب 👇👇
🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثالهایی که درک آنها آسان باشد شرح داده شده است.
══ فهرست مطالب ══
○ برنامه نویسی پویا در علم داده
○ برنامه نویسی پویا در علم داده چطور کار میکند؟
○ چرا برنامه نویسی پویا در علم داده دشوار است؟
○ مثالی از برنامه نویسی پویا در علم داده
○ کدنویسی و برنامه نویسی پویا در علم داده
○ جمعبندی
🔸 برنامه نویسی پویا در علم داده
الگوریتمها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دورههای تحلیل و طراحی الگوریتم مناسبی را نمیگذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکتها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسشهایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح میکنند. اکنون، پرسشی که افراد زیادی با آن مواجه میشوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در سادهترین حالت میتوان گفت، جوابی که فرد به این پرسش میدهد، میتواند به نوعی سطح دانش برنامهنویسی او را نشان دهد. بنابراین، توصیه میشود که علاقهمندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.
🔸 برنامه نویسی پویا در علم داده چطور کار میکند؟
فرض میشود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:
۱, ۱, ۲, ۳, ۵, ۸
برنامه محاسبه سری فیبوناچی در ادامه آمده است.
مطالعه ادامه مطلب 👇👇
🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آزمون Z در آمار — به زبان ساده
آزمونهای آماری بسیار متنوع بوده و تحت شرایط مختلف باید نسبت به انتخاب هر یک اقدام کرد. این شرایط میتواند بسته به نوع داده یا توزیع آنها تغییر کند. بنابراین شناخت هر آزمون و شرایط اجرای آن برای کسانی که به تحلیل داده و آزمونهای آماری میپردازند، امری مهم محسوب میشود. در این نوشتار با آزمون Z در آمار آشنا شده و کاربردهای آن را با ذکر مثالهایی پی میگیریم.
══ فهرست مطالب ══
○ آزمون Z در آمار
○ معرفی فیلم آموزشی آزمون آماری و پی مقدار (p-value)
○ خلاصه و جمعبندی
🔸 آزمون Z در آمار
اگر آماره مربوط به یک آزمون آماری، تحت فرض صفر، دارای توزیع نرمال (Normal Distribution) باشد، میتوان از آزمون Z برای تصمیم نسبت به رد یا تایید فرضیههای آماری کمک گرفت.
آماره Z، در هر سطح معنیداری برای آزمون Z، برای پارامتر مرکزی توزیع، یک مقدار بحرانی دارد. همچنین برای ایجاد «فاصله اطمینان» (Confidence Interval) برای پارامتر مکان (مانند میانگین)، یک مقدار بحرانی در نحوه تشکیل فاصله اطمینان قابل استفاده است. برای مثال در سطح خطای ۵٪ برای آزمون دو طرفه، مقدار بحرانی Z برابر با ۱٫۹۶ است. در حالیکه مقدار بحرانی آزمون t وابسته به اندازه نمونه ($$n$$) بوده و با توجه به حجم نمونه یا در حقیقت همان «درجه آزادی» (Degree of Freedom)، مقدار بحرانی تعیین میشود. این موضوع یک مزیت برای آزمون Z نسبت به آزمون مشابه آن یعنی آزمون t محسوب میشود.
از طرفی با توجه به «قضیه حد مرکزی» (Central Limit Theorem)، بسیاری از توزیعها، تحت شرایطی مشخص، به سمت توزیع نرمال میل میکنند. البته یکی از مهمترین شرطها در قضیه حد مرکزی، بزرگ بودن حجم نمونه است. بنابراین بسیاری از آزمونهای آماری یا در حقیقت توزیع آماره آزمون میتوانند با توزیع نرمال یکسان در نظر گرفته شوند به شرطی که اندازه نمونه بزرگ و واریانس جامعه نیز معلوم باشد.
🔸 معرفی فیلم آموزشی آزمون آماری و پی مقدار (p-value)
یکی از مباحث مربوط به آزمون فرض و استنباط آماری، محاسبه پی مقدار یا همان «پی ولیو» (p-Value) است. در بیشتر نرمافزارهای آماری این مقدار را با نماد .Sig نشان میدهند. در این آموزش که توسط فرادرس و در مدت زمان ۴۰ دقیقه تهیه شده است، مدرس به نحوه محاسبه پی مقدار و چگونگی استفاده از آن میپردازد.
این آموزش شامل دو درس است. در درس اول به مفاهیم اولیه مرتبط با آزمون آماری پرداخته شده و در درس دوم نیز ناحیه بحرانی مورد بررسی قرار گرفته است. شیوه محاسبه پی مقدار و همچنین برداشتهای غلط از آن در فصل دوم پیگیری میشود.
– None
مطالعه ادامه مطلب 👇👇
🔗 آزمون Z در آمار — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
آزمونهای آماری بسیار متنوع بوده و تحت شرایط مختلف باید نسبت به انتخاب هر یک اقدام کرد. این شرایط میتواند بسته به نوع داده یا توزیع آنها تغییر کند. بنابراین شناخت هر آزمون و شرایط اجرای آن برای کسانی که به تحلیل داده و آزمونهای آماری میپردازند، امری مهم محسوب میشود. در این نوشتار با آزمون Z در آمار آشنا شده و کاربردهای آن را با ذکر مثالهایی پی میگیریم.
══ فهرست مطالب ══
○ آزمون Z در آمار
○ معرفی فیلم آموزشی آزمون آماری و پی مقدار (p-value)
○ خلاصه و جمعبندی
🔸 آزمون Z در آمار
اگر آماره مربوط به یک آزمون آماری، تحت فرض صفر، دارای توزیع نرمال (Normal Distribution) باشد، میتوان از آزمون Z برای تصمیم نسبت به رد یا تایید فرضیههای آماری کمک گرفت.
آماره Z، در هر سطح معنیداری برای آزمون Z، برای پارامتر مرکزی توزیع، یک مقدار بحرانی دارد. همچنین برای ایجاد «فاصله اطمینان» (Confidence Interval) برای پارامتر مکان (مانند میانگین)، یک مقدار بحرانی در نحوه تشکیل فاصله اطمینان قابل استفاده است. برای مثال در سطح خطای ۵٪ برای آزمون دو طرفه، مقدار بحرانی Z برابر با ۱٫۹۶ است. در حالیکه مقدار بحرانی آزمون t وابسته به اندازه نمونه ($$n$$) بوده و با توجه به حجم نمونه یا در حقیقت همان «درجه آزادی» (Degree of Freedom)، مقدار بحرانی تعیین میشود. این موضوع یک مزیت برای آزمون Z نسبت به آزمون مشابه آن یعنی آزمون t محسوب میشود.
از طرفی با توجه به «قضیه حد مرکزی» (Central Limit Theorem)، بسیاری از توزیعها، تحت شرایطی مشخص، به سمت توزیع نرمال میل میکنند. البته یکی از مهمترین شرطها در قضیه حد مرکزی، بزرگ بودن حجم نمونه است. بنابراین بسیاری از آزمونهای آماری یا در حقیقت توزیع آماره آزمون میتوانند با توزیع نرمال یکسان در نظر گرفته شوند به شرطی که اندازه نمونه بزرگ و واریانس جامعه نیز معلوم باشد.
🔸 معرفی فیلم آموزشی آزمون آماری و پی مقدار (p-value)
یکی از مباحث مربوط به آزمون فرض و استنباط آماری، محاسبه پی مقدار یا همان «پی ولیو» (p-Value) است. در بیشتر نرمافزارهای آماری این مقدار را با نماد .Sig نشان میدهند. در این آموزش که توسط فرادرس و در مدت زمان ۴۰ دقیقه تهیه شده است، مدرس به نحوه محاسبه پی مقدار و چگونگی استفاده از آن میپردازد.
این آموزش شامل دو درس است. در درس اول به مفاهیم اولیه مرتبط با آزمون آماری پرداخته شده و در درس دوم نیز ناحیه بحرانی مورد بررسی قرار گرفته است. شیوه محاسبه پی مقدار و همچنین برداشتهای غلط از آن در فصل دوم پیگیری میشود.
– None
مطالعه ادامه مطلب 👇👇
🔗 آزمون Z در آمار — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ منحنی ROC و کاربردهای آن — به زبان ساده
یکی از روشهای بررسی و ارزیابی عملکرد دستهبندی دو دویی، «نمودار مشخصه عملکرد» (Receiver Operating Characteristic) یا به اختصار منحنی ROC است. کارایی الگوریتمهای «دستهبندهای دو دویی» (Binary Classifier) معمولا توسط شاخصهایی به نام «حساسیت» (Sensitivity) یا «بازیابی» (Recall) سنجیده میشود. اما در نمودار ROC هر دوی این شاخصها ترکیب شده و به صورت یک منحنی نمایش داده میشوند. اغلب برای بررسی کارایی الگوریتمهای دستهبندی یا ایجاد دادههای رستهای از منحنی ROC استفاده میکنند. این موضوع در شاخه یادگیری ماشین با نظارت (Supervised Machine Learning)، بیشتر مورد توجه قرار گرفته است. به همین دلیل این نوشتار از مجله فرادرس را به بررسی منحنی ROC و کاربردهای آن اختصاص دادهایم. ابتدا تاریخچهای از پدید آمدن منحنی ROC خواهیم گفت و در ادامه، این منحنی را معرفی و نحوه ترسیم آن را بیان خواهیم کرد. همینطور در این متن، به شاخصهای مرتبط با منحنی ROC نیز میپردازیم.
══ فهرست مطالب ══
○ منحنی ROC و کاربردهای آن
○ منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
○ خلاصه و جمعبندی
🔸 منحنی ROC و کاربردهای آن
شاید بتوان تحلیل سیگنالهای رادار در جنگ جهانی دوم را اولین زمان ظهور منحنی ROC و کاربردهای آن دانست. البته بعدها از چنین منحنی در «نظریه شناسایی سیگنال» (Signal Detection Theory) نیز استفاده شد. پس از جنگ در «پرل هاربر» (Pearl Harber) در سال ۱۹۴۱، که نیروهایی آمریکایی به شدت آسیب دیدند، ارتش آمریکا تصمیم گرفت سیگنالهای راداری (Radar Signal) به منظور کشف و شناسایی هواپیماهای ژاپنی را بهبود دهد. برای این کار، آنها توانایی یک گیرنده رادار را در تشخیص هواپیما اندازهگیری کردند و از آن پس واژه «مشخصه عملکرد گیرنده» (Receiver Operating Characteristic) برای ارزیابی عملکرد دستگاههای تشخیص سیگنال، مورد استفاده قرار گرفت.
در دهه ۱۹۵۰، منحنیهای ROC در روانشناسی نیز به کار گرفته شدند تا ضعف در قوه تشخیص انسانها (و گاهی حیوان) را مورد بررسی و ارزیابی قرار دهند. در پزشکی، تجزیه و تحلیل ROC به طور گستردهای در سنجش صحت آزمایشهای تشخیص پزشکی و تعیین میزان دقت چنین آزمایشاتی، مورد استفاده قرار گرفته است.
منحنیهای ROC همچنین در اپیدمیولوژی و تحقیقات پزشکی بسیار مورد استفاده قرار میگیرند. در رادیولوژی، تجزیه و تحلیل ROC یک روش معمول برای ارزیابی تکنیکهای جدید رادیولوژی است. همچنین در علوم اجتماعی، آنالیز منحنی ROC اغلب به عنوان «نسبت دقت مشخصه عملکرد» (ROC Accuracy Ratio)، یاد شده و یک تکنیک معمول برای قضاوت در مورد مدلهای احتمال پیشبین (Predictive Probability Model) است.
🔸 منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
با توجه به موفقیت منحنیهای ROC برای ارزیابی مدلهای طبقهبندی، گسترش کاربرد آنها برای سایر عملکردهای یادگیری نظارت شده نیز مورد بررسی قرار گرفته است. پیشنهادهای قابل توجه برای مسئله رگرسیون و به کارگیری منحنی ROC، عبارتند از:
– «منحنی مشخصه عملکرد خطای رگرسیون» (regression error characteristic) که اختصارا با حروف REC نشان داده میشود.
– «منحنی مشخصه عملکرد رگرسیون» (Regression ROC) که بطور خلاصه آن را به شکل PROC معرفی میکنند.
در حالت دوم، منحنیهای RROC با توجه به عدم تقارن و بدنه محدب، بسیار شبیه به منحنیهای ROC برای طبقهبندی هستند. همچنین منطقه زیر منحنیهای RROC متناسب با واریانس خطای مدل رگرسیون است.
نکته: گاهی در منحنی ROC به سطح زیر نمودار توجه میشود که به آن AUC یا (Area Under Curve) گفته میشود. برای کسب اطلاعات بیشتر در این زمینه بهتر است نوشتار پیش بینی ریزش مشتریان با داده کاوی و R — راهنمای جامع را مطالعه کنید.
مطالعه ادامه مطلب 👇👇
🔗 منحنی ROC و کاربردهای آن — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
یکی از روشهای بررسی و ارزیابی عملکرد دستهبندی دو دویی، «نمودار مشخصه عملکرد» (Receiver Operating Characteristic) یا به اختصار منحنی ROC است. کارایی الگوریتمهای «دستهبندهای دو دویی» (Binary Classifier) معمولا توسط شاخصهایی به نام «حساسیت» (Sensitivity) یا «بازیابی» (Recall) سنجیده میشود. اما در نمودار ROC هر دوی این شاخصها ترکیب شده و به صورت یک منحنی نمایش داده میشوند. اغلب برای بررسی کارایی الگوریتمهای دستهبندی یا ایجاد دادههای رستهای از منحنی ROC استفاده میکنند. این موضوع در شاخه یادگیری ماشین با نظارت (Supervised Machine Learning)، بیشتر مورد توجه قرار گرفته است. به همین دلیل این نوشتار از مجله فرادرس را به بررسی منحنی ROC و کاربردهای آن اختصاص دادهایم. ابتدا تاریخچهای از پدید آمدن منحنی ROC خواهیم گفت و در ادامه، این منحنی را معرفی و نحوه ترسیم آن را بیان خواهیم کرد. همینطور در این متن، به شاخصهای مرتبط با منحنی ROC نیز میپردازیم.
══ فهرست مطالب ══
○ منحنی ROC و کاربردهای آن
○ منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
○ خلاصه و جمعبندی
🔸 منحنی ROC و کاربردهای آن
شاید بتوان تحلیل سیگنالهای رادار در جنگ جهانی دوم را اولین زمان ظهور منحنی ROC و کاربردهای آن دانست. البته بعدها از چنین منحنی در «نظریه شناسایی سیگنال» (Signal Detection Theory) نیز استفاده شد. پس از جنگ در «پرل هاربر» (Pearl Harber) در سال ۱۹۴۱، که نیروهایی آمریکایی به شدت آسیب دیدند، ارتش آمریکا تصمیم گرفت سیگنالهای راداری (Radar Signal) به منظور کشف و شناسایی هواپیماهای ژاپنی را بهبود دهد. برای این کار، آنها توانایی یک گیرنده رادار را در تشخیص هواپیما اندازهگیری کردند و از آن پس واژه «مشخصه عملکرد گیرنده» (Receiver Operating Characteristic) برای ارزیابی عملکرد دستگاههای تشخیص سیگنال، مورد استفاده قرار گرفت.
در دهه ۱۹۵۰، منحنیهای ROC در روانشناسی نیز به کار گرفته شدند تا ضعف در قوه تشخیص انسانها (و گاهی حیوان) را مورد بررسی و ارزیابی قرار دهند. در پزشکی، تجزیه و تحلیل ROC به طور گستردهای در سنجش صحت آزمایشهای تشخیص پزشکی و تعیین میزان دقت چنین آزمایشاتی، مورد استفاده قرار گرفته است.
منحنیهای ROC همچنین در اپیدمیولوژی و تحقیقات پزشکی بسیار مورد استفاده قرار میگیرند. در رادیولوژی، تجزیه و تحلیل ROC یک روش معمول برای ارزیابی تکنیکهای جدید رادیولوژی است. همچنین در علوم اجتماعی، آنالیز منحنی ROC اغلب به عنوان «نسبت دقت مشخصه عملکرد» (ROC Accuracy Ratio)، یاد شده و یک تکنیک معمول برای قضاوت در مورد مدلهای احتمال پیشبین (Predictive Probability Model) است.
🔸 منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
با توجه به موفقیت منحنیهای ROC برای ارزیابی مدلهای طبقهبندی، گسترش کاربرد آنها برای سایر عملکردهای یادگیری نظارت شده نیز مورد بررسی قرار گرفته است. پیشنهادهای قابل توجه برای مسئله رگرسیون و به کارگیری منحنی ROC، عبارتند از:
– «منحنی مشخصه عملکرد خطای رگرسیون» (regression error characteristic) که اختصارا با حروف REC نشان داده میشود.
– «منحنی مشخصه عملکرد رگرسیون» (Regression ROC) که بطور خلاصه آن را به شکل PROC معرفی میکنند.
در حالت دوم، منحنیهای RROC با توجه به عدم تقارن و بدنه محدب، بسیار شبیه به منحنیهای ROC برای طبقهبندی هستند. همچنین منطقه زیر منحنیهای RROC متناسب با واریانس خطای مدل رگرسیون است.
نکته: گاهی در منحنی ROC به سطح زیر نمودار توجه میشود که به آن AUC یا (Area Under Curve) گفته میشود. برای کسب اطلاعات بیشتر در این زمینه بهتر است نوشتار پیش بینی ریزش مشتریان با داده کاوی و R — راهنمای جامع را مطالعه کنید.
مطالعه ادامه مطلب 👇👇
🔗 منحنی ROC و کاربردهای آن — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ داده کاوی (Data Mining) — از صفر تا صد
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند. از سوی دیگر، همه روزه حجم عظیمی از دادههای علمی در زمینههای گوناگون تولید میشوند.
══ فهرست مطالب ══
○ داده کاوی چیست؟
○ تاریخچه دادهکاوی
○ چرا دادهکاوی؟
○ انواع منابع داده
○ فرایند دادهکاوی
○ مشکلات دادهکاوی
○ اصطلاحشناسی
○
○ ماهیت مساله دادهکاوی
○ مزایا و معایب دادهکاوی
○ کاربردهای دادهکاوی
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
۱. رشد انفجاری دادهها در گستره وسیعی از زمینهها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی میشود:
– دستگاههای ذخیرهسازی نسبت به گذشته ارزانتر و با ظرفیت نامحدود، مانند فضاهای ذخیرهسازی ابری
– ارتباطات سریعتر با سرعت اتصال بیشتر
– سیستمهای مدیریت پایگاه داده و پشتیبانی نرمافزاری بهتر
۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
در حال حاضر، یادگیری آماری، «تحلیل داده» و «علم داده» (Data Science) از دیگر عباراتی هستند که با معنای مشابه دادهکاوی مورد استفاده قرار میگیرند، حال آنکه گاه تفاوتهای ظریفی میان این موارد وجود دارد. برای آشنایی با این تفاوتها، مطالعه مطلب «علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها» توصیه میشود. همچنین، برای مطالعه همراه با جزئیات بیشتر پیرامون تاریخچه دادهکاوی، مطلب «دادهکاوی چیست؟ بخش اول: مبانی» پیشنهاد میشود.
از روشهای دادهکاوی در فرآیند طویل پژوهش و توسعه محصول استفاده میشود. از همین رو، تکامل دادهکاوی نیز از هنگامی آغاز شد که دادههای کسبوکارها روی کامپیوترها ذخیره شدند. دادهکاوی به کاربران امکان حرکت در میان دادهها را در زمان واقعی میدهد. از دادهکاوی در جامعه کسبوکار بدین دلیل استفاده میشود که از سه فناوری بلوغ یافته استفاده میکند، این فناوریها عبارتند از:
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند. از سوی دیگر، همه روزه حجم عظیمی از دادههای علمی در زمینههای گوناگون تولید میشوند.
══ فهرست مطالب ══
○ داده کاوی چیست؟
○ تاریخچه دادهکاوی
○ چرا دادهکاوی؟
○ انواع منابع داده
○ فرایند دادهکاوی
○ مشکلات دادهکاوی
○ اصطلاحشناسی
○
○ ماهیت مساله دادهکاوی
○ مزایا و معایب دادهکاوی
○ کاربردهای دادهکاوی
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
۱. رشد انفجاری دادهها در گستره وسیعی از زمینهها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی میشود:
– دستگاههای ذخیرهسازی نسبت به گذشته ارزانتر و با ظرفیت نامحدود، مانند فضاهای ذخیرهسازی ابری
– ارتباطات سریعتر با سرعت اتصال بیشتر
– سیستمهای مدیریت پایگاه داده و پشتیبانی نرمافزاری بهتر
۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
در حال حاضر، یادگیری آماری، «تحلیل داده» و «علم داده» (Data Science) از دیگر عباراتی هستند که با معنای مشابه دادهکاوی مورد استفاده قرار میگیرند، حال آنکه گاه تفاوتهای ظریفی میان این موارد وجود دارد. برای آشنایی با این تفاوتها، مطالعه مطلب «علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها» توصیه میشود. همچنین، برای مطالعه همراه با جزئیات بیشتر پیرامون تاریخچه دادهکاوی، مطلب «دادهکاوی چیست؟ بخش اول: مبانی» پیشنهاد میشود.
از روشهای دادهکاوی در فرآیند طویل پژوهش و توسعه محصول استفاده میشود. از همین رو، تکامل دادهکاوی نیز از هنگامی آغاز شد که دادههای کسبوکارها روی کامپیوترها ذخیره شدند. دادهکاوی به کاربران امکان حرکت در میان دادهها را در زمان واقعی میدهد. از دادهکاوی در جامعه کسبوکار بدین دلیل استفاده میشود که از سه فناوری بلوغ یافته استفاده میکند، این فناوریها عبارتند از:
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها
«علم داده» (data science)، «تحلیل دادهها» (Data analytics)، «یادگیری ماشین» (machine learning) و «دادهکاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از اینرو شرکتها بهدنبال کارشناسانی میگردند که با کیمیاگری دادهها به آنها در اتخاذ تصمیمهای چابک، اثرگذار و کارا در کسبوکار کمک کنند.
══ فهرست مطالب ══
○ علم داده چیست؟
○ چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
○ تحلیلگر داده کیست؟
○ چه مهارتهایی برای مبدل شدن به یک تحلیلگر داده مورد نیاز است؟
○ آیا بین علم داده و تحلیل داده همپوشانی وجود دارد؟
○ یادگیری ماشین چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
○ آیا بین یادگیری ماشین و علم داده همپوشانی وجود دارد؟
○ دادهکاوی چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک دادهکاو مورد نیاز است؟
○ آیا همپوشانی بین دادهکاوی و علم داده وجود دارد؟
🔸 علم داده چیست؟
افراد زیادی برای بیش از یک دهه تلاش کردهاند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است. این نمودار توسط «هوق کانوی» (Hugh Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنهای که محاسبات و خلاصهسازی در آن انجام میشود) و مهارتهای هک میشود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.
علم داده مفهومی است که برای کار با دادههای کلان (مِهداده) به کار میرود و شامل پاکسازی، آمادهسازی و تحلیل داده میشود. یک دانشمند داده، دادهها را از چندین منبع گردآوردی کرده و تحلیلهای پیشبین و یادگیری ماشین را بر آنها اعمال میکند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه دادههای گردآوری شده بهره میبرد. این دانشمندان، دادهها را از نقطه نظر کسبوکار درک میکنند و قادر به فراهم کردن پیشبینیها و بینشهای صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسبوکار قابل استفاده است.
🔸 چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند. با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
– دانش قوی از پایتون، R، اسکالا و SAS
– مهارت داشتن در نوشتن کدهای پایگاه داده SQL
– توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
– درک توابع تحلیل چندگانه
– دانش یادگیری ماشین
مطالعه ادامه مطلب 👇👇
🔗 علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«علم داده» (data science)، «تحلیل دادهها» (Data analytics)، «یادگیری ماشین» (machine learning) و «دادهکاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از اینرو شرکتها بهدنبال کارشناسانی میگردند که با کیمیاگری دادهها به آنها در اتخاذ تصمیمهای چابک، اثرگذار و کارا در کسبوکار کمک کنند.
══ فهرست مطالب ══
○ علم داده چیست؟
○ چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
○ تحلیلگر داده کیست؟
○ چه مهارتهایی برای مبدل شدن به یک تحلیلگر داده مورد نیاز است؟
○ آیا بین علم داده و تحلیل داده همپوشانی وجود دارد؟
○ یادگیری ماشین چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
○ آیا بین یادگیری ماشین و علم داده همپوشانی وجود دارد؟
○ دادهکاوی چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک دادهکاو مورد نیاز است؟
○ آیا همپوشانی بین دادهکاوی و علم داده وجود دارد؟
🔸 علم داده چیست؟
افراد زیادی برای بیش از یک دهه تلاش کردهاند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است. این نمودار توسط «هوق کانوی» (Hugh Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنهای که محاسبات و خلاصهسازی در آن انجام میشود) و مهارتهای هک میشود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.
علم داده مفهومی است که برای کار با دادههای کلان (مِهداده) به کار میرود و شامل پاکسازی، آمادهسازی و تحلیل داده میشود. یک دانشمند داده، دادهها را از چندین منبع گردآوردی کرده و تحلیلهای پیشبین و یادگیری ماشین را بر آنها اعمال میکند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه دادههای گردآوری شده بهره میبرد. این دانشمندان، دادهها را از نقطه نظر کسبوکار درک میکنند و قادر به فراهم کردن پیشبینیها و بینشهای صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسبوکار قابل استفاده است.
🔸 چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند. با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
– دانش قوی از پایتون، R، اسکالا و SAS
– مهارت داشتن در نوشتن کدهای پایگاه داده SQL
– توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
– درک توابع تحلیل چندگانه
– دانش یادگیری ماشین
مطالعه ادامه مطلب 👇👇
🔗 علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ دادهکاوی چیست؟ بخش اول: مبانی
دادهکاوی یک زمینه علمی دارای رشد سریع است که با عنوان کشف دانش از داده (Knowledge Discovery From Data | KDD) نیز شناخته میشود. در این مطلب به دلایل استفاده از دادهکاوی و تعاریف آن (با توجه به فرآیند انجام دادهکاوی) پرداخته میشود. هدف از این نوشتار، ارائه یک نمای کلنگر از دادهکاوی به مخاطبان است.
══ فهرست مطالب ══
○ چرا دادهکاوی
○ پیشروی در عصر اطلاعات
○ دادهکاوی، نتیجه تکامل فناوری اطلاعات
○ دادهکاوی چیست؟
🔸 چرا دادهکاوی
«پلاتو»
بشر در جهانی زندگی میکند که هر روز حجم انبوهی از دادهها در آن تولید میشوند. تحلیل چنین دادههایی یک نیاز مهم است. در ادامه به این مبحث پرداخته میشود که دادهکاوی چگونه میتواند ابزارهای لازم برای کشف دانش از داده را فراهم کند. پس از مطالعه این مطلب به سادگی میتوان پی برد که دادهکاوی نتیجه تکامل طبیعی فناوری اطلاعات است.
🔸 پیشروی در عصر اطلاعات
«بشر در عصر اطلاعات زندگی میکند»، یک گفتار معروف است. اما حقیقت این است که بشر در عصر دادهها زندگی میکند. همه روزه چندین ترابایت یا پتابایت داده در شبکههای کامپیوتری، دستگاههای ذخیرهسازی گوناگون، کسبوکارها، جامعهشناسی، علوم و مهندسی، بهداشت و درمان و دیگر جنبههای زندگی بشر جریان داشته و ذخیرهسازی میشوند.
این رشد انفجاری حجم دادههای موجود، نتیجه کامپیوتری شدن جوامع و توسعه سریع ابزارهای قدرتمند ذخیرهسازی و گردآوری داده است. کسبوکارها در سراسر جهان مجموعه دادههای عظیمی را تولید میکنند که شامل تراکنشهای فروش، دادههای بازاریابی، توضیحات محصولها، آگهیهای تبلیغاتی، سوابق و گزارشهای شرکتها و بازخوردهای مشتریان میشود.
برای مثال فروشگاههای بزرگی مانند والمارت (Walmart) چند صد میلیون تراکنش را در هزاران شعبه خود در سراسر جهان مدیریت میکنند. فعالیتهای علمی و مهندس نیز حجم زیادی از دادهها را به صورت مستمر با استفاده از حسگرهای دوربرد، اندازهگیری فرآیندها، تجربیات علمی، کارایی سیستمها، مشاهدات مهندسی و نظارتهای زیست محیطی فراهم میکنند. شبکههایی که ستون فقرات ارتباطات جهانی هستند، دهها پتابایت ترافیک داده را همه روزه حمل میکنند. در صنعت بهداشت و درمان، حجم عظیمی متشکل از دادهها از اسناد، دادههای حاصل از نظارت بر بیماران و تصویربرداریهای پزشکی تولید میشود.
مطالعه ادامه مطلب 👇👇
🔗 دادهکاوی چیست؟ بخش اول: مبانی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
دادهکاوی یک زمینه علمی دارای رشد سریع است که با عنوان کشف دانش از داده (Knowledge Discovery From Data | KDD) نیز شناخته میشود. در این مطلب به دلایل استفاده از دادهکاوی و تعاریف آن (با توجه به فرآیند انجام دادهکاوی) پرداخته میشود. هدف از این نوشتار، ارائه یک نمای کلنگر از دادهکاوی به مخاطبان است.
══ فهرست مطالب ══
○ چرا دادهکاوی
○ پیشروی در عصر اطلاعات
○ دادهکاوی، نتیجه تکامل فناوری اطلاعات
○ دادهکاوی چیست؟
🔸 چرا دادهکاوی
«پلاتو»
بشر در جهانی زندگی میکند که هر روز حجم انبوهی از دادهها در آن تولید میشوند. تحلیل چنین دادههایی یک نیاز مهم است. در ادامه به این مبحث پرداخته میشود که دادهکاوی چگونه میتواند ابزارهای لازم برای کشف دانش از داده را فراهم کند. پس از مطالعه این مطلب به سادگی میتوان پی برد که دادهکاوی نتیجه تکامل طبیعی فناوری اطلاعات است.
🔸 پیشروی در عصر اطلاعات
«بشر در عصر اطلاعات زندگی میکند»، یک گفتار معروف است. اما حقیقت این است که بشر در عصر دادهها زندگی میکند. همه روزه چندین ترابایت یا پتابایت داده در شبکههای کامپیوتری، دستگاههای ذخیرهسازی گوناگون، کسبوکارها، جامعهشناسی، علوم و مهندسی، بهداشت و درمان و دیگر جنبههای زندگی بشر جریان داشته و ذخیرهسازی میشوند.
این رشد انفجاری حجم دادههای موجود، نتیجه کامپیوتری شدن جوامع و توسعه سریع ابزارهای قدرتمند ذخیرهسازی و گردآوری داده است. کسبوکارها در سراسر جهان مجموعه دادههای عظیمی را تولید میکنند که شامل تراکنشهای فروش، دادههای بازاریابی، توضیحات محصولها، آگهیهای تبلیغاتی، سوابق و گزارشهای شرکتها و بازخوردهای مشتریان میشود.
برای مثال فروشگاههای بزرگی مانند والمارت (Walmart) چند صد میلیون تراکنش را در هزاران شعبه خود در سراسر جهان مدیریت میکنند. فعالیتهای علمی و مهندس نیز حجم زیادی از دادهها را به صورت مستمر با استفاده از حسگرهای دوربرد، اندازهگیری فرآیندها، تجربیات علمی، کارایی سیستمها، مشاهدات مهندسی و نظارتهای زیست محیطی فراهم میکنند. شبکههایی که ستون فقرات ارتباطات جهانی هستند، دهها پتابایت ترافیک داده را همه روزه حمل میکنند. در صنعت بهداشت و درمان، حجم عظیمی متشکل از دادهها از اسناد، دادههای حاصل از نظارت بر بیماران و تصویربرداریهای پزشکی تولید میشود.
مطالعه ادامه مطلب 👇👇
🔗 دادهکاوی چیست؟ بخش اول: مبانی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است. هدف از این نوشته پرداختن به هر یک از این مفاهیم همراه با جزئیات نیست، بلکه یک دید کلی از آنها به منظور آمادهسازی ذهن مخاطب ارائه خواهد شد و برای مطالعه همراه با جزئیات هر مبحث، لینکهایی در متن و انتهای این نوشته قرار گرفته است.
══ فهرست مطالب ══
○ مفاهیم مقدماتی
○ انواع ویژگی
○ جبر خطی و آمار
○ روشهای دادهکاوی
○ ارزیابی مدل
○ سایر مفاهیم
○ نتیجهگیری
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
«نویز» (Noise | نوفه) از یک سو، در تعریف به نمادها و سمبلها و یا دادههای ایجاد شده به صورت تصادفی که فاقد معنای خاصی هستند گفته میشود. بر همین اساس، گاهی دادههایی که دارای خطا هستند نویزی (دارای نویز) نامیده میشوند. از جمله این دادهها میتوان به «مقادیر ناموجود» (Missing Values) و مقادیر غلط (مانند عدد ۲۰۰۰ برای وزن یک انسان) اشاره کرد. از سوی دیگر، تفاوت بین یک مدل و پیشبینیهای آن را نویز گویند.
«داده»ها (Data) نمادها و سمبلهای خامی هستند که به تنهایی فاقد معنای کامل هستند. از جمله دادهها میتوان به تراکنشها، اعداد، متن، تصاویر و ویدئوها اشاره کرد.
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند. واژگان بُعد و متغیر معمولا در ادبیات این حوزه با معنای مشابه به کار میروند. اصطلاح بُعد به طور معمول توسط کارشناسان انبار داده مورد استفاده قرار میگیرد. نوع یک ویژگی توسط مجموعهای از مقادیر ممکن تعیین میشود. این انواع شامل «اسمی» (nominal) که به آن «دستهای» (categorical) نیز گفته میشود، «دودویی» (binary) و «عددی» (numeric) میشوند.
«دادههای پیوسته» (Continuous) میتوانند هر مقداری را در یک بازه از اعداد حقیقی بپذیرند. این مقدار الزاما نباید صحیح باشد. دادههای پیوسته متفاوت و به نوعی متضاد دادههای گسسته (Discrete) یا دستهای هستند.
یک قلم داده که دارای مجموعه متناهی از مقادیر است را «گسسته» گویند. گسسته در اینجا متضاد «پیوسته» است.
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است. هدف از این نوشته پرداختن به هر یک از این مفاهیم همراه با جزئیات نیست، بلکه یک دید کلی از آنها به منظور آمادهسازی ذهن مخاطب ارائه خواهد شد و برای مطالعه همراه با جزئیات هر مبحث، لینکهایی در متن و انتهای این نوشته قرار گرفته است.
══ فهرست مطالب ══
○ مفاهیم مقدماتی
○ انواع ویژگی
○ جبر خطی و آمار
○ روشهای دادهکاوی
○ ارزیابی مدل
○ سایر مفاهیم
○ نتیجهگیری
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
«نویز» (Noise | نوفه) از یک سو، در تعریف به نمادها و سمبلها و یا دادههای ایجاد شده به صورت تصادفی که فاقد معنای خاصی هستند گفته میشود. بر همین اساس، گاهی دادههایی که دارای خطا هستند نویزی (دارای نویز) نامیده میشوند. از جمله این دادهها میتوان به «مقادیر ناموجود» (Missing Values) و مقادیر غلط (مانند عدد ۲۰۰۰ برای وزن یک انسان) اشاره کرد. از سوی دیگر، تفاوت بین یک مدل و پیشبینیهای آن را نویز گویند.
«داده»ها (Data) نمادها و سمبلهای خامی هستند که به تنهایی فاقد معنای کامل هستند. از جمله دادهها میتوان به تراکنشها، اعداد، متن، تصاویر و ویدئوها اشاره کرد.
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند. واژگان بُعد و متغیر معمولا در ادبیات این حوزه با معنای مشابه به کار میروند. اصطلاح بُعد به طور معمول توسط کارشناسان انبار داده مورد استفاده قرار میگیرد. نوع یک ویژگی توسط مجموعهای از مقادیر ممکن تعیین میشود. این انواع شامل «اسمی» (nominal) که به آن «دستهای» (categorical) نیز گفته میشود، «دودویی» (binary) و «عددی» (numeric) میشوند.
«دادههای پیوسته» (Continuous) میتوانند هر مقداری را در یک بازه از اعداد حقیقی بپذیرند. این مقدار الزاما نباید صحیح باشد. دادههای پیوسته متفاوت و به نوعی متضاد دادههای گسسته (Discrete) یا دستهای هستند.
یک قلم داده که دارای مجموعه متناهی از مقادیر است را «گسسته» گویند. گسسته در اینجا متضاد «پیوسته» است.
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ کدام زبان برای داده کاوی بهتر است، پایتون یا R؟
«علم داده» (Data Science) از جمله مباحث جذاب و داغ روز است که توجه پژوهشگران، سازمانها و صنایع گوناگون را به خود جلب کرده است. این مبحث، منجر به شکلگیری مشاغل گوناگونی نیز شده است؛ اغلب مشاغل حوزه علم داده، پردرآمد و جذاب هستند. افرادی که علاقهمند به اشتغال در حوزه علم داده هستند و با مجموعه مهارتهای لازم برای این حوزه آشنایی دارند، میدانند که زبانهای برنامهنویسی «پایتون» (Python) و «آر» (R) دو مورد از محبوبترین و توانمندترین زبانها برای تحلیل داده محسوب میشوند. افرادی که اطمینان ندارند ابتدا کدام یک از این دو زبان را بیاموزند، میتوانند با مطالعه این مطلب به تردید خود پایان دهند و پس از انتخاب زبان، کار یادگیری را آغاز کنند. هنگامی که صحبت از تحلیل داده میشود، زبانهای پایتون و R به عنوان دو زبان آزاد و رایگان که نصب و فراگیری آنها ساده است، مطرح میشوند. برای افراد تازه وارد به دنیای علم داده که فاقد تجربه برنامهنویسی در این دو زبان یا به طور کلی زبانهای برنامهنویسی هستند، طبیعی است که در ابتدای راه مردد باشند که ابتدا پایتون را بیاموزند یا R. خوشبختانه، فرد هر کدام از این زبانها را که اول بیاموزد، ضرر نکرده و توانسته مهارت مفیدی در حوزه علم داده به دست بیاورد. در ادامه، ابتدا به چرایی انتخاب زبان R، سپس پایتون و در نهایت با پاسخ دادن به پرسش «زبان پایتون یا R»، به چگونگی انتخاب از میان این دو پرداخته میشود.
══ فهرست مطالب ══
○ چرا R؟
○ چرا پایتون؟
○ زبان پایتون یا R
🔸 چرا R؟
R از جمله زبانهای قدیمی و قابل اعتماد به شمار میآید که دارای یک جامعه کاربری قدرتمند در حوزه علم داده است. جامعه کاربری R، پشتیبانی مستحکمی را پیرامون این زبان ارائه میکنند. این یعنی میتوان به دریافت پشتیبانی آنلاین از دیگر افراد فعال در زمینه زبان برنامهنویسی R امیدوارم بود و در واقع، در صورتی که فرد نیاز به راهنمایی داشته باشد، میتواند به جامعه کاربری بزرگ R اعتماد کند.
در عین حال، میزان زیاد و در واقع، بیش از ۵,۰۰۰ «بسته» (Package) آماده برای این زبان وجود دارد که میتوان آنها را دانلود و همراه با R استفاده کرد تا تواناییهای این زبان برای انجام وظایف گوناگون و جدید، توسعه پیدا کند. این امر موجب میشود زبان R گزینه مناسبی برای انجام تحلیلهای داده اکتشافی باشد. همچنین، R به خوبی با دیگر زبانهای محاسباتی مانند «سیپلاسپلاس» (++C)، «جاوا» (Java) و «سی» (C) یکپارچه میشود. هنگامی که نیاز به انجام تحلیلهای آماری سنگین یا رسم نمودار باشد، R یک گزینه قابل توجه است. عملیات ریاضی متداول مانند ضرب ماتریسها، در زبان R به خوبی و سادگی قابل انجام است و «نحو» (Syntax) آرایه محور این زبان، آن را به گزینهای مناسب برای ترجمه ریاضیات به کد به ویژه برای افراد فاقد پیشزمینه برنامهنویسی مبدل کرده است.
🔸 چرا پایتون؟
پایتون یک زبان برنامهنویسی همه منظوره است که میتواند تقریبا هر کاری که کاربر نیاز داشته باشد را انجام دهد. از جمله این کارها میتوان به «پیشپردازش دادهها» (Data Preprocessing)، «مهندسی دادهها» (Data Engineering)، «وب اسکرپینگ» (Website Scraping)، ساخت «اپلیکیشن وب» (Web App) و دیگر موارد اشاره کرد. برای افرادی که دانش پیشین در حوزه «برنامهنویسی شیگرا» (Object-Oriented Programming) دارند، تسلط بر پایتون سادهتر از فراگیری R است.
علاوه بر آن، به دلیل آنکه پایتون یک زبان برنامهنویسی شیگرا است، نوشتن کدهای بزرگ مقیاس، قابل نگهداری و مستحکم در پایتون، نسبت به R سادهتر است. با بهرهگیری از زبان برنامهنویسی پایتون، کاربر میتواند کد نمونه اولیهای که برای خود و روی کامپیوتر شخصیاش نوشته است را به عنوان کد محصول، مورد استفاده قرار دهد. اگرچه پایتون مانند زبان R دارای بستههای جامعی برای انجام تحلیلهای آماری نیست، اما وجود کتابخانهها و ابزارهایی مانند «پانداس» (Pandas)، «نامپای» (NumPy)، «سایپای» (Scipy)، «سایکیتلرن» (Scikit-Learn) و «سیبورن» (Seaborn) موجب شده تا زبان پایتون به گزینهای فوقالعاده برای «تحلیل داده» (Data Analytics)، «هوش مصنوعی» (Artificial Intelligence) و «یادگیری ماشین» (Machine Learning) مبدل شود. این زبان کم کم در حال مبدل شدن به گزینهای بینظیر برای یادگیری ماشین و انجام وظایف آماری ابتدایی و متوسط (قبلا در دامنه وظایف زبان R بود) است.
مطالعه ادامه مطلب 👇
🔗 کدام زبان برای داده کاوی بهتر است، پایتون یا R؟ — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«علم داده» (Data Science) از جمله مباحث جذاب و داغ روز است که توجه پژوهشگران، سازمانها و صنایع گوناگون را به خود جلب کرده است. این مبحث، منجر به شکلگیری مشاغل گوناگونی نیز شده است؛ اغلب مشاغل حوزه علم داده، پردرآمد و جذاب هستند. افرادی که علاقهمند به اشتغال در حوزه علم داده هستند و با مجموعه مهارتهای لازم برای این حوزه آشنایی دارند، میدانند که زبانهای برنامهنویسی «پایتون» (Python) و «آر» (R) دو مورد از محبوبترین و توانمندترین زبانها برای تحلیل داده محسوب میشوند. افرادی که اطمینان ندارند ابتدا کدام یک از این دو زبان را بیاموزند، میتوانند با مطالعه این مطلب به تردید خود پایان دهند و پس از انتخاب زبان، کار یادگیری را آغاز کنند. هنگامی که صحبت از تحلیل داده میشود، زبانهای پایتون و R به عنوان دو زبان آزاد و رایگان که نصب و فراگیری آنها ساده است، مطرح میشوند. برای افراد تازه وارد به دنیای علم داده که فاقد تجربه برنامهنویسی در این دو زبان یا به طور کلی زبانهای برنامهنویسی هستند، طبیعی است که در ابتدای راه مردد باشند که ابتدا پایتون را بیاموزند یا R. خوشبختانه، فرد هر کدام از این زبانها را که اول بیاموزد، ضرر نکرده و توانسته مهارت مفیدی در حوزه علم داده به دست بیاورد. در ادامه، ابتدا به چرایی انتخاب زبان R، سپس پایتون و در نهایت با پاسخ دادن به پرسش «زبان پایتون یا R»، به چگونگی انتخاب از میان این دو پرداخته میشود.
══ فهرست مطالب ══
○ چرا R؟
○ چرا پایتون؟
○ زبان پایتون یا R
🔸 چرا R؟
R از جمله زبانهای قدیمی و قابل اعتماد به شمار میآید که دارای یک جامعه کاربری قدرتمند در حوزه علم داده است. جامعه کاربری R، پشتیبانی مستحکمی را پیرامون این زبان ارائه میکنند. این یعنی میتوان به دریافت پشتیبانی آنلاین از دیگر افراد فعال در زمینه زبان برنامهنویسی R امیدوارم بود و در واقع، در صورتی که فرد نیاز به راهنمایی داشته باشد، میتواند به جامعه کاربری بزرگ R اعتماد کند.
در عین حال، میزان زیاد و در واقع، بیش از ۵,۰۰۰ «بسته» (Package) آماده برای این زبان وجود دارد که میتوان آنها را دانلود و همراه با R استفاده کرد تا تواناییهای این زبان برای انجام وظایف گوناگون و جدید، توسعه پیدا کند. این امر موجب میشود زبان R گزینه مناسبی برای انجام تحلیلهای داده اکتشافی باشد. همچنین، R به خوبی با دیگر زبانهای محاسباتی مانند «سیپلاسپلاس» (++C)، «جاوا» (Java) و «سی» (C) یکپارچه میشود. هنگامی که نیاز به انجام تحلیلهای آماری سنگین یا رسم نمودار باشد، R یک گزینه قابل توجه است. عملیات ریاضی متداول مانند ضرب ماتریسها، در زبان R به خوبی و سادگی قابل انجام است و «نحو» (Syntax) آرایه محور این زبان، آن را به گزینهای مناسب برای ترجمه ریاضیات به کد به ویژه برای افراد فاقد پیشزمینه برنامهنویسی مبدل کرده است.
🔸 چرا پایتون؟
پایتون یک زبان برنامهنویسی همه منظوره است که میتواند تقریبا هر کاری که کاربر نیاز داشته باشد را انجام دهد. از جمله این کارها میتوان به «پیشپردازش دادهها» (Data Preprocessing)، «مهندسی دادهها» (Data Engineering)، «وب اسکرپینگ» (Website Scraping)، ساخت «اپلیکیشن وب» (Web App) و دیگر موارد اشاره کرد. برای افرادی که دانش پیشین در حوزه «برنامهنویسی شیگرا» (Object-Oriented Programming) دارند، تسلط بر پایتون سادهتر از فراگیری R است.
علاوه بر آن، به دلیل آنکه پایتون یک زبان برنامهنویسی شیگرا است، نوشتن کدهای بزرگ مقیاس، قابل نگهداری و مستحکم در پایتون، نسبت به R سادهتر است. با بهرهگیری از زبان برنامهنویسی پایتون، کاربر میتواند کد نمونه اولیهای که برای خود و روی کامپیوتر شخصیاش نوشته است را به عنوان کد محصول، مورد استفاده قرار دهد. اگرچه پایتون مانند زبان R دارای بستههای جامعی برای انجام تحلیلهای آماری نیست، اما وجود کتابخانهها و ابزارهایی مانند «پانداس» (Pandas)، «نامپای» (NumPy)، «سایپای» (Scipy)، «سایکیتلرن» (Scikit-Learn) و «سیبورن» (Seaborn) موجب شده تا زبان پایتون به گزینهای فوقالعاده برای «تحلیل داده» (Data Analytics)، «هوش مصنوعی» (Artificial Intelligence) و «یادگیری ماشین» (Machine Learning) مبدل شود. این زبان کم کم در حال مبدل شدن به گزینهای بینظیر برای یادگیری ماشین و انجام وظایف آماری ابتدایی و متوسط (قبلا در دامنه وظایف زبان R بود) است.
مطالعه ادامه مطلب 👇
🔗 کدام زبان برای داده کاوی بهتر است، پایتون یا R؟ — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آزمون تی طبقه ای در SAS و R — راهنمای کابردی
آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه میدهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمونهای دیگری به جای آزمون تی طبقه ای مورد استفاده قرار میگیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روشهای جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.
══ فهرست مطالب ══
○ آزمون تی طبقه ای
○ پیشفرضهای آزمون تی طبقه ای
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون تی طبقه ای
آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار میگیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت میگیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونهها است.
اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونهها براساس یک طرح نمونهگیری طبقهای است. در این صورت نمونهها مستقل از دو جامعه، طی یک «نمونهگیری طبقهای» (Stratified) جمعآوری شدهاند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدولهای این توزیع مراجعه میشود.
از آنجایی که طرح نمونهگیری طبقهای به کار رفته و ممکن است رابطهای بین طبقهها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance میدانند.
🔸 پیشفرضهای آزمون تی طبقه ای
ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامهنویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید دادههای مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آنها اطمینان حاصل کنیم.
در روشهای آمار پارامتری فرض بر این است که دادهها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای دادهها، توزیع گاوسی یا نرمال در نظر گرفته میشود. ولی اگر توزیع این دادهها گاوسی یا نرمال نباشد، پیشفرضهای مربوط به آزمونها و تحلیلهای آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روشهای آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن دادهها مطلع شویم؟
خوشبختانه روشهای زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که میتوان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان میآید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روشهای نرمالیتی و سنجش توزیع دادهها را بهتر درک کنید. البته در اینجا از معرفی این تکنیکها صرف نظر کرده و خواننده را به لینکها ارائه شده، ارجاع میدهیم.
مطالعه ادامه مطلب 👇👇
🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه میدهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمونهای دیگری به جای آزمون تی طبقه ای مورد استفاده قرار میگیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روشهای جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.
══ فهرست مطالب ══
○ آزمون تی طبقه ای
○ پیشفرضهای آزمون تی طبقه ای
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون تی طبقه ای
آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار میگیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت میگیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونهها است.
اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونهها براساس یک طرح نمونهگیری طبقهای است. در این صورت نمونهها مستقل از دو جامعه، طی یک «نمونهگیری طبقهای» (Stratified) جمعآوری شدهاند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدولهای این توزیع مراجعه میشود.
از آنجایی که طرح نمونهگیری طبقهای به کار رفته و ممکن است رابطهای بین طبقهها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance میدانند.
🔸 پیشفرضهای آزمون تی طبقه ای
ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامهنویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید دادههای مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آنها اطمینان حاصل کنیم.
در روشهای آمار پارامتری فرض بر این است که دادهها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای دادهها، توزیع گاوسی یا نرمال در نظر گرفته میشود. ولی اگر توزیع این دادهها گاوسی یا نرمال نباشد، پیشفرضهای مربوط به آزمونها و تحلیلهای آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روشهای آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن دادهها مطلع شویم؟
خوشبختانه روشهای زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که میتوان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان میآید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روشهای نرمالیتی و سنجش توزیع دادهها را بهتر درک کنید. البته در اینجا از معرفی این تکنیکها صرف نظر کرده و خواننده را به لینکها ارائه شده، ارجاع میدهیم.
مطالعه ادامه مطلب 👇👇
🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی
هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق میافتد که در هنگام جمع اوری دادهها دقت کافی صورت نگرفته باشد. در چنین مواردی میگوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج میبرد. راه کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آنها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامهنویسی پایتون مورد تحلیل قرار میدهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتمها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.
══ فهرست مطالب ══
○ مدیریت داده گمشده در داده کاوی با پایتون
○ خلاصه و جمعبندی
🔸 مدیریت داده گمشده در داده کاوی با پایتون
به روشهای مختلفی میتوان بر مشکل دادهها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آنها لزوم توجه به دادههای گمشده را به نوعی بیان میکند.
– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمیکند.
– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.
کتابخانههای پایتون دادههای گمشده را به صورت عبارت nan نشان میدهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانهها میتوانید مشخص کنید که کدام سلولها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:
اگر میخواهید با استفاده از دادهها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانهها (از جمله scikit-learn) و تابع مدلسازی پیغامی مبنی بر وجود خطا ظاهر میسازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.
🔸 خلاصه و جمعبندی
در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی دادهها است، بررسی داده گمشده بسیار مهم جلوه میکند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونههای مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتمهای متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیادهسازی شدهاند. در این متن به بررسی این الگوریتمها یا راه کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای آمار و احتمالات
– آموزش داده کاوی و زبان برنامه نویسی R
– مجموعه آموزشهای داده کاوی و یادگیری ماشین
– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب
– داده گمشده یا ناموجود (Missing Data) در R – روشهای پاکسازی دادهها
– دادههای سانسور شده (Censored Data) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق میافتد که در هنگام جمع اوری دادهها دقت کافی صورت نگرفته باشد. در چنین مواردی میگوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج میبرد. راه کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آنها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامهنویسی پایتون مورد تحلیل قرار میدهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتمها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.
══ فهرست مطالب ══
○ مدیریت داده گمشده در داده کاوی با پایتون
○ خلاصه و جمعبندی
🔸 مدیریت داده گمشده در داده کاوی با پایتون
به روشهای مختلفی میتوان بر مشکل دادهها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آنها لزوم توجه به دادههای گمشده را به نوعی بیان میکند.
– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمیکند.
– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.
کتابخانههای پایتون دادههای گمشده را به صورت عبارت nan نشان میدهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانهها میتوانید مشخص کنید که کدام سلولها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:
اگر میخواهید با استفاده از دادهها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانهها (از جمله scikit-learn) و تابع مدلسازی پیغامی مبنی بر وجود خطا ظاهر میسازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.
🔸 خلاصه و جمعبندی
در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی دادهها است، بررسی داده گمشده بسیار مهم جلوه میکند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونههای مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتمهای متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیادهسازی شدهاند. در این متن به بررسی این الگوریتمها یا راه کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای آمار و احتمالات
– آموزش داده کاوی و زبان برنامه نویسی R
– مجموعه آموزشهای داده کاوی و یادگیری ماشین
– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب
– داده گمشده یا ناموجود (Missing Data) در R – روشهای پاکسازی دادهها
– دادههای سانسور شده (Censored Data) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی
آزمون واریانس یک طرفه (One-way ANOVA) یکی از محبوبترین آزمونهای آماری است که به مقایسه و بررسی میانگین بین سه یا چند جامعه میپردازد. البته برای استفاده از این آزمون یا تحلیل، شرایطی نیز وجود دارد که قبل از اجرای آن باید مورد بررسی قرار گیرند. در این نوشتار از مجله فرادرس به نحوه انجام آنالیز واریانس یک طرفه در اکسل خواهیم پرداخت و با ذکر مثالی، خروجیهای حاصل در اکسل را مشاهده و نتیجه آزمون را مشخص خواهیم کرد.
══ فهرست مطالب ══
○ آنالیز واریانس یک طرفه در اکسل
○ فیلم آموزش محاسبات آماری با اکسل
○ خلاصه و جمعبندی
🔸 آنالیز واریانس یک طرفه در اکسل
از مطالب دیگر مجله فرادرس در زمینه تحلیل یا آنالیز واریانس، فرا گرفتید که جدول تحلیل واریانس برای مقایسه میانگین در بین سه گروه یا بیشتر مورد استفاده قرار میگیرد. فرض کنید سه جامعه مستقل از یکدیگر (دانش آموزان مقطع پیشدبستان، دبستان و دبیرستان) دارید که برایشان یک ویژگی (مثلا وزن) را اندازهگیری کردهاید. به کمک تحلیل واریانس میتوانیم نشان دهیم که وزن این سه گروه، با یکدیگر اختلاف داشته و این تفاوتها، از لحاظ آماری نیز معنیدار است. البته توجه داشته باشید که ممکن است توسط تحلیل واریانس به این نتیجه برسیم که هر سه گروه یکسان هستند و میانگین در بین این سه جامعه تفاوت یا اختلاف آماری ندارند.
نکته: منظور از اختلاف آماری، با اختلاف ریاضی متفاوت است. از آنجایی که با استفاده از نمونه آماری دست به استنباط زدهایم، ممکن است اختلاف در میانگین نمونهها ناشی از خطای نمونهگیری بوده و واقعا جوامع با هم تفاوت نداشته باشند. این مفهوم نشانگر عدم اختلاف آماری بین میانگین جوامع است در حالیکه از لحاظ ریاضی میانگین نمونهها، با یکدیگر متفاوت هستند.
به این ترتیب، آنالیز واریانس یک تکنیک برای اجرای آزمون فرض آماری محسوب میشود که اجازه انجام آزمون همزمان روی میانگین برای بیش از سه جامعه یا گروه را به محقق یا تحلیلگر آماری، میدهد. توجه دارید که در آزمون فرض آماری، ابتدا نمونههایی جمع آوری شده، سپس براساس مقادیر آنها در سه گروه مختلف، میتوانیم نسبت به رد یا تایید فرضیه آماری تصمیم بگیریم. فرضیههای آماری احکامی هستند که برای جامعه آماری صادر میشود. به این معنی که به واسطه مقادیر جمعآوری شده از نمونه و به کارگیری محاسبات و قوانین مربوط به آزمون فرض، در مورد جامعه آماری به یک نتیجهگیری میرسیم.
🔸 فیلم آموزش محاسبات آماری با اکسل
اغلب کسانی که در سطح ابتدایی یا متوسط به کار تحلیل داده یا محاسبات آماری میپردازند، از اکسل به عنوان ابزار محاسباتی بهره میبرند. خوشبختانه در یکی از آموزشهای فرادرس به معرفی قابلیتهای این نرمافزار در انجام تحلیلهای آماری و اجرای فرمولهای آماری پرداخته شده است. از آنجایی که ممکن است پیادهسازی فرمولهای آماری در اکسل برای کاربران مبتدی سخت باشد، افزونهای برای انجام این گونه تحلیلها در اکسل تعبیه شده که در فیلم آموزش محاسبات آماری در اکسل نیز به آن اشاره شده است. بعضی از مواردی که در این آموزش در مورد آن بحث و بررسی صورت گرفته در ادامه شرح داده شدهاند:
– درس اول: شیوه بدست آوردن شاخصهای توصیفی (Denoscriptive Statistics) که نمایی کلی از جامعه و ویژگیهای آن در اختیار کاربر قرار میدهد، از موارد اولیه درس اول محسوب میشود. همچنین تشکیل فاصله اطمینان (Confidence Interval) برای میانگین، رسم نمودار هیستوگرام (Histogram)، آزمون فرض مربوط به میانگین جامعه نرمال، آزمون و تجزیه و تحلیل واریانس یک طرفه و دوطرفه، همچنین رگرسیون خطی (Linear regression) و ایجاد اعداد تصادفی (random number generation) از دیگر مواردی است که در درس اول به آنها پرداخته میشود.
– درس دوم: توابع توزیع آماری (distribution function) و معادله خط برگشت (Regression) محاسباتی شامل توابع شاخصهای تمرکز، شاخصهای پراکندگی، شاخصهای تقارن و عدم تقارن، ضرایب همبستگی و کوواریانس، معکوس توابع توزیع آماری و رگرسیون و خط بازگشت است.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
آزمون واریانس یک طرفه (One-way ANOVA) یکی از محبوبترین آزمونهای آماری است که به مقایسه و بررسی میانگین بین سه یا چند جامعه میپردازد. البته برای استفاده از این آزمون یا تحلیل، شرایطی نیز وجود دارد که قبل از اجرای آن باید مورد بررسی قرار گیرند. در این نوشتار از مجله فرادرس به نحوه انجام آنالیز واریانس یک طرفه در اکسل خواهیم پرداخت و با ذکر مثالی، خروجیهای حاصل در اکسل را مشاهده و نتیجه آزمون را مشخص خواهیم کرد.
══ فهرست مطالب ══
○ آنالیز واریانس یک طرفه در اکسل
○ فیلم آموزش محاسبات آماری با اکسل
○ خلاصه و جمعبندی
🔸 آنالیز واریانس یک طرفه در اکسل
از مطالب دیگر مجله فرادرس در زمینه تحلیل یا آنالیز واریانس، فرا گرفتید که جدول تحلیل واریانس برای مقایسه میانگین در بین سه گروه یا بیشتر مورد استفاده قرار میگیرد. فرض کنید سه جامعه مستقل از یکدیگر (دانش آموزان مقطع پیشدبستان، دبستان و دبیرستان) دارید که برایشان یک ویژگی (مثلا وزن) را اندازهگیری کردهاید. به کمک تحلیل واریانس میتوانیم نشان دهیم که وزن این سه گروه، با یکدیگر اختلاف داشته و این تفاوتها، از لحاظ آماری نیز معنیدار است. البته توجه داشته باشید که ممکن است توسط تحلیل واریانس به این نتیجه برسیم که هر سه گروه یکسان هستند و میانگین در بین این سه جامعه تفاوت یا اختلاف آماری ندارند.
نکته: منظور از اختلاف آماری، با اختلاف ریاضی متفاوت است. از آنجایی که با استفاده از نمونه آماری دست به استنباط زدهایم، ممکن است اختلاف در میانگین نمونهها ناشی از خطای نمونهگیری بوده و واقعا جوامع با هم تفاوت نداشته باشند. این مفهوم نشانگر عدم اختلاف آماری بین میانگین جوامع است در حالیکه از لحاظ ریاضی میانگین نمونهها، با یکدیگر متفاوت هستند.
به این ترتیب، آنالیز واریانس یک تکنیک برای اجرای آزمون فرض آماری محسوب میشود که اجازه انجام آزمون همزمان روی میانگین برای بیش از سه جامعه یا گروه را به محقق یا تحلیلگر آماری، میدهد. توجه دارید که در آزمون فرض آماری، ابتدا نمونههایی جمع آوری شده، سپس براساس مقادیر آنها در سه گروه مختلف، میتوانیم نسبت به رد یا تایید فرضیه آماری تصمیم بگیریم. فرضیههای آماری احکامی هستند که برای جامعه آماری صادر میشود. به این معنی که به واسطه مقادیر جمعآوری شده از نمونه و به کارگیری محاسبات و قوانین مربوط به آزمون فرض، در مورد جامعه آماری به یک نتیجهگیری میرسیم.
🔸 فیلم آموزش محاسبات آماری با اکسل
اغلب کسانی که در سطح ابتدایی یا متوسط به کار تحلیل داده یا محاسبات آماری میپردازند، از اکسل به عنوان ابزار محاسباتی بهره میبرند. خوشبختانه در یکی از آموزشهای فرادرس به معرفی قابلیتهای این نرمافزار در انجام تحلیلهای آماری و اجرای فرمولهای آماری پرداخته شده است. از آنجایی که ممکن است پیادهسازی فرمولهای آماری در اکسل برای کاربران مبتدی سخت باشد، افزونهای برای انجام این گونه تحلیلها در اکسل تعبیه شده که در فیلم آموزش محاسبات آماری در اکسل نیز به آن اشاره شده است. بعضی از مواردی که در این آموزش در مورد آن بحث و بررسی صورت گرفته در ادامه شرح داده شدهاند:
– درس اول: شیوه بدست آوردن شاخصهای توصیفی (Denoscriptive Statistics) که نمایی کلی از جامعه و ویژگیهای آن در اختیار کاربر قرار میدهد، از موارد اولیه درس اول محسوب میشود. همچنین تشکیل فاصله اطمینان (Confidence Interval) برای میانگین، رسم نمودار هیستوگرام (Histogram)، آزمون فرض مربوط به میانگین جامعه نرمال، آزمون و تجزیه و تحلیل واریانس یک طرفه و دوطرفه، همچنین رگرسیون خطی (Linear regression) و ایجاد اعداد تصادفی (random number generation) از دیگر مواردی است که در درس اول به آنها پرداخته میشود.
– درس دوم: توابع توزیع آماری (distribution function) و معادله خط برگشت (Regression) محاسباتی شامل توابع شاخصهای تمرکز، شاخصهای پراکندگی، شاخصهای تقارن و عدم تقارن، ضرایب همبستگی و کوواریانس، معکوس توابع توزیع آماری و رگرسیون و خط بازگشت است.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی
در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آنها برای ایجاد یک گردش کاری با بهرهوری بالا و کار تیمی در حوزه علوم داده میپردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژههای یادگیری ماشین کردهاند. همچنین برای برخی دانشمندان علوم داده که میخواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پارهای موارد مفید خواهد بود.
══ فهرست مطالب ══
○ گیت
○ پایتون
○ VSCode
○ Notion
○ Grammarly
○ سخن پایانی
🔸 گیت
در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیتهاب آشنا هستید. اگر فکر میکنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، میتوانید از مطلب زیر استفاده کنید:
– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده
مؤثرترین روش برای تعامل با ریپازیتوری گیتهاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستمهای مک) که یکپارچگی شگفتانگیزی با گیت ارائه میکند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی میکند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم میشود.
پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو میتوانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدالها (Badges) مانند تصویر زیر بر آن بیفزایید.
🔸 پایتون
در این بخش به توضیح روش نصب لوکال پکیجهای پایتون با استفاده از pip و virtualenv میپردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، میتوانید از دستور زیر بهره بگیرید:
دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب میکند. اگر از قبل نسخهای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه میکند.
ابتدا ابزار مدیریت محیط را با دستور زیر نصب میکنیم:
مطالعه ادامه مطلب 👇👇
🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آنها برای ایجاد یک گردش کاری با بهرهوری بالا و کار تیمی در حوزه علوم داده میپردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژههای یادگیری ماشین کردهاند. همچنین برای برخی دانشمندان علوم داده که میخواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پارهای موارد مفید خواهد بود.
══ فهرست مطالب ══
○ گیت
○ پایتون
○ VSCode
○ Notion
○ Grammarly
○ سخن پایانی
🔸 گیت
در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیتهاب آشنا هستید. اگر فکر میکنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، میتوانید از مطلب زیر استفاده کنید:
– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده
مؤثرترین روش برای تعامل با ریپازیتوری گیتهاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستمهای مک) که یکپارچگی شگفتانگیزی با گیت ارائه میکند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی میکند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم میشود.
پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو میتوانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدالها (Badges) مانند تصویر زیر بر آن بیفزایید.
🔸 پایتون
در این بخش به توضیح روش نصب لوکال پکیجهای پایتون با استفاده از pip و virtualenv میپردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، میتوانید از دستور زیر بهره بگیرید:
دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب میکند. اگر از قبل نسخهای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه میکند.
ابتدا ابزار مدیریت محیط را با دستور زیر نصب میکنیم:
مطالعه ادامه مطلب 👇👇
🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ برنامه نویسی پویا در علم داده | راهنمای کاربردی
در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثالهایی که درک آنها آسان باشد شرح داده شده است.
══ فهرست مطالب ══
○ برنامه نویسی پویا در علم داده
○ برنامه نویسی پویا در علم داده چطور کار میکند؟
○ چرا برنامه نویسی پویا در علم داده دشوار است؟
○ مثالی از برنامه نویسی پویا در علم داده
○ کدنویسی و برنامه نویسی پویا در علم داده
○ جمعبندی
🔸 برنامه نویسی پویا در علم داده
الگوریتمها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دورههای تحلیل و طراحی الگوریتم مناسبی را نمیگذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکتها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسشهایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح میکنند. اکنون، پرسشی که افراد زیادی با آن مواجه میشوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در سادهترین حالت میتوان گفت، جوابی که فرد به این پرسش میدهد، میتواند به نوعی سطح دانش برنامهنویسی او را نشان دهد. بنابراین، توصیه میشود که علاقهمندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.
🔸 برنامه نویسی پویا در علم داده چطور کار میکند؟
فرض میشود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:
۱, ۱, ۲, ۳, ۵, ۸
برنامه محاسبه سری فیبوناچی در ادامه آمده است.
مطالعه ادامه مطلب 👇👇
🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثالهایی که درک آنها آسان باشد شرح داده شده است.
══ فهرست مطالب ══
○ برنامه نویسی پویا در علم داده
○ برنامه نویسی پویا در علم داده چطور کار میکند؟
○ چرا برنامه نویسی پویا در علم داده دشوار است؟
○ مثالی از برنامه نویسی پویا در علم داده
○ کدنویسی و برنامه نویسی پویا در علم داده
○ جمعبندی
🔸 برنامه نویسی پویا در علم داده
الگوریتمها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دورههای تحلیل و طراحی الگوریتم مناسبی را نمیگذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکتها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسشهایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح میکنند. اکنون، پرسشی که افراد زیادی با آن مواجه میشوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در سادهترین حالت میتوان گفت، جوابی که فرد به این پرسش میدهد، میتواند به نوعی سطح دانش برنامهنویسی او را نشان دهد. بنابراین، توصیه میشود که علاقهمندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.
🔸 برنامه نویسی پویا در علم داده چطور کار میکند؟
فرض میشود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:
۱, ۱, ۲, ۳, ۵, ۸
برنامه محاسبه سری فیبوناچی در ادامه آمده است.
مطالعه ادامه مطلب 👇👇
🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ دادهکاوی (Data Mining)
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند.
🔹 فهرست مطالب این نوشته
▫️ داده کاوی چیست؟
▫️ تاریخچه دادهکاوی
▫️ چرا داده کاوی
▫️ انواع منابع داده
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود.
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
🔸 چرا داده کاوی
با رشد و افزایش توجهات به دادهکاوی، پرسش «چرا دادهکاوی؟» همواره مطرح میشود. در پاسخ به این پرسش باید گفت، دادهکاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینهای جوان و آیندهدار برای نسل کنونی محسوب میشود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع دادهها، نیاز حتمی به تبدیل چنین دادههایی به اطلاعات و دانش وجود دارد.
🔸 انواع منابع داده
در این بخش، انواع منابع دادهای که همه روزه حجم انبوهی از دادهها را تولید و یا ذخیره میکنند، مورد بررسی قرار گرفتهاند.
● تراکنشهای کسبوکار
● دادههای علمی
● دادههای شخصی و پزشکی
● تصاویر و ویدئوهای نظارتی
●رقابتهای ورزشی
● رسانههای دیجیتال
● دنیاهای مجازی
● جهانهای مجازی
● گزارشها و اسناد متنی
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 دادهکاوی (Data Mining) — از صفر تا صد — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ دادهکاوی (Data Mining)
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند.
🔹 فهرست مطالب این نوشته
▫️ داده کاوی چیست؟
▫️ تاریخچه دادهکاوی
▫️ چرا داده کاوی
▫️ انواع منابع داده
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود.
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
🔸 چرا داده کاوی
با رشد و افزایش توجهات به دادهکاوی، پرسش «چرا دادهکاوی؟» همواره مطرح میشود. در پاسخ به این پرسش باید گفت، دادهکاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینهای جوان و آیندهدار برای نسل کنونی محسوب میشود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع دادهها، نیاز حتمی به تبدیل چنین دادههایی به اطلاعات و دانش وجود دارد.
🔸 انواع منابع داده
در این بخش، انواع منابع دادهای که همه روزه حجم انبوهی از دادهها را تولید و یا ذخیره میکنند، مورد بررسی قرار گرفتهاند.
● تراکنشهای کسبوکار
● دادههای علمی
● دادههای شخصی و پزشکی
● تصاویر و ویدئوهای نظارتی
●رقابتهای ورزشی
● رسانههای دیجیتال
● دنیاهای مجازی
● جهانهای مجازی
● گزارشها و اسناد متنی
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 دادهکاوی (Data Mining) — از صفر تا صد — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ داده کاوی (Data Mining) و مفاهیم کلیدی آن
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است.
🔹 فهرست مطالب این نوشته
▫️ مفاهیم مقدماتی
▫️ انواع ویژگی
▫️ جبر خطی و آمار
▫️ روشهای دادهکاوی
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
● نویز
● داده
● قالب داده
● دادههای خارجی
● دادههای خارجی
● Overlay
● داده کاوی
● موتور دادهکاوی
● پایگاه دانش
● دادههای ناموجود
● دادههای غیر قابل اجرا
● پاکسازی
● یکپارچهسازی دادهها
● تبدیل
● بصریسازی
● استقرار
● سیستم مدیریت پایگاه داده
● سیستم مدیریت پایگاه داده رابطهای
● رابط کاربری
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
● پیوسته
● گسسته
● دادههای دستهای
● بستهبندی
● ابعاد
🔸 جبر خطی و آمار
روشهای آماری و مباحث جبر خطی کاربردهای بسیاری در علم داده و دادهکاوی دارند. از جمله مفاهیم آماری پر کاربرد در دادهکاوی میتوان به معیارهای تمرکز و شاخصهای پراکندگی اشاره کرد.
● میانگین
● میانه
● مُد
● نرمالسازی
● کمترین مربعات
● واریانس
● MARS
● بیشینه درستنمایی
🔸 روشهای دادهکاوی
روشهای دادهکاوی در واقع روالها و الگوریتمهایی هستند که برای تحلیل دادهها در پایگاه داده مورد استفاده قرار میگیرند. این روشها در سه دسته قرار میگیرند.
● تحلیلهای اکتشافی
● استنتاج
● استقرا
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ داده کاوی (Data Mining) و مفاهیم کلیدی آن
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است.
🔹 فهرست مطالب این نوشته
▫️ مفاهیم مقدماتی
▫️ انواع ویژگی
▫️ جبر خطی و آمار
▫️ روشهای دادهکاوی
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
● نویز
● داده
● قالب داده
● دادههای خارجی
● دادههای خارجی
● Overlay
● داده کاوی
● موتور دادهکاوی
● پایگاه دانش
● دادههای ناموجود
● دادههای غیر قابل اجرا
● پاکسازی
● یکپارچهسازی دادهها
● تبدیل
● بصریسازی
● استقرار
● سیستم مدیریت پایگاه داده
● سیستم مدیریت پایگاه داده رابطهای
● رابط کاربری
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
● پیوسته
● گسسته
● دادههای دستهای
● بستهبندی
● ابعاد
🔸 جبر خطی و آمار
روشهای آماری و مباحث جبر خطی کاربردهای بسیاری در علم داده و دادهکاوی دارند. از جمله مفاهیم آماری پر کاربرد در دادهکاوی میتوان به معیارهای تمرکز و شاخصهای پراکندگی اشاره کرد.
● میانگین
● میانه
● مُد
● نرمالسازی
● کمترین مربعات
● واریانس
● MARS
● بیشینه درستنمایی
🔸 روشهای دادهکاوی
روشهای دادهکاوی در واقع روالها و الگوریتمهایی هستند که برای تحلیل دادهها در پایگاه داده مورد استفاده قرار میگیرند. این روشها در سه دسته قرار میگیرند.
● تحلیلهای اکتشافی
● استنتاج
● استقرا
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ انواع ویژگی ها (خصیصه ها) و مفهوم بردار ویژگی در داده کاوی
چنانکه پیشتر تشریح شد، مجموعههای داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشوند. یک شی داده نمایانگر یک موجودیت است.
🔹 فهرست مطالب این نوشته
▫️ ویژگی چیست؟
▫️ویژگیهای گسسته و پیوسته
🔸 ویژگی چیست؟
یک ویژگی (خصیصه)، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
🔸 ویژگیهای گسسته و پیوسته
همانطور که پیش از این بیان شد، ویژگیها در دستههای اسمی، دودویی، ترتیبی و عددی قرار دارند. راههای زیادی برای سازماندهی انواع خصیصهها وجود دارد. این انواع دو به دو ناسازگار نیستند. الگوریتمهای دستهبندی از زمینهای از یادگیری ماشین توسعه یافتهاند که اغلب درباره ویژگیهای گسسته یا پیوسته سخن میگویند.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 انواع ویژگیها (خصیصهها) و مفهوم بردار ویژگی در دادهکاوی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ انواع ویژگی ها (خصیصه ها) و مفهوم بردار ویژگی در داده کاوی
چنانکه پیشتر تشریح شد، مجموعههای داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشوند. یک شی داده نمایانگر یک موجودیت است.
🔹 فهرست مطالب این نوشته
▫️ ویژگی چیست؟
▫️ویژگیهای گسسته و پیوسته
🔸 ویژگی چیست؟
یک ویژگی (خصیصه)، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
🔸 ویژگیهای گسسته و پیوسته
همانطور که پیش از این بیان شد، ویژگیها در دستههای اسمی، دودویی، ترتیبی و عددی قرار دارند. راههای زیادی برای سازماندهی انواع خصیصهها وجود دارد. این انواع دو به دو ناسازگار نیستند. الگوریتمهای دستهبندی از زمینهای از یادگیری ماشین توسعه یافتهاند که اغلب درباره ویژگیهای گسسته یا پیوسته سخن میگویند.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 انواع ویژگیها (خصیصهها) و مفهوم بردار ویژگی در دادهکاوی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس