✳️ منحنی ROC و کاربردهای آن — به زبان ساده
یکی از روشهای بررسی و ارزیابی عملکرد دستهبندی دو دویی، «نمودار مشخصه عملکرد» (Receiver Operating Characteristic) یا به اختصار منحنی ROC است. کارایی الگوریتمهای «دستهبندهای دو دویی» (Binary Classifier) معمولا توسط شاخصهایی به نام «حساسیت» (Sensitivity) یا «بازیابی» (Recall) سنجیده میشود. اما در نمودار ROC هر دوی این شاخصها ترکیب شده و به صورت یک منحنی نمایش داده میشوند. اغلب برای بررسی کارایی الگوریتمهای دستهبندی یا ایجاد دادههای رستهای از منحنی ROC استفاده میکنند. این موضوع در شاخه یادگیری ماشین با نظارت (Supervised Machine Learning)، بیشتر مورد توجه قرار گرفته است. به همین دلیل این نوشتار از مجله فرادرس را به بررسی منحنی ROC و کاربردهای آن اختصاص دادهایم. ابتدا تاریخچهای از پدید آمدن منحنی ROC خواهیم گفت و در ادامه، این منحنی را معرفی و نحوه ترسیم آن را بیان خواهیم کرد. همینطور در این متن، به شاخصهای مرتبط با منحنی ROC نیز میپردازیم.
══ فهرست مطالب ══
○ منحنی ROC و کاربردهای آن
○ منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
○ خلاصه و جمعبندی
🔸 منحنی ROC و کاربردهای آن
شاید بتوان تحلیل سیگنالهای رادار در جنگ جهانی دوم را اولین زمان ظهور منحنی ROC و کاربردهای آن دانست. البته بعدها از چنین منحنی در «نظریه شناسایی سیگنال» (Signal Detection Theory) نیز استفاده شد. پس از جنگ در «پرل هاربر» (Pearl Harber) در سال ۱۹۴۱، که نیروهایی آمریکایی به شدت آسیب دیدند، ارتش آمریکا تصمیم گرفت سیگنالهای راداری (Radar Signal) به منظور کشف و شناسایی هواپیماهای ژاپنی را بهبود دهد. برای این کار، آنها توانایی یک گیرنده رادار را در تشخیص هواپیما اندازهگیری کردند و از آن پس واژه «مشخصه عملکرد گیرنده» (Receiver Operating Characteristic) برای ارزیابی عملکرد دستگاههای تشخیص سیگنال، مورد استفاده قرار گرفت.
در دهه ۱۹۵۰، منحنیهای ROC در روانشناسی نیز به کار گرفته شدند تا ضعف در قوه تشخیص انسانها (و گاهی حیوان) را مورد بررسی و ارزیابی قرار دهند. در پزشکی، تجزیه و تحلیل ROC به طور گستردهای در سنجش صحت آزمایشهای تشخیص پزشکی و تعیین میزان دقت چنین آزمایشاتی، مورد استفاده قرار گرفته است.
منحنیهای ROC همچنین در اپیدمیولوژی و تحقیقات پزشکی بسیار مورد استفاده قرار میگیرند. در رادیولوژی، تجزیه و تحلیل ROC یک روش معمول برای ارزیابی تکنیکهای جدید رادیولوژی است. همچنین در علوم اجتماعی، آنالیز منحنی ROC اغلب به عنوان «نسبت دقت مشخصه عملکرد» (ROC Accuracy Ratio)، یاد شده و یک تکنیک معمول برای قضاوت در مورد مدلهای احتمال پیشبین (Predictive Probability Model) است.
🔸 منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
با توجه به موفقیت منحنیهای ROC برای ارزیابی مدلهای طبقهبندی، گسترش کاربرد آنها برای سایر عملکردهای یادگیری نظارت شده نیز مورد بررسی قرار گرفته است. پیشنهادهای قابل توجه برای مسئله رگرسیون و به کارگیری منحنی ROC، عبارتند از:
– «منحنی مشخصه عملکرد خطای رگرسیون» (regression error characteristic) که اختصارا با حروف REC نشان داده میشود.
– «منحنی مشخصه عملکرد رگرسیون» (Regression ROC) که بطور خلاصه آن را به شکل PROC معرفی میکنند.
در حالت دوم، منحنیهای RROC با توجه به عدم تقارن و بدنه محدب، بسیار شبیه به منحنیهای ROC برای طبقهبندی هستند. همچنین منطقه زیر منحنیهای RROC متناسب با واریانس خطای مدل رگرسیون است.
نکته: گاهی در منحنی ROC به سطح زیر نمودار توجه میشود که به آن AUC یا (Area Under Curve) گفته میشود. برای کسب اطلاعات بیشتر در این زمینه بهتر است نوشتار پیش بینی ریزش مشتریان با داده کاوی و R — راهنمای جامع را مطالعه کنید.
مطالعه ادامه مطلب 👇👇
🔗 منحنی ROC و کاربردهای آن — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
یکی از روشهای بررسی و ارزیابی عملکرد دستهبندی دو دویی، «نمودار مشخصه عملکرد» (Receiver Operating Characteristic) یا به اختصار منحنی ROC است. کارایی الگوریتمهای «دستهبندهای دو دویی» (Binary Classifier) معمولا توسط شاخصهایی به نام «حساسیت» (Sensitivity) یا «بازیابی» (Recall) سنجیده میشود. اما در نمودار ROC هر دوی این شاخصها ترکیب شده و به صورت یک منحنی نمایش داده میشوند. اغلب برای بررسی کارایی الگوریتمهای دستهبندی یا ایجاد دادههای رستهای از منحنی ROC استفاده میکنند. این موضوع در شاخه یادگیری ماشین با نظارت (Supervised Machine Learning)، بیشتر مورد توجه قرار گرفته است. به همین دلیل این نوشتار از مجله فرادرس را به بررسی منحنی ROC و کاربردهای آن اختصاص دادهایم. ابتدا تاریخچهای از پدید آمدن منحنی ROC خواهیم گفت و در ادامه، این منحنی را معرفی و نحوه ترسیم آن را بیان خواهیم کرد. همینطور در این متن، به شاخصهای مرتبط با منحنی ROC نیز میپردازیم.
══ فهرست مطالب ══
○ منحنی ROC و کاربردهای آن
○ منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
○ خلاصه و جمعبندی
🔸 منحنی ROC و کاربردهای آن
شاید بتوان تحلیل سیگنالهای رادار در جنگ جهانی دوم را اولین زمان ظهور منحنی ROC و کاربردهای آن دانست. البته بعدها از چنین منحنی در «نظریه شناسایی سیگنال» (Signal Detection Theory) نیز استفاده شد. پس از جنگ در «پرل هاربر» (Pearl Harber) در سال ۱۹۴۱، که نیروهایی آمریکایی به شدت آسیب دیدند، ارتش آمریکا تصمیم گرفت سیگنالهای راداری (Radar Signal) به منظور کشف و شناسایی هواپیماهای ژاپنی را بهبود دهد. برای این کار، آنها توانایی یک گیرنده رادار را در تشخیص هواپیما اندازهگیری کردند و از آن پس واژه «مشخصه عملکرد گیرنده» (Receiver Operating Characteristic) برای ارزیابی عملکرد دستگاههای تشخیص سیگنال، مورد استفاده قرار گرفت.
در دهه ۱۹۵۰، منحنیهای ROC در روانشناسی نیز به کار گرفته شدند تا ضعف در قوه تشخیص انسانها (و گاهی حیوان) را مورد بررسی و ارزیابی قرار دهند. در پزشکی، تجزیه و تحلیل ROC به طور گستردهای در سنجش صحت آزمایشهای تشخیص پزشکی و تعیین میزان دقت چنین آزمایشاتی، مورد استفاده قرار گرفته است.
منحنیهای ROC همچنین در اپیدمیولوژی و تحقیقات پزشکی بسیار مورد استفاده قرار میگیرند. در رادیولوژی، تجزیه و تحلیل ROC یک روش معمول برای ارزیابی تکنیکهای جدید رادیولوژی است. همچنین در علوم اجتماعی، آنالیز منحنی ROC اغلب به عنوان «نسبت دقت مشخصه عملکرد» (ROC Accuracy Ratio)، یاد شده و یک تکنیک معمول برای قضاوت در مورد مدلهای احتمال پیشبین (Predictive Probability Model) است.
🔸 منحنی ROC و کاربردهای آن در فراتر از دستهبندی دو دویی
با توجه به موفقیت منحنیهای ROC برای ارزیابی مدلهای طبقهبندی، گسترش کاربرد آنها برای سایر عملکردهای یادگیری نظارت شده نیز مورد بررسی قرار گرفته است. پیشنهادهای قابل توجه برای مسئله رگرسیون و به کارگیری منحنی ROC، عبارتند از:
– «منحنی مشخصه عملکرد خطای رگرسیون» (regression error characteristic) که اختصارا با حروف REC نشان داده میشود.
– «منحنی مشخصه عملکرد رگرسیون» (Regression ROC) که بطور خلاصه آن را به شکل PROC معرفی میکنند.
در حالت دوم، منحنیهای RROC با توجه به عدم تقارن و بدنه محدب، بسیار شبیه به منحنیهای ROC برای طبقهبندی هستند. همچنین منطقه زیر منحنیهای RROC متناسب با واریانس خطای مدل رگرسیون است.
نکته: گاهی در منحنی ROC به سطح زیر نمودار توجه میشود که به آن AUC یا (Area Under Curve) گفته میشود. برای کسب اطلاعات بیشتر در این زمینه بهتر است نوشتار پیش بینی ریزش مشتریان با داده کاوی و R — راهنمای جامع را مطالعه کنید.
مطالعه ادامه مطلب 👇👇
🔗 منحنی ROC و کاربردهای آن — به زبان ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ داده کاوی (Data Mining) — از صفر تا صد
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند. از سوی دیگر، همه روزه حجم عظیمی از دادههای علمی در زمینههای گوناگون تولید میشوند.
══ فهرست مطالب ══
○ داده کاوی چیست؟
○ تاریخچه دادهکاوی
○ چرا دادهکاوی؟
○ انواع منابع داده
○ فرایند دادهکاوی
○ مشکلات دادهکاوی
○ اصطلاحشناسی
○
○ ماهیت مساله دادهکاوی
○ مزایا و معایب دادهکاوی
○ کاربردهای دادهکاوی
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
۱. رشد انفجاری دادهها در گستره وسیعی از زمینهها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی میشود:
– دستگاههای ذخیرهسازی نسبت به گذشته ارزانتر و با ظرفیت نامحدود، مانند فضاهای ذخیرهسازی ابری
– ارتباطات سریعتر با سرعت اتصال بیشتر
– سیستمهای مدیریت پایگاه داده و پشتیبانی نرمافزاری بهتر
۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
در حال حاضر، یادگیری آماری، «تحلیل داده» و «علم داده» (Data Science) از دیگر عباراتی هستند که با معنای مشابه دادهکاوی مورد استفاده قرار میگیرند، حال آنکه گاه تفاوتهای ظریفی میان این موارد وجود دارد. برای آشنایی با این تفاوتها، مطالعه مطلب «علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها» توصیه میشود. همچنین، برای مطالعه همراه با جزئیات بیشتر پیرامون تاریخچه دادهکاوی، مطلب «دادهکاوی چیست؟ بخش اول: مبانی» پیشنهاد میشود.
از روشهای دادهکاوی در فرآیند طویل پژوهش و توسعه محصول استفاده میشود. از همین رو، تکامل دادهکاوی نیز از هنگامی آغاز شد که دادههای کسبوکارها روی کامپیوترها ذخیره شدند. دادهکاوی به کاربران امکان حرکت در میان دادهها را در زمان واقعی میدهد. از دادهکاوی در جامعه کسبوکار بدین دلیل استفاده میشود که از سه فناوری بلوغ یافته استفاده میکند، این فناوریها عبارتند از:
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند. از سوی دیگر، همه روزه حجم عظیمی از دادههای علمی در زمینههای گوناگون تولید میشوند.
══ فهرست مطالب ══
○ داده کاوی چیست؟
○ تاریخچه دادهکاوی
○ چرا دادهکاوی؟
○ انواع منابع داده
○ فرایند دادهکاوی
○ مشکلات دادهکاوی
○ اصطلاحشناسی
○
○ ماهیت مساله دادهکاوی
○ مزایا و معایب دادهکاوی
○ کاربردهای دادهکاوی
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
۱. رشد انفجاری دادهها در گستره وسیعی از زمینهها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی میشود:
– دستگاههای ذخیرهسازی نسبت به گذشته ارزانتر و با ظرفیت نامحدود، مانند فضاهای ذخیرهسازی ابری
– ارتباطات سریعتر با سرعت اتصال بیشتر
– سیستمهای مدیریت پایگاه داده و پشتیبانی نرمافزاری بهتر
۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
در حال حاضر، یادگیری آماری، «تحلیل داده» و «علم داده» (Data Science) از دیگر عباراتی هستند که با معنای مشابه دادهکاوی مورد استفاده قرار میگیرند، حال آنکه گاه تفاوتهای ظریفی میان این موارد وجود دارد. برای آشنایی با این تفاوتها، مطالعه مطلب «علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها» توصیه میشود. همچنین، برای مطالعه همراه با جزئیات بیشتر پیرامون تاریخچه دادهکاوی، مطلب «دادهکاوی چیست؟ بخش اول: مبانی» پیشنهاد میشود.
از روشهای دادهکاوی در فرآیند طویل پژوهش و توسعه محصول استفاده میشود. از همین رو، تکامل دادهکاوی نیز از هنگامی آغاز شد که دادههای کسبوکارها روی کامپیوترها ذخیره شدند. دادهکاوی به کاربران امکان حرکت در میان دادهها را در زمان واقعی میدهد. از دادهکاوی در جامعه کسبوکار بدین دلیل استفاده میشود که از سه فناوری بلوغ یافته استفاده میکند، این فناوریها عبارتند از:
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها
«علم داده» (data science)، «تحلیل دادهها» (Data analytics)، «یادگیری ماشین» (machine learning) و «دادهکاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از اینرو شرکتها بهدنبال کارشناسانی میگردند که با کیمیاگری دادهها به آنها در اتخاذ تصمیمهای چابک، اثرگذار و کارا در کسبوکار کمک کنند.
══ فهرست مطالب ══
○ علم داده چیست؟
○ چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
○ تحلیلگر داده کیست؟
○ چه مهارتهایی برای مبدل شدن به یک تحلیلگر داده مورد نیاز است؟
○ آیا بین علم داده و تحلیل داده همپوشانی وجود دارد؟
○ یادگیری ماشین چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
○ آیا بین یادگیری ماشین و علم داده همپوشانی وجود دارد؟
○ دادهکاوی چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک دادهکاو مورد نیاز است؟
○ آیا همپوشانی بین دادهکاوی و علم داده وجود دارد؟
🔸 علم داده چیست؟
افراد زیادی برای بیش از یک دهه تلاش کردهاند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است. این نمودار توسط «هوق کانوی» (Hugh Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنهای که محاسبات و خلاصهسازی در آن انجام میشود) و مهارتهای هک میشود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.
علم داده مفهومی است که برای کار با دادههای کلان (مِهداده) به کار میرود و شامل پاکسازی، آمادهسازی و تحلیل داده میشود. یک دانشمند داده، دادهها را از چندین منبع گردآوردی کرده و تحلیلهای پیشبین و یادگیری ماشین را بر آنها اعمال میکند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه دادههای گردآوری شده بهره میبرد. این دانشمندان، دادهها را از نقطه نظر کسبوکار درک میکنند و قادر به فراهم کردن پیشبینیها و بینشهای صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسبوکار قابل استفاده است.
🔸 چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند. با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
– دانش قوی از پایتون، R، اسکالا و SAS
– مهارت داشتن در نوشتن کدهای پایگاه داده SQL
– توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
– درک توابع تحلیل چندگانه
– دانش یادگیری ماشین
مطالعه ادامه مطلب 👇👇
🔗 علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«علم داده» (data science)، «تحلیل دادهها» (Data analytics)، «یادگیری ماشین» (machine learning) و «دادهکاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از اینرو شرکتها بهدنبال کارشناسانی میگردند که با کیمیاگری دادهها به آنها در اتخاذ تصمیمهای چابک، اثرگذار و کارا در کسبوکار کمک کنند.
══ فهرست مطالب ══
○ علم داده چیست؟
○ چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
○ تحلیلگر داده کیست؟
○ چه مهارتهایی برای مبدل شدن به یک تحلیلگر داده مورد نیاز است؟
○ آیا بین علم داده و تحلیل داده همپوشانی وجود دارد؟
○ یادگیری ماشین چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
○ آیا بین یادگیری ماشین و علم داده همپوشانی وجود دارد؟
○ دادهکاوی چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک دادهکاو مورد نیاز است؟
○ آیا همپوشانی بین دادهکاوی و علم داده وجود دارد؟
🔸 علم داده چیست؟
افراد زیادی برای بیش از یک دهه تلاش کردهاند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است. این نمودار توسط «هوق کانوی» (Hugh Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنهای که محاسبات و خلاصهسازی در آن انجام میشود) و مهارتهای هک میشود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.
علم داده مفهومی است که برای کار با دادههای کلان (مِهداده) به کار میرود و شامل پاکسازی، آمادهسازی و تحلیل داده میشود. یک دانشمند داده، دادهها را از چندین منبع گردآوردی کرده و تحلیلهای پیشبین و یادگیری ماشین را بر آنها اعمال میکند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه دادههای گردآوری شده بهره میبرد. این دانشمندان، دادهها را از نقطه نظر کسبوکار درک میکنند و قادر به فراهم کردن پیشبینیها و بینشهای صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسبوکار قابل استفاده است.
🔸 چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند. با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
– دانش قوی از پایتون، R، اسکالا و SAS
– مهارت داشتن در نوشتن کدهای پایگاه داده SQL
– توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
– درک توابع تحلیل چندگانه
– دانش یادگیری ماشین
مطالعه ادامه مطلب 👇👇
🔗 علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ دادهکاوی چیست؟ بخش اول: مبانی
دادهکاوی یک زمینه علمی دارای رشد سریع است که با عنوان کشف دانش از داده (Knowledge Discovery From Data | KDD) نیز شناخته میشود. در این مطلب به دلایل استفاده از دادهکاوی و تعاریف آن (با توجه به فرآیند انجام دادهکاوی) پرداخته میشود. هدف از این نوشتار، ارائه یک نمای کلنگر از دادهکاوی به مخاطبان است.
══ فهرست مطالب ══
○ چرا دادهکاوی
○ پیشروی در عصر اطلاعات
○ دادهکاوی، نتیجه تکامل فناوری اطلاعات
○ دادهکاوی چیست؟
🔸 چرا دادهکاوی
«پلاتو»
بشر در جهانی زندگی میکند که هر روز حجم انبوهی از دادهها در آن تولید میشوند. تحلیل چنین دادههایی یک نیاز مهم است. در ادامه به این مبحث پرداخته میشود که دادهکاوی چگونه میتواند ابزارهای لازم برای کشف دانش از داده را فراهم کند. پس از مطالعه این مطلب به سادگی میتوان پی برد که دادهکاوی نتیجه تکامل طبیعی فناوری اطلاعات است.
🔸 پیشروی در عصر اطلاعات
«بشر در عصر اطلاعات زندگی میکند»، یک گفتار معروف است. اما حقیقت این است که بشر در عصر دادهها زندگی میکند. همه روزه چندین ترابایت یا پتابایت داده در شبکههای کامپیوتری، دستگاههای ذخیرهسازی گوناگون، کسبوکارها، جامعهشناسی، علوم و مهندسی، بهداشت و درمان و دیگر جنبههای زندگی بشر جریان داشته و ذخیرهسازی میشوند.
این رشد انفجاری حجم دادههای موجود، نتیجه کامپیوتری شدن جوامع و توسعه سریع ابزارهای قدرتمند ذخیرهسازی و گردآوری داده است. کسبوکارها در سراسر جهان مجموعه دادههای عظیمی را تولید میکنند که شامل تراکنشهای فروش، دادههای بازاریابی، توضیحات محصولها، آگهیهای تبلیغاتی، سوابق و گزارشهای شرکتها و بازخوردهای مشتریان میشود.
برای مثال فروشگاههای بزرگی مانند والمارت (Walmart) چند صد میلیون تراکنش را در هزاران شعبه خود در سراسر جهان مدیریت میکنند. فعالیتهای علمی و مهندس نیز حجم زیادی از دادهها را به صورت مستمر با استفاده از حسگرهای دوربرد، اندازهگیری فرآیندها، تجربیات علمی، کارایی سیستمها، مشاهدات مهندسی و نظارتهای زیست محیطی فراهم میکنند. شبکههایی که ستون فقرات ارتباطات جهانی هستند، دهها پتابایت ترافیک داده را همه روزه حمل میکنند. در صنعت بهداشت و درمان، حجم عظیمی متشکل از دادهها از اسناد، دادههای حاصل از نظارت بر بیماران و تصویربرداریهای پزشکی تولید میشود.
مطالعه ادامه مطلب 👇👇
🔗 دادهکاوی چیست؟ بخش اول: مبانی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
دادهکاوی یک زمینه علمی دارای رشد سریع است که با عنوان کشف دانش از داده (Knowledge Discovery From Data | KDD) نیز شناخته میشود. در این مطلب به دلایل استفاده از دادهکاوی و تعاریف آن (با توجه به فرآیند انجام دادهکاوی) پرداخته میشود. هدف از این نوشتار، ارائه یک نمای کلنگر از دادهکاوی به مخاطبان است.
══ فهرست مطالب ══
○ چرا دادهکاوی
○ پیشروی در عصر اطلاعات
○ دادهکاوی، نتیجه تکامل فناوری اطلاعات
○ دادهکاوی چیست؟
🔸 چرا دادهکاوی
«پلاتو»
بشر در جهانی زندگی میکند که هر روز حجم انبوهی از دادهها در آن تولید میشوند. تحلیل چنین دادههایی یک نیاز مهم است. در ادامه به این مبحث پرداخته میشود که دادهکاوی چگونه میتواند ابزارهای لازم برای کشف دانش از داده را فراهم کند. پس از مطالعه این مطلب به سادگی میتوان پی برد که دادهکاوی نتیجه تکامل طبیعی فناوری اطلاعات است.
🔸 پیشروی در عصر اطلاعات
«بشر در عصر اطلاعات زندگی میکند»، یک گفتار معروف است. اما حقیقت این است که بشر در عصر دادهها زندگی میکند. همه روزه چندین ترابایت یا پتابایت داده در شبکههای کامپیوتری، دستگاههای ذخیرهسازی گوناگون، کسبوکارها، جامعهشناسی، علوم و مهندسی، بهداشت و درمان و دیگر جنبههای زندگی بشر جریان داشته و ذخیرهسازی میشوند.
این رشد انفجاری حجم دادههای موجود، نتیجه کامپیوتری شدن جوامع و توسعه سریع ابزارهای قدرتمند ذخیرهسازی و گردآوری داده است. کسبوکارها در سراسر جهان مجموعه دادههای عظیمی را تولید میکنند که شامل تراکنشهای فروش، دادههای بازاریابی، توضیحات محصولها، آگهیهای تبلیغاتی، سوابق و گزارشهای شرکتها و بازخوردهای مشتریان میشود.
برای مثال فروشگاههای بزرگی مانند والمارت (Walmart) چند صد میلیون تراکنش را در هزاران شعبه خود در سراسر جهان مدیریت میکنند. فعالیتهای علمی و مهندس نیز حجم زیادی از دادهها را به صورت مستمر با استفاده از حسگرهای دوربرد، اندازهگیری فرآیندها، تجربیات علمی، کارایی سیستمها، مشاهدات مهندسی و نظارتهای زیست محیطی فراهم میکنند. شبکههایی که ستون فقرات ارتباطات جهانی هستند، دهها پتابایت ترافیک داده را همه روزه حمل میکنند. در صنعت بهداشت و درمان، حجم عظیمی متشکل از دادهها از اسناد، دادههای حاصل از نظارت بر بیماران و تصویربرداریهای پزشکی تولید میشود.
مطالعه ادامه مطلب 👇👇
🔗 دادهکاوی چیست؟ بخش اول: مبانی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است. هدف از این نوشته پرداختن به هر یک از این مفاهیم همراه با جزئیات نیست، بلکه یک دید کلی از آنها به منظور آمادهسازی ذهن مخاطب ارائه خواهد شد و برای مطالعه همراه با جزئیات هر مبحث، لینکهایی در متن و انتهای این نوشته قرار گرفته است.
══ فهرست مطالب ══
○ مفاهیم مقدماتی
○ انواع ویژگی
○ جبر خطی و آمار
○ روشهای دادهکاوی
○ ارزیابی مدل
○ سایر مفاهیم
○ نتیجهگیری
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
«نویز» (Noise | نوفه) از یک سو، در تعریف به نمادها و سمبلها و یا دادههای ایجاد شده به صورت تصادفی که فاقد معنای خاصی هستند گفته میشود. بر همین اساس، گاهی دادههایی که دارای خطا هستند نویزی (دارای نویز) نامیده میشوند. از جمله این دادهها میتوان به «مقادیر ناموجود» (Missing Values) و مقادیر غلط (مانند عدد ۲۰۰۰ برای وزن یک انسان) اشاره کرد. از سوی دیگر، تفاوت بین یک مدل و پیشبینیهای آن را نویز گویند.
«داده»ها (Data) نمادها و سمبلهای خامی هستند که به تنهایی فاقد معنای کامل هستند. از جمله دادهها میتوان به تراکنشها، اعداد، متن، تصاویر و ویدئوها اشاره کرد.
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند. واژگان بُعد و متغیر معمولا در ادبیات این حوزه با معنای مشابه به کار میروند. اصطلاح بُعد به طور معمول توسط کارشناسان انبار داده مورد استفاده قرار میگیرد. نوع یک ویژگی توسط مجموعهای از مقادیر ممکن تعیین میشود. این انواع شامل «اسمی» (nominal) که به آن «دستهای» (categorical) نیز گفته میشود، «دودویی» (binary) و «عددی» (numeric) میشوند.
«دادههای پیوسته» (Continuous) میتوانند هر مقداری را در یک بازه از اعداد حقیقی بپذیرند. این مقدار الزاما نباید صحیح باشد. دادههای پیوسته متفاوت و به نوعی متضاد دادههای گسسته (Discrete) یا دستهای هستند.
یک قلم داده که دارای مجموعه متناهی از مقادیر است را «گسسته» گویند. گسسته در اینجا متضاد «پیوسته» است.
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است. هدف از این نوشته پرداختن به هر یک از این مفاهیم همراه با جزئیات نیست، بلکه یک دید کلی از آنها به منظور آمادهسازی ذهن مخاطب ارائه خواهد شد و برای مطالعه همراه با جزئیات هر مبحث، لینکهایی در متن و انتهای این نوشته قرار گرفته است.
══ فهرست مطالب ══
○ مفاهیم مقدماتی
○ انواع ویژگی
○ جبر خطی و آمار
○ روشهای دادهکاوی
○ ارزیابی مدل
○ سایر مفاهیم
○ نتیجهگیری
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
«نویز» (Noise | نوفه) از یک سو، در تعریف به نمادها و سمبلها و یا دادههای ایجاد شده به صورت تصادفی که فاقد معنای خاصی هستند گفته میشود. بر همین اساس، گاهی دادههایی که دارای خطا هستند نویزی (دارای نویز) نامیده میشوند. از جمله این دادهها میتوان به «مقادیر ناموجود» (Missing Values) و مقادیر غلط (مانند عدد ۲۰۰۰ برای وزن یک انسان) اشاره کرد. از سوی دیگر، تفاوت بین یک مدل و پیشبینیهای آن را نویز گویند.
«داده»ها (Data) نمادها و سمبلهای خامی هستند که به تنهایی فاقد معنای کامل هستند. از جمله دادهها میتوان به تراکنشها، اعداد، متن، تصاویر و ویدئوها اشاره کرد.
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند. واژگان بُعد و متغیر معمولا در ادبیات این حوزه با معنای مشابه به کار میروند. اصطلاح بُعد به طور معمول توسط کارشناسان انبار داده مورد استفاده قرار میگیرد. نوع یک ویژگی توسط مجموعهای از مقادیر ممکن تعیین میشود. این انواع شامل «اسمی» (nominal) که به آن «دستهای» (categorical) نیز گفته میشود، «دودویی» (binary) و «عددی» (numeric) میشوند.
«دادههای پیوسته» (Continuous) میتوانند هر مقداری را در یک بازه از اعداد حقیقی بپذیرند. این مقدار الزاما نباید صحیح باشد. دادههای پیوسته متفاوت و به نوعی متضاد دادههای گسسته (Discrete) یا دستهای هستند.
یک قلم داده که دارای مجموعه متناهی از مقادیر است را «گسسته» گویند. گسسته در اینجا متضاد «پیوسته» است.
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ کدام زبان برای داده کاوی بهتر است، پایتون یا R؟
«علم داده» (Data Science) از جمله مباحث جذاب و داغ روز است که توجه پژوهشگران، سازمانها و صنایع گوناگون را به خود جلب کرده است. این مبحث، منجر به شکلگیری مشاغل گوناگونی نیز شده است؛ اغلب مشاغل حوزه علم داده، پردرآمد و جذاب هستند. افرادی که علاقهمند به اشتغال در حوزه علم داده هستند و با مجموعه مهارتهای لازم برای این حوزه آشنایی دارند، میدانند که زبانهای برنامهنویسی «پایتون» (Python) و «آر» (R) دو مورد از محبوبترین و توانمندترین زبانها برای تحلیل داده محسوب میشوند. افرادی که اطمینان ندارند ابتدا کدام یک از این دو زبان را بیاموزند، میتوانند با مطالعه این مطلب به تردید خود پایان دهند و پس از انتخاب زبان، کار یادگیری را آغاز کنند. هنگامی که صحبت از تحلیل داده میشود، زبانهای پایتون و R به عنوان دو زبان آزاد و رایگان که نصب و فراگیری آنها ساده است، مطرح میشوند. برای افراد تازه وارد به دنیای علم داده که فاقد تجربه برنامهنویسی در این دو زبان یا به طور کلی زبانهای برنامهنویسی هستند، طبیعی است که در ابتدای راه مردد باشند که ابتدا پایتون را بیاموزند یا R. خوشبختانه، فرد هر کدام از این زبانها را که اول بیاموزد، ضرر نکرده و توانسته مهارت مفیدی در حوزه علم داده به دست بیاورد. در ادامه، ابتدا به چرایی انتخاب زبان R، سپس پایتون و در نهایت با پاسخ دادن به پرسش «زبان پایتون یا R»، به چگونگی انتخاب از میان این دو پرداخته میشود.
══ فهرست مطالب ══
○ چرا R؟
○ چرا پایتون؟
○ زبان پایتون یا R
🔸 چرا R؟
R از جمله زبانهای قدیمی و قابل اعتماد به شمار میآید که دارای یک جامعه کاربری قدرتمند در حوزه علم داده است. جامعه کاربری R، پشتیبانی مستحکمی را پیرامون این زبان ارائه میکنند. این یعنی میتوان به دریافت پشتیبانی آنلاین از دیگر افراد فعال در زمینه زبان برنامهنویسی R امیدوارم بود و در واقع، در صورتی که فرد نیاز به راهنمایی داشته باشد، میتواند به جامعه کاربری بزرگ R اعتماد کند.
در عین حال، میزان زیاد و در واقع، بیش از ۵,۰۰۰ «بسته» (Package) آماده برای این زبان وجود دارد که میتوان آنها را دانلود و همراه با R استفاده کرد تا تواناییهای این زبان برای انجام وظایف گوناگون و جدید، توسعه پیدا کند. این امر موجب میشود زبان R گزینه مناسبی برای انجام تحلیلهای داده اکتشافی باشد. همچنین، R به خوبی با دیگر زبانهای محاسباتی مانند «سیپلاسپلاس» (++C)، «جاوا» (Java) و «سی» (C) یکپارچه میشود. هنگامی که نیاز به انجام تحلیلهای آماری سنگین یا رسم نمودار باشد، R یک گزینه قابل توجه است. عملیات ریاضی متداول مانند ضرب ماتریسها، در زبان R به خوبی و سادگی قابل انجام است و «نحو» (Syntax) آرایه محور این زبان، آن را به گزینهای مناسب برای ترجمه ریاضیات به کد به ویژه برای افراد فاقد پیشزمینه برنامهنویسی مبدل کرده است.
🔸 چرا پایتون؟
پایتون یک زبان برنامهنویسی همه منظوره است که میتواند تقریبا هر کاری که کاربر نیاز داشته باشد را انجام دهد. از جمله این کارها میتوان به «پیشپردازش دادهها» (Data Preprocessing)، «مهندسی دادهها» (Data Engineering)، «وب اسکرپینگ» (Website Scraping)، ساخت «اپلیکیشن وب» (Web App) و دیگر موارد اشاره کرد. برای افرادی که دانش پیشین در حوزه «برنامهنویسی شیگرا» (Object-Oriented Programming) دارند، تسلط بر پایتون سادهتر از فراگیری R است.
علاوه بر آن، به دلیل آنکه پایتون یک زبان برنامهنویسی شیگرا است، نوشتن کدهای بزرگ مقیاس، قابل نگهداری و مستحکم در پایتون، نسبت به R سادهتر است. با بهرهگیری از زبان برنامهنویسی پایتون، کاربر میتواند کد نمونه اولیهای که برای خود و روی کامپیوتر شخصیاش نوشته است را به عنوان کد محصول، مورد استفاده قرار دهد. اگرچه پایتون مانند زبان R دارای بستههای جامعی برای انجام تحلیلهای آماری نیست، اما وجود کتابخانهها و ابزارهایی مانند «پانداس» (Pandas)، «نامپای» (NumPy)، «سایپای» (Scipy)، «سایکیتلرن» (Scikit-Learn) و «سیبورن» (Seaborn) موجب شده تا زبان پایتون به گزینهای فوقالعاده برای «تحلیل داده» (Data Analytics)، «هوش مصنوعی» (Artificial Intelligence) و «یادگیری ماشین» (Machine Learning) مبدل شود. این زبان کم کم در حال مبدل شدن به گزینهای بینظیر برای یادگیری ماشین و انجام وظایف آماری ابتدایی و متوسط (قبلا در دامنه وظایف زبان R بود) است.
مطالعه ادامه مطلب 👇
🔗 کدام زبان برای داده کاوی بهتر است، پایتون یا R؟ — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«علم داده» (Data Science) از جمله مباحث جذاب و داغ روز است که توجه پژوهشگران، سازمانها و صنایع گوناگون را به خود جلب کرده است. این مبحث، منجر به شکلگیری مشاغل گوناگونی نیز شده است؛ اغلب مشاغل حوزه علم داده، پردرآمد و جذاب هستند. افرادی که علاقهمند به اشتغال در حوزه علم داده هستند و با مجموعه مهارتهای لازم برای این حوزه آشنایی دارند، میدانند که زبانهای برنامهنویسی «پایتون» (Python) و «آر» (R) دو مورد از محبوبترین و توانمندترین زبانها برای تحلیل داده محسوب میشوند. افرادی که اطمینان ندارند ابتدا کدام یک از این دو زبان را بیاموزند، میتوانند با مطالعه این مطلب به تردید خود پایان دهند و پس از انتخاب زبان، کار یادگیری را آغاز کنند. هنگامی که صحبت از تحلیل داده میشود، زبانهای پایتون و R به عنوان دو زبان آزاد و رایگان که نصب و فراگیری آنها ساده است، مطرح میشوند. برای افراد تازه وارد به دنیای علم داده که فاقد تجربه برنامهنویسی در این دو زبان یا به طور کلی زبانهای برنامهنویسی هستند، طبیعی است که در ابتدای راه مردد باشند که ابتدا پایتون را بیاموزند یا R. خوشبختانه، فرد هر کدام از این زبانها را که اول بیاموزد، ضرر نکرده و توانسته مهارت مفیدی در حوزه علم داده به دست بیاورد. در ادامه، ابتدا به چرایی انتخاب زبان R، سپس پایتون و در نهایت با پاسخ دادن به پرسش «زبان پایتون یا R»، به چگونگی انتخاب از میان این دو پرداخته میشود.
══ فهرست مطالب ══
○ چرا R؟
○ چرا پایتون؟
○ زبان پایتون یا R
🔸 چرا R؟
R از جمله زبانهای قدیمی و قابل اعتماد به شمار میآید که دارای یک جامعه کاربری قدرتمند در حوزه علم داده است. جامعه کاربری R، پشتیبانی مستحکمی را پیرامون این زبان ارائه میکنند. این یعنی میتوان به دریافت پشتیبانی آنلاین از دیگر افراد فعال در زمینه زبان برنامهنویسی R امیدوارم بود و در واقع، در صورتی که فرد نیاز به راهنمایی داشته باشد، میتواند به جامعه کاربری بزرگ R اعتماد کند.
در عین حال، میزان زیاد و در واقع، بیش از ۵,۰۰۰ «بسته» (Package) آماده برای این زبان وجود دارد که میتوان آنها را دانلود و همراه با R استفاده کرد تا تواناییهای این زبان برای انجام وظایف گوناگون و جدید، توسعه پیدا کند. این امر موجب میشود زبان R گزینه مناسبی برای انجام تحلیلهای داده اکتشافی باشد. همچنین، R به خوبی با دیگر زبانهای محاسباتی مانند «سیپلاسپلاس» (++C)، «جاوا» (Java) و «سی» (C) یکپارچه میشود. هنگامی که نیاز به انجام تحلیلهای آماری سنگین یا رسم نمودار باشد، R یک گزینه قابل توجه است. عملیات ریاضی متداول مانند ضرب ماتریسها، در زبان R به خوبی و سادگی قابل انجام است و «نحو» (Syntax) آرایه محور این زبان، آن را به گزینهای مناسب برای ترجمه ریاضیات به کد به ویژه برای افراد فاقد پیشزمینه برنامهنویسی مبدل کرده است.
🔸 چرا پایتون؟
پایتون یک زبان برنامهنویسی همه منظوره است که میتواند تقریبا هر کاری که کاربر نیاز داشته باشد را انجام دهد. از جمله این کارها میتوان به «پیشپردازش دادهها» (Data Preprocessing)، «مهندسی دادهها» (Data Engineering)، «وب اسکرپینگ» (Website Scraping)، ساخت «اپلیکیشن وب» (Web App) و دیگر موارد اشاره کرد. برای افرادی که دانش پیشین در حوزه «برنامهنویسی شیگرا» (Object-Oriented Programming) دارند، تسلط بر پایتون سادهتر از فراگیری R است.
علاوه بر آن، به دلیل آنکه پایتون یک زبان برنامهنویسی شیگرا است، نوشتن کدهای بزرگ مقیاس، قابل نگهداری و مستحکم در پایتون، نسبت به R سادهتر است. با بهرهگیری از زبان برنامهنویسی پایتون، کاربر میتواند کد نمونه اولیهای که برای خود و روی کامپیوتر شخصیاش نوشته است را به عنوان کد محصول، مورد استفاده قرار دهد. اگرچه پایتون مانند زبان R دارای بستههای جامعی برای انجام تحلیلهای آماری نیست، اما وجود کتابخانهها و ابزارهایی مانند «پانداس» (Pandas)، «نامپای» (NumPy)، «سایپای» (Scipy)، «سایکیتلرن» (Scikit-Learn) و «سیبورن» (Seaborn) موجب شده تا زبان پایتون به گزینهای فوقالعاده برای «تحلیل داده» (Data Analytics)، «هوش مصنوعی» (Artificial Intelligence) و «یادگیری ماشین» (Machine Learning) مبدل شود. این زبان کم کم در حال مبدل شدن به گزینهای بینظیر برای یادگیری ماشین و انجام وظایف آماری ابتدایی و متوسط (قبلا در دامنه وظایف زبان R بود) است.
مطالعه ادامه مطلب 👇
🔗 کدام زبان برای داده کاوی بهتر است، پایتون یا R؟ — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آزمون تی طبقه ای در SAS و R — راهنمای کابردی
آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه میدهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمونهای دیگری به جای آزمون تی طبقه ای مورد استفاده قرار میگیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روشهای جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.
══ فهرست مطالب ══
○ آزمون تی طبقه ای
○ پیشفرضهای آزمون تی طبقه ای
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون تی طبقه ای
آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار میگیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت میگیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونهها است.
اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونهها براساس یک طرح نمونهگیری طبقهای است. در این صورت نمونهها مستقل از دو جامعه، طی یک «نمونهگیری طبقهای» (Stratified) جمعآوری شدهاند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدولهای این توزیع مراجعه میشود.
از آنجایی که طرح نمونهگیری طبقهای به کار رفته و ممکن است رابطهای بین طبقهها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance میدانند.
🔸 پیشفرضهای آزمون تی طبقه ای
ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامهنویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید دادههای مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آنها اطمینان حاصل کنیم.
در روشهای آمار پارامتری فرض بر این است که دادهها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای دادهها، توزیع گاوسی یا نرمال در نظر گرفته میشود. ولی اگر توزیع این دادهها گاوسی یا نرمال نباشد، پیشفرضهای مربوط به آزمونها و تحلیلهای آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روشهای آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن دادهها مطلع شویم؟
خوشبختانه روشهای زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که میتوان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان میآید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روشهای نرمالیتی و سنجش توزیع دادهها را بهتر درک کنید. البته در اینجا از معرفی این تکنیکها صرف نظر کرده و خواننده را به لینکها ارائه شده، ارجاع میدهیم.
مطالعه ادامه مطلب 👇👇
🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه میدهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمونهای دیگری به جای آزمون تی طبقه ای مورد استفاده قرار میگیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روشهای جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.
══ فهرست مطالب ══
○ آزمون تی طبقه ای
○ پیشفرضهای آزمون تی طبقه ای
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون تی طبقه ای
آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار میگیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت میگیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونهها است.
اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونهها براساس یک طرح نمونهگیری طبقهای است. در این صورت نمونهها مستقل از دو جامعه، طی یک «نمونهگیری طبقهای» (Stratified) جمعآوری شدهاند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدولهای این توزیع مراجعه میشود.
از آنجایی که طرح نمونهگیری طبقهای به کار رفته و ممکن است رابطهای بین طبقهها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance میدانند.
🔸 پیشفرضهای آزمون تی طبقه ای
ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامهنویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید دادههای مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آنها اطمینان حاصل کنیم.
در روشهای آمار پارامتری فرض بر این است که دادهها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای دادهها، توزیع گاوسی یا نرمال در نظر گرفته میشود. ولی اگر توزیع این دادهها گاوسی یا نرمال نباشد، پیشفرضهای مربوط به آزمونها و تحلیلهای آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روشهای آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن دادهها مطلع شویم؟
خوشبختانه روشهای زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که میتوان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان میآید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روشهای نرمالیتی و سنجش توزیع دادهها را بهتر درک کنید. البته در اینجا از معرفی این تکنیکها صرف نظر کرده و خواننده را به لینکها ارائه شده، ارجاع میدهیم.
مطالعه ادامه مطلب 👇👇
🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی
هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق میافتد که در هنگام جمع اوری دادهها دقت کافی صورت نگرفته باشد. در چنین مواردی میگوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج میبرد. راه کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آنها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامهنویسی پایتون مورد تحلیل قرار میدهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتمها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.
══ فهرست مطالب ══
○ مدیریت داده گمشده در داده کاوی با پایتون
○ خلاصه و جمعبندی
🔸 مدیریت داده گمشده در داده کاوی با پایتون
به روشهای مختلفی میتوان بر مشکل دادهها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آنها لزوم توجه به دادههای گمشده را به نوعی بیان میکند.
– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمیکند.
– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.
کتابخانههای پایتون دادههای گمشده را به صورت عبارت nan نشان میدهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانهها میتوانید مشخص کنید که کدام سلولها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:
اگر میخواهید با استفاده از دادهها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانهها (از جمله scikit-learn) و تابع مدلسازی پیغامی مبنی بر وجود خطا ظاهر میسازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.
🔸 خلاصه و جمعبندی
در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی دادهها است، بررسی داده گمشده بسیار مهم جلوه میکند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونههای مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتمهای متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیادهسازی شدهاند. در این متن به بررسی این الگوریتمها یا راه کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای آمار و احتمالات
– آموزش داده کاوی و زبان برنامه نویسی R
– مجموعه آموزشهای داده کاوی و یادگیری ماشین
– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب
– داده گمشده یا ناموجود (Missing Data) در R – روشهای پاکسازی دادهها
– دادههای سانسور شده (Censored Data) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق میافتد که در هنگام جمع اوری دادهها دقت کافی صورت نگرفته باشد. در چنین مواردی میگوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج میبرد. راه کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آنها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامهنویسی پایتون مورد تحلیل قرار میدهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتمها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.
══ فهرست مطالب ══
○ مدیریت داده گمشده در داده کاوی با پایتون
○ خلاصه و جمعبندی
🔸 مدیریت داده گمشده در داده کاوی با پایتون
به روشهای مختلفی میتوان بر مشکل دادهها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آنها لزوم توجه به دادههای گمشده را به نوعی بیان میکند.
– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمیکند.
– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.
کتابخانههای پایتون دادههای گمشده را به صورت عبارت nan نشان میدهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانهها میتوانید مشخص کنید که کدام سلولها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:
اگر میخواهید با استفاده از دادهها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانهها (از جمله scikit-learn) و تابع مدلسازی پیغامی مبنی بر وجود خطا ظاهر میسازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.
🔸 خلاصه و جمعبندی
در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی دادهها است، بررسی داده گمشده بسیار مهم جلوه میکند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونههای مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتمهای متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیادهسازی شدهاند. در این متن به بررسی این الگوریتمها یا راه کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای آمار و احتمالات
– آموزش داده کاوی و زبان برنامه نویسی R
– مجموعه آموزشهای داده کاوی و یادگیری ماشین
– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب
– داده گمشده یا ناموجود (Missing Data) در R – روشهای پاکسازی دادهها
– دادههای سانسور شده (Censored Data) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی
آزمون واریانس یک طرفه (One-way ANOVA) یکی از محبوبترین آزمونهای آماری است که به مقایسه و بررسی میانگین بین سه یا چند جامعه میپردازد. البته برای استفاده از این آزمون یا تحلیل، شرایطی نیز وجود دارد که قبل از اجرای آن باید مورد بررسی قرار گیرند. در این نوشتار از مجله فرادرس به نحوه انجام آنالیز واریانس یک طرفه در اکسل خواهیم پرداخت و با ذکر مثالی، خروجیهای حاصل در اکسل را مشاهده و نتیجه آزمون را مشخص خواهیم کرد.
══ فهرست مطالب ══
○ آنالیز واریانس یک طرفه در اکسل
○ فیلم آموزش محاسبات آماری با اکسل
○ خلاصه و جمعبندی
🔸 آنالیز واریانس یک طرفه در اکسل
از مطالب دیگر مجله فرادرس در زمینه تحلیل یا آنالیز واریانس، فرا گرفتید که جدول تحلیل واریانس برای مقایسه میانگین در بین سه گروه یا بیشتر مورد استفاده قرار میگیرد. فرض کنید سه جامعه مستقل از یکدیگر (دانش آموزان مقطع پیشدبستان، دبستان و دبیرستان) دارید که برایشان یک ویژگی (مثلا وزن) را اندازهگیری کردهاید. به کمک تحلیل واریانس میتوانیم نشان دهیم که وزن این سه گروه، با یکدیگر اختلاف داشته و این تفاوتها، از لحاظ آماری نیز معنیدار است. البته توجه داشته باشید که ممکن است توسط تحلیل واریانس به این نتیجه برسیم که هر سه گروه یکسان هستند و میانگین در بین این سه جامعه تفاوت یا اختلاف آماری ندارند.
نکته: منظور از اختلاف آماری، با اختلاف ریاضی متفاوت است. از آنجایی که با استفاده از نمونه آماری دست به استنباط زدهایم، ممکن است اختلاف در میانگین نمونهها ناشی از خطای نمونهگیری بوده و واقعا جوامع با هم تفاوت نداشته باشند. این مفهوم نشانگر عدم اختلاف آماری بین میانگین جوامع است در حالیکه از لحاظ ریاضی میانگین نمونهها، با یکدیگر متفاوت هستند.
به این ترتیب، آنالیز واریانس یک تکنیک برای اجرای آزمون فرض آماری محسوب میشود که اجازه انجام آزمون همزمان روی میانگین برای بیش از سه جامعه یا گروه را به محقق یا تحلیلگر آماری، میدهد. توجه دارید که در آزمون فرض آماری، ابتدا نمونههایی جمع آوری شده، سپس براساس مقادیر آنها در سه گروه مختلف، میتوانیم نسبت به رد یا تایید فرضیه آماری تصمیم بگیریم. فرضیههای آماری احکامی هستند که برای جامعه آماری صادر میشود. به این معنی که به واسطه مقادیر جمعآوری شده از نمونه و به کارگیری محاسبات و قوانین مربوط به آزمون فرض، در مورد جامعه آماری به یک نتیجهگیری میرسیم.
🔸 فیلم آموزش محاسبات آماری با اکسل
اغلب کسانی که در سطح ابتدایی یا متوسط به کار تحلیل داده یا محاسبات آماری میپردازند، از اکسل به عنوان ابزار محاسباتی بهره میبرند. خوشبختانه در یکی از آموزشهای فرادرس به معرفی قابلیتهای این نرمافزار در انجام تحلیلهای آماری و اجرای فرمولهای آماری پرداخته شده است. از آنجایی که ممکن است پیادهسازی فرمولهای آماری در اکسل برای کاربران مبتدی سخت باشد، افزونهای برای انجام این گونه تحلیلها در اکسل تعبیه شده که در فیلم آموزش محاسبات آماری در اکسل نیز به آن اشاره شده است. بعضی از مواردی که در این آموزش در مورد آن بحث و بررسی صورت گرفته در ادامه شرح داده شدهاند:
– درس اول: شیوه بدست آوردن شاخصهای توصیفی (Denoscriptive Statistics) که نمایی کلی از جامعه و ویژگیهای آن در اختیار کاربر قرار میدهد، از موارد اولیه درس اول محسوب میشود. همچنین تشکیل فاصله اطمینان (Confidence Interval) برای میانگین، رسم نمودار هیستوگرام (Histogram)، آزمون فرض مربوط به میانگین جامعه نرمال، آزمون و تجزیه و تحلیل واریانس یک طرفه و دوطرفه، همچنین رگرسیون خطی (Linear regression) و ایجاد اعداد تصادفی (random number generation) از دیگر مواردی است که در درس اول به آنها پرداخته میشود.
– درس دوم: توابع توزیع آماری (distribution function) و معادله خط برگشت (Regression) محاسباتی شامل توابع شاخصهای تمرکز، شاخصهای پراکندگی، شاخصهای تقارن و عدم تقارن، ضرایب همبستگی و کوواریانس، معکوس توابع توزیع آماری و رگرسیون و خط بازگشت است.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
آزمون واریانس یک طرفه (One-way ANOVA) یکی از محبوبترین آزمونهای آماری است که به مقایسه و بررسی میانگین بین سه یا چند جامعه میپردازد. البته برای استفاده از این آزمون یا تحلیل، شرایطی نیز وجود دارد که قبل از اجرای آن باید مورد بررسی قرار گیرند. در این نوشتار از مجله فرادرس به نحوه انجام آنالیز واریانس یک طرفه در اکسل خواهیم پرداخت و با ذکر مثالی، خروجیهای حاصل در اکسل را مشاهده و نتیجه آزمون را مشخص خواهیم کرد.
══ فهرست مطالب ══
○ آنالیز واریانس یک طرفه در اکسل
○ فیلم آموزش محاسبات آماری با اکسل
○ خلاصه و جمعبندی
🔸 آنالیز واریانس یک طرفه در اکسل
از مطالب دیگر مجله فرادرس در زمینه تحلیل یا آنالیز واریانس، فرا گرفتید که جدول تحلیل واریانس برای مقایسه میانگین در بین سه گروه یا بیشتر مورد استفاده قرار میگیرد. فرض کنید سه جامعه مستقل از یکدیگر (دانش آموزان مقطع پیشدبستان، دبستان و دبیرستان) دارید که برایشان یک ویژگی (مثلا وزن) را اندازهگیری کردهاید. به کمک تحلیل واریانس میتوانیم نشان دهیم که وزن این سه گروه، با یکدیگر اختلاف داشته و این تفاوتها، از لحاظ آماری نیز معنیدار است. البته توجه داشته باشید که ممکن است توسط تحلیل واریانس به این نتیجه برسیم که هر سه گروه یکسان هستند و میانگین در بین این سه جامعه تفاوت یا اختلاف آماری ندارند.
نکته: منظور از اختلاف آماری، با اختلاف ریاضی متفاوت است. از آنجایی که با استفاده از نمونه آماری دست به استنباط زدهایم، ممکن است اختلاف در میانگین نمونهها ناشی از خطای نمونهگیری بوده و واقعا جوامع با هم تفاوت نداشته باشند. این مفهوم نشانگر عدم اختلاف آماری بین میانگین جوامع است در حالیکه از لحاظ ریاضی میانگین نمونهها، با یکدیگر متفاوت هستند.
به این ترتیب، آنالیز واریانس یک تکنیک برای اجرای آزمون فرض آماری محسوب میشود که اجازه انجام آزمون همزمان روی میانگین برای بیش از سه جامعه یا گروه را به محقق یا تحلیلگر آماری، میدهد. توجه دارید که در آزمون فرض آماری، ابتدا نمونههایی جمع آوری شده، سپس براساس مقادیر آنها در سه گروه مختلف، میتوانیم نسبت به رد یا تایید فرضیه آماری تصمیم بگیریم. فرضیههای آماری احکامی هستند که برای جامعه آماری صادر میشود. به این معنی که به واسطه مقادیر جمعآوری شده از نمونه و به کارگیری محاسبات و قوانین مربوط به آزمون فرض، در مورد جامعه آماری به یک نتیجهگیری میرسیم.
🔸 فیلم آموزش محاسبات آماری با اکسل
اغلب کسانی که در سطح ابتدایی یا متوسط به کار تحلیل داده یا محاسبات آماری میپردازند، از اکسل به عنوان ابزار محاسباتی بهره میبرند. خوشبختانه در یکی از آموزشهای فرادرس به معرفی قابلیتهای این نرمافزار در انجام تحلیلهای آماری و اجرای فرمولهای آماری پرداخته شده است. از آنجایی که ممکن است پیادهسازی فرمولهای آماری در اکسل برای کاربران مبتدی سخت باشد، افزونهای برای انجام این گونه تحلیلها در اکسل تعبیه شده که در فیلم آموزش محاسبات آماری در اکسل نیز به آن اشاره شده است. بعضی از مواردی که در این آموزش در مورد آن بحث و بررسی صورت گرفته در ادامه شرح داده شدهاند:
– درس اول: شیوه بدست آوردن شاخصهای توصیفی (Denoscriptive Statistics) که نمایی کلی از جامعه و ویژگیهای آن در اختیار کاربر قرار میدهد، از موارد اولیه درس اول محسوب میشود. همچنین تشکیل فاصله اطمینان (Confidence Interval) برای میانگین، رسم نمودار هیستوگرام (Histogram)، آزمون فرض مربوط به میانگین جامعه نرمال، آزمون و تجزیه و تحلیل واریانس یک طرفه و دوطرفه، همچنین رگرسیون خطی (Linear regression) و ایجاد اعداد تصادفی (random number generation) از دیگر مواردی است که در درس اول به آنها پرداخته میشود.
– درس دوم: توابع توزیع آماری (distribution function) و معادله خط برگشت (Regression) محاسباتی شامل توابع شاخصهای تمرکز، شاخصهای پراکندگی، شاخصهای تقارن و عدم تقارن، ضرایب همبستگی و کوواریانس، معکوس توابع توزیع آماری و رگرسیون و خط بازگشت است.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی
در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آنها برای ایجاد یک گردش کاری با بهرهوری بالا و کار تیمی در حوزه علوم داده میپردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژههای یادگیری ماشین کردهاند. همچنین برای برخی دانشمندان علوم داده که میخواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پارهای موارد مفید خواهد بود.
══ فهرست مطالب ══
○ گیت
○ پایتون
○ VSCode
○ Notion
○ Grammarly
○ سخن پایانی
🔸 گیت
در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیتهاب آشنا هستید. اگر فکر میکنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، میتوانید از مطلب زیر استفاده کنید:
– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده
مؤثرترین روش برای تعامل با ریپازیتوری گیتهاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستمهای مک) که یکپارچگی شگفتانگیزی با گیت ارائه میکند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی میکند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم میشود.
پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو میتوانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدالها (Badges) مانند تصویر زیر بر آن بیفزایید.
🔸 پایتون
در این بخش به توضیح روش نصب لوکال پکیجهای پایتون با استفاده از pip و virtualenv میپردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، میتوانید از دستور زیر بهره بگیرید:
دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب میکند. اگر از قبل نسخهای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه میکند.
ابتدا ابزار مدیریت محیط را با دستور زیر نصب میکنیم:
مطالعه ادامه مطلب 👇👇
🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آنها برای ایجاد یک گردش کاری با بهرهوری بالا و کار تیمی در حوزه علوم داده میپردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژههای یادگیری ماشین کردهاند. همچنین برای برخی دانشمندان علوم داده که میخواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پارهای موارد مفید خواهد بود.
══ فهرست مطالب ══
○ گیت
○ پایتون
○ VSCode
○ Notion
○ Grammarly
○ سخن پایانی
🔸 گیت
در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیتهاب آشنا هستید. اگر فکر میکنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، میتوانید از مطلب زیر استفاده کنید:
– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده
مؤثرترین روش برای تعامل با ریپازیتوری گیتهاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستمهای مک) که یکپارچگی شگفتانگیزی با گیت ارائه میکند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی میکند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم میشود.
پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو میتوانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدالها (Badges) مانند تصویر زیر بر آن بیفزایید.
🔸 پایتون
در این بخش به توضیح روش نصب لوکال پکیجهای پایتون با استفاده از pip و virtualenv میپردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، میتوانید از دستور زیر بهره بگیرید:
دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب میکند. اگر از قبل نسخهای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه میکند.
ابتدا ابزار مدیریت محیط را با دستور زیر نصب میکنیم:
مطالعه ادامه مطلب 👇👇
🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ برنامه نویسی پویا در علم داده | راهنمای کاربردی
در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثالهایی که درک آنها آسان باشد شرح داده شده است.
══ فهرست مطالب ══
○ برنامه نویسی پویا در علم داده
○ برنامه نویسی پویا در علم داده چطور کار میکند؟
○ چرا برنامه نویسی پویا در علم داده دشوار است؟
○ مثالی از برنامه نویسی پویا در علم داده
○ کدنویسی و برنامه نویسی پویا در علم داده
○ جمعبندی
🔸 برنامه نویسی پویا در علم داده
الگوریتمها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دورههای تحلیل و طراحی الگوریتم مناسبی را نمیگذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکتها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسشهایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح میکنند. اکنون، پرسشی که افراد زیادی با آن مواجه میشوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در سادهترین حالت میتوان گفت، جوابی که فرد به این پرسش میدهد، میتواند به نوعی سطح دانش برنامهنویسی او را نشان دهد. بنابراین، توصیه میشود که علاقهمندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.
🔸 برنامه نویسی پویا در علم داده چطور کار میکند؟
فرض میشود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:
۱, ۱, ۲, ۳, ۵, ۸
برنامه محاسبه سری فیبوناچی در ادامه آمده است.
مطالعه ادامه مطلب 👇👇
🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثالهایی که درک آنها آسان باشد شرح داده شده است.
══ فهرست مطالب ══
○ برنامه نویسی پویا در علم داده
○ برنامه نویسی پویا در علم داده چطور کار میکند؟
○ چرا برنامه نویسی پویا در علم داده دشوار است؟
○ مثالی از برنامه نویسی پویا در علم داده
○ کدنویسی و برنامه نویسی پویا در علم داده
○ جمعبندی
🔸 برنامه نویسی پویا در علم داده
الگوریتمها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دورههای تحلیل و طراحی الگوریتم مناسبی را نمیگذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکتها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسشهایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح میکنند. اکنون، پرسشی که افراد زیادی با آن مواجه میشوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در سادهترین حالت میتوان گفت، جوابی که فرد به این پرسش میدهد، میتواند به نوعی سطح دانش برنامهنویسی او را نشان دهد. بنابراین، توصیه میشود که علاقهمندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.
🔸 برنامه نویسی پویا در علم داده چطور کار میکند؟
فرض میشود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:
۱, ۱, ۲, ۳, ۵, ۸
برنامه محاسبه سری فیبوناچی در ادامه آمده است.
مطالعه ادامه مطلب 👇👇
🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ دادهکاوی (Data Mining)
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند.
🔹 فهرست مطالب این نوشته
▫️ داده کاوی چیست؟
▫️ تاریخچه دادهکاوی
▫️ چرا داده کاوی
▫️ انواع منابع داده
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود.
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
🔸 چرا داده کاوی
با رشد و افزایش توجهات به دادهکاوی، پرسش «چرا دادهکاوی؟» همواره مطرح میشود. در پاسخ به این پرسش باید گفت، دادهکاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینهای جوان و آیندهدار برای نسل کنونی محسوب میشود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع دادهها، نیاز حتمی به تبدیل چنین دادههایی به اطلاعات و دانش وجود دارد.
🔸 انواع منابع داده
در این بخش، انواع منابع دادهای که همه روزه حجم انبوهی از دادهها را تولید و یا ذخیره میکنند، مورد بررسی قرار گرفتهاند.
● تراکنشهای کسبوکار
● دادههای علمی
● دادههای شخصی و پزشکی
● تصاویر و ویدئوهای نظارتی
●رقابتهای ورزشی
● رسانههای دیجیتال
● دنیاهای مجازی
● جهانهای مجازی
● گزارشها و اسناد متنی
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 دادهکاوی (Data Mining) — از صفر تا صد — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ دادهکاوی (Data Mining)
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند.
🔹 فهرست مطالب این نوشته
▫️ داده کاوی چیست؟
▫️ تاریخچه دادهکاوی
▫️ چرا داده کاوی
▫️ انواع منابع داده
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود.
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
🔸 چرا داده کاوی
با رشد و افزایش توجهات به دادهکاوی، پرسش «چرا دادهکاوی؟» همواره مطرح میشود. در پاسخ به این پرسش باید گفت، دادهکاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینهای جوان و آیندهدار برای نسل کنونی محسوب میشود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع دادهها، نیاز حتمی به تبدیل چنین دادههایی به اطلاعات و دانش وجود دارد.
🔸 انواع منابع داده
در این بخش، انواع منابع دادهای که همه روزه حجم انبوهی از دادهها را تولید و یا ذخیره میکنند، مورد بررسی قرار گرفتهاند.
● تراکنشهای کسبوکار
● دادههای علمی
● دادههای شخصی و پزشکی
● تصاویر و ویدئوهای نظارتی
●رقابتهای ورزشی
● رسانههای دیجیتال
● دنیاهای مجازی
● جهانهای مجازی
● گزارشها و اسناد متنی
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 دادهکاوی (Data Mining) — از صفر تا صد — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ داده کاوی (Data Mining) و مفاهیم کلیدی آن
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است.
🔹 فهرست مطالب این نوشته
▫️ مفاهیم مقدماتی
▫️ انواع ویژگی
▫️ جبر خطی و آمار
▫️ روشهای دادهکاوی
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
● نویز
● داده
● قالب داده
● دادههای خارجی
● دادههای خارجی
● Overlay
● داده کاوی
● موتور دادهکاوی
● پایگاه دانش
● دادههای ناموجود
● دادههای غیر قابل اجرا
● پاکسازی
● یکپارچهسازی دادهها
● تبدیل
● بصریسازی
● استقرار
● سیستم مدیریت پایگاه داده
● سیستم مدیریت پایگاه داده رابطهای
● رابط کاربری
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
● پیوسته
● گسسته
● دادههای دستهای
● بستهبندی
● ابعاد
🔸 جبر خطی و آمار
روشهای آماری و مباحث جبر خطی کاربردهای بسیاری در علم داده و دادهکاوی دارند. از جمله مفاهیم آماری پر کاربرد در دادهکاوی میتوان به معیارهای تمرکز و شاخصهای پراکندگی اشاره کرد.
● میانگین
● میانه
● مُد
● نرمالسازی
● کمترین مربعات
● واریانس
● MARS
● بیشینه درستنمایی
🔸 روشهای دادهکاوی
روشهای دادهکاوی در واقع روالها و الگوریتمهایی هستند که برای تحلیل دادهها در پایگاه داده مورد استفاده قرار میگیرند. این روشها در سه دسته قرار میگیرند.
● تحلیلهای اکتشافی
● استنتاج
● استقرا
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ داده کاوی (Data Mining) و مفاهیم کلیدی آن
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است.
🔹 فهرست مطالب این نوشته
▫️ مفاهیم مقدماتی
▫️ انواع ویژگی
▫️ جبر خطی و آمار
▫️ روشهای دادهکاوی
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
● نویز
● داده
● قالب داده
● دادههای خارجی
● دادههای خارجی
● Overlay
● داده کاوی
● موتور دادهکاوی
● پایگاه دانش
● دادههای ناموجود
● دادههای غیر قابل اجرا
● پاکسازی
● یکپارچهسازی دادهها
● تبدیل
● بصریسازی
● استقرار
● سیستم مدیریت پایگاه داده
● سیستم مدیریت پایگاه داده رابطهای
● رابط کاربری
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
● پیوسته
● گسسته
● دادههای دستهای
● بستهبندی
● ابعاد
🔸 جبر خطی و آمار
روشهای آماری و مباحث جبر خطی کاربردهای بسیاری در علم داده و دادهکاوی دارند. از جمله مفاهیم آماری پر کاربرد در دادهکاوی میتوان به معیارهای تمرکز و شاخصهای پراکندگی اشاره کرد.
● میانگین
● میانه
● مُد
● نرمالسازی
● کمترین مربعات
● واریانس
● MARS
● بیشینه درستنمایی
🔸 روشهای دادهکاوی
روشهای دادهکاوی در واقع روالها و الگوریتمهایی هستند که برای تحلیل دادهها در پایگاه داده مورد استفاده قرار میگیرند. این روشها در سه دسته قرار میگیرند.
● تحلیلهای اکتشافی
● استنتاج
● استقرا
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ انواع ویژگی ها (خصیصه ها) و مفهوم بردار ویژگی در داده کاوی
چنانکه پیشتر تشریح شد، مجموعههای داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشوند. یک شی داده نمایانگر یک موجودیت است.
🔹 فهرست مطالب این نوشته
▫️ ویژگی چیست؟
▫️ویژگیهای گسسته و پیوسته
🔸 ویژگی چیست؟
یک ویژگی (خصیصه)، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
🔸 ویژگیهای گسسته و پیوسته
همانطور که پیش از این بیان شد، ویژگیها در دستههای اسمی، دودویی، ترتیبی و عددی قرار دارند. راههای زیادی برای سازماندهی انواع خصیصهها وجود دارد. این انواع دو به دو ناسازگار نیستند. الگوریتمهای دستهبندی از زمینهای از یادگیری ماشین توسعه یافتهاند که اغلب درباره ویژگیهای گسسته یا پیوسته سخن میگویند.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 انواع ویژگیها (خصیصهها) و مفهوم بردار ویژگی در دادهکاوی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ انواع ویژگی ها (خصیصه ها) و مفهوم بردار ویژگی در داده کاوی
چنانکه پیشتر تشریح شد، مجموعههای داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشوند. یک شی داده نمایانگر یک موجودیت است.
🔹 فهرست مطالب این نوشته
▫️ ویژگی چیست؟
▫️ویژگیهای گسسته و پیوسته
🔸 ویژگی چیست؟
یک ویژگی (خصیصه)، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
🔸 ویژگیهای گسسته و پیوسته
همانطور که پیش از این بیان شد، ویژگیها در دستههای اسمی، دودویی، ترتیبی و عددی قرار دارند. راههای زیادی برای سازماندهی انواع خصیصهها وجود دارد. این انواع دو به دو ناسازگار نیستند. الگوریتمهای دستهبندی از زمینهای از یادگیری ماشین توسعه یافتهاند که اغلب درباره ویژگیهای گسسته یا پیوسته سخن میگویند.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 انواع ویژگیها (خصیصهها) و مفهوم بردار ویژگی در دادهکاوی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ پیشپردازش دادهها در دادهکاوی
شروع هر نوع کار و عملیاتی در مرحله اول، دارای یک سری مقدمات و پیشنیازها است. «دادهکاوی» (Data Mining) نیز از این قانون مستثنی نبوده و نیازمند آمادهسازی و پردازشهای مقدماتی است. در علم دادهکاوی، تمامی دادههایی که برای هدف مورد نظر استفاده خواهند شد، باید پیش از شروع پردازش با استفاده از روشهایی، آماده و تنظیم و یا به اصطلاح «پیشپردازش» (Preprocess) شوند. مرحله آمادهسازی دادهها قبل از پردازش را، پیشپردازش (Preprocessing) میگویند.
🔹 فهرست مطالب این نوشته
▫️پیشپردازش دادهها: داده های ناموجود
▫️پیشپردازش دادهها: تحلیل دادههای پرت
▫️ نرمالسازی دادهها
🔸 پیشپردازش دادهها: دادههای ناموجود
در برخی موارد، ممکن است بعضی از ویژگیهای مربوط به یک یا چند نمونه، فاقد مقادیر معتبر باشند. این امر میتواند دلایل مختلفی داشته باشد، از جمله نویزی (Noise) بودن دادههای ثبت شده، عدم ثبت و یا نامعتبر بودن مقدار آن. این دادهها را دادههای ناموجود (Missing Data | Null Data | دادههای گمشده)، مینامند.
🔸پیش پردازش دادهها: تحلیل دادههای پرت
در برخی موارد، ممکن است به دلایلی، مقادیری در مجموعه داده ظاهر شوند که تفاوت زیاد و غیر معمولی با سایر مقادیر موجود در مجموعه داشته باشند، این دادهها را دادههای پرت میگویند.
🔸 نرمالسازی دادهها
نرمالسازی دادهها از جمله مهمترین مراحل پیشپردازش در علم دادهکاوی است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 پیش پردازش دادهها در دادهکاوی — به زبان ساده — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ پیشپردازش دادهها در دادهکاوی
شروع هر نوع کار و عملیاتی در مرحله اول، دارای یک سری مقدمات و پیشنیازها است. «دادهکاوی» (Data Mining) نیز از این قانون مستثنی نبوده و نیازمند آمادهسازی و پردازشهای مقدماتی است. در علم دادهکاوی، تمامی دادههایی که برای هدف مورد نظر استفاده خواهند شد، باید پیش از شروع پردازش با استفاده از روشهایی، آماده و تنظیم و یا به اصطلاح «پیشپردازش» (Preprocess) شوند. مرحله آمادهسازی دادهها قبل از پردازش را، پیشپردازش (Preprocessing) میگویند.
🔹 فهرست مطالب این نوشته
▫️پیشپردازش دادهها: داده های ناموجود
▫️پیشپردازش دادهها: تحلیل دادههای پرت
▫️ نرمالسازی دادهها
🔸 پیشپردازش دادهها: دادههای ناموجود
در برخی موارد، ممکن است بعضی از ویژگیهای مربوط به یک یا چند نمونه، فاقد مقادیر معتبر باشند. این امر میتواند دلایل مختلفی داشته باشد، از جمله نویزی (Noise) بودن دادههای ثبت شده، عدم ثبت و یا نامعتبر بودن مقدار آن. این دادهها را دادههای ناموجود (Missing Data | Null Data | دادههای گمشده)، مینامند.
🔸پیش پردازش دادهها: تحلیل دادههای پرت
در برخی موارد، ممکن است به دلایلی، مقادیری در مجموعه داده ظاهر شوند که تفاوت زیاد و غیر معمولی با سایر مقادیر موجود در مجموعه داشته باشند، این دادهها را دادههای پرت میگویند.
🔸 نرمالسازی دادهها
نرمالسازی دادهها از جمله مهمترین مراحل پیشپردازش در علم دادهکاوی است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 پیش پردازش دادهها در دادهکاوی — به زبان ساده — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ روش انتخاب الگوریتم داده کاوی
الگوریتم، روشی که برای جستجوی الگو در دادهها مورد استفاده قرار میگیرد را تعیین میکند و در واقع مانند یک روال ریاضی برای حل یک مساله خاص است.
🔸 روش انتخاب الگوریتم دادهکاوی
هیچ راهنمای مشخصی برای آنکه پژوهشگران یا تحلیلگران چگونه الگوریتم انتخاب کنند وجود ندارد. در مقالهای که در همین رابطه نوشته شده، انتخاب الگوریتم مناسب را یکی از چالشهای موجود برای اغلب پژوهشگران حوزه دادهکاوی بیان میکنند. انتخاب یک الگوریتم مشخص امری بسیار پیچیده است، لذا برخی از پژوهشگران برای ارتقای نتایج دادهکاوی از چندین الگوریتم استفاده کرده و پردازشها را با الگوریتمهای مختلف تکرار میکنند.
🔸 هدف مساله
هدف اصلی مسالهای که قرار است حل شود برای انتخاب الگوریتم دادهکاوی حائز اهمیت است. این مولفه شامل در نظر گرفتن دلایل چرایی کاوش دادهها و ماهیت مسالهای که قصد حل کردن آن وجود دارد میشود.
🔸 ساختار داده
ساختار مجموعه داده مولفه دیگری است که در تعیین الگوریتم مورد استفاده نقش مهمی دارد.
🔸 نتایج مورد انتظار
هر فرآیند دادهکاوی باید یک خروجی به عنوان راه حل مساله داشته باشد که در واقع نتیجه مورد انتظار مساله است. هدف اصلی دادهکاوی شناسایی الگوها و گرایشها در دادهها است تا از این دانش در تصمیمگیریها استفاده شود. بسته بهنوع نتایج مورد انتظار، دادهکاوان الگوریتمی را انتخاب میکنند که قادر به تولید آن نتایج است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 روش انتخاب الگوریتم داده کاوی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ روش انتخاب الگوریتم داده کاوی
الگوریتم، روشی که برای جستجوی الگو در دادهها مورد استفاده قرار میگیرد را تعیین میکند و در واقع مانند یک روال ریاضی برای حل یک مساله خاص است.
🔸 روش انتخاب الگوریتم دادهکاوی
هیچ راهنمای مشخصی برای آنکه پژوهشگران یا تحلیلگران چگونه الگوریتم انتخاب کنند وجود ندارد. در مقالهای که در همین رابطه نوشته شده، انتخاب الگوریتم مناسب را یکی از چالشهای موجود برای اغلب پژوهشگران حوزه دادهکاوی بیان میکنند. انتخاب یک الگوریتم مشخص امری بسیار پیچیده است، لذا برخی از پژوهشگران برای ارتقای نتایج دادهکاوی از چندین الگوریتم استفاده کرده و پردازشها را با الگوریتمهای مختلف تکرار میکنند.
🔸 هدف مساله
هدف اصلی مسالهای که قرار است حل شود برای انتخاب الگوریتم دادهکاوی حائز اهمیت است. این مولفه شامل در نظر گرفتن دلایل چرایی کاوش دادهها و ماهیت مسالهای که قصد حل کردن آن وجود دارد میشود.
🔸 ساختار داده
ساختار مجموعه داده مولفه دیگری است که در تعیین الگوریتم مورد استفاده نقش مهمی دارد.
🔸 نتایج مورد انتظار
هر فرآیند دادهکاوی باید یک خروجی به عنوان راه حل مساله داشته باشد که در واقع نتیجه مورد انتظار مساله است. هدف اصلی دادهکاوی شناسایی الگوها و گرایشها در دادهها است تا از این دانش در تصمیمگیریها استفاده شود. بسته بهنوع نتایج مورد انتظار، دادهکاوان الگوریتمی را انتخاب میکنند که قادر به تولید آن نتایج است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 روش انتخاب الگوریتم داده کاوی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ دادهکاوی فازی چیست؟
نظریه «مجموعههای فازی» (Fuzzy Sets) نقش مهمی در «دادهکاوی» داشته و منجر به ظهور مبحث «داده کاوی فازی» شده است. دادهکاوی فازی یک افزونه از دادهکاوی محسوب که با مدلسازی مجموعههای فازی انجام میشود و مدیریت اطلاعات قابل تفسیر و ذهنی را در فرآیندهای ورودی و خروجی دادهکاوی امکانپذیر میسازد.
🔸 اشکال گوناگون فازی بودن در دادهکاوی فازی
اطلاعات ذهنی و عاطفی پس از ارائه مبحث فازی طرح شدند و امکان کاوش اطلاعات پیچیدهای که در محیط کلاسیک ارزشهای صفر و یک کار با آنها دشوار است را با در نظر گرفتن عواطف فراهم میکنند.
🔸 دادهها و دانش ورودی
ورودی گام یادگیری ماشین ترکیبی از دادهها و دانش پایهای است. دادهها معمولا به عنوان یک مجموعه آموزش که الگوریتم یادگیری از آن ارتباطات یا همبستگیها را استخراج و مدل را استنتاج میکند، فراهم میشوند. دانش از اطلاعات پسزمینهای که به الگوریتم یادگیری برای مدیریت مجموعه آموزش یا سرعت بخشیدن به آن کمک میکند، ساخته میشود. فازی بودن در دادهکاوی در دو سطح دادههای فازی و دانش فازی به وقوع میپیوندد.
🔸 مدل
مدل در پایان گام پنجم فرآیند دادهکاوی تولید میشود. بسیاری از الگوریتمهای یادگیری ماشین کلاسیک به الگوریتمهای فازی توسعه یافتهاند. پژوهشهای بسیاری در زمینه درختهای تصمیم فازی و دیگر الگوریتمهای مبتنی بر قوانین فازی انجام شده است. چالش اصلی در این موارد ارائه الگوریتمی است که بتواند علاوه بر مدیریت ورودی فازی، مشخصات اصلی الگوریتمهای کلاسیک را ارضا کند. برخی از الگوریتمهای کلاسیک برای مدیریت دادههای پیچیده مانند عقاید یا مجموعههای فازی شهودی توسعه یافتهاند.
🔸دانش خروجی
خروجی فرآیند دادهکاوی ممکن است به دو شکل باشد. از یکسو، خود مدل میتواند خروجی فرآیند دادهکاوی باشد که در این شرایط، هدف مشخصهسازی دادهها به وسیله مدل دادهها است. در صورت فازی بودن دانش خروجی نیاز به استفاده از مدلها و قوانین فازی است.
برای مثال، الگوریتم یادگیرنده میتواند مجموعهای از قواعد، دستهها یا «درخت تصمیم» (Decision Tree) را تولید کند. از سوی دیگر، خروجی نتیجه استفاده از مدل با دیگر دادهها (دادههای آزمون) است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 داده کاوی فازی چیست؟— کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ دادهکاوی فازی چیست؟
نظریه «مجموعههای فازی» (Fuzzy Sets) نقش مهمی در «دادهکاوی» داشته و منجر به ظهور مبحث «داده کاوی فازی» شده است. دادهکاوی فازی یک افزونه از دادهکاوی محسوب که با مدلسازی مجموعههای فازی انجام میشود و مدیریت اطلاعات قابل تفسیر و ذهنی را در فرآیندهای ورودی و خروجی دادهکاوی امکانپذیر میسازد.
🔸 اشکال گوناگون فازی بودن در دادهکاوی فازی
اطلاعات ذهنی و عاطفی پس از ارائه مبحث فازی طرح شدند و امکان کاوش اطلاعات پیچیدهای که در محیط کلاسیک ارزشهای صفر و یک کار با آنها دشوار است را با در نظر گرفتن عواطف فراهم میکنند.
🔸 دادهها و دانش ورودی
ورودی گام یادگیری ماشین ترکیبی از دادهها و دانش پایهای است. دادهها معمولا به عنوان یک مجموعه آموزش که الگوریتم یادگیری از آن ارتباطات یا همبستگیها را استخراج و مدل را استنتاج میکند، فراهم میشوند. دانش از اطلاعات پسزمینهای که به الگوریتم یادگیری برای مدیریت مجموعه آموزش یا سرعت بخشیدن به آن کمک میکند، ساخته میشود. فازی بودن در دادهکاوی در دو سطح دادههای فازی و دانش فازی به وقوع میپیوندد.
🔸 مدل
مدل در پایان گام پنجم فرآیند دادهکاوی تولید میشود. بسیاری از الگوریتمهای یادگیری ماشین کلاسیک به الگوریتمهای فازی توسعه یافتهاند. پژوهشهای بسیاری در زمینه درختهای تصمیم فازی و دیگر الگوریتمهای مبتنی بر قوانین فازی انجام شده است. چالش اصلی در این موارد ارائه الگوریتمی است که بتواند علاوه بر مدیریت ورودی فازی، مشخصات اصلی الگوریتمهای کلاسیک را ارضا کند. برخی از الگوریتمهای کلاسیک برای مدیریت دادههای پیچیده مانند عقاید یا مجموعههای فازی شهودی توسعه یافتهاند.
🔸دانش خروجی
خروجی فرآیند دادهکاوی ممکن است به دو شکل باشد. از یکسو، خود مدل میتواند خروجی فرآیند دادهکاوی باشد که در این شرایط، هدف مشخصهسازی دادهها به وسیله مدل دادهها است. در صورت فازی بودن دانش خروجی نیاز به استفاده از مدلها و قوانین فازی است.
برای مثال، الگوریتم یادگیرنده میتواند مجموعهای از قواعد، دستهها یا «درخت تصمیم» (Decision Tree) را تولید کند. از سوی دیگر، خروجی نتیجه استفاده از مدل با دیگر دادهها (دادههای آزمون) است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 داده کاوی فازی چیست؟— کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ مباحث ریاضی مورد نیاز برای علم داده
ریاضیات سنگ بنای همه رشتههای علوم معاصر به حساب میآید. تقریباً همه تکنیکهای علم داده مدرن که شامل «یادگیری ماشین» (Machine Learning) نیز میشود، زیرساخت عمیقی از ریاضیات دارند. البته بدیهی است که یک «دانشمند داده» (Data Scientist) به انواع مختلفی از علوم مانند توانایی برنامهنویسی، قدرت داوری در مورد مسائل تجاری و ذهنیت منحصربهفرد تحلیلی و کاوشگر در مورد دادهها هم برای رشد در این حوزه نیاز دارد.
اما میدانیم که این کسب اطلاع از زیرساختهای یک دانش به هزینههای زیادی نیاز دارد. از این رو کسب اطلاعات از سازوکارهای ریاضیاتی که در پسِ الگوریتمهای زیبا قرار دارند، باعث میشود که نسبت به همکاران خود یک پله بالاتر بایستید.
🔹 فهرست مطالب این نوشته
▫️ تابعها، متغیرها، معادلهها و گرافها
▫️ آمار
▫️ جبر خطی
▫️ حسابان
🔸 تابعها، متغیرها، معادلهها و گرافها
این حوزه از ریاضیات شامل مباحث مقدماتی از معادله یک خط تا قضیه دوجملهای و مشخصات آن میشود:
● توابع لگاریتم، توابع نمایی، اعداد گویا
● مفاهیم و قضیههای هندسه مقدماتی، مباحث مثلثات
● اعداد حقیقی، مختلط و مشخصات مقدماتی
● سریها، سری هندسی، تصاعد حسابی و نامعادلات
● رسم گراف و نمودار، مختصات دکارتی، قطبی، استوانهای، کروی و مقاطع مخروطی
🔸 آمار
اهمیت کسب دانشی قوی از مفاهیم ضروری آمار و احتمال در زمینه علم داده غیر قابل انکار است. بسیاری از متخصصان این حوزه، «یادگیری ماشین» کلاسیک (بدون شبکه عصبی) را اساساً چیزی به جز یادگیری آماری نمیشمارند. این حوزه بسیار گسترده است و برنامهریزی متمرکزی برای مطالعه همه مفاهیم ضروری مورد نیاز است. برای مطالعه لیست کامل مباحث آماری مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
🔸 جبر خطی
جبر خطی یکی از شاخههای ضروری از ریاضیات است که برای درک طرز کار الگوریتمهای یادگیری ماشین روی جریانهای دادهای به کار میآید. همه چیز از پیشنهاد دوست در فیسبوک تا توصیه موسیقیها در اسپاتیفای و تا تبدیل عکس سلفی به صورت پرترههای به سبک سالوادور دالی با استفاده از «یادگیری انتقالی عمیق» (deep transfer learning) شامل ماتریسها و جبر خطی است. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
🔸 حسابان
چه عاشقش باشید و چه از آن متنفر باشید، در هر حال حسابان در بخشهای مختلفی از علم داده و یادگیری ماشین نقش دارد. حتی در یک راهحل تحلیلی به ظاهر ساده از مسئله معمولی کمترین مربعات در رگرسیون خطی و یا حتی در هر پسانتشار شبکه عصبی برای یادگیری یک الگوی جدید، حسابان حضور دارد. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ مباحث ریاضی مورد نیاز برای علم داده
ریاضیات سنگ بنای همه رشتههای علوم معاصر به حساب میآید. تقریباً همه تکنیکهای علم داده مدرن که شامل «یادگیری ماشین» (Machine Learning) نیز میشود، زیرساخت عمیقی از ریاضیات دارند. البته بدیهی است که یک «دانشمند داده» (Data Scientist) به انواع مختلفی از علوم مانند توانایی برنامهنویسی، قدرت داوری در مورد مسائل تجاری و ذهنیت منحصربهفرد تحلیلی و کاوشگر در مورد دادهها هم برای رشد در این حوزه نیاز دارد.
اما میدانیم که این کسب اطلاع از زیرساختهای یک دانش به هزینههای زیادی نیاز دارد. از این رو کسب اطلاعات از سازوکارهای ریاضیاتی که در پسِ الگوریتمهای زیبا قرار دارند، باعث میشود که نسبت به همکاران خود یک پله بالاتر بایستید.
🔹 فهرست مطالب این نوشته
▫️ تابعها، متغیرها، معادلهها و گرافها
▫️ آمار
▫️ جبر خطی
▫️ حسابان
🔸 تابعها، متغیرها، معادلهها و گرافها
این حوزه از ریاضیات شامل مباحث مقدماتی از معادله یک خط تا قضیه دوجملهای و مشخصات آن میشود:
● توابع لگاریتم، توابع نمایی، اعداد گویا
● مفاهیم و قضیههای هندسه مقدماتی، مباحث مثلثات
● اعداد حقیقی، مختلط و مشخصات مقدماتی
● سریها، سری هندسی، تصاعد حسابی و نامعادلات
● رسم گراف و نمودار، مختصات دکارتی، قطبی، استوانهای، کروی و مقاطع مخروطی
🔸 آمار
اهمیت کسب دانشی قوی از مفاهیم ضروری آمار و احتمال در زمینه علم داده غیر قابل انکار است. بسیاری از متخصصان این حوزه، «یادگیری ماشین» کلاسیک (بدون شبکه عصبی) را اساساً چیزی به جز یادگیری آماری نمیشمارند. این حوزه بسیار گسترده است و برنامهریزی متمرکزی برای مطالعه همه مفاهیم ضروری مورد نیاز است. برای مطالعه لیست کامل مباحث آماری مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
🔸 جبر خطی
جبر خطی یکی از شاخههای ضروری از ریاضیات است که برای درک طرز کار الگوریتمهای یادگیری ماشین روی جریانهای دادهای به کار میآید. همه چیز از پیشنهاد دوست در فیسبوک تا توصیه موسیقیها در اسپاتیفای و تا تبدیل عکس سلفی به صورت پرترههای به سبک سالوادور دالی با استفاده از «یادگیری انتقالی عمیق» (deep transfer learning) شامل ماتریسها و جبر خطی است. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
🔸 حسابان
چه عاشقش باشید و چه از آن متنفر باشید، در هر حال حسابان در بخشهای مختلفی از علم داده و یادگیری ماشین نقش دارد. حتی در یک راهحل تحلیلی به ظاهر ساده از مسئله معمولی کمترین مربعات در رگرسیون خطی و یا حتی در هر پسانتشار شبکه عصبی برای یادگیری یک الگوی جدید، حسابان حضور دارد. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ علم داده چیست؟
سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است.
🔹 فهرست مطالب این نوشته
▫️حجم بالای دادهها چگونه ذخیره میشوند؟
▫️ چرا دادهها مهم هستند؟
▫️ علم داده چیست؟
▫️ مزایای علم داده
🔸 حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند.
🔸 چرا دادهها مهم هستند؟
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است.
🔸 علم داده چیست؟
«علم داده» (data science)، یک زمینه میان رشتهای است که از روشها، فرآیندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده میکند. چیزی مشابه دادهکاوی! علم داده مفهومی برای یکپارچهسازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیدهها با استفاده از دادهها انجام میشود.
🔸 مزایای علم داده
مزیت اصلی علم داده، توانمندسازی و تسهیل تصمیمگیری است. سازمانهایی که بر علم داده سرمایهگذاری میکنند، میتوانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیمسازی در کسبوکار خود استفاده کنند. تصمیمهای دادهمحور میتواند منجر به افزایش سود و بهبود بهرهوری عملیاتی، کارایی کسبوکار و جریانهای کاری بشود.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 علم داده چیست؟ — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ علم داده چیست؟
سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است.
🔹 فهرست مطالب این نوشته
▫️حجم بالای دادهها چگونه ذخیره میشوند؟
▫️ چرا دادهها مهم هستند؟
▫️ علم داده چیست؟
▫️ مزایای علم داده
🔸 حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند.
🔸 چرا دادهها مهم هستند؟
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است.
🔸 علم داده چیست؟
«علم داده» (data science)، یک زمینه میان رشتهای است که از روشها، فرآیندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده میکند. چیزی مشابه دادهکاوی! علم داده مفهومی برای یکپارچهسازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیدهها با استفاده از دادهها انجام میشود.
🔸 مزایای علم داده
مزیت اصلی علم داده، توانمندسازی و تسهیل تصمیمگیری است. سازمانهایی که بر علم داده سرمایهگذاری میکنند، میتوانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیمسازی در کسبوکار خود استفاده کنند. تصمیمهای دادهمحور میتواند منجر به افزایش سود و بهبود بهرهوری عملیاتی، کارایی کسبوکار و جریانهای کاری بشود.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 علم داده چیست؟ — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ یادگیری علم داده (Data Science) با پایتون
همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار میساخت آغاز شد. «تحلیل داده» (Data Analytics) و «دادهکاوی» (Data Mining) خیلی زود به گرایشهای روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسبوکارها نیز به دلیل کاربردها و مزایای متعدد این حوزهها به آنها روی آوردند.
🔹 فهرست مطالب این نوشته
▫️ مبانی پایتون برای تحلیل داده
▫️ کتابخانهها و ساختارهای داده در پایتون
▫️ پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
▫️ ساخت یک مدل پیشبین در پایتون
🔸 مبانی پایتون برای تحلیل داده
در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شدهاند.
● چرا بسیاری از افراد برای تحلیل داده پایتون میآموزند؟
● پایتون نسخه ۲.۷ در مقایسه با پایتون ۳.۴
●چرا پایتون ۲.۷؟
● چرا پایتون ۳.۴؟
● چگونه میتوان پایتون را نصب کرد؟
●انتخاب یک محیط توسعه
● اجرای چند برنامه ساده در پایتون
🔸 کتابخانهها و ساختارهای داده در پایتون
پیش از آن که به طور جدیتر به حل مساله پرداخته شود، یک گام عقبتر رفته و به مبانی پایتون پرداخته میشود. چنانکه مشهود است ساختارهای داده، حلقهها و ساختارهای شرطی مبانی زبانهای برنامهنویسی را شکل میدهند.
● ساختارهای داده در پایتون
● لیستها (Lists)
● رشتهها (Strings)
● تاپلها (Tuples)
● دیکشنری (Dictionary)
🔸 پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
مخاطبانی که تا این لحظه مطلب را مطالعه کردهاند باید به این نکته توجه داشته باشند که پیشپردازش دادهها مهمترین گام در فرآیند تحلیل داده است که به آن به عبارتی (Data munging) نیز گفته میشود.
● پیشپردازش دادهها – خلاصهای از نیازها
● بررسی مقادیر ناموجود در مجموعه داده
● چگونه مقادیر ناموجود برای LoanAmount محاسبه میشوند؟
●چگونه با مقادیر فوقالعاده در توزیع LoanAmount و ApplicantIncome برخورد شود؟
🔸 ساخت یک مدل پیشبین در پایتون
پس از آنکه دادهها پیش پردازش و برای تحلیل مناسب شد، زمان آن رسیده که از کد پایتون برای ساخت یک مدل پیشبین روی مجموعه داده موجود استفاده شود.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 یادگیری علمداده (Data Science) با پایتون — از صفر تا صد — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ یادگیری علم داده (Data Science) با پایتون
همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار میساخت آغاز شد. «تحلیل داده» (Data Analytics) و «دادهکاوی» (Data Mining) خیلی زود به گرایشهای روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسبوکارها نیز به دلیل کاربردها و مزایای متعدد این حوزهها به آنها روی آوردند.
🔹 فهرست مطالب این نوشته
▫️ مبانی پایتون برای تحلیل داده
▫️ کتابخانهها و ساختارهای داده در پایتون
▫️ پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
▫️ ساخت یک مدل پیشبین در پایتون
🔸 مبانی پایتون برای تحلیل داده
در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شدهاند.
● چرا بسیاری از افراد برای تحلیل داده پایتون میآموزند؟
● پایتون نسخه ۲.۷ در مقایسه با پایتون ۳.۴
●چرا پایتون ۲.۷؟
● چرا پایتون ۳.۴؟
● چگونه میتوان پایتون را نصب کرد؟
●انتخاب یک محیط توسعه
● اجرای چند برنامه ساده در پایتون
🔸 کتابخانهها و ساختارهای داده در پایتون
پیش از آن که به طور جدیتر به حل مساله پرداخته شود، یک گام عقبتر رفته و به مبانی پایتون پرداخته میشود. چنانکه مشهود است ساختارهای داده، حلقهها و ساختارهای شرطی مبانی زبانهای برنامهنویسی را شکل میدهند.
● ساختارهای داده در پایتون
● لیستها (Lists)
● رشتهها (Strings)
● تاپلها (Tuples)
● دیکشنری (Dictionary)
🔸 پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
مخاطبانی که تا این لحظه مطلب را مطالعه کردهاند باید به این نکته توجه داشته باشند که پیشپردازش دادهها مهمترین گام در فرآیند تحلیل داده است که به آن به عبارتی (Data munging) نیز گفته میشود.
● پیشپردازش دادهها – خلاصهای از نیازها
● بررسی مقادیر ناموجود در مجموعه داده
● چگونه مقادیر ناموجود برای LoanAmount محاسبه میشوند؟
●چگونه با مقادیر فوقالعاده در توزیع LoanAmount و ApplicantIncome برخورد شود؟
🔸 ساخت یک مدل پیشبین در پایتون
پس از آنکه دادهها پیش پردازش و برای تحلیل مناسب شد، زمان آن رسیده که از کد پایتون برای ساخت یک مدل پیشبین روی مجموعه داده موجود استفاده شود.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 یادگیری علمداده (Data Science) با پایتون — از صفر تا صد — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ چگونه یک دانشمند داده شوید؟
علم داده، تحلیل داده و دادهکاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینهها به میزانی است که در دانشگاههای گوناگون سراسر جهان دورههای اختصاصی برای آنها تدوین شده. این در حالیست که تعداد پژوهشهای آکادمیک پیرامون این حوزهها نیز همواره رو به رشد است.
🔹 فهرست مطالب این نوشته
▫️ نقشه راه مبدل شدن به دانشمند داده
▫️ آمار و احتمال و جبر خطی
▫️ زبانهای برنامهنویسی
▫️ یادگیری ماشین
▫️ داده کاوی
🔸 نقشه راه مبدل شدن به دانشمند داده
یادگیری علم داده در گام اول نیازمند یک انتخاب است؛ انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصتهای شغلی، درآمد و طول دوره یادگیری آن انجام شود. از اینرو توصیه میشود که علاقمندان به دادهکاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمانهای مردمنهاد مربوط به دادهکاوان و دانشمندان داده حضور پیدا کنند.
🔸 آمار و احتمال و جبر خطی
آمار و احتمال و جبر خطی از جمله مباحثی هستند که در علم داده کاربرد قابل توجهی دارند. بهرهگیری از مفاهیم آماری به گونهای با بحث تحلیل داده و دادهکاوی عجین شده که برخی از آماردانهای کلاسیک علم داده را شکل مدرن آمار و حتی معادل آن میدانند که به زعم آنها نام جدیدی به خود گرفته است.
🔸 زبانهای برنامهنویسی
مفاهیم و الگوریتمهای یادگیری ماشین کاربرد بسیار گسترده و مهمی در علم داده و دادهکاوی دارند. بنابراین برای تبدیل شدن به یک دانشمند داده یا دادهکاو زبده نیاز به یادگیری مفاهیم و روشهای این حوزه است.
🔸 دادهکاوی
دادهکاوی یک فرآیند هفت مرحلهای شامل پاکسازی، یکپارچهسازی، انتخاب داده (کاهش ابعاد)، نگاشت داده، دادهکاوی، ارزیابی و ارائه دانش است که هر یک از این مراحل نیاز به یادگیری مباحث خاصی دارند. همچنین پیش از آغاز فرآیند اصلی دادهکاوی فرد نیازمند فراگیری دانش دامنه (دانش در رابطه با زمینهای که قصد حل مساله در آن با استفاده از دادهکاوی وجود دارد) است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ چگونه یک دانشمند داده شوید؟
علم داده، تحلیل داده و دادهکاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینهها به میزانی است که در دانشگاههای گوناگون سراسر جهان دورههای اختصاصی برای آنها تدوین شده. این در حالیست که تعداد پژوهشهای آکادمیک پیرامون این حوزهها نیز همواره رو به رشد است.
🔹 فهرست مطالب این نوشته
▫️ نقشه راه مبدل شدن به دانشمند داده
▫️ آمار و احتمال و جبر خطی
▫️ زبانهای برنامهنویسی
▫️ یادگیری ماشین
▫️ داده کاوی
🔸 نقشه راه مبدل شدن به دانشمند داده
یادگیری علم داده در گام اول نیازمند یک انتخاب است؛ انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصتهای شغلی، درآمد و طول دوره یادگیری آن انجام شود. از اینرو توصیه میشود که علاقمندان به دادهکاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمانهای مردمنهاد مربوط به دادهکاوان و دانشمندان داده حضور پیدا کنند.
🔸 آمار و احتمال و جبر خطی
آمار و احتمال و جبر خطی از جمله مباحثی هستند که در علم داده کاربرد قابل توجهی دارند. بهرهگیری از مفاهیم آماری به گونهای با بحث تحلیل داده و دادهکاوی عجین شده که برخی از آماردانهای کلاسیک علم داده را شکل مدرن آمار و حتی معادل آن میدانند که به زعم آنها نام جدیدی به خود گرفته است.
🔸 زبانهای برنامهنویسی
مفاهیم و الگوریتمهای یادگیری ماشین کاربرد بسیار گسترده و مهمی در علم داده و دادهکاوی دارند. بنابراین برای تبدیل شدن به یک دانشمند داده یا دادهکاو زبده نیاز به یادگیری مفاهیم و روشهای این حوزه است.
🔸 دادهکاوی
دادهکاوی یک فرآیند هفت مرحلهای شامل پاکسازی، یکپارچهسازی، انتخاب داده (کاهش ابعاد)، نگاشت داده، دادهکاوی، ارزیابی و ارائه دانش است که هر یک از این مراحل نیاز به یادگیری مباحث خاصی دارند. همچنین پیش از آغاز فرآیند اصلی دادهکاوی فرد نیازمند فراگیری دانش دامنه (دانش در رابطه با زمینهای که قصد حل مساله در آن با استفاده از دادهکاوی وجود دارد) است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس