✳️ داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است. هدف از این نوشته پرداختن به هر یک از این مفاهیم همراه با جزئیات نیست، بلکه یک دید کلی از آنها به منظور آمادهسازی ذهن مخاطب ارائه خواهد شد و برای مطالعه همراه با جزئیات هر مبحث، لینکهایی در متن و انتهای این نوشته قرار گرفته است.
══ فهرست مطالب ══
○ مفاهیم مقدماتی
○ انواع ویژگی
○ جبر خطی و آمار
○ روشهای دادهکاوی
○ ارزیابی مدل
○ سایر مفاهیم
○ نتیجهگیری
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
«نویز» (Noise | نوفه) از یک سو، در تعریف به نمادها و سمبلها و یا دادههای ایجاد شده به صورت تصادفی که فاقد معنای خاصی هستند گفته میشود. بر همین اساس، گاهی دادههایی که دارای خطا هستند نویزی (دارای نویز) نامیده میشوند. از جمله این دادهها میتوان به «مقادیر ناموجود» (Missing Values) و مقادیر غلط (مانند عدد ۲۰۰۰ برای وزن یک انسان) اشاره کرد. از سوی دیگر، تفاوت بین یک مدل و پیشبینیهای آن را نویز گویند.
«داده»ها (Data) نمادها و سمبلهای خامی هستند که به تنهایی فاقد معنای کامل هستند. از جمله دادهها میتوان به تراکنشها، اعداد، متن، تصاویر و ویدئوها اشاره کرد.
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند. واژگان بُعد و متغیر معمولا در ادبیات این حوزه با معنای مشابه به کار میروند. اصطلاح بُعد به طور معمول توسط کارشناسان انبار داده مورد استفاده قرار میگیرد. نوع یک ویژگی توسط مجموعهای از مقادیر ممکن تعیین میشود. این انواع شامل «اسمی» (nominal) که به آن «دستهای» (categorical) نیز گفته میشود، «دودویی» (binary) و «عددی» (numeric) میشوند.
«دادههای پیوسته» (Continuous) میتوانند هر مقداری را در یک بازه از اعداد حقیقی بپذیرند. این مقدار الزاما نباید صحیح باشد. دادههای پیوسته متفاوت و به نوعی متضاد دادههای گسسته (Discrete) یا دستهای هستند.
یک قلم داده که دارای مجموعه متناهی از مقادیر است را «گسسته» گویند. گسسته در اینجا متضاد «پیوسته» است.
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است. هدف از این نوشته پرداختن به هر یک از این مفاهیم همراه با جزئیات نیست، بلکه یک دید کلی از آنها به منظور آمادهسازی ذهن مخاطب ارائه خواهد شد و برای مطالعه همراه با جزئیات هر مبحث، لینکهایی در متن و انتهای این نوشته قرار گرفته است.
══ فهرست مطالب ══
○ مفاهیم مقدماتی
○ انواع ویژگی
○ جبر خطی و آمار
○ روشهای دادهکاوی
○ ارزیابی مدل
○ سایر مفاهیم
○ نتیجهگیری
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
«نویز» (Noise | نوفه) از یک سو، در تعریف به نمادها و سمبلها و یا دادههای ایجاد شده به صورت تصادفی که فاقد معنای خاصی هستند گفته میشود. بر همین اساس، گاهی دادههایی که دارای خطا هستند نویزی (دارای نویز) نامیده میشوند. از جمله این دادهها میتوان به «مقادیر ناموجود» (Missing Values) و مقادیر غلط (مانند عدد ۲۰۰۰ برای وزن یک انسان) اشاره کرد. از سوی دیگر، تفاوت بین یک مدل و پیشبینیهای آن را نویز گویند.
«داده»ها (Data) نمادها و سمبلهای خامی هستند که به تنهایی فاقد معنای کامل هستند. از جمله دادهها میتوان به تراکنشها، اعداد، متن، تصاویر و ویدئوها اشاره کرد.
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند. واژگان بُعد و متغیر معمولا در ادبیات این حوزه با معنای مشابه به کار میروند. اصطلاح بُعد به طور معمول توسط کارشناسان انبار داده مورد استفاده قرار میگیرد. نوع یک ویژگی توسط مجموعهای از مقادیر ممکن تعیین میشود. این انواع شامل «اسمی» (nominal) که به آن «دستهای» (categorical) نیز گفته میشود، «دودویی» (binary) و «عددی» (numeric) میشوند.
«دادههای پیوسته» (Continuous) میتوانند هر مقداری را در یک بازه از اعداد حقیقی بپذیرند. این مقدار الزاما نباید صحیح باشد. دادههای پیوسته متفاوت و به نوعی متضاد دادههای گسسته (Discrete) یا دستهای هستند.
یک قلم داده که دارای مجموعه متناهی از مقادیر است را «گسسته» گویند. گسسته در اینجا متضاد «پیوسته» است.
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ کدام زبان برای داده کاوی بهتر است، پایتون یا R؟
«علم داده» (Data Science) از جمله مباحث جذاب و داغ روز است که توجه پژوهشگران، سازمانها و صنایع گوناگون را به خود جلب کرده است. این مبحث، منجر به شکلگیری مشاغل گوناگونی نیز شده است؛ اغلب مشاغل حوزه علم داده، پردرآمد و جذاب هستند. افرادی که علاقهمند به اشتغال در حوزه علم داده هستند و با مجموعه مهارتهای لازم برای این حوزه آشنایی دارند، میدانند که زبانهای برنامهنویسی «پایتون» (Python) و «آر» (R) دو مورد از محبوبترین و توانمندترین زبانها برای تحلیل داده محسوب میشوند. افرادی که اطمینان ندارند ابتدا کدام یک از این دو زبان را بیاموزند، میتوانند با مطالعه این مطلب به تردید خود پایان دهند و پس از انتخاب زبان، کار یادگیری را آغاز کنند. هنگامی که صحبت از تحلیل داده میشود، زبانهای پایتون و R به عنوان دو زبان آزاد و رایگان که نصب و فراگیری آنها ساده است، مطرح میشوند. برای افراد تازه وارد به دنیای علم داده که فاقد تجربه برنامهنویسی در این دو زبان یا به طور کلی زبانهای برنامهنویسی هستند، طبیعی است که در ابتدای راه مردد باشند که ابتدا پایتون را بیاموزند یا R. خوشبختانه، فرد هر کدام از این زبانها را که اول بیاموزد، ضرر نکرده و توانسته مهارت مفیدی در حوزه علم داده به دست بیاورد. در ادامه، ابتدا به چرایی انتخاب زبان R، سپس پایتون و در نهایت با پاسخ دادن به پرسش «زبان پایتون یا R»، به چگونگی انتخاب از میان این دو پرداخته میشود.
══ فهرست مطالب ══
○ چرا R؟
○ چرا پایتون؟
○ زبان پایتون یا R
🔸 چرا R؟
R از جمله زبانهای قدیمی و قابل اعتماد به شمار میآید که دارای یک جامعه کاربری قدرتمند در حوزه علم داده است. جامعه کاربری R، پشتیبانی مستحکمی را پیرامون این زبان ارائه میکنند. این یعنی میتوان به دریافت پشتیبانی آنلاین از دیگر افراد فعال در زمینه زبان برنامهنویسی R امیدوارم بود و در واقع، در صورتی که فرد نیاز به راهنمایی داشته باشد، میتواند به جامعه کاربری بزرگ R اعتماد کند.
در عین حال، میزان زیاد و در واقع، بیش از ۵,۰۰۰ «بسته» (Package) آماده برای این زبان وجود دارد که میتوان آنها را دانلود و همراه با R استفاده کرد تا تواناییهای این زبان برای انجام وظایف گوناگون و جدید، توسعه پیدا کند. این امر موجب میشود زبان R گزینه مناسبی برای انجام تحلیلهای داده اکتشافی باشد. همچنین، R به خوبی با دیگر زبانهای محاسباتی مانند «سیپلاسپلاس» (++C)، «جاوا» (Java) و «سی» (C) یکپارچه میشود. هنگامی که نیاز به انجام تحلیلهای آماری سنگین یا رسم نمودار باشد، R یک گزینه قابل توجه است. عملیات ریاضی متداول مانند ضرب ماتریسها، در زبان R به خوبی و سادگی قابل انجام است و «نحو» (Syntax) آرایه محور این زبان، آن را به گزینهای مناسب برای ترجمه ریاضیات به کد به ویژه برای افراد فاقد پیشزمینه برنامهنویسی مبدل کرده است.
🔸 چرا پایتون؟
پایتون یک زبان برنامهنویسی همه منظوره است که میتواند تقریبا هر کاری که کاربر نیاز داشته باشد را انجام دهد. از جمله این کارها میتوان به «پیشپردازش دادهها» (Data Preprocessing)، «مهندسی دادهها» (Data Engineering)، «وب اسکرپینگ» (Website Scraping)، ساخت «اپلیکیشن وب» (Web App) و دیگر موارد اشاره کرد. برای افرادی که دانش پیشین در حوزه «برنامهنویسی شیگرا» (Object-Oriented Programming) دارند، تسلط بر پایتون سادهتر از فراگیری R است.
علاوه بر آن، به دلیل آنکه پایتون یک زبان برنامهنویسی شیگرا است، نوشتن کدهای بزرگ مقیاس، قابل نگهداری و مستحکم در پایتون، نسبت به R سادهتر است. با بهرهگیری از زبان برنامهنویسی پایتون، کاربر میتواند کد نمونه اولیهای که برای خود و روی کامپیوتر شخصیاش نوشته است را به عنوان کد محصول، مورد استفاده قرار دهد. اگرچه پایتون مانند زبان R دارای بستههای جامعی برای انجام تحلیلهای آماری نیست، اما وجود کتابخانهها و ابزارهایی مانند «پانداس» (Pandas)، «نامپای» (NumPy)، «سایپای» (Scipy)، «سایکیتلرن» (Scikit-Learn) و «سیبورن» (Seaborn) موجب شده تا زبان پایتون به گزینهای فوقالعاده برای «تحلیل داده» (Data Analytics)، «هوش مصنوعی» (Artificial Intelligence) و «یادگیری ماشین» (Machine Learning) مبدل شود. این زبان کم کم در حال مبدل شدن به گزینهای بینظیر برای یادگیری ماشین و انجام وظایف آماری ابتدایی و متوسط (قبلا در دامنه وظایف زبان R بود) است.
مطالعه ادامه مطلب 👇
🔗 کدام زبان برای داده کاوی بهتر است، پایتون یا R؟ — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«علم داده» (Data Science) از جمله مباحث جذاب و داغ روز است که توجه پژوهشگران، سازمانها و صنایع گوناگون را به خود جلب کرده است. این مبحث، منجر به شکلگیری مشاغل گوناگونی نیز شده است؛ اغلب مشاغل حوزه علم داده، پردرآمد و جذاب هستند. افرادی که علاقهمند به اشتغال در حوزه علم داده هستند و با مجموعه مهارتهای لازم برای این حوزه آشنایی دارند، میدانند که زبانهای برنامهنویسی «پایتون» (Python) و «آر» (R) دو مورد از محبوبترین و توانمندترین زبانها برای تحلیل داده محسوب میشوند. افرادی که اطمینان ندارند ابتدا کدام یک از این دو زبان را بیاموزند، میتوانند با مطالعه این مطلب به تردید خود پایان دهند و پس از انتخاب زبان، کار یادگیری را آغاز کنند. هنگامی که صحبت از تحلیل داده میشود، زبانهای پایتون و R به عنوان دو زبان آزاد و رایگان که نصب و فراگیری آنها ساده است، مطرح میشوند. برای افراد تازه وارد به دنیای علم داده که فاقد تجربه برنامهنویسی در این دو زبان یا به طور کلی زبانهای برنامهنویسی هستند، طبیعی است که در ابتدای راه مردد باشند که ابتدا پایتون را بیاموزند یا R. خوشبختانه، فرد هر کدام از این زبانها را که اول بیاموزد، ضرر نکرده و توانسته مهارت مفیدی در حوزه علم داده به دست بیاورد. در ادامه، ابتدا به چرایی انتخاب زبان R، سپس پایتون و در نهایت با پاسخ دادن به پرسش «زبان پایتون یا R»، به چگونگی انتخاب از میان این دو پرداخته میشود.
══ فهرست مطالب ══
○ چرا R؟
○ چرا پایتون؟
○ زبان پایتون یا R
🔸 چرا R؟
R از جمله زبانهای قدیمی و قابل اعتماد به شمار میآید که دارای یک جامعه کاربری قدرتمند در حوزه علم داده است. جامعه کاربری R، پشتیبانی مستحکمی را پیرامون این زبان ارائه میکنند. این یعنی میتوان به دریافت پشتیبانی آنلاین از دیگر افراد فعال در زمینه زبان برنامهنویسی R امیدوارم بود و در واقع، در صورتی که فرد نیاز به راهنمایی داشته باشد، میتواند به جامعه کاربری بزرگ R اعتماد کند.
در عین حال، میزان زیاد و در واقع، بیش از ۵,۰۰۰ «بسته» (Package) آماده برای این زبان وجود دارد که میتوان آنها را دانلود و همراه با R استفاده کرد تا تواناییهای این زبان برای انجام وظایف گوناگون و جدید، توسعه پیدا کند. این امر موجب میشود زبان R گزینه مناسبی برای انجام تحلیلهای داده اکتشافی باشد. همچنین، R به خوبی با دیگر زبانهای محاسباتی مانند «سیپلاسپلاس» (++C)، «جاوا» (Java) و «سی» (C) یکپارچه میشود. هنگامی که نیاز به انجام تحلیلهای آماری سنگین یا رسم نمودار باشد، R یک گزینه قابل توجه است. عملیات ریاضی متداول مانند ضرب ماتریسها، در زبان R به خوبی و سادگی قابل انجام است و «نحو» (Syntax) آرایه محور این زبان، آن را به گزینهای مناسب برای ترجمه ریاضیات به کد به ویژه برای افراد فاقد پیشزمینه برنامهنویسی مبدل کرده است.
🔸 چرا پایتون؟
پایتون یک زبان برنامهنویسی همه منظوره است که میتواند تقریبا هر کاری که کاربر نیاز داشته باشد را انجام دهد. از جمله این کارها میتوان به «پیشپردازش دادهها» (Data Preprocessing)، «مهندسی دادهها» (Data Engineering)، «وب اسکرپینگ» (Website Scraping)، ساخت «اپلیکیشن وب» (Web App) و دیگر موارد اشاره کرد. برای افرادی که دانش پیشین در حوزه «برنامهنویسی شیگرا» (Object-Oriented Programming) دارند، تسلط بر پایتون سادهتر از فراگیری R است.
علاوه بر آن، به دلیل آنکه پایتون یک زبان برنامهنویسی شیگرا است، نوشتن کدهای بزرگ مقیاس، قابل نگهداری و مستحکم در پایتون، نسبت به R سادهتر است. با بهرهگیری از زبان برنامهنویسی پایتون، کاربر میتواند کد نمونه اولیهای که برای خود و روی کامپیوتر شخصیاش نوشته است را به عنوان کد محصول، مورد استفاده قرار دهد. اگرچه پایتون مانند زبان R دارای بستههای جامعی برای انجام تحلیلهای آماری نیست، اما وجود کتابخانهها و ابزارهایی مانند «پانداس» (Pandas)، «نامپای» (NumPy)، «سایپای» (Scipy)، «سایکیتلرن» (Scikit-Learn) و «سیبورن» (Seaborn) موجب شده تا زبان پایتون به گزینهای فوقالعاده برای «تحلیل داده» (Data Analytics)، «هوش مصنوعی» (Artificial Intelligence) و «یادگیری ماشین» (Machine Learning) مبدل شود. این زبان کم کم در حال مبدل شدن به گزینهای بینظیر برای یادگیری ماشین و انجام وظایف آماری ابتدایی و متوسط (قبلا در دامنه وظایف زبان R بود) است.
مطالعه ادامه مطلب 👇
🔗 کدام زبان برای داده کاوی بهتر است، پایتون یا R؟ — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آزمون تی طبقه ای در SAS و R — راهنمای کابردی
آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه میدهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمونهای دیگری به جای آزمون تی طبقه ای مورد استفاده قرار میگیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روشهای جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.
══ فهرست مطالب ══
○ آزمون تی طبقه ای
○ پیشفرضهای آزمون تی طبقه ای
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون تی طبقه ای
آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار میگیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت میگیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونهها است.
اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونهها براساس یک طرح نمونهگیری طبقهای است. در این صورت نمونهها مستقل از دو جامعه، طی یک «نمونهگیری طبقهای» (Stratified) جمعآوری شدهاند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدولهای این توزیع مراجعه میشود.
از آنجایی که طرح نمونهگیری طبقهای به کار رفته و ممکن است رابطهای بین طبقهها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance میدانند.
🔸 پیشفرضهای آزمون تی طبقه ای
ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامهنویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید دادههای مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آنها اطمینان حاصل کنیم.
در روشهای آمار پارامتری فرض بر این است که دادهها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای دادهها، توزیع گاوسی یا نرمال در نظر گرفته میشود. ولی اگر توزیع این دادهها گاوسی یا نرمال نباشد، پیشفرضهای مربوط به آزمونها و تحلیلهای آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روشهای آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن دادهها مطلع شویم؟
خوشبختانه روشهای زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که میتوان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان میآید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روشهای نرمالیتی و سنجش توزیع دادهها را بهتر درک کنید. البته در اینجا از معرفی این تکنیکها صرف نظر کرده و خواننده را به لینکها ارائه شده، ارجاع میدهیم.
مطالعه ادامه مطلب 👇👇
🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه میدهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمونهای دیگری به جای آزمون تی طبقه ای مورد استفاده قرار میگیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روشهای جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.
══ فهرست مطالب ══
○ آزمون تی طبقه ای
○ پیشفرضهای آزمون تی طبقه ای
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون تی طبقه ای
آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار میگیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت میگیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونهها است.
اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونهها براساس یک طرح نمونهگیری طبقهای است. در این صورت نمونهها مستقل از دو جامعه، طی یک «نمونهگیری طبقهای» (Stratified) جمعآوری شدهاند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدولهای این توزیع مراجعه میشود.
از آنجایی که طرح نمونهگیری طبقهای به کار رفته و ممکن است رابطهای بین طبقهها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance میدانند.
🔸 پیشفرضهای آزمون تی طبقه ای
ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامهنویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید دادههای مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آنها اطمینان حاصل کنیم.
در روشهای آمار پارامتری فرض بر این است که دادهها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای دادهها، توزیع گاوسی یا نرمال در نظر گرفته میشود. ولی اگر توزیع این دادهها گاوسی یا نرمال نباشد، پیشفرضهای مربوط به آزمونها و تحلیلهای آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روشهای آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن دادهها مطلع شویم؟
خوشبختانه روشهای زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که میتوان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان میآید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روشهای نرمالیتی و سنجش توزیع دادهها را بهتر درک کنید. البته در اینجا از معرفی این تکنیکها صرف نظر کرده و خواننده را به لینکها ارائه شده، ارجاع میدهیم.
مطالعه ادامه مطلب 👇👇
🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی
هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق میافتد که در هنگام جمع اوری دادهها دقت کافی صورت نگرفته باشد. در چنین مواردی میگوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج میبرد. راه کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آنها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامهنویسی پایتون مورد تحلیل قرار میدهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتمها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.
══ فهرست مطالب ══
○ مدیریت داده گمشده در داده کاوی با پایتون
○ خلاصه و جمعبندی
🔸 مدیریت داده گمشده در داده کاوی با پایتون
به روشهای مختلفی میتوان بر مشکل دادهها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آنها لزوم توجه به دادههای گمشده را به نوعی بیان میکند.
– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمیکند.
– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.
کتابخانههای پایتون دادههای گمشده را به صورت عبارت nan نشان میدهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانهها میتوانید مشخص کنید که کدام سلولها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:
اگر میخواهید با استفاده از دادهها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانهها (از جمله scikit-learn) و تابع مدلسازی پیغامی مبنی بر وجود خطا ظاهر میسازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.
🔸 خلاصه و جمعبندی
در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی دادهها است، بررسی داده گمشده بسیار مهم جلوه میکند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونههای مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتمهای متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیادهسازی شدهاند. در این متن به بررسی این الگوریتمها یا راه کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای آمار و احتمالات
– آموزش داده کاوی و زبان برنامه نویسی R
– مجموعه آموزشهای داده کاوی و یادگیری ماشین
– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب
– داده گمشده یا ناموجود (Missing Data) در R – روشهای پاکسازی دادهها
– دادههای سانسور شده (Censored Data) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق میافتد که در هنگام جمع اوری دادهها دقت کافی صورت نگرفته باشد. در چنین مواردی میگوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج میبرد. راه کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آنها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامهنویسی پایتون مورد تحلیل قرار میدهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتمها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.
══ فهرست مطالب ══
○ مدیریت داده گمشده در داده کاوی با پایتون
○ خلاصه و جمعبندی
🔸 مدیریت داده گمشده در داده کاوی با پایتون
به روشهای مختلفی میتوان بر مشکل دادهها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آنها لزوم توجه به دادههای گمشده را به نوعی بیان میکند.
– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمیکند.
– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.
کتابخانههای پایتون دادههای گمشده را به صورت عبارت nan نشان میدهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانهها میتوانید مشخص کنید که کدام سلولها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:
اگر میخواهید با استفاده از دادهها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانهها (از جمله scikit-learn) و تابع مدلسازی پیغامی مبنی بر وجود خطا ظاهر میسازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.
🔸 خلاصه و جمعبندی
در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی دادهها است، بررسی داده گمشده بسیار مهم جلوه میکند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونههای مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتمهای متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیادهسازی شدهاند. در این متن به بررسی این الگوریتمها یا راه کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.
اگر این مطلب برای شما مفید بوده است، آموزشها و مطالب زیر نیز به شما پیشنهاد میشوند:
– مجموعه آموزشهای آمار و احتمالات
– آموزش داده کاوی و زبان برنامه نویسی R
– مجموعه آموزشهای داده کاوی و یادگیری ماشین
– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب
– داده گمشده یا ناموجود (Missing Data) در R – روشهای پاکسازی دادهها
– دادههای سانسور شده (Censored Data) در آمار — به زبان ساده
مطالعه ادامه مطلب 👇👇
🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی
آزمون واریانس یک طرفه (One-way ANOVA) یکی از محبوبترین آزمونهای آماری است که به مقایسه و بررسی میانگین بین سه یا چند جامعه میپردازد. البته برای استفاده از این آزمون یا تحلیل، شرایطی نیز وجود دارد که قبل از اجرای آن باید مورد بررسی قرار گیرند. در این نوشتار از مجله فرادرس به نحوه انجام آنالیز واریانس یک طرفه در اکسل خواهیم پرداخت و با ذکر مثالی، خروجیهای حاصل در اکسل را مشاهده و نتیجه آزمون را مشخص خواهیم کرد.
══ فهرست مطالب ══
○ آنالیز واریانس یک طرفه در اکسل
○ فیلم آموزش محاسبات آماری با اکسل
○ خلاصه و جمعبندی
🔸 آنالیز واریانس یک طرفه در اکسل
از مطالب دیگر مجله فرادرس در زمینه تحلیل یا آنالیز واریانس، فرا گرفتید که جدول تحلیل واریانس برای مقایسه میانگین در بین سه گروه یا بیشتر مورد استفاده قرار میگیرد. فرض کنید سه جامعه مستقل از یکدیگر (دانش آموزان مقطع پیشدبستان، دبستان و دبیرستان) دارید که برایشان یک ویژگی (مثلا وزن) را اندازهگیری کردهاید. به کمک تحلیل واریانس میتوانیم نشان دهیم که وزن این سه گروه، با یکدیگر اختلاف داشته و این تفاوتها، از لحاظ آماری نیز معنیدار است. البته توجه داشته باشید که ممکن است توسط تحلیل واریانس به این نتیجه برسیم که هر سه گروه یکسان هستند و میانگین در بین این سه جامعه تفاوت یا اختلاف آماری ندارند.
نکته: منظور از اختلاف آماری، با اختلاف ریاضی متفاوت است. از آنجایی که با استفاده از نمونه آماری دست به استنباط زدهایم، ممکن است اختلاف در میانگین نمونهها ناشی از خطای نمونهگیری بوده و واقعا جوامع با هم تفاوت نداشته باشند. این مفهوم نشانگر عدم اختلاف آماری بین میانگین جوامع است در حالیکه از لحاظ ریاضی میانگین نمونهها، با یکدیگر متفاوت هستند.
به این ترتیب، آنالیز واریانس یک تکنیک برای اجرای آزمون فرض آماری محسوب میشود که اجازه انجام آزمون همزمان روی میانگین برای بیش از سه جامعه یا گروه را به محقق یا تحلیلگر آماری، میدهد. توجه دارید که در آزمون فرض آماری، ابتدا نمونههایی جمع آوری شده، سپس براساس مقادیر آنها در سه گروه مختلف، میتوانیم نسبت به رد یا تایید فرضیه آماری تصمیم بگیریم. فرضیههای آماری احکامی هستند که برای جامعه آماری صادر میشود. به این معنی که به واسطه مقادیر جمعآوری شده از نمونه و به کارگیری محاسبات و قوانین مربوط به آزمون فرض، در مورد جامعه آماری به یک نتیجهگیری میرسیم.
🔸 فیلم آموزش محاسبات آماری با اکسل
اغلب کسانی که در سطح ابتدایی یا متوسط به کار تحلیل داده یا محاسبات آماری میپردازند، از اکسل به عنوان ابزار محاسباتی بهره میبرند. خوشبختانه در یکی از آموزشهای فرادرس به معرفی قابلیتهای این نرمافزار در انجام تحلیلهای آماری و اجرای فرمولهای آماری پرداخته شده است. از آنجایی که ممکن است پیادهسازی فرمولهای آماری در اکسل برای کاربران مبتدی سخت باشد، افزونهای برای انجام این گونه تحلیلها در اکسل تعبیه شده که در فیلم آموزش محاسبات آماری در اکسل نیز به آن اشاره شده است. بعضی از مواردی که در این آموزش در مورد آن بحث و بررسی صورت گرفته در ادامه شرح داده شدهاند:
– درس اول: شیوه بدست آوردن شاخصهای توصیفی (Denoscriptive Statistics) که نمایی کلی از جامعه و ویژگیهای آن در اختیار کاربر قرار میدهد، از موارد اولیه درس اول محسوب میشود. همچنین تشکیل فاصله اطمینان (Confidence Interval) برای میانگین، رسم نمودار هیستوگرام (Histogram)، آزمون فرض مربوط به میانگین جامعه نرمال، آزمون و تجزیه و تحلیل واریانس یک طرفه و دوطرفه، همچنین رگرسیون خطی (Linear regression) و ایجاد اعداد تصادفی (random number generation) از دیگر مواردی است که در درس اول به آنها پرداخته میشود.
– درس دوم: توابع توزیع آماری (distribution function) و معادله خط برگشت (Regression) محاسباتی شامل توابع شاخصهای تمرکز، شاخصهای پراکندگی، شاخصهای تقارن و عدم تقارن، ضرایب همبستگی و کوواریانس، معکوس توابع توزیع آماری و رگرسیون و خط بازگشت است.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
آزمون واریانس یک طرفه (One-way ANOVA) یکی از محبوبترین آزمونهای آماری است که به مقایسه و بررسی میانگین بین سه یا چند جامعه میپردازد. البته برای استفاده از این آزمون یا تحلیل، شرایطی نیز وجود دارد که قبل از اجرای آن باید مورد بررسی قرار گیرند. در این نوشتار از مجله فرادرس به نحوه انجام آنالیز واریانس یک طرفه در اکسل خواهیم پرداخت و با ذکر مثالی، خروجیهای حاصل در اکسل را مشاهده و نتیجه آزمون را مشخص خواهیم کرد.
══ فهرست مطالب ══
○ آنالیز واریانس یک طرفه در اکسل
○ فیلم آموزش محاسبات آماری با اکسل
○ خلاصه و جمعبندی
🔸 آنالیز واریانس یک طرفه در اکسل
از مطالب دیگر مجله فرادرس در زمینه تحلیل یا آنالیز واریانس، فرا گرفتید که جدول تحلیل واریانس برای مقایسه میانگین در بین سه گروه یا بیشتر مورد استفاده قرار میگیرد. فرض کنید سه جامعه مستقل از یکدیگر (دانش آموزان مقطع پیشدبستان، دبستان و دبیرستان) دارید که برایشان یک ویژگی (مثلا وزن) را اندازهگیری کردهاید. به کمک تحلیل واریانس میتوانیم نشان دهیم که وزن این سه گروه، با یکدیگر اختلاف داشته و این تفاوتها، از لحاظ آماری نیز معنیدار است. البته توجه داشته باشید که ممکن است توسط تحلیل واریانس به این نتیجه برسیم که هر سه گروه یکسان هستند و میانگین در بین این سه جامعه تفاوت یا اختلاف آماری ندارند.
نکته: منظور از اختلاف آماری، با اختلاف ریاضی متفاوت است. از آنجایی که با استفاده از نمونه آماری دست به استنباط زدهایم، ممکن است اختلاف در میانگین نمونهها ناشی از خطای نمونهگیری بوده و واقعا جوامع با هم تفاوت نداشته باشند. این مفهوم نشانگر عدم اختلاف آماری بین میانگین جوامع است در حالیکه از لحاظ ریاضی میانگین نمونهها، با یکدیگر متفاوت هستند.
به این ترتیب، آنالیز واریانس یک تکنیک برای اجرای آزمون فرض آماری محسوب میشود که اجازه انجام آزمون همزمان روی میانگین برای بیش از سه جامعه یا گروه را به محقق یا تحلیلگر آماری، میدهد. توجه دارید که در آزمون فرض آماری، ابتدا نمونههایی جمع آوری شده، سپس براساس مقادیر آنها در سه گروه مختلف، میتوانیم نسبت به رد یا تایید فرضیه آماری تصمیم بگیریم. فرضیههای آماری احکامی هستند که برای جامعه آماری صادر میشود. به این معنی که به واسطه مقادیر جمعآوری شده از نمونه و به کارگیری محاسبات و قوانین مربوط به آزمون فرض، در مورد جامعه آماری به یک نتیجهگیری میرسیم.
🔸 فیلم آموزش محاسبات آماری با اکسل
اغلب کسانی که در سطح ابتدایی یا متوسط به کار تحلیل داده یا محاسبات آماری میپردازند، از اکسل به عنوان ابزار محاسباتی بهره میبرند. خوشبختانه در یکی از آموزشهای فرادرس به معرفی قابلیتهای این نرمافزار در انجام تحلیلهای آماری و اجرای فرمولهای آماری پرداخته شده است. از آنجایی که ممکن است پیادهسازی فرمولهای آماری در اکسل برای کاربران مبتدی سخت باشد، افزونهای برای انجام این گونه تحلیلها در اکسل تعبیه شده که در فیلم آموزش محاسبات آماری در اکسل نیز به آن اشاره شده است. بعضی از مواردی که در این آموزش در مورد آن بحث و بررسی صورت گرفته در ادامه شرح داده شدهاند:
– درس اول: شیوه بدست آوردن شاخصهای توصیفی (Denoscriptive Statistics) که نمایی کلی از جامعه و ویژگیهای آن در اختیار کاربر قرار میدهد، از موارد اولیه درس اول محسوب میشود. همچنین تشکیل فاصله اطمینان (Confidence Interval) برای میانگین، رسم نمودار هیستوگرام (Histogram)، آزمون فرض مربوط به میانگین جامعه نرمال، آزمون و تجزیه و تحلیل واریانس یک طرفه و دوطرفه، همچنین رگرسیون خطی (Linear regression) و ایجاد اعداد تصادفی (random number generation) از دیگر مواردی است که در درس اول به آنها پرداخته میشود.
– درس دوم: توابع توزیع آماری (distribution function) و معادله خط برگشت (Regression) محاسباتی شامل توابع شاخصهای تمرکز، شاخصهای پراکندگی، شاخصهای تقارن و عدم تقارن، ضرایب همبستگی و کوواریانس، معکوس توابع توزیع آماری و رگرسیون و خط بازگشت است.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی
در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آنها برای ایجاد یک گردش کاری با بهرهوری بالا و کار تیمی در حوزه علوم داده میپردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژههای یادگیری ماشین کردهاند. همچنین برای برخی دانشمندان علوم داده که میخواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پارهای موارد مفید خواهد بود.
══ فهرست مطالب ══
○ گیت
○ پایتون
○ VSCode
○ Notion
○ Grammarly
○ سخن پایانی
🔸 گیت
در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیتهاب آشنا هستید. اگر فکر میکنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، میتوانید از مطلب زیر استفاده کنید:
– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده
مؤثرترین روش برای تعامل با ریپازیتوری گیتهاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستمهای مک) که یکپارچگی شگفتانگیزی با گیت ارائه میکند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی میکند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم میشود.
پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو میتوانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدالها (Badges) مانند تصویر زیر بر آن بیفزایید.
🔸 پایتون
در این بخش به توضیح روش نصب لوکال پکیجهای پایتون با استفاده از pip و virtualenv میپردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، میتوانید از دستور زیر بهره بگیرید:
دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب میکند. اگر از قبل نسخهای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه میکند.
ابتدا ابزار مدیریت محیط را با دستور زیر نصب میکنیم:
مطالعه ادامه مطلب 👇👇
🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آنها برای ایجاد یک گردش کاری با بهرهوری بالا و کار تیمی در حوزه علوم داده میپردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژههای یادگیری ماشین کردهاند. همچنین برای برخی دانشمندان علوم داده که میخواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پارهای موارد مفید خواهد بود.
══ فهرست مطالب ══
○ گیت
○ پایتون
○ VSCode
○ Notion
○ Grammarly
○ سخن پایانی
🔸 گیت
در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیتهاب آشنا هستید. اگر فکر میکنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، میتوانید از مطلب زیر استفاده کنید:
– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده
مؤثرترین روش برای تعامل با ریپازیتوری گیتهاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستمهای مک) که یکپارچگی شگفتانگیزی با گیت ارائه میکند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی میکند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم میشود.
پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو میتوانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدالها (Badges) مانند تصویر زیر بر آن بیفزایید.
🔸 پایتون
در این بخش به توضیح روش نصب لوکال پکیجهای پایتون با استفاده از pip و virtualenv میپردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، میتوانید از دستور زیر بهره بگیرید:
دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب میکند. اگر از قبل نسخهای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه میکند.
ابتدا ابزار مدیریت محیط را با دستور زیر نصب میکنیم:
مطالعه ادامه مطلب 👇👇
🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ برنامه نویسی پویا در علم داده | راهنمای کاربردی
در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثالهایی که درک آنها آسان باشد شرح داده شده است.
══ فهرست مطالب ══
○ برنامه نویسی پویا در علم داده
○ برنامه نویسی پویا در علم داده چطور کار میکند؟
○ چرا برنامه نویسی پویا در علم داده دشوار است؟
○ مثالی از برنامه نویسی پویا در علم داده
○ کدنویسی و برنامه نویسی پویا در علم داده
○ جمعبندی
🔸 برنامه نویسی پویا در علم داده
الگوریتمها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دورههای تحلیل و طراحی الگوریتم مناسبی را نمیگذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکتها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسشهایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح میکنند. اکنون، پرسشی که افراد زیادی با آن مواجه میشوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در سادهترین حالت میتوان گفت، جوابی که فرد به این پرسش میدهد، میتواند به نوعی سطح دانش برنامهنویسی او را نشان دهد. بنابراین، توصیه میشود که علاقهمندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.
🔸 برنامه نویسی پویا در علم داده چطور کار میکند؟
فرض میشود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:
۱, ۱, ۲, ۳, ۵, ۸
برنامه محاسبه سری فیبوناچی در ادامه آمده است.
مطالعه ادامه مطلب 👇👇
🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثالهایی که درک آنها آسان باشد شرح داده شده است.
══ فهرست مطالب ══
○ برنامه نویسی پویا در علم داده
○ برنامه نویسی پویا در علم داده چطور کار میکند؟
○ چرا برنامه نویسی پویا در علم داده دشوار است؟
○ مثالی از برنامه نویسی پویا در علم داده
○ کدنویسی و برنامه نویسی پویا در علم داده
○ جمعبندی
🔸 برنامه نویسی پویا در علم داده
الگوریتمها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دورههای تحلیل و طراحی الگوریتم مناسبی را نمیگذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکتها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسشهایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح میکنند. اکنون، پرسشی که افراد زیادی با آن مواجه میشوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در سادهترین حالت میتوان گفت، جوابی که فرد به این پرسش میدهد، میتواند به نوعی سطح دانش برنامهنویسی او را نشان دهد. بنابراین، توصیه میشود که علاقهمندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.
🔸 برنامه نویسی پویا در علم داده چطور کار میکند؟
فرض میشود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:
۱, ۱, ۲, ۳, ۵, ۸
برنامه محاسبه سری فیبوناچی در ادامه آمده است.
مطالعه ادامه مطلب 👇👇
🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ دادهکاوی (Data Mining)
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند.
🔹 فهرست مطالب این نوشته
▫️ داده کاوی چیست؟
▫️ تاریخچه دادهکاوی
▫️ چرا داده کاوی
▫️ انواع منابع داده
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود.
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
🔸 چرا داده کاوی
با رشد و افزایش توجهات به دادهکاوی، پرسش «چرا دادهکاوی؟» همواره مطرح میشود. در پاسخ به این پرسش باید گفت، دادهکاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینهای جوان و آیندهدار برای نسل کنونی محسوب میشود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع دادهها، نیاز حتمی به تبدیل چنین دادههایی به اطلاعات و دانش وجود دارد.
🔸 انواع منابع داده
در این بخش، انواع منابع دادهای که همه روزه حجم انبوهی از دادهها را تولید و یا ذخیره میکنند، مورد بررسی قرار گرفتهاند.
● تراکنشهای کسبوکار
● دادههای علمی
● دادههای شخصی و پزشکی
● تصاویر و ویدئوهای نظارتی
●رقابتهای ورزشی
● رسانههای دیجیتال
● دنیاهای مجازی
● جهانهای مجازی
● گزارشها و اسناد متنی
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 دادهکاوی (Data Mining) — از صفر تا صد — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ دادهکاوی (Data Mining)
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند.
🔹 فهرست مطالب این نوشته
▫️ داده کاوی چیست؟
▫️ تاریخچه دادهکاوی
▫️ چرا داده کاوی
▫️ انواع منابع داده
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود.
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
🔸 چرا داده کاوی
با رشد و افزایش توجهات به دادهکاوی، پرسش «چرا دادهکاوی؟» همواره مطرح میشود. در پاسخ به این پرسش باید گفت، دادهکاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینهای جوان و آیندهدار برای نسل کنونی محسوب میشود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع دادهها، نیاز حتمی به تبدیل چنین دادههایی به اطلاعات و دانش وجود دارد.
🔸 انواع منابع داده
در این بخش، انواع منابع دادهای که همه روزه حجم انبوهی از دادهها را تولید و یا ذخیره میکنند، مورد بررسی قرار گرفتهاند.
● تراکنشهای کسبوکار
● دادههای علمی
● دادههای شخصی و پزشکی
● تصاویر و ویدئوهای نظارتی
●رقابتهای ورزشی
● رسانههای دیجیتال
● دنیاهای مجازی
● جهانهای مجازی
● گزارشها و اسناد متنی
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 دادهکاوی (Data Mining) — از صفر تا صد — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ داده کاوی (Data Mining) و مفاهیم کلیدی آن
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است.
🔹 فهرست مطالب این نوشته
▫️ مفاهیم مقدماتی
▫️ انواع ویژگی
▫️ جبر خطی و آمار
▫️ روشهای دادهکاوی
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
● نویز
● داده
● قالب داده
● دادههای خارجی
● دادههای خارجی
● Overlay
● داده کاوی
● موتور دادهکاوی
● پایگاه دانش
● دادههای ناموجود
● دادههای غیر قابل اجرا
● پاکسازی
● یکپارچهسازی دادهها
● تبدیل
● بصریسازی
● استقرار
● سیستم مدیریت پایگاه داده
● سیستم مدیریت پایگاه داده رابطهای
● رابط کاربری
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
● پیوسته
● گسسته
● دادههای دستهای
● بستهبندی
● ابعاد
🔸 جبر خطی و آمار
روشهای آماری و مباحث جبر خطی کاربردهای بسیاری در علم داده و دادهکاوی دارند. از جمله مفاهیم آماری پر کاربرد در دادهکاوی میتوان به معیارهای تمرکز و شاخصهای پراکندگی اشاره کرد.
● میانگین
● میانه
● مُد
● نرمالسازی
● کمترین مربعات
● واریانس
● MARS
● بیشینه درستنمایی
🔸 روشهای دادهکاوی
روشهای دادهکاوی در واقع روالها و الگوریتمهایی هستند که برای تحلیل دادهها در پایگاه داده مورد استفاده قرار میگیرند. این روشها در سه دسته قرار میگیرند.
● تحلیلهای اکتشافی
● استنتاج
● استقرا
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ داده کاوی (Data Mining) و مفاهیم کلیدی آن
در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب میشوند و یادگیری آنها از الزامات یادگیری دادهکاوی است.
🔹 فهرست مطالب این نوشته
▫️ مفاهیم مقدماتی
▫️ انواع ویژگی
▫️ جبر خطی و آمار
▫️ روشهای دادهکاوی
🔸 مفاهیم مقدماتی
در ادامه برخی مفاهیم مقدماتی دادهکاوی و علم داده مورد بررسی قرار میگیرند.
● نویز
● داده
● قالب داده
● دادههای خارجی
● دادههای خارجی
● Overlay
● داده کاوی
● موتور دادهکاوی
● پایگاه دانش
● دادههای ناموجود
● دادههای غیر قابل اجرا
● پاکسازی
● یکپارچهسازی دادهها
● تبدیل
● بصریسازی
● استقرار
● سیستم مدیریت پایگاه داده
● سیستم مدیریت پایگاه داده رابطهای
● رابط کاربری
🔸 انواع ویژگی
یک مجموعه داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشود. یک ویژگی، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
● پیوسته
● گسسته
● دادههای دستهای
● بستهبندی
● ابعاد
🔸 جبر خطی و آمار
روشهای آماری و مباحث جبر خطی کاربردهای بسیاری در علم داده و دادهکاوی دارند. از جمله مفاهیم آماری پر کاربرد در دادهکاوی میتوان به معیارهای تمرکز و شاخصهای پراکندگی اشاره کرد.
● میانگین
● میانه
● مُد
● نرمالسازی
● کمترین مربعات
● واریانس
● MARS
● بیشینه درستنمایی
🔸 روشهای دادهکاوی
روشهای دادهکاوی در واقع روالها و الگوریتمهایی هستند که برای تحلیل دادهها در پایگاه داده مورد استفاده قرار میگیرند. این روشها در سه دسته قرار میگیرند.
● تحلیلهای اکتشافی
● استنتاج
● استقرا
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ انواع ویژگی ها (خصیصه ها) و مفهوم بردار ویژگی در داده کاوی
چنانکه پیشتر تشریح شد، مجموعههای داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشوند. یک شی داده نمایانگر یک موجودیت است.
🔹 فهرست مطالب این نوشته
▫️ ویژگی چیست؟
▫️ویژگیهای گسسته و پیوسته
🔸 ویژگی چیست؟
یک ویژگی (خصیصه)، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
🔸 ویژگیهای گسسته و پیوسته
همانطور که پیش از این بیان شد، ویژگیها در دستههای اسمی، دودویی، ترتیبی و عددی قرار دارند. راههای زیادی برای سازماندهی انواع خصیصهها وجود دارد. این انواع دو به دو ناسازگار نیستند. الگوریتمهای دستهبندی از زمینهای از یادگیری ماشین توسعه یافتهاند که اغلب درباره ویژگیهای گسسته یا پیوسته سخن میگویند.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 انواع ویژگیها (خصیصهها) و مفهوم بردار ویژگی در دادهکاوی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ انواع ویژگی ها (خصیصه ها) و مفهوم بردار ویژگی در داده کاوی
چنانکه پیشتر تشریح شد، مجموعههای داده از نمونهها و ویژگیها (خصیصهها) تشکیل میشوند. یک شی داده نمایانگر یک موجودیت است.
🔹 فهرست مطالب این نوشته
▫️ ویژگی چیست؟
▫️ویژگیهای گسسته و پیوسته
🔸 ویژگی چیست؟
یک ویژگی (خصیصه)، فیلد دادهای است که مشخصههای یک شی داده را ارائه میکند.
🔸 ویژگیهای گسسته و پیوسته
همانطور که پیش از این بیان شد، ویژگیها در دستههای اسمی، دودویی، ترتیبی و عددی قرار دارند. راههای زیادی برای سازماندهی انواع خصیصهها وجود دارد. این انواع دو به دو ناسازگار نیستند. الگوریتمهای دستهبندی از زمینهای از یادگیری ماشین توسعه یافتهاند که اغلب درباره ویژگیهای گسسته یا پیوسته سخن میگویند.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 انواع ویژگیها (خصیصهها) و مفهوم بردار ویژگی در دادهکاوی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ پیشپردازش دادهها در دادهکاوی
شروع هر نوع کار و عملیاتی در مرحله اول، دارای یک سری مقدمات و پیشنیازها است. «دادهکاوی» (Data Mining) نیز از این قانون مستثنی نبوده و نیازمند آمادهسازی و پردازشهای مقدماتی است. در علم دادهکاوی، تمامی دادههایی که برای هدف مورد نظر استفاده خواهند شد، باید پیش از شروع پردازش با استفاده از روشهایی، آماده و تنظیم و یا به اصطلاح «پیشپردازش» (Preprocess) شوند. مرحله آمادهسازی دادهها قبل از پردازش را، پیشپردازش (Preprocessing) میگویند.
🔹 فهرست مطالب این نوشته
▫️پیشپردازش دادهها: داده های ناموجود
▫️پیشپردازش دادهها: تحلیل دادههای پرت
▫️ نرمالسازی دادهها
🔸 پیشپردازش دادهها: دادههای ناموجود
در برخی موارد، ممکن است بعضی از ویژگیهای مربوط به یک یا چند نمونه، فاقد مقادیر معتبر باشند. این امر میتواند دلایل مختلفی داشته باشد، از جمله نویزی (Noise) بودن دادههای ثبت شده، عدم ثبت و یا نامعتبر بودن مقدار آن. این دادهها را دادههای ناموجود (Missing Data | Null Data | دادههای گمشده)، مینامند.
🔸پیش پردازش دادهها: تحلیل دادههای پرت
در برخی موارد، ممکن است به دلایلی، مقادیری در مجموعه داده ظاهر شوند که تفاوت زیاد و غیر معمولی با سایر مقادیر موجود در مجموعه داشته باشند، این دادهها را دادههای پرت میگویند.
🔸 نرمالسازی دادهها
نرمالسازی دادهها از جمله مهمترین مراحل پیشپردازش در علم دادهکاوی است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 پیش پردازش دادهها در دادهکاوی — به زبان ساده — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ پیشپردازش دادهها در دادهکاوی
شروع هر نوع کار و عملیاتی در مرحله اول، دارای یک سری مقدمات و پیشنیازها است. «دادهکاوی» (Data Mining) نیز از این قانون مستثنی نبوده و نیازمند آمادهسازی و پردازشهای مقدماتی است. در علم دادهکاوی، تمامی دادههایی که برای هدف مورد نظر استفاده خواهند شد، باید پیش از شروع پردازش با استفاده از روشهایی، آماده و تنظیم و یا به اصطلاح «پیشپردازش» (Preprocess) شوند. مرحله آمادهسازی دادهها قبل از پردازش را، پیشپردازش (Preprocessing) میگویند.
🔹 فهرست مطالب این نوشته
▫️پیشپردازش دادهها: داده های ناموجود
▫️پیشپردازش دادهها: تحلیل دادههای پرت
▫️ نرمالسازی دادهها
🔸 پیشپردازش دادهها: دادههای ناموجود
در برخی موارد، ممکن است بعضی از ویژگیهای مربوط به یک یا چند نمونه، فاقد مقادیر معتبر باشند. این امر میتواند دلایل مختلفی داشته باشد، از جمله نویزی (Noise) بودن دادههای ثبت شده، عدم ثبت و یا نامعتبر بودن مقدار آن. این دادهها را دادههای ناموجود (Missing Data | Null Data | دادههای گمشده)، مینامند.
🔸پیش پردازش دادهها: تحلیل دادههای پرت
در برخی موارد، ممکن است به دلایلی، مقادیری در مجموعه داده ظاهر شوند که تفاوت زیاد و غیر معمولی با سایر مقادیر موجود در مجموعه داشته باشند، این دادهها را دادههای پرت میگویند.
🔸 نرمالسازی دادهها
نرمالسازی دادهها از جمله مهمترین مراحل پیشپردازش در علم دادهکاوی است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 پیش پردازش دادهها در دادهکاوی — به زبان ساده — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ روش انتخاب الگوریتم داده کاوی
الگوریتم، روشی که برای جستجوی الگو در دادهها مورد استفاده قرار میگیرد را تعیین میکند و در واقع مانند یک روال ریاضی برای حل یک مساله خاص است.
🔸 روش انتخاب الگوریتم دادهکاوی
هیچ راهنمای مشخصی برای آنکه پژوهشگران یا تحلیلگران چگونه الگوریتم انتخاب کنند وجود ندارد. در مقالهای که در همین رابطه نوشته شده، انتخاب الگوریتم مناسب را یکی از چالشهای موجود برای اغلب پژوهشگران حوزه دادهکاوی بیان میکنند. انتخاب یک الگوریتم مشخص امری بسیار پیچیده است، لذا برخی از پژوهشگران برای ارتقای نتایج دادهکاوی از چندین الگوریتم استفاده کرده و پردازشها را با الگوریتمهای مختلف تکرار میکنند.
🔸 هدف مساله
هدف اصلی مسالهای که قرار است حل شود برای انتخاب الگوریتم دادهکاوی حائز اهمیت است. این مولفه شامل در نظر گرفتن دلایل چرایی کاوش دادهها و ماهیت مسالهای که قصد حل کردن آن وجود دارد میشود.
🔸 ساختار داده
ساختار مجموعه داده مولفه دیگری است که در تعیین الگوریتم مورد استفاده نقش مهمی دارد.
🔸 نتایج مورد انتظار
هر فرآیند دادهکاوی باید یک خروجی به عنوان راه حل مساله داشته باشد که در واقع نتیجه مورد انتظار مساله است. هدف اصلی دادهکاوی شناسایی الگوها و گرایشها در دادهها است تا از این دانش در تصمیمگیریها استفاده شود. بسته بهنوع نتایج مورد انتظار، دادهکاوان الگوریتمی را انتخاب میکنند که قادر به تولید آن نتایج است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 روش انتخاب الگوریتم داده کاوی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ روش انتخاب الگوریتم داده کاوی
الگوریتم، روشی که برای جستجوی الگو در دادهها مورد استفاده قرار میگیرد را تعیین میکند و در واقع مانند یک روال ریاضی برای حل یک مساله خاص است.
🔸 روش انتخاب الگوریتم دادهکاوی
هیچ راهنمای مشخصی برای آنکه پژوهشگران یا تحلیلگران چگونه الگوریتم انتخاب کنند وجود ندارد. در مقالهای که در همین رابطه نوشته شده، انتخاب الگوریتم مناسب را یکی از چالشهای موجود برای اغلب پژوهشگران حوزه دادهکاوی بیان میکنند. انتخاب یک الگوریتم مشخص امری بسیار پیچیده است، لذا برخی از پژوهشگران برای ارتقای نتایج دادهکاوی از چندین الگوریتم استفاده کرده و پردازشها را با الگوریتمهای مختلف تکرار میکنند.
🔸 هدف مساله
هدف اصلی مسالهای که قرار است حل شود برای انتخاب الگوریتم دادهکاوی حائز اهمیت است. این مولفه شامل در نظر گرفتن دلایل چرایی کاوش دادهها و ماهیت مسالهای که قصد حل کردن آن وجود دارد میشود.
🔸 ساختار داده
ساختار مجموعه داده مولفه دیگری است که در تعیین الگوریتم مورد استفاده نقش مهمی دارد.
🔸 نتایج مورد انتظار
هر فرآیند دادهکاوی باید یک خروجی به عنوان راه حل مساله داشته باشد که در واقع نتیجه مورد انتظار مساله است. هدف اصلی دادهکاوی شناسایی الگوها و گرایشها در دادهها است تا از این دانش در تصمیمگیریها استفاده شود. بسته بهنوع نتایج مورد انتظار، دادهکاوان الگوریتمی را انتخاب میکنند که قادر به تولید آن نتایج است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 روش انتخاب الگوریتم داده کاوی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ دادهکاوی فازی چیست؟
نظریه «مجموعههای فازی» (Fuzzy Sets) نقش مهمی در «دادهکاوی» داشته و منجر به ظهور مبحث «داده کاوی فازی» شده است. دادهکاوی فازی یک افزونه از دادهکاوی محسوب که با مدلسازی مجموعههای فازی انجام میشود و مدیریت اطلاعات قابل تفسیر و ذهنی را در فرآیندهای ورودی و خروجی دادهکاوی امکانپذیر میسازد.
🔸 اشکال گوناگون فازی بودن در دادهکاوی فازی
اطلاعات ذهنی و عاطفی پس از ارائه مبحث فازی طرح شدند و امکان کاوش اطلاعات پیچیدهای که در محیط کلاسیک ارزشهای صفر و یک کار با آنها دشوار است را با در نظر گرفتن عواطف فراهم میکنند.
🔸 دادهها و دانش ورودی
ورودی گام یادگیری ماشین ترکیبی از دادهها و دانش پایهای است. دادهها معمولا به عنوان یک مجموعه آموزش که الگوریتم یادگیری از آن ارتباطات یا همبستگیها را استخراج و مدل را استنتاج میکند، فراهم میشوند. دانش از اطلاعات پسزمینهای که به الگوریتم یادگیری برای مدیریت مجموعه آموزش یا سرعت بخشیدن به آن کمک میکند، ساخته میشود. فازی بودن در دادهکاوی در دو سطح دادههای فازی و دانش فازی به وقوع میپیوندد.
🔸 مدل
مدل در پایان گام پنجم فرآیند دادهکاوی تولید میشود. بسیاری از الگوریتمهای یادگیری ماشین کلاسیک به الگوریتمهای فازی توسعه یافتهاند. پژوهشهای بسیاری در زمینه درختهای تصمیم فازی و دیگر الگوریتمهای مبتنی بر قوانین فازی انجام شده است. چالش اصلی در این موارد ارائه الگوریتمی است که بتواند علاوه بر مدیریت ورودی فازی، مشخصات اصلی الگوریتمهای کلاسیک را ارضا کند. برخی از الگوریتمهای کلاسیک برای مدیریت دادههای پیچیده مانند عقاید یا مجموعههای فازی شهودی توسعه یافتهاند.
🔸دانش خروجی
خروجی فرآیند دادهکاوی ممکن است به دو شکل باشد. از یکسو، خود مدل میتواند خروجی فرآیند دادهکاوی باشد که در این شرایط، هدف مشخصهسازی دادهها به وسیله مدل دادهها است. در صورت فازی بودن دانش خروجی نیاز به استفاده از مدلها و قوانین فازی است.
برای مثال، الگوریتم یادگیرنده میتواند مجموعهای از قواعد، دستهها یا «درخت تصمیم» (Decision Tree) را تولید کند. از سوی دیگر، خروجی نتیجه استفاده از مدل با دیگر دادهها (دادههای آزمون) است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 داده کاوی فازی چیست؟— کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ دادهکاوی فازی چیست؟
نظریه «مجموعههای فازی» (Fuzzy Sets) نقش مهمی در «دادهکاوی» داشته و منجر به ظهور مبحث «داده کاوی فازی» شده است. دادهکاوی فازی یک افزونه از دادهکاوی محسوب که با مدلسازی مجموعههای فازی انجام میشود و مدیریت اطلاعات قابل تفسیر و ذهنی را در فرآیندهای ورودی و خروجی دادهکاوی امکانپذیر میسازد.
🔸 اشکال گوناگون فازی بودن در دادهکاوی فازی
اطلاعات ذهنی و عاطفی پس از ارائه مبحث فازی طرح شدند و امکان کاوش اطلاعات پیچیدهای که در محیط کلاسیک ارزشهای صفر و یک کار با آنها دشوار است را با در نظر گرفتن عواطف فراهم میکنند.
🔸 دادهها و دانش ورودی
ورودی گام یادگیری ماشین ترکیبی از دادهها و دانش پایهای است. دادهها معمولا به عنوان یک مجموعه آموزش که الگوریتم یادگیری از آن ارتباطات یا همبستگیها را استخراج و مدل را استنتاج میکند، فراهم میشوند. دانش از اطلاعات پسزمینهای که به الگوریتم یادگیری برای مدیریت مجموعه آموزش یا سرعت بخشیدن به آن کمک میکند، ساخته میشود. فازی بودن در دادهکاوی در دو سطح دادههای فازی و دانش فازی به وقوع میپیوندد.
🔸 مدل
مدل در پایان گام پنجم فرآیند دادهکاوی تولید میشود. بسیاری از الگوریتمهای یادگیری ماشین کلاسیک به الگوریتمهای فازی توسعه یافتهاند. پژوهشهای بسیاری در زمینه درختهای تصمیم فازی و دیگر الگوریتمهای مبتنی بر قوانین فازی انجام شده است. چالش اصلی در این موارد ارائه الگوریتمی است که بتواند علاوه بر مدیریت ورودی فازی، مشخصات اصلی الگوریتمهای کلاسیک را ارضا کند. برخی از الگوریتمهای کلاسیک برای مدیریت دادههای پیچیده مانند عقاید یا مجموعههای فازی شهودی توسعه یافتهاند.
🔸دانش خروجی
خروجی فرآیند دادهکاوی ممکن است به دو شکل باشد. از یکسو، خود مدل میتواند خروجی فرآیند دادهکاوی باشد که در این شرایط، هدف مشخصهسازی دادهها به وسیله مدل دادهها است. در صورت فازی بودن دانش خروجی نیاز به استفاده از مدلها و قوانین فازی است.
برای مثال، الگوریتم یادگیرنده میتواند مجموعهای از قواعد، دستهها یا «درخت تصمیم» (Decision Tree) را تولید کند. از سوی دیگر، خروجی نتیجه استفاده از مدل با دیگر دادهها (دادههای آزمون) است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 داده کاوی فازی چیست؟— کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ مباحث ریاضی مورد نیاز برای علم داده
ریاضیات سنگ بنای همه رشتههای علوم معاصر به حساب میآید. تقریباً همه تکنیکهای علم داده مدرن که شامل «یادگیری ماشین» (Machine Learning) نیز میشود، زیرساخت عمیقی از ریاضیات دارند. البته بدیهی است که یک «دانشمند داده» (Data Scientist) به انواع مختلفی از علوم مانند توانایی برنامهنویسی، قدرت داوری در مورد مسائل تجاری و ذهنیت منحصربهفرد تحلیلی و کاوشگر در مورد دادهها هم برای رشد در این حوزه نیاز دارد.
اما میدانیم که این کسب اطلاع از زیرساختهای یک دانش به هزینههای زیادی نیاز دارد. از این رو کسب اطلاعات از سازوکارهای ریاضیاتی که در پسِ الگوریتمهای زیبا قرار دارند، باعث میشود که نسبت به همکاران خود یک پله بالاتر بایستید.
🔹 فهرست مطالب این نوشته
▫️ تابعها، متغیرها، معادلهها و گرافها
▫️ آمار
▫️ جبر خطی
▫️ حسابان
🔸 تابعها، متغیرها، معادلهها و گرافها
این حوزه از ریاضیات شامل مباحث مقدماتی از معادله یک خط تا قضیه دوجملهای و مشخصات آن میشود:
● توابع لگاریتم، توابع نمایی، اعداد گویا
● مفاهیم و قضیههای هندسه مقدماتی، مباحث مثلثات
● اعداد حقیقی، مختلط و مشخصات مقدماتی
● سریها، سری هندسی، تصاعد حسابی و نامعادلات
● رسم گراف و نمودار، مختصات دکارتی، قطبی، استوانهای، کروی و مقاطع مخروطی
🔸 آمار
اهمیت کسب دانشی قوی از مفاهیم ضروری آمار و احتمال در زمینه علم داده غیر قابل انکار است. بسیاری از متخصصان این حوزه، «یادگیری ماشین» کلاسیک (بدون شبکه عصبی) را اساساً چیزی به جز یادگیری آماری نمیشمارند. این حوزه بسیار گسترده است و برنامهریزی متمرکزی برای مطالعه همه مفاهیم ضروری مورد نیاز است. برای مطالعه لیست کامل مباحث آماری مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
🔸 جبر خطی
جبر خطی یکی از شاخههای ضروری از ریاضیات است که برای درک طرز کار الگوریتمهای یادگیری ماشین روی جریانهای دادهای به کار میآید. همه چیز از پیشنهاد دوست در فیسبوک تا توصیه موسیقیها در اسپاتیفای و تا تبدیل عکس سلفی به صورت پرترههای به سبک سالوادور دالی با استفاده از «یادگیری انتقالی عمیق» (deep transfer learning) شامل ماتریسها و جبر خطی است. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
🔸 حسابان
چه عاشقش باشید و چه از آن متنفر باشید، در هر حال حسابان در بخشهای مختلفی از علم داده و یادگیری ماشین نقش دارد. حتی در یک راهحل تحلیلی به ظاهر ساده از مسئله معمولی کمترین مربعات در رگرسیون خطی و یا حتی در هر پسانتشار شبکه عصبی برای یادگیری یک الگوی جدید، حسابان حضور دارد. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ مباحث ریاضی مورد نیاز برای علم داده
ریاضیات سنگ بنای همه رشتههای علوم معاصر به حساب میآید. تقریباً همه تکنیکهای علم داده مدرن که شامل «یادگیری ماشین» (Machine Learning) نیز میشود، زیرساخت عمیقی از ریاضیات دارند. البته بدیهی است که یک «دانشمند داده» (Data Scientist) به انواع مختلفی از علوم مانند توانایی برنامهنویسی، قدرت داوری در مورد مسائل تجاری و ذهنیت منحصربهفرد تحلیلی و کاوشگر در مورد دادهها هم برای رشد در این حوزه نیاز دارد.
اما میدانیم که این کسب اطلاع از زیرساختهای یک دانش به هزینههای زیادی نیاز دارد. از این رو کسب اطلاعات از سازوکارهای ریاضیاتی که در پسِ الگوریتمهای زیبا قرار دارند، باعث میشود که نسبت به همکاران خود یک پله بالاتر بایستید.
🔹 فهرست مطالب این نوشته
▫️ تابعها، متغیرها، معادلهها و گرافها
▫️ آمار
▫️ جبر خطی
▫️ حسابان
🔸 تابعها، متغیرها، معادلهها و گرافها
این حوزه از ریاضیات شامل مباحث مقدماتی از معادله یک خط تا قضیه دوجملهای و مشخصات آن میشود:
● توابع لگاریتم، توابع نمایی، اعداد گویا
● مفاهیم و قضیههای هندسه مقدماتی، مباحث مثلثات
● اعداد حقیقی، مختلط و مشخصات مقدماتی
● سریها، سری هندسی، تصاعد حسابی و نامعادلات
● رسم گراف و نمودار، مختصات دکارتی، قطبی، استوانهای، کروی و مقاطع مخروطی
🔸 آمار
اهمیت کسب دانشی قوی از مفاهیم ضروری آمار و احتمال در زمینه علم داده غیر قابل انکار است. بسیاری از متخصصان این حوزه، «یادگیری ماشین» کلاسیک (بدون شبکه عصبی) را اساساً چیزی به جز یادگیری آماری نمیشمارند. این حوزه بسیار گسترده است و برنامهریزی متمرکزی برای مطالعه همه مفاهیم ضروری مورد نیاز است. برای مطالعه لیست کامل مباحث آماری مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
🔸 جبر خطی
جبر خطی یکی از شاخههای ضروری از ریاضیات است که برای درک طرز کار الگوریتمهای یادگیری ماشین روی جریانهای دادهای به کار میآید. همه چیز از پیشنهاد دوست در فیسبوک تا توصیه موسیقیها در اسپاتیفای و تا تبدیل عکس سلفی به صورت پرترههای به سبک سالوادور دالی با استفاده از «یادگیری انتقالی عمیق» (deep transfer learning) شامل ماتریسها و جبر خطی است. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
🔸 حسابان
چه عاشقش باشید و چه از آن متنفر باشید، در هر حال حسابان در بخشهای مختلفی از علم داده و یادگیری ماشین نقش دارد. حتی در یک راهحل تحلیلی به ظاهر ساده از مسئله معمولی کمترین مربعات در رگرسیون خطی و یا حتی در هر پسانتشار شبکه عصبی برای یادگیری یک الگوی جدید، حسابان حضور دارد. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ علم داده چیست؟
سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است.
🔹 فهرست مطالب این نوشته
▫️حجم بالای دادهها چگونه ذخیره میشوند؟
▫️ چرا دادهها مهم هستند؟
▫️ علم داده چیست؟
▫️ مزایای علم داده
🔸 حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند.
🔸 چرا دادهها مهم هستند؟
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است.
🔸 علم داده چیست؟
«علم داده» (data science)، یک زمینه میان رشتهای است که از روشها، فرآیندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده میکند. چیزی مشابه دادهکاوی! علم داده مفهومی برای یکپارچهسازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیدهها با استفاده از دادهها انجام میشود.
🔸 مزایای علم داده
مزیت اصلی علم داده، توانمندسازی و تسهیل تصمیمگیری است. سازمانهایی که بر علم داده سرمایهگذاری میکنند، میتوانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیمسازی در کسبوکار خود استفاده کنند. تصمیمهای دادهمحور میتواند منجر به افزایش سود و بهبود بهرهوری عملیاتی، کارایی کسبوکار و جریانهای کاری بشود.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 علم داده چیست؟ — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ علم داده چیست؟
سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است.
🔹 فهرست مطالب این نوشته
▫️حجم بالای دادهها چگونه ذخیره میشوند؟
▫️ چرا دادهها مهم هستند؟
▫️ علم داده چیست؟
▫️ مزایای علم داده
🔸 حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند.
🔸 چرا دادهها مهم هستند؟
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است.
🔸 علم داده چیست؟
«علم داده» (data science)، یک زمینه میان رشتهای است که از روشها، فرآیندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده میکند. چیزی مشابه دادهکاوی! علم داده مفهومی برای یکپارچهسازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیدهها با استفاده از دادهها انجام میشود.
🔸 مزایای علم داده
مزیت اصلی علم داده، توانمندسازی و تسهیل تصمیمگیری است. سازمانهایی که بر علم داده سرمایهگذاری میکنند، میتوانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیمسازی در کسبوکار خود استفاده کنند. تصمیمهای دادهمحور میتواند منجر به افزایش سود و بهبود بهرهوری عملیاتی، کارایی کسبوکار و جریانهای کاری بشود.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 علم داده چیست؟ — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ یادگیری علم داده (Data Science) با پایتون
همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار میساخت آغاز شد. «تحلیل داده» (Data Analytics) و «دادهکاوی» (Data Mining) خیلی زود به گرایشهای روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسبوکارها نیز به دلیل کاربردها و مزایای متعدد این حوزهها به آنها روی آوردند.
🔹 فهرست مطالب این نوشته
▫️ مبانی پایتون برای تحلیل داده
▫️ کتابخانهها و ساختارهای داده در پایتون
▫️ پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
▫️ ساخت یک مدل پیشبین در پایتون
🔸 مبانی پایتون برای تحلیل داده
در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شدهاند.
● چرا بسیاری از افراد برای تحلیل داده پایتون میآموزند؟
● پایتون نسخه ۲.۷ در مقایسه با پایتون ۳.۴
●چرا پایتون ۲.۷؟
● چرا پایتون ۳.۴؟
● چگونه میتوان پایتون را نصب کرد؟
●انتخاب یک محیط توسعه
● اجرای چند برنامه ساده در پایتون
🔸 کتابخانهها و ساختارهای داده در پایتون
پیش از آن که به طور جدیتر به حل مساله پرداخته شود، یک گام عقبتر رفته و به مبانی پایتون پرداخته میشود. چنانکه مشهود است ساختارهای داده، حلقهها و ساختارهای شرطی مبانی زبانهای برنامهنویسی را شکل میدهند.
● ساختارهای داده در پایتون
● لیستها (Lists)
● رشتهها (Strings)
● تاپلها (Tuples)
● دیکشنری (Dictionary)
🔸 پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
مخاطبانی که تا این لحظه مطلب را مطالعه کردهاند باید به این نکته توجه داشته باشند که پیشپردازش دادهها مهمترین گام در فرآیند تحلیل داده است که به آن به عبارتی (Data munging) نیز گفته میشود.
● پیشپردازش دادهها – خلاصهای از نیازها
● بررسی مقادیر ناموجود در مجموعه داده
● چگونه مقادیر ناموجود برای LoanAmount محاسبه میشوند؟
●چگونه با مقادیر فوقالعاده در توزیع LoanAmount و ApplicantIncome برخورد شود؟
🔸 ساخت یک مدل پیشبین در پایتون
پس از آنکه دادهها پیش پردازش و برای تحلیل مناسب شد، زمان آن رسیده که از کد پایتون برای ساخت یک مدل پیشبین روی مجموعه داده موجود استفاده شود.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 یادگیری علمداده (Data Science) با پایتون — از صفر تا صد — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ یادگیری علم داده (Data Science) با پایتون
همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار میساخت آغاز شد. «تحلیل داده» (Data Analytics) و «دادهکاوی» (Data Mining) خیلی زود به گرایشهای روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسبوکارها نیز به دلیل کاربردها و مزایای متعدد این حوزهها به آنها روی آوردند.
🔹 فهرست مطالب این نوشته
▫️ مبانی پایتون برای تحلیل داده
▫️ کتابخانهها و ساختارهای داده در پایتون
▫️ پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
▫️ ساخت یک مدل پیشبین در پایتون
🔸 مبانی پایتون برای تحلیل داده
در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شدهاند.
● چرا بسیاری از افراد برای تحلیل داده پایتون میآموزند؟
● پایتون نسخه ۲.۷ در مقایسه با پایتون ۳.۴
●چرا پایتون ۲.۷؟
● چرا پایتون ۳.۴؟
● چگونه میتوان پایتون را نصب کرد؟
●انتخاب یک محیط توسعه
● اجرای چند برنامه ساده در پایتون
🔸 کتابخانهها و ساختارهای داده در پایتون
پیش از آن که به طور جدیتر به حل مساله پرداخته شود، یک گام عقبتر رفته و به مبانی پایتون پرداخته میشود. چنانکه مشهود است ساختارهای داده، حلقهها و ساختارهای شرطی مبانی زبانهای برنامهنویسی را شکل میدهند.
● ساختارهای داده در پایتون
● لیستها (Lists)
● رشتهها (Strings)
● تاپلها (Tuples)
● دیکشنری (Dictionary)
🔸 پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
مخاطبانی که تا این لحظه مطلب را مطالعه کردهاند باید به این نکته توجه داشته باشند که پیشپردازش دادهها مهمترین گام در فرآیند تحلیل داده است که به آن به عبارتی (Data munging) نیز گفته میشود.
● پیشپردازش دادهها – خلاصهای از نیازها
● بررسی مقادیر ناموجود در مجموعه داده
● چگونه مقادیر ناموجود برای LoanAmount محاسبه میشوند؟
●چگونه با مقادیر فوقالعاده در توزیع LoanAmount و ApplicantIncome برخورد شود؟
🔸 ساخت یک مدل پیشبین در پایتون
پس از آنکه دادهها پیش پردازش و برای تحلیل مناسب شد، زمان آن رسیده که از کد پایتون برای ساخت یک مدل پیشبین روی مجموعه داده موجود استفاده شود.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 یادگیری علمداده (Data Science) با پایتون — از صفر تا صد — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ چگونه یک دانشمند داده شوید؟
علم داده، تحلیل داده و دادهکاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینهها به میزانی است که در دانشگاههای گوناگون سراسر جهان دورههای اختصاصی برای آنها تدوین شده. این در حالیست که تعداد پژوهشهای آکادمیک پیرامون این حوزهها نیز همواره رو به رشد است.
🔹 فهرست مطالب این نوشته
▫️ نقشه راه مبدل شدن به دانشمند داده
▫️ آمار و احتمال و جبر خطی
▫️ زبانهای برنامهنویسی
▫️ یادگیری ماشین
▫️ داده کاوی
🔸 نقشه راه مبدل شدن به دانشمند داده
یادگیری علم داده در گام اول نیازمند یک انتخاب است؛ انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصتهای شغلی، درآمد و طول دوره یادگیری آن انجام شود. از اینرو توصیه میشود که علاقمندان به دادهکاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمانهای مردمنهاد مربوط به دادهکاوان و دانشمندان داده حضور پیدا کنند.
🔸 آمار و احتمال و جبر خطی
آمار و احتمال و جبر خطی از جمله مباحثی هستند که در علم داده کاربرد قابل توجهی دارند. بهرهگیری از مفاهیم آماری به گونهای با بحث تحلیل داده و دادهکاوی عجین شده که برخی از آماردانهای کلاسیک علم داده را شکل مدرن آمار و حتی معادل آن میدانند که به زعم آنها نام جدیدی به خود گرفته است.
🔸 زبانهای برنامهنویسی
مفاهیم و الگوریتمهای یادگیری ماشین کاربرد بسیار گسترده و مهمی در علم داده و دادهکاوی دارند. بنابراین برای تبدیل شدن به یک دانشمند داده یا دادهکاو زبده نیاز به یادگیری مفاهیم و روشهای این حوزه است.
🔸 دادهکاوی
دادهکاوی یک فرآیند هفت مرحلهای شامل پاکسازی، یکپارچهسازی، انتخاب داده (کاهش ابعاد)، نگاشت داده، دادهکاوی، ارزیابی و ارائه دانش است که هر یک از این مراحل نیاز به یادگیری مباحث خاصی دارند. همچنین پیش از آغاز فرآیند اصلی دادهکاوی فرد نیازمند فراگیری دانش دامنه (دانش در رابطه با زمینهای که قصد حل مساله در آن با استفاده از دادهکاوی وجود دارد) است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ چگونه یک دانشمند داده شوید؟
علم داده، تحلیل داده و دادهکاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینهها به میزانی است که در دانشگاههای گوناگون سراسر جهان دورههای اختصاصی برای آنها تدوین شده. این در حالیست که تعداد پژوهشهای آکادمیک پیرامون این حوزهها نیز همواره رو به رشد است.
🔹 فهرست مطالب این نوشته
▫️ نقشه راه مبدل شدن به دانشمند داده
▫️ آمار و احتمال و جبر خطی
▫️ زبانهای برنامهنویسی
▫️ یادگیری ماشین
▫️ داده کاوی
🔸 نقشه راه مبدل شدن به دانشمند داده
یادگیری علم داده در گام اول نیازمند یک انتخاب است؛ انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصتهای شغلی، درآمد و طول دوره یادگیری آن انجام شود. از اینرو توصیه میشود که علاقمندان به دادهکاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمانهای مردمنهاد مربوط به دادهکاوان و دانشمندان داده حضور پیدا کنند.
🔸 آمار و احتمال و جبر خطی
آمار و احتمال و جبر خطی از جمله مباحثی هستند که در علم داده کاربرد قابل توجهی دارند. بهرهگیری از مفاهیم آماری به گونهای با بحث تحلیل داده و دادهکاوی عجین شده که برخی از آماردانهای کلاسیک علم داده را شکل مدرن آمار و حتی معادل آن میدانند که به زعم آنها نام جدیدی به خود گرفته است.
🔸 زبانهای برنامهنویسی
مفاهیم و الگوریتمهای یادگیری ماشین کاربرد بسیار گسترده و مهمی در علم داده و دادهکاوی دارند. بنابراین برای تبدیل شدن به یک دانشمند داده یا دادهکاو زبده نیاز به یادگیری مفاهیم و روشهای این حوزه است.
🔸 دادهکاوی
دادهکاوی یک فرآیند هفت مرحلهای شامل پاکسازی، یکپارچهسازی، انتخاب داده (کاهش ابعاد)، نگاشت داده، دادهکاوی، ارزیابی و ارائه دانش است که هر یک از این مراحل نیاز به یادگیری مباحث خاصی دارند. همچنین پیش از آغاز فرآیند اصلی دادهکاوی فرد نیازمند فراگیری دانش دامنه (دانش در رابطه با زمینهای که قصد حل مساله در آن با استفاده از دادهکاوی وجود دارد) است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آزمون KMO و بارتلت در تحلیل عاملی | معیارهای کفایت حجم نمونه
در بررسی و تحقیقاتی که برمبنای تحلیل عاملی اکتشافی (EFA)، تعیین حجم نمونه و وجود همبستگی مناسب بین متغیرها از اهمیت ویژهای برخودار است. دو آزمون KMO و بارتلت در تحلیل عاملی به محققین این امکان را میدهند که قبل از اجرای تحلیل عاملی اکتشافی از بسندگی یا کفایت حجم نمونه و وجود کرویت در متغیرها مطمئن شده، سپس تحلیل عاملی را به کار برند. نرمافزارهای مختلفی نیز برای مشخص کردن شاخصها و اجرای آزمونهای مربوط به تحلیل عاملی وجود دارد که در این بین میتوان به نرمافزار SPSS نیز اشاره کرد. در نوشتارهای دیگر مجله فرادرس که در ادامه معرفی شدهاند، به بررسی مثالهایی برای بدست آوردن و اجرای آزمون KMO و بارتلت در تحلیل عاملی پرداختهایم ولی نوشتار جاری، به مفهوم و نحوه محاسبه این معیارها در آزمون KMO و بارتلت در تحلیل عاملی میپردازد.
══ فهرست مطالب ══
○ آزمون KMO و بارتلت در تحلیل عاملی
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون KMO و بارتلت در تحلیل عاملی
میدانید که رویکرد «تحلیل عاملی اکتشافی» (Exploratory Factor Analysis) در تحلیل عاملی، زمانی به کار میرود که از مدل و ارتباط بین متغیرها هیچ اطلاعی نداریم و قرار است با تکیه بر دادهها دست به تولید یا ایجاد یک مدل ارتباطی بزنیم. در این حالت، از تحلیل عاملی اکتشافی کمک گرفته و با توجه به ساختار ماتریس همبستگی یا کوواریانس، مدلی را پیشنهاد میدهیم. به همین علت به چنین وضعیتی تحلیل اکتشافی میگویند. سادهترین توضیح ممکن در مورد نحوه کار در این تکنیک آن است که سعی به ایجاد گروهی از متغیرها داریم که بسیار به هم مرتبط هستند و هر دسته یا گروه با بقیه متغیرها، وابستگی کمی دارد.
اما اگر در نمونهگیری و تعیین حداقل حجم مورد نیاز برای استفاده از EFA دچار مشکل باشیم، چگونه عمل خواهیم کرد. این امر به این معنی است که استفاده از قضیه حد مرکزی برای توجیه نرمال بودن توزیع دادهها و همچنین محاسبه و تفکیک ماتریس کوواریانس بدون دانستن ساختار ماتریس واریانس-کوواریانس در بین گروهها ممکن است با شکست مواجه شود. هر دو روش یعنی آزمون KMO و بارتلت در تحلیل عاملی راهکارهایی برای تشخیص چنین وضعیتی را ارائه میکنند. به همین علت، قبل از تحلیل EFA بهتر است به وسیله این معیارها، نسبت به شرایط اولیه EFA کسب اطلاع کرده، سپس تحلیل عاملی اکتشافی را به کار گیریم.
در ادامه نحوه محاسبه هر دو آمارهها و آزمون KMO و بارتلت در تحلیل عاملی و محدودههای قابل قبول برای آنها را بازگو خواهیم کرد.
🔸 معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
سرعت و سادگی در انجام محاسبات آماری از ویژگیهای مهم نرمافزار SAS محسوب میشود. از طرفی قدمت و پشتیبانی مناسب آن، کاربران زیادی را در حوزه محاسبات آماری به خود جلب کرده است. نرم افزار SAS مخفف Statistical Analysis System بوده از کاملترین نرم افزارهای شناخته شده آماری است. در اکثر موارد برای بیشتر پایاننامههای کارشناسی ارشد و دکتری در رشتههای علوم انسانی، علوم پایه، مهندسی و پزشکی از این نرمافزار برای اجرای آزمون و تحلیلهای آماری استفاده میکنند. در این آموزش سعی شده به زبان ساده و کاربردی به مباحث مقدماتی و پیشرفته این نرمافزار برای تحلیلهای آماری همچنین آزمون KMO و بارتلت در تحلیل عاملی اشاره شود. این آموزش در پانزده درس ارائه شده که سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه قابل مشاهده است.
– درس یکم: مقدمه ای بر SAS
– درس دوم: مدیریت داده ها
– درس سوم: مدیریت داده ها
– درس چهارم: محاسبه آمار توصیفی
– درس پنجم: آزمون های میانگین
– درس ششم: جداول توافقی
– درس هفتم: آزمون های همبستگی
– درس هشتم: رگرسیون خطی
– درس نهم: رگرسیون غیرخطی و لجستیک
– درس دهم: آزمون های ناپارامتریک
– درس یازدهم: طرح آزمایش ها
– درس دوازدهم: تحلیل مولفه های اصلی و آزمون KMO و بارتلت در تحلیل عاملی
– درس سیزدهم: رده بندی و ممیزی
– درس چهاردهم: کنترل کیفیت آماری
– درس پانزدهم: آشنایی با محیط IML
مطالعه ادامه مطلب 👇👇
🔗 آزمون KMO و بارتلت در تحلیل عاملی | معیارهای کفایت حجم نمونه — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در بررسی و تحقیقاتی که برمبنای تحلیل عاملی اکتشافی (EFA)، تعیین حجم نمونه و وجود همبستگی مناسب بین متغیرها از اهمیت ویژهای برخودار است. دو آزمون KMO و بارتلت در تحلیل عاملی به محققین این امکان را میدهند که قبل از اجرای تحلیل عاملی اکتشافی از بسندگی یا کفایت حجم نمونه و وجود کرویت در متغیرها مطمئن شده، سپس تحلیل عاملی را به کار برند. نرمافزارهای مختلفی نیز برای مشخص کردن شاخصها و اجرای آزمونهای مربوط به تحلیل عاملی وجود دارد که در این بین میتوان به نرمافزار SPSS نیز اشاره کرد. در نوشتارهای دیگر مجله فرادرس که در ادامه معرفی شدهاند، به بررسی مثالهایی برای بدست آوردن و اجرای آزمون KMO و بارتلت در تحلیل عاملی پرداختهایم ولی نوشتار جاری، به مفهوم و نحوه محاسبه این معیارها در آزمون KMO و بارتلت در تحلیل عاملی میپردازد.
══ فهرست مطالب ══
○ آزمون KMO و بارتلت در تحلیل عاملی
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون KMO و بارتلت در تحلیل عاملی
میدانید که رویکرد «تحلیل عاملی اکتشافی» (Exploratory Factor Analysis) در تحلیل عاملی، زمانی به کار میرود که از مدل و ارتباط بین متغیرها هیچ اطلاعی نداریم و قرار است با تکیه بر دادهها دست به تولید یا ایجاد یک مدل ارتباطی بزنیم. در این حالت، از تحلیل عاملی اکتشافی کمک گرفته و با توجه به ساختار ماتریس همبستگی یا کوواریانس، مدلی را پیشنهاد میدهیم. به همین علت به چنین وضعیتی تحلیل اکتشافی میگویند. سادهترین توضیح ممکن در مورد نحوه کار در این تکنیک آن است که سعی به ایجاد گروهی از متغیرها داریم که بسیار به هم مرتبط هستند و هر دسته یا گروه با بقیه متغیرها، وابستگی کمی دارد.
اما اگر در نمونهگیری و تعیین حداقل حجم مورد نیاز برای استفاده از EFA دچار مشکل باشیم، چگونه عمل خواهیم کرد. این امر به این معنی است که استفاده از قضیه حد مرکزی برای توجیه نرمال بودن توزیع دادهها و همچنین محاسبه و تفکیک ماتریس کوواریانس بدون دانستن ساختار ماتریس واریانس-کوواریانس در بین گروهها ممکن است با شکست مواجه شود. هر دو روش یعنی آزمون KMO و بارتلت در تحلیل عاملی راهکارهایی برای تشخیص چنین وضعیتی را ارائه میکنند. به همین علت، قبل از تحلیل EFA بهتر است به وسیله این معیارها، نسبت به شرایط اولیه EFA کسب اطلاع کرده، سپس تحلیل عاملی اکتشافی را به کار گیریم.
در ادامه نحوه محاسبه هر دو آمارهها و آزمون KMO و بارتلت در تحلیل عاملی و محدودههای قابل قبول برای آنها را بازگو خواهیم کرد.
🔸 معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
سرعت و سادگی در انجام محاسبات آماری از ویژگیهای مهم نرمافزار SAS محسوب میشود. از طرفی قدمت و پشتیبانی مناسب آن، کاربران زیادی را در حوزه محاسبات آماری به خود جلب کرده است. نرم افزار SAS مخفف Statistical Analysis System بوده از کاملترین نرم افزارهای شناخته شده آماری است. در اکثر موارد برای بیشتر پایاننامههای کارشناسی ارشد و دکتری در رشتههای علوم انسانی، علوم پایه، مهندسی و پزشکی از این نرمافزار برای اجرای آزمون و تحلیلهای آماری استفاده میکنند. در این آموزش سعی شده به زبان ساده و کاربردی به مباحث مقدماتی و پیشرفته این نرمافزار برای تحلیلهای آماری همچنین آزمون KMO و بارتلت در تحلیل عاملی اشاره شود. این آموزش در پانزده درس ارائه شده که سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه قابل مشاهده است.
– درس یکم: مقدمه ای بر SAS
– درس دوم: مدیریت داده ها
– درس سوم: مدیریت داده ها
– درس چهارم: محاسبه آمار توصیفی
– درس پنجم: آزمون های میانگین
– درس ششم: جداول توافقی
– درس هفتم: آزمون های همبستگی
– درس هشتم: رگرسیون خطی
– درس نهم: رگرسیون غیرخطی و لجستیک
– درس دهم: آزمون های ناپارامتریک
– درس یازدهم: طرح آزمایش ها
– درس دوازدهم: تحلیل مولفه های اصلی و آزمون KMO و بارتلت در تحلیل عاملی
– درس سیزدهم: رده بندی و ممیزی
– درس چهاردهم: کنترل کیفیت آماری
– درس پانزدهم: آشنایی با محیط IML
مطالعه ادامه مطلب 👇👇
🔗 آزمون KMO و بارتلت در تحلیل عاملی | معیارهای کفایت حجم نمونه — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آنالیز کلان داده و ساختار شبکه اجتماعی — آشنایی با اصطلاحات و مثال عملی
با انفجار اطلاعات و افزایش دادههایی که روزانه از منابع مختلف تولید میشود، با پدیده جدیدی به نام «کلان داده» (Big Data) یا «مِه داده» مواجه شدهایم. لازم است که ابزارهای مناسب برای ثبت و نگهداری و همچنین تحلیل چنین حجم عظیمی از دادهها را داشته باشیم. پیشرفت دستگاههای محاسباتی و بوجود آمدن «رایانش ابری» (Cloud Computing) دسترسی به این دادهها و پردازش آنها را در زمان کوتاه میسر ساخته است. بنابراین مسائلی مانند نمونهگیری که در آمار برای جلوگیری از بررسی همه جامعه آماری به وجود آمده، دیگر لزومی نداشته باشد. به همین جهت در این نوشتار از مجله فرادرس به بررسی روش آنالیز کلان داده و ساختار شبکه پرداختهایم. در این بین به تکنیک شبکهای کردن و ارتباط گرهها اشاره کرده و مثالهای عینی نتایج را مورد بررسی قرار دادهایم.
══ فهرست مطالب ══
○ آنالیز کلان داده و ساختار شبکه اجتماعی
○ آنالیز کلان داده و تحلیل شبکههای اجتماعی
○ معرفی فیلم آموزش مقدماتی Hadoop (هدوپ) برای تجزیه و تحلیل کلان داده
○ خلاصه و جمعبندی
🔸 آنالیز کلان داده و ساختار شبکه اجتماعی
داده های بزرگ یا «مِه داده» (Big data) زمینهای است که روشهای تجزیه و تحلیل، استخراج سیستماتیک اطلاعات و محاسبه روی حجم عظیمی از دادهها را میسر میکند. در اغلب موارد نمیتوان با نرم افزارهای کاربردی پردازش داده سنتی کلان داده (Big Data) را پردازش کرد. این گونه دادهها اگر به ساختار جدولی ثبت شوند، دارای ستونها (فیلدها) و سطرها (رکوردها) زیادی خواهند بود.
چالشهای آنالیز کلان داده شامل «دریافت دادهها» (capturing data)، «ذخیره داده ها» (data storage)، «تجزیه و تحلیل دادهها» (data analysis)، «جستجو» (search)، «به اشتراک گذاری» (sharing)، «انتقال» (transfer)، «مصورسازی» (Visualization)، «پرس و جو» (querying)، «به روزرسانی» (updating)، «حریم خصوصی اطلاعات و منبع داده» (information privacy) است.
کلان داده، در ابتدا به سه مفهوم در مورد اطلاعات متمرکز بود. حجم، تنوع و سرعت. به این معنی که روشهای تحلیل مه داده باید حجم زیاد اطلاعات که دارای تنوع بسیار هستند در زمان مناسب و سرعت زیاد، پردازش کند.
🔸 آنالیز کلان داده و تحلیل شبکههای اجتماعی
شبکه (Network) راهی برای نشان دادن اطلاعات است و با استفاده از روشهای ریاضی قابل درک و تجزیه و تحلیل است. شبکهها، گروهی از «گرهها» (Nodes) هستند که توسط «پیوند» (Link) یا «یال» (Edge) به هم متصل شدهاند و میتوانند نشانگر هدایت جهتدار از یک گره به گره دیگر یا بدون جهت (دو طرفه) در نظر گرفته شوند. از این جهت، یک شبکه به مانند یک «گراف» (Graph) قابل بررسی است. «صفحات وب» (Web Page) نمونههایی از شبکههای جهتدار هستند که صفحه وب نشان دهنده یک گره و «ابرپیوند» (Hyperlink) به عنوان یک یال است.
اغلب از شبکهها برای یافتن دقیق اجتماعات نیز استفاده میکنند. این گرهها راسهایی هستند که بصورت گروهی متصل هستند اما ارتباط کمی با گروههای دیگر دارند، این امر به مانند افرادی است که در شبکههای اجتماعی با علایق مشابه حضور داشته یا دانشمندانی را مشخص میکند که در یک زمینه علمی همکاری دارند. موضوع مورد توجه در این بین «متغیرهای» مربوط به این داده است که باید مورد مطالعه قرار گیرند، این کار ممکن است به بهبود دقت در شناسایی جوامع و «خوشهها» (Clusters) کمک کند. با گسترش «شبکههای اجتماعی» (Social Network)، موضوع کلان داده در بین کارشناسان داده» (Data Scientist) بیش از هر زمان دیگری اهمیت یافته است. در ادامه متن به مقالهای اشاره خواهیم کرد که در حوزه آنالیز کلان داده پرداخته و به کمک ساختار شبکه، اطلاعاتی را از مه داده استخراج میکند.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز کلان داده و ساختار شبکه اجتماعی — آشنایی با اصطلاحات و مثال عملی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
با انفجار اطلاعات و افزایش دادههایی که روزانه از منابع مختلف تولید میشود، با پدیده جدیدی به نام «کلان داده» (Big Data) یا «مِه داده» مواجه شدهایم. لازم است که ابزارهای مناسب برای ثبت و نگهداری و همچنین تحلیل چنین حجم عظیمی از دادهها را داشته باشیم. پیشرفت دستگاههای محاسباتی و بوجود آمدن «رایانش ابری» (Cloud Computing) دسترسی به این دادهها و پردازش آنها را در زمان کوتاه میسر ساخته است. بنابراین مسائلی مانند نمونهگیری که در آمار برای جلوگیری از بررسی همه جامعه آماری به وجود آمده، دیگر لزومی نداشته باشد. به همین جهت در این نوشتار از مجله فرادرس به بررسی روش آنالیز کلان داده و ساختار شبکه پرداختهایم. در این بین به تکنیک شبکهای کردن و ارتباط گرهها اشاره کرده و مثالهای عینی نتایج را مورد بررسی قرار دادهایم.
══ فهرست مطالب ══
○ آنالیز کلان داده و ساختار شبکه اجتماعی
○ آنالیز کلان داده و تحلیل شبکههای اجتماعی
○ معرفی فیلم آموزش مقدماتی Hadoop (هدوپ) برای تجزیه و تحلیل کلان داده
○ خلاصه و جمعبندی
🔸 آنالیز کلان داده و ساختار شبکه اجتماعی
داده های بزرگ یا «مِه داده» (Big data) زمینهای است که روشهای تجزیه و تحلیل، استخراج سیستماتیک اطلاعات و محاسبه روی حجم عظیمی از دادهها را میسر میکند. در اغلب موارد نمیتوان با نرم افزارهای کاربردی پردازش داده سنتی کلان داده (Big Data) را پردازش کرد. این گونه دادهها اگر به ساختار جدولی ثبت شوند، دارای ستونها (فیلدها) و سطرها (رکوردها) زیادی خواهند بود.
چالشهای آنالیز کلان داده شامل «دریافت دادهها» (capturing data)، «ذخیره داده ها» (data storage)، «تجزیه و تحلیل دادهها» (data analysis)، «جستجو» (search)، «به اشتراک گذاری» (sharing)، «انتقال» (transfer)، «مصورسازی» (Visualization)، «پرس و جو» (querying)، «به روزرسانی» (updating)، «حریم خصوصی اطلاعات و منبع داده» (information privacy) است.
کلان داده، در ابتدا به سه مفهوم در مورد اطلاعات متمرکز بود. حجم، تنوع و سرعت. به این معنی که روشهای تحلیل مه داده باید حجم زیاد اطلاعات که دارای تنوع بسیار هستند در زمان مناسب و سرعت زیاد، پردازش کند.
🔸 آنالیز کلان داده و تحلیل شبکههای اجتماعی
شبکه (Network) راهی برای نشان دادن اطلاعات است و با استفاده از روشهای ریاضی قابل درک و تجزیه و تحلیل است. شبکهها، گروهی از «گرهها» (Nodes) هستند که توسط «پیوند» (Link) یا «یال» (Edge) به هم متصل شدهاند و میتوانند نشانگر هدایت جهتدار از یک گره به گره دیگر یا بدون جهت (دو طرفه) در نظر گرفته شوند. از این جهت، یک شبکه به مانند یک «گراف» (Graph) قابل بررسی است. «صفحات وب» (Web Page) نمونههایی از شبکههای جهتدار هستند که صفحه وب نشان دهنده یک گره و «ابرپیوند» (Hyperlink) به عنوان یک یال است.
اغلب از شبکهها برای یافتن دقیق اجتماعات نیز استفاده میکنند. این گرهها راسهایی هستند که بصورت گروهی متصل هستند اما ارتباط کمی با گروههای دیگر دارند، این امر به مانند افرادی است که در شبکههای اجتماعی با علایق مشابه حضور داشته یا دانشمندانی را مشخص میکند که در یک زمینه علمی همکاری دارند. موضوع مورد توجه در این بین «متغیرهای» مربوط به این داده است که باید مورد مطالعه قرار گیرند، این کار ممکن است به بهبود دقت در شناسایی جوامع و «خوشهها» (Clusters) کمک کند. با گسترش «شبکههای اجتماعی» (Social Network)، موضوع کلان داده در بین کارشناسان داده» (Data Scientist) بیش از هر زمان دیگری اهمیت یافته است. در ادامه متن به مقالهای اشاره خواهیم کرد که در حوزه آنالیز کلان داده پرداخته و به کمک ساختار شبکه، اطلاعاتی را از مه داده استخراج میکند.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز کلان داده و ساختار شبکه اجتماعی — آشنایی با اصطلاحات و مثال عملی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ فیلم آموزشی «ایجاد ماتریس سطری پلکانی» در ۷ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ فیلم آموزشی «ایجاد ماتریس سطری پلکانی» در ۷ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.