FaraData | فرا داده: علم داده و داده‌کاوی – Telegram
FaraData | فرا داده: علم داده و داده‌کاوی
1.32K subscribers
50 photos
11 videos
246 links
فرا داده — کانال تخصصی علم داده و داده کاوی

🔸کلان داده
🔸 داده کاوی
🔸 پردازش داده
🔸 یادگیری عمیق
🔸 یادگیری ماشین
🔸 کلان داده و Big Data
🔸 و صدها ساعت آموزش جذاب

🚀 برای مشاهده تمام آموزش‌های ویدیویی، روی لینک زیر بزنید:👇
fdrs.ir/tc/ds
Download Telegram

❇️ روش انتخاب الگوریتم داده کاوی

الگوریتم، روشی که برای جستجوی الگو در داده‌ها مورد استفاده قرار می‌گیرد را تعیین می‌کند و در واقع مانند یک روال ریاضی برای حل یک مساله خاص است.


🔸 روش انتخاب الگوریتم داده‌کاوی

هیچ راهنمای مشخصی برای آنکه پژوهشگران یا تحلیلگران چگونه الگوریتم انتخاب کنند وجود ندارد. در مقاله‌ای که در همین رابطه نوشته شده، انتخاب الگوریتم مناسب را یکی از چالش‌های موجود برای اغلب پژوهشگران حوزه داده‌کاوی بیان می‌کنند. انتخاب یک الگوریتم مشخص امری بسیار پیچیده است، لذا برخی از پژوهشگران برای ارتقای نتایج داده‌کاوی از چندین الگوریتم استفاده کرده و پردازش‌ها را با الگوریتم‌های مختلف تکرار می‌کنند.


🔸 هدف مساله

هدف اصلی مساله‌ای که قرار است حل شود برای انتخاب الگوریتم داده‌کاوی حائز اهمیت است. این مولفه شامل در نظر گرفتن دلایل چرایی کاوش داده‌ها و ماهیت مساله‌ای که قصد حل کردن آن وجود دارد می‌شود.


🔸 ساختار داده

ساختار مجموعه داده مولفه دیگری است که در تعیین الگوریتم مورد استفاده نقش مهمی دارد.


🔸 نتایج مورد انتظار

هر فرآیند داده‌کاوی باید یک خروجی به عنوان راه حل مساله داشته باشد که در واقع نتیجه مورد انتظار مساله است. هدف اصلی داده‌کاوی شناسایی الگوها و گرایش‌ها در داده‌ها است تا از این دانش در تصمیم‌گیری‌ها استفاده شود. بسته به‌نوع نتایج مورد انتظار، داده‌کاوان الگوریتمی را انتخاب می‌کنند که قادر به تولید آن نتایج است.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 روش انتخاب الگوریتم داده کاوی — کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ داده‌کاوی فازی چیست؟

نظریه «مجموعه‌های فازی» (Fuzzy Sets) نقش مهمی در «داده‌کاوی» داشته و منجر به ظهور مبحث «داده کاوی فازی» شده است. داده‌کاوی فازی یک افزونه از داده‌کاوی محسوب که با مدل‌سازی مجموعه‌های فازی انجام می‌شود و مدیریت اطلاعات قابل تفسیر و ذهنی را در فرآیندهای ورودی و خروجی داده‌کاوی امکان‌پذیر می‌سازد.


🔸 اشکال گوناگون فازی بودن در داده‌کاوی فازی

اطلاعات ذهنی و عاطفی پس از ارائه مبحث فازی طرح شدند و امکان کاوش اطلاعات پیچیده‌ای که در محیط کلاسیک ارزش‌های صفر و یک کار با آن‌ها دشوار است را با در نظر گرفتن عواطف فراهم می‌کنند.


🔸 داده‌ها و دانش ورودی

ورودی گام یادگیری ماشین ترکیبی از داده‌ها و دانش پایه‌ای است. داده‌ها معمولا به عنوان یک مجموعه آموزش که الگوریتم یادگیری از آن ارتباطات یا همبستگی‌ها را استخراج و مدل را استنتاج می‌کند، فراهم می‌شوند. دانش از اطلاعات پس‌زمینه‌ای که به الگوریتم یادگیری برای مدیریت مجموعه آموزش یا سرعت بخشیدن به آن کمک می‌کند، ساخته می‌شود. فازی بودن در داده‌کاوی در دو سطح داده‌های فازی و دانش فازی به وقوع می‌پیوندد.


🔸 مدل

مدل در پایان گام پنجم فرآیند داده‌کاوی تولید می‌شود. بسیاری از الگوریتم‌های یادگیری ماشین کلاسیک به الگوریتم‌های فازی توسعه یافته‌اند. پژوهش‌های بسیاری در زمینه درخت‌های تصمیم فازی و دیگر الگوریتم‌های مبتنی بر قوانین فازی انجام شده است. چالش اصلی در این موارد ارائه الگوریتمی است که بتواند علاوه بر مدیریت ورودی فازی، مشخصات اصلی الگوریتم‌های کلاسیک را ارضا کند. برخی از الگوریتم‌های کلاسیک برای مدیریت داده‌های پیچیده مانند عقاید یا مجموعه‌های فازی شهودی توسعه یافته‌اند.


🔸دانش خروجی

خروجی فرآیند داده‌کاوی ممکن است به دو شکل باشد. از یک‌سو، خود مدل می‌تواند خروجی فرآیند داده‌کاوی باشد که در این شرایط، هدف مشخصه‌سازی داده‌ها به وسیله مدل داده‌ها است. در صورت فازی بودن دانش خروجی نیاز به استفاده از مدل‌ها و قوانین فازی است.

برای مثال، الگوریتم یادگیرنده می‌تواند مجموعه‌ای از قواعد، دسته‌ها یا «درخت تصمیم» (Decision Tree) را تولید کند. از سوی دیگر، خروجی نتیجه استفاده از مدل با دیگر داده‌ها (داده‌های آزمون) است.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 داده کاوی فازی چیست؟— کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ مباحث ریاضی مورد نیاز برای علم داده

ریاضیات سنگ بنای همه رشته‌های علوم معاصر به حساب می‌آید. تقریباً همه تکنیک‌های علم داده مدرن که شامل «یادگیری ماشین» (Machine Learning) نیز می‌شود، زیرساخت عمیقی از ریاضیات دارند. البته بدیهی است که یک «دانشمند داده» (Data Scientist) به انواع مختلفی از علوم مانند توانایی برنامه‌نویسی، قدرت داوری در مورد مسائل تجاری و ذهنیت منحصربه‌فرد تحلیلی و کاوشگر در مورد داده‌ها هم برای رشد در این حوزه نیاز دارد.

اما می‌دانیم که این کسب اطلاع از زیرساخت‌های یک دانش به هزینه‌های زیادی نیاز دارد. از این رو کسب اطلاعات از سازوکارهای ریاضیاتی که در پسِ الگوریتم‌های زیبا قرار دارند، باعث می‌شود که نسبت به همکاران خود یک پله بالاتر بایستید.


🔹 فهرست مطالب این نوشته

▫️ تابع‌ها، متغیرها، معادله‌ها و گراف‌ها

▫️ آمار

▫️ جبر خطی

▫️ حسابان


🔸 تابع‌ها، متغیرها، معادله‌ها و گراف‌ها

ا
ین حوزه از ریاضیات شامل مباحث مقدماتی از معادله یک خط تا قضیه دوجمله‌ای و مشخصات آن می‌شود:

● توابع لگاریتم، توابع نمایی، اعداد گویا

● مفاهیم و قضیه‌های هندسه مقدماتی، مباحث مثلثات

● اعداد حقیقی، مختلط و مشخصات مقدماتی

● سری‌ها، سری هندسی، تصاعد حسابی و نامعادلات

● رسم گراف و نمودار، مختصات دکارتی، قطبی، استوانه‌ای، کروی و مقاطع مخروطی


🔸 آمار

اهمیت کسب دانشی قوی از مفاهیم ضروری آمار و احتمال در زمینه علم داده غیر قابل انکار است. بسیاری از متخصصان این حوزه، «یادگیری ماشین» کلاسیک (بدون شبکه عصبی) را اساساً چیزی به جز یادگیری آماری نمی‌شمارند. این حوزه بسیار گسترده است و برنامه‌ریزی متمرکزی برای مطالعه همه مفاهیم ضروری مورد نیاز است. برای مطالعه لیست کامل مباحث آماری مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.


🔸 جبر خطی

جبر خطی یکی از شاخه‌های ضروری از ریاضیات است که برای درک طرز کار الگوریتم‌های یادگیری ماشین روی جریان‌های داده‌ای به کار می‌آید. همه چیز از پیشنهاد دوست در فیسبوک تا توصیه موسیقی‌ها در اسپاتیفای و تا تبدیل عکس سلفی به صورت پرتره‌های به سبک سالوادور دالی با استفاده از «یادگیری انتقالی عمیق» (deep transfer learning) شامل ماتریس‌ها و جبر خطی است. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.

🔸 حسابان

چه عاشقش باشید و چه از آن متنفر باشید، در هر حال حسابان در بخش‌های مختلفی از علم داده و یادگیری ماشین نقش دارد. حتی در یک راه‌حل تحلیلی به ظاهر ساده از مسئله معمولی کمترین مربعات در رگرسیون خطی و یا حتی در هر پس‌انتشار شبکه عصبی برای یادگیری یک الگوی جدید، حسابان حضور دارد. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی — کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ علم داده چیست؟

سال‌های مدیدی است که جهان مملو از داده شده، حجم این داده‌ها و سرعت تولید آن‌ها با ظهور وب و البته شبکه‌های اجتماعی رشد فزاینده‌ای داشته. در واقع، حجم داده‌های دیجیتال با سرعت زیادی در حال رشد است.


🔹 فهرست مطالب این نوشته

▫️حجم بالای داده‌ها چگونه ذخیره می‌شوند؟

▫️ چرا داده‌ها مهم هستند؟

▫️ علم داده چیست؟

▫️ مزایای علم داده


🔸 حجم بالای داده‌ها چگونه ذخیره می‌شوند؟

اولین کامپیوترها دارای حافظه‌های چند کیلوبایتی بوده‌اند، اما در حال حاضر گوشی‌های هوشمند توانایی ذخیره‌سازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپ‌تاپ‌ها می‌توانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند.


🔸 چرا داده‌ها مهم هستند؟

داده‌ها به میزان هوشمندی که می‌توان از آن‌ها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از داده‌ها، مستلزم انجام تحلیل‌های موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم داده‌ها است.


🔸 علم داده چیست؟

«
علم داده» (data science)، یک زمینه میان رشته‌ای است که از روش‌ها، فرآیندها، الگوریتم‌ها و سیستم‌های علمی برای استخراج دانش و بینش از داده‌ها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده می‌کند. چیزی مشابه داده‌کاوی! علم داده مفهومی برای یکپارچه‌سازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیده‌ها با استفاده از داده‌ها انجام می‌شود.


🔸 مزایای علم داده

مزیت اصلی علم داده، توانمندسازی و تسهیل تصمیم‌گیری است. سازمان‌هایی که بر علم داده سرمایه‌گذاری می‌کنند، می‌توانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیم‌سازی در کسب‌و‌کار خود استفاده کنند. تصمیم‌های داده‌محور می‌تواند منجر به افزایش سود و بهبود بهره‌وری عملیاتی، کارایی کسب‌و‌کار و جریان‌های کاری بشود.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 علم داده چیست؟ — کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ یادگیری علم داده (Data Science) با پایتون

همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار می‌ساخت آغاز شد. «تحلیل داده» (Data Analytics) و «داده‌کاوی» (Data Mining) خیلی زود به گرایش‌های روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسب‌و‌کارها نیز به دلیل کاربردها و مزایای متعدد این حوزه‌ها به آن‌ها روی آوردند.


🔹 فهرست مطالب این نوشته

▫️ مبانی پایتون برای تحلیل داده

▫️ کتابخانه‌ها و ساختارهای داده در پایتون

▫️ پیش‌پرداز داده‌ها (Data Munging) در پایتون با استفاده از Pandas

▫️ ساخت یک مدل پیش‌بین در پایتون


🔸 مبانی پایتون برای تحلیل داده

در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شده‌اند.

● چرا بسیاری از افراد برای تحلیل داده پایتون می‌آموزند؟

● پایتون نسخه ۲.۷ در مقایسه با پایتون ۳.۴

●چرا پایتون ۲.۷؟

● چرا پایتون ۳.۴؟

● چگونه می‌توان پایتون را نصب کرد؟

●انتخاب یک محیط توسعه

● اجرای چند برنامه ساده در پایتون


🔸 کتابخانه‌ها و ساختارهای داده در پایتون

پیش از آن که به طور جدی‌تر به حل مساله پرداخته شود، یک گام عقب‌تر رفته و به مبانی پایتون پرداخته می‌شود. چنانکه مشهود است ساختارهای داده، حلقه‌ها و ساختارهای شرطی مبانی زبان‌های برنامه‌نویسی را شکل می‌دهند.

● ساختارهای داده در پایتون

● لیست‌ها (Lists)

● رشته‌ها (Strings)

● تاپل‌ها (Tuples)

● دیکشنری (Dictionary)


🔸 پیش‌پرداز داده‌ها (Data Munging) در پایتون با استفاده از Pandas


مخاطبانی که تا این لحظه مطلب را مطالعه کرده‌اند باید به این نکته توجه داشته باشند که پیش‌پردازش داده‌ها مهم‌ترین گام در فرآیند تحلیل داده است که به آن به عبارتی (Data munging) نیز گفته می‌شود.

● پیش‌پردازش داده‌ها – خلاصه‌ای از نیازها

● بررسی مقادیر ناموجود در مجموعه داده

● چگونه مقادیر ناموجود برای LoanAmount محاسبه می‌شوند؟

●چگونه با مقادیر فوق‌العاده در توزیع LoanAmount و ApplicantIncome برخورد شود؟


🔸 ساخت یک مدل پیش‌بین در پایتون

پس از آنکه داده‌ها پیش پردازش و برای تحلیل مناسب شد، زمان آن رسیده که از کد پایتون برای ساخت یک مدل پیش‌بین روی مجموعه داده موجود استفاده شود.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 یادگیری علم‌داده (Data Science) با پایتون — از صفر تا صد — کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ چگونه یک دانشمند داده شوید؟

علم داده، تحلیل داده و داده‌کاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینه‌ها به میزانی است که در دانشگاه‌های گوناگون سراسر جهان دوره‌های اختصاصی برای آن‌ها تدوین شده. این در حالیست که تعداد پژوهش‌های آکادمیک پیرامون این حوزه‌ها نیز همواره رو به رشد است.


🔹 فهرست مطالب این نوشته

▫️ نقشه راه مبدل شدن به دانشمند داده

▫️ آمار و احتمال و جبر خطی

▫️ زبان‌های برنامه‌نویسی

▫️ یادگیری ماشین

▫️ داده کاوی


🔸 نقشه راه مبدل شدن به دانشمند داده

یادگیری علم داده در گام اول نیازمند یک انتخاب است؛ انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصت‌های شغلی، درآمد و طول دوره یادگیری آن انجام شود. از این‌رو توصیه می‌شود که علاقمندان به داده‌کاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمان‌های مردم‌نهاد مربوط به داده‌کاوان و دانشمندان داده حضور پیدا کنند.


🔸 آمار و احتمال و جبر خطی

آمار و احتمال و جبر خطی از جمله مباحثی هستند که در علم داده کاربرد قابل توجهی دارند. بهره‌گیری از مفاهیم آماری به گونه‌ای با بحث تحلیل داده و داده‌کاوی عجین شده که برخی از آماردان‌های کلاسیک علم داده را شکل مدرن آمار و حتی معادل آن می‌دانند که به زعم آن‌ها نام جدیدی به خود گرفته است.


🔸 زبان‌های برنامه‌نویسی

مفاهیم و الگوریتم‌های یادگیری ماشین کاربرد بسیار گسترده و مهمی در علم داده و داده‌کاوی دارند. بنابراین برای تبدیل شدن به یک دانشمند داده یا داده‌کاو زبده نیاز به یادگیری مفاهیم و روش‌های این حوزه است.


🔸 داده‌کاوی

داده‌کاوی یک فرآیند هفت مرحله‌ای شامل پاک‌سازی، یکپارچه‌سازی، انتخاب داده (کاهش ابعاد)، نگاشت داده، داده‌کاوی، ارزیابی و ارائه دانش است که هر یک از این مراحل نیاز به یادگیری مباحث خاصی دارند. همچنین پیش از آغاز فرآیند اصلی داده‌کاوی فرد نیازمند فراگیری دانش دامنه (دانش در رابطه با زمینه‌ای که قصد حل مساله در آن با استفاده از داده‌کاوی وجود دارد) است.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گام‌به‌گام به همراه معرفی منابع — کلیک کنید.




📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آزمون KMO و بارتلت در تحلیل عاملی | معیارهای کفایت حجم نمونه

‏در بررسی و تحقیقاتی که برمبنای تحلیل عاملی اکتشافی (EFA)، تعیین حجم نمونه و وجود همبستگی مناسب بین متغیرها از اهمیت ویژه‌ای برخودار است. دو آزمون KMO و بارتلت در تحلیل عاملی به محققین این امکان را می‌دهند که قبل از اجرای تحلیل عاملی اکتشافی از بسندگی یا کفایت حجم نمونه و وجود کرویت در متغیرها مطمئن شده، سپس تحلیل عاملی را به کار برند. نرم‌افزارهای مختلفی نیز برای مشخص کردن شاخص‌ها و اجرای آزمون‌های مربوط به تحلیل عاملی وجود دارد که در این بین می‌توان به نرم‌افزار SPSS نیز اشاره کرد. در نوشتارهای دیگر مجله فرادرس که در ادامه معرفی شده‌اند، به بررسی مثال‌هایی برای بدست آوردن و اجرای آزمون KMO و بارتلت در تحلیل عاملی پرداخته‌ایم ولی نوشتار جاری، به مفهوم و نحوه محاسبه این معیارها در آزمون KMO و بارتلت در تحلیل عاملی می‌پردازد.

══ فهرست مطالب ══

‏ ○ آزمون KMO و بارتلت در تحلیل عاملی
‏ ○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
‏ ○ خلاصه و جمع‌بندی


🔸 آزمون KMO و بارتلت در تحلیل عاملی

‏می‌دانید که رویکرد «تحلیل عاملی اکتشافی» (Exploratory Factor Analysis) در تحلیل عاملی، زمانی به کار می‌رود که از مدل و ارتباط بین متغیرها هیچ اطلاعی نداریم و قرار است با تکیه بر داده‌ها دست به تولید یا ایجاد یک مدل ارتباطی بزنیم. در این حالت، از تحلیل عاملی اکتشافی کمک گرفته و با توجه به ساختار ماتریس همبستگی یا کوواریانس، مدلی را پیشنهاد می‌دهیم. به همین علت به چنین وضعیتی تحلیل اکتشافی می‌گویند. ساده‌ترین توضیح ممکن در مورد نحوه کار در این تکنیک آن است که سعی به ایجاد گروهی از متغیرها داریم که بسیار به هم مرتبط هستند و هر دسته یا گروه با بقیه متغیرها، وابستگی کمی دارد.

‏اما اگر در نمونه‌گیری و تعیین حداقل حجم مورد نیاز برای استفاده از EFA دچار مشکل باشیم، چگونه عمل خواهیم کرد. این امر به این معنی است که استفاده از قضیه حد مرکزی برای توجیه نرمال بودن توزیع داده‌ها و همچنین محاسبه و تفکیک ماتریس کوواریانس بدون دانستن ساختار ماتریس واریانس-کوواریانس در بین گروه‌ها ممکن است با شکست مواجه شود. هر دو روش یعنی آزمون KMO و بارتلت در تحلیل عاملی راه‌کارهایی برای تشخیص چنین وضعیتی را ارائه می‌کنند. به همین علت، قبل از تحلیل EFA بهتر است به وسیله این معیارها، نسبت به شرایط اولیه EFA کسب اطلاع کرده، سپس تحلیل عاملی اکتشافی را به کار گیریم.

‏در ادامه نحوه محاسبه هر دو آماره‌ها و آزمون KMO و بارتلت در تحلیل عاملی و محدوده‌های قابل قبول برای آن‌ها را بازگو خواهیم کرد.


🔸 معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS

‏سرعت و سادگی در انجام محاسبات آماری از ویژگی‌های مهم نرم‌افزار SAS محسوب می‌شود. از طرفی قدمت و پشتیبانی مناسب آن، کاربران زیادی را در حوزه محاسبات آماری به خود جلب کرده است. نرم افزار SAS مخفف Statistical Analysis System بوده از کامل‌ترین نرم افزارهای شناخته شده آماری است. در اکثر موارد برای بیشتر پایان‌نامه‌های کارشناسی ارشد و دکتری در رشته‌های علوم انسانی، علوم پایه، مهندسی و پزشکی از این نرم‌افزار برای اجرای آزمون‌ و تحلیل‌های آماری استفاده می‌کنند. در این آموزش سعی شده به زبان ساده و کاربردی به مباحث مقدماتی و پیشرفته این نرم‌افزار برای تحلیل‌های آماری همچنین آزمون KMO و بارتلت در تحلیل عاملی اشاره شود. این آموزش در پانزده درس ارائه شده که سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه قابل مشاهده است.

‏– درس یکم: مقدمه ای بر SAS

‏– درس دوم: مدیریت داده ها

‏– درس سوم: مدیریت داده ها

‏– درس چهارم: محاسبه آمار توصیفی

‏– درس پنجم: آزمون های میانگین

‏– درس ششم: جداول توافقی

‏– درس هفتم: آزمون های همبستگی

‏– درس هشتم: رگرسیون خطی

‏– درس نهم: رگرسیون غیرخطی و لجستیک

‏– درس دهم: آزمون های ناپارامتریک

‏– درس یازدهم: طرح آزمایش ها

‏– درس دوازدهم: تحلیل مولفه های اصلی و آزمون KMO و بارتلت در تحلیل عاملی

‏– درس سیزدهم: رده بندی و ممیزی

‏– درس چهاردهم: کنترل کیفیت آماری

‏– درس پانزدهم: آشنایی با محیط IML




مطالعه ادامه مطلب 👇👇

🔗 آزمون KMO و بارتلت در تحلیل عاملی | معیارهای کفایت حجم نمونه — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آنالیز کلان داده و ساختار شبکه اجتماعی — آشنایی با اصطلاحات و مثال عملی

‏با انفجار اطلاعات و افزایش داده‌هایی که روزانه از منابع مختلف تولید می‌شود، با پدیده جدیدی به نام «کلان داده» (Big Data) یا «مِه داده» مواجه شده‌ایم. لازم است که ابزارهای مناسب برای ثبت و نگهداری و همچنین تحلیل چنین حجم عظیمی از داده‌ها را داشته باشیم. پیشرفت دستگاه‌های محاسباتی و بوجود آمدن «رایانش ابری» (Cloud Computing) دسترسی به این داده‌ها و پردازش آن‌ها را در زمان کوتاه میسر ساخته است. بنابراین مسائلی مانند نمونه‌گیری که در آمار برای جلوگیری از بررسی همه جامعه آماری به وجود آمده، دیگر لزومی نداشته باشد. به همین جهت در این نوشتار از مجله فرادرس به بررسی روش آنالیز کلان داده و ساختار شبکه پرداخته‌ایم. در این بین به تکنیک شبکه‌ای کردن و ارتباط گره‌ها اشاره کرده و مثال‌های عینی نتایج را مورد بررسی قرار داده‌ایم.

══ فهرست مطالب ══

‏ ○ آنالیز کلان داده و ساختار شبکه اجتماعی
‏ ○ آنالیز کلان داده و تحلیل شبکه‌های اجتماعی
‏ ○ معرفی فیلم آموزش مقدماتی Hadoop (هدوپ) برای تجزیه و تحلیل کلان داده
‏ ○ خلاصه و جمع‌بندی


🔸 آنالیز کلان داده و ساختار شبکه اجتماعی

‏داده های بزرگ یا «مِه داده» (Big data) زمینه‌ای است که روش‌های تجزیه و تحلیل، استخراج سیستماتیک اطلاعات و محاسبه روی حجم عظیمی از داده‌ها را میسر می‌کند. در اغلب موارد نمی‌توان با نرم افزارهای کاربردی پردازش داده سنتی کلان داده (Big Data) را پردازش کرد. این گونه داده‌ها اگر به ساختار جدولی ثبت شوند، دارای ستون‌ها (فیلدها) و سطرها (رکوردها) زیادی خواهند بود.

‏چالش‌های آنالیز کلان داده‌ شامل «دریافت داده‌ها» (capturing data)، «ذخیره داده ها» (data storage)، «تجزیه و تحلیل داده‌ها» (data analysis)، «جستجو» (search)، «به اشتراک گذاری» (sharing)، «انتقال» (transfer)، «مصورسازی» (Visualization)، «پرس و جو» (querying)، «به روزرسانی» (updating)، «حریم خصوصی اطلاعات و منبع داده» (information privacy) است.

‏کلان داده، در ابتدا به سه مفهوم در مورد اطلاعات متمرکز بود. حجم، تنوع و سرعت. به این معنی که روش‌های تحلیل مه داده باید حجم زیاد اطلاعات که دارای تنوع بسیار هستند در زمان مناسب و سرعت زیاد، پردازش کند.


🔸 آنالیز کلان داده و تحلیل شبکه‌های اجتماعی

‏شبکه (Network) راهی برای نشان دادن اطلاعات است و با استفاده از روش‌های ریاضی قابل درک و تجزیه و تحلیل است. شبکه‌ها، گروهی از «گره‌ها» (Nodes) هستند که توسط «پیوند» (Link) یا «یال» (Edge) به هم متصل شده‌اند و می‌توانند نشانگر هدایت جهت‌دار از یک گره به گره دیگر یا بدون جهت (دو طرفه) در نظر گرفته شوند. از این جهت، یک شبکه به مانند یک «گراف» (Graph) قابل بررسی است. «صفحات وب» (Web Page) نمونه‌هایی از شبکه‌های جهت‌دار هستند که صفحه وب نشان دهنده یک گره و «ابرپیوند» (Hyperlink) به عنوان یک یال است.

‏اغلب از شبکه‌ها برای یافتن دقیق اجتماعات نیز استفاده می‌کنند. این گره‌ها راس‌هایی هستند که بصورت گروهی متصل هستند اما ارتباط کمی با گروه‌های دیگر دارند، این امر به مانند افرادی است که در شبکه‌های اجتماعی با علایق مشابه حضور داشته یا دانشمندانی را مشخص می‌کند که در یک زمینه علمی همکاری دارند. موضوع مورد توجه در این بین «متغیرهای» مربوط به این داده است که باید مورد مطالعه قرار گیرند، این کار ممکن است به بهبود دقت در شناسایی جوامع و «خوشه‌ها» (Clusters) کمک کند. با گسترش «شبکه‌های اجتماعی» (Social Network)، موضوع کلان داده در بین کارشناسان داده» (Data Scientist) بیش از هر زمان دیگری اهمیت یافته است. در ادامه متن به مقاله‌ای اشاره خواهیم کرد که در حوزه آنالیز کلان داده پرداخته و به کمک ساختار شبکه، اطلاعاتی را از مه داده استخراج می‌کند.



مطالعه ادامه مطلب 👇👇

🔗 آنالیز کلان داده و ساختار شبکه اجتماعی — آشنایی با اصطلاحات و مثال عملی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

Forwarded from FaraDars_Course
‌‌
📣 به کدام زبان برنامه نویسی علاقه دارید؟

🌟 با پیوستن به کانال‌های «برنامه نویسی» فرادرس، یک بار و برای همیشه برنامه نویسی را یاد بگیرید.👇👇👇
‌‌‌

❇️ فیلم آموزشی «ایجاد ماتریس سطری پلکانی» در ۷ دقیقه | به زبان ساده


📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.


❇️ ویدئو «معرفی رشته علوم کامپیوتر - گرایش‌ها، درآمد و بازار کار» در ۱۳ دقیقه | به زبان ساده


🔗 آشنایی با ۷۶ رشته مهم دانشگاهی - [کلیک کنید]

📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.

✳️ کلان داده یا مِه داده (Big Data) — از صفر تا صد

‏کلان داده (مِه داده | Big Data)، یکی از موضوعات داغ روز است. پژوهشگران زیادی به تحقیق و بررسی در این حوزه مشغول هستند و در عین حال کسب‌و‌کارهای زیادی نیز با اهداف گوناگون به آن گرایش پیدا کرده‌اند. همچنین، صنایع و علوم گوناگون به ویژه بهداشت و درمان، علوم اجتماعی، بیمه، بانکداری و حتی دولت‌ها نیز به دلیل کاربردهای قابل توجه تحلیل کلان‌داده‌ها (تحلیل مِه‌داده‌ها) به آن روی آورده‌اند.

══ فهرست مطالب ══

‏ ○ کلان داده چیست و چرا اهمیت دارد؟
‏ ○ ارزش کسب‌و‌کار تحلیل‌های کلان‌داده
‏ ○ کاربردهای کلان داده در بخش صنعتی
‏ ○ دانشمند داده
‏ ○ مولفه اصلی فناوری در اکوسیستم کلان‌داده
‏ ○ بصری‌سازی
‏ ○ خلاصه


🔸 کلان داده چیست و چرا اهمیت دارد؟

‏پرداختن به مبحثی مانند کلان‌داده (مِه‌داده) که به طور گسترده و سریع توجهات را به خود جلب کرده کاری دشوار است. در حالیکه مبحث کلان‌داده تا چند سال پیش بسیار ناشناخته بود، امروزه یکی از پربحث‌ترین موضوعات در بخش‌های صنعتی است. در این قسمت از مقاله پیش رو، چیستی کلان‌داده (مِه‌داده)، دلایل اهمیت و مزایای تحلیل آن تشریح شده.

‏با وجود آنکه کلان‌داده (مِه‌داده) یکی از مورد توجه‌ترین اصطلاحات در بازار این روزها است، اما هیچ اتفاق نظری میان پژوهشگران گوناگون در رابطه با چگونگی تعریف آن وجود ندارد. این عبارت اغلب به عنوان مترادفی برای دیگر مفاهیم مرتبط مانند «هوش تجاری» (Business Intelligence) و داده‌کاوی (data mining) مورد استفاده قرار می‌گیرد.

‏درست است که هر سه این عبارات در رابطه با تحلیل داده‌ها هستند و در اغلب شرایط برای تحلیل‌های پیشرفته داده مورد استفاده قرار می‌گیرند، اما مفهوم کلان‌داده (مِه‌داده) هنگامی که حجم داده‌ها و تعداد منابع داده بسیار زیاد و پیچیدگی روش‌ها و فناوری‌های لازم برای کسب بینش از آن‌ها بالا باشد، از دو مورد دیگر متمایز و متفاوت خواهد بود (برای مثال، راهکارهای سنتی انبار داده ممکن است در کار با کلان‌داده‌ها کم بیاوردند). آنچه بیان شد، مبانی لازم برای ارائه پرکاربردترین تعریف کلان‌داده (مِه‌داده) که در برگیرنده سه «V» یعنی «حجم» (Volume)، «سرعت» (Velocity) و «تنوع» (Variety) است، را فراهم می‌کند. شکل زیر نمای کلی این تعریف را نشان می‌دهد.


🔸 ارزش کسب‌و‌کار تحلیل‌های کلان‌داده

‏مجددا تعریف گارتنر برای کلان‌داده (مِه‌داده) مورد بررسی قرار می‌گیرد: «کلان‌داده دارایی اطلاعاتی با حجم، سرعت و تنوع بالا محسوب می‌شود که نیازمند شکلی از پردازش اطلاعات نوآورانه و مقرون به صرفه است که بینش، تصمیم‌سازی و خودکارسازی فرآیندها را به طور بهینه فراهم می‌کند.» این تعریف از گارتنر مزایای تحلیل‌های کلان‌داده را خلاصه‌سازی کرده است. این مزایا در ادامه بیان شده‌اند:

‏– کسب بینش از داده‌ها

‏– تصمیم‌سازی بهتر بر مبنای بینش

‏– خودکارسازی تصمیم‌سازی و گنجاندن آن در فرآیندهای کسب‌و‌کار و در نتیجه خودکارسازی فرآیندها

‏در یک سطح همراه با جزئیات بیشتر، هر راهکار کلان داده ممکن است یک مشکل کسب‌و‌کاری خاص که سازمان امکان مواجهه با آن را دارد حل کند و همچنین ارزش کسب‌و‌کاری راهکار را به مساله اصلی مرتبط سازد. برای مثال، پیش‌بینی رویگردانی مشتریان می‌تواند این امر را کاهش دهد و بنابراین از کاهش درآمد پیشگیری کند. حائز اهمیت است که ساخت یک «مورد کسب‌و‌کار» (Business case) برای پروژه تحلیل کلان‌داده (تحلیل مِه‌داده)، با مساله کسب‌و‌کار آغاز شود نه با داده یا فناوری موجود یا مورد نیاز. گردآوری داده یا خرید فناوری بدون هدف‌گذاری صحیح کسب‌و‌کار یک استراتژی بازنده است. یک مورد کسب‌و‌کار برای تحلیل‌ها باید یک مساله واقعی که سازمان با آن مواجه می‌شود را حل کند.



مطالعه ادامه مطلب 👇👇

🔗 کلان داده یا مِه داده (Big Data) — از صفر تا صد — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف

‏هادوپ یک چارچوب نرم‌افزاری منبع‌باز است که پردازش توزیع‌شده‌ ‌داده‌های بزرگ را بر روی خوشه‌هایی از سرورها ممکن می‌سازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحمل‌پذیری خطای بالا طراحی شده است. به جای تکیه بر سخت‌افزار‌های گران‌قیمت، تحمل‌پذیری در مقابل خطا در این خوشه‌ها از توانایی نرم‌افزاری در تشخیص و اداره‌ی خرابی‌ در لایه کاربرد می‌آید. استفاده‌کنندگان برجسته هادوپ، فیسبوک و یاهو هستند. RPC یا Remote Procedure Call نیز یکی از پروتکل‌های به کار گرفته شده در محاسبات توزیعی به حساب می‌آید.

══ فهرست مطالب ══

‏ ○ مقدمه
‏ ○ چارچوب هادوپ
‏ ○ Map/Reduce هادوپ
‏ ○ HDFS هادوپ


🔸 مقدمه

‏هسته اصلی هادوپ از یک بخش ذخیره‌سازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایل‌ها را به بلوک‌های بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع می‌کند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال می‌کند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره می‌برد (نودها بر روی بخشی از داده‌ کار می‌کنند که در دسترشان قرار دارد). بدین ترتیب داده‌ها سریع‌تر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل می‌کند، پردازش می‌شوند.

‏چارچوب هادوپ همانطور که گفته شد به زبان جاوا نوشته شده است، اما از زبان C و همچنین از شل-اسکریپت نیز در بخش‌هایی از آن بهره گرفته شده است. کاربران نهایی می‌توانند در کار با هادوپ، هر زبان برنامه‌نویسی‌ای را برای پیاده‌سازی بخش‌های “map” و “reduce” به کار ببرند.


🔸 چارچوب هادوپ

‏چارچوب اصلی هادوپ از ماژول‌های زیر تشکیل شده است:

‏– بخش مشترکات هادوپ: شامل کتابخانه‌ها و utilityهای لازم توسط دیگر ماژول‌های هادوپ است.

‏– سیستم فایل توزیع شده هادوپ (HDFS): یک سیستم فایل توزیع شده است که داده را بر روی ماشین‌های خوشه ذخیره کرده و پهنای باند وسیعی را به وجود می‌آورد.

‏– YARN هادوپ: یک پلتفرم مدیریت منابع که مسئول مدیریت منابع محاسباتی در خوشه‌ها است.

‏– Map/Reduce هادوپ: یک مدل برنامه‌نویسی برای پردازش داده در مقیاس‌های بالا است.

‏در واقع هادوپ یک سیستم فایل توزیع شده تهیه می‌کند که می‌تواند داده را بر روی هزاران سرور ذخیره کند، و تسک (وظیفه) را بر روی این ماشین‌ها پخش کرده (کارهای Map/Reduce)، و کار را در کنار داده انجام می‌دهد.



مطالعه ادامه مطلب 👇👇

🔗 هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ کاهش رنگ تصویر با خوشه بندی | پیاده سازی در R

‏«خوشه بندی» (Clustering) از تکنیک‌های معروف در زمینه «یادگیری ماشین» (Machine Learning) از نوع «بدون نظارت» (Unsupervised) یا غیرنظارتی است. بوسیله روش‌های خوشه‌بندی، بسیاری از تکنیک‌های تصویربرداری پزشکی مثل MRI، متحول شده است. به طوری که با استفاده از خوشه‌بندی، شناسایی تومورها و نواحی مربوط به جراحی تومر تعیین شده و آسیب کمتری به نواحی دیگر اعضای بدن می‌رسد. در این نوشتار از فرادرس می‌خواهیم به کمک خوشه بندی یک تصویر را تجزیه و تحلیل کرده و تعداد رنگ‌های آن را کاهش دهیم. این موضوع می‌تواند به نوعی، باعث کاهش کیفیت شده ولی در عوض، حجم فایل تصویری را هم کاهش می‌دهد. اغلب در فشرده‌سازی تصویر از خوشه‌بندی نیز استفاده می‌شود. به این ترتیب موضوع کاهش رنگ تصویر با خوشه بندی را با استفاده از کدهای زبان برنامه‌نویسی R پیاده‌سازی کرده و به کمک یک مثال گام‌های لازم برای نحوه انجام کار را فرا می‌گیریم.

══ فهرست مطالب ══

‏ ○ کاهش رنگ تصویر با خوشه بندی
‏ ○ معرفی فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش های خوشه بندی هوشمند
‏ ○ خلاصه و جمع‌بندی


🔸 کاهش رنگ تصویر با خوشه بندی

‏همانطور که اشاره شد، تکنیک خوشه‌بندی قادر است نقاط همسان یا شبیه را تعیین کرده و برای آن‌ها یک نماینده ایجاد کند. در اغلب حالت‌ها، روش به کار رفته در خوشه‌بندی، «خوشه‌بندی تفکیکی» یا «خوشه‌بندی افرازی» (Partitional Clustering) و از الگوریتم خاصی به نام k-means یا k-میانگین استفاده می‌شود. به این ترتیب به عنوان «معرف» (Profile) برای هر خوشه، از میانگین مقادیر یا ویژگی‌ها در هر خوشه استفاده شده و به همین علت نیز نام این الگوریتم را k-میانگین گذاشته‌اند.

‏این الگوریتم اولین بار توسط «جیمز مکوئین» (MacQueen) در سال ۱۹۶۷ به منظور معرفی خوشه‌بندی تفکیکی طی مقاله‌ای، معرفی شد. بعدها الگوریتم پیشنهادی وی، توسط «استوارت لوید» (Stuart Lloyd)، مورد بازبینی قرار گرفت و برای تبدیل پالس به کد در «آزمایشگاه‌های بل» (Bell Laboratory) به کار رفت. این الگوریتم به طور مستقل توسط فرد دیگری به نام «ادوارد فورجی» (Edward W. Forgy) نیز ابداع شد و به همین علت گاهی این الگوریتم را به نام «لوید-فورجی» (Lloyd- Forgy) می‌شناسند.

‏در این نوشتار می‌خواهیم به کمک این الگوریتم، عمل کاهش رنگ تصویر با خوشه بندی را انجام دهیم. در حقیقت با این کار رنگ‌های موجود در یک تصویر کمتر از حالت عادی خواهند شد. در این بین از زبان برنامه‌نویسی و محاسبات آماری R و بعضی از کتابخانه‌های آن بهره خواهیم برد. برای انجام این کار، مراحل یا گام‌های زیر را طی خواهیم کرد.


🔸 معرفی فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش های خوشه بندی هوشمند

‏در گاهی از اوقات تکنیک کاهش رنگ تصویر با استفاده از خوشه بندی صورت می‌گیرد. خوشبختانه در یکی از آموزش‌های فرادرس در حوزه خوشه‌بندی و پردازش تصویر، به نام فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش‌های خوشه بندی هوشمند، با صرف زمانی حدود یک ساعت و هجده دقیقه، می‌توانید با سه الگوریتم معروف خوشه‌بندی تفکیکی، تکنیک‌های کاهش رنگ را تجربه کنید.

‏کاهش رنگ یا Color Reduction (یا Color Quantization) یکی از راه‌کارهای کاهش حجم تصاویر نیز هستند. در این آموزش از فرادرس، کاربرد سه سبک یا شیوه خوشه‌بندی برای کاهش رنگ در تصاویر، به صورت عملی با کدهای متلب آموزش داده می‌شود. الگوریتم‌های خوشه‌بندی به کار رفته در این آموزش به قرار زیر هستند.


مطالعه ادامه مطلب 👇👇

🔗 کاهش رنگ تصویر با خوشه بندی | پیاده سازی در R — کلیک کنید (+)

📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ مجموعه داده های رایگان و قابل دانلود برای علم داده و یادگیری ماشین

‏پرسشی که برای بسیاری از افراد مطرح می‌شود آن است که چه «مجموعه داده های» (Data Set) بازی (Open) برای «یادگیری ماشین» (Machine Learning) وجود دارند که به صورت رایگان و بدون هر گونه انحصار قابل دانلود باشند؟ در ادامه لیستی از مجموعه داده‌های یادگیری ماشین با کیفیت و متنوع در حوزه‌های گوناگون برای یادگیری ماشین آورده شده است.

══ فهرست مطالب ══

‏ ○ پیدا کردن مجموعه داده
‏ ○ مجموعه داده‌های عمومی
‏ ○ یادگیری ماشین


🔸 پیدا کردن مجموعه داده

‏در ادامه روش‌هایی برای پیدا کردن مجموعه داده‌های متنوع در زمینه‌های گوناگون بیان شده است.

‏Kaggle (+): یک سایت در حوزه «علم داده» (Data Science) و حاوی مجموعه داده‌های متنوع و جالب توجهی است که توسط مشارکت‌کنندگان گوناگون فراهم شده‌اند. می‌توان انواع مجموعه داده‌ها را از این قسمت (+) یافت. تنوع این مجموعه داده‌ها بسیار بالا است و حوزه‌های گوناگونی از داده‌های بسکتبال (+) گرفته تا گواهینامه حیوانات خانگی در سیاتل (+) و امتیازدهی به رامن (نوعی غذای ژاپنی) (+) را شامل می‌شود.

‏مخزن یادگیری ماشین UCI (+): یکی از قدیمی‌ترین منابع از مجموعه داده‌های روی وب است که می‌توان در آن به دنبال مجموعه داده‌های جالب توجه گشت. با توجه به اینکه مجموعه داده‌ها با مشارکت کاربران تهیه شده‌اند دارای سطوح گوناگونی از پاکیزگی هستند، ولیکن اغلب آن‌ها پاک‌سازی شده محسوب می‌شوند. امکان دانلود مجموعه داده‌ها از «UCI Machine Learning» به طور مستقیم و بدون ثبت‌نام وجود دارد.


🔸 مجموعه داده‌های عمومی

‏در ادامه برخی از مجموعه داده‌های عمومی در حوزه‌های گوناگون معرفی شده‌اند.

Data.gov (+): این سایت امکان دانلود داده از چندین سازمان دولتی آمریکا را فراهم می‌کند. این داده‌ها از بودجه دولتی گرفته تا امتیاز کارایی مدارس را شامل می‌شوند. اغلب این داده‌ها نیازمند انجام پژوهش‌های بیشتری هستند.

‏Food Environment Atlas (+): حاوی داده‌هایی پیرامون این محبث است که چگونه انتخاب غذاها به طور محلی، رژیم غذایی را در ایالات متحده آمریکا (USA) تحت تاثیر قرار می‌دهد.



مطالعه ادامه مطلب 👇👇

🔗 مجموعه داده های رایگان و قابل دانلود برای علم داده و یادگیری ماشین — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ فیلم آموزش «کهاد ماتریس» در ۳ دقیقه | به زبان ساده


📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.

✳️ داده کاوی (Data Mining) — از صفر تا صد

‏در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیت‌های گردآوری و ذخیره‌سازی آن در دامنه‌های گوناگون بوده است. در جهان کسب‌و‌کار، «پایگاه‌داده‌های» (Databases) بسیار بزرگی برای تراکنش‌های تجاری وجود دارند که توسط خرده‌فروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شده‌اند. از سوی دیگر، همه روزه حجم عظیمی از داده‌های علمی در زمینه‌های گوناگون تولید می‌شوند.

══ فهرست مطالب ══

‏ ○ داده کاوی چیست؟
‏ ○ تاریخچه داده‌کاوی
‏ ○ چرا داده‌کاوی؟
‏ ○ انواع منابع داده
‏ ○ فرایند داده‌کاوی
‏ ○ مشکلات داده‌کاوی
‏ ○ اصطلاح‌شناسی
‏ ○
‏ ○ ماهیت مساله داده‌کاوی
‏ ○ مزایا و معایب داده‌کاوی
‏ ○ کاربردهای داده‌کاوی


🔸 داده کاوی چیست؟

‏به مجموعه‌ای از روش‌های قابل اعمال بر پایگاه داده‌های بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان داده‌ها، داده‌کاوی گفته می‌شود. روش‌های داده‌کاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میان‌رشته‌ای داده‌کاوی، پیرامون ابزارها، متدولوژی‌ها و تئوری‌هایی است که برای آشکارسازی الگوهای موجود در داده‌ها مورد استفاده قرار می‌گیرند و گامی اساسی در راستای کشف دانش محسوب می‌شود. دلایل گوناگونی پیرامون چرایی مبدل شدن داده‌کاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شده‌اند.

‏۱. رشد انفجاری داده‌ها در گستره وسیعی از زمینه‌ها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی می‌شود:

‏– دستگاه‌های ذخیره‌سازی نسبت به گذشته ارزان‌تر و با ظرفیت نامحدود، مانند فضاهای ذخیره‌سازی ابری

‏– ارتباطات سریع‌تر با سرعت اتصال بیشتر

‏– سیستم‌های مدیریت پایگاه داده و پشتیبانی نرم‌افزاری بهتر

‏۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش


🔸 تاریخچه داده‌کاوی

‏در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیت‌های «تحلیل داده» (Data Analytics) استفاده می‌کردند. اصطلاح «داده‌کاوی» در حدود سال ۱۹۹۰ در جامعه پایگاه‌داده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسب‌تر برای فرآیند داده‌کاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.

‏در حال حاضر، یادگیری آماری، «تحلیل داده» و «علم داده» (Data Science) از دیگر عباراتی هستند که با معنای مشابه داده‌کاوی مورد استفاده قرار می‌گیرند، حال آنکه گاه تفاوت‌های ظریفی میان این موارد وجود دارد. برای آشنایی با این تفاوت‌ها، مطالعه مطلب «علم داده، تحلیل داده، داده‌کاوی و یادگیری ماشین ــ تفاوت‌ها و شباهت‌ها» توصیه می‌شود. همچنین، برای مطالعه همراه با جزئیات بیشتر پیرامون تاریخچه داده‌کاوی، مطلب «داده‌کاوی چیست؟ بخش اول: مبانی» پیشنهاد می‌شود.

‏از روش‌های داده‌کاوی در فرآیند طویل پژوهش و توسعه محصول استفاده می‌شود. از همین رو، تکامل داده‌کاوی نیز از هنگامی آغاز شد که داده‌های کسب‌و‌کارها روی کامپیوترها ذخیره شدند. داده‌کاوی به کاربران امکان حرکت در میان داده‌ها را در زمان واقعی می‌دهد. از داده‌کاوی در جامعه کسب‌و‌کار بدین دلیل استفاده می‌شود که از سه فناوری بلوغ یافته استفاده می‌کند، این فناوری‌ها عبارتند از:



مطالعه ادامه مطلب 👇👇

🔗 داده کاوی (Data Mining) — از صفر تا صد — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ فیلم آموزش «کاربرد جبر خطی در علم داده و یادگیری ماشین - ماتریس الحاقی» در ۴ دقیقه | به زبان ساده


📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.

✳️ علم داده چیست؟

‏سال‌های مدیدی است که جهان مملو از داده شده، حجم این داده‌ها و سرعت تولید آن‌ها با ظهور وب و البته شبکه‌های اجتماعی رشد فزاینده‌ای داشته. در واقع، حجم داده‌های دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید می‌شده. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ داده‌های تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.

══ فهرست مطالب ══

‏ ○ حجم بالای داده‌ها چگونه ذخیره می‌شوند؟
‏ ○ چرا داده‌ها مهم هستند؟
‏ ○ علم داده چیست؟
‏ ○ مزایای علم داده
‏ ○ تاریخچه
‏ ○ ارتباط آمار و علم داده


🔸 حجم بالای داده‌ها چگونه ذخیره می‌شوند؟

‏اولین کامپیوترها دارای حافظه‌های چند کیلوبایتی بوده‌اند، اما در حال حاضر گوشی‌های هوشمند توانایی ذخیره‌سازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپ‌تاپ‌ها می‌توانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظه‌های ذخیره‌سازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمی‌شود.


🔸 چرا داده‌ها مهم هستند؟

‏ژیاوی هان – دانشمند داده و نویسنده کتاب «داده‌کاوی: مفاهیم و روش‌ها»

‏داده‌ها به میزان هوشمندی که می‌توان از آن‌ها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از داده‌ها، مستلزم انجام تحلیل‌های موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم داده‌ها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل داده‌ها جایگاه قابل توجهی در میان شرکت‌های پیشرو در جهان طی این سال کسب کرده‌اند.



مطالعه ادامه مطلب 👇👇

🔗 علم داده چیست؟ — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ فیلم آموزش «بردارهای ویژه و مقادیر ویژه» در ۴ دقیقه | به زبان ساده


📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.👇


🔴 رایگان آموزش ببینید و مهارت کسب کنید.

🌟 معرفی آموزش‌های رایگان و پرطرفدار فرادرس

♨️ صدها عنوان آموزش رایگان فرادرس در دسترس هستند که در طول ماه، توسط ده‌ها هزار دانشجو مورد مطالعه قرار می‌گیرند.
شما عزیزان نیز می‌توانید با مراجعه به لینک‌های زیر، آموزش‌های پرمخاطب در دسته‌بندی مورد نظر خود را مشاهده کرده و رایگان دانلود کنید👇


آموزش‌های رایگان داده‌کاوی [+]


📚 تمامی آموزش‌های رایگان و پرمخاطب [+]


@FaraDars - فرادرس