❇️ فیلم آموزشی «ایجاد ماتریس سطری پلکانی» در ۷ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ فیلم آموزشی «ایجاد ماتریس سطری پلکانی» در ۷ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ ویدئو «معرفی رشته علوم کامپیوتر - گرایشها، درآمد و بازار کار» در ۱۳ دقیقه | به زبان ساده
🔗 آشنایی با ۷۶ رشته مهم دانشگاهی - [کلیک کنید]
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ ویدئو «معرفی رشته علوم کامپیوتر - گرایشها، درآمد و بازار کار» در ۱۳ دقیقه | به زبان ساده
🔗 آشنایی با ۷۶ رشته مهم دانشگاهی - [کلیک کنید]
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
✳️ کلان داده یا مِه داده (Big Data) — از صفر تا صد
کلان داده (مِه داده | Big Data)، یکی از موضوعات داغ روز است. پژوهشگران زیادی به تحقیق و بررسی در این حوزه مشغول هستند و در عین حال کسبوکارهای زیادی نیز با اهداف گوناگون به آن گرایش پیدا کردهاند. همچنین، صنایع و علوم گوناگون به ویژه بهداشت و درمان، علوم اجتماعی، بیمه، بانکداری و حتی دولتها نیز به دلیل کاربردهای قابل توجه تحلیل کلاندادهها (تحلیل مِهدادهها) به آن روی آوردهاند.
══ فهرست مطالب ══
○ کلان داده چیست و چرا اهمیت دارد؟
○ ارزش کسبوکار تحلیلهای کلانداده
○ کاربردهای کلان داده در بخش صنعتی
○ دانشمند داده
○ مولفه اصلی فناوری در اکوسیستم کلانداده
○ بصریسازی
○ خلاصه
🔸 کلان داده چیست و چرا اهمیت دارد؟
پرداختن به مبحثی مانند کلانداده (مِهداده) که به طور گسترده و سریع توجهات را به خود جلب کرده کاری دشوار است. در حالیکه مبحث کلانداده تا چند سال پیش بسیار ناشناخته بود، امروزه یکی از پربحثترین موضوعات در بخشهای صنعتی است. در این قسمت از مقاله پیش رو، چیستی کلانداده (مِهداده)، دلایل اهمیت و مزایای تحلیل آن تشریح شده.
با وجود آنکه کلانداده (مِهداده) یکی از مورد توجهترین اصطلاحات در بازار این روزها است، اما هیچ اتفاق نظری میان پژوهشگران گوناگون در رابطه با چگونگی تعریف آن وجود ندارد. این عبارت اغلب به عنوان مترادفی برای دیگر مفاهیم مرتبط مانند «هوش تجاری» (Business Intelligence) و دادهکاوی (data mining) مورد استفاده قرار میگیرد.
درست است که هر سه این عبارات در رابطه با تحلیل دادهها هستند و در اغلب شرایط برای تحلیلهای پیشرفته داده مورد استفاده قرار میگیرند، اما مفهوم کلانداده (مِهداده) هنگامی که حجم دادهها و تعداد منابع داده بسیار زیاد و پیچیدگی روشها و فناوریهای لازم برای کسب بینش از آنها بالا باشد، از دو مورد دیگر متمایز و متفاوت خواهد بود (برای مثال، راهکارهای سنتی انبار داده ممکن است در کار با کلاندادهها کم بیاوردند). آنچه بیان شد، مبانی لازم برای ارائه پرکاربردترین تعریف کلانداده (مِهداده) که در برگیرنده سه «V» یعنی «حجم» (Volume)، «سرعت» (Velocity) و «تنوع» (Variety) است، را فراهم میکند. شکل زیر نمای کلی این تعریف را نشان میدهد.
🔸 ارزش کسبوکار تحلیلهای کلانداده
مجددا تعریف گارتنر برای کلانداده (مِهداده) مورد بررسی قرار میگیرد: «کلانداده دارایی اطلاعاتی با حجم، سرعت و تنوع بالا محسوب میشود که نیازمند شکلی از پردازش اطلاعات نوآورانه و مقرون به صرفه است که بینش، تصمیمسازی و خودکارسازی فرآیندها را به طور بهینه فراهم میکند.» این تعریف از گارتنر مزایای تحلیلهای کلانداده را خلاصهسازی کرده است. این مزایا در ادامه بیان شدهاند:
– کسب بینش از دادهها
– تصمیمسازی بهتر بر مبنای بینش
– خودکارسازی تصمیمسازی و گنجاندن آن در فرآیندهای کسبوکار و در نتیجه خودکارسازی فرآیندها
در یک سطح همراه با جزئیات بیشتر، هر راهکار کلان داده ممکن است یک مشکل کسبوکاری خاص که سازمان امکان مواجهه با آن را دارد حل کند و همچنین ارزش کسبوکاری راهکار را به مساله اصلی مرتبط سازد. برای مثال، پیشبینی رویگردانی مشتریان میتواند این امر را کاهش دهد و بنابراین از کاهش درآمد پیشگیری کند. حائز اهمیت است که ساخت یک «مورد کسبوکار» (Business case) برای پروژه تحلیل کلانداده (تحلیل مِهداده)، با مساله کسبوکار آغاز شود نه با داده یا فناوری موجود یا مورد نیاز. گردآوری داده یا خرید فناوری بدون هدفگذاری صحیح کسبوکار یک استراتژی بازنده است. یک مورد کسبوکار برای تحلیلها باید یک مساله واقعی که سازمان با آن مواجه میشود را حل کند.
مطالعه ادامه مطلب 👇👇
🔗 کلان داده یا مِه داده (Big Data) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
کلان داده (مِه داده | Big Data)، یکی از موضوعات داغ روز است. پژوهشگران زیادی به تحقیق و بررسی در این حوزه مشغول هستند و در عین حال کسبوکارهای زیادی نیز با اهداف گوناگون به آن گرایش پیدا کردهاند. همچنین، صنایع و علوم گوناگون به ویژه بهداشت و درمان، علوم اجتماعی، بیمه، بانکداری و حتی دولتها نیز به دلیل کاربردهای قابل توجه تحلیل کلاندادهها (تحلیل مِهدادهها) به آن روی آوردهاند.
══ فهرست مطالب ══
○ کلان داده چیست و چرا اهمیت دارد؟
○ ارزش کسبوکار تحلیلهای کلانداده
○ کاربردهای کلان داده در بخش صنعتی
○ دانشمند داده
○ مولفه اصلی فناوری در اکوسیستم کلانداده
○ بصریسازی
○ خلاصه
🔸 کلان داده چیست و چرا اهمیت دارد؟
پرداختن به مبحثی مانند کلانداده (مِهداده) که به طور گسترده و سریع توجهات را به خود جلب کرده کاری دشوار است. در حالیکه مبحث کلانداده تا چند سال پیش بسیار ناشناخته بود، امروزه یکی از پربحثترین موضوعات در بخشهای صنعتی است. در این قسمت از مقاله پیش رو، چیستی کلانداده (مِهداده)، دلایل اهمیت و مزایای تحلیل آن تشریح شده.
با وجود آنکه کلانداده (مِهداده) یکی از مورد توجهترین اصطلاحات در بازار این روزها است، اما هیچ اتفاق نظری میان پژوهشگران گوناگون در رابطه با چگونگی تعریف آن وجود ندارد. این عبارت اغلب به عنوان مترادفی برای دیگر مفاهیم مرتبط مانند «هوش تجاری» (Business Intelligence) و دادهکاوی (data mining) مورد استفاده قرار میگیرد.
درست است که هر سه این عبارات در رابطه با تحلیل دادهها هستند و در اغلب شرایط برای تحلیلهای پیشرفته داده مورد استفاده قرار میگیرند، اما مفهوم کلانداده (مِهداده) هنگامی که حجم دادهها و تعداد منابع داده بسیار زیاد و پیچیدگی روشها و فناوریهای لازم برای کسب بینش از آنها بالا باشد، از دو مورد دیگر متمایز و متفاوت خواهد بود (برای مثال، راهکارهای سنتی انبار داده ممکن است در کار با کلاندادهها کم بیاوردند). آنچه بیان شد، مبانی لازم برای ارائه پرکاربردترین تعریف کلانداده (مِهداده) که در برگیرنده سه «V» یعنی «حجم» (Volume)، «سرعت» (Velocity) و «تنوع» (Variety) است، را فراهم میکند. شکل زیر نمای کلی این تعریف را نشان میدهد.
🔸 ارزش کسبوکار تحلیلهای کلانداده
مجددا تعریف گارتنر برای کلانداده (مِهداده) مورد بررسی قرار میگیرد: «کلانداده دارایی اطلاعاتی با حجم، سرعت و تنوع بالا محسوب میشود که نیازمند شکلی از پردازش اطلاعات نوآورانه و مقرون به صرفه است که بینش، تصمیمسازی و خودکارسازی فرآیندها را به طور بهینه فراهم میکند.» این تعریف از گارتنر مزایای تحلیلهای کلانداده را خلاصهسازی کرده است. این مزایا در ادامه بیان شدهاند:
– کسب بینش از دادهها
– تصمیمسازی بهتر بر مبنای بینش
– خودکارسازی تصمیمسازی و گنجاندن آن در فرآیندهای کسبوکار و در نتیجه خودکارسازی فرآیندها
در یک سطح همراه با جزئیات بیشتر، هر راهکار کلان داده ممکن است یک مشکل کسبوکاری خاص که سازمان امکان مواجهه با آن را دارد حل کند و همچنین ارزش کسبوکاری راهکار را به مساله اصلی مرتبط سازد. برای مثال، پیشبینی رویگردانی مشتریان میتواند این امر را کاهش دهد و بنابراین از کاهش درآمد پیشگیری کند. حائز اهمیت است که ساخت یک «مورد کسبوکار» (Business case) برای پروژه تحلیل کلانداده (تحلیل مِهداده)، با مساله کسبوکار آغاز شود نه با داده یا فناوری موجود یا مورد نیاز. گردآوری داده یا خرید فناوری بدون هدفگذاری صحیح کسبوکار یک استراتژی بازنده است. یک مورد کسبوکار برای تحلیلها باید یک مساله واقعی که سازمان با آن مواجه میشود را حل کند.
مطالعه ادامه مطلب 👇👇
🔗 کلان داده یا مِه داده (Big Data) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف
هادوپ یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها ممکن میسازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحملپذیری خطای بالا طراحی شده است. به جای تکیه بر سختافزارهای گرانقیمت، تحملپذیری در مقابل خطا در این خوشهها از توانایی نرمافزاری در تشخیص و ادارهی خرابی در لایه کاربرد میآید. استفادهکنندگان برجسته هادوپ، فیسبوک و یاهو هستند. RPC یا Remote Procedure Call نیز یکی از پروتکلهای به کار گرفته شده در محاسبات توزیعی به حساب میآید.
══ فهرست مطالب ══
○ مقدمه
○ چارچوب هادوپ
○ Map/Reduce هادوپ
○ HDFS هادوپ
🔸 مقدمه
هسته اصلی هادوپ از یک بخش ذخیرهسازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایلها را به بلوکهای بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع میکند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال میکند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره میبرد (نودها بر روی بخشی از داده کار میکنند که در دسترشان قرار دارد). بدین ترتیب دادهها سریعتر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل میکند، پردازش میشوند.
چارچوب هادوپ همانطور که گفته شد به زبان جاوا نوشته شده است، اما از زبان C و همچنین از شل-اسکریپت نیز در بخشهایی از آن بهره گرفته شده است. کاربران نهایی میتوانند در کار با هادوپ، هر زبان برنامهنویسیای را برای پیادهسازی بخشهای “map” و “reduce” به کار ببرند.
🔸 چارچوب هادوپ
چارچوب اصلی هادوپ از ماژولهای زیر تشکیل شده است:
– بخش مشترکات هادوپ: شامل کتابخانهها و utilityهای لازم توسط دیگر ماژولهای هادوپ است.
– سیستم فایل توزیع شده هادوپ (HDFS): یک سیستم فایل توزیع شده است که داده را بر روی ماشینهای خوشه ذخیره کرده و پهنای باند وسیعی را به وجود میآورد.
– YARN هادوپ: یک پلتفرم مدیریت منابع که مسئول مدیریت منابع محاسباتی در خوشهها است.
– Map/Reduce هادوپ: یک مدل برنامهنویسی برای پردازش داده در مقیاسهای بالا است.
در واقع هادوپ یک سیستم فایل توزیع شده تهیه میکند که میتواند داده را بر روی هزاران سرور ذخیره کند، و تسک (وظیفه) را بر روی این ماشینها پخش کرده (کارهای Map/Reduce)، و کار را در کنار داده انجام میدهد.
مطالعه ادامه مطلب 👇👇
🔗 هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
هادوپ یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها ممکن میسازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحملپذیری خطای بالا طراحی شده است. به جای تکیه بر سختافزارهای گرانقیمت، تحملپذیری در مقابل خطا در این خوشهها از توانایی نرمافزاری در تشخیص و ادارهی خرابی در لایه کاربرد میآید. استفادهکنندگان برجسته هادوپ، فیسبوک و یاهو هستند. RPC یا Remote Procedure Call نیز یکی از پروتکلهای به کار گرفته شده در محاسبات توزیعی به حساب میآید.
══ فهرست مطالب ══
○ مقدمه
○ چارچوب هادوپ
○ Map/Reduce هادوپ
○ HDFS هادوپ
🔸 مقدمه
هسته اصلی هادوپ از یک بخش ذخیرهسازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایلها را به بلوکهای بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع میکند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال میکند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره میبرد (نودها بر روی بخشی از داده کار میکنند که در دسترشان قرار دارد). بدین ترتیب دادهها سریعتر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل میکند، پردازش میشوند.
چارچوب هادوپ همانطور که گفته شد به زبان جاوا نوشته شده است، اما از زبان C و همچنین از شل-اسکریپت نیز در بخشهایی از آن بهره گرفته شده است. کاربران نهایی میتوانند در کار با هادوپ، هر زبان برنامهنویسیای را برای پیادهسازی بخشهای “map” و “reduce” به کار ببرند.
🔸 چارچوب هادوپ
چارچوب اصلی هادوپ از ماژولهای زیر تشکیل شده است:
– بخش مشترکات هادوپ: شامل کتابخانهها و utilityهای لازم توسط دیگر ماژولهای هادوپ است.
– سیستم فایل توزیع شده هادوپ (HDFS): یک سیستم فایل توزیع شده است که داده را بر روی ماشینهای خوشه ذخیره کرده و پهنای باند وسیعی را به وجود میآورد.
– YARN هادوپ: یک پلتفرم مدیریت منابع که مسئول مدیریت منابع محاسباتی در خوشهها است.
– Map/Reduce هادوپ: یک مدل برنامهنویسی برای پردازش داده در مقیاسهای بالا است.
در واقع هادوپ یک سیستم فایل توزیع شده تهیه میکند که میتواند داده را بر روی هزاران سرور ذخیره کند، و تسک (وظیفه) را بر روی این ماشینها پخش کرده (کارهای Map/Reduce)، و کار را در کنار داده انجام میدهد.
مطالعه ادامه مطلب 👇👇
🔗 هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ کاهش رنگ تصویر با خوشه بندی | پیاده سازی در R
«خوشه بندی» (Clustering) از تکنیکهای معروف در زمینه «یادگیری ماشین» (Machine Learning) از نوع «بدون نظارت» (Unsupervised) یا غیرنظارتی است. بوسیله روشهای خوشهبندی، بسیاری از تکنیکهای تصویربرداری پزشکی مثل MRI، متحول شده است. به طوری که با استفاده از خوشهبندی، شناسایی تومورها و نواحی مربوط به جراحی تومر تعیین شده و آسیب کمتری به نواحی دیگر اعضای بدن میرسد. در این نوشتار از فرادرس میخواهیم به کمک خوشه بندی یک تصویر را تجزیه و تحلیل کرده و تعداد رنگهای آن را کاهش دهیم. این موضوع میتواند به نوعی، باعث کاهش کیفیت شده ولی در عوض، حجم فایل تصویری را هم کاهش میدهد. اغلب در فشردهسازی تصویر از خوشهبندی نیز استفاده میشود. به این ترتیب موضوع کاهش رنگ تصویر با خوشه بندی را با استفاده از کدهای زبان برنامهنویسی R پیادهسازی کرده و به کمک یک مثال گامهای لازم برای نحوه انجام کار را فرا میگیریم.
══ فهرست مطالب ══
○ کاهش رنگ تصویر با خوشه بندی
○ معرفی فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش های خوشه بندی هوشمند
○ خلاصه و جمعبندی
🔸 کاهش رنگ تصویر با خوشه بندی
همانطور که اشاره شد، تکنیک خوشهبندی قادر است نقاط همسان یا شبیه را تعیین کرده و برای آنها یک نماینده ایجاد کند. در اغلب حالتها، روش به کار رفته در خوشهبندی، «خوشهبندی تفکیکی» یا «خوشهبندی افرازی» (Partitional Clustering) و از الگوریتم خاصی به نام k-means یا k-میانگین استفاده میشود. به این ترتیب به عنوان «معرف» (Profile) برای هر خوشه، از میانگین مقادیر یا ویژگیها در هر خوشه استفاده شده و به همین علت نیز نام این الگوریتم را k-میانگین گذاشتهاند.
این الگوریتم اولین بار توسط «جیمز مکوئین» (MacQueen) در سال ۱۹۶۷ به منظور معرفی خوشهبندی تفکیکی طی مقالهای، معرفی شد. بعدها الگوریتم پیشنهادی وی، توسط «استوارت لوید» (Stuart Lloyd)، مورد بازبینی قرار گرفت و برای تبدیل پالس به کد در «آزمایشگاههای بل» (Bell Laboratory) به کار رفت. این الگوریتم به طور مستقل توسط فرد دیگری به نام «ادوارد فورجی» (Edward W. Forgy) نیز ابداع شد و به همین علت گاهی این الگوریتم را به نام «لوید-فورجی» (Lloyd- Forgy) میشناسند.
در این نوشتار میخواهیم به کمک این الگوریتم، عمل کاهش رنگ تصویر با خوشه بندی را انجام دهیم. در حقیقت با این کار رنگهای موجود در یک تصویر کمتر از حالت عادی خواهند شد. در این بین از زبان برنامهنویسی و محاسبات آماری R و بعضی از کتابخانههای آن بهره خواهیم برد. برای انجام این کار، مراحل یا گامهای زیر را طی خواهیم کرد.
🔸 معرفی فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش های خوشه بندی هوشمند
در گاهی از اوقات تکنیک کاهش رنگ تصویر با استفاده از خوشه بندی صورت میگیرد. خوشبختانه در یکی از آموزشهای فرادرس در حوزه خوشهبندی و پردازش تصویر، به نام فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روشهای خوشه بندی هوشمند، با صرف زمانی حدود یک ساعت و هجده دقیقه، میتوانید با سه الگوریتم معروف خوشهبندی تفکیکی، تکنیکهای کاهش رنگ را تجربه کنید.
کاهش رنگ یا Color Reduction (یا Color Quantization) یکی از راهکارهای کاهش حجم تصاویر نیز هستند. در این آموزش از فرادرس، کاربرد سه سبک یا شیوه خوشهبندی برای کاهش رنگ در تصاویر، به صورت عملی با کدهای متلب آموزش داده میشود. الگوریتمهای خوشهبندی به کار رفته در این آموزش به قرار زیر هستند.
مطالعه ادامه مطلب 👇👇
🔗 کاهش رنگ تصویر با خوشه بندی | پیاده سازی در R — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«خوشه بندی» (Clustering) از تکنیکهای معروف در زمینه «یادگیری ماشین» (Machine Learning) از نوع «بدون نظارت» (Unsupervised) یا غیرنظارتی است. بوسیله روشهای خوشهبندی، بسیاری از تکنیکهای تصویربرداری پزشکی مثل MRI، متحول شده است. به طوری که با استفاده از خوشهبندی، شناسایی تومورها و نواحی مربوط به جراحی تومر تعیین شده و آسیب کمتری به نواحی دیگر اعضای بدن میرسد. در این نوشتار از فرادرس میخواهیم به کمک خوشه بندی یک تصویر را تجزیه و تحلیل کرده و تعداد رنگهای آن را کاهش دهیم. این موضوع میتواند به نوعی، باعث کاهش کیفیت شده ولی در عوض، حجم فایل تصویری را هم کاهش میدهد. اغلب در فشردهسازی تصویر از خوشهبندی نیز استفاده میشود. به این ترتیب موضوع کاهش رنگ تصویر با خوشه بندی را با استفاده از کدهای زبان برنامهنویسی R پیادهسازی کرده و به کمک یک مثال گامهای لازم برای نحوه انجام کار را فرا میگیریم.
══ فهرست مطالب ══
○ کاهش رنگ تصویر با خوشه بندی
○ معرفی فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش های خوشه بندی هوشمند
○ خلاصه و جمعبندی
🔸 کاهش رنگ تصویر با خوشه بندی
همانطور که اشاره شد، تکنیک خوشهبندی قادر است نقاط همسان یا شبیه را تعیین کرده و برای آنها یک نماینده ایجاد کند. در اغلب حالتها، روش به کار رفته در خوشهبندی، «خوشهبندی تفکیکی» یا «خوشهبندی افرازی» (Partitional Clustering) و از الگوریتم خاصی به نام k-means یا k-میانگین استفاده میشود. به این ترتیب به عنوان «معرف» (Profile) برای هر خوشه، از میانگین مقادیر یا ویژگیها در هر خوشه استفاده شده و به همین علت نیز نام این الگوریتم را k-میانگین گذاشتهاند.
این الگوریتم اولین بار توسط «جیمز مکوئین» (MacQueen) در سال ۱۹۶۷ به منظور معرفی خوشهبندی تفکیکی طی مقالهای، معرفی شد. بعدها الگوریتم پیشنهادی وی، توسط «استوارت لوید» (Stuart Lloyd)، مورد بازبینی قرار گرفت و برای تبدیل پالس به کد در «آزمایشگاههای بل» (Bell Laboratory) به کار رفت. این الگوریتم به طور مستقل توسط فرد دیگری به نام «ادوارد فورجی» (Edward W. Forgy) نیز ابداع شد و به همین علت گاهی این الگوریتم را به نام «لوید-فورجی» (Lloyd- Forgy) میشناسند.
در این نوشتار میخواهیم به کمک این الگوریتم، عمل کاهش رنگ تصویر با خوشه بندی را انجام دهیم. در حقیقت با این کار رنگهای موجود در یک تصویر کمتر از حالت عادی خواهند شد. در این بین از زبان برنامهنویسی و محاسبات آماری R و بعضی از کتابخانههای آن بهره خواهیم برد. برای انجام این کار، مراحل یا گامهای زیر را طی خواهیم کرد.
🔸 معرفی فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش های خوشه بندی هوشمند
در گاهی از اوقات تکنیک کاهش رنگ تصویر با استفاده از خوشه بندی صورت میگیرد. خوشبختانه در یکی از آموزشهای فرادرس در حوزه خوشهبندی و پردازش تصویر، به نام فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روشهای خوشه بندی هوشمند، با صرف زمانی حدود یک ساعت و هجده دقیقه، میتوانید با سه الگوریتم معروف خوشهبندی تفکیکی، تکنیکهای کاهش رنگ را تجربه کنید.
کاهش رنگ یا Color Reduction (یا Color Quantization) یکی از راهکارهای کاهش حجم تصاویر نیز هستند. در این آموزش از فرادرس، کاربرد سه سبک یا شیوه خوشهبندی برای کاهش رنگ در تصاویر، به صورت عملی با کدهای متلب آموزش داده میشود. الگوریتمهای خوشهبندی به کار رفته در این آموزش به قرار زیر هستند.
مطالعه ادامه مطلب 👇👇
🔗 کاهش رنگ تصویر با خوشه بندی | پیاده سازی در R — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ مجموعه داده های رایگان و قابل دانلود برای علم داده و یادگیری ماشین
پرسشی که برای بسیاری از افراد مطرح میشود آن است که چه «مجموعه داده های» (Data Set) بازی (Open) برای «یادگیری ماشین» (Machine Learning) وجود دارند که به صورت رایگان و بدون هر گونه انحصار قابل دانلود باشند؟ در ادامه لیستی از مجموعه دادههای یادگیری ماشین با کیفیت و متنوع در حوزههای گوناگون برای یادگیری ماشین آورده شده است.
══ فهرست مطالب ══
○ پیدا کردن مجموعه داده
○ مجموعه دادههای عمومی
○ یادگیری ماشین
🔸 پیدا کردن مجموعه داده
در ادامه روشهایی برای پیدا کردن مجموعه دادههای متنوع در زمینههای گوناگون بیان شده است.
Kaggle (+): یک سایت در حوزه «علم داده» (Data Science) و حاوی مجموعه دادههای متنوع و جالب توجهی است که توسط مشارکتکنندگان گوناگون فراهم شدهاند. میتوان انواع مجموعه دادهها را از این قسمت (+) یافت. تنوع این مجموعه دادهها بسیار بالا است و حوزههای گوناگونی از دادههای بسکتبال (+) گرفته تا گواهینامه حیوانات خانگی در سیاتل (+) و امتیازدهی به رامن (نوعی غذای ژاپنی) (+) را شامل میشود.
مخزن یادگیری ماشین UCI (+): یکی از قدیمیترین منابع از مجموعه دادههای روی وب است که میتوان در آن به دنبال مجموعه دادههای جالب توجه گشت. با توجه به اینکه مجموعه دادهها با مشارکت کاربران تهیه شدهاند دارای سطوح گوناگونی از پاکیزگی هستند، ولیکن اغلب آنها پاکسازی شده محسوب میشوند. امکان دانلود مجموعه دادهها از «UCI Machine Learning» به طور مستقیم و بدون ثبتنام وجود دارد.
🔸 مجموعه دادههای عمومی
در ادامه برخی از مجموعه دادههای عمومی در حوزههای گوناگون معرفی شدهاند.
Data.gov (+): این سایت امکان دانلود داده از چندین سازمان دولتی آمریکا را فراهم میکند. این دادهها از بودجه دولتی گرفته تا امتیاز کارایی مدارس را شامل میشوند. اغلب این دادهها نیازمند انجام پژوهشهای بیشتری هستند.
Food Environment Atlas (+): حاوی دادههایی پیرامون این محبث است که چگونه انتخاب غذاها به طور محلی، رژیم غذایی را در ایالات متحده آمریکا (USA) تحت تاثیر قرار میدهد.
مطالعه ادامه مطلب 👇👇
🔗 مجموعه داده های رایگان و قابل دانلود برای علم داده و یادگیری ماشین — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
پرسشی که برای بسیاری از افراد مطرح میشود آن است که چه «مجموعه داده های» (Data Set) بازی (Open) برای «یادگیری ماشین» (Machine Learning) وجود دارند که به صورت رایگان و بدون هر گونه انحصار قابل دانلود باشند؟ در ادامه لیستی از مجموعه دادههای یادگیری ماشین با کیفیت و متنوع در حوزههای گوناگون برای یادگیری ماشین آورده شده است.
══ فهرست مطالب ══
○ پیدا کردن مجموعه داده
○ مجموعه دادههای عمومی
○ یادگیری ماشین
🔸 پیدا کردن مجموعه داده
در ادامه روشهایی برای پیدا کردن مجموعه دادههای متنوع در زمینههای گوناگون بیان شده است.
Kaggle (+): یک سایت در حوزه «علم داده» (Data Science) و حاوی مجموعه دادههای متنوع و جالب توجهی است که توسط مشارکتکنندگان گوناگون فراهم شدهاند. میتوان انواع مجموعه دادهها را از این قسمت (+) یافت. تنوع این مجموعه دادهها بسیار بالا است و حوزههای گوناگونی از دادههای بسکتبال (+) گرفته تا گواهینامه حیوانات خانگی در سیاتل (+) و امتیازدهی به رامن (نوعی غذای ژاپنی) (+) را شامل میشود.
مخزن یادگیری ماشین UCI (+): یکی از قدیمیترین منابع از مجموعه دادههای روی وب است که میتوان در آن به دنبال مجموعه دادههای جالب توجه گشت. با توجه به اینکه مجموعه دادهها با مشارکت کاربران تهیه شدهاند دارای سطوح گوناگونی از پاکیزگی هستند، ولیکن اغلب آنها پاکسازی شده محسوب میشوند. امکان دانلود مجموعه دادهها از «UCI Machine Learning» به طور مستقیم و بدون ثبتنام وجود دارد.
🔸 مجموعه دادههای عمومی
در ادامه برخی از مجموعه دادههای عمومی در حوزههای گوناگون معرفی شدهاند.
Data.gov (+): این سایت امکان دانلود داده از چندین سازمان دولتی آمریکا را فراهم میکند. این دادهها از بودجه دولتی گرفته تا امتیاز کارایی مدارس را شامل میشوند. اغلب این دادهها نیازمند انجام پژوهشهای بیشتری هستند.
Food Environment Atlas (+): حاوی دادههایی پیرامون این محبث است که چگونه انتخاب غذاها به طور محلی، رژیم غذایی را در ایالات متحده آمریکا (USA) تحت تاثیر قرار میدهد.
مطالعه ادامه مطلب 👇👇
🔗 مجموعه داده های رایگان و قابل دانلود برای علم داده و یادگیری ماشین — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ فیلم آموزش «کهاد ماتریس» در ۳ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ فیلم آموزش «کهاد ماتریس» در ۳ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
✳️ داده کاوی (Data Mining) — از صفر تا صد
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند. از سوی دیگر، همه روزه حجم عظیمی از دادههای علمی در زمینههای گوناگون تولید میشوند.
══ فهرست مطالب ══
○ داده کاوی چیست؟
○ تاریخچه دادهکاوی
○ چرا دادهکاوی؟
○ انواع منابع داده
○ فرایند دادهکاوی
○ مشکلات دادهکاوی
○ اصطلاحشناسی
○
○ ماهیت مساله دادهکاوی
○ مزایا و معایب دادهکاوی
○ کاربردهای دادهکاوی
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
۱. رشد انفجاری دادهها در گستره وسیعی از زمینهها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی میشود:
– دستگاههای ذخیرهسازی نسبت به گذشته ارزانتر و با ظرفیت نامحدود، مانند فضاهای ذخیرهسازی ابری
– ارتباطات سریعتر با سرعت اتصال بیشتر
– سیستمهای مدیریت پایگاه داده و پشتیبانی نرمافزاری بهتر
۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
در حال حاضر، یادگیری آماری، «تحلیل داده» و «علم داده» (Data Science) از دیگر عباراتی هستند که با معنای مشابه دادهکاوی مورد استفاده قرار میگیرند، حال آنکه گاه تفاوتهای ظریفی میان این موارد وجود دارد. برای آشنایی با این تفاوتها، مطالعه مطلب «علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها» توصیه میشود. همچنین، برای مطالعه همراه با جزئیات بیشتر پیرامون تاریخچه دادهکاوی، مطلب «دادهکاوی چیست؟ بخش اول: مبانی» پیشنهاد میشود.
از روشهای دادهکاوی در فرآیند طویل پژوهش و توسعه محصول استفاده میشود. از همین رو، تکامل دادهکاوی نیز از هنگامی آغاز شد که دادههای کسبوکارها روی کامپیوترها ذخیره شدند. دادهکاوی به کاربران امکان حرکت در میان دادهها را در زمان واقعی میدهد. از دادهکاوی در جامعه کسبوکار بدین دلیل استفاده میشود که از سه فناوری بلوغ یافته استفاده میکند، این فناوریها عبارتند از:
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند. از سوی دیگر، همه روزه حجم عظیمی از دادههای علمی در زمینههای گوناگون تولید میشوند.
══ فهرست مطالب ══
○ داده کاوی چیست؟
○ تاریخچه دادهکاوی
○ چرا دادهکاوی؟
○ انواع منابع داده
○ فرایند دادهکاوی
○ مشکلات دادهکاوی
○ اصطلاحشناسی
○
○ ماهیت مساله دادهکاوی
○ مزایا و معایب دادهکاوی
○ کاربردهای دادهکاوی
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
۱. رشد انفجاری دادهها در گستره وسیعی از زمینهها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی میشود:
– دستگاههای ذخیرهسازی نسبت به گذشته ارزانتر و با ظرفیت نامحدود، مانند فضاهای ذخیرهسازی ابری
– ارتباطات سریعتر با سرعت اتصال بیشتر
– سیستمهای مدیریت پایگاه داده و پشتیبانی نرمافزاری بهتر
۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
در حال حاضر، یادگیری آماری، «تحلیل داده» و «علم داده» (Data Science) از دیگر عباراتی هستند که با معنای مشابه دادهکاوی مورد استفاده قرار میگیرند، حال آنکه گاه تفاوتهای ظریفی میان این موارد وجود دارد. برای آشنایی با این تفاوتها، مطالعه مطلب «علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها» توصیه میشود. همچنین، برای مطالعه همراه با جزئیات بیشتر پیرامون تاریخچه دادهکاوی، مطلب «دادهکاوی چیست؟ بخش اول: مبانی» پیشنهاد میشود.
از روشهای دادهکاوی در فرآیند طویل پژوهش و توسعه محصول استفاده میشود. از همین رو، تکامل دادهکاوی نیز از هنگامی آغاز شد که دادههای کسبوکارها روی کامپیوترها ذخیره شدند. دادهکاوی به کاربران امکان حرکت در میان دادهها را در زمان واقعی میدهد. از دادهکاوی در جامعه کسبوکار بدین دلیل استفاده میشود که از سه فناوری بلوغ یافته استفاده میکند، این فناوریها عبارتند از:
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ فیلم آموزش «کاربرد جبر خطی در علم داده و یادگیری ماشین - ماتریس الحاقی» در ۴ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ فیلم آموزش «کاربرد جبر خطی در علم داده و یادگیری ماشین - ماتریس الحاقی» در ۴ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
✳️ علم داده چیست؟
سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید میشده. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ دادههای تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.
══ فهرست مطالب ══
○ حجم بالای دادهها چگونه ذخیره میشوند؟
○ چرا دادهها مهم هستند؟
○ علم داده چیست؟
○ مزایای علم داده
○ تاریخچه
○ ارتباط آمار و علم داده
🔸 حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظههای ذخیرهسازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمیشود.
🔸 چرا دادهها مهم هستند؟
ژیاوی هان – دانشمند داده و نویسنده کتاب «دادهکاوی: مفاهیم و روشها»
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل دادهها جایگاه قابل توجهی در میان شرکتهای پیشرو در جهان طی این سال کسب کردهاند.
مطالعه ادامه مطلب 👇👇
🔗 علم داده چیست؟ — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید میشده. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ دادههای تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.
══ فهرست مطالب ══
○ حجم بالای دادهها چگونه ذخیره میشوند؟
○ چرا دادهها مهم هستند؟
○ علم داده چیست؟
○ مزایای علم داده
○ تاریخچه
○ ارتباط آمار و علم داده
🔸 حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظههای ذخیرهسازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمیشود.
🔸 چرا دادهها مهم هستند؟
ژیاوی هان – دانشمند داده و نویسنده کتاب «دادهکاوی: مفاهیم و روشها»
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل دادهها جایگاه قابل توجهی در میان شرکتهای پیشرو در جهان طی این سال کسب کردهاند.
مطالعه ادامه مطلب 👇👇
🔗 علم داده چیست؟ — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ فیلم آموزش «بردارهای ویژه و مقادیر ویژه» در ۴ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.👇
❇️ فیلم آموزش «بردارهای ویژه و مقادیر ویژه» در ۴ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.👇
🔴 رایگان آموزش ببینید و مهارت کسب کنید.
🌟 معرفی آموزشهای رایگان و پرطرفدار فرادرس
♨️ صدها عنوان آموزش رایگان فرادرس در دسترس هستند که در طول ماه، توسط دهها هزار دانشجو مورد مطالعه قرار میگیرند.
شما عزیزان نیز میتوانید با مراجعه به لینکهای زیر، آموزشهای پرمخاطب در دستهبندی مورد نظر خود را مشاهده کرده و رایگان دانلود کنید👇
✅ آموزشهای رایگان دادهکاوی [+]
📚 تمامی آموزشهای رایگان و پرمخاطب [+]
@FaraDars - فرادرس
🔴 رایگان آموزش ببینید و مهارت کسب کنید.
🌟 معرفی آموزشهای رایگان و پرطرفدار فرادرس
♨️ صدها عنوان آموزش رایگان فرادرس در دسترس هستند که در طول ماه، توسط دهها هزار دانشجو مورد مطالعه قرار میگیرند.
شما عزیزان نیز میتوانید با مراجعه به لینکهای زیر، آموزشهای پرمخاطب در دستهبندی مورد نظر خود را مشاهده کرده و رایگان دانلود کنید👇
✅ آموزشهای رایگان دادهکاوی [+]
📚 تمامی آموزشهای رایگان و پرمخاطب [+]
@FaraDars - فرادرس
✳️ یادگیری علم داده (Data Science) با پایتون — از صفر تا صد
همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار میساخت آغاز شد. «تحلیل داده» (Data Analytics) و «دادهکاوی» (Data Mining) خیلی زود به گرایشهای روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسبوکارها نیز به دلیل کاربردها و مزایای متعدد این حوزهها به آنها روی آوردند.
══ فهرست مطالب ══
○ ۱. مبانی پایتون برای تحلیل داده
○ کتابخانهها و ساختارهای داده در پایتون
○ پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
○ ساخت یک مدل پیشبین در پایتون
○ سخن پایانی
🔸 ۱. مبانی پایتون برای تحلیل داده
در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شدهاند.
پایتون اخیرا توجهات زیادی را به عنوان زبان منتخب برای تحلیل داده به خود جلب کرده است. در ادامه برخی مزایای پایتون که موجب شده تا به یکی از ابزارهای اصلی تحلیلگران داده مبدل شود بیان شدهاند.
– متنباز بودن و نصب رایگان
– جامعه آنلاین فوقالعاده
– یادگیری بسیار آسان
– قابلیت تبدیل شدن به یک زمان متداول برای علم داده و تولید محصولات تحلیلی مبتنی بر وب
البته پایتون در کنار مزایا، معیابی نیز دارد که مهمترین آنها در ادمه بیان شده است.
🔸 کتابخانهها و ساختارهای داده در پایتون
پیش از آن که به طور جدیتر به حل مساله پرداخته شود، یک گام عقبتر رفته و به مبانی پایتون پرداخته میشود. چنانکه مشهود است ساختارهای داده، حلقهها و ساختارهای شرطی مبانی زبانهای برنامهنویسی را شکل میدهند. در پایتون، لیستها (lists)، رشتهها (strings)، تاپلها (tuples) و دیکشنریها (dictionaries) از جمله ساختارهای داده، for و while از حلقهها و if-else از جمله ساختارهای شرطی است.
در ادامه برخی از ساختارهای داده مورد استفاده در پایتون بیان شدهاند. برای استفاده درست و موثر از این ساختارها، آشنایی با آنها نیاز است.
لیستها (Lists): لیستها یکی از همهکارترین ساختارها در پایتون هستند. یک لیست را میتوان به سادگی با نوشتن مجموعهای از مقادیر جدا شده به وسیله ویرگول در میان دو کروشه تعریف کرد. لیستها ممکن است شامل آیتمهایی از انواع گوناگون باشند، اما معمولا کلیه آیتمهای یک لیست نوع یکسانی دارند. لیستهای پایتون و عناصر منفرد از لیست قابل تغییر هستند. در ادامه مثالی برای تعریف لیست و دسترسی به آن ارائه شده است.
مطالعه ادامه مطلب 👇👇
🔗 یادگیری علم داده (Data Science) با پایتون — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار میساخت آغاز شد. «تحلیل داده» (Data Analytics) و «دادهکاوی» (Data Mining) خیلی زود به گرایشهای روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسبوکارها نیز به دلیل کاربردها و مزایای متعدد این حوزهها به آنها روی آوردند.
══ فهرست مطالب ══
○ ۱. مبانی پایتون برای تحلیل داده
○ کتابخانهها و ساختارهای داده در پایتون
○ پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
○ ساخت یک مدل پیشبین در پایتون
○ سخن پایانی
🔸 ۱. مبانی پایتون برای تحلیل داده
در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شدهاند.
پایتون اخیرا توجهات زیادی را به عنوان زبان منتخب برای تحلیل داده به خود جلب کرده است. در ادامه برخی مزایای پایتون که موجب شده تا به یکی از ابزارهای اصلی تحلیلگران داده مبدل شود بیان شدهاند.
– متنباز بودن و نصب رایگان
– جامعه آنلاین فوقالعاده
– یادگیری بسیار آسان
– قابلیت تبدیل شدن به یک زمان متداول برای علم داده و تولید محصولات تحلیلی مبتنی بر وب
البته پایتون در کنار مزایا، معیابی نیز دارد که مهمترین آنها در ادمه بیان شده است.
🔸 کتابخانهها و ساختارهای داده در پایتون
پیش از آن که به طور جدیتر به حل مساله پرداخته شود، یک گام عقبتر رفته و به مبانی پایتون پرداخته میشود. چنانکه مشهود است ساختارهای داده، حلقهها و ساختارهای شرطی مبانی زبانهای برنامهنویسی را شکل میدهند. در پایتون، لیستها (lists)، رشتهها (strings)، تاپلها (tuples) و دیکشنریها (dictionaries) از جمله ساختارهای داده، for و while از حلقهها و if-else از جمله ساختارهای شرطی است.
در ادامه برخی از ساختارهای داده مورد استفاده در پایتون بیان شدهاند. برای استفاده درست و موثر از این ساختارها، آشنایی با آنها نیاز است.
لیستها (Lists): لیستها یکی از همهکارترین ساختارها در پایتون هستند. یک لیست را میتوان به سادگی با نوشتن مجموعهای از مقادیر جدا شده به وسیله ویرگول در میان دو کروشه تعریف کرد. لیستها ممکن است شامل آیتمهایی از انواع گوناگون باشند، اما معمولا کلیه آیتمهای یک لیست نوع یکسانی دارند. لیستهای پایتون و عناصر منفرد از لیست قابل تغییر هستند. در ادامه مثالی برای تعریف لیست و دسترسی به آن ارائه شده است.
مطالعه ادامه مطلب 👇👇
🔗 یادگیری علم داده (Data Science) با پایتون — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
👍1
✳️ هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف
هادوپ یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها ممکن میسازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحملپذیری خطای بالا طراحی شده است. به جای تکیه بر سختافزارهای گرانقیمت، تحملپذیری در مقابل خطا در این خوشهها از توانایی نرمافزاری در تشخیص و ادارهی خرابی در لایه کاربرد میآید. استفادهکنندگان برجسته هادوپ، فیسبوک و یاهو هستند. RPC یا Remote Procedure Call نیز یکی از پروتکلهای به کار گرفته شده در محاسبات توزیعی به حساب میآید.
══ فهرست مطالب ══
○ مقدمه
○ چارچوب هادوپ
○ Map/Reduce هادوپ
○ HDFS هادوپ
🔸 مقدمه
هسته اصلی هادوپ از یک بخش ذخیرهسازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایلها را به بلوکهای بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع میکند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال میکند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره میبرد (نودها بر روی بخشی از داده کار میکنند که در دسترشان قرار دارد). بدین ترتیب دادهها سریعتر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل میکند، پردازش میشوند.
چارچوب هادوپ همانطور که گفته شد به زبان جاوا نوشته شده است، اما از زبان C و همچنین از شل-اسکریپت نیز در بخشهایی از آن بهره گرفته شده است. کاربران نهایی میتوانند در کار با هادوپ، هر زبان برنامهنویسیای را برای پیادهسازی بخشهای “map” و “reduce” به کار ببرند.
🔸 چارچوب هادوپ
چارچوب اصلی هادوپ از ماژولهای زیر تشکیل شده است:
– بخش مشترکات هادوپ: شامل کتابخانهها و utilityهای لازم توسط دیگر ماژولهای هادوپ است.
– سیستم فایل توزیع شده هادوپ (HDFS): یک سیستم فایل توزیع شده است که داده را بر روی ماشینهای خوشه ذخیره کرده و پهنای باند وسیعی را به وجود میآورد.
– YARN هادوپ: یک پلتفرم مدیریت منابع که مسئول مدیریت منابع محاسباتی در خوشهها است.
– Map/Reduce هادوپ: یک مدل برنامهنویسی برای پردازش داده در مقیاسهای بالا است.
در واقع هادوپ یک سیستم فایل توزیع شده تهیه میکند که میتواند داده را بر روی هزاران سرور ذخیره کند، و تسک (وظیفه) را بر روی این ماشینها پخش کرده (کارهای Map/Reduce)، و کار را در کنار داده انجام میدهد.
مطالعه ادامه مطلب 👇👇
🔗 هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
هادوپ یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها ممکن میسازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحملپذیری خطای بالا طراحی شده است. به جای تکیه بر سختافزارهای گرانقیمت، تحملپذیری در مقابل خطا در این خوشهها از توانایی نرمافزاری در تشخیص و ادارهی خرابی در لایه کاربرد میآید. استفادهکنندگان برجسته هادوپ، فیسبوک و یاهو هستند. RPC یا Remote Procedure Call نیز یکی از پروتکلهای به کار گرفته شده در محاسبات توزیعی به حساب میآید.
══ فهرست مطالب ══
○ مقدمه
○ چارچوب هادوپ
○ Map/Reduce هادوپ
○ HDFS هادوپ
🔸 مقدمه
هسته اصلی هادوپ از یک بخش ذخیرهسازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایلها را به بلوکهای بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع میکند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال میکند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره میبرد (نودها بر روی بخشی از داده کار میکنند که در دسترشان قرار دارد). بدین ترتیب دادهها سریعتر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل میکند، پردازش میشوند.
چارچوب هادوپ همانطور که گفته شد به زبان جاوا نوشته شده است، اما از زبان C و همچنین از شل-اسکریپت نیز در بخشهایی از آن بهره گرفته شده است. کاربران نهایی میتوانند در کار با هادوپ، هر زبان برنامهنویسیای را برای پیادهسازی بخشهای “map” و “reduce” به کار ببرند.
🔸 چارچوب هادوپ
چارچوب اصلی هادوپ از ماژولهای زیر تشکیل شده است:
– بخش مشترکات هادوپ: شامل کتابخانهها و utilityهای لازم توسط دیگر ماژولهای هادوپ است.
– سیستم فایل توزیع شده هادوپ (HDFS): یک سیستم فایل توزیع شده است که داده را بر روی ماشینهای خوشه ذخیره کرده و پهنای باند وسیعی را به وجود میآورد.
– YARN هادوپ: یک پلتفرم مدیریت منابع که مسئول مدیریت منابع محاسباتی در خوشهها است.
– Map/Reduce هادوپ: یک مدل برنامهنویسی برای پردازش داده در مقیاسهای بالا است.
در واقع هادوپ یک سیستم فایل توزیع شده تهیه میکند که میتواند داده را بر روی هزاران سرور ذخیره کند، و تسک (وظیفه) را بر روی این ماشینها پخش کرده (کارهای Map/Reduce)، و کار را در کنار داده انجام میدهد.
مطالعه ادامه مطلب 👇👇
🔗 هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
👍1
Forwarded from مجله فرادرس
📙 دسته داده کاوی: پربازدیدترین مطالب اخیر «داده کاوی» مجله فرادرس
1️⃣ ساخت شبکه عصبی در پایتون — به زبان ساده
───────────────
2️⃣ یادگیری تقویتی — راهنمای ساده و کاربردی
───────────────
3️⃣ الگوریتم جنگل تصادفی — راهنمای جامع و کاربردی
───────────────
4️⃣ مجموعه داده های رایگان برای علم داده و یادگیری ماشین
───────────────
5️⃣ مقایسه علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین
#داده_کاوی
📚 سایر مطالب مجله فرادرس
🔗 fdrs.ir/blog
@FaraDarsMag — مجله فرادرس
📙 دسته داده کاوی: پربازدیدترین مطالب اخیر «داده کاوی» مجله فرادرس
1️⃣ ساخت شبکه عصبی در پایتون — به زبان ساده
───────────────
2️⃣ یادگیری تقویتی — راهنمای ساده و کاربردی
───────────────
3️⃣ الگوریتم جنگل تصادفی — راهنمای جامع و کاربردی
───────────────
4️⃣ مجموعه داده های رایگان برای علم داده و یادگیری ماشین
───────────────
5️⃣ مقایسه علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین
#داده_کاوی
📚 سایر مطالب مجله فرادرس
🔗 fdrs.ir/blog
@FaraDarsMag — مجله فرادرس
✳️ علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها
«علم داده» (data science)، «تحلیل دادهها» (Data analytics)، «یادگیری ماشین» (machine learning) و «دادهکاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از اینرو شرکتها بهدنبال کارشناسانی میگردند که با کیمیاگری دادهها به آنها در اتخاذ تصمیمهای چابک، اثرگذار و کارا در کسبوکار کمک کنند.
══ فهرست مطالب ══
○ علم داده چیست؟
○ چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
○ تحلیلگر داده کیست؟
○ چه مهارتهایی برای مبدل شدن به یک تحلیلگر داده مورد نیاز است؟
○ آیا بین علم داده و تحلیل داده همپوشانی وجود دارد؟
○ یادگیری ماشین چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
○ آیا بین یادگیری ماشین و علم داده همپوشانی وجود دارد؟
○ دادهکاوی چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک دادهکاو مورد نیاز است؟
○ آیا همپوشانی بین دادهکاوی و علم داده وجود دارد؟
🔸 علم داده چیست؟
افراد زیادی برای بیش از یک دهه تلاش کردهاند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است. این نمودار توسط «هوق کانوی» (Hugh Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنهای که محاسبات و خلاصهسازی در آن انجام میشود) و مهارتهای هک میشود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.
علم داده مفهومی است که برای کار با دادههای کلان (مِهداده) به کار میرود و شامل پاکسازی، آمادهسازی و تحلیل داده میشود. یک دانشمند داده، دادهها را از چندین منبع گردآوردی کرده و تحلیلهای پیشبین و یادگیری ماشین را بر آنها اعمال میکند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه دادههای گردآوری شده بهره میبرد. این دانشمندان، دادهها را از نقطه نظر کسبوکار درک میکنند و قادر به فراهم کردن پیشبینیها و بینشهای صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسبوکار قابل استفاده است.
🔸 چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند. با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
– دانش قوی از پایتون، R، اسکالا و SAS
– مهارت داشتن در نوشتن کدهای پایگاه داده SQL
– توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
– درک توابع تحلیل چندگانه
– دانش یادگیری ماشین
مطالعه ادامه مطلب 👇👇
🔗 علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«علم داده» (data science)، «تحلیل دادهها» (Data analytics)، «یادگیری ماشین» (machine learning) و «دادهکاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از اینرو شرکتها بهدنبال کارشناسانی میگردند که با کیمیاگری دادهها به آنها در اتخاذ تصمیمهای چابک، اثرگذار و کارا در کسبوکار کمک کنند.
══ فهرست مطالب ══
○ علم داده چیست؟
○ چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
○ تحلیلگر داده کیست؟
○ چه مهارتهایی برای مبدل شدن به یک تحلیلگر داده مورد نیاز است؟
○ آیا بین علم داده و تحلیل داده همپوشانی وجود دارد؟
○ یادگیری ماشین چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
○ آیا بین یادگیری ماشین و علم داده همپوشانی وجود دارد؟
○ دادهکاوی چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک دادهکاو مورد نیاز است؟
○ آیا همپوشانی بین دادهکاوی و علم داده وجود دارد؟
🔸 علم داده چیست؟
افراد زیادی برای بیش از یک دهه تلاش کردهاند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است. این نمودار توسط «هوق کانوی» (Hugh Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنهای که محاسبات و خلاصهسازی در آن انجام میشود) و مهارتهای هک میشود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.
علم داده مفهومی است که برای کار با دادههای کلان (مِهداده) به کار میرود و شامل پاکسازی، آمادهسازی و تحلیل داده میشود. یک دانشمند داده، دادهها را از چندین منبع گردآوردی کرده و تحلیلهای پیشبین و یادگیری ماشین را بر آنها اعمال میکند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه دادههای گردآوری شده بهره میبرد. این دانشمندان، دادهها را از نقطه نظر کسبوکار درک میکنند و قادر به فراهم کردن پیشبینیها و بینشهای صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسبوکار قابل استفاده است.
🔸 چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند. با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
– دانش قوی از پایتون، R، اسکالا و SAS
– مهارت داشتن در نوشتن کدهای پایگاه داده SQL
– توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
– درک توابع تحلیل چندگانه
– دانش یادگیری ماشین
مطالعه ادامه مطلب 👇👇
🔗 علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
Forwarded from FaraDars | فرادرس
📱 در شبکههای اجتماعی فرادرس چه مطالبی منتشر میشود؟
✔️ اطلاعرسانی فرصتهای ویژه و جشنوارههای تخفیف
✔️ اطلاعرسانی جدیدترین آموزشهای منتشر شده همراه با تخفیف ویژه انتشار
✔️ انتشار مطالب، مقالات و ویدئوهای آموزشی رایگان
✔️ اطلاعرسانی آخرین رویدادها و وبینارها
✔️ برگزاری مسابقات و طرحهای تخفیف همراه با هدایای آموزشی
☸️ فرادرس را در شبکههای اجتماعی و کانالهای ارتباطی مختلف دنبال کنید.👇👇👇
📌 اینستاگرام
🔗 instagram.com/FaraDars
📌 یوتیوب
🔗 youtube.com/c/FaraDarsCourses
📌 لینکدین
🔗 linkedin.com/company/FaraDars
📌 توئیتر
🔗 twitter.com/FaraDars
📌 کانال رسمی تلگرام
🔗 t.me/FaraDars
📌 کانال فرصتهای ویژه (فراپُن)
🔗 t.me/FaraPon
📌 کانال تازههای نشر
🔗 t.me/FDPub
📌 کانالهای موضوعی و تخصصی
🔗 t.me/faradars/5006
_______________
📚 فرادرس
دانش در دسترس همه
همیشه و همه جا
@FaraDars — فرادرس
📱 در شبکههای اجتماعی فرادرس چه مطالبی منتشر میشود؟
✔️ اطلاعرسانی فرصتهای ویژه و جشنوارههای تخفیف
✔️ اطلاعرسانی جدیدترین آموزشهای منتشر شده همراه با تخفیف ویژه انتشار
✔️ انتشار مطالب، مقالات و ویدئوهای آموزشی رایگان
✔️ اطلاعرسانی آخرین رویدادها و وبینارها
✔️ برگزاری مسابقات و طرحهای تخفیف همراه با هدایای آموزشی
☸️ فرادرس را در شبکههای اجتماعی و کانالهای ارتباطی مختلف دنبال کنید.👇👇👇
📌 اینستاگرام
🔗 instagram.com/FaraDars
📌 یوتیوب
🔗 youtube.com/c/FaraDarsCourses
📌 لینکدین
🔗 linkedin.com/company/FaraDars
📌 توئیتر
🔗 twitter.com/FaraDars
📌 کانال رسمی تلگرام
🔗 t.me/FaraDars
📌 کانال فرصتهای ویژه (فراپُن)
🔗 t.me/FaraPon
📌 کانال تازههای نشر
🔗 t.me/FDPub
📌 کانالهای موضوعی و تخصصی
🔗 t.me/faradars/5006
_______________
📚 فرادرس
دانش در دسترس همه
همیشه و همه جا
@FaraDars — فرادرس
✳️ چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع
علم داده، تحلیل داده و دادهکاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینهها به میزانی است که در دانشگاههای گوناگون سراسر جهان دورههای اختصاصی برای آنها تدوین شده. این در حالیست که تعداد پژوهشهای آکادمیک پیرامون این حوزهها نیز همواره رو به رشد است.
🔸 نقشه راه مبدل شدن به دانشمند داده
یادگیری علم داده در گام اول نیازمند یک انتخاب است! انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصتهای شغلی، درآمد و طول دوره یادگیری آن انجام شود. از اینرو توصیه میشود که علاقمندان به دادهکاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمانهای مردمنهاد مربوط به دادهکاوان و دانشمندان داده حضور پیدا کنند.
انجام گفتوگوی تخصصی با خبرگان این حوزه نیز میتواند به شکلگیری ذهنیت بهتری از فضای شغلی دانشمندان داده کمک شایان توجهی کند. پس از این مراحل است که فرد میتواند تصمیم بگیرد آیا علاقمند به گام نهادن در مسیر پر پیج و خم و طولانی آموختن علم داده و مبدل شدن به یک دانشمند داده هست یا خیر! اما اگر فردی تصمیم قاطع خود را اتخاذ کرده، توصیه میشود که ادامه این مطلب را مطالعه کند.
همانطور که پیش از این نیز بیان شد، برای فعالیت در حوزه علم داده نیاز به فراگیری علوم گوناگونی است. گامهای لازم برای آموختن آنچه از فرد یک دانشمند داده میسازد در ادامه بیان شدهاند.
مطالعه ادامه مطلب 👇👇
🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
علم داده، تحلیل داده و دادهکاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینهها به میزانی است که در دانشگاههای گوناگون سراسر جهان دورههای اختصاصی برای آنها تدوین شده. این در حالیست که تعداد پژوهشهای آکادمیک پیرامون این حوزهها نیز همواره رو به رشد است.
🔸 نقشه راه مبدل شدن به دانشمند داده
یادگیری علم داده در گام اول نیازمند یک انتخاب است! انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصتهای شغلی، درآمد و طول دوره یادگیری آن انجام شود. از اینرو توصیه میشود که علاقمندان به دادهکاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمانهای مردمنهاد مربوط به دادهکاوان و دانشمندان داده حضور پیدا کنند.
انجام گفتوگوی تخصصی با خبرگان این حوزه نیز میتواند به شکلگیری ذهنیت بهتری از فضای شغلی دانشمندان داده کمک شایان توجهی کند. پس از این مراحل است که فرد میتواند تصمیم بگیرد آیا علاقمند به گام نهادن در مسیر پر پیج و خم و طولانی آموختن علم داده و مبدل شدن به یک دانشمند داده هست یا خیر! اما اگر فردی تصمیم قاطع خود را اتخاذ کرده، توصیه میشود که ادامه این مطلب را مطالعه کند.
همانطور که پیش از این نیز بیان شد، برای فعالیت در حوزه علم داده نیاز به فراگیری علوم گوناگونی است. گامهای لازم برای آموختن آنچه از فرد یک دانشمند داده میسازد در ادامه بیان شدهاند.
مطالعه ادامه مطلب 👇👇
🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ الگوریتم جنگل تصادفی (Random Forest) — راهنمای جامع و کاربردی
«جنگل تصادفی» (Random Forest)، یک الگوریتم یادگیری ماشین با قابلیت استفاده آسان است که اغلب اوقات نتایج بسیار خوبی را حتی بدون تنظیم فراپارامترهای آن، فراهم میکند. این الگوریتم به دلیل سادگی و قابلیت استفاده، هم برای «دستهبندی» (Classification) و هم «رگرسیون» (Regression)، یکی از پر کاربردترین الگوریتمهای یادگیری ماشین محسوب میشود. در این مطلب، چگونگی عملکرد جنگل تصادفی و دیگر مباحث مهم پیرامون آن مورد بررسی قرار خواهند گرفت.
══ فهرست مطالب ══
○ درخت تصمیم، بلوک سازنده جنگل تصادفی
○ چگونگی عملکرد جنگل تصادفی
○ مثال جهان واقعی از جنگل تصادفی
○ اهمیت ویژگیها
○ تفاوت بین درخت تصمیم و جنگل تصادفی
○ هایپرپارامترهای مهم
○ مزایا و معایب
○ برخی از زمینههای کاربرد
○ خلاصه
🔸 درخت تصمیم، بلوک سازنده جنگل تصادفی
برای درک چگونگی عملکرد جنگل تصادفی، ابتدا باید الگوریتم «درخت تصمیم» (Decision Tree) که بلوک سازنده جنگل تصادفی است را آموخت. انسانها همه روزه از درخت تصمیم برای تصمیمگیریها و انتخابهای خود استفاده میکنند، حتی اگر ندانند آنچه که از آن بهره میبرند نوعی الگوریتم یادگیری ماشین است. برای شفاف کردن مفهوم الگوریتم درخت تصمیم، از یک مثال روزمره یعنی پیشبینی حداکثر درجه حرارت هوای شهر برای روز بعد (فردا) استفاده میشود.
در اینجا فرض بر آن است که که شهر مورد نظر سیاتل در ایالت واشینگتن واقع شده (این مثال قابل تعمیم به شهرهای گوناگون دیگر نیز هست). برای پاسخ دادن به پرسش ساده «درجه حرارت فردا چقدر است؟»، نیاز به کار کردن روی یک سری از کوئریها وجود دارد. این کار با ایجاد یک بازه درجه حرارات پیشنهادی اولیه که بر اساس «دانش زمینهای» (Domain Knowledge) انتخاب شده، انجام میشود.
در این مساله چنانچه در آغاز کار مشخص نباشد که «فردا» (که قرار است درجه حرارت آن حدس زده شود) مربوط به چه زمانی از سال است، بازه پیشنهادی اولیه میتواند بین ۳۰ الی ۷۰ درجه (فارنهایت) باشد. در ادامه و به تدریج، از طریق یک مجموعه پرسش و پاسخ، این بازه کاهش پیدا میکند تا اطمینان حاصل شود که میتوان یک پیشبینی به اندازه کافی مطمئن داشت.
🔸 چگونگی عملکرد جنگل تصادفی
جنگل تصادفی یک الگوریتم یادگیری نظارت شده محسوب میشود. همانطور که از نام آن مشهود است، این الگوریتم جنگلی را به طور تصادفی میسازد. «جنگل» ساخته شده، در واقع گروهی از «درختهای تصمیم» (Decision Trees) است. کار ساخت جنگل با استفاده از درختها اغلب اوقات به روش «کیسهگذاری» (Bagging) انجام میشود. ایده اصلی روش کیسهگذاری آن است که ترکیبی از مدلهای یادگیری، نتایج کلی مدل را افزایش میدهد. به بیان ساده، جنگل تصادفی چندین درخت تصمیم ساخته و آنها را با یکدیگر ادغام میکند تا پیشبینیهای صحیحتر و پایدارتری حاصل شوند.
یکی از مزایای جنگل تصادفی قابل استفاده بودن آن، هم برای مسائل دستهبندی و هم رگرسیون است که غالب سیستمهای یادگیری ماشین کنونی را تشکیل میدهند. در اینجا، عملکرد جنگل تصادفی برای انجام «دستهبندی» (Classification) تشریح خواهد شد، زیرا گاهی دستهبندی را به عنوان بلوک سازنده یادگیری ماشین در نظر میگیرند. در تصویر زیر، میتوان دو جنگل تصادفی ساخته شده از دو درخت را مشاهده کرد.
جنگل تصادفی دارای فراپارامترهایی مشابه درخت تصمیم یا «دستهبند کیسهگذاری» (Bagging Classifier) است. خوشبختانه، نیازی به ترکیب یک درخت تصمیم با یک دستهبند کیسهگذاری نیست و میتوان از «کلاس دستهبندی» (Classifier-Class) جنگل تصادفی استفاده کرد. چنانکه پیشتر بیان شد، با جنگل تصادفی، و در واقع «رگرسور جنگل تصادفی» (Random Forest Regressor) میتوان به حل مسائل رگرسیون نیز پرداخت.
مطالعه ادامه مطلب 👇👇
🔗 الگوریتم جنگل تصادفی (Random Forest) — راهنمای جامع و کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«جنگل تصادفی» (Random Forest)، یک الگوریتم یادگیری ماشین با قابلیت استفاده آسان است که اغلب اوقات نتایج بسیار خوبی را حتی بدون تنظیم فراپارامترهای آن، فراهم میکند. این الگوریتم به دلیل سادگی و قابلیت استفاده، هم برای «دستهبندی» (Classification) و هم «رگرسیون» (Regression)، یکی از پر کاربردترین الگوریتمهای یادگیری ماشین محسوب میشود. در این مطلب، چگونگی عملکرد جنگل تصادفی و دیگر مباحث مهم پیرامون آن مورد بررسی قرار خواهند گرفت.
══ فهرست مطالب ══
○ درخت تصمیم، بلوک سازنده جنگل تصادفی
○ چگونگی عملکرد جنگل تصادفی
○ مثال جهان واقعی از جنگل تصادفی
○ اهمیت ویژگیها
○ تفاوت بین درخت تصمیم و جنگل تصادفی
○ هایپرپارامترهای مهم
○ مزایا و معایب
○ برخی از زمینههای کاربرد
○ خلاصه
🔸 درخت تصمیم، بلوک سازنده جنگل تصادفی
برای درک چگونگی عملکرد جنگل تصادفی، ابتدا باید الگوریتم «درخت تصمیم» (Decision Tree) که بلوک سازنده جنگل تصادفی است را آموخت. انسانها همه روزه از درخت تصمیم برای تصمیمگیریها و انتخابهای خود استفاده میکنند، حتی اگر ندانند آنچه که از آن بهره میبرند نوعی الگوریتم یادگیری ماشین است. برای شفاف کردن مفهوم الگوریتم درخت تصمیم، از یک مثال روزمره یعنی پیشبینی حداکثر درجه حرارت هوای شهر برای روز بعد (فردا) استفاده میشود.
در اینجا فرض بر آن است که که شهر مورد نظر سیاتل در ایالت واشینگتن واقع شده (این مثال قابل تعمیم به شهرهای گوناگون دیگر نیز هست). برای پاسخ دادن به پرسش ساده «درجه حرارت فردا چقدر است؟»، نیاز به کار کردن روی یک سری از کوئریها وجود دارد. این کار با ایجاد یک بازه درجه حرارات پیشنهادی اولیه که بر اساس «دانش زمینهای» (Domain Knowledge) انتخاب شده، انجام میشود.
در این مساله چنانچه در آغاز کار مشخص نباشد که «فردا» (که قرار است درجه حرارت آن حدس زده شود) مربوط به چه زمانی از سال است، بازه پیشنهادی اولیه میتواند بین ۳۰ الی ۷۰ درجه (فارنهایت) باشد. در ادامه و به تدریج، از طریق یک مجموعه پرسش و پاسخ، این بازه کاهش پیدا میکند تا اطمینان حاصل شود که میتوان یک پیشبینی به اندازه کافی مطمئن داشت.
🔸 چگونگی عملکرد جنگل تصادفی
جنگل تصادفی یک الگوریتم یادگیری نظارت شده محسوب میشود. همانطور که از نام آن مشهود است، این الگوریتم جنگلی را به طور تصادفی میسازد. «جنگل» ساخته شده، در واقع گروهی از «درختهای تصمیم» (Decision Trees) است. کار ساخت جنگل با استفاده از درختها اغلب اوقات به روش «کیسهگذاری» (Bagging) انجام میشود. ایده اصلی روش کیسهگذاری آن است که ترکیبی از مدلهای یادگیری، نتایج کلی مدل را افزایش میدهد. به بیان ساده، جنگل تصادفی چندین درخت تصمیم ساخته و آنها را با یکدیگر ادغام میکند تا پیشبینیهای صحیحتر و پایدارتری حاصل شوند.
یکی از مزایای جنگل تصادفی قابل استفاده بودن آن، هم برای مسائل دستهبندی و هم رگرسیون است که غالب سیستمهای یادگیری ماشین کنونی را تشکیل میدهند. در اینجا، عملکرد جنگل تصادفی برای انجام «دستهبندی» (Classification) تشریح خواهد شد، زیرا گاهی دستهبندی را به عنوان بلوک سازنده یادگیری ماشین در نظر میگیرند. در تصویر زیر، میتوان دو جنگل تصادفی ساخته شده از دو درخت را مشاهده کرد.
جنگل تصادفی دارای فراپارامترهایی مشابه درخت تصمیم یا «دستهبند کیسهگذاری» (Bagging Classifier) است. خوشبختانه، نیازی به ترکیب یک درخت تصمیم با یک دستهبند کیسهگذاری نیست و میتوان از «کلاس دستهبندی» (Classifier-Class) جنگل تصادفی استفاده کرد. چنانکه پیشتر بیان شد، با جنگل تصادفی، و در واقع «رگرسور جنگل تصادفی» (Random Forest Regressor) میتوان به حل مسائل رگرسیون نیز پرداخت.
مطالعه ادامه مطلب 👇👇
🔗 الگوریتم جنگل تصادفی (Random Forest) — راهنمای جامع و کاربردی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ الگوریتم K-نزدیکترین همسایگی به همراه کد پایتون
«k-نزدیکترین همسایگی» (k-Nearest Neighbors) یک روش ناپارامتری است که در دادهکاوی، یادگیری ماشین و تشخیص الگو مورد استفاده قرار میگیرد. بر اساس آمارهای ارائه شده در وبسایت kdnuggets الگوریتم k-نزدیکترین همسایگی یکی از ده الگوریتمی است که بیشترین استفاده را در پروژههای گوناگون یادگیری ماشین و دادهکاوی، هم در صنعت و هم در دانشگاه داشته است.
══ فهرست مطالب ══
○ چه زمانی باید از الگوریتم k-نزدیکترین همسایگی استفاده کرد؟
○ الگوریتم k-نزدیکترین همسایگی چگونه کار میکند؟
○ شبه کد k-نزدیکترین همسایگی
○ مقایسه مدل ارائه شده در این نوشتار با scikit-learn
○ سخن پایانی
🔸 چه زمانی باید از الگوریتم k-نزدیکترین همسایگی استفاده کرد؟
الگوریتم k-نزدیکترین همسایگی برای مسائل طبقهبندی و رگرسیون قابل استفاده است. اگرچه، در اغلب مواقع از آن برای مسائل طبقهبندی استفاده میشود. برای ارزیابی هر روشی به طور کلی به سه جنبه مهم آن توجه میشود:
– سهولت تفسیر خروجیها
– زمان محاسبه
– قدرت پیشبینی
در جدول ۱ الگوریتم نزدیکترین همسایگی با الگوریتمهای «رگرسیون لجستیک»، «CART» و «جنگلهای تصادفی» (random forests) مقایسه شده است. همانگونه که از جدول مشخص است، الگوریتم k-نزدیکترین همسایگی بر اساس جنبههای بیان شده در بالا، نسبت به دیگر الگوریتمهای موجود در جایگاه مناسبی قرار دارد. این الگوریتم اغلب به دلیل سهولت تفسیر نتایج و زمان محاسبه پایین مورد استفاده قرار میگیرد.
🔸 الگوریتم k-نزدیکترین همسایگی چگونه کار میکند؟
برای درک بهتر شیوه کار این الگوریتم، عملکرد آن با یک مثال ساده مورد بررسی قرار گرفته است.
مطالعه ادامه مطلب 👇👇
🔗 الگوریتم K-نزدیکترین همسایگی به همراه کد پایتون — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«k-نزدیکترین همسایگی» (k-Nearest Neighbors) یک روش ناپارامتری است که در دادهکاوی، یادگیری ماشین و تشخیص الگو مورد استفاده قرار میگیرد. بر اساس آمارهای ارائه شده در وبسایت kdnuggets الگوریتم k-نزدیکترین همسایگی یکی از ده الگوریتمی است که بیشترین استفاده را در پروژههای گوناگون یادگیری ماشین و دادهکاوی، هم در صنعت و هم در دانشگاه داشته است.
══ فهرست مطالب ══
○ چه زمانی باید از الگوریتم k-نزدیکترین همسایگی استفاده کرد؟
○ الگوریتم k-نزدیکترین همسایگی چگونه کار میکند؟
○ شبه کد k-نزدیکترین همسایگی
○ مقایسه مدل ارائه شده در این نوشتار با scikit-learn
○ سخن پایانی
🔸 چه زمانی باید از الگوریتم k-نزدیکترین همسایگی استفاده کرد؟
الگوریتم k-نزدیکترین همسایگی برای مسائل طبقهبندی و رگرسیون قابل استفاده است. اگرچه، در اغلب مواقع از آن برای مسائل طبقهبندی استفاده میشود. برای ارزیابی هر روشی به طور کلی به سه جنبه مهم آن توجه میشود:
– سهولت تفسیر خروجیها
– زمان محاسبه
– قدرت پیشبینی
در جدول ۱ الگوریتم نزدیکترین همسایگی با الگوریتمهای «رگرسیون لجستیک»، «CART» و «جنگلهای تصادفی» (random forests) مقایسه شده است. همانگونه که از جدول مشخص است، الگوریتم k-نزدیکترین همسایگی بر اساس جنبههای بیان شده در بالا، نسبت به دیگر الگوریتمهای موجود در جایگاه مناسبی قرار دارد. این الگوریتم اغلب به دلیل سهولت تفسیر نتایج و زمان محاسبه پایین مورد استفاده قرار میگیرد.
🔸 الگوریتم k-نزدیکترین همسایگی چگونه کار میکند؟
برای درک بهتر شیوه کار این الگوریتم، عملکرد آن با یک مثال ساده مورد بررسی قرار گرفته است.
مطالعه ادامه مطلب 👇👇
🔗 الگوریتم K-نزدیکترین همسایگی به همراه کد پایتون — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ کاربرد جبر خطی در علم دادهها و یادگیری ماشین — بخش اول
یکی از سؤالات رایج در زمینه یادگیری «علم دادهها» (Data Science) و «یادگیری ماشین» (Machine Learning)، این است که برای تبدیلشدن به یک «داده پژوه» (Data Scientist)، چه میزان آشنایی با ریاضیات نیاز است؟ اگرچه این سؤال، ساده به نظر میرسد؛ جواب آسانی برای آن وجود ندارد. معمولاً، به علاقهمندان یادگیری حوزه علم دادهها گفته میشود که برای شروع یادگیری این حوزه، باید با مفاهیم پایهای آمار توصیفی و استنباطی آشنا شوند. یادگیری این مفاهیم برای شروع کار، بسیار مناسب است.
══ فهرست مطالب ══
○ فهرست مطالب
○ ۱- چرا باید جبر خطی را بیاموزیم؟
○ ۲- نمایش مسائل در جبر خطی
○ ۳- ماتریس
🔸 ۱- چرا باید جبر خطی را بیاموزیم؟
اگر در حال یادگیری علم دادهها و یادگیری ماشین هستید، چهار سناریوی مختلف را برای شما ارائه میکنیم تا متوجه شوید که چرا باید جبر خطی را یاد بگیرید؟
مطالعه ادامه مطلب 👇👇
🔗 کاربرد جبر خطی در علم دادهها و یادگیری ماشین — بخش اول — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
یکی از سؤالات رایج در زمینه یادگیری «علم دادهها» (Data Science) و «یادگیری ماشین» (Machine Learning)، این است که برای تبدیلشدن به یک «داده پژوه» (Data Scientist)، چه میزان آشنایی با ریاضیات نیاز است؟ اگرچه این سؤال، ساده به نظر میرسد؛ جواب آسانی برای آن وجود ندارد. معمولاً، به علاقهمندان یادگیری حوزه علم دادهها گفته میشود که برای شروع یادگیری این حوزه، باید با مفاهیم پایهای آمار توصیفی و استنباطی آشنا شوند. یادگیری این مفاهیم برای شروع کار، بسیار مناسب است.
══ فهرست مطالب ══
○ فهرست مطالب
○ ۱- چرا باید جبر خطی را بیاموزیم؟
○ ۲- نمایش مسائل در جبر خطی
○ ۳- ماتریس
🔸 ۱- چرا باید جبر خطی را بیاموزیم؟
اگر در حال یادگیری علم دادهها و یادگیری ماشین هستید، چهار سناریوی مختلف را برای شما ارائه میکنیم تا متوجه شوید که چرا باید جبر خطی را یاد بگیرید؟
مطالعه ادامه مطلب 👇👇
🔗 کاربرد جبر خطی در علم دادهها و یادگیری ماشین — بخش اول — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
👍1