❇️ چگونه یک دانشمند داده شوید؟
علم داده، تحلیل داده و دادهکاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینهها به میزانی است که در دانشگاههای گوناگون سراسر جهان دورههای اختصاصی برای آنها تدوین شده. این در حالیست که تعداد پژوهشهای آکادمیک پیرامون این حوزهها نیز همواره رو به رشد است.
🔹 فهرست مطالب این نوشته
▫️ نقشه راه مبدل شدن به دانشمند داده
▫️ آمار و احتمال و جبر خطی
▫️ زبانهای برنامهنویسی
▫️ یادگیری ماشین
▫️ داده کاوی
🔸 نقشه راه مبدل شدن به دانشمند داده
یادگیری علم داده در گام اول نیازمند یک انتخاب است؛ انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصتهای شغلی، درآمد و طول دوره یادگیری آن انجام شود. از اینرو توصیه میشود که علاقمندان به دادهکاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمانهای مردمنهاد مربوط به دادهکاوان و دانشمندان داده حضور پیدا کنند.
🔸 آمار و احتمال و جبر خطی
آمار و احتمال و جبر خطی از جمله مباحثی هستند که در علم داده کاربرد قابل توجهی دارند. بهرهگیری از مفاهیم آماری به گونهای با بحث تحلیل داده و دادهکاوی عجین شده که برخی از آماردانهای کلاسیک علم داده را شکل مدرن آمار و حتی معادل آن میدانند که به زعم آنها نام جدیدی به خود گرفته است.
🔸 زبانهای برنامهنویسی
مفاهیم و الگوریتمهای یادگیری ماشین کاربرد بسیار گسترده و مهمی در علم داده و دادهکاوی دارند. بنابراین برای تبدیل شدن به یک دانشمند داده یا دادهکاو زبده نیاز به یادگیری مفاهیم و روشهای این حوزه است.
🔸 دادهکاوی
دادهکاوی یک فرآیند هفت مرحلهای شامل پاکسازی، یکپارچهسازی، انتخاب داده (کاهش ابعاد)، نگاشت داده، دادهکاوی، ارزیابی و ارائه دانش است که هر یک از این مراحل نیاز به یادگیری مباحث خاصی دارند. همچنین پیش از آغاز فرآیند اصلی دادهکاوی فرد نیازمند فراگیری دانش دامنه (دانش در رابطه با زمینهای که قصد حل مساله در آن با استفاده از دادهکاوی وجود دارد) است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ چگونه یک دانشمند داده شوید؟
علم داده، تحلیل داده و دادهکاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینهها به میزانی است که در دانشگاههای گوناگون سراسر جهان دورههای اختصاصی برای آنها تدوین شده. این در حالیست که تعداد پژوهشهای آکادمیک پیرامون این حوزهها نیز همواره رو به رشد است.
🔹 فهرست مطالب این نوشته
▫️ نقشه راه مبدل شدن به دانشمند داده
▫️ آمار و احتمال و جبر خطی
▫️ زبانهای برنامهنویسی
▫️ یادگیری ماشین
▫️ داده کاوی
🔸 نقشه راه مبدل شدن به دانشمند داده
یادگیری علم داده در گام اول نیازمند یک انتخاب است؛ انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصتهای شغلی، درآمد و طول دوره یادگیری آن انجام شود. از اینرو توصیه میشود که علاقمندان به دادهکاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمانهای مردمنهاد مربوط به دادهکاوان و دانشمندان داده حضور پیدا کنند.
🔸 آمار و احتمال و جبر خطی
آمار و احتمال و جبر خطی از جمله مباحثی هستند که در علم داده کاربرد قابل توجهی دارند. بهرهگیری از مفاهیم آماری به گونهای با بحث تحلیل داده و دادهکاوی عجین شده که برخی از آماردانهای کلاسیک علم داده را شکل مدرن آمار و حتی معادل آن میدانند که به زعم آنها نام جدیدی به خود گرفته است.
🔸 زبانهای برنامهنویسی
مفاهیم و الگوریتمهای یادگیری ماشین کاربرد بسیار گسترده و مهمی در علم داده و دادهکاوی دارند. بنابراین برای تبدیل شدن به یک دانشمند داده یا دادهکاو زبده نیاز به یادگیری مفاهیم و روشهای این حوزه است.
🔸 دادهکاوی
دادهکاوی یک فرآیند هفت مرحلهای شامل پاکسازی، یکپارچهسازی، انتخاب داده (کاهش ابعاد)، نگاشت داده، دادهکاوی، ارزیابی و ارائه دانش است که هر یک از این مراحل نیاز به یادگیری مباحث خاصی دارند. همچنین پیش از آغاز فرآیند اصلی دادهکاوی فرد نیازمند فراگیری دانش دامنه (دانش در رابطه با زمینهای که قصد حل مساله در آن با استفاده از دادهکاوی وجود دارد) است.
ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.
🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع — کلیک کنید.
📌 کانال اختصاصی آموزشهای رایگان علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آزمون KMO و بارتلت در تحلیل عاملی | معیارهای کفایت حجم نمونه
در بررسی و تحقیقاتی که برمبنای تحلیل عاملی اکتشافی (EFA)، تعیین حجم نمونه و وجود همبستگی مناسب بین متغیرها از اهمیت ویژهای برخودار است. دو آزمون KMO و بارتلت در تحلیل عاملی به محققین این امکان را میدهند که قبل از اجرای تحلیل عاملی اکتشافی از بسندگی یا کفایت حجم نمونه و وجود کرویت در متغیرها مطمئن شده، سپس تحلیل عاملی را به کار برند. نرمافزارهای مختلفی نیز برای مشخص کردن شاخصها و اجرای آزمونهای مربوط به تحلیل عاملی وجود دارد که در این بین میتوان به نرمافزار SPSS نیز اشاره کرد. در نوشتارهای دیگر مجله فرادرس که در ادامه معرفی شدهاند، به بررسی مثالهایی برای بدست آوردن و اجرای آزمون KMO و بارتلت در تحلیل عاملی پرداختهایم ولی نوشتار جاری، به مفهوم و نحوه محاسبه این معیارها در آزمون KMO و بارتلت در تحلیل عاملی میپردازد.
══ فهرست مطالب ══
○ آزمون KMO و بارتلت در تحلیل عاملی
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون KMO و بارتلت در تحلیل عاملی
میدانید که رویکرد «تحلیل عاملی اکتشافی» (Exploratory Factor Analysis) در تحلیل عاملی، زمانی به کار میرود که از مدل و ارتباط بین متغیرها هیچ اطلاعی نداریم و قرار است با تکیه بر دادهها دست به تولید یا ایجاد یک مدل ارتباطی بزنیم. در این حالت، از تحلیل عاملی اکتشافی کمک گرفته و با توجه به ساختار ماتریس همبستگی یا کوواریانس، مدلی را پیشنهاد میدهیم. به همین علت به چنین وضعیتی تحلیل اکتشافی میگویند. سادهترین توضیح ممکن در مورد نحوه کار در این تکنیک آن است که سعی به ایجاد گروهی از متغیرها داریم که بسیار به هم مرتبط هستند و هر دسته یا گروه با بقیه متغیرها، وابستگی کمی دارد.
اما اگر در نمونهگیری و تعیین حداقل حجم مورد نیاز برای استفاده از EFA دچار مشکل باشیم، چگونه عمل خواهیم کرد. این امر به این معنی است که استفاده از قضیه حد مرکزی برای توجیه نرمال بودن توزیع دادهها و همچنین محاسبه و تفکیک ماتریس کوواریانس بدون دانستن ساختار ماتریس واریانس-کوواریانس در بین گروهها ممکن است با شکست مواجه شود. هر دو روش یعنی آزمون KMO و بارتلت در تحلیل عاملی راهکارهایی برای تشخیص چنین وضعیتی را ارائه میکنند. به همین علت، قبل از تحلیل EFA بهتر است به وسیله این معیارها، نسبت به شرایط اولیه EFA کسب اطلاع کرده، سپس تحلیل عاملی اکتشافی را به کار گیریم.
در ادامه نحوه محاسبه هر دو آمارهها و آزمون KMO و بارتلت در تحلیل عاملی و محدودههای قابل قبول برای آنها را بازگو خواهیم کرد.
🔸 معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
سرعت و سادگی در انجام محاسبات آماری از ویژگیهای مهم نرمافزار SAS محسوب میشود. از طرفی قدمت و پشتیبانی مناسب آن، کاربران زیادی را در حوزه محاسبات آماری به خود جلب کرده است. نرم افزار SAS مخفف Statistical Analysis System بوده از کاملترین نرم افزارهای شناخته شده آماری است. در اکثر موارد برای بیشتر پایاننامههای کارشناسی ارشد و دکتری در رشتههای علوم انسانی، علوم پایه، مهندسی و پزشکی از این نرمافزار برای اجرای آزمون و تحلیلهای آماری استفاده میکنند. در این آموزش سعی شده به زبان ساده و کاربردی به مباحث مقدماتی و پیشرفته این نرمافزار برای تحلیلهای آماری همچنین آزمون KMO و بارتلت در تحلیل عاملی اشاره شود. این آموزش در پانزده درس ارائه شده که سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه قابل مشاهده است.
– درس یکم: مقدمه ای بر SAS
– درس دوم: مدیریت داده ها
– درس سوم: مدیریت داده ها
– درس چهارم: محاسبه آمار توصیفی
– درس پنجم: آزمون های میانگین
– درس ششم: جداول توافقی
– درس هفتم: آزمون های همبستگی
– درس هشتم: رگرسیون خطی
– درس نهم: رگرسیون غیرخطی و لجستیک
– درس دهم: آزمون های ناپارامتریک
– درس یازدهم: طرح آزمایش ها
– درس دوازدهم: تحلیل مولفه های اصلی و آزمون KMO و بارتلت در تحلیل عاملی
– درس سیزدهم: رده بندی و ممیزی
– درس چهاردهم: کنترل کیفیت آماری
– درس پانزدهم: آشنایی با محیط IML
مطالعه ادامه مطلب 👇👇
🔗 آزمون KMO و بارتلت در تحلیل عاملی | معیارهای کفایت حجم نمونه — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در بررسی و تحقیقاتی که برمبنای تحلیل عاملی اکتشافی (EFA)، تعیین حجم نمونه و وجود همبستگی مناسب بین متغیرها از اهمیت ویژهای برخودار است. دو آزمون KMO و بارتلت در تحلیل عاملی به محققین این امکان را میدهند که قبل از اجرای تحلیل عاملی اکتشافی از بسندگی یا کفایت حجم نمونه و وجود کرویت در متغیرها مطمئن شده، سپس تحلیل عاملی را به کار برند. نرمافزارهای مختلفی نیز برای مشخص کردن شاخصها و اجرای آزمونهای مربوط به تحلیل عاملی وجود دارد که در این بین میتوان به نرمافزار SPSS نیز اشاره کرد. در نوشتارهای دیگر مجله فرادرس که در ادامه معرفی شدهاند، به بررسی مثالهایی برای بدست آوردن و اجرای آزمون KMO و بارتلت در تحلیل عاملی پرداختهایم ولی نوشتار جاری، به مفهوم و نحوه محاسبه این معیارها در آزمون KMO و بارتلت در تحلیل عاملی میپردازد.
══ فهرست مطالب ══
○ آزمون KMO و بارتلت در تحلیل عاملی
○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
○ خلاصه و جمعبندی
🔸 آزمون KMO و بارتلت در تحلیل عاملی
میدانید که رویکرد «تحلیل عاملی اکتشافی» (Exploratory Factor Analysis) در تحلیل عاملی، زمانی به کار میرود که از مدل و ارتباط بین متغیرها هیچ اطلاعی نداریم و قرار است با تکیه بر دادهها دست به تولید یا ایجاد یک مدل ارتباطی بزنیم. در این حالت، از تحلیل عاملی اکتشافی کمک گرفته و با توجه به ساختار ماتریس همبستگی یا کوواریانس، مدلی را پیشنهاد میدهیم. به همین علت به چنین وضعیتی تحلیل اکتشافی میگویند. سادهترین توضیح ممکن در مورد نحوه کار در این تکنیک آن است که سعی به ایجاد گروهی از متغیرها داریم که بسیار به هم مرتبط هستند و هر دسته یا گروه با بقیه متغیرها، وابستگی کمی دارد.
اما اگر در نمونهگیری و تعیین حداقل حجم مورد نیاز برای استفاده از EFA دچار مشکل باشیم، چگونه عمل خواهیم کرد. این امر به این معنی است که استفاده از قضیه حد مرکزی برای توجیه نرمال بودن توزیع دادهها و همچنین محاسبه و تفکیک ماتریس کوواریانس بدون دانستن ساختار ماتریس واریانس-کوواریانس در بین گروهها ممکن است با شکست مواجه شود. هر دو روش یعنی آزمون KMO و بارتلت در تحلیل عاملی راهکارهایی برای تشخیص چنین وضعیتی را ارائه میکنند. به همین علت، قبل از تحلیل EFA بهتر است به وسیله این معیارها، نسبت به شرایط اولیه EFA کسب اطلاع کرده، سپس تحلیل عاملی اکتشافی را به کار گیریم.
در ادامه نحوه محاسبه هر دو آمارهها و آزمون KMO و بارتلت در تحلیل عاملی و محدودههای قابل قبول برای آنها را بازگو خواهیم کرد.
🔸 معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
سرعت و سادگی در انجام محاسبات آماری از ویژگیهای مهم نرمافزار SAS محسوب میشود. از طرفی قدمت و پشتیبانی مناسب آن، کاربران زیادی را در حوزه محاسبات آماری به خود جلب کرده است. نرم افزار SAS مخفف Statistical Analysis System بوده از کاملترین نرم افزارهای شناخته شده آماری است. در اکثر موارد برای بیشتر پایاننامههای کارشناسی ارشد و دکتری در رشتههای علوم انسانی، علوم پایه، مهندسی و پزشکی از این نرمافزار برای اجرای آزمون و تحلیلهای آماری استفاده میکنند. در این آموزش سعی شده به زبان ساده و کاربردی به مباحث مقدماتی و پیشرفته این نرمافزار برای تحلیلهای آماری همچنین آزمون KMO و بارتلت در تحلیل عاملی اشاره شود. این آموزش در پانزده درس ارائه شده که سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه قابل مشاهده است.
– درس یکم: مقدمه ای بر SAS
– درس دوم: مدیریت داده ها
– درس سوم: مدیریت داده ها
– درس چهارم: محاسبه آمار توصیفی
– درس پنجم: آزمون های میانگین
– درس ششم: جداول توافقی
– درس هفتم: آزمون های همبستگی
– درس هشتم: رگرسیون خطی
– درس نهم: رگرسیون غیرخطی و لجستیک
– درس دهم: آزمون های ناپارامتریک
– درس یازدهم: طرح آزمایش ها
– درس دوازدهم: تحلیل مولفه های اصلی و آزمون KMO و بارتلت در تحلیل عاملی
– درس سیزدهم: رده بندی و ممیزی
– درس چهاردهم: کنترل کیفیت آماری
– درس پانزدهم: آشنایی با محیط IML
مطالعه ادامه مطلب 👇👇
🔗 آزمون KMO و بارتلت در تحلیل عاملی | معیارهای کفایت حجم نمونه — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ آنالیز کلان داده و ساختار شبکه اجتماعی — آشنایی با اصطلاحات و مثال عملی
با انفجار اطلاعات و افزایش دادههایی که روزانه از منابع مختلف تولید میشود، با پدیده جدیدی به نام «کلان داده» (Big Data) یا «مِه داده» مواجه شدهایم. لازم است که ابزارهای مناسب برای ثبت و نگهداری و همچنین تحلیل چنین حجم عظیمی از دادهها را داشته باشیم. پیشرفت دستگاههای محاسباتی و بوجود آمدن «رایانش ابری» (Cloud Computing) دسترسی به این دادهها و پردازش آنها را در زمان کوتاه میسر ساخته است. بنابراین مسائلی مانند نمونهگیری که در آمار برای جلوگیری از بررسی همه جامعه آماری به وجود آمده، دیگر لزومی نداشته باشد. به همین جهت در این نوشتار از مجله فرادرس به بررسی روش آنالیز کلان داده و ساختار شبکه پرداختهایم. در این بین به تکنیک شبکهای کردن و ارتباط گرهها اشاره کرده و مثالهای عینی نتایج را مورد بررسی قرار دادهایم.
══ فهرست مطالب ══
○ آنالیز کلان داده و ساختار شبکه اجتماعی
○ آنالیز کلان داده و تحلیل شبکههای اجتماعی
○ معرفی فیلم آموزش مقدماتی Hadoop (هدوپ) برای تجزیه و تحلیل کلان داده
○ خلاصه و جمعبندی
🔸 آنالیز کلان داده و ساختار شبکه اجتماعی
داده های بزرگ یا «مِه داده» (Big data) زمینهای است که روشهای تجزیه و تحلیل، استخراج سیستماتیک اطلاعات و محاسبه روی حجم عظیمی از دادهها را میسر میکند. در اغلب موارد نمیتوان با نرم افزارهای کاربردی پردازش داده سنتی کلان داده (Big Data) را پردازش کرد. این گونه دادهها اگر به ساختار جدولی ثبت شوند، دارای ستونها (فیلدها) و سطرها (رکوردها) زیادی خواهند بود.
چالشهای آنالیز کلان داده شامل «دریافت دادهها» (capturing data)، «ذخیره داده ها» (data storage)، «تجزیه و تحلیل دادهها» (data analysis)، «جستجو» (search)، «به اشتراک گذاری» (sharing)، «انتقال» (transfer)، «مصورسازی» (Visualization)، «پرس و جو» (querying)، «به روزرسانی» (updating)، «حریم خصوصی اطلاعات و منبع داده» (information privacy) است.
کلان داده، در ابتدا به سه مفهوم در مورد اطلاعات متمرکز بود. حجم، تنوع و سرعت. به این معنی که روشهای تحلیل مه داده باید حجم زیاد اطلاعات که دارای تنوع بسیار هستند در زمان مناسب و سرعت زیاد، پردازش کند.
🔸 آنالیز کلان داده و تحلیل شبکههای اجتماعی
شبکه (Network) راهی برای نشان دادن اطلاعات است و با استفاده از روشهای ریاضی قابل درک و تجزیه و تحلیل است. شبکهها، گروهی از «گرهها» (Nodes) هستند که توسط «پیوند» (Link) یا «یال» (Edge) به هم متصل شدهاند و میتوانند نشانگر هدایت جهتدار از یک گره به گره دیگر یا بدون جهت (دو طرفه) در نظر گرفته شوند. از این جهت، یک شبکه به مانند یک «گراف» (Graph) قابل بررسی است. «صفحات وب» (Web Page) نمونههایی از شبکههای جهتدار هستند که صفحه وب نشان دهنده یک گره و «ابرپیوند» (Hyperlink) به عنوان یک یال است.
اغلب از شبکهها برای یافتن دقیق اجتماعات نیز استفاده میکنند. این گرهها راسهایی هستند که بصورت گروهی متصل هستند اما ارتباط کمی با گروههای دیگر دارند، این امر به مانند افرادی است که در شبکههای اجتماعی با علایق مشابه حضور داشته یا دانشمندانی را مشخص میکند که در یک زمینه علمی همکاری دارند. موضوع مورد توجه در این بین «متغیرهای» مربوط به این داده است که باید مورد مطالعه قرار گیرند، این کار ممکن است به بهبود دقت در شناسایی جوامع و «خوشهها» (Clusters) کمک کند. با گسترش «شبکههای اجتماعی» (Social Network)، موضوع کلان داده در بین کارشناسان داده» (Data Scientist) بیش از هر زمان دیگری اهمیت یافته است. در ادامه متن به مقالهای اشاره خواهیم کرد که در حوزه آنالیز کلان داده پرداخته و به کمک ساختار شبکه، اطلاعاتی را از مه داده استخراج میکند.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز کلان داده و ساختار شبکه اجتماعی — آشنایی با اصطلاحات و مثال عملی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
با انفجار اطلاعات و افزایش دادههایی که روزانه از منابع مختلف تولید میشود، با پدیده جدیدی به نام «کلان داده» (Big Data) یا «مِه داده» مواجه شدهایم. لازم است که ابزارهای مناسب برای ثبت و نگهداری و همچنین تحلیل چنین حجم عظیمی از دادهها را داشته باشیم. پیشرفت دستگاههای محاسباتی و بوجود آمدن «رایانش ابری» (Cloud Computing) دسترسی به این دادهها و پردازش آنها را در زمان کوتاه میسر ساخته است. بنابراین مسائلی مانند نمونهگیری که در آمار برای جلوگیری از بررسی همه جامعه آماری به وجود آمده، دیگر لزومی نداشته باشد. به همین جهت در این نوشتار از مجله فرادرس به بررسی روش آنالیز کلان داده و ساختار شبکه پرداختهایم. در این بین به تکنیک شبکهای کردن و ارتباط گرهها اشاره کرده و مثالهای عینی نتایج را مورد بررسی قرار دادهایم.
══ فهرست مطالب ══
○ آنالیز کلان داده و ساختار شبکه اجتماعی
○ آنالیز کلان داده و تحلیل شبکههای اجتماعی
○ معرفی فیلم آموزش مقدماتی Hadoop (هدوپ) برای تجزیه و تحلیل کلان داده
○ خلاصه و جمعبندی
🔸 آنالیز کلان داده و ساختار شبکه اجتماعی
داده های بزرگ یا «مِه داده» (Big data) زمینهای است که روشهای تجزیه و تحلیل، استخراج سیستماتیک اطلاعات و محاسبه روی حجم عظیمی از دادهها را میسر میکند. در اغلب موارد نمیتوان با نرم افزارهای کاربردی پردازش داده سنتی کلان داده (Big Data) را پردازش کرد. این گونه دادهها اگر به ساختار جدولی ثبت شوند، دارای ستونها (فیلدها) و سطرها (رکوردها) زیادی خواهند بود.
چالشهای آنالیز کلان داده شامل «دریافت دادهها» (capturing data)، «ذخیره داده ها» (data storage)، «تجزیه و تحلیل دادهها» (data analysis)، «جستجو» (search)، «به اشتراک گذاری» (sharing)، «انتقال» (transfer)، «مصورسازی» (Visualization)، «پرس و جو» (querying)، «به روزرسانی» (updating)، «حریم خصوصی اطلاعات و منبع داده» (information privacy) است.
کلان داده، در ابتدا به سه مفهوم در مورد اطلاعات متمرکز بود. حجم، تنوع و سرعت. به این معنی که روشهای تحلیل مه داده باید حجم زیاد اطلاعات که دارای تنوع بسیار هستند در زمان مناسب و سرعت زیاد، پردازش کند.
🔸 آنالیز کلان داده و تحلیل شبکههای اجتماعی
شبکه (Network) راهی برای نشان دادن اطلاعات است و با استفاده از روشهای ریاضی قابل درک و تجزیه و تحلیل است. شبکهها، گروهی از «گرهها» (Nodes) هستند که توسط «پیوند» (Link) یا «یال» (Edge) به هم متصل شدهاند و میتوانند نشانگر هدایت جهتدار از یک گره به گره دیگر یا بدون جهت (دو طرفه) در نظر گرفته شوند. از این جهت، یک شبکه به مانند یک «گراف» (Graph) قابل بررسی است. «صفحات وب» (Web Page) نمونههایی از شبکههای جهتدار هستند که صفحه وب نشان دهنده یک گره و «ابرپیوند» (Hyperlink) به عنوان یک یال است.
اغلب از شبکهها برای یافتن دقیق اجتماعات نیز استفاده میکنند. این گرهها راسهایی هستند که بصورت گروهی متصل هستند اما ارتباط کمی با گروههای دیگر دارند، این امر به مانند افرادی است که در شبکههای اجتماعی با علایق مشابه حضور داشته یا دانشمندانی را مشخص میکند که در یک زمینه علمی همکاری دارند. موضوع مورد توجه در این بین «متغیرهای» مربوط به این داده است که باید مورد مطالعه قرار گیرند، این کار ممکن است به بهبود دقت در شناسایی جوامع و «خوشهها» (Clusters) کمک کند. با گسترش «شبکههای اجتماعی» (Social Network)، موضوع کلان داده در بین کارشناسان داده» (Data Scientist) بیش از هر زمان دیگری اهمیت یافته است. در ادامه متن به مقالهای اشاره خواهیم کرد که در حوزه آنالیز کلان داده پرداخته و به کمک ساختار شبکه، اطلاعاتی را از مه داده استخراج میکند.
مطالعه ادامه مطلب 👇👇
🔗 آنالیز کلان داده و ساختار شبکه اجتماعی — آشنایی با اصطلاحات و مثال عملی — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ فیلم آموزشی «ایجاد ماتریس سطری پلکانی» در ۷ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ فیلم آموزشی «ایجاد ماتریس سطری پلکانی» در ۷ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ ویدئو «معرفی رشته علوم کامپیوتر - گرایشها، درآمد و بازار کار» در ۱۳ دقیقه | به زبان ساده
🔗 آشنایی با ۷۶ رشته مهم دانشگاهی - [کلیک کنید]
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ ویدئو «معرفی رشته علوم کامپیوتر - گرایشها، درآمد و بازار کار» در ۱۳ دقیقه | به زبان ساده
🔗 آشنایی با ۷۶ رشته مهم دانشگاهی - [کلیک کنید]
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
✳️ کلان داده یا مِه داده (Big Data) — از صفر تا صد
کلان داده (مِه داده | Big Data)، یکی از موضوعات داغ روز است. پژوهشگران زیادی به تحقیق و بررسی در این حوزه مشغول هستند و در عین حال کسبوکارهای زیادی نیز با اهداف گوناگون به آن گرایش پیدا کردهاند. همچنین، صنایع و علوم گوناگون به ویژه بهداشت و درمان، علوم اجتماعی، بیمه، بانکداری و حتی دولتها نیز به دلیل کاربردهای قابل توجه تحلیل کلاندادهها (تحلیل مِهدادهها) به آن روی آوردهاند.
══ فهرست مطالب ══
○ کلان داده چیست و چرا اهمیت دارد؟
○ ارزش کسبوکار تحلیلهای کلانداده
○ کاربردهای کلان داده در بخش صنعتی
○ دانشمند داده
○ مولفه اصلی فناوری در اکوسیستم کلانداده
○ بصریسازی
○ خلاصه
🔸 کلان داده چیست و چرا اهمیت دارد؟
پرداختن به مبحثی مانند کلانداده (مِهداده) که به طور گسترده و سریع توجهات را به خود جلب کرده کاری دشوار است. در حالیکه مبحث کلانداده تا چند سال پیش بسیار ناشناخته بود، امروزه یکی از پربحثترین موضوعات در بخشهای صنعتی است. در این قسمت از مقاله پیش رو، چیستی کلانداده (مِهداده)، دلایل اهمیت و مزایای تحلیل آن تشریح شده.
با وجود آنکه کلانداده (مِهداده) یکی از مورد توجهترین اصطلاحات در بازار این روزها است، اما هیچ اتفاق نظری میان پژوهشگران گوناگون در رابطه با چگونگی تعریف آن وجود ندارد. این عبارت اغلب به عنوان مترادفی برای دیگر مفاهیم مرتبط مانند «هوش تجاری» (Business Intelligence) و دادهکاوی (data mining) مورد استفاده قرار میگیرد.
درست است که هر سه این عبارات در رابطه با تحلیل دادهها هستند و در اغلب شرایط برای تحلیلهای پیشرفته داده مورد استفاده قرار میگیرند، اما مفهوم کلانداده (مِهداده) هنگامی که حجم دادهها و تعداد منابع داده بسیار زیاد و پیچیدگی روشها و فناوریهای لازم برای کسب بینش از آنها بالا باشد، از دو مورد دیگر متمایز و متفاوت خواهد بود (برای مثال، راهکارهای سنتی انبار داده ممکن است در کار با کلاندادهها کم بیاوردند). آنچه بیان شد، مبانی لازم برای ارائه پرکاربردترین تعریف کلانداده (مِهداده) که در برگیرنده سه «V» یعنی «حجم» (Volume)، «سرعت» (Velocity) و «تنوع» (Variety) است، را فراهم میکند. شکل زیر نمای کلی این تعریف را نشان میدهد.
🔸 ارزش کسبوکار تحلیلهای کلانداده
مجددا تعریف گارتنر برای کلانداده (مِهداده) مورد بررسی قرار میگیرد: «کلانداده دارایی اطلاعاتی با حجم، سرعت و تنوع بالا محسوب میشود که نیازمند شکلی از پردازش اطلاعات نوآورانه و مقرون به صرفه است که بینش، تصمیمسازی و خودکارسازی فرآیندها را به طور بهینه فراهم میکند.» این تعریف از گارتنر مزایای تحلیلهای کلانداده را خلاصهسازی کرده است. این مزایا در ادامه بیان شدهاند:
– کسب بینش از دادهها
– تصمیمسازی بهتر بر مبنای بینش
– خودکارسازی تصمیمسازی و گنجاندن آن در فرآیندهای کسبوکار و در نتیجه خودکارسازی فرآیندها
در یک سطح همراه با جزئیات بیشتر، هر راهکار کلان داده ممکن است یک مشکل کسبوکاری خاص که سازمان امکان مواجهه با آن را دارد حل کند و همچنین ارزش کسبوکاری راهکار را به مساله اصلی مرتبط سازد. برای مثال، پیشبینی رویگردانی مشتریان میتواند این امر را کاهش دهد و بنابراین از کاهش درآمد پیشگیری کند. حائز اهمیت است که ساخت یک «مورد کسبوکار» (Business case) برای پروژه تحلیل کلانداده (تحلیل مِهداده)، با مساله کسبوکار آغاز شود نه با داده یا فناوری موجود یا مورد نیاز. گردآوری داده یا خرید فناوری بدون هدفگذاری صحیح کسبوکار یک استراتژی بازنده است. یک مورد کسبوکار برای تحلیلها باید یک مساله واقعی که سازمان با آن مواجه میشود را حل کند.
مطالعه ادامه مطلب 👇👇
🔗 کلان داده یا مِه داده (Big Data) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
کلان داده (مِه داده | Big Data)، یکی از موضوعات داغ روز است. پژوهشگران زیادی به تحقیق و بررسی در این حوزه مشغول هستند و در عین حال کسبوکارهای زیادی نیز با اهداف گوناگون به آن گرایش پیدا کردهاند. همچنین، صنایع و علوم گوناگون به ویژه بهداشت و درمان، علوم اجتماعی، بیمه، بانکداری و حتی دولتها نیز به دلیل کاربردهای قابل توجه تحلیل کلاندادهها (تحلیل مِهدادهها) به آن روی آوردهاند.
══ فهرست مطالب ══
○ کلان داده چیست و چرا اهمیت دارد؟
○ ارزش کسبوکار تحلیلهای کلانداده
○ کاربردهای کلان داده در بخش صنعتی
○ دانشمند داده
○ مولفه اصلی فناوری در اکوسیستم کلانداده
○ بصریسازی
○ خلاصه
🔸 کلان داده چیست و چرا اهمیت دارد؟
پرداختن به مبحثی مانند کلانداده (مِهداده) که به طور گسترده و سریع توجهات را به خود جلب کرده کاری دشوار است. در حالیکه مبحث کلانداده تا چند سال پیش بسیار ناشناخته بود، امروزه یکی از پربحثترین موضوعات در بخشهای صنعتی است. در این قسمت از مقاله پیش رو، چیستی کلانداده (مِهداده)، دلایل اهمیت و مزایای تحلیل آن تشریح شده.
با وجود آنکه کلانداده (مِهداده) یکی از مورد توجهترین اصطلاحات در بازار این روزها است، اما هیچ اتفاق نظری میان پژوهشگران گوناگون در رابطه با چگونگی تعریف آن وجود ندارد. این عبارت اغلب به عنوان مترادفی برای دیگر مفاهیم مرتبط مانند «هوش تجاری» (Business Intelligence) و دادهکاوی (data mining) مورد استفاده قرار میگیرد.
درست است که هر سه این عبارات در رابطه با تحلیل دادهها هستند و در اغلب شرایط برای تحلیلهای پیشرفته داده مورد استفاده قرار میگیرند، اما مفهوم کلانداده (مِهداده) هنگامی که حجم دادهها و تعداد منابع داده بسیار زیاد و پیچیدگی روشها و فناوریهای لازم برای کسب بینش از آنها بالا باشد، از دو مورد دیگر متمایز و متفاوت خواهد بود (برای مثال، راهکارهای سنتی انبار داده ممکن است در کار با کلاندادهها کم بیاوردند). آنچه بیان شد، مبانی لازم برای ارائه پرکاربردترین تعریف کلانداده (مِهداده) که در برگیرنده سه «V» یعنی «حجم» (Volume)، «سرعت» (Velocity) و «تنوع» (Variety) است، را فراهم میکند. شکل زیر نمای کلی این تعریف را نشان میدهد.
🔸 ارزش کسبوکار تحلیلهای کلانداده
مجددا تعریف گارتنر برای کلانداده (مِهداده) مورد بررسی قرار میگیرد: «کلانداده دارایی اطلاعاتی با حجم، سرعت و تنوع بالا محسوب میشود که نیازمند شکلی از پردازش اطلاعات نوآورانه و مقرون به صرفه است که بینش، تصمیمسازی و خودکارسازی فرآیندها را به طور بهینه فراهم میکند.» این تعریف از گارتنر مزایای تحلیلهای کلانداده را خلاصهسازی کرده است. این مزایا در ادامه بیان شدهاند:
– کسب بینش از دادهها
– تصمیمسازی بهتر بر مبنای بینش
– خودکارسازی تصمیمسازی و گنجاندن آن در فرآیندهای کسبوکار و در نتیجه خودکارسازی فرآیندها
در یک سطح همراه با جزئیات بیشتر، هر راهکار کلان داده ممکن است یک مشکل کسبوکاری خاص که سازمان امکان مواجهه با آن را دارد حل کند و همچنین ارزش کسبوکاری راهکار را به مساله اصلی مرتبط سازد. برای مثال، پیشبینی رویگردانی مشتریان میتواند این امر را کاهش دهد و بنابراین از کاهش درآمد پیشگیری کند. حائز اهمیت است که ساخت یک «مورد کسبوکار» (Business case) برای پروژه تحلیل کلانداده (تحلیل مِهداده)، با مساله کسبوکار آغاز شود نه با داده یا فناوری موجود یا مورد نیاز. گردآوری داده یا خرید فناوری بدون هدفگذاری صحیح کسبوکار یک استراتژی بازنده است. یک مورد کسبوکار برای تحلیلها باید یک مساله واقعی که سازمان با آن مواجه میشود را حل کند.
مطالعه ادامه مطلب 👇👇
🔗 کلان داده یا مِه داده (Big Data) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف
هادوپ یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها ممکن میسازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحملپذیری خطای بالا طراحی شده است. به جای تکیه بر سختافزارهای گرانقیمت، تحملپذیری در مقابل خطا در این خوشهها از توانایی نرمافزاری در تشخیص و ادارهی خرابی در لایه کاربرد میآید. استفادهکنندگان برجسته هادوپ، فیسبوک و یاهو هستند. RPC یا Remote Procedure Call نیز یکی از پروتکلهای به کار گرفته شده در محاسبات توزیعی به حساب میآید.
══ فهرست مطالب ══
○ مقدمه
○ چارچوب هادوپ
○ Map/Reduce هادوپ
○ HDFS هادوپ
🔸 مقدمه
هسته اصلی هادوپ از یک بخش ذخیرهسازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایلها را به بلوکهای بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع میکند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال میکند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره میبرد (نودها بر روی بخشی از داده کار میکنند که در دسترشان قرار دارد). بدین ترتیب دادهها سریعتر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل میکند، پردازش میشوند.
چارچوب هادوپ همانطور که گفته شد به زبان جاوا نوشته شده است، اما از زبان C و همچنین از شل-اسکریپت نیز در بخشهایی از آن بهره گرفته شده است. کاربران نهایی میتوانند در کار با هادوپ، هر زبان برنامهنویسیای را برای پیادهسازی بخشهای “map” و “reduce” به کار ببرند.
🔸 چارچوب هادوپ
چارچوب اصلی هادوپ از ماژولهای زیر تشکیل شده است:
– بخش مشترکات هادوپ: شامل کتابخانهها و utilityهای لازم توسط دیگر ماژولهای هادوپ است.
– سیستم فایل توزیع شده هادوپ (HDFS): یک سیستم فایل توزیع شده است که داده را بر روی ماشینهای خوشه ذخیره کرده و پهنای باند وسیعی را به وجود میآورد.
– YARN هادوپ: یک پلتفرم مدیریت منابع که مسئول مدیریت منابع محاسباتی در خوشهها است.
– Map/Reduce هادوپ: یک مدل برنامهنویسی برای پردازش داده در مقیاسهای بالا است.
در واقع هادوپ یک سیستم فایل توزیع شده تهیه میکند که میتواند داده را بر روی هزاران سرور ذخیره کند، و تسک (وظیفه) را بر روی این ماشینها پخش کرده (کارهای Map/Reduce)، و کار را در کنار داده انجام میدهد.
مطالعه ادامه مطلب 👇👇
🔗 هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
هادوپ یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها ممکن میسازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحملپذیری خطای بالا طراحی شده است. به جای تکیه بر سختافزارهای گرانقیمت، تحملپذیری در مقابل خطا در این خوشهها از توانایی نرمافزاری در تشخیص و ادارهی خرابی در لایه کاربرد میآید. استفادهکنندگان برجسته هادوپ، فیسبوک و یاهو هستند. RPC یا Remote Procedure Call نیز یکی از پروتکلهای به کار گرفته شده در محاسبات توزیعی به حساب میآید.
══ فهرست مطالب ══
○ مقدمه
○ چارچوب هادوپ
○ Map/Reduce هادوپ
○ HDFS هادوپ
🔸 مقدمه
هسته اصلی هادوپ از یک بخش ذخیرهسازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایلها را به بلوکهای بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع میکند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال میکند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره میبرد (نودها بر روی بخشی از داده کار میکنند که در دسترشان قرار دارد). بدین ترتیب دادهها سریعتر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل میکند، پردازش میشوند.
چارچوب هادوپ همانطور که گفته شد به زبان جاوا نوشته شده است، اما از زبان C و همچنین از شل-اسکریپت نیز در بخشهایی از آن بهره گرفته شده است. کاربران نهایی میتوانند در کار با هادوپ، هر زبان برنامهنویسیای را برای پیادهسازی بخشهای “map” و “reduce” به کار ببرند.
🔸 چارچوب هادوپ
چارچوب اصلی هادوپ از ماژولهای زیر تشکیل شده است:
– بخش مشترکات هادوپ: شامل کتابخانهها و utilityهای لازم توسط دیگر ماژولهای هادوپ است.
– سیستم فایل توزیع شده هادوپ (HDFS): یک سیستم فایل توزیع شده است که داده را بر روی ماشینهای خوشه ذخیره کرده و پهنای باند وسیعی را به وجود میآورد.
– YARN هادوپ: یک پلتفرم مدیریت منابع که مسئول مدیریت منابع محاسباتی در خوشهها است.
– Map/Reduce هادوپ: یک مدل برنامهنویسی برای پردازش داده در مقیاسهای بالا است.
در واقع هادوپ یک سیستم فایل توزیع شده تهیه میکند که میتواند داده را بر روی هزاران سرور ذخیره کند، و تسک (وظیفه) را بر روی این ماشینها پخش کرده (کارهای Map/Reduce)، و کار را در کنار داده انجام میدهد.
مطالعه ادامه مطلب 👇👇
🔗 هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ کاهش رنگ تصویر با خوشه بندی | پیاده سازی در R
«خوشه بندی» (Clustering) از تکنیکهای معروف در زمینه «یادگیری ماشین» (Machine Learning) از نوع «بدون نظارت» (Unsupervised) یا غیرنظارتی است. بوسیله روشهای خوشهبندی، بسیاری از تکنیکهای تصویربرداری پزشکی مثل MRI، متحول شده است. به طوری که با استفاده از خوشهبندی، شناسایی تومورها و نواحی مربوط به جراحی تومر تعیین شده و آسیب کمتری به نواحی دیگر اعضای بدن میرسد. در این نوشتار از فرادرس میخواهیم به کمک خوشه بندی یک تصویر را تجزیه و تحلیل کرده و تعداد رنگهای آن را کاهش دهیم. این موضوع میتواند به نوعی، باعث کاهش کیفیت شده ولی در عوض، حجم فایل تصویری را هم کاهش میدهد. اغلب در فشردهسازی تصویر از خوشهبندی نیز استفاده میشود. به این ترتیب موضوع کاهش رنگ تصویر با خوشه بندی را با استفاده از کدهای زبان برنامهنویسی R پیادهسازی کرده و به کمک یک مثال گامهای لازم برای نحوه انجام کار را فرا میگیریم.
══ فهرست مطالب ══
○ کاهش رنگ تصویر با خوشه بندی
○ معرفی فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش های خوشه بندی هوشمند
○ خلاصه و جمعبندی
🔸 کاهش رنگ تصویر با خوشه بندی
همانطور که اشاره شد، تکنیک خوشهبندی قادر است نقاط همسان یا شبیه را تعیین کرده و برای آنها یک نماینده ایجاد کند. در اغلب حالتها، روش به کار رفته در خوشهبندی، «خوشهبندی تفکیکی» یا «خوشهبندی افرازی» (Partitional Clustering) و از الگوریتم خاصی به نام k-means یا k-میانگین استفاده میشود. به این ترتیب به عنوان «معرف» (Profile) برای هر خوشه، از میانگین مقادیر یا ویژگیها در هر خوشه استفاده شده و به همین علت نیز نام این الگوریتم را k-میانگین گذاشتهاند.
این الگوریتم اولین بار توسط «جیمز مکوئین» (MacQueen) در سال ۱۹۶۷ به منظور معرفی خوشهبندی تفکیکی طی مقالهای، معرفی شد. بعدها الگوریتم پیشنهادی وی، توسط «استوارت لوید» (Stuart Lloyd)، مورد بازبینی قرار گرفت و برای تبدیل پالس به کد در «آزمایشگاههای بل» (Bell Laboratory) به کار رفت. این الگوریتم به طور مستقل توسط فرد دیگری به نام «ادوارد فورجی» (Edward W. Forgy) نیز ابداع شد و به همین علت گاهی این الگوریتم را به نام «لوید-فورجی» (Lloyd- Forgy) میشناسند.
در این نوشتار میخواهیم به کمک این الگوریتم، عمل کاهش رنگ تصویر با خوشه بندی را انجام دهیم. در حقیقت با این کار رنگهای موجود در یک تصویر کمتر از حالت عادی خواهند شد. در این بین از زبان برنامهنویسی و محاسبات آماری R و بعضی از کتابخانههای آن بهره خواهیم برد. برای انجام این کار، مراحل یا گامهای زیر را طی خواهیم کرد.
🔸 معرفی فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش های خوشه بندی هوشمند
در گاهی از اوقات تکنیک کاهش رنگ تصویر با استفاده از خوشه بندی صورت میگیرد. خوشبختانه در یکی از آموزشهای فرادرس در حوزه خوشهبندی و پردازش تصویر، به نام فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روشهای خوشه بندی هوشمند، با صرف زمانی حدود یک ساعت و هجده دقیقه، میتوانید با سه الگوریتم معروف خوشهبندی تفکیکی، تکنیکهای کاهش رنگ را تجربه کنید.
کاهش رنگ یا Color Reduction (یا Color Quantization) یکی از راهکارهای کاهش حجم تصاویر نیز هستند. در این آموزش از فرادرس، کاربرد سه سبک یا شیوه خوشهبندی برای کاهش رنگ در تصاویر، به صورت عملی با کدهای متلب آموزش داده میشود. الگوریتمهای خوشهبندی به کار رفته در این آموزش به قرار زیر هستند.
مطالعه ادامه مطلب 👇👇
🔗 کاهش رنگ تصویر با خوشه بندی | پیاده سازی در R — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«خوشه بندی» (Clustering) از تکنیکهای معروف در زمینه «یادگیری ماشین» (Machine Learning) از نوع «بدون نظارت» (Unsupervised) یا غیرنظارتی است. بوسیله روشهای خوشهبندی، بسیاری از تکنیکهای تصویربرداری پزشکی مثل MRI، متحول شده است. به طوری که با استفاده از خوشهبندی، شناسایی تومورها و نواحی مربوط به جراحی تومر تعیین شده و آسیب کمتری به نواحی دیگر اعضای بدن میرسد. در این نوشتار از فرادرس میخواهیم به کمک خوشه بندی یک تصویر را تجزیه و تحلیل کرده و تعداد رنگهای آن را کاهش دهیم. این موضوع میتواند به نوعی، باعث کاهش کیفیت شده ولی در عوض، حجم فایل تصویری را هم کاهش میدهد. اغلب در فشردهسازی تصویر از خوشهبندی نیز استفاده میشود. به این ترتیب موضوع کاهش رنگ تصویر با خوشه بندی را با استفاده از کدهای زبان برنامهنویسی R پیادهسازی کرده و به کمک یک مثال گامهای لازم برای نحوه انجام کار را فرا میگیریم.
══ فهرست مطالب ══
○ کاهش رنگ تصویر با خوشه بندی
○ معرفی فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش های خوشه بندی هوشمند
○ خلاصه و جمعبندی
🔸 کاهش رنگ تصویر با خوشه بندی
همانطور که اشاره شد، تکنیک خوشهبندی قادر است نقاط همسان یا شبیه را تعیین کرده و برای آنها یک نماینده ایجاد کند. در اغلب حالتها، روش به کار رفته در خوشهبندی، «خوشهبندی تفکیکی» یا «خوشهبندی افرازی» (Partitional Clustering) و از الگوریتم خاصی به نام k-means یا k-میانگین استفاده میشود. به این ترتیب به عنوان «معرف» (Profile) برای هر خوشه، از میانگین مقادیر یا ویژگیها در هر خوشه استفاده شده و به همین علت نیز نام این الگوریتم را k-میانگین گذاشتهاند.
این الگوریتم اولین بار توسط «جیمز مکوئین» (MacQueen) در سال ۱۹۶۷ به منظور معرفی خوشهبندی تفکیکی طی مقالهای، معرفی شد. بعدها الگوریتم پیشنهادی وی، توسط «استوارت لوید» (Stuart Lloyd)، مورد بازبینی قرار گرفت و برای تبدیل پالس به کد در «آزمایشگاههای بل» (Bell Laboratory) به کار رفت. این الگوریتم به طور مستقل توسط فرد دیگری به نام «ادوارد فورجی» (Edward W. Forgy) نیز ابداع شد و به همین علت گاهی این الگوریتم را به نام «لوید-فورجی» (Lloyd- Forgy) میشناسند.
در این نوشتار میخواهیم به کمک این الگوریتم، عمل کاهش رنگ تصویر با خوشه بندی را انجام دهیم. در حقیقت با این کار رنگهای موجود در یک تصویر کمتر از حالت عادی خواهند شد. در این بین از زبان برنامهنویسی و محاسبات آماری R و بعضی از کتابخانههای آن بهره خواهیم برد. برای انجام این کار، مراحل یا گامهای زیر را طی خواهیم کرد.
🔸 معرفی فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روش های خوشه بندی هوشمند
در گاهی از اوقات تکنیک کاهش رنگ تصویر با استفاده از خوشه بندی صورت میگیرد. خوشبختانه در یکی از آموزشهای فرادرس در حوزه خوشهبندی و پردازش تصویر، به نام فیلم آموزش کاهش تعداد رنگ تصاویر با استفاده از روشهای خوشه بندی هوشمند، با صرف زمانی حدود یک ساعت و هجده دقیقه، میتوانید با سه الگوریتم معروف خوشهبندی تفکیکی، تکنیکهای کاهش رنگ را تجربه کنید.
کاهش رنگ یا Color Reduction (یا Color Quantization) یکی از راهکارهای کاهش حجم تصاویر نیز هستند. در این آموزش از فرادرس، کاربرد سه سبک یا شیوه خوشهبندی برای کاهش رنگ در تصاویر، به صورت عملی با کدهای متلب آموزش داده میشود. الگوریتمهای خوشهبندی به کار رفته در این آموزش به قرار زیر هستند.
مطالعه ادامه مطلب 👇👇
🔗 کاهش رنگ تصویر با خوشه بندی | پیاده سازی در R — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
✳️ مجموعه داده های رایگان و قابل دانلود برای علم داده و یادگیری ماشین
پرسشی که برای بسیاری از افراد مطرح میشود آن است که چه «مجموعه داده های» (Data Set) بازی (Open) برای «یادگیری ماشین» (Machine Learning) وجود دارند که به صورت رایگان و بدون هر گونه انحصار قابل دانلود باشند؟ در ادامه لیستی از مجموعه دادههای یادگیری ماشین با کیفیت و متنوع در حوزههای گوناگون برای یادگیری ماشین آورده شده است.
══ فهرست مطالب ══
○ پیدا کردن مجموعه داده
○ مجموعه دادههای عمومی
○ یادگیری ماشین
🔸 پیدا کردن مجموعه داده
در ادامه روشهایی برای پیدا کردن مجموعه دادههای متنوع در زمینههای گوناگون بیان شده است.
Kaggle (+): یک سایت در حوزه «علم داده» (Data Science) و حاوی مجموعه دادههای متنوع و جالب توجهی است که توسط مشارکتکنندگان گوناگون فراهم شدهاند. میتوان انواع مجموعه دادهها را از این قسمت (+) یافت. تنوع این مجموعه دادهها بسیار بالا است و حوزههای گوناگونی از دادههای بسکتبال (+) گرفته تا گواهینامه حیوانات خانگی در سیاتل (+) و امتیازدهی به رامن (نوعی غذای ژاپنی) (+) را شامل میشود.
مخزن یادگیری ماشین UCI (+): یکی از قدیمیترین منابع از مجموعه دادههای روی وب است که میتوان در آن به دنبال مجموعه دادههای جالب توجه گشت. با توجه به اینکه مجموعه دادهها با مشارکت کاربران تهیه شدهاند دارای سطوح گوناگونی از پاکیزگی هستند، ولیکن اغلب آنها پاکسازی شده محسوب میشوند. امکان دانلود مجموعه دادهها از «UCI Machine Learning» به طور مستقیم و بدون ثبتنام وجود دارد.
🔸 مجموعه دادههای عمومی
در ادامه برخی از مجموعه دادههای عمومی در حوزههای گوناگون معرفی شدهاند.
Data.gov (+): این سایت امکان دانلود داده از چندین سازمان دولتی آمریکا را فراهم میکند. این دادهها از بودجه دولتی گرفته تا امتیاز کارایی مدارس را شامل میشوند. اغلب این دادهها نیازمند انجام پژوهشهای بیشتری هستند.
Food Environment Atlas (+): حاوی دادههایی پیرامون این محبث است که چگونه انتخاب غذاها به طور محلی، رژیم غذایی را در ایالات متحده آمریکا (USA) تحت تاثیر قرار میدهد.
مطالعه ادامه مطلب 👇👇
🔗 مجموعه داده های رایگان و قابل دانلود برای علم داده و یادگیری ماشین — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
پرسشی که برای بسیاری از افراد مطرح میشود آن است که چه «مجموعه داده های» (Data Set) بازی (Open) برای «یادگیری ماشین» (Machine Learning) وجود دارند که به صورت رایگان و بدون هر گونه انحصار قابل دانلود باشند؟ در ادامه لیستی از مجموعه دادههای یادگیری ماشین با کیفیت و متنوع در حوزههای گوناگون برای یادگیری ماشین آورده شده است.
══ فهرست مطالب ══
○ پیدا کردن مجموعه داده
○ مجموعه دادههای عمومی
○ یادگیری ماشین
🔸 پیدا کردن مجموعه داده
در ادامه روشهایی برای پیدا کردن مجموعه دادههای متنوع در زمینههای گوناگون بیان شده است.
Kaggle (+): یک سایت در حوزه «علم داده» (Data Science) و حاوی مجموعه دادههای متنوع و جالب توجهی است که توسط مشارکتکنندگان گوناگون فراهم شدهاند. میتوان انواع مجموعه دادهها را از این قسمت (+) یافت. تنوع این مجموعه دادهها بسیار بالا است و حوزههای گوناگونی از دادههای بسکتبال (+) گرفته تا گواهینامه حیوانات خانگی در سیاتل (+) و امتیازدهی به رامن (نوعی غذای ژاپنی) (+) را شامل میشود.
مخزن یادگیری ماشین UCI (+): یکی از قدیمیترین منابع از مجموعه دادههای روی وب است که میتوان در آن به دنبال مجموعه دادههای جالب توجه گشت. با توجه به اینکه مجموعه دادهها با مشارکت کاربران تهیه شدهاند دارای سطوح گوناگونی از پاکیزگی هستند، ولیکن اغلب آنها پاکسازی شده محسوب میشوند. امکان دانلود مجموعه دادهها از «UCI Machine Learning» به طور مستقیم و بدون ثبتنام وجود دارد.
🔸 مجموعه دادههای عمومی
در ادامه برخی از مجموعه دادههای عمومی در حوزههای گوناگون معرفی شدهاند.
Data.gov (+): این سایت امکان دانلود داده از چندین سازمان دولتی آمریکا را فراهم میکند. این دادهها از بودجه دولتی گرفته تا امتیاز کارایی مدارس را شامل میشوند. اغلب این دادهها نیازمند انجام پژوهشهای بیشتری هستند.
Food Environment Atlas (+): حاوی دادههایی پیرامون این محبث است که چگونه انتخاب غذاها به طور محلی، رژیم غذایی را در ایالات متحده آمریکا (USA) تحت تاثیر قرار میدهد.
مطالعه ادامه مطلب 👇👇
🔗 مجموعه داده های رایگان و قابل دانلود برای علم داده و یادگیری ماشین — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ فیلم آموزش «کهاد ماتریس» در ۳ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ فیلم آموزش «کهاد ماتریس» در ۳ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
✳️ داده کاوی (Data Mining) — از صفر تا صد
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند. از سوی دیگر، همه روزه حجم عظیمی از دادههای علمی در زمینههای گوناگون تولید میشوند.
══ فهرست مطالب ══
○ داده کاوی چیست؟
○ تاریخچه دادهکاوی
○ چرا دادهکاوی؟
○ انواع منابع داده
○ فرایند دادهکاوی
○ مشکلات دادهکاوی
○ اصطلاحشناسی
○
○ ماهیت مساله دادهکاوی
○ مزایا و معایب دادهکاوی
○ کاربردهای دادهکاوی
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
۱. رشد انفجاری دادهها در گستره وسیعی از زمینهها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی میشود:
– دستگاههای ذخیرهسازی نسبت به گذشته ارزانتر و با ظرفیت نامحدود، مانند فضاهای ذخیرهسازی ابری
– ارتباطات سریعتر با سرعت اتصال بیشتر
– سیستمهای مدیریت پایگاه داده و پشتیبانی نرمافزاری بهتر
۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
در حال حاضر، یادگیری آماری، «تحلیل داده» و «علم داده» (Data Science) از دیگر عباراتی هستند که با معنای مشابه دادهکاوی مورد استفاده قرار میگیرند، حال آنکه گاه تفاوتهای ظریفی میان این موارد وجود دارد. برای آشنایی با این تفاوتها، مطالعه مطلب «علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها» توصیه میشود. همچنین، برای مطالعه همراه با جزئیات بیشتر پیرامون تاریخچه دادهکاوی، مطلب «دادهکاوی چیست؟ بخش اول: مبانی» پیشنهاد میشود.
از روشهای دادهکاوی در فرآیند طویل پژوهش و توسعه محصول استفاده میشود. از همین رو، تکامل دادهکاوی نیز از هنگامی آغاز شد که دادههای کسبوکارها روی کامپیوترها ذخیره شدند. دادهکاوی به کاربران امکان حرکت در میان دادهها را در زمان واقعی میدهد. از دادهکاوی در جامعه کسبوکار بدین دلیل استفاده میشود که از سه فناوری بلوغ یافته استفاده میکند، این فناوریها عبارتند از:
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است. در جهان کسبوکار، «پایگاهدادههای» (Databases) بسیار بزرگی برای تراکنشهای تجاری وجود دارند که توسط خردهفروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شدهاند. از سوی دیگر، همه روزه حجم عظیمی از دادههای علمی در زمینههای گوناگون تولید میشوند.
══ فهرست مطالب ══
○ داده کاوی چیست؟
○ تاریخچه دادهکاوی
○ چرا دادهکاوی؟
○ انواع منابع داده
○ فرایند دادهکاوی
○ مشکلات دادهکاوی
○ اصطلاحشناسی
○
○ ماهیت مساله دادهکاوی
○ مزایا و معایب دادهکاوی
○ کاربردهای دادهکاوی
🔸 داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
۱. رشد انفجاری دادهها در گستره وسیعی از زمینهها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی میشود:
– دستگاههای ذخیرهسازی نسبت به گذشته ارزانتر و با ظرفیت نامحدود، مانند فضاهای ذخیرهسازی ابری
– ارتباطات سریعتر با سرعت اتصال بیشتر
– سیستمهای مدیریت پایگاه داده و پشتیبانی نرمافزاری بهتر
۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش
🔸 تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
در حال حاضر، یادگیری آماری، «تحلیل داده» و «علم داده» (Data Science) از دیگر عباراتی هستند که با معنای مشابه دادهکاوی مورد استفاده قرار میگیرند، حال آنکه گاه تفاوتهای ظریفی میان این موارد وجود دارد. برای آشنایی با این تفاوتها، مطالعه مطلب «علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها» توصیه میشود. همچنین، برای مطالعه همراه با جزئیات بیشتر پیرامون تاریخچه دادهکاوی، مطلب «دادهکاوی چیست؟ بخش اول: مبانی» پیشنهاد میشود.
از روشهای دادهکاوی در فرآیند طویل پژوهش و توسعه محصول استفاده میشود. از همین رو، تکامل دادهکاوی نیز از هنگامی آغاز شد که دادههای کسبوکارها روی کامپیوترها ذخیره شدند. دادهکاوی به کاربران امکان حرکت در میان دادهها را در زمان واقعی میدهد. از دادهکاوی در جامعه کسبوکار بدین دلیل استفاده میشود که از سه فناوری بلوغ یافته استفاده میکند، این فناوریها عبارتند از:
مطالعه ادامه مطلب 👇👇
🔗 داده کاوی (Data Mining) — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ فیلم آموزش «کاربرد جبر خطی در علم داده و یادگیری ماشین - ماتریس الحاقی» در ۴ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
❇️ فیلم آموزش «کاربرد جبر خطی در علم داده و یادگیری ماشین - ماتریس الحاقی» در ۴ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.
✳️ علم داده چیست؟
سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید میشده. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ دادههای تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.
══ فهرست مطالب ══
○ حجم بالای دادهها چگونه ذخیره میشوند؟
○ چرا دادهها مهم هستند؟
○ علم داده چیست؟
○ مزایای علم داده
○ تاریخچه
○ ارتباط آمار و علم داده
🔸 حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظههای ذخیرهسازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمیشود.
🔸 چرا دادهها مهم هستند؟
ژیاوی هان – دانشمند داده و نویسنده کتاب «دادهکاوی: مفاهیم و روشها»
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل دادهها جایگاه قابل توجهی در میان شرکتهای پیشرو در جهان طی این سال کسب کردهاند.
مطالعه ادامه مطلب 👇👇
🔗 علم داده چیست؟ — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید میشده. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ دادههای تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.
══ فهرست مطالب ══
○ حجم بالای دادهها چگونه ذخیره میشوند؟
○ چرا دادهها مهم هستند؟
○ علم داده چیست؟
○ مزایای علم داده
○ تاریخچه
○ ارتباط آمار و علم داده
🔸 حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظههای ذخیرهسازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمیشود.
🔸 چرا دادهها مهم هستند؟
ژیاوی هان – دانشمند داده و نویسنده کتاب «دادهکاوی: مفاهیم و روشها»
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل دادهها جایگاه قابل توجهی در میان شرکتهای پیشرو در جهان طی این سال کسب کردهاند.
مطالعه ادامه مطلب 👇👇
🔗 علم داده چیست؟ — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
❇️ فیلم آموزش «بردارهای ویژه و مقادیر ویژه» در ۴ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.👇
❇️ فیلم آموزش «بردارهای ویژه و مقادیر ویژه» در ۴ دقیقه | به زبان ساده
📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.👇
🔴 رایگان آموزش ببینید و مهارت کسب کنید.
🌟 معرفی آموزشهای رایگان و پرطرفدار فرادرس
♨️ صدها عنوان آموزش رایگان فرادرس در دسترس هستند که در طول ماه، توسط دهها هزار دانشجو مورد مطالعه قرار میگیرند.
شما عزیزان نیز میتوانید با مراجعه به لینکهای زیر، آموزشهای پرمخاطب در دستهبندی مورد نظر خود را مشاهده کرده و رایگان دانلود کنید👇
✅ آموزشهای رایگان دادهکاوی [+]
📚 تمامی آموزشهای رایگان و پرمخاطب [+]
@FaraDars - فرادرس
🔴 رایگان آموزش ببینید و مهارت کسب کنید.
🌟 معرفی آموزشهای رایگان و پرطرفدار فرادرس
♨️ صدها عنوان آموزش رایگان فرادرس در دسترس هستند که در طول ماه، توسط دهها هزار دانشجو مورد مطالعه قرار میگیرند.
شما عزیزان نیز میتوانید با مراجعه به لینکهای زیر، آموزشهای پرمخاطب در دستهبندی مورد نظر خود را مشاهده کرده و رایگان دانلود کنید👇
✅ آموزشهای رایگان دادهکاوی [+]
📚 تمامی آموزشهای رایگان و پرمخاطب [+]
@FaraDars - فرادرس
✳️ یادگیری علم داده (Data Science) با پایتون — از صفر تا صد
همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار میساخت آغاز شد. «تحلیل داده» (Data Analytics) و «دادهکاوی» (Data Mining) خیلی زود به گرایشهای روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسبوکارها نیز به دلیل کاربردها و مزایای متعدد این حوزهها به آنها روی آوردند.
══ فهرست مطالب ══
○ ۱. مبانی پایتون برای تحلیل داده
○ کتابخانهها و ساختارهای داده در پایتون
○ پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
○ ساخت یک مدل پیشبین در پایتون
○ سخن پایانی
🔸 ۱. مبانی پایتون برای تحلیل داده
در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شدهاند.
پایتون اخیرا توجهات زیادی را به عنوان زبان منتخب برای تحلیل داده به خود جلب کرده است. در ادامه برخی مزایای پایتون که موجب شده تا به یکی از ابزارهای اصلی تحلیلگران داده مبدل شود بیان شدهاند.
– متنباز بودن و نصب رایگان
– جامعه آنلاین فوقالعاده
– یادگیری بسیار آسان
– قابلیت تبدیل شدن به یک زمان متداول برای علم داده و تولید محصولات تحلیلی مبتنی بر وب
البته پایتون در کنار مزایا، معیابی نیز دارد که مهمترین آنها در ادمه بیان شده است.
🔸 کتابخانهها و ساختارهای داده در پایتون
پیش از آن که به طور جدیتر به حل مساله پرداخته شود، یک گام عقبتر رفته و به مبانی پایتون پرداخته میشود. چنانکه مشهود است ساختارهای داده، حلقهها و ساختارهای شرطی مبانی زبانهای برنامهنویسی را شکل میدهند. در پایتون، لیستها (lists)، رشتهها (strings)، تاپلها (tuples) و دیکشنریها (dictionaries) از جمله ساختارهای داده، for و while از حلقهها و if-else از جمله ساختارهای شرطی است.
در ادامه برخی از ساختارهای داده مورد استفاده در پایتون بیان شدهاند. برای استفاده درست و موثر از این ساختارها، آشنایی با آنها نیاز است.
لیستها (Lists): لیستها یکی از همهکارترین ساختارها در پایتون هستند. یک لیست را میتوان به سادگی با نوشتن مجموعهای از مقادیر جدا شده به وسیله ویرگول در میان دو کروشه تعریف کرد. لیستها ممکن است شامل آیتمهایی از انواع گوناگون باشند، اما معمولا کلیه آیتمهای یک لیست نوع یکسانی دارند. لیستهای پایتون و عناصر منفرد از لیست قابل تغییر هستند. در ادامه مثالی برای تعریف لیست و دسترسی به آن ارائه شده است.
مطالعه ادامه مطلب 👇👇
🔗 یادگیری علم داده (Data Science) با پایتون — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار میساخت آغاز شد. «تحلیل داده» (Data Analytics) و «دادهکاوی» (Data Mining) خیلی زود به گرایشهای روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسبوکارها نیز به دلیل کاربردها و مزایای متعدد این حوزهها به آنها روی آوردند.
══ فهرست مطالب ══
○ ۱. مبانی پایتون برای تحلیل داده
○ کتابخانهها و ساختارهای داده در پایتون
○ پیشپرداز دادهها (Data Munging) در پایتون با استفاده از Pandas
○ ساخت یک مدل پیشبین در پایتون
○ سخن پایانی
🔸 ۱. مبانی پایتون برای تحلیل داده
در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شدهاند.
پایتون اخیرا توجهات زیادی را به عنوان زبان منتخب برای تحلیل داده به خود جلب کرده است. در ادامه برخی مزایای پایتون که موجب شده تا به یکی از ابزارهای اصلی تحلیلگران داده مبدل شود بیان شدهاند.
– متنباز بودن و نصب رایگان
– جامعه آنلاین فوقالعاده
– یادگیری بسیار آسان
– قابلیت تبدیل شدن به یک زمان متداول برای علم داده و تولید محصولات تحلیلی مبتنی بر وب
البته پایتون در کنار مزایا، معیابی نیز دارد که مهمترین آنها در ادمه بیان شده است.
🔸 کتابخانهها و ساختارهای داده در پایتون
پیش از آن که به طور جدیتر به حل مساله پرداخته شود، یک گام عقبتر رفته و به مبانی پایتون پرداخته میشود. چنانکه مشهود است ساختارهای داده، حلقهها و ساختارهای شرطی مبانی زبانهای برنامهنویسی را شکل میدهند. در پایتون، لیستها (lists)، رشتهها (strings)، تاپلها (tuples) و دیکشنریها (dictionaries) از جمله ساختارهای داده، for و while از حلقهها و if-else از جمله ساختارهای شرطی است.
در ادامه برخی از ساختارهای داده مورد استفاده در پایتون بیان شدهاند. برای استفاده درست و موثر از این ساختارها، آشنایی با آنها نیاز است.
لیستها (Lists): لیستها یکی از همهکارترین ساختارها در پایتون هستند. یک لیست را میتوان به سادگی با نوشتن مجموعهای از مقادیر جدا شده به وسیله ویرگول در میان دو کروشه تعریف کرد. لیستها ممکن است شامل آیتمهایی از انواع گوناگون باشند، اما معمولا کلیه آیتمهای یک لیست نوع یکسانی دارند. لیستهای پایتون و عناصر منفرد از لیست قابل تغییر هستند. در ادامه مثالی برای تعریف لیست و دسترسی به آن ارائه شده است.
مطالعه ادامه مطلب 👇👇
🔗 یادگیری علم داده (Data Science) با پایتون — از صفر تا صد — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
👍1
✳️ هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف
هادوپ یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها ممکن میسازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحملپذیری خطای بالا طراحی شده است. به جای تکیه بر سختافزارهای گرانقیمت، تحملپذیری در مقابل خطا در این خوشهها از توانایی نرمافزاری در تشخیص و ادارهی خرابی در لایه کاربرد میآید. استفادهکنندگان برجسته هادوپ، فیسبوک و یاهو هستند. RPC یا Remote Procedure Call نیز یکی از پروتکلهای به کار گرفته شده در محاسبات توزیعی به حساب میآید.
══ فهرست مطالب ══
○ مقدمه
○ چارچوب هادوپ
○ Map/Reduce هادوپ
○ HDFS هادوپ
🔸 مقدمه
هسته اصلی هادوپ از یک بخش ذخیرهسازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایلها را به بلوکهای بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع میکند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال میکند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره میبرد (نودها بر روی بخشی از داده کار میکنند که در دسترشان قرار دارد). بدین ترتیب دادهها سریعتر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل میکند، پردازش میشوند.
چارچوب هادوپ همانطور که گفته شد به زبان جاوا نوشته شده است، اما از زبان C و همچنین از شل-اسکریپت نیز در بخشهایی از آن بهره گرفته شده است. کاربران نهایی میتوانند در کار با هادوپ، هر زبان برنامهنویسیای را برای پیادهسازی بخشهای “map” و “reduce” به کار ببرند.
🔸 چارچوب هادوپ
چارچوب اصلی هادوپ از ماژولهای زیر تشکیل شده است:
– بخش مشترکات هادوپ: شامل کتابخانهها و utilityهای لازم توسط دیگر ماژولهای هادوپ است.
– سیستم فایل توزیع شده هادوپ (HDFS): یک سیستم فایل توزیع شده است که داده را بر روی ماشینهای خوشه ذخیره کرده و پهنای باند وسیعی را به وجود میآورد.
– YARN هادوپ: یک پلتفرم مدیریت منابع که مسئول مدیریت منابع محاسباتی در خوشهها است.
– Map/Reduce هادوپ: یک مدل برنامهنویسی برای پردازش داده در مقیاسهای بالا است.
در واقع هادوپ یک سیستم فایل توزیع شده تهیه میکند که میتواند داده را بر روی هزاران سرور ذخیره کند، و تسک (وظیفه) را بر روی این ماشینها پخش کرده (کارهای Map/Reduce)، و کار را در کنار داده انجام میدهد.
مطالعه ادامه مطلب 👇👇
🔗 هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
هادوپ یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها ممکن میسازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحملپذیری خطای بالا طراحی شده است. به جای تکیه بر سختافزارهای گرانقیمت، تحملپذیری در مقابل خطا در این خوشهها از توانایی نرمافزاری در تشخیص و ادارهی خرابی در لایه کاربرد میآید. استفادهکنندگان برجسته هادوپ، فیسبوک و یاهو هستند. RPC یا Remote Procedure Call نیز یکی از پروتکلهای به کار گرفته شده در محاسبات توزیعی به حساب میآید.
══ فهرست مطالب ══
○ مقدمه
○ چارچوب هادوپ
○ Map/Reduce هادوپ
○ HDFS هادوپ
🔸 مقدمه
هسته اصلی هادوپ از یک بخش ذخیرهسازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایلها را به بلوکهای بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع میکند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال میکند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره میبرد (نودها بر روی بخشی از داده کار میکنند که در دسترشان قرار دارد). بدین ترتیب دادهها سریعتر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل میکند، پردازش میشوند.
چارچوب هادوپ همانطور که گفته شد به زبان جاوا نوشته شده است، اما از زبان C و همچنین از شل-اسکریپت نیز در بخشهایی از آن بهره گرفته شده است. کاربران نهایی میتوانند در کار با هادوپ، هر زبان برنامهنویسیای را برای پیادهسازی بخشهای “map” و “reduce” به کار ببرند.
🔸 چارچوب هادوپ
چارچوب اصلی هادوپ از ماژولهای زیر تشکیل شده است:
– بخش مشترکات هادوپ: شامل کتابخانهها و utilityهای لازم توسط دیگر ماژولهای هادوپ است.
– سیستم فایل توزیع شده هادوپ (HDFS): یک سیستم فایل توزیع شده است که داده را بر روی ماشینهای خوشه ذخیره کرده و پهنای باند وسیعی را به وجود میآورد.
– YARN هادوپ: یک پلتفرم مدیریت منابع که مسئول مدیریت منابع محاسباتی در خوشهها است.
– Map/Reduce هادوپ: یک مدل برنامهنویسی برای پردازش داده در مقیاسهای بالا است.
در واقع هادوپ یک سیستم فایل توزیع شده تهیه میکند که میتواند داده را بر روی هزاران سرور ذخیره کند، و تسک (وظیفه) را بر روی این ماشینها پخش کرده (کارهای Map/Reduce)، و کار را در کنار داده انجام میدهد.
مطالعه ادامه مطلب 👇👇
🔗 هادوپ (Hadoop) چیست؟ – مفاهیم و تعاریف — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
👍1
Forwarded from مجله فرادرس
📙 دسته داده کاوی: پربازدیدترین مطالب اخیر «داده کاوی» مجله فرادرس
1️⃣ ساخت شبکه عصبی در پایتون — به زبان ساده
───────────────
2️⃣ یادگیری تقویتی — راهنمای ساده و کاربردی
───────────────
3️⃣ الگوریتم جنگل تصادفی — راهنمای جامع و کاربردی
───────────────
4️⃣ مجموعه داده های رایگان برای علم داده و یادگیری ماشین
───────────────
5️⃣ مقایسه علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین
#داده_کاوی
📚 سایر مطالب مجله فرادرس
🔗 fdrs.ir/blog
@FaraDarsMag — مجله فرادرس
📙 دسته داده کاوی: پربازدیدترین مطالب اخیر «داده کاوی» مجله فرادرس
1️⃣ ساخت شبکه عصبی در پایتون — به زبان ساده
───────────────
2️⃣ یادگیری تقویتی — راهنمای ساده و کاربردی
───────────────
3️⃣ الگوریتم جنگل تصادفی — راهنمای جامع و کاربردی
───────────────
4️⃣ مجموعه داده های رایگان برای علم داده و یادگیری ماشین
───────────────
5️⃣ مقایسه علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین
#داده_کاوی
📚 سایر مطالب مجله فرادرس
🔗 fdrs.ir/blog
@FaraDarsMag — مجله فرادرس
✳️ علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها
«علم داده» (data science)، «تحلیل دادهها» (Data analytics)، «یادگیری ماشین» (machine learning) و «دادهکاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از اینرو شرکتها بهدنبال کارشناسانی میگردند که با کیمیاگری دادهها به آنها در اتخاذ تصمیمهای چابک، اثرگذار و کارا در کسبوکار کمک کنند.
══ فهرست مطالب ══
○ علم داده چیست؟
○ چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
○ تحلیلگر داده کیست؟
○ چه مهارتهایی برای مبدل شدن به یک تحلیلگر داده مورد نیاز است؟
○ آیا بین علم داده و تحلیل داده همپوشانی وجود دارد؟
○ یادگیری ماشین چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
○ آیا بین یادگیری ماشین و علم داده همپوشانی وجود دارد؟
○ دادهکاوی چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک دادهکاو مورد نیاز است؟
○ آیا همپوشانی بین دادهکاوی و علم داده وجود دارد؟
🔸 علم داده چیست؟
افراد زیادی برای بیش از یک دهه تلاش کردهاند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است. این نمودار توسط «هوق کانوی» (Hugh Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنهای که محاسبات و خلاصهسازی در آن انجام میشود) و مهارتهای هک میشود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.
علم داده مفهومی است که برای کار با دادههای کلان (مِهداده) به کار میرود و شامل پاکسازی، آمادهسازی و تحلیل داده میشود. یک دانشمند داده، دادهها را از چندین منبع گردآوردی کرده و تحلیلهای پیشبین و یادگیری ماشین را بر آنها اعمال میکند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه دادههای گردآوری شده بهره میبرد. این دانشمندان، دادهها را از نقطه نظر کسبوکار درک میکنند و قادر به فراهم کردن پیشبینیها و بینشهای صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسبوکار قابل استفاده است.
🔸 چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند. با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
– دانش قوی از پایتون، R، اسکالا و SAS
– مهارت داشتن در نوشتن کدهای پایگاه داده SQL
– توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
– درک توابع تحلیل چندگانه
– دانش یادگیری ماشین
مطالعه ادامه مطلب 👇👇
🔗 علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
«علم داده» (data science)، «تحلیل دادهها» (Data analytics)، «یادگیری ماشین» (machine learning) و «دادهکاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از اینرو شرکتها بهدنبال کارشناسانی میگردند که با کیمیاگری دادهها به آنها در اتخاذ تصمیمهای چابک، اثرگذار و کارا در کسبوکار کمک کنند.
══ فهرست مطالب ══
○ علم داده چیست؟
○ چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
○ تحلیلگر داده کیست؟
○ چه مهارتهایی برای مبدل شدن به یک تحلیلگر داده مورد نیاز است؟
○ آیا بین علم داده و تحلیل داده همپوشانی وجود دارد؟
○ یادگیری ماشین چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
○ آیا بین یادگیری ماشین و علم داده همپوشانی وجود دارد؟
○ دادهکاوی چیست؟
○ چه مهارتهایی برای تبدیل شدن به یک دادهکاو مورد نیاز است؟
○ آیا همپوشانی بین دادهکاوی و علم داده وجود دارد؟
🔸 علم داده چیست؟
افراد زیادی برای بیش از یک دهه تلاش کردهاند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است. این نمودار توسط «هوق کانوی» (Hugh Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنهای که محاسبات و خلاصهسازی در آن انجام میشود) و مهارتهای هک میشود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.
علم داده مفهومی است که برای کار با دادههای کلان (مِهداده) به کار میرود و شامل پاکسازی، آمادهسازی و تحلیل داده میشود. یک دانشمند داده، دادهها را از چندین منبع گردآوردی کرده و تحلیلهای پیشبین و یادگیری ماشین را بر آنها اعمال میکند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه دادههای گردآوری شده بهره میبرد. این دانشمندان، دادهها را از نقطه نظر کسبوکار درک میکنند و قادر به فراهم کردن پیشبینیها و بینشهای صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسبوکار قابل استفاده است.
🔸 چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند. با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
– دانش قوی از پایتون، R، اسکالا و SAS
– مهارت داشتن در نوشتن کدهای پایگاه داده SQL
– توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
– درک توابع تحلیل چندگانه
– دانش یادگیری ماشین
مطالعه ادامه مطلب 👇👇
🔗 علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها — کلیک کنید (+)
📌 کانال اختصاصی آموزشی علم داده
آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇
@Fara_DS — مطالب و آموزشهای علم داده فرادرس
Forwarded from FaraDars | فرادرس
📱 در شبکههای اجتماعی فرادرس چه مطالبی منتشر میشود؟
✔️ اطلاعرسانی فرصتهای ویژه و جشنوارههای تخفیف
✔️ اطلاعرسانی جدیدترین آموزشهای منتشر شده همراه با تخفیف ویژه انتشار
✔️ انتشار مطالب، مقالات و ویدئوهای آموزشی رایگان
✔️ اطلاعرسانی آخرین رویدادها و وبینارها
✔️ برگزاری مسابقات و طرحهای تخفیف همراه با هدایای آموزشی
☸️ فرادرس را در شبکههای اجتماعی و کانالهای ارتباطی مختلف دنبال کنید.👇👇👇
📌 اینستاگرام
🔗 instagram.com/FaraDars
📌 یوتیوب
🔗 youtube.com/c/FaraDarsCourses
📌 لینکدین
🔗 linkedin.com/company/FaraDars
📌 توئیتر
🔗 twitter.com/FaraDars
📌 کانال رسمی تلگرام
🔗 t.me/FaraDars
📌 کانال فرصتهای ویژه (فراپُن)
🔗 t.me/FaraPon
📌 کانال تازههای نشر
🔗 t.me/FDPub
📌 کانالهای موضوعی و تخصصی
🔗 t.me/faradars/5006
_______________
📚 فرادرس
دانش در دسترس همه
همیشه و همه جا
@FaraDars — فرادرس
📱 در شبکههای اجتماعی فرادرس چه مطالبی منتشر میشود؟
✔️ اطلاعرسانی فرصتهای ویژه و جشنوارههای تخفیف
✔️ اطلاعرسانی جدیدترین آموزشهای منتشر شده همراه با تخفیف ویژه انتشار
✔️ انتشار مطالب، مقالات و ویدئوهای آموزشی رایگان
✔️ اطلاعرسانی آخرین رویدادها و وبینارها
✔️ برگزاری مسابقات و طرحهای تخفیف همراه با هدایای آموزشی
☸️ فرادرس را در شبکههای اجتماعی و کانالهای ارتباطی مختلف دنبال کنید.👇👇👇
📌 اینستاگرام
🔗 instagram.com/FaraDars
📌 یوتیوب
🔗 youtube.com/c/FaraDarsCourses
📌 لینکدین
🔗 linkedin.com/company/FaraDars
📌 توئیتر
🔗 twitter.com/FaraDars
📌 کانال رسمی تلگرام
🔗 t.me/FaraDars
📌 کانال فرصتهای ویژه (فراپُن)
🔗 t.me/FaraPon
📌 کانال تازههای نشر
🔗 t.me/FDPub
📌 کانالهای موضوعی و تخصصی
🔗 t.me/faradars/5006
_______________
📚 فرادرس
دانش در دسترس همه
همیشه و همه جا
@FaraDars — فرادرس