پارسا خائف؛ برنده نهایی عصر جدید!؟
یکی از کاربردهای جذاب حوزه علمداده پیشبینی انتخابات و نظرات مردمی در حوزهها و موضوعات سیاسی، فرهنگی، ورزشی و... است.
یکی از دادههای موثر در تحلیل نظرات مردم بررسی میزان جستجوهای کاربران در موتورهای جستجو است. امری که حتی در پیشبینی نتایج انتخابات نیز قابل اتکا میباشد.
با بررسی میزان جستجوهای کاربران در موتور جستجو گوگل پیرامون شرکتکنندگان فینال عصر جدید طی هفته گذشته نشان از میزان توجهات کاربران ایرانی موتور جستجوی گوگل به پارسا خائف است.
میزان توجهات به اجراهای خانم فاطمه عبادی، آقایان سعید فتحی روشن و محمد زارع بسیار به یکدیگر نزدیک هستند. گروه دختران نینجا هم با اختلاف در رتبه آخر میزان توجهات قرار دارد.
باید تا اعلام نتایج نهایی صبر کرد تا مشخص شود که میزان جستجوهای کاربران در موتور جستجوی گوگل چه میزان رابطه با میزان آرای این شرکت کنندگان دارد.
ارادتمند
محمدرضا محتاط
@DataAnalysis
یکی از کاربردهای جذاب حوزه علمداده پیشبینی انتخابات و نظرات مردمی در حوزهها و موضوعات سیاسی، فرهنگی، ورزشی و... است.
یکی از دادههای موثر در تحلیل نظرات مردم بررسی میزان جستجوهای کاربران در موتورهای جستجو است. امری که حتی در پیشبینی نتایج انتخابات نیز قابل اتکا میباشد.
با بررسی میزان جستجوهای کاربران در موتور جستجو گوگل پیرامون شرکتکنندگان فینال عصر جدید طی هفته گذشته نشان از میزان توجهات کاربران ایرانی موتور جستجوی گوگل به پارسا خائف است.
میزان توجهات به اجراهای خانم فاطمه عبادی، آقایان سعید فتحی روشن و محمد زارع بسیار به یکدیگر نزدیک هستند. گروه دختران نینجا هم با اختلاف در رتبه آخر میزان توجهات قرار دارد.
باید تا اعلام نتایج نهایی صبر کرد تا مشخص شود که میزان جستجوهای کاربران در موتور جستجوی گوگل چه میزان رابطه با میزان آرای این شرکت کنندگان دارد.
ارادتمند
محمدرضا محتاط
@DataAnalysis
دلایل خطا در پیشبینیهای دادهمحور!
http://tiny.cc/873lbz
برنامه عصر جدید دیشب با پیروزی خانم فاطمه عبادی به اتمام رسید. امری که اگر چه دور از ذهن نبود اما پیشبینیهای متعدد توسط منابع مختلف نشان از پیروزی پارسا خائف داشت. یکی دیگر از خطاهای اخیر در پیشبینیهای دادهمحور شکست در پیشبینی قهرمان مسابقات جام جهانی فوتبال توسط یکی از مطرحترین سیستمهای هوش مصنوعی در جهان بود.
آیا پیشبینیهای دادهمحور قابل اتکا نیستند!؟
در این نوشتار برخی علل بروز خطا در پیشبینیهای دادهمحور ذکر خواهد شد.
1- عدم تقاطع منابع اطلاعاتی:
تقاطع منابع اطلاعاتی یکی از راهکارهای افزایش دقت و صحت مدلهای پیشبینانه خواهد شد. در صورتی که تنها از یک منبع اطلاعاتی اقدام به پیشبینی شود خطا به مراتب افزایش خواهد یافت. منظور از تقاطع منابع اطلاعاتی افزایش دامنه جمعآوری اطلاعات در حوزههای مرتبط با موضوع پیش بینی است.
2- تمرکز بیش از حد به فضای مجازی:
یکی دیگر از خطاهای رایج در پیشبینیهای دادهمحور تمرکز بیش از حد به دادهها و منابع اطلاعاتی موجود در شبکههای اجتماعی، منابع خبری، نظرسنجیهای آنلاین و... است. این درحالی هست که طیف وسیعی از رای دهندگان که در انتخاباتها شرکت میکنند لزوما نظرات و علاقهمندیهای حقیقی خود را در فضای مجازی منتشر نمیکنند. جهت افزایش دقت مدلهای پیشبینانه میبایست این جامعه آماری مهم را نیز در نظر داشت.
3- عدم توجه به متغیرهای موضوعی:
یکی دیگر از دلایل شکست در پیشبینی دقیق نظرات آحاد جامعه در یک موضوع، عدم توجه به متغیرهایی موضوعی همانند قومیت، جنسیت، صنف و... است. برخی از رای دهندگان ممکن است صرفا به دلیل جنسیت یا قومیت یک شرکت کننده به آن رای دهند. در صورتی که این قبیل متغیرها در مدلهای پیشبینی لحاظ نشود سبب افزایش خطا در پیشبینیها میشود.
4- عدم دسترسی به منابع اطلاعاتی:
عدم دسترسی به منابع اطلاعاتی جامع یکی دیگر از مولفههای افزایش خطا در مدلهای پیشبینانه است. هر چقدر منابع اطلاعاتی مورد بررسی دارای کمیت و کیفیت بهتری باشد به طبع دقت مدلهای پیشبینی نیز افزایش پیدا خواهد کرد.
تمامی این موارد برخی از دلایل شکست در پیشبینیهای موضوعی داده محور است. در انتها این نکته باید توجه شود که با توجه به افزایش حجم، تنوع و سرعت تولید اطلاعات، بهرهگیری از تحلیلهای دادهمحور یکی از موثرترین راهکارها در جهت کسب بینش خواهد بود. واقعیتی که در لایههای حاکمیتی، سازمانی و... باید به آن توجه ویژه شود.
ارادتمند
محمدرضا محتاط
@DataAnalysis
http://tiny.cc/873lbz
برنامه عصر جدید دیشب با پیروزی خانم فاطمه عبادی به اتمام رسید. امری که اگر چه دور از ذهن نبود اما پیشبینیهای متعدد توسط منابع مختلف نشان از پیروزی پارسا خائف داشت. یکی دیگر از خطاهای اخیر در پیشبینیهای دادهمحور شکست در پیشبینی قهرمان مسابقات جام جهانی فوتبال توسط یکی از مطرحترین سیستمهای هوش مصنوعی در جهان بود.
آیا پیشبینیهای دادهمحور قابل اتکا نیستند!؟
در این نوشتار برخی علل بروز خطا در پیشبینیهای دادهمحور ذکر خواهد شد.
1- عدم تقاطع منابع اطلاعاتی:
تقاطع منابع اطلاعاتی یکی از راهکارهای افزایش دقت و صحت مدلهای پیشبینانه خواهد شد. در صورتی که تنها از یک منبع اطلاعاتی اقدام به پیشبینی شود خطا به مراتب افزایش خواهد یافت. منظور از تقاطع منابع اطلاعاتی افزایش دامنه جمعآوری اطلاعات در حوزههای مرتبط با موضوع پیش بینی است.
2- تمرکز بیش از حد به فضای مجازی:
یکی دیگر از خطاهای رایج در پیشبینیهای دادهمحور تمرکز بیش از حد به دادهها و منابع اطلاعاتی موجود در شبکههای اجتماعی، منابع خبری، نظرسنجیهای آنلاین و... است. این درحالی هست که طیف وسیعی از رای دهندگان که در انتخاباتها شرکت میکنند لزوما نظرات و علاقهمندیهای حقیقی خود را در فضای مجازی منتشر نمیکنند. جهت افزایش دقت مدلهای پیشبینانه میبایست این جامعه آماری مهم را نیز در نظر داشت.
3- عدم توجه به متغیرهای موضوعی:
یکی دیگر از دلایل شکست در پیشبینی دقیق نظرات آحاد جامعه در یک موضوع، عدم توجه به متغیرهایی موضوعی همانند قومیت، جنسیت، صنف و... است. برخی از رای دهندگان ممکن است صرفا به دلیل جنسیت یا قومیت یک شرکت کننده به آن رای دهند. در صورتی که این قبیل متغیرها در مدلهای پیشبینی لحاظ نشود سبب افزایش خطا در پیشبینیها میشود.
4- عدم دسترسی به منابع اطلاعاتی:
عدم دسترسی به منابع اطلاعاتی جامع یکی دیگر از مولفههای افزایش خطا در مدلهای پیشبینانه است. هر چقدر منابع اطلاعاتی مورد بررسی دارای کمیت و کیفیت بهتری باشد به طبع دقت مدلهای پیشبینی نیز افزایش پیدا خواهد کرد.
تمامی این موارد برخی از دلایل شکست در پیشبینیهای موضوعی داده محور است. در انتها این نکته باید توجه شود که با توجه به افزایش حجم، تنوع و سرعت تولید اطلاعات، بهرهگیری از تحلیلهای دادهمحور یکی از موثرترین راهکارها در جهت کسب بینش خواهد بود. واقعیتی که در لایههای حاکمیتی، سازمانی و... باید به آن توجه ویژه شود.
ارادتمند
محمدرضا محتاط
@DataAnalysis
برترین مهارتهای مورد نیاز یک دانشمند داده!
▪️براساس تحلیل بیش از 300 فرصت شغلی دانشمندان علمداده در سال 2019 به ترتیب زبانهای برنامهنویسی پایتون، R و SQL همچنان در رتبههای اول قرار دارند.
▪️از نکات قابل توجه در فرصتهای شغلی متخصصین علمداده، رشد مهارتها و تخصصهای مرتبط با Big Data و پلتفرمهای هدوپ و اسپارک میباشد. این میزان از 17 درصد در سال 2015 به 59 درصد در سال 2018 رسیده است.
▪️در میان فریمورکهای یادگیری عمیق نیز فریمورکهای تنسورفلو، Keras و Pytorch دارای بیشترین فراخوانی در آگهیهای متخصیین علمداده بودهاند.
▪️از میان کتابخانههای تحلیلی زبان برنامهنویسی پایتون به ترتیب کتابخانههای Scikit Learn, Pandas و Numpy بیشتر مورد توجه بوده است.
پینوشت:
پایش مستمر فرصتهای شغلی مرتبط با حوزه فعالیت کاری یکی از مولفههای موثر در جهت یادگیری و توسعه هدفمند ابزارها و مفاهیم نوین است.
@DataAnalysis
▪️براساس تحلیل بیش از 300 فرصت شغلی دانشمندان علمداده در سال 2019 به ترتیب زبانهای برنامهنویسی پایتون، R و SQL همچنان در رتبههای اول قرار دارند.
▪️از نکات قابل توجه در فرصتهای شغلی متخصصین علمداده، رشد مهارتها و تخصصهای مرتبط با Big Data و پلتفرمهای هدوپ و اسپارک میباشد. این میزان از 17 درصد در سال 2015 به 59 درصد در سال 2018 رسیده است.
▪️در میان فریمورکهای یادگیری عمیق نیز فریمورکهای تنسورفلو، Keras و Pytorch دارای بیشترین فراخوانی در آگهیهای متخصیین علمداده بودهاند.
▪️از میان کتابخانههای تحلیلی زبان برنامهنویسی پایتون به ترتیب کتابخانههای Scikit Learn, Pandas و Numpy بیشتر مورد توجه بوده است.
پینوشت:
پایش مستمر فرصتهای شغلی مرتبط با حوزه فعالیت کاری یکی از مولفههای موثر در جهت یادگیری و توسعه هدفمند ابزارها و مفاهیم نوین است.
@DataAnalysis
جهت یادگیری مفاهیم و ابزارهای علمداده کدام یک از رویکردهای زیر را ترجیح میدهید؟
Anonymous Poll
34%
دورههای آموزشی بلند مدت(دورههای جامع)
18%
دورههای آموزشی کوتاه مدت
43%
دورههای آموزشی آنلاین
6%
سایر
با سلام و احترام
پیرو برگزاری دورههای َآموزشی هدفمند در حوزههای مرتبط با علمداده و تحلیلداده، در صورتی که علاقهمند به شرکت در دورههای تخصصی مرتبط هستید خواهشمنداست نسبت به پر کردن فرم نظرسنجی زیر اقدام نمایید.
https://forms.gle/z9Axy4nFyp1QVKdK7
@DataAnalysis
پیرو برگزاری دورههای َآموزشی هدفمند در حوزههای مرتبط با علمداده و تحلیلداده، در صورتی که علاقهمند به شرکت در دورههای تخصصی مرتبط هستید خواهشمنداست نسبت به پر کردن فرم نظرسنجی زیر اقدام نمایید.
https://forms.gle/z9Axy4nFyp1QVKdK7
@DataAnalysis
Google Docs
نیازمندیهای آموزشی در حوزه علمداده
پیرو برگزاری دورههای َآموزشی هدفمند در حوزههای مرتبط با علمداده و تحلیلداده، در صورتی که علاقهمند به شرکت در دورههای تخصصی مرتبط هستید خواهشمنداست نسبت به پر کردن فرم نظرسنجی زیر اقدام نمایید.
معرفی کتاب An Introduction to Statistical Learning
http://tiny.cc/xzs1bz
کتاب An Introduction to Statistical Learning یکی از بهترین کتابهای تخصصی در آموزش مفاهیم تحلیلهای آماری و یادگیری ماشین است که توسط انتشارات Springer انتشار یافته است. آموزش طیف وسیعی از الگوریتمها، متدهای آماری و مدلهای خطی با ذکر مثالهای متعدد از ویژگیهای بارز این کتاب است.
سرفصلهای دهگانه این کتاب به شرح زیر است. قابل ذکر است که پیادهسازی موجود در این کتاب به زبان برنامهنویسی R میباشد.
▪️Introduction
▪️Statistical Learning
▪️Linear Regression
▪️Classification
▪️Resampling Methods
▪️Linear Model Selection and Regularization
▪️Moving Beyond Linearity
▪️Tree-Based Methods
▪️Support Vector Machines
▪️Unsupervised Learning
مطالعه این کتاب ارزشمند را به تمامی علاقهمندان حوزه علمداده که قصد در تقویت پایههای علوم آماری خود را دارند توصیه میکنم.
ارادتمند
محمدرضا محتاط
@DataAnalysis
http://tiny.cc/xzs1bz
کتاب An Introduction to Statistical Learning یکی از بهترین کتابهای تخصصی در آموزش مفاهیم تحلیلهای آماری و یادگیری ماشین است که توسط انتشارات Springer انتشار یافته است. آموزش طیف وسیعی از الگوریتمها، متدهای آماری و مدلهای خطی با ذکر مثالهای متعدد از ویژگیهای بارز این کتاب است.
سرفصلهای دهگانه این کتاب به شرح زیر است. قابل ذکر است که پیادهسازی موجود در این کتاب به زبان برنامهنویسی R میباشد.
▪️Introduction
▪️Statistical Learning
▪️Linear Regression
▪️Classification
▪️Resampling Methods
▪️Linear Model Selection and Regularization
▪️Moving Beyond Linearity
▪️Tree-Based Methods
▪️Support Vector Machines
▪️Unsupervised Learning
مطالعه این کتاب ارزشمند را به تمامی علاقهمندان حوزه علمداده که قصد در تقویت پایههای علوم آماری خود را دارند توصیه میکنم.
ارادتمند
محمدرضا محتاط
@DataAnalysis
ارزيابي بلوغ قابلیتهای تحليلي و كلان داده سازمان!
http://tiny.cc/cca7bz
زبدگی در فناوریهای تحولآفرین تحليل داده و قابلیتهای تحليلي مبتني بر كلان داده يكي از گامهای كليدي در افزايش اثربخشي در فرايندهاي کسبوکار، بهینهسازی و اخذ تصميمات داده محور در جهت دستیابی به اهداف راهبردي و استراتژيك سازمانها و خلق تجربه دیجیتال مشتریان میباشد.
جهت ارزيابي بلوغ قابلیتهای تحليل داده و كلان داده بعضاً مدلهای متنوعي مطرحشده است كه تنها در سطوح کاملاً فني سطح بلوغ سازمان را موردبررسی قرار میدهد. این در حالی است که در حوزه ارزیابی بلوغ تحلیل داده و کلانداده مدلی بهینه خواهد بود که همزمان معیارها و مؤلفههای فني و مديريتي سازمان را موردبررسی و ارزيابي قرار دهد.
مولفههای همانند کسبوکار دادهمحور، رهبري، تكنولوژي، دادهها، اهداف و راهبردها، تيم تخصصي تحليل داده سازمان و... از مولفههای کلیدی هستند که جهت ارزیابی بلوغ میبایست به آنها توجه شود و درنهایت راهكارهايي در جهت برطرف سازي خلأها و مشكلات موجود ارائه گردد.
در واقع سازمانهای پیشرو امروزی، با سرمایهگذاری بهینه در فناوریهای تحلیل داده و کلانداده، از آنها برای ایجاد منابع جدید درآمدی و همچنین تحلیل دادههای تولیدشده، باهدف بهبود فرایندها، خلق تجربههایی خوشایند و منحصربهفرد برای مشتریان، بهره میگیرند.
لازم هست به سؤال زیر بیش از گذشته فکر نمایید!
ميزان بلوغ شركت شما در حوزه تحليل داده و بیگدیتا و بهرهبرداری از فرصتهای متنوع این حوزه چه ميزان میباشد؟!
ارادتمند
محمدرضا محتاط
@DataAnalysis
http://tiny.cc/cca7bz
زبدگی در فناوریهای تحولآفرین تحليل داده و قابلیتهای تحليلي مبتني بر كلان داده يكي از گامهای كليدي در افزايش اثربخشي در فرايندهاي کسبوکار، بهینهسازی و اخذ تصميمات داده محور در جهت دستیابی به اهداف راهبردي و استراتژيك سازمانها و خلق تجربه دیجیتال مشتریان میباشد.
جهت ارزيابي بلوغ قابلیتهای تحليل داده و كلان داده بعضاً مدلهای متنوعي مطرحشده است كه تنها در سطوح کاملاً فني سطح بلوغ سازمان را موردبررسی قرار میدهد. این در حالی است که در حوزه ارزیابی بلوغ تحلیل داده و کلانداده مدلی بهینه خواهد بود که همزمان معیارها و مؤلفههای فني و مديريتي سازمان را موردبررسی و ارزيابي قرار دهد.
مولفههای همانند کسبوکار دادهمحور، رهبري، تكنولوژي، دادهها، اهداف و راهبردها، تيم تخصصي تحليل داده سازمان و... از مولفههای کلیدی هستند که جهت ارزیابی بلوغ میبایست به آنها توجه شود و درنهایت راهكارهايي در جهت برطرف سازي خلأها و مشكلات موجود ارائه گردد.
در واقع سازمانهای پیشرو امروزی، با سرمایهگذاری بهینه در فناوریهای تحلیل داده و کلانداده، از آنها برای ایجاد منابع جدید درآمدی و همچنین تحلیل دادههای تولیدشده، باهدف بهبود فرایندها، خلق تجربههایی خوشایند و منحصربهفرد برای مشتریان، بهره میگیرند.
لازم هست به سؤال زیر بیش از گذشته فکر نمایید!
ميزان بلوغ شركت شما در حوزه تحليل داده و بیگدیتا و بهرهبرداری از فرصتهای متنوع این حوزه چه ميزان میباشد؟!
ارادتمند
محمدرضا محتاط
@DataAnalysis
برترین کتابخانههای یادگیری ماشین!
در ادامه برترین کتابخانههای یادگیری ماشین زبانهای برنامهنویسی پایتون و R براساس میزان استفاده در پروژههای علمداده ذکر گردیده است.
1- Scikit Learn
2- Tensorflow
3- Keras
4- randomForest
5- Xgboost
6- PyTorch
7- Caret
8- Lightgbm
9- Spark MLlib
10- H2O
پینوشت:
جهت مطالعه جزئیات گزارش فوق میتوانید از طریق لینک زیر اقدام نمایید.
http://tiny.cc/0v5ccz
@DataAnalysis
در ادامه برترین کتابخانههای یادگیری ماشین زبانهای برنامهنویسی پایتون و R براساس میزان استفاده در پروژههای علمداده ذکر گردیده است.
1- Scikit Learn
2- Tensorflow
3- Keras
4- randomForest
5- Xgboost
6- PyTorch
7- Caret
8- Lightgbm
9- Spark MLlib
10- H2O
پینوشت:
جهت مطالعه جزئیات گزارش فوق میتوانید از طریق لینک زیر اقدام نمایید.
http://tiny.cc/0v5ccz
@DataAnalysis
دادههای کثیف؛ چالشیترین مشکل تیمهای علم داده!
http://tiny.cc/s49rcz
تشکیل تیمهای تخصصی علمداده در سازمانها علاوه بر جذابیتهایی همانند کسب بینش ناشی از تحلیلهای دادهمحور، ارتقا تجربه مشتریان، بهبود فرایندها و... دارای چالشهایی نیز هست که در صورت عدم مدیریت آن، مشکلات متعددی در پروژهها و مدیریت تیمهای علمداده ایجاد میکند.
در ادامه برخی از مهمترین چالشهای سازمانی دپارتمانهای علم داده براساس نظرسنجی موسسه Business Broadway از 10 هزار متخصص این حوزه ذکر میشود.
1- وجود دادههای کثیف(Dirty Data)
2- خلا وجود متخصصین و استعدادهای کافی علمداده در سازمان
3- عدم وجود سیاستها و فرهنگ سازمانی دادهمحور
4- پیچیدگی یا عدم دسترسی به اطلاعات و دادههای مورد نیاز
5- قابل استفاده نبودن نتایج پروژههای تحلیلداده در تصمیمات کسبوکار
6- توضیح کاربردها و کارکردهای علمداده به سایر واحدها و افراد سازمان
7- مشکلات حریم خصوصی
8- عدم همکاری و تعامل متخصصین کسب و کار با متخصصین علمداده
9- عدم دسترسی به منابع کافی جهت تشکیل تیم علمداده در شرکتهای کوچک
10- استفاده از ابزارها و زبانهای برنامهنویسی متعدد (پایتون،R، جاوا و...) توسط متخصصین علمداده
11- محدودیت ابزارهای تحلیلداده
پینوشت:
موارد فوق تنها بخشی از چالشهای تیمهای علم داده در سازمانهاست که با بهرهگیری از متدها و روشهای اصولی امکان مدیریت این مشکلات وجود دارد. مواردی همچون تدوین استراتژیهای تحلیل داده، استقرار متدولوژیهای حکمرانی داده و مدیریت داده و... نمونهای از این راهکارها خواهد بود.
در انتها این نکته قابل ذکر است که برخی از شرکتها و سازمانها در تلاش هستند تا تمامی این چالشها به صورت گام به گام و براساس دانش تیمهای موجود برطرف گردد. این رویکرد سبب افزایش زمان پاسخگویی به مشکلات و به طبع کاهش اثربخشی تیمهای علم داده خود میشود. بهرهگیری از تجربیات مشاوران متخصص میتواند در این مسیر بسیار راهگشا باشد.
ارادتمند
محمدرضا محتاط
@DataAnalysis
http://tiny.cc/s49rcz
تشکیل تیمهای تخصصی علمداده در سازمانها علاوه بر جذابیتهایی همانند کسب بینش ناشی از تحلیلهای دادهمحور، ارتقا تجربه مشتریان، بهبود فرایندها و... دارای چالشهایی نیز هست که در صورت عدم مدیریت آن، مشکلات متعددی در پروژهها و مدیریت تیمهای علمداده ایجاد میکند.
در ادامه برخی از مهمترین چالشهای سازمانی دپارتمانهای علم داده براساس نظرسنجی موسسه Business Broadway از 10 هزار متخصص این حوزه ذکر میشود.
1- وجود دادههای کثیف(Dirty Data)
2- خلا وجود متخصصین و استعدادهای کافی علمداده در سازمان
3- عدم وجود سیاستها و فرهنگ سازمانی دادهمحور
4- پیچیدگی یا عدم دسترسی به اطلاعات و دادههای مورد نیاز
5- قابل استفاده نبودن نتایج پروژههای تحلیلداده در تصمیمات کسبوکار
6- توضیح کاربردها و کارکردهای علمداده به سایر واحدها و افراد سازمان
7- مشکلات حریم خصوصی
8- عدم همکاری و تعامل متخصصین کسب و کار با متخصصین علمداده
9- عدم دسترسی به منابع کافی جهت تشکیل تیم علمداده در شرکتهای کوچک
10- استفاده از ابزارها و زبانهای برنامهنویسی متعدد (پایتون،R، جاوا و...) توسط متخصصین علمداده
11- محدودیت ابزارهای تحلیلداده
پینوشت:
موارد فوق تنها بخشی از چالشهای تیمهای علم داده در سازمانهاست که با بهرهگیری از متدها و روشهای اصولی امکان مدیریت این مشکلات وجود دارد. مواردی همچون تدوین استراتژیهای تحلیل داده، استقرار متدولوژیهای حکمرانی داده و مدیریت داده و... نمونهای از این راهکارها خواهد بود.
در انتها این نکته قابل ذکر است که برخی از شرکتها و سازمانها در تلاش هستند تا تمامی این چالشها به صورت گام به گام و براساس دانش تیمهای موجود برطرف گردد. این رویکرد سبب افزایش زمان پاسخگویی به مشکلات و به طبع کاهش اثربخشی تیمهای علم داده خود میشود. بهرهگیری از تجربیات مشاوران متخصص میتواند در این مسیر بسیار راهگشا باشد.
ارادتمند
محمدرضا محتاط
@DataAnalysis
برترین مهارتهای فعلی و آتی متخصصین علمداده!
http://tiny.cc/9kt6cz
بهتازگی توسط وبسایت kdnuggets یک نظرسنجی از متخصصین علوم داده مبنی بر مهارتهای فعلی (Have Skill) و مهارتهای آتی (Want Skill) موردنیاز پرسیده شده است که با توجه به جامعیت نظرسنجی فوق میتواند راهنمایی مناسبی جهت تحلیل مهارتهای موردنیاز بازار علمداده در آینده باشد.
✅ برترین مهارتهای فعلی متخصصین علمداده:
1️⃣ پایتون (Python)
2️⃣ مصورسازی دادهها (Data Visualization)
3️⃣ تفکر انتقادی (Critical Thinking)
4️⃣ اکسل (Excel)
5️⃣ مهارتهای ارتباطی (Communications Skills)
6️⃣ یادگیری ماشین (Machine Learning)
7️⃣ آمار (Statistics)
8️⃣ مهارتهای پایگاه داده (SQL/Database Coding)
9️⃣ فهم کسبوکار (Business Understanding)
🔟 ریاضی (Math)
🔵 برترین مهارتهای آتی (توسعه دانش) متخصصین علمداده:
1️⃣ یادگیری عمیق (Deep Learning)
2️⃣ کتابخانه یادگیری عمیق تنسورفلو (TensorFlow)
3️⃣ یادگیری ماشین (Machine Learning )
4️⃣ پایتون (Python)
5️⃣ آپاچی اسپارک (Apache Spark)
6️⃣ پردازش زبان طبیعی (NLP - Text Processing)
7️⃣ کتابخانه یادگیری عمیق پایتورچ (Pytorch)
8️⃣ آمار (Statistics)
9️⃣ دادههای غیرساختیافته (Unstructured Data)
🔟 سایر ابزارهای کلان داده (Other Big Data Tools)
پینوشت:
◾️ افزایش میزان توجهات به کتابخانه یادگیری عمیق Pytorch، زبان Scala و ابزارهای Big Data با توجه به درصد رشد آن قابلتوجه است.
◾️در میان زبانهای برنامهنویسی، کسب رتبه نخست توسط زبان پایتون و کاهش جایگاه زبانهای برنامهنویسی R و Matlab، این زبان برنامهنویسی را تبدیل به برترین زبان در حوزه علمداده کرده است.
◾️قرار گرفتن دو مهارت نرم (Soft Skill) تفکر انتقادی و مهارتهای ارتباطی جز 5 مهارت برتر فعلی متخصصین علمداده نشان از میزان توجهات به این قبیل مهارتها در این بازار کاری دارد.
ارادتمند
محمدرضا محتاط
@DataAnalysis
http://tiny.cc/9kt6cz
بهتازگی توسط وبسایت kdnuggets یک نظرسنجی از متخصصین علوم داده مبنی بر مهارتهای فعلی (Have Skill) و مهارتهای آتی (Want Skill) موردنیاز پرسیده شده است که با توجه به جامعیت نظرسنجی فوق میتواند راهنمایی مناسبی جهت تحلیل مهارتهای موردنیاز بازار علمداده در آینده باشد.
✅ برترین مهارتهای فعلی متخصصین علمداده:
1️⃣ پایتون (Python)
2️⃣ مصورسازی دادهها (Data Visualization)
3️⃣ تفکر انتقادی (Critical Thinking)
4️⃣ اکسل (Excel)
5️⃣ مهارتهای ارتباطی (Communications Skills)
6️⃣ یادگیری ماشین (Machine Learning)
7️⃣ آمار (Statistics)
8️⃣ مهارتهای پایگاه داده (SQL/Database Coding)
9️⃣ فهم کسبوکار (Business Understanding)
🔟 ریاضی (Math)
🔵 برترین مهارتهای آتی (توسعه دانش) متخصصین علمداده:
1️⃣ یادگیری عمیق (Deep Learning)
2️⃣ کتابخانه یادگیری عمیق تنسورفلو (TensorFlow)
3️⃣ یادگیری ماشین (Machine Learning )
4️⃣ پایتون (Python)
5️⃣ آپاچی اسپارک (Apache Spark)
6️⃣ پردازش زبان طبیعی (NLP - Text Processing)
7️⃣ کتابخانه یادگیری عمیق پایتورچ (Pytorch)
8️⃣ آمار (Statistics)
9️⃣ دادههای غیرساختیافته (Unstructured Data)
🔟 سایر ابزارهای کلان داده (Other Big Data Tools)
پینوشت:
◾️ افزایش میزان توجهات به کتابخانه یادگیری عمیق Pytorch، زبان Scala و ابزارهای Big Data با توجه به درصد رشد آن قابلتوجه است.
◾️در میان زبانهای برنامهنویسی، کسب رتبه نخست توسط زبان پایتون و کاهش جایگاه زبانهای برنامهنویسی R و Matlab، این زبان برنامهنویسی را تبدیل به برترین زبان در حوزه علمداده کرده است.
◾️قرار گرفتن دو مهارت نرم (Soft Skill) تفکر انتقادی و مهارتهای ارتباطی جز 5 مهارت برتر فعلی متخصصین علمداده نشان از میزان توجهات به این قبیل مهارتها در این بازار کاری دارد.
ارادتمند
محمدرضا محتاط
@DataAnalysis
تکنولوژیهای تاثیرگذار دهه آینده!
در شکل فوق برترین تکنولوژیهای تاثیرگذار طی دهه آینده معرفی شدهاند. حضور تکنولوژیهای هوش مصنوعی، اینترنت اشیا، بلاکچین و کلانداده در رتبههای اول تا پنجم نشان از گسترش بازارکار این فیلدهای کاری طی سالیان آینده است.
طراحی استراتژی بهینه توسعه محصولات و خدمات مرتبط با این تکنولوژیهای نوظهور سبب افزایش موفقیت شرکتها و سازمانها در مواجهه با رقبا خواهد شد.
@DataAnalysis
در شکل فوق برترین تکنولوژیهای تاثیرگذار طی دهه آینده معرفی شدهاند. حضور تکنولوژیهای هوش مصنوعی، اینترنت اشیا، بلاکچین و کلانداده در رتبههای اول تا پنجم نشان از گسترش بازارکار این فیلدهای کاری طی سالیان آینده است.
طراحی استراتژی بهینه توسعه محصولات و خدمات مرتبط با این تکنولوژیهای نوظهور سبب افزایش موفقیت شرکتها و سازمانها در مواجهه با رقبا خواهد شد.
@DataAnalysis
This media is not supported in your browser
VIEW IN TELEGRAM
اجرا گرافیکی الگوریتمهای شبکه عصبی!
یکی از پیچیدگیهای مدلهای مبتنی بر شبکههای عصبی و یادگیری عمیق Black Box بودن نحوه مدلسازی و نتایج حاصل از این مدلهای مبتنی بر یادگیری ماشین است.
در وبسایت زیر که توسط توسعه دهندگان کتابخانه یادگیری عمیق Tensorflow ایجاد شده است شما میتوانید به صورت گرافیکی مدلهای شبکه عصبی را برای مسائل طبقهبندی و رگرسیون ایجاد، بهینهسازی و تحلیل کنید. در این وبسایت امکان تغییر تعداد لایهها و نرونهای شبکه عصبی، انتخاب تابعهای فعالسازی (Activation Function)، نرخ یادگیری (Learning Rate) و... وجود دارد.
آدرس وبسایت:
Playground.tensorflow.org
@DataAnalysis
یکی از پیچیدگیهای مدلهای مبتنی بر شبکههای عصبی و یادگیری عمیق Black Box بودن نحوه مدلسازی و نتایج حاصل از این مدلهای مبتنی بر یادگیری ماشین است.
در وبسایت زیر که توسط توسعه دهندگان کتابخانه یادگیری عمیق Tensorflow ایجاد شده است شما میتوانید به صورت گرافیکی مدلهای شبکه عصبی را برای مسائل طبقهبندی و رگرسیون ایجاد، بهینهسازی و تحلیل کنید. در این وبسایت امکان تغییر تعداد لایهها و نرونهای شبکه عصبی، انتخاب تابعهای فعالسازی (Activation Function)، نرخ یادگیری (Learning Rate) و... وجود دارد.
آدرس وبسایت:
Playground.tensorflow.org
@DataAnalysis
معرفی کتاب Learning Pyspark
کتاب Learning Pyspark یکی از منابع آموزشی مفید جهت یادگیری پلتفرم پردازشی کلانداده اسپارک در زبان پایتون است. این کتاب برای تمامی توسعه دهندگان و تحلیلگران کلانداده که قصد یادگیری کار با پلتفرم Spark با زبان پایتون را دارند توصیه میشود. سرفصلهای اصلی این کتاب به شرح زیر است.
Chapter 1: Understanding Spark
Chapter 2: Resilient Distributed Datasets
Chapter 3: DataFrames
Chapter 4: Prepare Data for Modeling
Chapter 5: Introducing MLlib
Chapter 6: Introducing the ML Package
Chapter 7: GraphFrames
Chapter 8: TensorFrames
Chapter 9: Polyglot Persistence with Blaze
Chapter 10: Structured Streaming
Chapter 11: Packaging Spark Applications
@DataAnalysis
کتاب Learning Pyspark یکی از منابع آموزشی مفید جهت یادگیری پلتفرم پردازشی کلانداده اسپارک در زبان پایتون است. این کتاب برای تمامی توسعه دهندگان و تحلیلگران کلانداده که قصد یادگیری کار با پلتفرم Spark با زبان پایتون را دارند توصیه میشود. سرفصلهای اصلی این کتاب به شرح زیر است.
Chapter 1: Understanding Spark
Chapter 2: Resilient Distributed Datasets
Chapter 3: DataFrames
Chapter 4: Prepare Data for Modeling
Chapter 5: Introducing MLlib
Chapter 6: Introducing the ML Package
Chapter 7: GraphFrames
Chapter 8: TensorFrames
Chapter 9: Polyglot Persistence with Blaze
Chapter 10: Structured Streaming
Chapter 11: Packaging Spark Applications
@DataAnalysis
کاربردهای زبان برنامهنویسی پایتون!
به تازگی توسط IEEE Spectrum زبان برنامهنویسی پایتون براساس مولفههای میزان تقاضا، رشد، محبوبیت و... بعنوان برترین زبان برنامهنویسی سال 2019 انتخاب شده است. این زبان برنامهنویسی در حال حاضر در حوزههای مرتبط با علمداده، تحلیل کلانداده و... نیز جز برترین زبانهای برنامهنویسی است.
زبان پایتون علاوه بر حوزه تحلیلداده در سایر فیلدهای مرتبط با فناوری اطلاعات و مهندسی نرمافزار نیز دارای قابلیتهای متعددی است. در شکل فوق کاربردهای اصلی زبان پایتون به همراه کتابخانههای مطرح آن معرفی شده است.
@DataAnalysis
به تازگی توسط IEEE Spectrum زبان برنامهنویسی پایتون براساس مولفههای میزان تقاضا، رشد، محبوبیت و... بعنوان برترین زبان برنامهنویسی سال 2019 انتخاب شده است. این زبان برنامهنویسی در حال حاضر در حوزههای مرتبط با علمداده، تحلیل کلانداده و... نیز جز برترین زبانهای برنامهنویسی است.
زبان پایتون علاوه بر حوزه تحلیلداده در سایر فیلدهای مرتبط با فناوری اطلاعات و مهندسی نرمافزار نیز دارای قابلیتهای متعددی است. در شکل فوق کاربردهای اصلی زبان پایتون به همراه کتابخانههای مطرح آن معرفی شده است.
@DataAnalysis
برترین دورههای آنلاین آموزش یادگیری عمیق!
http://tiny.cc/d0zsdz
یادگیری عمیق با توجه به قابلیتها و کاربردهای متنوعی که در حوزههای پردازش تصویر، پردازش زبان طبیعی و... دارد در حال تبدیل شدن به یکی از مهارتهای کلیدی یک متخصص علمداده است. در ادامه برخی از مطرحترین دوره آنلاین یادگیری عمیق معرفی میشوند.
1- دوره یادگیری عمیق پرفسور Andrew Ng در سایت Coursera
2- دوره یادگیری عمیق شرکت IBM در سایت EDX
3- مدرسه هوش مصنوعی موسسه Udacity
4- دوره یادگیری عمیق دانشگاه MIT
5- دوره یادگیری عمیق با پایتون Datacamp
6- دوره یادگیری عمیق از صفر تا صد موسسه Udemy
7- دوره فارسی یادگیری عمیق دانشگاه استنفورد
شرکت در دورههای آنلاین فوق و مطالعه کتب مرجع یکی از بهترین راههای کسب تخصص در این حوزه و سایر فیلدهای کاری است. امری که تنها نیازمند آشنایی با زبان انگلیسی خواهد بود.
پینوشت:
علاوه بر موارد فوق در وبسایت ویرگول یک مسیر پیشنهادی جهت تبدیل شدن به یک متخصص یادگیری عمیق تدوین شده است که میتواند برای علاقهمندان این حوزه مفید باشد.
https://dataio.ir/deep-learning-aetdp4cfynrj
ارادتمند
محمدرضا محتاط
@DataAnalysis
http://tiny.cc/d0zsdz
یادگیری عمیق با توجه به قابلیتها و کاربردهای متنوعی که در حوزههای پردازش تصویر، پردازش زبان طبیعی و... دارد در حال تبدیل شدن به یکی از مهارتهای کلیدی یک متخصص علمداده است. در ادامه برخی از مطرحترین دوره آنلاین یادگیری عمیق معرفی میشوند.
1- دوره یادگیری عمیق پرفسور Andrew Ng در سایت Coursera
2- دوره یادگیری عمیق شرکت IBM در سایت EDX
3- مدرسه هوش مصنوعی موسسه Udacity
4- دوره یادگیری عمیق دانشگاه MIT
5- دوره یادگیری عمیق با پایتون Datacamp
6- دوره یادگیری عمیق از صفر تا صد موسسه Udemy
7- دوره فارسی یادگیری عمیق دانشگاه استنفورد
شرکت در دورههای آنلاین فوق و مطالعه کتب مرجع یکی از بهترین راههای کسب تخصص در این حوزه و سایر فیلدهای کاری است. امری که تنها نیازمند آشنایی با زبان انگلیسی خواهد بود.
پینوشت:
علاوه بر موارد فوق در وبسایت ویرگول یک مسیر پیشنهادی جهت تبدیل شدن به یک متخصص یادگیری عمیق تدوین شده است که میتواند برای علاقهمندان این حوزه مفید باشد.
https://dataio.ir/deep-learning-aetdp4cfynrj
ارادتمند
محمدرضا محتاط
@DataAnalysis
👍1
فرصت شغلی متخصص علمداده در شرکت Quiz Of Kings
🔹تجربیات مورد نیاز:
1. Designing and Building a Data Stack
2. Experience with BI and its tools
🔸مهارتهای فنی:
1. Programming Skills
2. Hadoop Platform
3. SQL Database/Coding
4. Apache Spark
5. MapReduce
6. Data Visualization (Tableau)
7. Unstructured data (Dark Analytics)
8. Machine Learning and AI (FP.Growth,Apriori ,ECLAT,k-means,SVM,KNN)
🔻مهارتهای نرم:
1. Intellectual curiosity
2. Communication skills
3. Teamwork
4. Business acumen
(a solid understanding of industry , being able to discern which problems are important to solve for the business )
-Preferred Education: BSc or Masters on:
mathematics
Statistics
Computer Science
Please send us CV to: hr@qok.us
@DataAnalysis
🔹تجربیات مورد نیاز:
1. Designing and Building a Data Stack
2. Experience with BI and its tools
🔸مهارتهای فنی:
1. Programming Skills
2. Hadoop Platform
3. SQL Database/Coding
4. Apache Spark
5. MapReduce
6. Data Visualization (Tableau)
7. Unstructured data (Dark Analytics)
8. Machine Learning and AI (FP.Growth,Apriori ,ECLAT,k-means,SVM,KNN)
🔻مهارتهای نرم:
1. Intellectual curiosity
2. Communication skills
3. Teamwork
4. Business acumen
(a solid understanding of industry , being able to discern which problems are important to solve for the business )
-Preferred Education: BSc or Masters on:
mathematics
Statistics
Computer Science
Please send us CV to: hr@qok.us
@DataAnalysis
پرکاربردترین تکنیکهای آماری در علمداده!
http://tiny.cc/amm3dz
یادگیری تخصصی تکنیکها و الگوریتمهای آماری همواره یکی از چالشهای متخصصین علمداده است. در ادامه 10 تکنیک پرکاربرد آمار در پروژههای علمداده و دادهکاوی معرفی میشوند.
1- رگرسیون خطی (Linear Regression)
2- الگوریتمهای طبقهبندی (Classification)
3- نمونهسازی (Resampling)
4- کاهش بعد (Dimension Reduction)
5- مدلهای غیرخطی (Nonlinear Models)
6- الگوریتمهای بدون نظارت (Unsupervised Learning)
7- الگوریتم ماشین پشتیبان بردار (SVM)
8- متدهای انتخاب زیرمجموعه (Subset Selection)
9- مدلهای مبتنی بر درخت (Tree-Based Methods)
10- روش Shrinkage
در شکل زیر به تفکیک، متدها و الگوریتمهای مورد نیاز در هر دسته عنوان شده است. آموزش هدفمند در هر یک از این موارد در گسترش دانش آماری علاقهمندان میتواند بسیار مفید باشد.
پینوشت:
در لینک زیر نیز یک جزوه تخصصی از مباحث آماری در یادگیری ماشین به زبان انگلیسی در 47 صفحه قابل دانلود است.
https://gwthomas.github.io/docs/math4ml.pdf
ارادتمند
محمدرضا محتاط
@DataAnalysis
http://tiny.cc/amm3dz
یادگیری تخصصی تکنیکها و الگوریتمهای آماری همواره یکی از چالشهای متخصصین علمداده است. در ادامه 10 تکنیک پرکاربرد آمار در پروژههای علمداده و دادهکاوی معرفی میشوند.
1- رگرسیون خطی (Linear Regression)
2- الگوریتمهای طبقهبندی (Classification)
3- نمونهسازی (Resampling)
4- کاهش بعد (Dimension Reduction)
5- مدلهای غیرخطی (Nonlinear Models)
6- الگوریتمهای بدون نظارت (Unsupervised Learning)
7- الگوریتم ماشین پشتیبان بردار (SVM)
8- متدهای انتخاب زیرمجموعه (Subset Selection)
9- مدلهای مبتنی بر درخت (Tree-Based Methods)
10- روش Shrinkage
در شکل زیر به تفکیک، متدها و الگوریتمهای مورد نیاز در هر دسته عنوان شده است. آموزش هدفمند در هر یک از این موارد در گسترش دانش آماری علاقهمندان میتواند بسیار مفید باشد.
پینوشت:
در لینک زیر نیز یک جزوه تخصصی از مباحث آماری در یادگیری ماشین به زبان انگلیسی در 47 صفحه قابل دانلود است.
https://gwthomas.github.io/docs/math4ml.pdf
ارادتمند
محمدرضا محتاط
@DataAnalysis