Forwarded from .
Future_of_analytics_sirosh_MIT.pdf
23.2 MB
#Analytics
#Lecture
⭕️فایل ارائه ی سخنرانی ای که در نوامبر 2015 در آزمایشگاه #Big_Data دانشگاه #MIT برگزار شد.
🆔: @Com_IT_Articles
#Lecture
⭕️فایل ارائه ی سخنرانی ای که در نوامبر 2015 در آزمایشگاه #Big_Data دانشگاه #MIT برگزار شد.
🆔: @Com_IT_Articles
مقایسه روش های خوشه بندی
http://www.kdnuggets.com/2016/09/comparing-clustering-techniques-concise-technical-overview.html
http://www.kdnuggets.com/2016/09/comparing-clustering-techniques-concise-technical-overview.html
مقایسه پلتفرم های پردازش بلادرنگ Big Data
https://www.mapr.com/blog/stream-processing-everywhere-what-use
@dataanalysis
https://www.mapr.com/blog/stream-processing-everywhere-what-use
@dataanalysis
Mapr
Stream Processing Everywhere – What to Use? | MapR
شرکت داده پردازی سیمیاگران از متخصصین داده کاوی، ماشین لرنینگ و تحلیل پیشرفته داده ها دعوت به همکاری می نماید:
* دارای سابقه مفید اجرایی در پروژه های تحلیل داده و بیگ دیتا (ترجیحا در خارج از کشور)
* دارای درک کامل از محیط های عملیاتی بیگ دیتا
* مسلط به پیاده سازی راه حل های مرتبط با تحلیل بیگ دیتا (Anomaly Detection, Clustering, Predictive Models, Machine Learning, Deep Learning, Stream Processing)
* ترجیحا آشنا به تحلیل داده ها در حوزه های بانکی و مالی
لطفاً رزومه خود را به آدرس fkhandan@simiagaran.net ارسال بفرمایید و در Subject عبارت Big Data Expert را درج بفرمایید.
برای اطلاعات بیشتر پیام خصوصی بدهید:
@farzadkhandan
* دارای سابقه مفید اجرایی در پروژه های تحلیل داده و بیگ دیتا (ترجیحا در خارج از کشور)
* دارای درک کامل از محیط های عملیاتی بیگ دیتا
* مسلط به پیاده سازی راه حل های مرتبط با تحلیل بیگ دیتا (Anomaly Detection, Clustering, Predictive Models, Machine Learning, Deep Learning, Stream Processing)
* ترجیحا آشنا به تحلیل داده ها در حوزه های بانکی و مالی
لطفاً رزومه خود را به آدرس fkhandan@simiagaran.net ارسال بفرمایید و در Subject عبارت Big Data Expert را درج بفرمایید.
برای اطلاعات بیشتر پیام خصوصی بدهید:
@farzadkhandan
با سلام
با توجه به دغدغه خیلی از دانش پژوهان جهت ورود به حوزه Big Data و دستیابی به تخصص بیشتر جهت ورود به بازار کار یا انجام پژوهش های دانشجویی نکات ذیل طبق تجربیاتی که بنده داشتم برای کسب دانش بیشتر توصیه می شود:
1- شرکت در دوره های آنلاین مرتبط با حوزه Big Data :
دوره های سایت هایی مانند Coursera, BigdataUniversity, Edx و... توصیه می شود.
از بین این سه سایت دوره های BigdataUniversity به صورت کوتاه تر و تخصصی تر در هر حوزه برگزار می شود. دوره های Edx دارای کارگاه های قوی تر و دوره های Coursera جهت دستیابی به فهم جامع از موضوعات پیشنهاد می شود.
2- جهت دستیابی به تخصص بیشتر در یک پلتفرم مانند آپاچی هدوپ، اسپارک و... پس از گذراندن دوره های فوق، کتاب های تخصصی انتشارات های O'reilly و Packt را مطالعه کنید.
3- جهت نصب و پیاده سازی پلتفرم های مطرح Big Data همچون آپاچی هدوپ در صورتی که تجربه قبلی نداشته آید به دلیل پیچیدگی های موجود ابتدا از پکیج های ارائه شده کمپانی های Cloudera, Hortonworks و... استفاده کنید. در این پکیج ها تمامی ابزارهای مورد نیاز وجود دارد و پس از راه اندازی در یک ماشین مجازی امکان استفاده از پلتفرم های مورد نیاز میسر خواهد شد.
۴- آشنایی با پایگاه داده های Nosql :
برای آشنایی با پایگاه داده های Nosql نیز دوره های آنلاین سایت های مانند Udemy و.. توصیه می شود. پس از انتخاب نوع پایگاه داده با استفاده از Toturial های ارائه شده توسط شرکت ارائه دهنده پایگاه داده می توانید آموزش را به صورت کاربردی فرا بگیرید.
ارادتمند
محمدرضا محتاط
با توجه به دغدغه خیلی از دانش پژوهان جهت ورود به حوزه Big Data و دستیابی به تخصص بیشتر جهت ورود به بازار کار یا انجام پژوهش های دانشجویی نکات ذیل طبق تجربیاتی که بنده داشتم برای کسب دانش بیشتر توصیه می شود:
1- شرکت در دوره های آنلاین مرتبط با حوزه Big Data :
دوره های سایت هایی مانند Coursera, BigdataUniversity, Edx و... توصیه می شود.
از بین این سه سایت دوره های BigdataUniversity به صورت کوتاه تر و تخصصی تر در هر حوزه برگزار می شود. دوره های Edx دارای کارگاه های قوی تر و دوره های Coursera جهت دستیابی به فهم جامع از موضوعات پیشنهاد می شود.
2- جهت دستیابی به تخصص بیشتر در یک پلتفرم مانند آپاچی هدوپ، اسپارک و... پس از گذراندن دوره های فوق، کتاب های تخصصی انتشارات های O'reilly و Packt را مطالعه کنید.
3- جهت نصب و پیاده سازی پلتفرم های مطرح Big Data همچون آپاچی هدوپ در صورتی که تجربه قبلی نداشته آید به دلیل پیچیدگی های موجود ابتدا از پکیج های ارائه شده کمپانی های Cloudera, Hortonworks و... استفاده کنید. در این پکیج ها تمامی ابزارهای مورد نیاز وجود دارد و پس از راه اندازی در یک ماشین مجازی امکان استفاده از پلتفرم های مورد نیاز میسر خواهد شد.
۴- آشنایی با پایگاه داده های Nosql :
برای آشنایی با پایگاه داده های Nosql نیز دوره های آنلاین سایت های مانند Udemy و.. توصیه می شود. پس از انتخاب نوع پایگاه داده با استفاده از Toturial های ارائه شده توسط شرکت ارائه دهنده پایگاه داده می توانید آموزش را به صورت کاربردی فرا بگیرید.
ارادتمند
محمدرضا محتاط
با سلام
یکی از نیازمندی های ورود به حوزه های کاری علم داده، Big Data و... تسلط به یکی از زبان های برنامه نویسی جهت پیاده سازی پروژه های عملیاتی هست.
در انتخاب زبان بعضا دغدغه هایی مطرح گردیده است که در ادامه به اختصار برخی نکات کلیدی بیان می شود:
1- در حوزه Big Data زبان های پایتون، جاوا، اسکالا توصیه می شود. در صورتی که در حوزه Big Data Developer می خواهید فعالیت انجام بدهید زبان جاوا در پلتفرم هدوپ و زبان اسکالا در موتور پردازشی اسپارک بیشترین کارایی را خواهند داشت.
در بخش Big Data Analytics هم زبان پایتون با توجه به وجود کتابخانه های غنی در حوزه یادگیری ماشین بهترین انتخاب خواهد بود.
2- در حوزه داده کاوی و علم داده زبان های پایتون، R و جاوا دارای بیشترین میزان توجهات بوده اند. یادگیری زبان زبان جاوا به نسبت زبان های پایتون و R بسیار پیچیده تر خواهد بود ولی در پروژه های Enterprise زبان جاوا بیشترین کارایی را خواهد داشت. زبان R نیز در حال حاضر رتبه اول حوزه علم داده را در اختیار دارد.
برای یادگیری زبان های فوق همانند حوزه Big Data شرکت در دوره های آنلاین و کمی تلاش توصیه می شود.
ارادتمند
محمدرضا محتاط
یکی از نیازمندی های ورود به حوزه های کاری علم داده، Big Data و... تسلط به یکی از زبان های برنامه نویسی جهت پیاده سازی پروژه های عملیاتی هست.
در انتخاب زبان بعضا دغدغه هایی مطرح گردیده است که در ادامه به اختصار برخی نکات کلیدی بیان می شود:
1- در حوزه Big Data زبان های پایتون، جاوا، اسکالا توصیه می شود. در صورتی که در حوزه Big Data Developer می خواهید فعالیت انجام بدهید زبان جاوا در پلتفرم هدوپ و زبان اسکالا در موتور پردازشی اسپارک بیشترین کارایی را خواهند داشت.
در بخش Big Data Analytics هم زبان پایتون با توجه به وجود کتابخانه های غنی در حوزه یادگیری ماشین بهترین انتخاب خواهد بود.
2- در حوزه داده کاوی و علم داده زبان های پایتون، R و جاوا دارای بیشترین میزان توجهات بوده اند. یادگیری زبان زبان جاوا به نسبت زبان های پایتون و R بسیار پیچیده تر خواهد بود ولی در پروژه های Enterprise زبان جاوا بیشترین کارایی را خواهد داشت. زبان R نیز در حال حاضر رتبه اول حوزه علم داده را در اختیار دارد.
برای یادگیری زبان های فوق همانند حوزه Big Data شرکت در دوره های آنلاین و کمی تلاش توصیه می شود.
ارادتمند
محمدرضا محتاط
مقایسه میان معماری های پردازشی Spark و Flink
آپاچی Flink نسل چهارم معماری های پردازشی Big Data می باشد
@dataanalysis
آپاچی Flink نسل چهارم معماری های پردازشی Big Data می باشد
@dataanalysis
Top data science techniques:
Linear Regression
Logistic Regression
Jackknife Regression
Density Estimation
Confidence Interval
Test of Hypotheses
Pattern Recognition
Clustering - (aka Unsupervised Learning)
Supervised Learning
Time Series
Decision Trees
Random Numbers
Monte-Carlo Simulation
Bayesian Statistics
Naive Bayes
Principal Component Analysis - (PCA)
Ensembles
Neural Networks
Support Vector Machine - (SVM)
Nearest Neighbors - (k-NN)
Feature Selection - (aka Variable Reduction)
Indexation / Cataloguing
(Geo-) Spatial Modeling
Recommendation Engine
Search Engine *
Attribution Modeling
Collaborative Filtering
Rule System
Linkage Analysis
Association Rules
Scoring Engine
Segmentation
Predictive Modeling
Graphs
Deep Learning
Game Theory
Imputation
Survival Analysis
Arbitrage
Lift Modeling
Yield Optimization
Cross-Validation
Model Fitting
Relevancy Algorithm
Experimental Design
Linear Regression
Logistic Regression
Jackknife Regression
Density Estimation
Confidence Interval
Test of Hypotheses
Pattern Recognition
Clustering - (aka Unsupervised Learning)
Supervised Learning
Time Series
Decision Trees
Random Numbers
Monte-Carlo Simulation
Bayesian Statistics
Naive Bayes
Principal Component Analysis - (PCA)
Ensembles
Neural Networks
Support Vector Machine - (SVM)
Nearest Neighbors - (k-NN)
Feature Selection - (aka Variable Reduction)
Indexation / Cataloguing
(Geo-) Spatial Modeling
Recommendation Engine
Search Engine *
Attribution Modeling
Collaborative Filtering
Rule System
Linkage Analysis
Association Rules
Scoring Engine
Segmentation
Predictive Modeling
Graphs
Deep Learning
Game Theory
Imputation
Survival Analysis
Arbitrage
Lift Modeling
Yield Optimization
Cross-Validation
Model Fitting
Relevancy Algorithm
Experimental Design