Forwarded from Elasticsearch
الستیک سرچ (Elasticsearch) یک موتور جستجو توزیع شده متن باز است که برای ذخیره، جستجو و تحلیل داده های حجیم، با قابلیت اعتماد بالا و مدیریت آسان طراحی شده است. از مهمترین جنبه های این ابزار قدرتمند سرعت در جستجو داده و انعطاف پذیری در تحلیل داده توسط زبان قدرتمند پرس و جو آن می باشد.
این قابلیت ها کاربران را قادر می سازد که بر روی داده های حجیم بدون ساختار، نیمه ساخت یافته و سری زمانی به صورت برخط جستجو و تحلیل انجام دهند و Elasticsearch را به ابزاری ایده آل برای ذخیره و تحلیل آنی داده ها تبدیل کرده است.
در حال حاضر شرکت های بزرگی همچون Uber, Facebook, Stackoverflow, Github و هزاران شرکت دیگر به صورت فزاینده از این تکنولوژی استفاده می کنند.
@elasticsearch_ir
این قابلیت ها کاربران را قادر می سازد که بر روی داده های حجیم بدون ساختار، نیمه ساخت یافته و سری زمانی به صورت برخط جستجو و تحلیل انجام دهند و Elasticsearch را به ابزاری ایده آل برای ذخیره و تحلیل آنی داده ها تبدیل کرده است.
در حال حاضر شرکت های بزرگی همچون Uber, Facebook, Stackoverflow, Github و هزاران شرکت دیگر به صورت فزاینده از این تکنولوژی استفاده می کنند.
@elasticsearch_ir
نکات و برخی راه حل های سوالات مسابقات داده کاوی کشوری( فن آورد):
با توجه به درخواست های متعدد صورت پذیرفته توسط علاقه مندان حوزه داده کاوی و وجود نکات مفید در سوالات مطرح شده در مرحله غیر حضوری مسابقات داده کاوی کشور برخی نکات در ادامه بیان می گردد.
سوال پیش بینی قیمت طلا:
اطلاعات این سوالات براساس میزان خرید و فروش طلا به ازای مغازه های طلافروشی متعدد در روزهای گوناگون بود و در انتها خواسته گردیده بود که قیمت طلا براساس میزان خرید و فروش را در برخی از روزها پیش بینی گردد.
راه حل اصلی این سوال با توجه به اینکه رابطه میان دو متغیر به یک متغیر کمی را خواسته است روش رگرسیون می باشد. در صورتی تنها مقدار قیمت طلا در روزهای مختلف خواسته میشد روش های Time Series نیز کارایی خوبی خواهند داشت.
سوال شناسایی گروه ها در شبکه ارتباطی:
این سوال جز سوال های تخصصی حوزه تحلیل شبکه اجتماعی می باشد که در این دوره مسابقات مطرح گردید. برای پاسخ به این سوال می توان از الگوریتم های Community detection که براساس معیارهای Modularity و... گروه های دوستی را شناسایی می کنند استفاده کرد. الگوریتم های مختلفی در پلتفرم ها و زبان های برنامه نویسی متنوع جهت پاسخ به این سوال وجود دارد.
سوال شناسایی تقلب بانکی:
این سوال با الگوریتم های Classification قابلیت پاسخگویی خواهد داشت. یکی از نکته های اصلی این سوال عدم توازن اطلاعات در کلاس متغیر هدف بود که میبایست در گام پیش پردازش اطلاعات متوازن می گردید یا از الگوریتم هایی استفاده گردد که توانایی مدیریت اطلاعات غیزمتوازن را داشته باشند.
سوال چهار: شناسایی شهر و استان های کشور براساس اطلاعات دستگاه های بانکی: این سوال قطعا پیچیده ترین و مبهم ترین سوال مرحله غیر حضوری این مسابقات می باشد که روش های پیشنهادی بسیار متنوعی برای پاسخ آن وجود دارد و بعضا می توان با روش هایی غیر از داده کاوی به این سوال پاسخ داد.
یکی از روش ها استفاده از روش های مبتنی بر قاعده و Rule می باشد. روش دوم استفاده از الگوریتم خوشه بندی سلسله مراتبی می باشد که باتوجه به اینکه متغیرهای غیر کمی نیز در میان داده ها وجود داشت می بایست از الگوریتم خوشه بندی Two Step استفاده گردد. روش سوم استفاده از الگوریتم های قوانین انجمنی می باشد که براساس مشتری، دستگاه خودپرداز قوانین با هم نمایی استخراج گردد و خروجی آن دستگاه های بانکی می باشد که با یکدیگر ارتباط داشته اند. در انتها می توان در میان این دستگاه های بانکی الگوریتم های تحلیل شبکه و Community detection را اجرا کرد تا دستگاه های مشابه شناسایی گردد.
البته قطعا راه حل های متنوعی دیگر نیز برای حل این سوالات وجود دارد.
در انتها یکی از تجربه های مفید شرکت در این مسابقات کار با اطلاعات غیر تمیز بود. گام پیش پردازش اطلاعات در تمامی این ۴ مسئله نقش کلیدی داشته اند.
ارادتمند
محمدرضا محتاط
با توجه به درخواست های متعدد صورت پذیرفته توسط علاقه مندان حوزه داده کاوی و وجود نکات مفید در سوالات مطرح شده در مرحله غیر حضوری مسابقات داده کاوی کشور برخی نکات در ادامه بیان می گردد.
سوال پیش بینی قیمت طلا:
اطلاعات این سوالات براساس میزان خرید و فروش طلا به ازای مغازه های طلافروشی متعدد در روزهای گوناگون بود و در انتها خواسته گردیده بود که قیمت طلا براساس میزان خرید و فروش را در برخی از روزها پیش بینی گردد.
راه حل اصلی این سوال با توجه به اینکه رابطه میان دو متغیر به یک متغیر کمی را خواسته است روش رگرسیون می باشد. در صورتی تنها مقدار قیمت طلا در روزهای مختلف خواسته میشد روش های Time Series نیز کارایی خوبی خواهند داشت.
سوال شناسایی گروه ها در شبکه ارتباطی:
این سوال جز سوال های تخصصی حوزه تحلیل شبکه اجتماعی می باشد که در این دوره مسابقات مطرح گردید. برای پاسخ به این سوال می توان از الگوریتم های Community detection که براساس معیارهای Modularity و... گروه های دوستی را شناسایی می کنند استفاده کرد. الگوریتم های مختلفی در پلتفرم ها و زبان های برنامه نویسی متنوع جهت پاسخ به این سوال وجود دارد.
سوال شناسایی تقلب بانکی:
این سوال با الگوریتم های Classification قابلیت پاسخگویی خواهد داشت. یکی از نکته های اصلی این سوال عدم توازن اطلاعات در کلاس متغیر هدف بود که میبایست در گام پیش پردازش اطلاعات متوازن می گردید یا از الگوریتم هایی استفاده گردد که توانایی مدیریت اطلاعات غیزمتوازن را داشته باشند.
سوال چهار: شناسایی شهر و استان های کشور براساس اطلاعات دستگاه های بانکی: این سوال قطعا پیچیده ترین و مبهم ترین سوال مرحله غیر حضوری این مسابقات می باشد که روش های پیشنهادی بسیار متنوعی برای پاسخ آن وجود دارد و بعضا می توان با روش هایی غیر از داده کاوی به این سوال پاسخ داد.
یکی از روش ها استفاده از روش های مبتنی بر قاعده و Rule می باشد. روش دوم استفاده از الگوریتم خوشه بندی سلسله مراتبی می باشد که باتوجه به اینکه متغیرهای غیر کمی نیز در میان داده ها وجود داشت می بایست از الگوریتم خوشه بندی Two Step استفاده گردد. روش سوم استفاده از الگوریتم های قوانین انجمنی می باشد که براساس مشتری، دستگاه خودپرداز قوانین با هم نمایی استخراج گردد و خروجی آن دستگاه های بانکی می باشد که با یکدیگر ارتباط داشته اند. در انتها می توان در میان این دستگاه های بانکی الگوریتم های تحلیل شبکه و Community detection را اجرا کرد تا دستگاه های مشابه شناسایی گردد.
البته قطعا راه حل های متنوعی دیگر نیز برای حل این سوالات وجود دارد.
در انتها یکی از تجربه های مفید شرکت در این مسابقات کار با اطلاعات غیر تمیز بود. گام پیش پردازش اطلاعات در تمامی این ۴ مسئله نقش کلیدی داشته اند.
ارادتمند
محمدرضا محتاط
دوره رایگاه یادگیری ژرف برای کدنویسها
http://www.kdnuggets.com/2016/12/deep-learning-coders-mooc-jeremy-howard.html
http://www.kdnuggets.com/2016/12/deep-learning-coders-mooc-jeremy-howard.html
Forwarded from رویدادهای ملی و بین المللی
سلسله نشست های علم اطلاعات و دانش شناسی
#Seminar #Free #Live
#Data_Science
#Iran #1395 #10
www.hepl.ir
@convent
#Seminar #Free #Live
#Data_Science
#Iran #1395 #10
www.hepl.ir
@convent
گروه تخصصی Data Science & Big Data در شبکه اجتماعی LinkedIn:
با توجه به ماهیت تخصصی شبکه اجتماعی لینکدین، ماندگاری مباحث علمی مطرح شده در این شبکه اجتماعی برای علاقه مندان و آشنایی بیشتر متخصصین این حوزه با یکدیگر، گروه علم داده و کلان داده در شبکه اجتماعی لینکدین ایجاد گردیده است.
علاقه مندان می توانند از طریق لینک زیر به عضویت گروه درآیند.
موضوعات مورد بحث در این گروه شامل موارد ذیل خواهد بود.
Data Science
Big Data Technology
Data Mining Methods
.....
https://www.linkedin.com/groups/Data-Science-Big-Data-Analytics-10329368/about
با توجه به ماهیت تخصصی شبکه اجتماعی لینکدین، ماندگاری مباحث علمی مطرح شده در این شبکه اجتماعی برای علاقه مندان و آشنایی بیشتر متخصصین این حوزه با یکدیگر، گروه علم داده و کلان داده در شبکه اجتماعی لینکدین ایجاد گردیده است.
علاقه مندان می توانند از طریق لینک زیر به عضویت گروه درآیند.
موضوعات مورد بحث در این گروه شامل موارد ذیل خواهد بود.
Data Science
Big Data Technology
Data Mining Methods
.....
https://www.linkedin.com/groups/Data-Science-Big-Data-Analytics-10329368/about
مسیر تبدیل شدن به عالم داده
1- یادگیری مفاهیم آماری
2-برنامه نویسی
اس کیو ال، پایتون، ...
3- یادگیری ماشین
4-تولباکس مه داده
http://www.datasciencecentral.com/profiles/blogs/the-new-rules-for-becoming-a-data-scientist
https://telegram.me/dataanalysis
https://telegram.me/dataanalysis
1- یادگیری مفاهیم آماری
2-برنامه نویسی
اس کیو ال، پایتون، ...
3- یادگیری ماشین
4-تولباکس مه داده
http://www.datasciencecentral.com/profiles/blogs/the-new-rules-for-becoming-a-data-scientist
https://telegram.me/dataanalysis
https://telegram.me/dataanalysis
Data Science Central
The New Rules for Becoming a Data Scientist
Summary: What do you need to do to get an entry level job in data science? This article is written for anyone who is considering becoming a data scientist. That includes young people just starting their bachelor’s degrees and folks in the first two or three…
تفاوت بین یادگیری ماشین، هوش مصنوعی، آمار، علم داده ها و یادگیری ژرف
http://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning
https://telegram.me/dataanalysis
http://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning
https://telegram.me/dataanalysis
Data Science Central
Difference between Machine Learning, Data Science, AI, Deep Learning, and Statistics
In this article, I clarify the various roles of the data scientist, and how data science compares and overlaps with related fields such as machine learning, deep learning, AI, statistics, IoT, operations research, and applied mathematics. As data science…
روند یادگیری ماشین و اینده هوش مصنوعی
https://medium.com/emergent-future/machine-learning-trends-and-the-future-of-artificial-intelligence-2016-15c15cd6c129#.w3aruhhve
https://telegram.me/dataanalysis
https://medium.com/emergent-future/machine-learning-trends-and-the-future-of-artificial-intelligence-2016-15c15cd6c129#.w3aruhhve
https://telegram.me/dataanalysis
Medium
Machine Learning Trends and the Future of Artificial Intelligence 2016
Every company is now a data company, capable of using machine learning in the cloud to deploy intelligent apps at scale, thanks to three…
گزارشی از درآمد عالمان داده در سال 2016
http://www.iapa.org.au/Article/2016SkillsSalarySurveyReportReleased
https://www.linkedin.com/pulse/data-scientists-view-iapas-2016-skills-salary-report-hosein-alizadeh
https://telegram.me/dataanalysis
http://www.iapa.org.au/Article/2016SkillsSalarySurveyReportReleased
https://www.linkedin.com/pulse/data-scientists-view-iapas-2016-skills-salary-report-hosein-alizadeh
https://telegram.me/dataanalysis
IAPA
2016 Skills & Salary Survey Report Released
Disruption in 2017 will be from mobile, cyber-security, cloud and big data
A.I. is coming and we’re skilling up
Graduates get a salary rise
Half our teams are gender balanced; but not at the top of the org chart
The required vs candidate skills...
A.I. is coming and we’re skilling up
Graduates get a salary rise
Half our teams are gender balanced; but not at the top of the org chart
The required vs candidate skills...
25 سایت برای پیدا کردن دادگان در حوزه علم داده ها
https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/
https://news.1rj.ru/str/dataanalysis
https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/
https://news.1rj.ru/str/dataanalysis
Analytics Vidhya
25+ websites to find datasets for data science projects
A list of websites & resources which provide you with several datasets for your data science projects. This includes image recognition & text classification