Forwarded from Arya Hamrah
دکتر مهدی نصیری، مدیر واحد علم دادهها شرکت آریا همراه در کارگاه آموزشی نمایشگاه تراکنش ایران، به ارائه دستاوردهای آریاهمراه در حوزه دادهکاوی و کلانداده خواهد پرداخت.
http://www.itefaba.com/fa/news/%D8%B3%D8%AE%D9%86%D8%B1%D8%A7%D9%86-%D9%85%D9%87%D8%AF%DB%8C-%D9%86%D8%B5%DB%8C%D8%B1%DB%8C/
http://www.itefaba.com/fa/news/%D8%B3%D8%AE%D9%86%D8%B1%D8%A7%D9%86-%D9%85%D9%87%D8%AF%DB%8C-%D9%86%D8%B5%DB%8C%D8%B1%DB%8C/
Itefaba
سخنران: مهدی نصیری
<span dir="RTL">مهدی نصیری <span dir="RTL">مدیر واحد علم داده ها شرکت آریاهمراه سامانه، سخنران نمایشگاه تراکنش ایران (ITE 2017) است.
ویژگیهای جدید Sql Server 2017!
متخصصین علمداده از این نسخه میتوانند از زبان پایتون(Anaconda)و R به صورت یکپارچه در Sql Server استفاده نمایند
@dataanalysis
متخصصین علمداده از این نسخه میتوانند از زبان پایتون(Anaconda)و R به صورت یکپارچه در Sql Server استفاده نمایند
@dataanalysis
سمینار تحلیل دادگان شبکیه چشم با رویکرد آماری و یادگیری ماشین!
زمان:چهارشنبه 19 مهر از ساعت 10 الی 12
مکان:سالن صدری دانشکده مهندسی کامپیوتر شیراز
مدرس:دکتر یوسفی از دانشگاه تنسی آمریکا
@dataanalysis
زمان:چهارشنبه 19 مهر از ساعت 10 الی 12
مکان:سالن صدری دانشکده مهندسی کامپیوتر شیراز
مدرس:دکتر یوسفی از دانشگاه تنسی آمریکا
@dataanalysis
سه ویژگی کلیدی نسخه SQL Server 2017 برای دانشمندان علمداده:
https://goo.gl/GqnbRZ
1- پایتون و R: در این نسخه به صورت یکپارچه امکان استفاده از زبانهای مطرح علمداده همچون زبانهای برنامهنویسی پایتون و R را در SQL Server خواهید داشت.
2- پایگاه داده گرافی: در نسخه 2017 پایگاه داده SQL Server امکان مدیریت دادگان و اطلاعات مبتنی بر Graph ایجاد گردیده است.
3- هوش تجاری: با اضافهسازی ابزار داشبوردسازی Power BI، از طریق SSRS امکان ساخت داشبوردهای کارآمد را به صورت یکپارچه در پلتفرم هوش تجاری SQL Server وجود دارد.
@dataanalysis
https://goo.gl/GqnbRZ
1- پایتون و R: در این نسخه به صورت یکپارچه امکان استفاده از زبانهای مطرح علمداده همچون زبانهای برنامهنویسی پایتون و R را در SQL Server خواهید داشت.
2- پایگاه داده گرافی: در نسخه 2017 پایگاه داده SQL Server امکان مدیریت دادگان و اطلاعات مبتنی بر Graph ایجاد گردیده است.
3- هوش تجاری: با اضافهسازی ابزار داشبوردسازی Power BI، از طریق SSRS امکان ساخت داشبوردهای کارآمد را به صورت یکپارچه در پلتفرم هوش تجاری SQL Server وجود دارد.
@dataanalysis
بررسی سؤال مسابقه دادهکاوی دانشگاه امیرکبیر:
مسابقه دادهکاوی دانشگاه امیرکبیر با تمرکز بر حل مسائل روز بانکی آغاز گردیده است. با توجه به آگاهی علاقهمندان و مخاطبان کانال برخی از جزئیات مطرحشده در این مسابقه در ادامه بیان میگردد:
https://goo.gl/sFEVtd
این مسابقه سومین مسابقه رسمی دادهکاوی برگزارشده در چند سال اخیر در کشور میباشد. سؤال اصلی مطرحشده پیشبینی وفاداری مشتریان از روی تراکنشهای بانکی میباشد. دادگان اصلی مسابقه شامل اطلاعات تراکنش 5 ماه یکی از بانکهای کشور با جامعه آماری 40 هزار مشتری میباشد.
در این سؤال هدف پیشبینی میانگین موجودی یک مشتری در ماه آتی بانک میباشد. دادگان تحویل دادهشده به شرکتکنندگان شامل متغیرهای کد مشتری، شمارهحساب، مبلغ تراکنش، ماندهحساب، تاریخ تراکنش، شماره پایانه بانکی، حالت حساب و کد تراکنش بانکی میباشد.
قابلذکر میباشد با توجه به اهمیت حفظ حریم خصوصی مشتریان بانکی برخی از ویژگیهای فوق کدگذاری گردیدهاند.
روشها و ویژگیهای مورد نیاز جهت حل مسئله فوق نیز پس از پایان مسابقات در همین کانال مورد بررسی بیشتر قرار خواهد گرفت.
ارادتمند
محمدرضا محتاط
@dataanalysis
مسابقه دادهکاوی دانشگاه امیرکبیر با تمرکز بر حل مسائل روز بانکی آغاز گردیده است. با توجه به آگاهی علاقهمندان و مخاطبان کانال برخی از جزئیات مطرحشده در این مسابقه در ادامه بیان میگردد:
https://goo.gl/sFEVtd
این مسابقه سومین مسابقه رسمی دادهکاوی برگزارشده در چند سال اخیر در کشور میباشد. سؤال اصلی مطرحشده پیشبینی وفاداری مشتریان از روی تراکنشهای بانکی میباشد. دادگان اصلی مسابقه شامل اطلاعات تراکنش 5 ماه یکی از بانکهای کشور با جامعه آماری 40 هزار مشتری میباشد.
در این سؤال هدف پیشبینی میانگین موجودی یک مشتری در ماه آتی بانک میباشد. دادگان تحویل دادهشده به شرکتکنندگان شامل متغیرهای کد مشتری، شمارهحساب، مبلغ تراکنش، ماندهحساب، تاریخ تراکنش، شماره پایانه بانکی، حالت حساب و کد تراکنش بانکی میباشد.
قابلذکر میباشد با توجه به اهمیت حفظ حریم خصوصی مشتریان بانکی برخی از ویژگیهای فوق کدگذاری گردیدهاند.
روشها و ویژگیهای مورد نیاز جهت حل مسئله فوق نیز پس از پایان مسابقات در همین کانال مورد بررسی بیشتر قرار خواهد گرفت.
ارادتمند
محمدرضا محتاط
@dataanalysis
سؤالات مصاحبه استخدامی متخصص علمداده:
یکی از مهمترین گامهای ارزیابی یک متخصص علمداده علاوه بر بررسی کردن رزومه کاری، مصاحبه استخدامی و پرسیدن برخی از سؤالات تخصصی از وی میباشد. لذا اگر در شرکت خود قصد استخدام دانشمند علمداده دارید میتوانید از سؤالات ذیل جهت بررسی هر چه بیشتر دانش تخصصی وی استفاده نمایید.
متخصصین و دانشمندان علمداده هم با پاسخ به سؤالات زیر میتوانند دانش خود را محک بزنند!
https://goo.gl/xx3Zpi
1- چرخه انجام یک پروژه علمداده چیست؟
2- روش Cross Validation چیست و چه مزایایی دارد؟
3- مراحل پیادهسازی یک محصول تجاری داده محور چگونه میباشد؟
4- بیشترین حجم دادگان مورداستفاده در پروژههای قبلی چه میزان بوده است؟ جهت مدیریت این حجم از چه پلتفرم و ابزارهایی استفاده کردهاید؟
5- مهمترین گام در چرخه متدولوژی CRISP-DM چیست و چرا؟
6- پاکسازی اطلاعات چیست و چگونه انجام میگردد؟
7- چگونه دادگان غیر ساختیافته به اطلاعات ساختیافته تبدیل میگردند؟
8- در پیادهسازی یک مدل مبتنی بر یادگیری ماشین، پایدار بودن(robust) اهمیت بیشتری دارد یا میزان صحت(Accurate)؟
9- گامهای بهینهسازی یک الگوریتم ازلحاظ سرعت و کیفیت چیست؟
10- تفاوت الگوریتمها و روشهای با نظارت با روشهای بدون نظارت چیست؟
11- تفاوت Overfitting و Underfitting چیست و چه زمانی اتفاق میافتند؟
12- تفاوت معیارهای ارزیابی precision و recall چیست؟ کدامیک کارآمدتر هست؟
13- از چه راهکارهایی جهت مدیریت دادگان غیرمتوازن(Unbalance Data) استفاده خواهید کرد؟
14- چه معیارهای جهت انتخاب یک الگوریتم یادگیری ماشین جهت پاسخ به یک مسئله وجود دارد؟
15- تفاوت پایگاه داده، انبار داده و Data Mart چیست؟
16- چه زمانی از الگوریتمهایی مانند SVM یا Random Forset استفاده میکنید و چرا؟
17- تحلیل مؤلفههای اصلی (Principal component analysis) چیست و چه مزایا و معایبی دارد؟
18- نسلهای معماریهای پردازشی کلان داده چیست و Map Redcue چه تفاوتی با موتور پردازشی Spark دارد؟
19- پایگاه دادههای غیر رابطهای به چند دسته تقسیم میشوند و در چه مسائلی میتوانند مورداستفاده قرار بگیرند؟
20- روشهای مبتنی بر شبکههای عصبی پیشرفته(یادگیری عمیق) چه مزایا و معایبی نسبت به سایر الگوریتمها و روشها دارد؟
@dataanalysis
موفق و موید باشید
محمدرضا محتاط
یکی از مهمترین گامهای ارزیابی یک متخصص علمداده علاوه بر بررسی کردن رزومه کاری، مصاحبه استخدامی و پرسیدن برخی از سؤالات تخصصی از وی میباشد. لذا اگر در شرکت خود قصد استخدام دانشمند علمداده دارید میتوانید از سؤالات ذیل جهت بررسی هر چه بیشتر دانش تخصصی وی استفاده نمایید.
متخصصین و دانشمندان علمداده هم با پاسخ به سؤالات زیر میتوانند دانش خود را محک بزنند!
https://goo.gl/xx3Zpi
1- چرخه انجام یک پروژه علمداده چیست؟
2- روش Cross Validation چیست و چه مزایایی دارد؟
3- مراحل پیادهسازی یک محصول تجاری داده محور چگونه میباشد؟
4- بیشترین حجم دادگان مورداستفاده در پروژههای قبلی چه میزان بوده است؟ جهت مدیریت این حجم از چه پلتفرم و ابزارهایی استفاده کردهاید؟
5- مهمترین گام در چرخه متدولوژی CRISP-DM چیست و چرا؟
6- پاکسازی اطلاعات چیست و چگونه انجام میگردد؟
7- چگونه دادگان غیر ساختیافته به اطلاعات ساختیافته تبدیل میگردند؟
8- در پیادهسازی یک مدل مبتنی بر یادگیری ماشین، پایدار بودن(robust) اهمیت بیشتری دارد یا میزان صحت(Accurate)؟
9- گامهای بهینهسازی یک الگوریتم ازلحاظ سرعت و کیفیت چیست؟
10- تفاوت الگوریتمها و روشهای با نظارت با روشهای بدون نظارت چیست؟
11- تفاوت Overfitting و Underfitting چیست و چه زمانی اتفاق میافتند؟
12- تفاوت معیارهای ارزیابی precision و recall چیست؟ کدامیک کارآمدتر هست؟
13- از چه راهکارهایی جهت مدیریت دادگان غیرمتوازن(Unbalance Data) استفاده خواهید کرد؟
14- چه معیارهای جهت انتخاب یک الگوریتم یادگیری ماشین جهت پاسخ به یک مسئله وجود دارد؟
15- تفاوت پایگاه داده، انبار داده و Data Mart چیست؟
16- چه زمانی از الگوریتمهایی مانند SVM یا Random Forset استفاده میکنید و چرا؟
17- تحلیل مؤلفههای اصلی (Principal component analysis) چیست و چه مزایا و معایبی دارد؟
18- نسلهای معماریهای پردازشی کلان داده چیست و Map Redcue چه تفاوتی با موتور پردازشی Spark دارد؟
19- پایگاه دادههای غیر رابطهای به چند دسته تقسیم میشوند و در چه مسائلی میتوانند مورداستفاده قرار بگیرند؟
20- روشهای مبتنی بر شبکههای عصبی پیشرفته(یادگیری عمیق) چه مزایا و معایبی نسبت به سایر الگوریتمها و روشها دارد؟
@dataanalysis
موفق و موید باشید
محمدرضا محتاط
پکیج جدید نرم افزار آر برای استفاده از نقشه گوگل برای موقعیت یابی
https://www.linkedin.com/groups/6728779/6728779-6328461879807213571
https://news.1rj.ru/str/dataanalysis
https://www.linkedin.com/groups/6728779/6728779-6328461879807213571
https://news.1rj.ru/str/dataanalysis
Linkedin
Sign Up
500 million+ members | Manage your professional identity. Build and engage with your professional network. Access knowledge, insights and opportunities.
Forwarded from انجمن علوم کامپیوتر بهشتی
جهت ثبت نام و کسب اطلاعات بیشتر به لینک های زیر مراجعه نمایید.
http://cssbu.ir/
http://conf.sbu.ac.ir/index.php/data/data
@cssbu
http://cssbu.ir/
http://conf.sbu.ac.ir/index.php/data/data
@cssbu
اسلاید کلان داده، کاربرد در بانک و ارتباط با هوش تجاری-
ارائه شده در نمایشگاه تراکنش
https://www.slideshare.net/secret/6NsPnQAuv8caxJ
ارائه شده در نمایشگاه تراکنش
https://www.slideshare.net/secret/6NsPnQAuv8caxJ
بهینه سازی کاربرد استریم اسپارک برای خواندن داده در اپاچی کفکا
http://www.stratio.com/blog/optimizing-spark-streaming-applications-apache-kafka/
https://news.1rj.ru/str/dataanalysis
http://www.stratio.com/blog/optimizing-spark-streaming-applications-apache-kafka/
https://news.1rj.ru/str/dataanalysis
Stratio
Optimizing Spark Streaming applications reading data from Apache Kafka - Stratio Blog
Spark Streaming is one of the most widely used frameworks for real time processing in the world with Apache Flink, Apache Storm and Kafka Streams.
نقد و بررسی دومین مسابقه دادهکاوی پارسی پرداز با محوریت نظرکاوی!
http://uupload.ir/files/k8d_sentimentanalysis.jpg
دومین دوره مسابقه دادهکاوی پارسی پرداز با محوریت نظر کاوی توسط آزمایشگاه تخصصی فناوری وب دانشگاه فردوسی مشهد در هفته گذشته بهصورت آنلاین برگزار شد. نکات ذیل پیرامون این مسابقه که به نسبت سایر مسابقات دادهکاوی انجامشده در کشور دارای سطح بسیار پایینتری بوده است به شرح ذیل میباشد:
1- در تمامی مسابقات دادهکاوی جهت آموزش و ساخت مدل، برخی اطلاعات و دادهها توسط برگزارکنندگان به شرکتکنندگان تحویل داده میشود. شرکتکنندگان نیز پس از پیادهسازی مدل بهینه بر اساس دادگان تست نتیجه را برای ارزیابی به طراحان مسابقه ارسال مینمایند. در مسابقه برگزارشده تنها دادگان تست شامل 100 هزار داده متنی به شرکتکنندگان تحویل داده گردید که کاملاً برخلاف اصول پایهای مسابقات دادهکاوی میباشد.
2- در این مسابقه تمامی شرکتکنندگان موظف بودند که تمامی سورسکدها، فایلهای اجرایی، مستندات، فایل گزارش متنی و ... را در اختیار تیم برگزارکننده قرار دهند. قابلذکر هست بهطور مرسوم در اکثر مسابقات تنها تیمهای برتر میبایست مستندات و سورسکدهای خود را جهت بررسی و اهدا جوایز به برگزارکننده مسابقه تحویل دهند.
3- از نکات بسیار جالب این مسابقه مدتزمان برگزاری آن بود. مدتزمان اعلامی توسط تیم برگزارکننده تنها سه ساعت و از ساعت 9 الی 12 روز جمعه اعلام شد!
4- در تمامی مسابقات و چالشهای دادهکاوی جوایز تیمهای برتر بهصورت دقیق اعلام و مشخص میباشد. در توضیحات این مسابقه ذکر شده بود که به تیمهای برتر جوایز نفیسی اهدا خواهد گردید.
با توجه به فعالیتهای خوب دانشگاه فردوسی مشهد در حوزه متنکاوی و وجود اساتید برجسته و اهمیت حوزه تحلیل احساسات در زبان فارسی انتظار برگزاری مسابقهای با سطح بسیار بالاتر و باکیفیتتر بود که متاسفانه میسر نگردید.
@dataanalysis
ارادتمند
محمدرضا محتاط
http://uupload.ir/files/k8d_sentimentanalysis.jpg
دومین دوره مسابقه دادهکاوی پارسی پرداز با محوریت نظر کاوی توسط آزمایشگاه تخصصی فناوری وب دانشگاه فردوسی مشهد در هفته گذشته بهصورت آنلاین برگزار شد. نکات ذیل پیرامون این مسابقه که به نسبت سایر مسابقات دادهکاوی انجامشده در کشور دارای سطح بسیار پایینتری بوده است به شرح ذیل میباشد:
1- در تمامی مسابقات دادهکاوی جهت آموزش و ساخت مدل، برخی اطلاعات و دادهها توسط برگزارکنندگان به شرکتکنندگان تحویل داده میشود. شرکتکنندگان نیز پس از پیادهسازی مدل بهینه بر اساس دادگان تست نتیجه را برای ارزیابی به طراحان مسابقه ارسال مینمایند. در مسابقه برگزارشده تنها دادگان تست شامل 100 هزار داده متنی به شرکتکنندگان تحویل داده گردید که کاملاً برخلاف اصول پایهای مسابقات دادهکاوی میباشد.
2- در این مسابقه تمامی شرکتکنندگان موظف بودند که تمامی سورسکدها، فایلهای اجرایی، مستندات، فایل گزارش متنی و ... را در اختیار تیم برگزارکننده قرار دهند. قابلذکر هست بهطور مرسوم در اکثر مسابقات تنها تیمهای برتر میبایست مستندات و سورسکدهای خود را جهت بررسی و اهدا جوایز به برگزارکننده مسابقه تحویل دهند.
3- از نکات بسیار جالب این مسابقه مدتزمان برگزاری آن بود. مدتزمان اعلامی توسط تیم برگزارکننده تنها سه ساعت و از ساعت 9 الی 12 روز جمعه اعلام شد!
4- در تمامی مسابقات و چالشهای دادهکاوی جوایز تیمهای برتر بهصورت دقیق اعلام و مشخص میباشد. در توضیحات این مسابقه ذکر شده بود که به تیمهای برتر جوایز نفیسی اهدا خواهد گردید.
با توجه به فعالیتهای خوب دانشگاه فردوسی مشهد در حوزه متنکاوی و وجود اساتید برجسته و اهمیت حوزه تحلیل احساسات در زبان فارسی انتظار برگزاری مسابقهای با سطح بسیار بالاتر و باکیفیتتر بود که متاسفانه میسر نگردید.
@dataanalysis
ارادتمند
محمدرضا محتاط
طی چند سال آینده تقاضا برای متخصصین علمداده و یادگیری ماشین نزولی خواهد گردید؟
منبع: وبسایت Kdnuggets
@dataanalysis
منبع: وبسایت Kdnuggets
@dataanalysis
Data Science
طی چند سال آینده تقاضا برای متخصصین علمداده و یادگیری ماشین نزولی خواهد گردید؟ منبع: وبسایت Kdnuggets @dataanalysis
/تکمیلی/
در نظرسنجی فوق این نکته قابل ذکر می باشد که در حدود 25 درصد متخصصین علمداده شرکت کننده در این نظرسنجی بیان کردهاند که طی 4 الی 6 سال آینده تقاضا برای جذب متخصصین علمداده و یادگیری ماشین با کاهش روبهرو خواهد شد.
این درصد برای مدت زمان هفت الی ده سال در حدود بیست درصد میباشد.
شایان ذکر هست که در حال حاضر اکثر کشورها با کمبود متخصص علمداده مواجه هستند!
طی مطلب آتی نیز مدت زمان مورد نیاز جهت تبدیل شدن به یک متخصص علمداده مورد بررسی بیشتر قرار خواهد گرفت!
@dataanalysis
موفق و موید باشید
در نظرسنجی فوق این نکته قابل ذکر می باشد که در حدود 25 درصد متخصصین علمداده شرکت کننده در این نظرسنجی بیان کردهاند که طی 4 الی 6 سال آینده تقاضا برای جذب متخصصین علمداده و یادگیری ماشین با کاهش روبهرو خواهد شد.
این درصد برای مدت زمان هفت الی ده سال در حدود بیست درصد میباشد.
شایان ذکر هست که در حال حاضر اکثر کشورها با کمبود متخصص علمداده مواجه هستند!
طی مطلب آتی نیز مدت زمان مورد نیاز جهت تبدیل شدن به یک متخصص علمداده مورد بررسی بیشتر قرار خواهد گرفت!
@dataanalysis
موفق و موید باشید