Forwarded from Amir H. Payberah
اخیرا درس دادههای حجیم رو در دانشگاه KTH سوئد ارائه کردم که تمام مطالب رو آنلاین گذاشتم. اگر علاقمند باشید میتونید مطالب درس رو در لینک زیر دنبال کنید:
https://www.sics.se/~amir/id2221/
https://www.sics.se/~amir/id2221/
با سلام
یکی از راه های تبدیل شدن به دانشمند علم داده شرکت در دوره آنلاین دانشگاه های برتر جهان در سایت هایی مانند Coursera, Edx, bigdataUniversity و... می باشد. در ادامه برخی از دوره های برتر حوزه علم داده را طبق تجربیاتی که با شرکت در این دوره ها بدست آوردم, بیان خواهم کرد.
1- دوره علم داده دانشگاه John Hopkins:
این دوره جز کاملترین دوره های حوزه علم داده می باشد که در ۹ بخش تدریس می شود. در این دوره تمامی نیازمندی های تبدیل شدن به یک دانشمند علم داده بیان می گردد. زبان تخصصی این دوره زبان R می باشد و در طول دوره این زبان نیز تدریس می گردد.
https://www.coursera.org/specializations/jhu-data-science
2- دوره های یادگیری ماشین:
یکی از برترین دوره های یادگیری ماشین دوره آقای Andrew Ng می باشد که توسط دانشگاه استنفورد ارائه می گردد. ابزار اصلی این دوره Octave می باشد. سطح این دوره از لحاظ تئوری بسیار بالا می باشد.
https://www.coursera.org/learn/machine-learning
دوره بعدی مناسب حوزه یادگیری ماشین، دوره دانشگاه واشنگتن می باشد که در پنج بخش تدریس می گردد. در این دوره مباحث با زبان برنامه نویسی پایتون تدریس می گردد.
https://www.coursera.org/specializations/machine-learning
3- دوره کلان داده :
بهترین مرجع دوره های مرتبط با حوزه Big Data دوره های آنلاین سایت BigdataUniversity می باشد که در تمامی حوزه های کلان داده و پلتفرم های مرتبط همچون آپاچی هدوپ، اسپارک و.... دوره های مناسب و کوتاهی دارد.
bigdataUniversity.com
به صورت تخصصی در پلتفرم آپاچی اسپارک دوره تخصصی دانشگاه برکلی که شامل پنج بخش می باشد جز برترین دوره های آپاچی اسپارک می باشد. تمرکز این دوره بر پایتون و کتابخانه Pyspark می باشد. از مزیت های این دوره وجود کارگاه های بسیار قوی می باشد
https://www.edx.org/course/introduction-apache-spark-uc-berkeleyx-cs105x
@dataanalysis
ارادتمند
محمدرضا محتاط
یکی از راه های تبدیل شدن به دانشمند علم داده شرکت در دوره آنلاین دانشگاه های برتر جهان در سایت هایی مانند Coursera, Edx, bigdataUniversity و... می باشد. در ادامه برخی از دوره های برتر حوزه علم داده را طبق تجربیاتی که با شرکت در این دوره ها بدست آوردم, بیان خواهم کرد.
1- دوره علم داده دانشگاه John Hopkins:
این دوره جز کاملترین دوره های حوزه علم داده می باشد که در ۹ بخش تدریس می شود. در این دوره تمامی نیازمندی های تبدیل شدن به یک دانشمند علم داده بیان می گردد. زبان تخصصی این دوره زبان R می باشد و در طول دوره این زبان نیز تدریس می گردد.
https://www.coursera.org/specializations/jhu-data-science
2- دوره های یادگیری ماشین:
یکی از برترین دوره های یادگیری ماشین دوره آقای Andrew Ng می باشد که توسط دانشگاه استنفورد ارائه می گردد. ابزار اصلی این دوره Octave می باشد. سطح این دوره از لحاظ تئوری بسیار بالا می باشد.
https://www.coursera.org/learn/machine-learning
دوره بعدی مناسب حوزه یادگیری ماشین، دوره دانشگاه واشنگتن می باشد که در پنج بخش تدریس می گردد. در این دوره مباحث با زبان برنامه نویسی پایتون تدریس می گردد.
https://www.coursera.org/specializations/machine-learning
3- دوره کلان داده :
بهترین مرجع دوره های مرتبط با حوزه Big Data دوره های آنلاین سایت BigdataUniversity می باشد که در تمامی حوزه های کلان داده و پلتفرم های مرتبط همچون آپاچی هدوپ، اسپارک و.... دوره های مناسب و کوتاهی دارد.
bigdataUniversity.com
به صورت تخصصی در پلتفرم آپاچی اسپارک دوره تخصصی دانشگاه برکلی که شامل پنج بخش می باشد جز برترین دوره های آپاچی اسپارک می باشد. تمرکز این دوره بر پایتون و کتابخانه Pyspark می باشد. از مزیت های این دوره وجود کارگاه های بسیار قوی می باشد
https://www.edx.org/course/introduction-apache-spark-uc-berkeleyx-cs105x
@dataanalysis
ارادتمند
محمدرضا محتاط
Coursera
Data Science
Offered by Johns Hopkins University. Launch Your Career ... Enroll for free.
👍1
همانطور که از نمودارهای سایت Kdnuggets قابل مشاهده می باشد رشد 53 درصدی زبان پایتون در حوزه علم داده طی یک سال گذشته این زبان را به زبان اول این حوزه تبدیل کرده است.
در حوزه تحلیل های پیش بینانه نیز همچنان زبان R و SAS با توجه به وجود کتابخانه های غنی و قدرتمند در حوزه یادگیری ماشین و الگوریتم های پیش بینی بیشترین کاربرد را داشته اند.
در حوزه تحلیل های پیش بینانه نیز همچنان زبان R و SAS با توجه به وجود کتابخانه های غنی و قدرتمند در حوزه یادگیری ماشین و الگوریتم های پیش بینی بیشترین کاربرد را داشته اند.
نقدی بر مسابقه داده کاوی فناورد
مرحله اول مسابقه داده کاوی تمام شد و برای مرحله دوم افرادی انتخاب شدند. اول باید اعتراف کنم که انتخاب نشدگانی هم سطح با انتخاب شدگان وجود داشت که تعدادشان کم نبود. انتخاب بین انها مثل بازی حذفی فوتبال بود که بعد از 120 دقیقه در ضربات پنالتی آنهم بعد از پنالتی 5ام که یک تیم توپ را به دیرک می زند و یکی بعد از برخورد با دست دورازه بان گل می شود شده بود. تیمی که افراد مرحله اول را انتخاب کردند بر اساس روش های ارزیابی روی داده آزمون بوده است.
البته باید اعتراف کنم که کیفیت داده و نوع سوال هم در دقیق تر مشخص نشدن تیم مرحله دوم موثر بود. رویکرد حل چالش های کسب و کار بومی با استفاده از داده بومی است که کیفیت آن به نسبت داده غیر آن پایین تر بود. همچنین نوع سوالات کمتر به مسائل داده کاوی شبیه بود و به خاطر نیاز حامی این سوالها مطرح شده بود.
به نظر بنده دوستانی که تجربه کار با داده بومی و غیر پاکسازی شده را داشتند در این مسابقه بیشتر توانستند موفق باشد. امیدوارم در سالهای آتی استاندارد این مسابقات به سطح بالاتری ارتقا پیدا کند همانطور که امسال به نسبت سال پیش ارتقا پیدا کرد. استاندارد بیشتر در نوع سوال، مناسب تر بودن داده، استاندارد بهتر ارزیابی در تقسیم داده آزمایشی و آزمون و ....
ارادتمند مهدی نصیری
مرحله اول مسابقه داده کاوی تمام شد و برای مرحله دوم افرادی انتخاب شدند. اول باید اعتراف کنم که انتخاب نشدگانی هم سطح با انتخاب شدگان وجود داشت که تعدادشان کم نبود. انتخاب بین انها مثل بازی حذفی فوتبال بود که بعد از 120 دقیقه در ضربات پنالتی آنهم بعد از پنالتی 5ام که یک تیم توپ را به دیرک می زند و یکی بعد از برخورد با دست دورازه بان گل می شود شده بود. تیمی که افراد مرحله اول را انتخاب کردند بر اساس روش های ارزیابی روی داده آزمون بوده است.
البته باید اعتراف کنم که کیفیت داده و نوع سوال هم در دقیق تر مشخص نشدن تیم مرحله دوم موثر بود. رویکرد حل چالش های کسب و کار بومی با استفاده از داده بومی است که کیفیت آن به نسبت داده غیر آن پایین تر بود. همچنین نوع سوالات کمتر به مسائل داده کاوی شبیه بود و به خاطر نیاز حامی این سوالها مطرح شده بود.
به نظر بنده دوستانی که تجربه کار با داده بومی و غیر پاکسازی شده را داشتند در این مسابقه بیشتر توانستند موفق باشد. امیدوارم در سالهای آتی استاندارد این مسابقات به سطح بالاتری ارتقا پیدا کند همانطور که امسال به نسبت سال پیش ارتقا پیدا کرد. استاندارد بیشتر در نوع سوال، مناسب تر بودن داده، استاندارد بهتر ارزیابی در تقسیم داده آزمایشی و آزمون و ....
ارادتمند مهدی نصیری
Forwarded from انجمن علوم کامپیوتر بهشتی
سمینار آشنایی با مسایل پردازش زبان طبیعی توسط یادگیری ژرف
ارائهها:
- بکارگیری یادگیری چند وظیفه ای در انجام پردازش متون - خانم اسکندری
- تشخیص موجودیتهای نامدار فارسی با استفاده از شبکههای عصبی عمیق - آقای مهدی زاده
- ترجمه ماشینی مبتنی بر شبکه عصبی ژرف - خانم افسر
- بکارگیری توجه و حافظه محاسباتی در یادگیری محاسباتی و پردازش زبان طبیعی - آقای مسعودنیا
- معرفی منابع یادگیری پردازش زبان با یادگیری ژرف - آقای فرحناک
- آموزش مقدماتی tensorflow - آقای لواسانی
زمان برگزاری : 24 آذر 95 ساعت 9 الی 13
مکان برگزاری : تالار دانشکده ریاضی، دانشگاه شهید بهشتی
مهلت ثبت نام : 22 آذر 95
جهت ثبت نام فرم زیر را در گوگل تکمیل نمایید:
https://goo.gl/forms/NkArlzq9IUFzpdt92
ارائهها:
- بکارگیری یادگیری چند وظیفه ای در انجام پردازش متون - خانم اسکندری
- تشخیص موجودیتهای نامدار فارسی با استفاده از شبکههای عصبی عمیق - آقای مهدی زاده
- ترجمه ماشینی مبتنی بر شبکه عصبی ژرف - خانم افسر
- بکارگیری توجه و حافظه محاسباتی در یادگیری محاسباتی و پردازش زبان طبیعی - آقای مسعودنیا
- معرفی منابع یادگیری پردازش زبان با یادگیری ژرف - آقای فرحناک
- آموزش مقدماتی tensorflow - آقای لواسانی
زمان برگزاری : 24 آذر 95 ساعت 9 الی 13
مکان برگزاری : تالار دانشکده ریاضی، دانشگاه شهید بهشتی
مهلت ثبت نام : 22 آذر 95
جهت ثبت نام فرم زیر را در گوگل تکمیل نمایید:
https://goo.gl/forms/NkArlzq9IUFzpdt92
Google Docs
NLP Deep Learning (ظرفیت تکمیل شده است)
با توجه به تکمیل ظرفیت سمینار، ثبت نام شما فقط برای دریافت فایل تصویری این سمینار و اطلاع رسانی در مورد برنامه های آتی خواهد بود.
سمینار آشنایی با مسایل پردازش زبان طبیعی با استفاده از یادگیری ژرف
سمینار آشنایی با مسایل پردازش زبان طبیعی با استفاده از یادگیری ژرف
نقد و بررسی سومین مسابقات داده کاوی کشور( فن آورد):
سومین دوره مسابقات کشوری داده کاوی سرانجام به پایان رسید. در راستای توصیف سوالات و مراحل این سری از مسابقات جهت آشنایی علاقه مندان برخی تجربیات حضور در این مسابقه را در ادامه بیان خواهم کرد.
این مسابقه در دو مرحله غیر حضوری و حضوری برگزار گردید. در مرحله اول چهار سوال با موضوعات زیر مطرح گردید:
سوال یک: پیش بینی قیمت طلا براساس میزان خرید و فروش طلا به ازای هر مغازه در روزهای مختلف
سوال دو: شناسایی گروه های دوستی در شبکه های اجتماعی
سوال سه: مدل سازی تقلب بانکی
سوال چهار: شناسایی استان و شهرها کشور براساس اطلاعات تراکنش بانکی
در مرحله حضوری نیز که به مدت سه روز در دانشگاه شریف برگزار گردید تنها یک سوال با عنوان شناسایی تقلب و انحرافات از مسیر ناوگان های حمل و نقل در کشور مطرح گردید. از جذابیت های این دوره حقیقی و عملیاتی بودن صورت مسئله و اطلاعات سوال بود.
در این مسابقه محدودیت خاصی نسبت به استفاده کردن از یک ابزار یا زبان برنامه نویسی توسط تیم داوران مطرح نگردید. 23 تیم مرحله حضوری هم به صورت گروهی و بعضا انفرادی در مسابقه شرکت کرده بودند.
برخی از نکات قابل بهبود در سال آینده هم شامل استاندارد نبودن برخی سوالات مطرح شده همچون سوال دو و چهار مرحله غیر حضوری، مشخص نبودن مکانیزم دقیق داوری در مرحله حضوری، توان پردازشی غیریکسان تیم ها و... می باشد.
ارادتمند
محمدرضا محتاط
سومین دوره مسابقات کشوری داده کاوی سرانجام به پایان رسید. در راستای توصیف سوالات و مراحل این سری از مسابقات جهت آشنایی علاقه مندان برخی تجربیات حضور در این مسابقه را در ادامه بیان خواهم کرد.
این مسابقه در دو مرحله غیر حضوری و حضوری برگزار گردید. در مرحله اول چهار سوال با موضوعات زیر مطرح گردید:
سوال یک: پیش بینی قیمت طلا براساس میزان خرید و فروش طلا به ازای هر مغازه در روزهای مختلف
سوال دو: شناسایی گروه های دوستی در شبکه های اجتماعی
سوال سه: مدل سازی تقلب بانکی
سوال چهار: شناسایی استان و شهرها کشور براساس اطلاعات تراکنش بانکی
در مرحله حضوری نیز که به مدت سه روز در دانشگاه شریف برگزار گردید تنها یک سوال با عنوان شناسایی تقلب و انحرافات از مسیر ناوگان های حمل و نقل در کشور مطرح گردید. از جذابیت های این دوره حقیقی و عملیاتی بودن صورت مسئله و اطلاعات سوال بود.
در این مسابقه محدودیت خاصی نسبت به استفاده کردن از یک ابزار یا زبان برنامه نویسی توسط تیم داوران مطرح نگردید. 23 تیم مرحله حضوری هم به صورت گروهی و بعضا انفرادی در مسابقه شرکت کرده بودند.
برخی از نکات قابل بهبود در سال آینده هم شامل استاندارد نبودن برخی سوالات مطرح شده همچون سوال دو و چهار مرحله غیر حضوری، مشخص نبودن مکانیزم دقیق داوری در مرحله حضوری، توان پردازشی غیریکسان تیم ها و... می باشد.
ارادتمند
محمدرضا محتاط
Forwarded from Elasticsearch
الستیک سرچ (Elasticsearch) یک موتور جستجو توزیع شده متن باز است که برای ذخیره، جستجو و تحلیل داده های حجیم، با قابلیت اعتماد بالا و مدیریت آسان طراحی شده است. از مهمترین جنبه های این ابزار قدرتمند سرعت در جستجو داده و انعطاف پذیری در تحلیل داده توسط زبان قدرتمند پرس و جو آن می باشد.
این قابلیت ها کاربران را قادر می سازد که بر روی داده های حجیم بدون ساختار، نیمه ساخت یافته و سری زمانی به صورت برخط جستجو و تحلیل انجام دهند و Elasticsearch را به ابزاری ایده آل برای ذخیره و تحلیل آنی داده ها تبدیل کرده است.
در حال حاضر شرکت های بزرگی همچون Uber, Facebook, Stackoverflow, Github و هزاران شرکت دیگر به صورت فزاینده از این تکنولوژی استفاده می کنند.
@elasticsearch_ir
این قابلیت ها کاربران را قادر می سازد که بر روی داده های حجیم بدون ساختار، نیمه ساخت یافته و سری زمانی به صورت برخط جستجو و تحلیل انجام دهند و Elasticsearch را به ابزاری ایده آل برای ذخیره و تحلیل آنی داده ها تبدیل کرده است.
در حال حاضر شرکت های بزرگی همچون Uber, Facebook, Stackoverflow, Github و هزاران شرکت دیگر به صورت فزاینده از این تکنولوژی استفاده می کنند.
@elasticsearch_ir
نکات و برخی راه حل های سوالات مسابقات داده کاوی کشوری( فن آورد):
با توجه به درخواست های متعدد صورت پذیرفته توسط علاقه مندان حوزه داده کاوی و وجود نکات مفید در سوالات مطرح شده در مرحله غیر حضوری مسابقات داده کاوی کشور برخی نکات در ادامه بیان می گردد.
سوال پیش بینی قیمت طلا:
اطلاعات این سوالات براساس میزان خرید و فروش طلا به ازای مغازه های طلافروشی متعدد در روزهای گوناگون بود و در انتها خواسته گردیده بود که قیمت طلا براساس میزان خرید و فروش را در برخی از روزها پیش بینی گردد.
راه حل اصلی این سوال با توجه به اینکه رابطه میان دو متغیر به یک متغیر کمی را خواسته است روش رگرسیون می باشد. در صورتی تنها مقدار قیمت طلا در روزهای مختلف خواسته میشد روش های Time Series نیز کارایی خوبی خواهند داشت.
سوال شناسایی گروه ها در شبکه ارتباطی:
این سوال جز سوال های تخصصی حوزه تحلیل شبکه اجتماعی می باشد که در این دوره مسابقات مطرح گردید. برای پاسخ به این سوال می توان از الگوریتم های Community detection که براساس معیارهای Modularity و... گروه های دوستی را شناسایی می کنند استفاده کرد. الگوریتم های مختلفی در پلتفرم ها و زبان های برنامه نویسی متنوع جهت پاسخ به این سوال وجود دارد.
سوال شناسایی تقلب بانکی:
این سوال با الگوریتم های Classification قابلیت پاسخگویی خواهد داشت. یکی از نکته های اصلی این سوال عدم توازن اطلاعات در کلاس متغیر هدف بود که میبایست در گام پیش پردازش اطلاعات متوازن می گردید یا از الگوریتم هایی استفاده گردد که توانایی مدیریت اطلاعات غیزمتوازن را داشته باشند.
سوال چهار: شناسایی شهر و استان های کشور براساس اطلاعات دستگاه های بانکی: این سوال قطعا پیچیده ترین و مبهم ترین سوال مرحله غیر حضوری این مسابقات می باشد که روش های پیشنهادی بسیار متنوعی برای پاسخ آن وجود دارد و بعضا می توان با روش هایی غیر از داده کاوی به این سوال پاسخ داد.
یکی از روش ها استفاده از روش های مبتنی بر قاعده و Rule می باشد. روش دوم استفاده از الگوریتم خوشه بندی سلسله مراتبی می باشد که باتوجه به اینکه متغیرهای غیر کمی نیز در میان داده ها وجود داشت می بایست از الگوریتم خوشه بندی Two Step استفاده گردد. روش سوم استفاده از الگوریتم های قوانین انجمنی می باشد که براساس مشتری، دستگاه خودپرداز قوانین با هم نمایی استخراج گردد و خروجی آن دستگاه های بانکی می باشد که با یکدیگر ارتباط داشته اند. در انتها می توان در میان این دستگاه های بانکی الگوریتم های تحلیل شبکه و Community detection را اجرا کرد تا دستگاه های مشابه شناسایی گردد.
البته قطعا راه حل های متنوعی دیگر نیز برای حل این سوالات وجود دارد.
در انتها یکی از تجربه های مفید شرکت در این مسابقات کار با اطلاعات غیر تمیز بود. گام پیش پردازش اطلاعات در تمامی این ۴ مسئله نقش کلیدی داشته اند.
ارادتمند
محمدرضا محتاط
با توجه به درخواست های متعدد صورت پذیرفته توسط علاقه مندان حوزه داده کاوی و وجود نکات مفید در سوالات مطرح شده در مرحله غیر حضوری مسابقات داده کاوی کشور برخی نکات در ادامه بیان می گردد.
سوال پیش بینی قیمت طلا:
اطلاعات این سوالات براساس میزان خرید و فروش طلا به ازای مغازه های طلافروشی متعدد در روزهای گوناگون بود و در انتها خواسته گردیده بود که قیمت طلا براساس میزان خرید و فروش را در برخی از روزها پیش بینی گردد.
راه حل اصلی این سوال با توجه به اینکه رابطه میان دو متغیر به یک متغیر کمی را خواسته است روش رگرسیون می باشد. در صورتی تنها مقدار قیمت طلا در روزهای مختلف خواسته میشد روش های Time Series نیز کارایی خوبی خواهند داشت.
سوال شناسایی گروه ها در شبکه ارتباطی:
این سوال جز سوال های تخصصی حوزه تحلیل شبکه اجتماعی می باشد که در این دوره مسابقات مطرح گردید. برای پاسخ به این سوال می توان از الگوریتم های Community detection که براساس معیارهای Modularity و... گروه های دوستی را شناسایی می کنند استفاده کرد. الگوریتم های مختلفی در پلتفرم ها و زبان های برنامه نویسی متنوع جهت پاسخ به این سوال وجود دارد.
سوال شناسایی تقلب بانکی:
این سوال با الگوریتم های Classification قابلیت پاسخگویی خواهد داشت. یکی از نکته های اصلی این سوال عدم توازن اطلاعات در کلاس متغیر هدف بود که میبایست در گام پیش پردازش اطلاعات متوازن می گردید یا از الگوریتم هایی استفاده گردد که توانایی مدیریت اطلاعات غیزمتوازن را داشته باشند.
سوال چهار: شناسایی شهر و استان های کشور براساس اطلاعات دستگاه های بانکی: این سوال قطعا پیچیده ترین و مبهم ترین سوال مرحله غیر حضوری این مسابقات می باشد که روش های پیشنهادی بسیار متنوعی برای پاسخ آن وجود دارد و بعضا می توان با روش هایی غیر از داده کاوی به این سوال پاسخ داد.
یکی از روش ها استفاده از روش های مبتنی بر قاعده و Rule می باشد. روش دوم استفاده از الگوریتم خوشه بندی سلسله مراتبی می باشد که باتوجه به اینکه متغیرهای غیر کمی نیز در میان داده ها وجود داشت می بایست از الگوریتم خوشه بندی Two Step استفاده گردد. روش سوم استفاده از الگوریتم های قوانین انجمنی می باشد که براساس مشتری، دستگاه خودپرداز قوانین با هم نمایی استخراج گردد و خروجی آن دستگاه های بانکی می باشد که با یکدیگر ارتباط داشته اند. در انتها می توان در میان این دستگاه های بانکی الگوریتم های تحلیل شبکه و Community detection را اجرا کرد تا دستگاه های مشابه شناسایی گردد.
البته قطعا راه حل های متنوعی دیگر نیز برای حل این سوالات وجود دارد.
در انتها یکی از تجربه های مفید شرکت در این مسابقات کار با اطلاعات غیر تمیز بود. گام پیش پردازش اطلاعات در تمامی این ۴ مسئله نقش کلیدی داشته اند.
ارادتمند
محمدرضا محتاط
دوره رایگاه یادگیری ژرف برای کدنویسها
http://www.kdnuggets.com/2016/12/deep-learning-coders-mooc-jeremy-howard.html
http://www.kdnuggets.com/2016/12/deep-learning-coders-mooc-jeremy-howard.html
Forwarded from رویدادهای ملی و بین المللی
سلسله نشست های علم اطلاعات و دانش شناسی
#Seminar #Free #Live
#Data_Science
#Iran #1395 #10
www.hepl.ir
@convent
#Seminar #Free #Live
#Data_Science
#Iran #1395 #10
www.hepl.ir
@convent