Data Science – Telegram
Data Science
7.47K subscribers
754 photos
49 videos
85 files
451 links
ارتباط با ادمین:
@Datascience
Download Telegram
ارائه مهارت‌های داده‌ای در عصر دیجیتال!

@DataAnalysis
DataSkills.pdf
2.6 MB
ارائه مهارت‌های داده‌ای در عصر دیجیتال!

در ارائه فوق که در نشست علم‌اطلاعات و دانش شناسی حسینه ارشاد برگزار گردید، مهارت‌های مورد نیاز جهت تبدیل شدن به متخصص‌‌ حوزه‌های زیر به تفکیک ذکر گردیده است.

1- علم‌داده
2- هوش تجاری
3- کلان‌داده
4- مهندس داده

لینک Slidshare:
https://bit.ly/2D6jde4

@DataAnalysis
مقایسه زبان‌های برنامه نویسی و ابزارهای حوزه تحلیل‌داده!

@DataAnalysis
انتخاب الگوریتم مناسب در پروژه‌های داده‌کاوی!

https://bit.ly/2FydfoM

یکی از چالش‌های مهم در پروژه‌های داده‌کاوی انتخاب الگوریتم مناسب و بهینه بنا به نیازمندی‌های مسئله است. در ادامه برخی از مؤلفه‌های کلیدی جهت انتخاب الگوریتم‌های یادگیری ماشین در یک پروژه داده‌کاوی ذکر خواهد گردید.

1- هدف تحلیل(متغیرهدف): هدف تحلیل و نوع متغیر هدف(Target) از مهم‌ترین مؤلفه‌های انتخاب الگوریتم و تکنیک موردنیاز خواهد بود. هر یک از تحلیل‌های توصیفی، پیش‌بینانه و... توسط الگوریتم‌های مشخصی پشتیبانی خواهند شد. به‌صورت کلی بنا به نوع متغیر هدف و تحلیل موردنیاز به الگوریتم‌های مختلفی همانند خوشه‌بندی، طبقه‌بندی، پیش‌بینی، کاهش بعد، قوانین انجمنی و... نیاز خواهد شد.

2-دقت و صحت: در برخی از مسائل که هدف کسب دقت بالاتر می‌باشد برخی از الگوریتم‌ها همانند SVM، شبکه‌های عصبی، Random Forest و... به نسبت سایر الگوریتم‌ها پیشنهاد می‌شود.

3- سرعت: در مسائلی که هدف سرعت بیشتر در مدل‌سازی است برخی الگوریتم‌ها همانند Naive Bayes، رگرسیون لوجستیک، رگرسیون خطی، درخت‌های تصمیم‌گیری و... عملکرد به‌مراتب بهتری نسبت به سایر الگوریتم‌ها دارند.

4- دادگان نامتوازن: یکی از چالش‌های اساسی در پروژه‌های داده‌کاوی وجود دادگان نامتوازن در کلاس متغیر هدف است. جهت مدیریت دادگان نامتوازن روش‌های متعددی همانند OverSampling یا UnderSampling وجود دارد اما برخی از الگوریتم‌ها نیز توانایی مدیریت این قبیل دادگان را دارند. از مهم‌ترین الگوریتم‌هایی که توانایی مدیریت دادگان نامتوازن را دارند می‌توان به الگوریتم‌های Random Forset, C4.5, C5.0, CART و... اشاره کرد.

پی‌نوشت:
1- انتخاب یک الگوریتم به سایر مؤلفه‌ها همانند وجود تخصص لازم در تیم تحلیل داده و توانایی پیاده‌سازی آن، لزوم مشخص بودن یا نبودن قوانین کشف‌شده همانند روش‌های BlackBox در مقابل روش‌های Rule Base بستگی دارد.
2- ارائه راه‌حل‌های کلی معمولاً کارآمد نخواهد بود اما در حوزه‌ الگوریتم‌های یادگیری ماشین طبق تجربیات موجود در پروژه‌های مختلف دو الگوریتم SVM و Random Forest معمولاً دارای نتایج کارآمدتری هستند.

ارادتمند
محمدرضا محتاط

@DataAnalysis
کتاب Big Data Analytics with Spark

کتاب Big Data Analytics with Spark انتشارات Apress یکی از کتاب‌های مفید حوزه Big Data در جهت آموزش و اجرای تحلیل‌های پیشرفته بر روی موتور پردازشی اسپارک است. در این کتاب سرفصل‌های زیر آموزش داده می‌شود.

1- Big Data Technology Landscape
2- Programming in Scala
3- Spark Core
4- Interactive Data Analysis with Spark Shell
5- Writing a Spark Application
6- Spark Streaming
7- Spark SQL
8- Machine Learning with Spark
9- Graph Processing with Spark
10- Cluster Managers
11- Monitoring

پی‌نوشت:
1- بررسی مهارت‌های موردنیاز در حوزه‌های علم‌داده، توسعه‌دهنده کلان داده و تحلیلگر کلان داده نشان از اهمیت Spark در پروژه‌های آتی حوزه کلان داده در کشور می‌باشد. لذا اگر قصد فعالیت تخصصی در حوزه‌های فوق را دارید یادگیری Spark یکی از پیش‌نیازهای اصلی موفقیت خواهد بود.
2- پیاده‌سازی‌های کدها در کتاب فوق بر اساس زبان برنامه‌نویسی Scala می‌باشد.

ارادتمند
محمدرضا محتاط
@DataAnalysis
Big Data Analytics with Spark.pdf
5.3 MB
Big Data Analytics with Spark

@DataAnalysis
معرفی فیلم‌ The Imitation Game!

فیلم بازی تقلید فیلمی در ژانر تاریخی و درام بر اساس زندگی‌نامه ریاضی‌دان نامدار و پدر علم رایانه یعنی آلن تورینگ می‌باشد. آلن تورینگ یکی از بزرگ‌ترین دانشمندان بریتانیایی بود که به پدر علم محاسبه نوین و هوش مصنوعی معروف است و امروزه مهم‌ترین جایزه دنیای علم کامپیوتر به‌افتخار او آلن تورینگ نام‌گذاری شده است.

بخش عمده‌ای از دقایق فیلم روی ماجراهای جنگ جهانی دوم و تلاش آلن تورینگ و گروهش برای شکستن کد ماشین انیگما که نازی‌ها از آن برای ارسال پیام‌های سری خود استفاده می‌کنند تمرکز دارد. در این فیلم جهت شکستن کد فوق از تحلیل داده، مهندس معکوس و... استفاده می‌گردد.

مشاهده این فیلم جذاب رو به‌تمامی علاقه‌مندان حوزه‌های هوش‌مصنوعی، علم‌داده و... پیشنهاد می‌کنم.

@DataAnalysis
برترین مشاغل نوظهور در سال 2022

از ده شغل برتر و نوظهور در سال 2022 سه حوزه متخصص علم‌داده، متخصص کلان‌داده و متخصص یادگیری ماشین جز برترین مشاعل خواهند بود.

در ۵ سال آینده خودتان را در چه جایگاهی می‌بینید؟

@DataAnalysis
برترین ابزارها و تکنولوژی‌های حوزه مهندسی‌ داده!

مهندس داده یکی از جایگاه‌های شغلی جذاب در حوزه Data است که به تازگی نیز توجهات به آن افزایش یافته است.

فعالیت‌های اصلی یک مهندس داده در حوزه‌های مدیریت جریان داده‌، ‌پیاده‌سازی معماری‌های انبار‌داده، پاکسازی و پردازش بلادرنگ داده‌ها و... خواهد بود.

در شکل فوق برترین مهارت‌ها و تکنولوژی‌های مورد نیاز جهت کسب تخصص در این فیلد کاری معرفی گردیده است.

@DataAnalysis
تبدیل‌شدن به یک سازمان داده‌محور!

https://mklnd.com/2RwdgLG

یک سازمان داده‌محور، سازمانی است که تحلیل ‌داده و تصمیم‌گیری‌های داده‌محور جز مؤلفه‌های کلیدی در مأموریت‌ها و فرایندهای عملیاتی آن می‌باشد. در این نوع سازمان‌ها، استفاده از داده و تحلیل‌های داده‌محور توسط مدیران و کارکنان به بخشی تفکیک‌ناپذیر از جریان‌های کاری روزمره تبدیل‌شده است.

جهت تبدیل‌شدن به یک سازمان داده محور توجه به مؤلفه‌های زیر موردنیاز می‌باشد.

1- فرهنگ(Culture):
یکی از مهم‌ترین مؤلفه‌های یک سازمان داده‌محور وجود یک فرهنگ مشارکتی، نوآور و نهادینه شدن لزوم بهره‌گیری از تصمیم‌گیری‌های داده محور در تمامی اجزا به خصوص در سطوح مدیران عالی و عملیاتی آن می‌باشد.

2- رهبری داده(Data Leadership):
وجود نقش‌هایی همانند مدیر ارشد داده(CDO) یا مدیر ارشد تحلیل(CAO) و تشکیل یک تیم منسجم Data بنا به ساختار و نیازمندی‌‌های سازمانی از ملزومات این بخش خواهد بود.

3- داده(Data):
استقرار چارچوب‌ها و عملیات‌های حکمرانی داده، مدیریت داده، مدیریت کیفیت داده و... از نیازمندی‌های فنی و مدیریتی این مؤلفه می‌باشد.

4- کارکنان(People):
مهیا ساختن بسترهای رشد و ترقی کارکنان در فیلدهای مرتبط با Data همانند علم‌داده، مهندسی داده، کلان داده با برگزاری دوره‌های آموزشی حضوری، آنلاین و... در این گام مورد نیاز است.

5- سازمان(Organization):
استقرار ساختار سازمانی داده محور با تشکیل تیم‌ها یا دپارتمان داده/ تحلیل داده در این مؤلفه مورد بررسی قرار می‌گیرند.

پی‌نوشت:
سه بخش فرایندها، کارکنان و تکنولوژی به‌عنوان موضوعات محوری جهت تبدیل‌شدن به یک سازمان داده‌محور مورد اهمیت می‌باشد. بازمهندسی یا بهبود مستمر فرایندها، انتخاب معماری و تکنولوژی‌های بهینه، جذب افراد متخصص در این موضوعات مورد توجه می‌باشد.

ارادتمند
محمدرضا محتاط

@DataAnalysis
کاربردهای زبان برنامه‌نویسی پایتون

زبان پایتون یکی از بهترین زبان‌های برنامه‌نویسی در حوزه علم داده و Big Data Analytics است. در صورتی که قصد ورود تخصصی به این دو حوزه فوق را دارید یادگیری پایتون جز پیش‌نیازهای کلیدی است.

کاربردهای پایتون در حوزه‌های توسعه نرم‌افزارهای تحت وب، پردازش تصویر، هوش مصنوعی، توسعه بازی‌های رایانه‌ای، خزش وب و... سبب تمایز این زبان با سایر زبان‌های برنامه‌نویسی گردیده است.

@DataAnalysis
شهادت بانوی دوعالم حضرت فاطمه سلام الله علیها تسلیت باد.

@DataAnalysis
از بین نرم افزارهای داده کاوی سقوط ای بی ام و رشد رپیدماینر و نایم نسبت به سالهای قبل و حضور تیبکو در جمع لیدرها قابل توجه است
برای سال 2019 گارتنر لیست جدید ابزارهای حوزه هوش تجاری را منتشر کرد. مایکروسافت فاصله را از تبلو که سال گذشته جلو زد بیشتر کرده است. اوارکل هم به لیست اضافه شده است. https://news.1rj.ru/str/AryaVisions
معرفی فیلم‌ Moneyball!

فیلم Moneyball یک فیلمی در ژانر درام و ورزشی می‌باشد. در این فیلم بخشی از داستان واقعی مدیر یک تیم ورزشی به نام «بیلی بین» را روایت می‌کند. بیلی بین کسی بود که موفق شد با بودجه‌ای اندک و تنها با استفاده از قوانین غیرعرفی بازی بیسبال، رقیبان بزرگ و ثروتمند خود را شکست دهد.

تصمیم‌گیری داده محور یا Data Driven Decision Making در این فیلم به زیبایی برای مخاطبان نمایش داده می‌شود. در عصری که حجم اطلاعات و داده‌ها بسیار زیاد هست تنها با تحلیل داده و کشف الگوها و دانش‌های پنهان می‌توان در جهت کسب انتخاب‌های بهینه، درست و اثربخش گام برداشت. در این فیلم به چالش کشیدن قوانین پذیرفته‌شده و بازنویسی قواعد جدید با رویکرد تحلیل‌داده به‌خوبی به مخاطب انتقال داده می‌شود.

مشاهده این فیلم جذاب رو به‌تمامی علاقه‌مندان حوزه‌های هوش مصنوعی، علم‌داده و... پیشنهاد می‌کنم.

ارادتمند
محمدرضا محتاط

@DataAnalysis
graphsage_gin-ita-feb19.pdf
11.9 MB
الگوریتمهایی که روی داده از نوع گراف مانند شبکه های اجتماعی کار می کنند متفاوت از داده تراکنشی هستند. عموما چالش الگوریتمهای روی داده گراف چالش بیشتری بخصوص بخاطر تنکی داده دارند. آخرین سخنرانی Lescovec که سالهاست در زمینه گراف در دانشگاه استفورد فعالیت می کند برای ارائه الگوریتم یادگیری عمیق روی داده گراف بوده است. اسلاید این سخنرانی را از لینک زیر می توانید دانلود کنید.
https://news.1rj.ru/str/AryaVisions
http://i.stanford.edu/~jure/pub/talks2/graphsage_gin-ita-feb19.pdf
This media is not supported in your browser
VIEW IN TELEGRAM
10 مهارتی که در 2019 بر اساس امار لینکدین بیشترین تقاضا را خواهند داشت.
محاسبات ابری، هوش مصنوعی، استدال تحلیلی و طراحی کاربر محور جز این 10 مورد است. منبع اقتصاد انلاین
https://news.1rj.ru/str/AryaVisions
روندهای تحول دیجیتال در سال 2019!

از روندهای حوزه Digital Transformation در سال 2019 می‌توان به حوزه‌های کلان داده، اینترنت اشیا، هوش مصنوعی، بلاک‌چِین، شبکه‌های 5G و... اشاره کرد.

بهره‌گیری هوشمندانه از روندهای فوق سبب هوشمندسازی کسب و کار و در نهایت کسب مزیت رقابتی برای سازمان شما خواهد گردید.

@DataAnalysis
نقش علم‌داده در بهبود فرایندهای کسب‌وکار!

https://bit.ly/2XbrhCg

فرایندکاوی یا Process Mining یکی از کاربردهای جذاب حوزه علم‌داده در بهبود و بهینه سازی فرایندهای کسب کار می‌باشد.

با بهره‌گیری از متدها و روش‌های فرایندکاوی امکان بررسی میزان بهره‌وری فرایندهای موجود، کشف فرایندهای نهان سازمان، بررسی میزان انطباق‌پذیری فرایندها با فرایندهای بهینه و ارتقا فرایندها امکان پذیر خواهد بود.

فرآیندکاوی برای هر صنعت و کسب و کاری مفید و پرفایده است و فقط به اطلاعاتی نیاز دارد که می‌توانند به عنوان اطلاعات پایه استفاده شوند.

جهت پیاده سازی متدهای فرایندکاوی نیاز به وجود داده‌های Event Log فرایندها می‌باشد. این داده‌ها در اکثر سازمان‌ها تحت داده‌های تاریک وجود دارد اما معمولا استفاده از آنها صورت نمی‌پذیرد.

نرم‌افزاری مختلفی در حوزه فرایندکاوی وجود دارد که از این بین نرم افزارهای Disco ،Celonis و نرم‌افزار متن باز ProM دارای عملکرد خوبی هستند.

ارادتمند
محمدرضا محتاط

@DataAnalysis
10 روند تکنولوژی استراتژیک برتر در سال 2019 از نظر گارتنر https://news.1rj.ru/str/AryaVisions
داده؛ نفت عصر جدید

https://bit.ly/2GWtewR

بدون شک داده و تحلیل داده محور یکی از مهم‌ترین منابع قدرت سازمان‌ها در جهت اخذ تصمیمات بهینه می‌باشد. جملاتی از قبیل Data is the new oil نیز موکد بر همین قضیه می‌باشد.

در بسیاری از سازمان‌ها و شرکت‌های داخلی به حوزه Data توجهاتی شده است اما لزوما سبب کسب مزیت‌ رقابتی یا افزایش بهره‌وری نگردیده است!

توجه صرف به موضوعات فنی یکی از مشکلات عدیده‌ای است که شرکت‌های داخلی با آن مواجه هستند. این در حالی است که رویکرد ترکیبی از حوزه‌های مدیریت و فناوری اطلاعات راهکار این مسیر خواهد بود.

جهت کسب موفقیت و مدیریت بهینه پروژه‌های داده محور مولفه‌های کلیدی زیر پیشنهاد می‌گردد.

1- ارزیابی میزان بلوغ تحلیل داده و کلان داده سازمان
2- تدوین استراتژی سازمانی در حوزه داده و تحلیل داده
3- شناسایی اولویت‌های سازمان
4- شناسایی منابع و ذی‌نفعان حوزه Data
5- مدیریت پروژه و مدیریت تغییرات
6- تدوین معماری بهینه شامل ابزارها، پلتفرم‌ها
7- شناسایی و جذب مهارت‌های دانشی مورد نیاز

بسیاری از سازمان‌ها نیز تنها به جمع‌آوری اطلاعات اکتفا کرده و بعضا به‌صورت خام از فروش اطلاعات و دادگان خود کسب درآمد می‌نمایند. ارائه ارزش‌افزوده ناشی از تحلیل اطلاعات می‌تواند سبب کسب درآمد بیشتر و به طبع افزایش اثربخشی شما گردد. شناسایی منابع داده‌ای، استخراج اطلاعات، تحلیل، توزیع و در نهایت کسب ارزش از گام‌های اصلی این فرایند خواهد بود.

سازمان و شرکت شما چه میزان از نفت موجود در سازمان خود در حال بهره‌برداری و کسب مزیت رقابتی است؟!

ارادتمند
محمدرضا محتاط

@DataAnalysis