Data Science – Telegram
Data Science
7.47K subscribers
754 photos
49 videos
85 files
451 links
ارتباط با ادمین:
@Datascience
Download Telegram
با سلام و احترام

پیرو برگزاری دوره‌های َآموزشی هدفمند در حوزه‌های مرتبط با علم‌داده و تحلیل‌داده، در صورتی که علاقه‌مند به شرکت در دوره‌های تخصصی مرتبط هستید خواهشمنداست نسبت به پر کردن فرم نظرسنجی زیر اقدام نمایید.

https://forms.gle/z9Axy4nFyp1QVKdK7

@DataAnalysis
معرفی کتاب An Introduction to Statistical Learning

http://tiny.cc/xzs1bz

کتاب An Introduction to Statistical Learning یکی از بهترین کتاب‌های تخصصی در آموزش مفاهیم تحلیل‌های آماری و یادگیری ماشین است که توسط انتشارات Springer انتشار یافته است. آموزش طیف وسیعی از الگوریتم‌ها، متدهای آماری و مدل‌های خطی با ذکر مثال‌های متعدد از ویژگی‌های بارز این کتاب است.

سرفصل‌های ده‌گانه این کتاب به شرح زیر است. قابل ذکر است که پیاده‌سازی موجود در این کتاب به زبان برنامه‌نویسی R می‌باشد.

▪️Introduction

▪️Statistical Learning

▪️Linear Regression

▪️Classification

▪️Resampling Methods

▪️Linear Model Selection and Regularization

▪️Moving Beyond Linearity

▪️Tree-Based Methods

▪️Support Vector Machines

▪️Unsupervised Learning

مطالعه این کتاب ارزشمند را به تمامی علاقه‌مندان حوزه علم‌داده که قصد در تقویت پایه‌های علوم آماری خود را دارند توصیه میکنم.

ارادتمند
محمدرضا محتاط

@DataAnalysis
An Introduction to Statistical Learning.pdf
10.7 MB
کتاب An Introduction to Statistical Learning

@DataAnalysis
ارزيابي بلوغ قابلیت‌های تحليلي و كلان داده سازمان!

http://tiny.cc/cca7bz

زبدگی در فناوری‌های تحول‌آفرین تحليل داده و قابلیت‌های تحليلي مبتني بر كلان داده يكي از گام‌های كليدي در افزايش اثربخشي در فرايندهاي کسب‌وکار، بهینه‌سازی و اخذ تصميمات داده محور در جهت دستیابی به اهداف راهبردي و استراتژيك سازمان‌ها و خلق تجربه دیجیتال مشتریان می‌باشد.

جهت ارزيابي بلوغ قابلیت‌های تحليل داده و كلان داده بعضاً مدل‌های متنوعي مطرح‌شده است كه تنها در سطوح کاملاً فني سطح بلوغ سازمان را موردبررسی قرار می‌دهد. این در حالی است که در حوزه ارزیابی بلوغ تحلیل داده و کلان‌داده مدلی بهینه‌ خواهد بود که همزمان معیارها و مؤلفه‌های فني و مديريتي سازمان را موردبررسی و ارزيابي قرار دهد.

مولفه‌های همانند کسب‌وکار داده‌محور، رهبري، تكنولوژي، داده‌ها، اهداف و راهبردها، تيم تخصصي تحليل داده سازمان و... از مولفه‌های کلیدی‌ هستند که جهت ارزیابی بلوغ می‌بایست به آنها توجه شود و درنهایت راهكارهايي در جهت برطرف سازي خلأها و مشكلات موجود ارائه گردد.

در واقع سازمان‌های پیشرو امروزی، با سرمایه‌گذاری بهینه در فناوری‌های تحلیل داده و کلان‌داده، از آن‌ها برای ایجاد منابع جدید درآمدی و همچنین تحلیل داده‌های تولیدشده، باهدف بهبود فرایندها، خلق تجربه‌هایی خوشایند و منحصربه‌فرد برای مشتریان، بهره می‌گیرند.

لازم هست به سؤال زیر بیش از گذشته فکر نمایید!

ميزان بلوغ شركت شما در حوزه تحليل داده و بیگ‌دیتا و بهره‌برداری از فرصت‌های متنوع این حوزه چه ميزان می‌باشد؟!

ارادتمند
محمدرضا محتاط

@DataAnalysis
برترین کتابخانه‌های یادگیری ماشین!

در ادامه برترین کتابخانه‌های یادگیری ماشین زبان‌های برنامه‌نویسی پایتون و R براساس میزان استفاده در پروژه‌های علم‌داده ذکر گردیده است.

1- Scikit Learn

2- Tensorflow

3- Keras

4- randomForest

5- Xgboost

6- PyTorch

7- Caret

8- Lightgbm

9- Spark MLlib

10- H2O

پی‌نوشت:
جهت مطالعه جزئیات گزارش فوق می‌توانید از طریق لینک زیر اقدام نمایید.
http://tiny.cc/0v5ccz

@DataAnalysis
السلام علیک یا اباعبدالله الحسین(ع)

فرارسیدن ایام تاسوعا و عاشورای حسینی، ایام ایثار، رشادت‌ها و مظلومیت خاندان رسالت بر شیعیان آن حضرت تسلیت باد.
داده‌های کثیف؛ چالشی‌ترین مشکل تیم‌های علم داده!

http://tiny.cc/s49rcz

تشکیل تیم‌های تخصصی علم‌داده در سازمان‌ها علاوه بر جذابیت‌هایی همانند کسب بینش ناشی از تحلیل‌های داده‌محور، ارتقا تجربه مشتریان، بهبود فرایندها و... دارای چالش‌هایی نیز هست که در صورت عدم مدیریت آن، مشکلات متعددی در پروژه‌ها و مدیریت تیم‌های علم‌داده ایجاد میکند.

در ادامه برخی از مهمترین چالش‌های سازمانی دپارتمان‌های علم داده براساس نظرسنجی موسسه Business Broadway از 10 هزار متخصص این حوزه ذکر می‌شود.

1- وجود داده‌های کثیف(Dirty Data)

2- خلا وجود متخصصین و استعدادهای کافی علم‌داده در سازمان

3- عدم وجود سیاست‌ها و فرهنگ سازمانی داده‌محور

4- پیچیدگی یا عدم دسترسی به اطلاعات و داده‌های مورد نیاز

5- قابل استفاده نبودن نتایج پروژه‌های تحلیل‌داده در تصمیمات کسب‌وکار

6- توضیح کاربردها و کارکردهای علم‌داده به سایر واحدها و افراد سازمان

7- مشکلات حریم‌ خصوصی

8- عدم همکاری و تعامل متخصصین کسب و کار با متخصصین علم‌داده

9- عدم دسترسی به منابع کافی جهت تشکیل تیم علم‌داده در شرکت‌های کوچک

10- استفاده از ابزارها و زبان‌های ‌برنامه‌نویسی متعدد (پایتون،R، جاوا و...) توسط متخصصین علم‌داده

11- محدودیت‌ ابزارهای تحلیل‌داده

پی‌نوشت:
موارد فوق تنها بخشی از چالش‌های تیم‌های علم داده در سازمان‌هاست که با بهره‌گیری از متدها و روش‌های اصولی امکان مدیریت این مشکلات وجود دارد. مواردی همچون تدوین استراتژی‌های تحلیل داده، استقرار متدولوژی‌های حکمرانی داده و مدیریت داده و... نمونه‌ای از این راهکارها خواهد بود.
در انتها این نکته قابل ذکر است که برخی از شرکت‌ها و سازمان‌ها در تلاش هستند تا تمامی این چالش‌ها به صورت گام به گام و براساس دانش تیم‌های موجود برطرف گردد. این رویکرد سبب افزایش زمان پاسخگویی به مشکلات و به طبع کاهش اثربخشی تیم‌های علم داده خود میشود. بهره‌گیری از تجربیات مشاوران متخصص می‌تواند در این مسیر بسیار راه‌گشا باشد.

ارادتمند
محمدرضا محتاط

@DataAnalysis
تصویری جامع از مراحل و ابزارهای پروژه‌های علم‌داده

@DataAnalysis
برترین مهارت‌های فعلی و آتی متخصصین علم‌داده!

http://tiny.cc/9kt6cz

به‌تازگی توسط وب‌سایت kdnuggets یک نظرسنجی از متخصصین علوم داده مبنی بر مهارت‌های فعلی (Have Skill) و مهارت‌های آتی (Want Skill) موردنیاز پرسیده شده است که با توجه به جامعیت نظرسنجی فوق می‌تواند راهنمایی مناسبی جهت تحلیل مهارت‌های موردنیاز بازار علم‌داده در آینده باشد.

برترین مهارت‌های فعلی متخصصین علم‌داده:

1️⃣ پایتون (Python)

2️⃣ مصورسازی داده‌ها (Data Visualization)

3️⃣ تفکر انتقادی (Critical Thinking)

4️⃣ اکسل (Excel)

5️⃣ مهارت‌های ارتباطی (Communications Skills)

6️⃣ یادگیری ماشین (Machine Learning)

7️⃣ آمار (Statistics)

8️⃣ مهارت‌های پایگاه داده (SQL/Database Coding)

9️⃣ فهم کسب‌وکار (Business Understanding)

🔟 ریاضی (Math)

🔵 برترین مهارت‌های آتی (توسعه دانش) متخصصین علم‌داده:

1️⃣ یادگیری عمیق (Deep Learning)

2️⃣ کتابخانه یادگیری عمیق تنسورفلو (TensorFlow)

3️⃣ یادگیری ماشین (Machine Learning )

4️⃣ پایتون (Python)

5️⃣ آپاچی اسپارک (Apache Spark)

6️⃣ پردازش زبان طبیعی (NLP - Text Processing)

7️⃣ کتابخانه یادگیری عمیق پایتورچ (Pytorch)

8️⃣ آمار (Statistics)

9️⃣ داده‌های غیرساخت‌یافته (Unstructured Data)

🔟 سایر ابزارهای کلان داده (Other Big Data Tools)

پی‌نوشت:
◾️ افزایش میزان توجهات به کتابخانه یادگیری عمیق Pytorch، زبان Scala و ابزارهای Big Data با توجه به درصد رشد آن قابل‌توجه است.
◾️در میان زبان‌های برنامه‌نویسی، کسب رتبه نخست توسط زبان پایتون و کاهش جایگاه زبان‌های برنامه‌نویسی R و Matlab، این زبان برنامه‌نویسی را تبدیل به برترین زبان در حوزه علم‌داده کرده است.
◾️قرار گرفتن دو مهارت نرم (Soft Skill) تفکر انتقادی و مهارت‌های ارتباطی جز 5 مهارت برتر فعلی متخصصین علم‌داده نشان از میزان توجهات به این قبیل مهارت‌ها در این بازار کاری دارد.

ارادتمند
محمدرضا محتاط

@DataAnalysis
تکنولوژی‌های تاثیرگذار دهه آینده!

در شکل فوق برترین تکنولوژی‌های تاثیرگذار طی دهه آینده معرفی شده‌اند. حضور تکنولوژی‌های هوش مصنوعی، اینترنت اشیا، بلاک‌چین و کلان‌داده در رتبه‌های اول تا پنجم نشان از گسترش بازارکار این فیلدهای کاری طی سالیان آینده است.

طراحی استراتژی بهینه توسعه محصولات و خدمات مرتبط با این تکنولوژی‌های نوظهور سبب افزایش موفقیت شرکت‌ها و سازمان‌ها در مواجهه با رقبا خواهد شد.

@DataAnalysis
This media is not supported in your browser
VIEW IN TELEGRAM
اجرا گرافیکی الگوریتم‌های شبکه‌ عصبی!

یکی از پیچیدگی‌های مدل‌های مبتنی بر شبکه‌های عصبی و یادگیری عمیق Black Box بودن نحوه مدل‌سازی و نتایج حاصل از این مدل‌های مبتنی بر یادگیری ماشین است.

در وب‌سایت زیر که توسط توسعه دهندگان کتابخانه یادگیری عمیق Tensorflow ایجاد شده است شما میتوانید به صورت گرافیکی مدل‌های شبکه‌ عصبی را برای مسائل طبقه‌بندی و رگرسیون ایجاد، بهینه‌سازی و تحلیل کنید. در این وبسایت امکان تغییر تعداد لایه‌ها و نرون‌های شبکه عصبی، انتخاب تابع‌های فعال‌سازی (Activation Function)، نرخ یادگیری (Learning Rate) و... وجود دارد.

آدرس وب‌سایت:
Playground.tensorflow.org

@DataAnalysis
معرفی کتاب Learning Pyspark

کتاب Learning Pyspark یکی از منابع آموزشی مفید جهت یادگیری پلتفرم پردازشی کلان‌داده اسپارک در زبان پایتون است. این کتاب برای تمامی توسعه دهندگان و تحلیلگران کلان‌داده که قصد یادگیری کار با پلتفرم Spark با زبان پایتون را دارند توصیه میشود. سرفصل‌های اصلی این کتاب به شرح زیر است.

Chapter 1: Understanding Spark

Chapter 2: Resilient Distributed Datasets

Chapter 3: DataFrames

Chapter 4: Prepare Data for Modeling

Chapter 5: Introducing MLlib

Chapter 6: Introducing the ML Package

Chapter 7: GraphFrames

Chapter 8: TensorFrames

Chapter 9: Polyglot Persistence with Blaze

Chapter 10: Structured Streaming

Chapter 11: Packaging Spark Applications

@DataAnalysis
Learning PySpark.pdf
7.5 MB
کتاب Learning PySpark

@DataAnalysis
کاربردهای زبان برنامه‌نویسی پایتون!

به تازگی توسط IEEE Spectrum زبان برنامه‌نویسی پایتون براساس مولفه‌های میزان تقاضا، رشد، محبوبیت و... بعنوان برترین زبان برنامه‌نویسی سال 2019 انتخاب شده است. این زبان برنامه‌نویسی در حال حاضر در حوزه‌های مرتبط با علم‌داده، تحلیل کلان‌داده و... نیز جز برترین زبان‌های برنامه‌نویسی است.

زبان پایتون علاوه بر حوزه تحلیل‌داده در سایر فیلدهای مرتبط با فناوری اطلاعات و مهندسی نرم‌افزار نیز دارای قابلیت‌های متعددی است. در شکل فوق کاربردهای اصلی زبان پایتون به همراه کتابخانه‌های مطرح آن معرفی شده است.

@DataAnalysis
برترین دوره‌های آنلاین آموزش یادگیری عمیق!

http://tiny.cc/d0zsdz

یادگیری عمیق با توجه به قابلیت‌ها و کاربردهای متنوعی که در حوزه‌های پردازش تصویر، پردازش زبان طبیعی و... دارد در حال تبدیل شدن به یکی از مهارت‌های کلیدی یک متخصص علم‌داده است. در ادامه برخی از مطرح‌ترین دوره آنلاین یادگیری عمیق معرفی میشوند.

1- دوره یادگیری عمیق پرفسور Andrew Ng در سایت Coursera

2- دوره یادگیری عمیق شرکت IBM در سایت EDX

3- مدرسه هوش مصنوعی موسسه Udacity

4- دوره یادگیری عمیق دانشگاه MIT

5- دوره یادگیری عمیق با پایتون Datacamp

6- دوره یادگیری عمیق از صفر تا صد موسسه Udemy

7- دوره فارسی یادگیری عمیق دانشگاه استنفورد

شرکت در دوره‌های آنلاین فوق و مطالعه کتب مرجع یکی از بهترین راه‌های کسب تخصص در این حوزه و سایر فیلدهای کاری است. امری که تنها نیازمند آشنایی با زبان انگلیسی خواهد بود.

پی‌نوشت:
علاوه بر موارد فوق در وبسایت ویرگول یک مسیر پیشنهادی جهت تبدیل شدن به یک متخصص یادگیری عمیق تدوین شده است که می‌تواند برای علاقه‌مندان این حوزه مفید باشد.
https://dataio.ir/deep-learning-aetdp4cfynrj

ارادتمند
محمدرضا محتاط
@DataAnalysis
👍1
فرصت شغلی متخصص علم‌داده در شرکت Quiz Of Kings

🔹تجربیات مورد نیاز:
1. Designing and Building a Data Stack
2. Experience with BI and its tools

🔸مهارت‌های فنی:
1. Programming Skills
2. Hadoop Platform
3. SQL Database/Coding
4. Apache Spark
5. MapReduce
6. Data Visualization (Tableau)
7. Unstructured data (Dark Analytics)
8. Machine Learning and AI (FP.Growth,Apriori ,ECLAT,k-means,SVM,KNN)

🔻مهارت‌های نرم:
1. Intellectual curiosity
2. Communication skills
3. Teamwork
4. Business acumen
(a solid understanding of industry , being able to discern which problems are important to solve for the business )

-Preferred Education: BSc or Masters on:
mathematics
Statistics
Computer Science

Please send us CV to: hr@qok.us

@DataAnalysis
پرکاربردترین تکنیک‌های آماری در علم‌داده!

http://tiny.cc/amm3dz

یادگیری تخصصی تکنیک‌ها و الگوریتم‌های آماری همواره یکی از چالش‌های متخصصین علم‌داده است. در ادامه 10 تکنیک پرکاربرد آمار در پروژه‌های علم‌داده و داده‌کاوی معرفی می‌شوند.

1- رگرسیون خطی (Linear Regression)

2- الگوریتم‌های طبقه‌بندی (Classification)

3- نمونه‌سازی (Resampling)

4- کاهش بعد (Dimension Reduction)

5- مدل‌های غیرخطی (Nonlinear Models)

6- الگوریتم‌های بدون نظارت (Unsupervised Learning)

7- الگوریتم ماشین پشتیبان بردار (SVM)

8- متدهای انتخاب زیرمجموعه (Subset Selection)

9- مدل‌های مبتنی بر درخت (Tree-Based Methods)

10- روش Shrinkage

در شکل زیر به تفکیک، متدها و الگوریتم‌های مورد نیاز در هر دسته عنوان شده است. آموزش هدفمند در هر یک از این موارد در گسترش دانش آماری علاقه‌مندان می‌تواند بسیار مفید باشد.

پی‌نوشت:
در لینک زیر نیز یک جزوه تخصصی از مباحث آماری در یادگیری ماشین به زبان انگلیسی در 47 صفحه قابل دانلود است.
https://gwthomas.github.io/docs/math4ml.pdf

ارادتمند
محمدرضا محتاط
@DataAnalysis
فرصت‌های شغلی مهندس و تحلیلگر داده‌های عظیم

شرکت عصر فناوری دانش (سهامی خاص) فعال در زمينه تولید نرم‌افزارهای هوش تجاری برای تکمیل نیروی‌های خود از افراد ذيل دعوت بعمل می آورد:

۱- یک نفر کارشناس مهندس داده‌های عظیم با مشخصات ذیل:
- مسلط بر توسعه سیستم‌های نرم‌افزاری در پلتفرم‌های هدوپ و اسپارک
- مسلط بر مدیریت و طراحی پایگاه‌داده‌های NoSQL
- مسلط بر ابزارهای Data Ingestion همانند kafka

۲- یک‌نفر کارشناس تحلیل داده‌های عظیم با مشخصات زیر:
- آشنا به الگوریتم‌های مختلف یادگیری ماشین
- مسلط بر زبان برنامه نویسی پایتون
- آشنا به کتابخانه یادگیری ماشین Spark
- آشنا با فریم‌ورک‌های یادگیری عمیق مزیت محسوب میشود

از متقاضيان درخواست می شود رزومه خود را به نشانی maboodian@kte.ir ارسال فرمایید.

@DataAnalysis
مجموعه مقالات علم‌داده برای مدیران کسب‌وکار!

http://tiny.cc/o6weez

گذر به عصر داده‌ها سبب تغییر گسترده جایگاه مدیران کسب‌وکارها شده است. مدیرانی که با چالش‌ طراحی استراتژی تحلیل داده، مدیریت دپارتمان تحلیل‌داده، جذب متخصصین علم‌داده، تصمیم‌گیری داده‌محور و... مواجه هستند. در ادامه 7 مقاله انتشار یافته در وب‌سایت ویرگول که با رویکرد مدیریتی فنی در حوزه علم‌داده تدوین شده قرار گرفته است.

1- اشتباهات رایج شرکت‌ها در جذب تحلیل‌گران داده
http://vrgl.ir/5Gd0n

2- پروژه‌های کلیدی حوزه علم‌داده در کسب‌وکار
http://vrgl.ir/K940c

3- نقشه راه تدوین استراتژی‌های کلان داده
http://vrgl.ir/z06SP

4- معماری استقرار قابلیت‌های تحلیلی در سازمان‌ها
http://vrgl.ir/RoG0E

5- تشکیل تیم و دپارتمان علم‌داده در سازمان
http://vrgl.ir/AvctF

6- تبدیل‌شدن به یک سازمان داده‌محور
http://vrgl.ir/o2ksn

7- نقش علم‌داده در بهبود فرایندهای کسب‌وکار
http://vrgl.ir/w5YVd

@DataAnalysis
ارزیابی رزومه‌های کاری متخصصین علم‌داده!

https://bit.ly/35UUDtl

رزومه کاری یکی از مهمترین مواردی است که در هنگام استخدام مورد توجه قرار می‌گیرد. در حقیقت سریع‌ترین راه برای محروم شدن از یک فرصت شغلی، ارسال رزومه ناقص است.

یکی از مشکلات رایج کارشناسان و متخصصین علم‌داده عدم طراحی روزمه ‌کاری حرفه‌ای جهت اخذ فرصت‌های شغلی این حوزه هست. مشکلاتی که فارغ از میزان توانمندی فنی سبب حذف این افراد قبل از مصاحبه حضوری شرکت‌ها میشود.

مشکلاتی از قبیل کلی‌گویی، ذکر اطلاعات متناقض و اضافی، غلط‌های نگارشی، عدم ارسال رزومه اختصاصی برای کارفرما، توجه بیشتر به مدارک بجای سوابق کاری، توضیحات ناکافی، بصری‌سازی غیراستاندارد و... تنها برخی از مشکلات رایج در طراحی روزمه‌های کاری هست.

با توجه به تجربیات متعدد در مصاحبه و ارزیابی رزومه‌های کاری متخصصین حوزه‌های علم‌داده، کلان‌داده و هوش تجاری برای برخی از شرکت‌ها و سازمان‌ها، این فرصت برای مخاطبین کانال علم‌داده ایجاد شده است تا افرادی که علاقه‌مند هستند رزومه کاری خود را به آی‌دی @DataScience ارسال نمایند تا مشکلات و نواقص موجود در روزمه‌ کاریشان اعلام شود.
محبوب‌ترین کتاب‌های هوش‌مصنوعی سال 2019

https://pbs.twimg.com/media/D9yDCvNWsAIrfjT.jpg

براساس اعلام کمپانی آمازون به ترتیب کتاب‌های ذیل در حوزه‌های هوش‌مصنوعی، علم‌داده، یادگیری عمیق و.... جز محبوب‌ترین و پرفروش‌ترین کتاب‌های سال 2019 بوده‌اند. حضور بیش از 6 کتاب در حوزه‌های یادگیری عمیق و آمار جز نکات قابل توجه این لیست هست.

1- Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (لینک)

2- The Hundred-Page Machine Learning Book (
+)

3- AI Superpowers: China, Silicon Valley, and the New World Order (
+)

4- Deep Learning with Python (
+)

5- Superintelligence: Paths, Dangers, Strategies (
+)

6- An Introduction to Statistical Learning (
+)

7- Deep Learning (Adaptive Computation and Machine Learning series) (
+)

8- Pattern Recognition and Machine Learning (Information Science and Statistics) (
+)

9- Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again (
+)

10- The Elements of Statistical Learning (
+)

جهت
دانلود کتاب‌های فوق می‌توانید از طریق وبسایت Libgen.is و یا سایر وبسایت‌های مشابه اقدام نمایید.
لیست کامل برترین کتاب‌های سال 2019 حوزه هوش‌مصنوعی نیز در لینک زیر قرار داده شده است.
https://amzn.to/2YRE6Sj

@DataAnalysis