NEW BOT Телеграм, страница

کتاب An Introduction to Statistical Learning

@DataAnalysis

5.72K views‌محمدرضا محتاط, 12:01

ارزيابي بلوغ قابلیت‌های تحليلي و كلان داده سازمان!

http://tiny.cc/cca7bz

زبدگی در فناوری‌های تحول‌آفرین تحليل داده و قابلیت‌های تحليلي مبتني بر كلان داده يكي از گام‌های كليدي در افزايش اثربخشي در فرايندهاي کسب‌وکار، بهینه‌سازی و اخذ تصميمات داده محور در جهت دستیابی به اهداف راهبردي و استراتژيك سازمان‌ها و خلق تجربه دیجیتال مشتریان می‌باشد.

جهت ارزيابي بلوغ قابلیت‌های تحليل داده و كلان داده بعضاً مدل‌های متنوعي مطرح‌شده است كه تنها در سطوح کاملاً فني سطح بلوغ سازمان را موردبررسی قرار می‌دهد. این در حالی است که در حوزه ارزیابی بلوغ تحلیل داده و کلان‌داده مدلی بهینه‌ خواهد بود که همزمان معیارها و مؤلفه‌های فني و مديريتي سازمان را موردبررسی و ارزيابي قرار دهد.

مولفه‌های همانند کسب‌وکار داده‌محور، رهبري، تكنولوژي، داده‌ها، اهداف و راهبردها، تيم تخصصي تحليل داده سازمان و... از مولفه‌های کلیدی‌ هستند که جهت ارزیابی بلوغ می‌بایست به آنها توجه شود و درنهایت راهكارهايي در جهت برطرف سازي خلأها و مشكلات موجود ارائه گردد.

در واقع سازمان‌های پیشرو امروزی، با سرمایه‌گذاری بهینه در فناوری‌های تحلیل داده و کلان‌داده، از آن‌ها برای ایجاد منابع جدید درآمدی و همچنین تحلیل داده‌های تولیدشده، باهدف بهبود فرایندها، خلق تجربه‌هایی خوشایند و منحصربه‌فرد برای مشتریان، بهره می‌گیرند.

لازم هست به سؤال زیر بیش از گذشته فکر نمایید!

ميزان بلوغ شركت شما در حوزه تحليل داده و بیگ‌دیتا و بهره‌برداری از فرصت‌های متنوع این حوزه چه ميزان می‌باشد؟!

ارادتمند
محمدرضا محتاط

@DataAnalysis

3.27K views‌محمدرضا محتاط, 12:53

Data Science

برترین کتابخانه‌های یادگیری ماشین!

در ادامه برترین کتابخانه‌های یادگیری ماشین زبان‌های برنامه‌نویسی پایتون و R براساس میزان استفاده در پروژه‌های علم‌داده ذکر گردیده است.

1- Scikit Learn

2- Tensorflow

3- Keras

4- randomForest

5- Xgboost

6- PyTorch

7- Caret

8- Lightgbm

9- Spark MLlib

10- H2O

پی‌نوشت:
جهت مطالعه جزئیات گزارش فوق می‌توانید از طریق لینک زیر اقدام نمایید.
http://tiny.cc/0v5ccz

@DataAnalysis

3.51K views‌محمدرضا محتاط, 14:29

Data Science

السلام علیک یا اباعبدالله الحسین(ع)

فرارسیدن ایام تاسوعا و عاشورای حسینی، ایام ایثار، رشادت‌ها و مظلومیت خاندان رسالت بر شیعیان آن حضرت تسلیت باد.

3.28K views‌محمدرضا محتاط, 15:56

Data Science

داده‌های کثیف؛ چالشی‌ترین مشکل تیم‌های علم داده!

http://tiny.cc/s49rcz

تشکیل تیم‌های تخصصی علم‌داده در سازمان‌ها علاوه بر جذابیت‌هایی همانند کسب بینش ناشی از تحلیل‌های داده‌محور، ارتقا تجربه مشتریان، بهبود فرایندها و... دارای چالش‌هایی نیز هست که در صورت عدم مدیریت آن، مشکلات متعددی در پروژه‌ها و مدیریت تیم‌های علم‌داده ایجاد میکند.

در ادامه برخی از مهمترین چالش‌های سازمانی دپارتمان‌های علم داده براساس نظرسنجی موسسه Business Broadway از 10 هزار متخصص این حوزه ذکر می‌شود.

1- وجود داده‌های کثیف(Dirty Data)

2- خلا وجود متخصصین و استعدادهای کافی علم‌داده در سازمان

3- عدم وجود سیاست‌ها و فرهنگ سازمانی داده‌محور

4- پیچیدگی یا عدم دسترسی به اطلاعات و داده‌های مورد نیاز

5- قابل استفاده نبودن نتایج پروژه‌های تحلیل‌داده در تصمیمات کسب‌وکار

6- توضیح کاربردها و کارکردهای علم‌داده به سایر واحدها و افراد سازمان

7- مشکلات حریم‌ خصوصی

8- عدم همکاری و تعامل متخصصین کسب و کار با متخصصین علم‌داده

9- عدم دسترسی به منابع کافی جهت تشکیل تیم علم‌داده در شرکت‌های کوچک

10- استفاده از ابزارها و زبان‌های ‌برنامه‌نویسی متعدد (پایتون،R، جاوا و...) توسط متخصصین علم‌داده

11- محدودیت‌ ابزارهای تحلیل‌داده

پی‌نوشت:
موارد فوق تنها بخشی از چالش‌های تیم‌های علم داده در سازمان‌هاست که با بهره‌گیری از متدها و روش‌های اصولی امکان مدیریت این مشکلات وجود دارد. مواردی همچون تدوین استراتژی‌های تحلیل داده، استقرار متدولوژی‌های حکمرانی داده و مدیریت داده و... نمونه‌ای از این راهکارها خواهد بود.
در انتها این نکته قابل ذکر است که برخی از شرکت‌ها و سازمان‌ها در تلاش هستند تا تمامی این چالش‌ها به صورت گام به گام و براساس دانش تیم‌های موجود برطرف گردد. این رویکرد سبب افزایش زمان پاسخگویی به مشکلات و به طبع کاهش اثربخشی تیم‌های علم داده خود میشود. بهره‌گیری از تجربیات مشاوران متخصص می‌تواند در این مسیر بسیار راه‌گشا باشد.

ارادتمند
محمدرضا محتاط

@DataAnalysis

4.09K views‌محمدرضا محتاط, edited 06:00

Data Science

تصویری جامع از مراحل و ابزارهای پروژه‌های علم‌داده

@DataAnalysis

3.82K views‌محمدرضا محتاط, edited 06:06

Data Science

برترین مهارت‌های فعلی و آتی متخصصین علم‌داده!

http://tiny.cc/9kt6cz

به‌تازگی توسط وب‌سایت kdnuggets یک نظرسنجی از متخصصین علوم داده مبنی بر مهارت‌های فعلی (Have Skill) و مهارت‌های آتی (Want Skill) موردنیاز پرسیده شده است که با توجه به جامعیت نظرسنجی فوق می‌تواند راهنمایی مناسبی جهت تحلیل مهارت‌های موردنیاز بازار علم‌داده در آینده باشد.

✅ برترین مهارت‌های فعلی متخصصین علم‌داده:

1️⃣ پایتون (Python)

2️⃣ مصورسازی داده‌ها (Data Visualization)

3️⃣ تفکر انتقادی (Critical Thinking)

4️⃣ اکسل (Excel)

5️⃣ مهارت‌های ارتباطی (Communications Skills)

6️⃣ یادگیری ماشین (Machine Learning)

7️⃣ آمار (Statistics)

8️⃣ مهارت‌های پایگاه داده (SQL/Database Coding)

9️⃣ فهم کسب‌وکار (Business Understanding)

🔟 ریاضی (Math)

🔵 برترین مهارت‌های آتی (توسعه دانش) متخصصین علم‌داده:

1️⃣ یادگیری عمیق (Deep Learning)

2️⃣ کتابخانه یادگیری عمیق تنسورفلو (TensorFlow)

3️⃣ یادگیری ماشین (Machine Learning )

4️⃣ پایتون (Python)

5️⃣ آپاچی اسپارک (Apache Spark)

6️⃣ پردازش زبان طبیعی (NLP - Text Processing)

7️⃣ کتابخانه یادگیری عمیق پایتورچ (Pytorch)

8️⃣ آمار (Statistics)

9️⃣ داده‌های غیرساخت‌یافته (Unstructured Data)

🔟 سایر ابزارهای کلان داده (Other Big Data Tools)

پی‌نوشت:
◾️ افزایش میزان توجهات به کتابخانه یادگیری عمیق Pytorch، زبان Scala و ابزارهای Big Data با توجه به درصد رشد آن قابل‌توجه است.
◾️در میان زبان‌های برنامه‌نویسی، کسب رتبه نخست توسط زبان پایتون و کاهش جایگاه زبان‌های برنامه‌نویسی R و Matlab، این زبان برنامه‌نویسی را تبدیل به برترین زبان در حوزه علم‌داده کرده است.
◾️قرار گرفتن دو مهارت نرم (Soft Skill) تفکر انتقادی و مهارت‌های ارتباطی جز 5 مهارت برتر فعلی متخصصین علم‌داده نشان از میزان توجهات به این قبیل مهارت‌ها در این بازار کاری دارد.

ارادتمند
محمدرضا محتاط

@DataAnalysis

10K views‌محمدرضا محتاط, 14:57

Data Science

تکنولوژی‌های تاثیرگذار دهه آینده!

در شکل فوق برترین تکنولوژی‌های تاثیرگذار طی دهه آینده معرفی شده‌اند. حضور تکنولوژی‌های هوش مصنوعی، اینترنت اشیا، بلاک‌چین و کلان‌داده در رتبه‌های اول تا پنجم نشان از گسترش بازارکار این فیلدهای کاری طی سالیان آینده است.

طراحی استراتژی بهینه توسعه محصولات و خدمات مرتبط با این تکنولوژی‌های نوظهور سبب افزایش موفقیت شرکت‌ها و سازمان‌ها در مواجهه با رقبا خواهد شد.

@DataAnalysis

3.64K views‌محمدرضا محتاط, 15:01

Data Science

This media is not supported in your browser

VIEW IN TELEGRAM

اجرا گرافیکی الگوریتم‌های شبکه‌ عصبی!

یکی از پیچیدگی‌های مدل‌های مبتنی بر شبکه‌های عصبی و یادگیری عمیق Black Box بودن نحوه مدل‌سازی و نتایج حاصل از این مدل‌های مبتنی بر یادگیری ماشین است.

در وب‌سایت زیر که توسط توسعه دهندگان کتابخانه یادگیری عمیق Tensorflow ایجاد شده است شما میتوانید به صورت گرافیکی مدل‌های شبکه‌ عصبی را برای مسائل طبقه‌بندی و رگرسیون ایجاد، بهینه‌سازی و تحلیل کنید. در این وبسایت امکان تغییر تعداد لایه‌ها و نرون‌های شبکه عصبی، انتخاب تابع‌های فعال‌سازی (Activation Function)، نرخ یادگیری (Learning Rate) و... وجود دارد.

آدرس وب‌سایت:
Playground.tensorflow.org

@DataAnalysis

4.69K views‌محمدرضا محتاط, edited 14:01

Data Science

معرفی کتاب Learning Pyspark

کتاب Learning Pyspark یکی از منابع آموزشی مفید جهت یادگیری پلتفرم پردازشی کلان‌داده اسپارک در زبان پایتون است. این کتاب برای تمامی توسعه دهندگان و تحلیلگران کلان‌داده که قصد یادگیری کار با پلتفرم Spark با زبان پایتون را دارند توصیه میشود. سرفصل‌های اصلی این کتاب به شرح زیر است.

Chapter 1: Understanding Spark

Chapter 2: Resilient Distributed Datasets

Chapter 3: DataFrames

Chapter 4: Prepare Data for Modeling

Chapter 5: Introducing MLlib

Chapter 6: Introducing the ML Package

Chapter 7: GraphFrames

Chapter 8: TensorFrames

Chapter 9: Polyglot Persistence with Blaze

Chapter 10: Structured Streaming

Chapter 11: Packaging Spark Applications

@DataAnalysis

3.86K views‌محمدرضا محتاط, 07:16

Data Science

Learning PySpark.pdf

7.5 MB

کتاب Learning PySpark

@DataAnalysis

4.15K views‌محمدرضا محتاط, 07:19

Data Science

کاربردهای زبان برنامه‌نویسی پایتون!

به تازگی توسط IEEE Spectrum زبان برنامه‌نویسی پایتون براساس مولفه‌های میزان تقاضا، رشد، محبوبیت و... بعنوان برترین زبان برنامه‌نویسی سال 2019 انتخاب شده است. این زبان برنامه‌نویسی در حال حاضر در حوزه‌های مرتبط با علم‌داده، تحلیل کلان‌داده و... نیز جز برترین زبان‌های برنامه‌نویسی است.

زبان پایتون علاوه بر حوزه تحلیل‌داده در سایر فیلدهای مرتبط با فناوری اطلاعات و مهندسی نرم‌افزار نیز دارای قابلیت‌های متعددی است. در شکل فوق کاربردهای اصلی زبان پایتون به همراه کتابخانه‌های مطرح آن معرفی شده است.

@DataAnalysis

3.89K views‌محمدرضا محتاط, edited 14:22

Data Science

برترین دوره‌های آنلاین آموزش یادگیری عمیق!

http://tiny.cc/d0zsdz

یادگیری عمیق با توجه به قابلیت‌ها و کاربردهای متنوعی که در حوزه‌های پردازش تصویر، پردازش زبان طبیعی و... دارد در حال تبدیل شدن به یکی از مهارت‌های کلیدی یک متخصص علم‌داده است. در ادامه برخی از مطرح‌ترین دوره آنلاین یادگیری عمیق معرفی میشوند.

1- دوره یادگیری عمیق پرفسور Andrew Ng در سایت Coursera

2- دوره یادگیری عمیق شرکت IBM در سایت EDX

3- مدرسه هوش مصنوعی موسسه Udacity

4- دوره یادگیری عمیق دانشگاه MIT

5- دوره یادگیری عمیق با پایتون Datacamp

6- دوره یادگیری عمیق از صفر تا صد موسسه Udemy

7- دوره فارسی یادگیری عمیق دانشگاه استنفورد

شرکت در دوره‌های آنلاین فوق و مطالعه کتب مرجع یکی از بهترین راه‌های کسب تخصص در این حوزه و سایر فیلدهای کاری است. امری که تنها نیازمند آشنایی با زبان انگلیسی خواهد بود.

پی‌نوشت:
علاوه بر موارد فوق در وبسایت ویرگول یک مسیر پیشنهادی جهت تبدیل شدن به یک متخصص یادگیری عمیق تدوین شده است که می‌تواند برای علاقه‌مندان این حوزه مفید باشد.
https://dataio.ir/deep-learning-aetdp4cfynrj

ارادتمند
محمدرضا محتاط
@DataAnalysis

👍1

12.4K views‌محمدرضا محتاط, edited 13:42

Data Science

فرصت شغلی متخصص علم‌داده در شرکت Quiz Of Kings

🔹تجربیات مورد نیاز:
1. Designing and Building a Data Stack
2. Experience with BI and its tools

🔸مهارت‌های فنی:
1. Programming Skills
2. Hadoop Platform
3. SQL Database/Coding
4. Apache Spark
5. MapReduce
6. Data Visualization (Tableau)
7. Unstructured data (Dark Analytics)
8. Machine Learning and AI (FP.Growth,Apriori ,ECLAT,k-means,SVM,KNN)

🔻مهارت‌های نرم:
1. Intellectual curiosity
2. Communication skills
3. Teamwork
4. Business acumen
(a solid understanding of industry , being able to discern which problems are important to solve for the business )

-Preferred Education: BSc or Masters on:
mathematics
Statistics
Computer Science

Please send us CV to: hr@qok.us

@DataAnalysis

4.94K views‌محمدرضا محتاط, 06:30

Data Science

پرکاربردترین تکنیک‌های آماری در علم‌داده!

http://tiny.cc/amm3dz

یادگیری تخصصی تکنیک‌ها و الگوریتم‌های آماری همواره یکی از چالش‌های متخصصین علم‌داده است. در ادامه 10 تکنیک پرکاربرد آمار در پروژه‌های علم‌داده و داده‌کاوی معرفی می‌شوند.

1- رگرسیون خطی (Linear Regression)

2- الگوریتم‌های طبقه‌بندی (Classification)

3- نمونه‌سازی (Resampling)

4- کاهش بعد (Dimension Reduction)

5- مدل‌های غیرخطی (Nonlinear Models)

6- الگوریتم‌های بدون نظارت (Unsupervised Learning)

7- الگوریتم ماشین پشتیبان بردار (SVM)

8- متدهای انتخاب زیرمجموعه (Subset Selection)

9- مدل‌های مبتنی بر درخت (Tree-Based Methods)

10- روش Shrinkage

در شکل زیر به تفکیک، متدها و الگوریتم‌های مورد نیاز در هر دسته عنوان شده است. آموزش هدفمند در هر یک از این موارد در گسترش دانش آماری علاقه‌مندان می‌تواند بسیار مفید باشد.

پی‌نوشت:
در لینک زیر نیز یک جزوه تخصصی از مباحث آماری در یادگیری ماشین به زبان انگلیسی در 47 صفحه قابل دانلود است.
https://gwthomas.github.io/docs/math4ml.pdf

ارادتمند
محمدرضا محتاط
@DataAnalysis

6.27K views‌محمدرضا محتاط, edited 14:42

Data Science

فرصت‌های شغلی مهندس و تحلیلگر داده‌های عظیم

شرکت عصر فناوری دانش (سهامی خاص) فعال در زمينه تولید نرم‌افزارهای هوش تجاری برای تکمیل نیروی‌های خود از افراد ذيل دعوت بعمل می آورد:

۱- یک نفر کارشناس مهندس داده‌های عظیم با مشخصات ذیل:
- مسلط بر توسعه سیستم‌های نرم‌افزاری در پلتفرم‌های هدوپ و اسپارک
- مسلط بر مدیریت و طراحی پایگاه‌داده‌های NoSQL
- مسلط بر ابزارهای Data Ingestion همانند kafka

۲- یک‌نفر کارشناس تحلیل داده‌های عظیم با مشخصات زیر:
- آشنا به الگوریتم‌های مختلف یادگیری ماشین
- مسلط بر زبان برنامه نویسی پایتون
- آشنا به کتابخانه یادگیری ماشین Spark
- آشنا با فریم‌ورک‌های یادگیری عمیق مزیت محسوب میشود

از متقاضيان درخواست می شود رزومه خود را به نشانی maboodian@kte.ir ارسال فرمایید.

@DataAnalysis

8.58K views‌محمدرضا محتاط, edited 15:00

Data Science

مجموعه مقالات علم‌داده برای مدیران کسب‌وکار!

http://tiny.cc/o6weez

گذر به عصر داده‌ها سبب تغییر گسترده جایگاه مدیران کسب‌وکارها شده است. مدیرانی که با چالش‌ طراحی استراتژی تحلیل داده، مدیریت دپارتمان تحلیل‌داده، جذب متخصصین علم‌داده، تصمیم‌گیری داده‌محور و... مواجه هستند. در ادامه 7 مقاله انتشار یافته در وب‌سایت ویرگول که با رویکرد مدیریتی فنی در حوزه علم‌داده تدوین شده قرار گرفته است.

1- اشتباهات رایج شرکت‌ها در جذب تحلیل‌گران داده
http://vrgl.ir/5Gd0n

2- پروژه‌های کلیدی حوزه علم‌داده در کسب‌وکار
http://vrgl.ir/K940c

3- نقشه راه تدوین استراتژی‌های کلان داده
http://vrgl.ir/z06SP

4- معماری استقرار قابلیت‌های تحلیلی در سازمان‌ها
http://vrgl.ir/RoG0E

5- تشکیل تیم و دپارتمان علم‌داده در سازمان
http://vrgl.ir/AvctF

6- تبدیل‌شدن به یک سازمان داده‌محور
http://vrgl.ir/o2ksn

7- نقش علم‌داده در بهبود فرایندهای کسب‌وکار
http://vrgl.ir/w5YVd

@DataAnalysis

4.46K views‌محمدرضا محتاط, 14:36

Data Science

ارزیابی رزومه‌های کاری متخصصین علم‌داده!

https://bit.ly/35UUDtl

رزومه کاری یکی از مهمترین مواردی است که در هنگام استخدام مورد توجه قرار می‌گیرد. در حقیقت سریع‌ترین راه برای محروم شدن از یک فرصت شغلی، ارسال رزومه ناقص است.

یکی از مشکلات رایج کارشناسان و متخصصین علم‌داده عدم طراحی روزمه ‌کاری حرفه‌ای جهت اخذ فرصت‌های شغلی این حوزه هست. مشکلاتی که فارغ از میزان توانمندی فنی سبب حذف این افراد قبل از مصاحبه حضوری شرکت‌ها میشود.

مشکلاتی از قبیل کلی‌گویی، ذکر اطلاعات متناقض و اضافی، غلط‌های نگارشی، عدم ارسال رزومه اختصاصی برای کارفرما، توجه بیشتر به مدارک بجای سوابق کاری، توضیحات ناکافی، بصری‌سازی غیراستاندارد و... تنها برخی از مشکلات رایج در طراحی روزمه‌های کاری هست.

با توجه به تجربیات متعدد در مصاحبه و ارزیابی رزومه‌های کاری متخصصین حوزه‌های علم‌داده، کلان‌داده و هوش تجاری برای برخی از شرکت‌ها و سازمان‌ها، این فرصت برای مخاطبین کانال علم‌داده ایجاد شده است تا افرادی که علاقه‌مند هستند رزومه کاری خود را به آی‌دی @DataScience ارسال نمایند تا مشکلات و نواقص موجود در روزمه‌ کاریشان اعلام شود.

3.99K views‌محمدرضا محتاط, edited 14:51

Data Science

محبوب‌ترین کتاب‌های هوش‌مصنوعی سال 2019

https://pbs.twimg.com/media/D9yDCvNWsAIrfjT.jpg

براساس اعلام کمپانی آمازون به ترتیب کتاب‌های ذیل در حوزه‌های هوش‌مصنوعی، علم‌داده، یادگیری عمیق و.... جز محبوب‌ترین و پرفروش‌ترین کتاب‌های سال 2019 بوده‌اند. حضور بیش از 6 کتاب در حوزه‌های یادگیری عمیق و آمار جز نکات قابل توجه این لیست هست.

1- Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (لینک)

2- The Hundred-Page Machine Learning Book (+)

3- AI Superpowers: China, Silicon Valley, and the New World Order (+)

4- Deep Learning with Python (+)

5- Superintelligence: Paths, Dangers, Strategies (+)

6- An Introduction to Statistical Learning (+)

7- Deep Learning (Adaptive Computation and Machine Learning series) (+)

8- Pattern Recognition and Machine Learning (Information Science and Statistics) (+)

9- Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again (+)

10- The Elements of Statistical Learning (+)

جهت دانلود کتاب‌های فوق می‌توانید از طریق وبسایت Libgen.is و یا سایر وبسایت‌های مشابه اقدام نمایید.
لیست کامل برترین کتاب‌های سال 2019 حوزه هوش‌مصنوعی نیز در لینک زیر قرار داده شده است.
https://amzn.to/2YRE6Sj

@DataAnalysis

6.68K views‌محمدرضا محتاط, 13:53

Data Science

نقدی بر مسابقه داده‌کاوی هوشمند به توان شناختی!

https://bit.ly/2Wj8vsM

به‌تازگی توسط شرکت هم‌آوا و ستاد توسعه علوم و فناوری‌های شناختی یک مسابقه‌ داده‌کاوی با حمایت‌های شرکت‌های دیجی‌کالا، تپسی، دیوار و... در حال برگزاری هست. تبلیغات گسترده این رویداد توسط شرکت‌های برگزارکننده و برخی دانشگاه‌ها و پژوهشگاه‌های کشور سبب شد تا به صورت تخصصی بر روی این چالش و دادگان ارائه‌شده یک نقد و بررسی داشته باشیم.

🔘 نقد و بررسی دادگان مسابقه
یکی از تبلیغات‌های این چالش ارائه دادگان واقعی از شرکت‌های مطرح به مخاطبان ایرانی در جهت حل مسائل کاربردی هست. بررسی تخصصی این داده‌ها متأسفانه نشان از بی‌کیفیت‌ بودن آن‌ها دارد. مجموع داده‌ ارائه‌شده از چهار شرکت دیجی‌کالا، دیوار، تپسی، آزمایشگاه شبکه‌های اجتماعی دانشگاه تهران و شهرداری در مجموع 3 مگابایت است که شرکت‌کنندگان می‌بایست بر روی این حجم کوچک از دادگان دارای نویز که هیچ‌گونه توضیحات تکمیلی از متغیرها و روابط جداول ندارند اقدام به تدوین پروپوزال تخصصی در حوزه داده‌کاوی و علوم شناختی نمایند.
در ادامه برخی از مشکلات موجود در دادگان ارائه‌شده به صورت تکمیلی بیان می‌شود.
🔺بعنوان مثال از 10هزار نمونه داده شبکه اجتماعی تلگرام که توسط آزمایشگاه شبکه‌های اجتماعی دانشگاه تهران در این مسابقه ارائه‌شده است تنها 100 مورد پیام یکتا(منبع اصلی) وجود دارد و بیش از 9900 پیام به صورت کاملاً تکراری(بازنشری) ارائه شده است.
🔺دادگان ارائه‌شده توسط شرکت دیجی‌کالا نیز شامل یک هزار کامنت مشتریان بر روی محصولات این شرکت هست. دادگانی که بعضاً بیش از این تعداد توسط برخی از محققین و دانشجویان از سایت این شرکت جمع‌آوری و به صورت عمومی منتشرشده بود.
🔺دادگان ارائه‌شده توسط شرکت تپسی نیز شامل یک هزار تراکنش از اطلاعات رانندگان این شرکت در قبول یا عدم قبول سفرها است. عدم وجود توضیحات کافی از متغیرها و ویژگی‌های ارائه شده سبب افزایش پیچیدگی و ناکارآمدی این دیتاست شده است.
🔺شرکت دیوار نیز در حدود هزار آگهی تبلیغاتی سال 2017 این شرکت را در اختیار این مسابقه قرار داده است.
🔺یکی از دادگان قابل تامل در این مسابقه ارائه یک فایل PDF از شهرداری استان البرز پیرامون تحلیل و بررسی وضعیت فرهنگی اجتماعی جامعه ایران است. دادگانی که به بیش از مسائل داده‌محور در تحلیل‌های کیفی قابلیت استفاده را دارد.
🔸یکی از درخواست‌های متعدد برگزارکنندگان این چالش از شرکت‌کنندگان استفاده از داده‌های سایر شرکت‌ها و سازمان‌ها در این مسابقه‌ است. نکته‌ای که می‌تواند سبب تحت شعاع قرار دادن حریم خصوصی و حاکمیت دا‌ده برخی از شرکت‌ها و سازمان‌های داخلی شود.

🔘نقد و بررسی برنامه‌ریزی مسابقه
از منظر برنامه‌ریزی زمانی و مشخص بودن مسیر مسابقه، چالش فوق یکی از ضعیف‌ترین مسابقات داده‌کاوی چند سال اخیر است. تغییر زمان ارسال پروپوزال‌های شرکت‌کنندگان در روز اول، مشخص نبودن زمان پایان چالش و... همگی از ابهاماتی هست که کیفیت این چالش را تحت شعاع قرار داده است.
در مقابل موارد فوق، عدم محدود کردن تیم‌ها در انتخاب موضوع مسابقه و حضور اساتید برجسته در کمیته داوری از نکات مثبت این رویداد است.

با توجه به ظرفیت‌های گسترده حوزه هوش شناختی در هوشمندی‌ سازی مسائل کشور امیداست تا با طی یک برنامه‌ریزی هدفمند در جهت گسترش این دانش در سطوح آکادمیک و صنعت گام برداشته شود.

پی‌نوشت:
جهت بررسی دادگان و جزئیات مسابقه می‌توانید با مراجعه به آدرس زیر نمونه‌ داده‌ها را دانلود و بررسی نمایید.
hamava.ir/cdm

@DataAnalysis

5.31K views‌محمدرضا محتاط, 13:34

Data Science

برترین ابزارهای پروژه‌های Big Data

https://bit.ly/2WyHWjq

انتخاب پلتفرم و ابزارهای مدیریت پروژه‌های Big Data همواره یکی از چالش‌های تیم‌های فنی در جهت مدیریت بهینه این قبیل پروژه‌ها هست. انتخاب نادرست معماری و ابزارهای این حوزه در لایه‌های زیرساخت، پایگاه داده‌های غیر رابطه‌ای، تحلیل و... می‌تواند سبب افزایش پیچیدگی و کاهش کارایی سیستم‌های نرم‌افزاری تولیدی شود.

لایه زیرساخت کلان داده:
جهت راه‌اندازی زیرساخت کلان داده در پلتفرم‌های Hadoop و اسپارک، پلتفرم‌هایی توسط کمپانی‌های کلودرا، Hortonworks و MapR در لایه‌های سازمانی، دانشجویی و... توسعه داده شده‌اند. با انتخاب پکیج‌های‌ این شرکت‌ها می‌توانید بدون درگیرشدن با پیچیدگی‌های نصب و راه‌اندازی، به پلتفرم‌ کلان داده هدوپ و اسپارک دسترسی پیدا کنید. امکان نصب و راه‌اندازی مستقیم هدوپ از طریق نسخه متن‌باز Apache هم وجود دارد که در برخی از پروژه‌های حساس این مسیر توصیه می‌شود.

لایه پایگاه داده:
یکی از مهم‌ترین گام‌های یک پروژه کلان داده استفاده از پایگاه داده‌های بهینه در جهت مدیریت حجم و تنوع داده‌های ورودی به سیستم است. در میان مطرح‌ترین پایگاه داده‌های غیررابطه‌ای(NoSQL) پایگاه داده‌های MongoDB، کاساندرا، Redis، Hbase و... وجود دارد که انتخاب هر یک از آن‌ها به نوع فرمت‌ داده‌ها و نحوه ذخیره‌سازی آنان بستگی دارد. قابل‌ذکر هست که پایگاه داده‌های غیر رابطه‌ای به‌صورت کلی در چهار دسته سندگرا (Document Store)، کلید-مقدار (Key-Value Store)، ستون‌محور (Column Family Store) و گرافی (Graph Based) دسته‌بندی می‌شوند.

لایه پردازش و تحلیل:
در این لایه براساس نیازمندی‌های تحلیلی و پردازشی کسب‌وکار اقدام به اجرای مدل‌های تحلیلی دسته‌ای (Batch) و بلادرنگ (Real Time) در سطوح هوش‌تجاری، یادگیری ماشین و... می‌شود. در این لایه نیز ابزارها و پلتفرم‌های تحلیلی مختلفی وجود دارد. پلتفرم پردازشی اسپارک، ابزارهای کمپانی‌های Vertica و Teradata، پلتفرم تحلیل کمپانی SAP با نام HANA و... از مطرح‌ترین ابزارهای تحلیل کلان داده هستند.

در انتها این نکته قابل ذکر هست که انتخاب ابزار و پلتفرم پروژه‌های Big Data کاملا بنا به هر پروژه می‌تواند کاملا متفاوت باشد. ارائه یک پلتفرم و راهکار برای تمامی مسائل جز یکی از خطاهای رایج شرکت‌های فعال در این بازار می‌باشد.

ارادتمند
محمدرضا محتاط
@DataAnalysis

4.49K views‌محمدرضا محتاط, 06:53

About

Blog

Apps

Platform