Data Science – Telegram
Data Science
7.47K subscribers
754 photos
49 videos
85 files
451 links
ارتباط با ادمین:
@Datascience
Download Telegram
10 روند حوزه تحول دیجیتال در سال 2019

@DataAnalysis
همه دروغ می‌گویند!

https://bit.ly/2RxlWFm

کتاب EVERYBODY LIES یکی از کتاب‌های جذاب برای آشنایی با قابلیت‌های حوزه Big Data می‌باشد که توسط ست استفن‌دیویدویتز یکی از دانشمندان داده شرکت گوگل در جهت معرفی قابلیت‌های تحلیل‌داده منتشر گردیده است.

این محقق چهار سال را صرف تحلیل داده‌های ناشناس گوگل کرده است. تحقیقات او درباره موضوعاتی همچون بیماریهای روانی، سقط جنین، مذهب و پزشکی بوده است. او معتقد است که جستجوهای گوگل مهمترین پایگاه داده‌ای است که تاکنون در مورد روح و روان انسان وجود دارد.

در این کتاب مقایسه‌های مختلفی از جستجوهای کاربران موتور جستجو گوگل با نظرسنجی‌ها عمومی صورت گرفته است. نتایج این تحقیق نشان از وجود اختلاف میان این دو حوزه و ارزش تحلیل‌ اطلاعات در عصر جدید است.

در ادامه بخشی از توضیحات این کتاب آورده شده است:
همه دروغ می‌گویند. مردم در مورد اینکه چند بار به باشگاه می‌روند، قیمت کفش آنها چقدر است و کتاب‌هایی که می‌خوانند، دروغ می‌گویند. آنها سر کار نمی‌روند چون بیمار هستند، اما در واقع دروغ می‌گویند. آنها می‌گویند که با شما تماس می‌گیرند، اما نمی‌گیرند.

محور اصلی این کتاب جمله زیر می‌باشد:
آیا مردم در سرچ‌های خود در موتور جستجو گوگل نیز دروغ خواهد گفت؟!

پی‌نوشت:
1- اگر علاقه‌مند به شنیدن کتاب‌های صوتی و پادکست هستید می‌توانید خلاصه این کتاب را در اپیزود شماره 3 پادکست Bplus گوش دهید. در پست بعدی این پادکست قرار داده خواهد شد.

2-مطالعه این کتاب برای متخصصین جامعه‌شناسی، روان‌شناسی، مدیران و... بسیار مفید خواهد بود.

ارادتمند
محمدرضا محتاط

@DataAnalysis
BPlus Podcast Episode 3 : Everybody Lies
Ali Bandari
3:Everybody Lies اپیزود سوم پادکست بی‌پلاس
تشکیل تیم و دپارتمان علم‌داده در سازمان!

https://bit.ly/2F9L931

جهت تشکیل تیم Data و بهره‌گیری از متدهای تحلیل داده نیاز به یک تیم منسجم و کارآمد در سازمان‌ها و شرکت‌ها خواهیم بود. به‌صورت کلی در این دپارتمان نیازمند حضور سه جایگاه دانشمندان علم‌داده، مهندسین داده و متخصصین کسب‌وکار با وظایف ذیل می‌باشیم.

1-مهندسین داده:
وظیفه اصلی مهندسین داده ساخت زیرساخت‌های مقیاس‌پذیر و انتقال و ذخیره‌سازی داده‌های عملیاتی در پایگاه داده‌های شرکت هست. تجربه در پایگاه داده‌های رابطه‌ای و غیررابطه‌ای(NoSQL)، پیاده‌سازی انبار داده، زیرساخت‌های کلان داده همانند آپاچی هدوپ و... جز مهارت‌های اصلی این تیم می‌باشد.

2-دانشمندان داده:
تمرکز تیم علم‌داده بر روی موضوعات تحلیلی و ساخت‌ مدل‌های مبتنی بر یادگیری ماشین در جهت پاسخگویی به نیازمندی‌های توصیفی و پیش‌بینانه است.
دانش تخصصی در فیلدهای آمار، یادگیری ماشین، یادگیری عمیق، زبان‌های برنامه‌نویسی پایتون و R و... از مهارت‌های کلیدی موردنیاز این تیم خواهد بود.

3-متخصصین کسب‌وکار:
تمرکز تیم متخصص حوزه یا کسب‌وکار بر ایجاد ارزش برای سازمان با تعامل با گزارشات و نتایج‌های تحلیلی توسعه داده شده می‌باشد. دانش و مهارت‌های تخصصی در حوزه‌های کسب‌وکار، هوش‌تجاری، حکمرانی داده، داستان‌سرایی(Storytelling) و... از پیش‌نیازهای این تیم است.

پی‌نوشت:
مدیریت این دپارتمان در قالب‌های مدیریت متمرکز و غیرمتمرکز انتخاب می‌گردد.. در مدیریت متمرکز مدیریت این دپارتمان در اختیار CDO یا تحلیل‌گر ارشد داده قرار داده خواهد شد. این فرد به وظایف، مهارت‌ها و دانش‌های این سه حوزه آشنا می‌باشد. در مدیریت غیرمتمرکز نیز تیم‌های تحلیل‌ داده‌ محلی در دپارتمان‌های مختلف شرکت به صورت موازی ایجاد خواهد گردید.
قابل‌ذکر است که بنا به ساختار سازمانی شرکت، میزان دانش و تخصص فعلی کارکنان، نیازمندی‌های عملیاتی و... نوع ساختار بهینه(متمرکز یا غیرمتمرکز) می‌بایست انتخاب گردد.

ارادتمند
محمدرضا محتاط

@DataAnalysis
مهارت‌های داده‌ای در عصر دیجیتال

زمان: شنبه 22 دی‌ماه ساعت 16 الی 18

مکان: کتابخانه عمومی حسینه ارشاد

ثبت‌نام:
evnd.co/vVnAL

@DataAnalysis
محورهای ارائه مهارت‌های داده‌ای در عصر دیجیتال

در ارائه امروز که در ساعت 16 الی 18 در کتابخانه عمومی حسینه ارشاد برگزار می‌گردد مهارت‌ها، ابزارها و تکنولوژی‌های مورد نیاز در حوزه‌های زیر پوشش داده خواهد شد.

1- Data Science

2- BI

3- Big Data

4- Data Engineering

اگر علاقه‌مند به حضور در این فیلدهای کاری و کسب تخصص در آن هستید می‌توانید از طریق لینک زیر اقدام به ثبت نام(رایگان) کنید.

ثبت‌نام:
evnd.co/vVnAL


@DataAnalysis
📣 ثبت‌نام دومین دوره مسابقات ملی داده‌کاوی امیرکبیر آغاز شد
📆شروع مسابقه: ۱ بهمن ۱۳۹۷
💵هزینه ثبت نام هر تیم:‌ ۱۵ هزار تومان
🌐اطلاعات بیشتر و ثبت‌نام: autdmc.ir
🔍سؤال: @ceitssc

@DataAnalysis
ارائه مهارت‌های داده‌ای در عصر دیجیتال!

@DataAnalysis
DataSkills.pdf
2.6 MB
ارائه مهارت‌های داده‌ای در عصر دیجیتال!

در ارائه فوق که در نشست علم‌اطلاعات و دانش شناسی حسینه ارشاد برگزار گردید، مهارت‌های مورد نیاز جهت تبدیل شدن به متخصص‌‌ حوزه‌های زیر به تفکیک ذکر گردیده است.

1- علم‌داده
2- هوش تجاری
3- کلان‌داده
4- مهندس داده

لینک Slidshare:
https://bit.ly/2D6jde4

@DataAnalysis
مقایسه زبان‌های برنامه نویسی و ابزارهای حوزه تحلیل‌داده!

@DataAnalysis
انتخاب الگوریتم مناسب در پروژه‌های داده‌کاوی!

https://bit.ly/2FydfoM

یکی از چالش‌های مهم در پروژه‌های داده‌کاوی انتخاب الگوریتم مناسب و بهینه بنا به نیازمندی‌های مسئله است. در ادامه برخی از مؤلفه‌های کلیدی جهت انتخاب الگوریتم‌های یادگیری ماشین در یک پروژه داده‌کاوی ذکر خواهد گردید.

1- هدف تحلیل(متغیرهدف): هدف تحلیل و نوع متغیر هدف(Target) از مهم‌ترین مؤلفه‌های انتخاب الگوریتم و تکنیک موردنیاز خواهد بود. هر یک از تحلیل‌های توصیفی، پیش‌بینانه و... توسط الگوریتم‌های مشخصی پشتیبانی خواهند شد. به‌صورت کلی بنا به نوع متغیر هدف و تحلیل موردنیاز به الگوریتم‌های مختلفی همانند خوشه‌بندی، طبقه‌بندی، پیش‌بینی، کاهش بعد، قوانین انجمنی و... نیاز خواهد شد.

2-دقت و صحت: در برخی از مسائل که هدف کسب دقت بالاتر می‌باشد برخی از الگوریتم‌ها همانند SVM، شبکه‌های عصبی، Random Forest و... به نسبت سایر الگوریتم‌ها پیشنهاد می‌شود.

3- سرعت: در مسائلی که هدف سرعت بیشتر در مدل‌سازی است برخی الگوریتم‌ها همانند Naive Bayes، رگرسیون لوجستیک، رگرسیون خطی، درخت‌های تصمیم‌گیری و... عملکرد به‌مراتب بهتری نسبت به سایر الگوریتم‌ها دارند.

4- دادگان نامتوازن: یکی از چالش‌های اساسی در پروژه‌های داده‌کاوی وجود دادگان نامتوازن در کلاس متغیر هدف است. جهت مدیریت دادگان نامتوازن روش‌های متعددی همانند OverSampling یا UnderSampling وجود دارد اما برخی از الگوریتم‌ها نیز توانایی مدیریت این قبیل دادگان را دارند. از مهم‌ترین الگوریتم‌هایی که توانایی مدیریت دادگان نامتوازن را دارند می‌توان به الگوریتم‌های Random Forset, C4.5, C5.0, CART و... اشاره کرد.

پی‌نوشت:
1- انتخاب یک الگوریتم به سایر مؤلفه‌ها همانند وجود تخصص لازم در تیم تحلیل داده و توانایی پیاده‌سازی آن، لزوم مشخص بودن یا نبودن قوانین کشف‌شده همانند روش‌های BlackBox در مقابل روش‌های Rule Base بستگی دارد.
2- ارائه راه‌حل‌های کلی معمولاً کارآمد نخواهد بود اما در حوزه‌ الگوریتم‌های یادگیری ماشین طبق تجربیات موجود در پروژه‌های مختلف دو الگوریتم SVM و Random Forest معمولاً دارای نتایج کارآمدتری هستند.

ارادتمند
محمدرضا محتاط

@DataAnalysis
کتاب Big Data Analytics with Spark

کتاب Big Data Analytics with Spark انتشارات Apress یکی از کتاب‌های مفید حوزه Big Data در جهت آموزش و اجرای تحلیل‌های پیشرفته بر روی موتور پردازشی اسپارک است. در این کتاب سرفصل‌های زیر آموزش داده می‌شود.

1- Big Data Technology Landscape
2- Programming in Scala
3- Spark Core
4- Interactive Data Analysis with Spark Shell
5- Writing a Spark Application
6- Spark Streaming
7- Spark SQL
8- Machine Learning with Spark
9- Graph Processing with Spark
10- Cluster Managers
11- Monitoring

پی‌نوشت:
1- بررسی مهارت‌های موردنیاز در حوزه‌های علم‌داده، توسعه‌دهنده کلان داده و تحلیلگر کلان داده نشان از اهمیت Spark در پروژه‌های آتی حوزه کلان داده در کشور می‌باشد. لذا اگر قصد فعالیت تخصصی در حوزه‌های فوق را دارید یادگیری Spark یکی از پیش‌نیازهای اصلی موفقیت خواهد بود.
2- پیاده‌سازی‌های کدها در کتاب فوق بر اساس زبان برنامه‌نویسی Scala می‌باشد.

ارادتمند
محمدرضا محتاط
@DataAnalysis
Big Data Analytics with Spark.pdf
5.3 MB
Big Data Analytics with Spark

@DataAnalysis
معرفی فیلم‌ The Imitation Game!

فیلم بازی تقلید فیلمی در ژانر تاریخی و درام بر اساس زندگی‌نامه ریاضی‌دان نامدار و پدر علم رایانه یعنی آلن تورینگ می‌باشد. آلن تورینگ یکی از بزرگ‌ترین دانشمندان بریتانیایی بود که به پدر علم محاسبه نوین و هوش مصنوعی معروف است و امروزه مهم‌ترین جایزه دنیای علم کامپیوتر به‌افتخار او آلن تورینگ نام‌گذاری شده است.

بخش عمده‌ای از دقایق فیلم روی ماجراهای جنگ جهانی دوم و تلاش آلن تورینگ و گروهش برای شکستن کد ماشین انیگما که نازی‌ها از آن برای ارسال پیام‌های سری خود استفاده می‌کنند تمرکز دارد. در این فیلم جهت شکستن کد فوق از تحلیل داده، مهندس معکوس و... استفاده می‌گردد.

مشاهده این فیلم جذاب رو به‌تمامی علاقه‌مندان حوزه‌های هوش‌مصنوعی، علم‌داده و... پیشنهاد می‌کنم.

@DataAnalysis
برترین مشاغل نوظهور در سال 2022

از ده شغل برتر و نوظهور در سال 2022 سه حوزه متخصص علم‌داده، متخصص کلان‌داده و متخصص یادگیری ماشین جز برترین مشاعل خواهند بود.

در ۵ سال آینده خودتان را در چه جایگاهی می‌بینید؟

@DataAnalysis
برترین ابزارها و تکنولوژی‌های حوزه مهندسی‌ داده!

مهندس داده یکی از جایگاه‌های شغلی جذاب در حوزه Data است که به تازگی نیز توجهات به آن افزایش یافته است.

فعالیت‌های اصلی یک مهندس داده در حوزه‌های مدیریت جریان داده‌، ‌پیاده‌سازی معماری‌های انبار‌داده، پاکسازی و پردازش بلادرنگ داده‌ها و... خواهد بود.

در شکل فوق برترین مهارت‌ها و تکنولوژی‌های مورد نیاز جهت کسب تخصص در این فیلد کاری معرفی گردیده است.

@DataAnalysis
تبدیل‌شدن به یک سازمان داده‌محور!

https://mklnd.com/2RwdgLG

یک سازمان داده‌محور، سازمانی است که تحلیل ‌داده و تصمیم‌گیری‌های داده‌محور جز مؤلفه‌های کلیدی در مأموریت‌ها و فرایندهای عملیاتی آن می‌باشد. در این نوع سازمان‌ها، استفاده از داده و تحلیل‌های داده‌محور توسط مدیران و کارکنان به بخشی تفکیک‌ناپذیر از جریان‌های کاری روزمره تبدیل‌شده است.

جهت تبدیل‌شدن به یک سازمان داده محور توجه به مؤلفه‌های زیر موردنیاز می‌باشد.

1- فرهنگ(Culture):
یکی از مهم‌ترین مؤلفه‌های یک سازمان داده‌محور وجود یک فرهنگ مشارکتی، نوآور و نهادینه شدن لزوم بهره‌گیری از تصمیم‌گیری‌های داده محور در تمامی اجزا به خصوص در سطوح مدیران عالی و عملیاتی آن می‌باشد.

2- رهبری داده(Data Leadership):
وجود نقش‌هایی همانند مدیر ارشد داده(CDO) یا مدیر ارشد تحلیل(CAO) و تشکیل یک تیم منسجم Data بنا به ساختار و نیازمندی‌‌های سازمانی از ملزومات این بخش خواهد بود.

3- داده(Data):
استقرار چارچوب‌ها و عملیات‌های حکمرانی داده، مدیریت داده، مدیریت کیفیت داده و... از نیازمندی‌های فنی و مدیریتی این مؤلفه می‌باشد.

4- کارکنان(People):
مهیا ساختن بسترهای رشد و ترقی کارکنان در فیلدهای مرتبط با Data همانند علم‌داده، مهندسی داده، کلان داده با برگزاری دوره‌های آموزشی حضوری، آنلاین و... در این گام مورد نیاز است.

5- سازمان(Organization):
استقرار ساختار سازمانی داده محور با تشکیل تیم‌ها یا دپارتمان داده/ تحلیل داده در این مؤلفه مورد بررسی قرار می‌گیرند.

پی‌نوشت:
سه بخش فرایندها، کارکنان و تکنولوژی به‌عنوان موضوعات محوری جهت تبدیل‌شدن به یک سازمان داده‌محور مورد اهمیت می‌باشد. بازمهندسی یا بهبود مستمر فرایندها، انتخاب معماری و تکنولوژی‌های بهینه، جذب افراد متخصص در این موضوعات مورد توجه می‌باشد.

ارادتمند
محمدرضا محتاط

@DataAnalysis
کاربردهای زبان برنامه‌نویسی پایتون

زبان پایتون یکی از بهترین زبان‌های برنامه‌نویسی در حوزه علم داده و Big Data Analytics است. در صورتی که قصد ورود تخصصی به این دو حوزه فوق را دارید یادگیری پایتون جز پیش‌نیازهای کلیدی است.

کاربردهای پایتون در حوزه‌های توسعه نرم‌افزارهای تحت وب، پردازش تصویر، هوش مصنوعی، توسعه بازی‌های رایانه‌ای، خزش وب و... سبب تمایز این زبان با سایر زبان‌های برنامه‌نویسی گردیده است.

@DataAnalysis
شهادت بانوی دوعالم حضرت فاطمه سلام الله علیها تسلیت باد.

@DataAnalysis
از بین نرم افزارهای داده کاوی سقوط ای بی ام و رشد رپیدماینر و نایم نسبت به سالهای قبل و حضور تیبکو در جمع لیدرها قابل توجه است