Data Science – Telegram
Data Science
1.78K subscribers
293 photos
29 videos
27 files
306 links
داده در حال تبدیل شدن به نفت در عصر جدید است...
کانال آموزشی #علم_داده (#Data_Science)

اشتراک گذاری محتوای آموزشی چند رسانه‌ای
اشتراک گذاری #فرصتهای_شغلی
اشتراک گذاری #فرصتهای_تحصیلی در ایران و خارج

تماس با مدیریت:
@datascienceedu_admin
Download Telegram
Big Data for Dummies.pdf
7.7 MB
کتاب آموزشی " عظیم‌داده به زبان ساده"

این کتاب به ما می‌گوید که عظیم‌داده چیست و چگونه سازمان‌ها می‌توانند از عظیم‌داده به‌عنوان اهرمی برای اتخاذ تصمیمات بزرگتر و کاراتر (نسبت به قبل) استفاده کنند.

https://news.1rj.ru/str/joinchat/AwSFtzwQWy1WFWwgCeTwbw
به تازگی آقای جادی میرمیرانی یک مطلب تو سایت شون نوشتن (ترجمه کردن) بر پایه یک راهنمای خوبی انگلیسی برای تبدیل شدن به یک دانشمند داده.
این مطلب رو براتون این‌جا نقل کردیم، در پایان هم لینک مطلب اصلی و لینک مطلب ایشون هست.

مسیر تبدیل شدن به یک دانشمند داده / دیتاساینتیست

این روزها دیتاساینس داره از پیک مد بودن میاد پایین و در نتیجه زمان خوبیه که تصمیم بگیرین دوستش دارین یا نه. از اونطرف دیتاساینس مسیر دیتاساینس شامل چیزهای زیادی است که هم خوبه هم بد. خوبه چون کلی مهارت متنوع توش یاد میگیرین که جاهای دیگه هم به درد می‌خوره و بده چون سخته و بزرگتر از چیزهایی مثل مثلا مدیرسیستمی. اما چیزهای سخت جالبن! پس اگر اهلش هستین، سعی کردم یه جمع بندی از چیزهایی که برای تبدیل شدن به یه دانشمند داده لازمه جمع آوری کنم. در واقع اینهای قدم های منطقی ای هستن برای وارد شدن به این حوزه؛ با یادآوری اینکه این حوزه بسیار وسیعه و شما در نهایت یه کناریش یه تخصص اصلی پیدا خواهید کرد. مثلا ممکنه شما فقط آمار بلد باشین و در یک تیم دانشمند داده حساب بشین یا فقط متخصص راه اندازی نودهای یک سیستم بیگ دیتا باشین و در تیمی کار کنین که بهش می گن گروه دیتا ساینتیست ها در حالی که شما شخصا اصلا کاری ندارین که این دیتاها چی هستن (: خلاصه… کلیت رو که بدونین، مسیر خودتون رو راحتتر پیدا می کنین. این مسیر احتمالا از اینجاها می گذره:

زبان برنامه نویسی مرتبط
دیتاساینتیست‌ها، لازم دارن داده‌ها رو انگولک کنن و چه مهارتی مفیدتر از برنامه نویسی؟ توی این جامعه سوال همیشگی «آر یا پایتون» است (و البته رقبای دیگه‌ای مثل جولیا) ولی انتظار می‌ره شما [بدونین که هیچ زبانی بهتر از اون یکی نیست و هر چیزی کاربرد خودش رو داره]. اما در نهایت لازمه شما با یکی از زبان‌های مرتبط که فعلا آر یا پایتون است، آشنایی قابل قبولی داشته باشین. من به هر دو علاقه دارم ولی الان به پایتون نزدیکتر هستم. خوبی یاد گرفتن پایتون هم اینه که شما با دونستنش، در حوزه‌هایی بسیار وسیع‌تر از کار با داده‌ها، توانمند شدین.

لینوکس و ابزارهاش
خیلی وقت‌ها دیتاهای شما در فایل‌هایی است که باید بتونین نگاهش کنین، تغییرش بدین، پایپش کنین، فیلترش کنین و کارهای مشابه. لازمه بتونین در سیستم عاملتون نسبتا راحت باشین بخصوص که فایل‌هاتون معمولا بزرگه و نامرتب و توانایی درست کار کردن باهاشون، بسیار حیاتی. یه دانشمند داده خیلی خوبه که به سیستم عاملش مسلط باشه.

اکسل
بله (: به شکل بامزه‌ای اکسل به تنهایی ممکنه کلی کلی از کارهای شما رو راه بندازه. بلد بودن حرفه ای اکسل تقریبا بهترین توصیه ای است که می شه به هر کسی که با کامپیوتر کار می کنه کرد. نمونه آزاد و متن باز اکسل مایکروسافت، calc از مجموعه libreoffice است که بسیاری از قابلیت ها رو داره و در جاهایی حتی بهتره – و در جاهایی بدتر. اکسل رو خوب بلد باشین که گاهی کل کاری که دیتاساینتیست‌ها می‌کنن، تو اکسل خلاصه می‌شه (: البته اکسلی هاشون!

ویژوالایزیشن
مهارت مهم دیگه، مهارت نمایش داده‌ها است. اینکار گاهی تو خود زبان برنامه نویسی و خیلی ساده و سرراست انجام می‌شه و گاهی بیسار هنرمندانه و با برنامه‌های گرافیکی و گاهی با ابزارهایی مثل تبلو. با هر چی که کار می کنین، باید بدونین این لایه‌ای است که نتیجه کل کار شما رو به یک مدیر رده بالا نشون می ده یا باعث می‌شه عموم با محصول فکر شما ارتباط برقرار کنن. این مرحله مهمه و خوبه روش وقت بذارین. در دنیای پایتون شاید این کتاب خوب باشه ولی دونستن ابزارهایی مثل تبلو و ممکنه در شاخه‌های دیگه ای به شما کمک کنه.

پایگاه‌های داده
حواستون هست که دانشمند داده با داده‌ها کار می کنه دیگه؟ و خیلی وقت‌ها این داده‌ها در انواع پایگاه‌های داده هستن. اگر شما مای‌اسکوئل، پستگره و مایکروسافت اسکوئل سرور رو بلد باشین کلی جلو هستین؛ چه برسه به آگاهی عمومی در مورد چیزهایی مثل مونگو و حتی سیستم‌هایی مثل اسپارک و مپ ریدوس. یادتونه گفتم برنامه نویسی هم مهمه؟‌ خیلی وقت‌ها شما با اسکرپ کردن وب یا ای پی آی ها، دارین دیتاهای خودتون رو توی دیتابیس‌هاتون می‌ریزین.

آمار و ریاضی
تا اینجا از بحث های فنی حرف زدیم ولی شما قراره دانشمند باشین نه تکنیسین!‌ در دنیای ریاضی، لازمه مفاهیم اولیه و چیزهایی مثل نمونه‌گیری و توزیع‌ها و میانگین و میانگین وزنی و مد و میانه و این چیزها رو بدونین. همچون احتمالات و توزیع‌‌های احتمالی و مفاهیم پیشرفته‌تری مثل آزمون‌های آماری و اعتبار و خی اسکوئر و دوستانش. برای نمونه به این کتاب و این یکی کتاب مراجعه کنین.
یادگیری ماشین
موضوع داغ این روزها، یادگیری ماشین است. الگوریتم‌هایی که بعد از اجراشون حس می‌کنیم ماشین‌ها به شکل جادویی چیزی رو یاد گرفتن که ما به خوبی ازش سردرنمیاریم. برای درک مساله، خوبه حداقل این ده الگوریتم رو بلد باشین: linear regression ،logistic regression ،SVM ،random forests ،Gradient Boosting ،PCA ،k-means ،collaborative filtering ،k-NN و ARIMA. در این بخش همچنین لازمه بفهمیم که چطوری باید پرفرمنس یه مدل رو سنجید، آپتییمایز کرد، کراس ولدیت کرد، توابع خطی و غیرخطی رو دونست و جبرخطی و حسابان رو بلد بود. البته لیست دونستی‌ها اینجا زیاده مثلا overfitting و شبکه‌های عصبی و درخت تصمیم و … و البته چیزهای بزرگی مثل هوش مصنوعی و تفسیر زبان طبیعی و … اگر در دنیای پایتون هستین دونستن کتابخونه‌هایی مثل می‌تونه خط شروع خیلی خوبی به شما بده.

اما…
اما اینها فقط دانش عمومی است. برای تبدیل شدن به یه متخصص خوب شما باید یک مهارت دقیقتر هم داشته باشین. مثلا اینها رو بدونین ولی روی مثلا پردازش زبان طبیعی بیشتر کار کرده باشین. یا روی بینایی ماشین یا اصولا اطلاعاتتون از مفاهیم مرتبط با تشخیص تقلب زیاد باشه و موارد مشابه یا سراغ چیزهای مد روزتر مثل یادگیری عمیق یا سیستم‌هایی که خودشون قواعد بازی رو کشف می کنن و اینها برین و ببینین چی دوست دارین و ادامه اش بدین.

درست کردن اعتبار
اما کسی با دانش صرف شناخته نمی‌شه. شروع کنین به کار عملی. پروژه‌های نمونه انجام بدین. دیتاهایی که بهش دسترسی دارین رو تفسیر و تحلیل کنین و نتایج و فرمول ها و پیش بینی های جالب بیرون بکشین. یا اصولا از سایت های پر داده ای مثل دیجیکالا و دیوار و شیپور و ایسام و بقیه دیتا در بیارین و یه کار جالب بکنین. اگر خودتون رو سطح بالاتر می بینین می تونین سراغ سایت هایی مثل کگل برین و اسم و رسمی به هم بزنین، حتی اون پایین مایین‌هاش – اونجاها هم به اندازه کافی مهمن!

حرف آخر
این رو هم بگم که این دنیا خیلی بزرگه. من هم متخصصش نیستم و جمع آوری کننده هستم. همونطور که اول بحث گفتم، این حوزه بسیار بزرگه و باز و جای کار زیادی هم داره. لازمه با جامعه اش پیوند بخورین و مقاله بخونین و ببینین بقیه چیکار می کنن و چه نیازهایی دارن. هم با ابزارهای متنوع ور برین و هم با داده‌های مختلف کار کنین و سعی کنین مسائل رو حل کنین. بخشی مهمی از دنیای دیتاساینس، بهتر کردن چیزهایی است که وجود دارن. این رو هم بدونین که مثل بقیه کارها، بخش بزرگی از کار ماجرای علمی اش نیست بلکه ماجرای تکنیسینی است. خیلی وقت ها داده کثیفن و شما کد می نویسین که کمی تمیزشون کنین. خیلی وقت ها فرمت دیتا مناسب نیست و باید یکسانشون کنین. خیلی وقت ها دیتا اونقدر بزرگه که روی یک کامپیوتر جا نمی شه و باید یه فکری بکنین و غیره و غیره. حوصله‌تون سر نره و با هیجان و لذت پیش برین و مساله طرح و حل کنین و چیز جدید یاد بگیرین و به زودی اسم خوبی برای خودتون درست خواهید کرد!
لینک 1
لینک2
Forwarded from ElmYab - علم‌یاب
This media is not supported in your browser
VIEW IN TELEGRAM

رفتار پایتون با فریم‌ورک‌ها و ابزارهای مختلف حوزه علم داده (Data Science)

#علم_داده
#هوش_مصنوعی
#یادگیری_ماشین
#برنامه_نویسی

@elmyab — علم‌یاب
‌‌
‌‌@FaraDarsMag — مجله فرادرس

Introduction to Programming in Python.pdf
395.5 KB
📚 کتاب آموزشی "مقدمه‌ای بر برنامه‌نویسی با #پایتون "
📖 به زبان انگلیسی

🌐 @datascienceedu | کانال آموزشی علم داده
یکی از مهارت‌های کاربران علوم داده، داستان‌گویی (Story Telling) با داده است تا بتوانند مفاهیم نهفته در داده‌ها را به شکلی ساده ولی جامع و همه‌فهم ارائه کنند. برای آشنایی با این موضوع می‌توانید #پادکست زیر را دانلود کنید.

⬇️ دانلود پادکست در مورد داستان‌گویی با داده با موضوع "هنر فیدبک (بازخورد)"

📖 دانلود متن پادکست

🌐 @datascienceedu | کانال آموزشی علم داده
تفاوت و تشابه میان یادگیری ماشین و یادگیری عمیق!

🌐 @datascienceedu | کانال آموزشی علم داده
برای کار در علوم داده بیشتر کدام نرم افزار را ترجیح می‌دهید؟
Anonymous Poll
17%
R
64%
Python
20%
هر دو
📽 فیلم سینمایی Artificial Intelligence (هوش مصنوعی) یکی از فیلم‌هایی است که هر دانشمند داده‌ای باید آن را تماشا کند.

🎞 در این فیلم یک پسر بچه روبات که با تکنولوژی بسیار پیشرفته ای ساخته شده است، هر کاری می‌کند تا بتواند به پسری واقعی تبدیل شده و دوباره عشق مادرش را که یک انسان واقعی است بدست آورد.

🌐 @datascienceedu | کانال آموزشی علم داده
پکیج کرونا ویروس (coronavirus) در R منتشر شد!

می‌توانید این پکیج را نصب کنید و از دیتاست آن برای تحلیل‌ داده‌ها استفاده نمایید. کیس‌ها و آخرین آمار مبتلایان و بهبودیافتگان این ویروس به صورت روزانه در دیتاست این پکیج آپدیت می‌شوند.

اطلاعات پکیج و نصب: https://cran.r-project.org/package=coronavirus

🌐 @datascienceedu | کانال آموزشی علم داده
نقشه میزان خطر احتمال ابتلا به #کرونا در مناطق تهران که حاصل داده‌کاوی اطلاعات 3 میلیون نفر می‌باشد. لطفاً در خانه بمانید!

🌐 @datascienceedu | کانال آموزشی علم داده
🛫 تایم لاین دیتا ساینس

🎲 در این تصویر، مسیری که علوم داده از ابتدا تا کنون طی کرده است را می‌توانید مشاهده کنید

🌐 @datascienceedu | کانال آموزشی علم داده
#فرصت_شغلی
با سلام،

به اطلاع می رساند یک استارتاپ در حوزه 3PL نیازمند به یک کارشناس ارشد تحلیل داده و آشنا با مفاهیم لجستیک و مدیریت عملیات است.

مهارت ها و شرایط مورد نیاز برای چنین شغلی به شرح زیر است:

مسلط به مفاهیم آماری و آنالیز داده

مسلط به برنامه‌نویسی پایتون

آشنایی با الگوریتم های بهینه‌سازی در حوزه حمل و نقل و لجستیک

دارای تجربه تعامل با تیم‌های فنی (IT)

دارای حداقل یک سال سابقه کار در حوزه تحلیل داده

علاقمندان، میتوانند تا 15 شهریورماه رزومه خود را به به ایمیل fminooei@yahoo.com ارسال کنند.

باتشکر،
فرزاد مینویی
📊 «متخصص علم داده» پر درآمدترین شغل آمریکا در سال 2020🔥

بر اساس آمار و گزارشات موجود در وبسایت «glassdoor» که در زمینه ارزیابی بازار کار آمریکا فعال است، «data scientist» یا همان متخصص علم داده پر درآمدترین و یکی از پرطرفدارترین شغل‌های آمریکا در سال 2020 می‌باشد.

لیست چند مورد از بهترین فرصت‌های شغلی آمریکا به شرح زیر است:

1️⃣ «متخصص علم داده» با میانگین درآمد سالانه 107801 دلار آمریکا💵
2️⃣ «مهندس فرانت اند» با میانگین درآمد سالانه 105240 دلار آمریکا💵
3️⃣ «توسعه دهنده جاوا» با میانگین درآمد سالانه 83589 دلار آمریکا💵

همچنین «مهندس داده» نیز از بهترین فرصت‌های شغلی محسوب می‌شود.

🌐 @datascienceedu | کانال آموزشی علم داده
کیفیت تصمیمات شما مستقیما تحت تاثیر کیفیت داده‌های شما قرار می‌گیرد.

❇️ داده‌های شما از طریق ویرایش یا دریافت انبوه داده‌های جدید، دائما درحال تغییر است؛ بنابراین نیازمندی‌های سازمان و استراتژی تجارت سازمان‌ها نیز تغییر می‌کند.

🔹 مدیریت داده‌ها باید یک روند مستمر را طی کند تا موثر واقع شود. مدیریت موثر کل چرخه حیات داده‌ها را از ابتدا تا انتهای آنها پوشش می‌دهد و بطور کلی سه چیز «مدیریت داده» را دنبال می‌کند:
«کنترل، سازگاری و انطباق»
( 3 C's of data management:
Control,Consistency,Compliance)

🔸 مدیران سازمان تحت فشارهای زیادی قرار دارند. از آن‌ها انتظار می‌رود که باعث بهبود کارایی، کاهش ضایعات، کاهش هزینه‌ها و افزایش رضایت مشتریان شوند؛ برای دستیابی به همه این‌ها یک مدیر باید اطلاعات(داده‌ها) را از منابع مختلف جمع آوری ( و مدیریت) کند.

🔺 با این حال اغلب اوقات داده‌های سازمانی ناقص یا نادرست هستند و علت اصلی خطاها اغلب در عملیات و فرآیندهای فعلی نهفته است.

🌐 @datascienceedu | کانال آموزشی علم داده
سلسله مراتب مهارت‌های علم داده: ⬇️

1. ریاضیات و آمار پایه: 🔢📊📈
برای متخصص شدن در امور علم داده باید ابتدایی‌ترین مفاهیم ریاضی، آمار، جبرخطی و... را بدانید.

2. یادگیری ماشین: 📖📱
یادگیری ماشین، مطالعه علمی الگوریتم‌ها و مدل‌های آماری مورد استفاده سیستم‌های کامپیوتری است که بجای استفاده از دستورالعمل‌های واضح از الگوها و استنباط برای انجام وظایف سود می‌برند. با شرکت در دوره‌های آموزشی می‌توانید مهارت خود را در این زمینه افزایش دهید.

3. برنامه نویسی: ⌨️💻
برای data scientist شدن یادگیری دو زبان برنامه‌نویسی پایتون و R و یا حداقل یکی از این دو ضروری می‌باشد.

4. مهندسی داده: 👨‍💻🧾👩‍💻
شما باید قادر به مدیریت و پردازش مقدار زیادی از داده‌ها باشید. زبان پرس‌وجوی SQL محبوب‌ترین و رایج‌ترین زبان برای کار با پایگاه داده (data base) است که محدود به زبان برنامه نویسی خاصی نیست؛ بنابراین اکثر برنامه‌نویس‌ها برای ارتباط با پایگاه داده به این زبان نیاز دارند.

5. هوش مصنوعی: 🌐🖥🌌
هوش مصنوعی و روش‌های یادگیری ماشین‌های پیشرفته، در واقع مدل‌سازی آینده است. هوش مصنوعی یا Ai با استفاده از الگوریتم‌ها و...👇👇👇
...درک عمیق الگوها و با انجام اقدامات خودکار، وقایع آینده را پیش‌بینی می‌کند.

🛑 این سلسله مراتب یک روند گام به گام نیست. شما همزمان شروع به یادگیری لایه‌های مختلف می‌کنید.

🌐 @datascienceedu | کانال آموزشی علم داده
python for data science.pdf
2.2 MB
دستورات کاربردی پایتون در علم‌داده


🌐 @datascienceedu | کانال آموزشی علم داده
سایت kaggle که یکی از بزرگترین مرجع‌های جمع آوری داده هاست اخیرا در اقدامی جالب دیتا ست توییت‌های جو بایدن از سال 2007 تا 2020 را منتشر کرده است.

در این دیتا ست برای هر توییت، تعداد لایک‌ها، تعداد ری‌توییت‌ها، تعداد ریپلای‌ها و تعداد کوت‌های آن توییت آورده شده است.
تحلیلگران داده می‌توانند از محتوای این حجم از توییت‌ها برای سنجش میزان محبوبیت بایدن و یا میزان موافقت یا مخالفت با نظرات او استفاده کنند.
همچنین می‌توانند با روش‌های Text Mining سیر فکری بایدن و موافقان و مخالفان او را تحلیل کنند.

دیتا ست این توییت‌ها را می‌توانید از لینک زیر دانلود کنید:

https://www.kaggle.com/rohanrao/joe-biden-tweets


🌐 @datascienceedu | کانال آموزشی علم داده
گوگل آنالیتیکس یک سرویس رایگان پیش‌آوری‌شده گوگل است، که آمار بازدید‌کنندگان یک وب‌سایت را نشان می‌دهد و در دیجیتال مارکتینگ استفاده‌های زیادی از آن می‌شود.🔝

در آپدیت جدید گوگل آنالیتیکس از الگوریتم‌های «machine learning» برای تحلیل‌های جدیدی استفاده شده است که تا سال پیش باور آن برای عموم سخت بود. این ویژگی‌ها سبب شده تا کاربران معمولی نیز به سادگی بتوانند در تحلیل‌های خود از آن بهره‌مند شوند.📊📉📈

🔰 برای مثال پیش‌بینی نرخ ریزش کاربران که به این ابزار اضافه شده و اگر بدانید چه نوع کاربران یا مشتریانی با چه احتمالی در آینده شما را ترک خواهند کرد، می‌توانید تصمیمات بهتری در سرمایه‌گذاری برای جذب کاربر یا مشتری بگیرید.

همچنین امکان پیش‌بینی میزان تقاضای محصولات و خدمات و بسیاری از تحلیل‌های دیگر که به‌واسطه آن‌ها می‌شود، نرخ بازگشت سرمایه گذاری در بازاریابی را بهینه کرد، نیز فراهم شده است.

🌐 @datascienceedu | کانال آموزشی علم داده