انجمن علم داده‌ها – Telegram
انجمن علم داده‌ها
199 subscribers
28 photos
2 videos
11 files
15 links
🔹️کانال ترویج، آموزش و اطلاع‌رسانی علم داده‌ها

🔹️ارتباط و ارائه پیشنهادات:
@Sajedeh_Lashgari
Download Telegram
انجمن علم داده‌ها
رشته‌های ارشد ۱۴۰۲.pdf
مایه خوشحالی است یا تعجب یا حتی تاسف!؟

بگذارید علاوه بر اطلاع‌رسانی و آموزش، کمی هم از تاریخچه و چرایی بگوییم..
شاید در آگاهی و انتخابمان اثرگذار باشد و به این نحو، این کانال بتواند مفید باشد!

شروع رسمیِ ارائه رشته علم داده‌ها (به عنوان رشته‌ای بین‌رشته‌ای، حداقل در مرحله اول و پذیرش مسئله) سال ۹۸ بود،
به خاطر دارم که در آن زمان، تنها یک دانشگاه، آن را ارائه کرده بود..
حال حدود ۴ سال، از آن ماجرا گذشته و انتظار می‌رود که اکنون اکوسیستم دیتاساینس تا حد خوبی در ایران شکل گرفته باشد..
شکل‌گیری رشته علم داده‌ها با پذیرش ۴ دانشجو، همراه بود اما امسال تنها در بخش روزانه، حدود ۸۵ موقعیت تحصیلی در مجموعه آمار در دانشگاه‌های بسیار مختلفی تعریف شده است (البته سال گذشته هم، تقریبا شرایط مشابهی وجود داشت)!
به علاوه چند موقعیت در مجموعه‌های دیگر (به نظر می‌رسد این موضوع، تا حدی با بین‌رشته‌ای تعریف شدن رشته نیز در تناقض است! 🤔) ...

افزایش تعداد پذیرش دانشجو و دانشگاه هم به نوبه خود، یک پيشرفت قابل توجه است! :)
اما به نظرم کمی تمرکز روی اکوسیستم هم می‌تواند خوب و بسیار ضروری (حتی ضروری‌تر از مورد قبل) باشد..

با توجه به شرایط اکوسیستم فعلی در ایران، به نظرم سوالاتی در اینجا قابل تامل است:
- آیا به این تعداد نیروی متخصص، در این زمینه نیاز است؟
- به نیروهای متخصص دقیقا در کدام بخش‌ها نیاز است؟ و به چه تعداد؟
- دانشگاه، در حال تربیت دانشجویان در کدام بخش است؟ آموزش (!!!) پژوهش (!) یا صنعت (!!)؟
- آیا صنعت به چنین بلوغی رسیده که بتواند دیتاساینس را به کار گیرد؟
- آیا میزان آشناییِ تصمیم‌گیران، از دیتاساینس و فعالیت‌های داده‌محور، کافی است و نیاز واقعی به آن را احساس می‌کنند؟
- به کارگیری دیتاساینس در بخش‌های مختلف به چه زیرساخت‌ها و پیش‌نیازهایی نیاز دارد؟
- آیا روند طی‌شده برای تربیت دانشمندان داده، نیازی به بازبینی و اشکال‌زدایی ندارد؟
- آیا شرایط فعلی و زیرساخت‌های سه بخش بیان‌شده، برای تربیت متخصصان این رشته مناسب است؟
- آیا علم داده‌ها، رشته‌ای بین‌رشته‌ای است؟!

این سوالات در بسیاری از رشته‌ها، قابل توجه است اما در ابتدای کارِ چنین رشته‌ای که در آینده بسیااار موثر و ضروری خواهد بود، بسیار بیش از این، به بررسی و بازاندیشی و انتخاب استراتژی مناسب نیاز است.
به علاوه، به دلیل ابتدای مسیر بودن، تغییر جهت راحت‌تر و امید بیشتر است..! :)

قطعا استقبال و نحوه مواجهه ما با هر مسئله‌ای، در جهت‌دهی به آن تاثیرگذار است..

@Data_Science_Association
👍64
برای یادگیری
DSA (Data Structure and Algorithm)
چه جوری اقدام کنیم؟
مطالب مهم برای یادگیری ساختمان داده و الگوریتم

سلسله پست‌های #مطالب_آموزشی و #ترویج #دانش
#دانشمند_داده

@Data_Science_Association
Data Visualization with ggplot2.pdf
1.6 MB
یکی از بخش‌های مهم و اصلیِ کار با داده‌ها، مصورسازیِ اون‌هاست!
کتابخونه ggplot2، یکی از ابزارهای خوب مصورسازیه، که در نرم‌افزار R قرار داره..
این فایل یه cheat sheet خوب (!:دی) و جامع، از کدهای متداولِ این ابزاره!

سلسله پست‌های #مطالب_آموزشی #مهارت #دانشمند_داده

@Data_Science_Association
8
به اهمیت مصورسازی داده‌ها که اشاره کرده بودیم. حالا می‌خواهیم دو تا از نرم‌افزارهای قدرتمند و معروف، توی این زمینه رو بهتون معرفی کنیم:
Tableau و Power BI!

این سوال، همیشه پیش میاد که کدوم یک از این‌ها بهتر هستند و باید کدوم رو برای یادگیری، انتخاب کنیم.
مسلما هر کدوم از این‌ها، معایب و مزایایی دارند که موقع انتخاب نرم‌افزارِ مناسب برای کار، باید بهشون توجه کنیم و متناسب با نیاز و هدفمون، دست به انتخاب بزنیم. توی این تصویر، به برخی از این نکات به خوبی اشاره شده است.

سلسله پست‌های #مطالب_آموزشی
#مهارت #دانشمند_داده

@Data_Science_Association
This media is not supported in your browser
VIEW IN TELEGRAM
بدون آمار، شفافیت، تحلیل و داده‌ چه پیشرفتی در انتظار است؟!

روح استاد گرامی ماه‌بانو تاتا در آرامش باد
@Data_Science_Association
13
مهارت‌های مهم دانشمند داده (بر اساس اطلاعات لینکدین) و تفاوت آن با تحلیلگر داده و مهندس داده

#مهارت
#دانشمند_داده

@Data_Science_Association
End-to-End Machine Learning Workflow

مشکل را شناسایی کنید،
راه‌حلی طراحی کنید،
آن را پیاده‌سازی کنید،
نتایج را بسنجید
و مشکل را حل کنید!


سلسله پست‌های آشنایی با اصطلاحات رایج، #مطالب_آموزشی و ترویج #دانش
#دانشمند_داده

@Data_Science_Association
This media is not supported in your browser
VIEW IN TELEGRAM
تغییرات ابزارهای تحلیل داده، از سال 2000 تا 2019!
روند 2023 تا 2026 رو چه جوری پیش‌بینی می‌کنید؟

#مهارت
#دانشمند_داده

@Data_Science_Association
👍10
2012.00174v2.pdf
171.1 KB
"مهمترین ایده‌های آماری در 50 سال گذشته"!

میزان مشارکت علم آمار در حوزه علم داده‌ها، در این مقاله مورد بحث و بررسی قرار گرفته است.


لینک: https://arxiv.org/pdf/2012.00174v2.pdf



سلسله پست‌های #مطالب_آموزشی و #ترویج #دانش
#دانشمند_داده

@Data_Science_Association
👍9
#باورهای_رایج_اشتباه
قسمت ۱

+ علم داده‌ها/دیتاساینس، همون هوش مصنوعیه!
+ علم داده‌ها، همون آماره!
+ علم داده‌ها!! بگو همون (علوم/مهندسی) کامپیوتر دیگه!!
+ آمار/کامپیوتر/هوش مصنوعی خوندی! پس علم داده‌ها بلدی!!!

برای رفع ابهام، شاید لازم باشه که عمیق‌تر راجع‌به تعریف علم داده‌ها و برخی از مولفه‌های اون فکر کنیم!

"علم داده‌ها، یک تخصص بین رشته‌ایه که ترکیبی از آمار، علوم کامپیوتر، ریاضی و دانش زمینه‌ای است!"

بیاید در ادامه، راجع‌به ارتباط این موارد و جایگاه هر کدوم در این زمینه صحبت کنیم!

- آمار: علمی مبتنی بر استنباط و تفسیر داده‌ها و نتایج،

- علوم کامپیوتر: علمی مبتنی بر توسعه الگوریتم، نرم‌افزار و سیستم‌های کامپیوتری،

- هوش مصنوعی: علمی مبتنی بر ساخت سیستم‌های دقیق و هوشمند مانند انسان، با استفاده از داده‌ها و مدل‌های پیش‌بینی‌کننده،

- علم‌داده‌ها: علمی مبتنی بر استخراج دانش و بینش‌های مفید از داده‌هاست.
این دانش بسته به مسئله مورد نظر، شامل استنباط و تفسیر یا پیش‌بینی یا هر دوی این‌هاست!

ادامه، در پست بعدی..!

سلسله پست‌های باورهای رایج اشتباه، #مطالب_آموزشی #دانشمند_داده

@Data_Science_Association
👍121
ادامه #باورهای_رایج_اشتباه
قسمت ۱ بخش ۲

بنابراین باتوجه به تعاریف بیان‌شده در این پست:
- فردی که در حوزه‌های مربوط به تحلیل داده با استفاده از روش‌های آماری کار می‌کنه، آمارشناسه!

- فردی که صرفاً روی ساخت، توسعه و نظارتِ مدل یادگیری ماشین کار می‌کنه، مهندس یادگیری ماشین یا مهندس هوش مصنوعیه!

- فردی که درک خوبی از ترکیب این‌ موارد داره و دانش و مهارت‌های مورد نیاز در این زمینه‌ها رو داره، دانشمند داده است!

همچنین هوش مصنوعی، آمار و کامپیوتر (از این بعد) زیرمجموعه‌هایی از علم داده‌ها محسوب می‌شوند!

سلسله پست‌های باورهای رایج اشتباه، #مطالب_آموزشی #دانشمند_داده

@Data_Science_Association
👏7👍3🤔1
#باورهای_رایج_اشتباه
قسمت ۲

+ برای گرفتن موقعیت شغلی دانشمند داده (دیتاساینتیست)، باید از موقعیت تحلیل‌گر داده (دیتاآنالیست) شروع کرد!

(البته این باور، بیشتر در ایران و کمتر در کشورهای پیشرفته مثل امریکا وجود داره!)

در زمانی که آموزش علم داده‌ها رواج پیدا نکرده بود، عمدتا روال کار همین بود،
چون تخصص و رشته‌ای تحت این عنوان وجود نداشت و افراد با تخصص آمار، کامپیوتر، ریاضی و رشته‌های مرتبط دیگه، وارد حوزه داده می‌شدند.
به علاوه، نیازهای موجود در چند سال گذشته، طبق شرایط عمدتا حول و حوشِ همون تحلیل‌گر داده یا تحلیل‌گر کسب‌وکار (بیزینس آنالیست) بود!
با پیشرفت برخی تکنولوژی‌ها و شبکه‌های اجتماعی، به وجود اومدنِ داده‌های کلان، نیاز به سهولت در انجام برخی کارها برای انسان‌ها و موارد دیگه، به مرور نیاز به علم داده‌ها ایجاد شد و کم کم برخی دانشگاه‌ها (مثل هاروارد، لندن و سیدنی، تحت عنوان دوره کارشناسی ارشد)، شروع به ارائه این رشته کردند که یکی از مهم‌ترین اهدافشون، تربیت افرادی برای موقعیت شغلی دانشمند داده بود.
تعداد این دانشگاه‌ها، در یکی - دو سال گذشته، حتی در ایران هم، به مراتب افزایش یافته، اما همچنان مشکل بزرگ اینه که جایگاه این تخصص در ایران و روند پیشرفتش منطبق بر تخصص یک دانشمند داده نیست و درک درستی از سلسه مراتب پیشرفت در این حوزه، هنوز وجود نداره!
شاید آگاهیِ افرادی که در این حوزه فعالیت می‌کنند از این مسائل، به مرور بتونه تاثیر خوبی روی این درک داشته باشه!

بنابراین به طور کلی، در محیط‌های پیشرفته‌تر، مراحل پیشرفت در حوزه داده به این صورت تعریف نمیشه!
و تنها راه و حتی درست‌ترین راه برای شروع فعالیت در زمینه علم داده‌ها با موقعیت شغلی تحلیل‌گر داده یا کسب‌وکار اتفاق نمی‌افته!
به همین دلیله که همچنان موقعیت‌های شغلی بیان‌شده با به وجود اومدنِ علم داده‌ها، از بین نرفتند
و همگی دارای سطوح مختلفی از تازه وارد (جونیور) تا حرفه‌ای‌تر (سینیور) هستند.
به علاوه، حوزه فعالیت و تمرکز هر تخصص، در زمینه داده تا حد قابل توجهی متفاوته!

اما برای شروع مسیر دانشمند داده شدن، در صورتی که تخصص علم داده‌ها رو فرا نگرفتید و از مسیرها و رشته‌های نزدیکِ دیگری شروع کردید،
شروع فعالیت با تحلیل‌گر داده شدن، می‌‌تونه یک مسیر برای پیشرفت به حساب بیاد!

سلسله پست‌های باورهای رایج اشتباه، #مطالب_آموزشی #دانشمند_داده

@Data_Science_Association
👏5👍3
#معرفی_منبع (پادکست)

مطالب این اپیزود مستقیما در مورد علم داده‌ها نیست!! اما در فهمِ بهترِ چگونگی یادگیری، آگاهی و پیشرفت علم در هر زمینه‌ای، می‌تونه دید خوبی بهمون بده و به "خود ساختگی"مون که لازمه وسیع شدن ذهنیت و بهتر و دقیق‌تر فهمیدنمون هست، کمک کنه!

آدرس:
https://castbox.fm/vb/483827281

برخی از مطالبی که راجع‌بهش صحبت میشه:
- ظرفیت ذهنی فردی در مقابل شبکه آگاهی و آگاهی اشتراکی
- راهی برای توسعه ایده
- دوره جهل
- معنادار شدن زندگی
- تفکر استقرایی
- همدلی، صفتی فضیلت بار و رذیلت بار
- رواداری و تحمل ابهام

ما هیچ‌وقت در اندیشیدن، فهم و رشد تنها نیستیم!
#توسعه_فردی #مطالب_عمومی
#دانشمند_داده

@Data_Science_Association
8
#باورهای_رایج_اشتباه
قسمت ۳ بخش ۱

+ بعد از دانشمند داده شدن، می‌تونی مهندس نرم‌افزار شوی!
+ برو علم داده‌ها بخون، پیشرفت می‌کنی و میشی مهندس نرم‌افزار/کامپیوتر!!
+ دانشمند داده‌ای، پس برنامه‌نویسی!

برای فهم مسئله، خوب است که یک تعریف دقیق‌تر از این مشاغل و وظایف آن‌ها داشته باشیم که نیاز به هر کدام و حوزه کاریشان مشخص شود!

· برنامه‌نویس کسی است که کدهایی را برای اجرای یک برنامه با هدف ساخت یک بازی، برنامه موبایل یا کامپیوتر، وب‌سایت، سیستم عامل، نرم‌افزار کاربردی و موارد مشابه می‌نویسد. برنامه‌نویس باید مسلط به یک یا چند زبان برنامه‌نویسی باشد و مهارت‌های حل‌مسئله، الگوریتم‌نویسی، ساختمان داده و مهارت‌های نرمِ مرتبط را داشته باشد.

· مهندس نرم‌افزار کسی است که فرایند طراحی، توسعه، آزمون و نگهداری نرم‌افزار را اجرا و مدیریت می‌کند. مهندس نرم‌افزار باید در کنار مهارت‌های کلی نام‌برده‌شده برای یک برنامه‌نویس، مهارت‌های تحلیل، معماری و مستندسازی نرم‌افزار را نیز داشته باشد. به طور کلی می‌توان گفت، مهندس نرم‌افزار نیاز به مهارت‌های فنی، ارتباطی و مدیریتیِ بیشتری نسبت به برنامه‌نویس دارد.

· دانشمند داده کسی است که متناسب با مسئله، داده‌ها را جمع‌آوری، پردازش، تحلیل و تفسیر می‌کند. دانشمند داده، باید مسلط به روش‌ها و ابزارهای یادگیری ماشین، مهارت‌های برنامه‌نویسی، پرس‌وجو در پایگاه داده، رایانش ابری، حل‌مسئله و مهارت‌های نرمِ مرتبط باشد. به طور کلی می‌توان گفت، دانشمند داده از مهارت‌های برنامه‌نویسی برای کار روی داده‌ها استفاده می‌کند که عمدتا این مهارت‌ها برای پیش‌پردازش داده‌ها و پیاده‌سازی الگوریتم‌های یادگیری ماشین و یادگیری آماری انجام می‌شود.

همچنین شرح وظایف هر شغل به صورت دقیق‌تر، در پست بعد بیان می‌شود...

هرچند مقایسه این مشاغل به دلیل تفاوت کاریشان، درست نیست و همان‌طور که در توضیحات بیان‌ شد، با توجه به نیاز به هر یک از این مشاغل، نمی‌توان بین آن‌ها ترتیب و اولویت‌بندی انجام داد. اما یک نکته دیگر برای فهم این باور اشتباه، نگاه به متوسط درآمدِ هر یک از مشاغل و مقایسه آن‌هاست! البته مسلما بررسی دقیق‌تر بر اساس سطح کاری، مهارت‌ها و تجربه فرد و جغرافیا انجام می‌شود.
درآمد دانشمند داده
درآمد مهندس نرم‌افزار

پیشنهاد و پی‌نوشت: اگر ابتدای مسیر حرفه‌ای هستید و می‌خواهید رشته و تخصص خودتان را انتخاب کنید، فعلا با بحث مالی، خیلی کاری نداشته باشید و با توجه به علایق و توانایی‌هایتان، تصمیم‌گیری کنید! 😉


سلسله پست‌های باورهای رایج اشتباه، #مطالب_آموزشی #دانشمند_داده

@Data_Science_Association
9
#باورهای_رایج_اشتباه
قسمت ۳ بخش ۲

همون‌طور که در پست قبل گفته شد، موقعیت‌های شغلی دانشمند داده، برنامه‌نویس و مهندس نرم‌افزار دارای تفاوت‌های قابل توجهی در وظایف کاریشون هستند.

شرح وظایف هر شغل به صورت دقیق‌تر، در این تصویر قابل مشاهده است.

سلسله پست‌های باورهای رایج اشتباه، #مطالب_آموزشی #دانشمند_داده #شرح_وظایف_دانشمند_داده

@Data_Science_Association
اصطلاح Data Snooping،
Data Dredging و p-hacking

جاسوسی یا لایروبی داد‌‌ه‌ها، در آمار و تحلیل داده‌ها نقش مهمی دارد و می‌تواند اعتبار و روایی یافته‌های پژوهش را تضعیف کند.

جاسوسی داده‌ها زمانی اتفاق می‌افتد که پژوهشگران‌، داده‌ها یا تحلیل‌های آماری خود را به صورت آگاهانه یا غیرآگاهانه با بررسی چندین فرضیه آماری دستکاری کنند و منجر به نتایج معنادار مصنوعی شوند.
پس از جمع‌آوری داده‌های مربوط به سوال پژوهش و تحلیل داده‌ها با فرضیه مورد نظر، برای جلوگیری از هک شدن مقدار-p، در صورت مواجهه با نتایج اولیه غیرمعنادار، باید از تغییر رویکرد و انجام آزمون‌های مجدد، بررسی زیرمجموعه‌ای از داده‌ها (مثلا گروه سنی یا جنسیتی خاصی) یا انجام تبدیل‌های مختلف روی داده‌ها تا رسیدن به نتیجه دلخواه جلوگیری کرد!
انجام آزمون‌های آماری به شیوه‌های بیان‌شده، به دلیل به وجود آمدن سوگیری در ذهن تحلیل‌گر، خطر مواجه شدن با مثبت کاذب (پیدا کردن اثراتی که واقعا وجود ندارند) و سوگیری انتشار را در مقالات علمی افزایش می‌دهند. اینکار می‌تواند بر پیشرفت علمی و تصمیمات مبتنی بر داده، آثار بدی بگذارد.

راه‌هایی برای جلوگیری از جاسوسی داده‌ها و سوگیری انتشار:
🔹️ قبل از جمع‌آوری داده‌ها، فرضیه‌ها و طرح‌های تحلیلی خود را ثبت کنید تا وسوسه برای کشف مسیرهای متعدد را کاهش دهید.
🔸️ بخشی از داده‌ها را برای اعتبارسنجی یا آزمایش، قبل از تحلیل اولیه روی داده‌های آموزش در نظر بگیرید.
🔹️ تمام تحلیل‌های انجام‌شده را به وضوح گزارش دهید، حتی اگر نتایج قابل توجهی به همراه نداشته باشند.
🔸️ انجام مطالعات تکراری و جمع‌آوری داده به اندازه کافی
🔹️ انجام آزمایش‌های تصادفی‌ و کنترل‌شده (RCT)


سلسله پست‌های #مطالب_آموزشی و #ترویج #دانش
#دانشمند_داده

@Data_Science_Association
👍8