انجمن علم داده‌ها – Telegram
انجمن علم داده‌ها
199 subscribers
28 photos
2 videos
11 files
15 links
🔹️کانال ترویج، آموزش و اطلاع‌رسانی علم داده‌ها

🔹️ارتباط و ارائه پیشنهادات:
@Sajedeh_Lashgari
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
بدون آمار، شفافیت، تحلیل و داده‌ چه پیشرفتی در انتظار است؟!

روح استاد گرامی ماه‌بانو تاتا در آرامش باد
@Data_Science_Association
13
مهارت‌های مهم دانشمند داده (بر اساس اطلاعات لینکدین) و تفاوت آن با تحلیلگر داده و مهندس داده

#مهارت
#دانشمند_داده

@Data_Science_Association
End-to-End Machine Learning Workflow

مشکل را شناسایی کنید،
راه‌حلی طراحی کنید،
آن را پیاده‌سازی کنید،
نتایج را بسنجید
و مشکل را حل کنید!


سلسله پست‌های آشنایی با اصطلاحات رایج، #مطالب_آموزشی و ترویج #دانش
#دانشمند_داده

@Data_Science_Association
This media is not supported in your browser
VIEW IN TELEGRAM
تغییرات ابزارهای تحلیل داده، از سال 2000 تا 2019!
روند 2023 تا 2026 رو چه جوری پیش‌بینی می‌کنید؟

#مهارت
#دانشمند_داده

@Data_Science_Association
👍10
2012.00174v2.pdf
171.1 KB
"مهمترین ایده‌های آماری در 50 سال گذشته"!

میزان مشارکت علم آمار در حوزه علم داده‌ها، در این مقاله مورد بحث و بررسی قرار گرفته است.


لینک: https://arxiv.org/pdf/2012.00174v2.pdf



سلسله پست‌های #مطالب_آموزشی و #ترویج #دانش
#دانشمند_داده

@Data_Science_Association
👍9
#باورهای_رایج_اشتباه
قسمت ۱

+ علم داده‌ها/دیتاساینس، همون هوش مصنوعیه!
+ علم داده‌ها، همون آماره!
+ علم داده‌ها!! بگو همون (علوم/مهندسی) کامپیوتر دیگه!!
+ آمار/کامپیوتر/هوش مصنوعی خوندی! پس علم داده‌ها بلدی!!!

برای رفع ابهام، شاید لازم باشه که عمیق‌تر راجع‌به تعریف علم داده‌ها و برخی از مولفه‌های اون فکر کنیم!

"علم داده‌ها، یک تخصص بین رشته‌ایه که ترکیبی از آمار، علوم کامپیوتر، ریاضی و دانش زمینه‌ای است!"

بیاید در ادامه، راجع‌به ارتباط این موارد و جایگاه هر کدوم در این زمینه صحبت کنیم!

- آمار: علمی مبتنی بر استنباط و تفسیر داده‌ها و نتایج،

- علوم کامپیوتر: علمی مبتنی بر توسعه الگوریتم، نرم‌افزار و سیستم‌های کامپیوتری،

- هوش مصنوعی: علمی مبتنی بر ساخت سیستم‌های دقیق و هوشمند مانند انسان، با استفاده از داده‌ها و مدل‌های پیش‌بینی‌کننده،

- علم‌داده‌ها: علمی مبتنی بر استخراج دانش و بینش‌های مفید از داده‌هاست.
این دانش بسته به مسئله مورد نظر، شامل استنباط و تفسیر یا پیش‌بینی یا هر دوی این‌هاست!

ادامه، در پست بعدی..!

سلسله پست‌های باورهای رایج اشتباه، #مطالب_آموزشی #دانشمند_داده

@Data_Science_Association
👍121
ادامه #باورهای_رایج_اشتباه
قسمت ۱ بخش ۲

بنابراین باتوجه به تعاریف بیان‌شده در این پست:
- فردی که در حوزه‌های مربوط به تحلیل داده با استفاده از روش‌های آماری کار می‌کنه، آمارشناسه!

- فردی که صرفاً روی ساخت، توسعه و نظارتِ مدل یادگیری ماشین کار می‌کنه، مهندس یادگیری ماشین یا مهندس هوش مصنوعیه!

- فردی که درک خوبی از ترکیب این‌ موارد داره و دانش و مهارت‌های مورد نیاز در این زمینه‌ها رو داره، دانشمند داده است!

همچنین هوش مصنوعی، آمار و کامپیوتر (از این بعد) زیرمجموعه‌هایی از علم داده‌ها محسوب می‌شوند!

سلسله پست‌های باورهای رایج اشتباه، #مطالب_آموزشی #دانشمند_داده

@Data_Science_Association
👏7👍3🤔1
#باورهای_رایج_اشتباه
قسمت ۲

+ برای گرفتن موقعیت شغلی دانشمند داده (دیتاساینتیست)، باید از موقعیت تحلیل‌گر داده (دیتاآنالیست) شروع کرد!

(البته این باور، بیشتر در ایران و کمتر در کشورهای پیشرفته مثل امریکا وجود داره!)

در زمانی که آموزش علم داده‌ها رواج پیدا نکرده بود، عمدتا روال کار همین بود،
چون تخصص و رشته‌ای تحت این عنوان وجود نداشت و افراد با تخصص آمار، کامپیوتر، ریاضی و رشته‌های مرتبط دیگه، وارد حوزه داده می‌شدند.
به علاوه، نیازهای موجود در چند سال گذشته، طبق شرایط عمدتا حول و حوشِ همون تحلیل‌گر داده یا تحلیل‌گر کسب‌وکار (بیزینس آنالیست) بود!
با پیشرفت برخی تکنولوژی‌ها و شبکه‌های اجتماعی، به وجود اومدنِ داده‌های کلان، نیاز به سهولت در انجام برخی کارها برای انسان‌ها و موارد دیگه، به مرور نیاز به علم داده‌ها ایجاد شد و کم کم برخی دانشگاه‌ها (مثل هاروارد، لندن و سیدنی، تحت عنوان دوره کارشناسی ارشد)، شروع به ارائه این رشته کردند که یکی از مهم‌ترین اهدافشون، تربیت افرادی برای موقعیت شغلی دانشمند داده بود.
تعداد این دانشگاه‌ها، در یکی - دو سال گذشته، حتی در ایران هم، به مراتب افزایش یافته، اما همچنان مشکل بزرگ اینه که جایگاه این تخصص در ایران و روند پیشرفتش منطبق بر تخصص یک دانشمند داده نیست و درک درستی از سلسه مراتب پیشرفت در این حوزه، هنوز وجود نداره!
شاید آگاهیِ افرادی که در این حوزه فعالیت می‌کنند از این مسائل، به مرور بتونه تاثیر خوبی روی این درک داشته باشه!

بنابراین به طور کلی، در محیط‌های پیشرفته‌تر، مراحل پیشرفت در حوزه داده به این صورت تعریف نمیشه!
و تنها راه و حتی درست‌ترین راه برای شروع فعالیت در زمینه علم داده‌ها با موقعیت شغلی تحلیل‌گر داده یا کسب‌وکار اتفاق نمی‌افته!
به همین دلیله که همچنان موقعیت‌های شغلی بیان‌شده با به وجود اومدنِ علم داده‌ها، از بین نرفتند
و همگی دارای سطوح مختلفی از تازه وارد (جونیور) تا حرفه‌ای‌تر (سینیور) هستند.
به علاوه، حوزه فعالیت و تمرکز هر تخصص، در زمینه داده تا حد قابل توجهی متفاوته!

اما برای شروع مسیر دانشمند داده شدن، در صورتی که تخصص علم داده‌ها رو فرا نگرفتید و از مسیرها و رشته‌های نزدیکِ دیگری شروع کردید،
شروع فعالیت با تحلیل‌گر داده شدن، می‌‌تونه یک مسیر برای پیشرفت به حساب بیاد!

سلسله پست‌های باورهای رایج اشتباه، #مطالب_آموزشی #دانشمند_داده

@Data_Science_Association
👏5👍3
#معرفی_منبع (پادکست)

مطالب این اپیزود مستقیما در مورد علم داده‌ها نیست!! اما در فهمِ بهترِ چگونگی یادگیری، آگاهی و پیشرفت علم در هر زمینه‌ای، می‌تونه دید خوبی بهمون بده و به "خود ساختگی"مون که لازمه وسیع شدن ذهنیت و بهتر و دقیق‌تر فهمیدنمون هست، کمک کنه!

آدرس:
https://castbox.fm/vb/483827281

برخی از مطالبی که راجع‌بهش صحبت میشه:
- ظرفیت ذهنی فردی در مقابل شبکه آگاهی و آگاهی اشتراکی
- راهی برای توسعه ایده
- دوره جهل
- معنادار شدن زندگی
- تفکر استقرایی
- همدلی، صفتی فضیلت بار و رذیلت بار
- رواداری و تحمل ابهام

ما هیچ‌وقت در اندیشیدن، فهم و رشد تنها نیستیم!
#توسعه_فردی #مطالب_عمومی
#دانشمند_داده

@Data_Science_Association
8
#باورهای_رایج_اشتباه
قسمت ۳ بخش ۱

+ بعد از دانشمند داده شدن، می‌تونی مهندس نرم‌افزار شوی!
+ برو علم داده‌ها بخون، پیشرفت می‌کنی و میشی مهندس نرم‌افزار/کامپیوتر!!
+ دانشمند داده‌ای، پس برنامه‌نویسی!

برای فهم مسئله، خوب است که یک تعریف دقیق‌تر از این مشاغل و وظایف آن‌ها داشته باشیم که نیاز به هر کدام و حوزه کاریشان مشخص شود!

· برنامه‌نویس کسی است که کدهایی را برای اجرای یک برنامه با هدف ساخت یک بازی، برنامه موبایل یا کامپیوتر، وب‌سایت، سیستم عامل، نرم‌افزار کاربردی و موارد مشابه می‌نویسد. برنامه‌نویس باید مسلط به یک یا چند زبان برنامه‌نویسی باشد و مهارت‌های حل‌مسئله، الگوریتم‌نویسی، ساختمان داده و مهارت‌های نرمِ مرتبط را داشته باشد.

· مهندس نرم‌افزار کسی است که فرایند طراحی، توسعه، آزمون و نگهداری نرم‌افزار را اجرا و مدیریت می‌کند. مهندس نرم‌افزار باید در کنار مهارت‌های کلی نام‌برده‌شده برای یک برنامه‌نویس، مهارت‌های تحلیل، معماری و مستندسازی نرم‌افزار را نیز داشته باشد. به طور کلی می‌توان گفت، مهندس نرم‌افزار نیاز به مهارت‌های فنی، ارتباطی و مدیریتیِ بیشتری نسبت به برنامه‌نویس دارد.

· دانشمند داده کسی است که متناسب با مسئله، داده‌ها را جمع‌آوری، پردازش، تحلیل و تفسیر می‌کند. دانشمند داده، باید مسلط به روش‌ها و ابزارهای یادگیری ماشین، مهارت‌های برنامه‌نویسی، پرس‌وجو در پایگاه داده، رایانش ابری، حل‌مسئله و مهارت‌های نرمِ مرتبط باشد. به طور کلی می‌توان گفت، دانشمند داده از مهارت‌های برنامه‌نویسی برای کار روی داده‌ها استفاده می‌کند که عمدتا این مهارت‌ها برای پیش‌پردازش داده‌ها و پیاده‌سازی الگوریتم‌های یادگیری ماشین و یادگیری آماری انجام می‌شود.

همچنین شرح وظایف هر شغل به صورت دقیق‌تر، در پست بعد بیان می‌شود...

هرچند مقایسه این مشاغل به دلیل تفاوت کاریشان، درست نیست و همان‌طور که در توضیحات بیان‌ شد، با توجه به نیاز به هر یک از این مشاغل، نمی‌توان بین آن‌ها ترتیب و اولویت‌بندی انجام داد. اما یک نکته دیگر برای فهم این باور اشتباه، نگاه به متوسط درآمدِ هر یک از مشاغل و مقایسه آن‌هاست! البته مسلما بررسی دقیق‌تر بر اساس سطح کاری، مهارت‌ها و تجربه فرد و جغرافیا انجام می‌شود.
درآمد دانشمند داده
درآمد مهندس نرم‌افزار

پیشنهاد و پی‌نوشت: اگر ابتدای مسیر حرفه‌ای هستید و می‌خواهید رشته و تخصص خودتان را انتخاب کنید، فعلا با بحث مالی، خیلی کاری نداشته باشید و با توجه به علایق و توانایی‌هایتان، تصمیم‌گیری کنید! 😉


سلسله پست‌های باورهای رایج اشتباه، #مطالب_آموزشی #دانشمند_داده

@Data_Science_Association
9
#باورهای_رایج_اشتباه
قسمت ۳ بخش ۲

همون‌طور که در پست قبل گفته شد، موقعیت‌های شغلی دانشمند داده، برنامه‌نویس و مهندس نرم‌افزار دارای تفاوت‌های قابل توجهی در وظایف کاریشون هستند.

شرح وظایف هر شغل به صورت دقیق‌تر، در این تصویر قابل مشاهده است.

سلسله پست‌های باورهای رایج اشتباه، #مطالب_آموزشی #دانشمند_داده #شرح_وظایف_دانشمند_داده

@Data_Science_Association
اصطلاح Data Snooping،
Data Dredging و p-hacking

جاسوسی یا لایروبی داد‌‌ه‌ها، در آمار و تحلیل داده‌ها نقش مهمی دارد و می‌تواند اعتبار و روایی یافته‌های پژوهش را تضعیف کند.

جاسوسی داده‌ها زمانی اتفاق می‌افتد که پژوهشگران‌، داده‌ها یا تحلیل‌های آماری خود را به صورت آگاهانه یا غیرآگاهانه با بررسی چندین فرضیه آماری دستکاری کنند و منجر به نتایج معنادار مصنوعی شوند.
پس از جمع‌آوری داده‌های مربوط به سوال پژوهش و تحلیل داده‌ها با فرضیه مورد نظر، برای جلوگیری از هک شدن مقدار-p، در صورت مواجهه با نتایج اولیه غیرمعنادار، باید از تغییر رویکرد و انجام آزمون‌های مجدد، بررسی زیرمجموعه‌ای از داده‌ها (مثلا گروه سنی یا جنسیتی خاصی) یا انجام تبدیل‌های مختلف روی داده‌ها تا رسیدن به نتیجه دلخواه جلوگیری کرد!
انجام آزمون‌های آماری به شیوه‌های بیان‌شده، به دلیل به وجود آمدن سوگیری در ذهن تحلیل‌گر، خطر مواجه شدن با مثبت کاذب (پیدا کردن اثراتی که واقعا وجود ندارند) و سوگیری انتشار را در مقالات علمی افزایش می‌دهند. اینکار می‌تواند بر پیشرفت علمی و تصمیمات مبتنی بر داده، آثار بدی بگذارد.

راه‌هایی برای جلوگیری از جاسوسی داده‌ها و سوگیری انتشار:
🔹️ قبل از جمع‌آوری داده‌ها، فرضیه‌ها و طرح‌های تحلیلی خود را ثبت کنید تا وسوسه برای کشف مسیرهای متعدد را کاهش دهید.
🔸️ بخشی از داده‌ها را برای اعتبارسنجی یا آزمایش، قبل از تحلیل اولیه روی داده‌های آموزش در نظر بگیرید.
🔹️ تمام تحلیل‌های انجام‌شده را به وضوح گزارش دهید، حتی اگر نتایج قابل توجهی به همراه نداشته باشند.
🔸️ انجام مطالعات تکراری و جمع‌آوری داده به اندازه کافی
🔹️ انجام آزمایش‌های تصادفی‌ و کنترل‌شده (RCT)


سلسله پست‌های #مطالب_آموزشی و #ترویج #دانش
#دانشمند_داده

@Data_Science_Association
👍8