FaraData | فرا داده: علم داده و داده‌کاوی – Telegram
FaraData | فرا داده: علم داده و داده‌کاوی
1.32K subscribers
50 photos
11 videos
246 links
فرا داده — کانال تخصصی علم داده و داده کاوی

🔸کلان داده
🔸 داده کاوی
🔸 پردازش داده
🔸 یادگیری عمیق
🔸 یادگیری ماشین
🔸 کلان داده و Big Data
🔸 و صدها ساعت آموزش جذاب

🚀 برای مشاهده تمام آموزش‌های ویدیویی، روی لینک زیر بزنید:👇
fdrs.ir/tc/ds
Download Telegram
✳️ کدام زبان برای داده کاوی بهتر است، پایتون یا R؟

‏«علم داده» (Data Science) از جمله مباحث جذاب و داغ روز است که توجه پژوهشگران، سازمان‌ها و صنایع گوناگون را به خود جلب کرده است. این مبحث، منجر به شکل‌گیری مشاغل گوناگونی نیز شده است؛ اغلب مشاغل حوزه علم داده، پردرآمد و جذاب هستند. افرادی که علاقه‌مند به اشتغال در حوزه علم داده هستند و با مجموعه مهارت‌های لازم برای این حوزه آشنایی دارند، می‌دانند که زبان‌های برنامه‌نویسی «پایتون» (Python) و «آر» (R) دو مورد از محبوب‌ترین و توانمندترین زبان‌ها برای تحلیل داده محسوب می‌شوند. افرادی که اطمینان ندارند ابتدا کدام یک از این دو زبان را بیاموزند، می‌توانند با مطالعه این مطلب به تردید خود پایان دهند و پس از انتخاب زبان، کار یادگیری را آغاز کنند. هنگامی که صحبت از تحلیل داده می‌شود، زبان‌های پایتون و R به عنوان دو زبان آزاد و رایگان که نصب و فراگیری آن‌ها ساده است، مطرح می‌شوند. برای افراد تازه‌ وارد به دنیای علم داده که فاقد تجربه برنامه‌نویسی در این دو زبان یا به طور کلی زبان‌های برنامه‌نویسی هستند، طبیعی است که در ابتدای راه مردد باشند که ابتدا پایتون را بیاموزند یا R. خوشبختانه، فرد هر کدام از این زبان‌ها را که اول بیاموزد، ضرر نکرده و توانسته مهارت مفیدی در حوزه علم داده به دست بیاورد. در ادامه، ابتدا به چرایی انتخاب زبان R، سپس پایتون و در نهایت با پاسخ دادن به پرسش «زبان پایتون یا R»، به چگونگی انتخاب از میان این دو پرداخته می‌شود.

══ فهرست مطالب ══

‏ ○ چرا R؟
‏ ○ چرا پایتون؟
‏ ○ زبان پایتون یا R


🔸 چرا R؟

‏R از جمله زبان‌های قدیمی و قابل اعتماد به شمار می‌آید که دارای یک جامعه کاربری قدرتمند در حوزه علم داده است. جامعه کاربری R، پشتیبانی مستحکمی را پیرامون این زبان ارائه می‌کنند. این یعنی می‌توان به دریافت پشتیبانی آنلاین از دیگر افراد فعال در زمینه زبان برنامه‌نویسی R امیدوارم بود و در واقع، در صورتی که فرد نیاز به راهنمایی داشته باشد، می‌تواند به جامعه کاربری بزرگ R اعتماد کند.

‏در عین حال، میزان زیاد و در واقع، بیش از ۵,۰۰۰ «بسته» (Package) آماده برای این زبان وجود دارد که می‌توان آن‌ها را دانلود و همراه با R استفاده کرد تا توانایی‌های این زبان برای انجام وظایف گوناگون و جدید، توسعه پیدا کند. این امر موجب می‌شود زبان R گزینه مناسبی برای انجام تحلیل‌های داده اکتشافی باشد. همچنین، R به خوبی با دیگر زبان‌های محاسباتی مانند «سی‌پلاس‌پلاس» (++C)، «جاوا» (Java) و «سی» (C) یکپارچه می‌شود. هنگامی که نیاز به انجام تحلیل‌های آماری سنگین یا رسم نمودار باشد، R یک گزینه قابل توجه است. عملیات ریاضی متداول مانند ضرب ماتریس‌ها، در زبان R به خوبی و سادگی قابل انجام است و «نحو» (Syntax) آرایه محور این زبان، آن را به گزینه‌ای مناسب برای ترجمه ریاضیات به کد به ویژه برای افراد فاقد پیش‌زمینه برنامه‌نویسی مبدل کرده است.


🔸 چرا پایتون؟

‏پایتون یک زبان برنامه‌نویسی همه منظوره است که می‌تواند تقریبا هر کاری که کاربر نیاز داشته باشد را انجام دهد. از جمله این کارها می‌توان به «پیش‌پردازش داده‌ها» (Data Preprocessing)، «مهندسی داده‌ها» (Data Engineering)، «وب اسکرپینگ» (Website Scraping)، ساخت «اپلیکیشن وب» (Web App) و دیگر موارد اشاره کرد. برای افرادی که دانش پیشین در حوزه «برنامه‌نویسی شی‌گرا» (Object-Oriented Programming) دارند، تسلط بر پایتون ساده‌تر از فراگیری R است.

‏علاوه بر آن، به دلیل آنکه پایتون یک زبان برنامه‌نویسی شی‌گرا است، نوشتن کدهای بزرگ مقیاس، قابل نگهداری و مستحکم در پایتون، نسبت به R ساده‌تر است. با بهره‌گیری از زبان برنامه‌نویسی پایتون، کاربر می‌تواند کد نمونه اولیه‌ای که برای خود و روی کامپیوتر شخصی‌اش نوشته است را به عنوان کد محصول، مورد استفاده قرار دهد. اگرچه پایتون مانند زبان R دارای بسته‌های جامعی برای انجام تحلیل‌های آماری نیست، اما وجود کتابخانه‌ها و ابزارهایی مانند «پانداس» (Pandas)، «نام‌پای» (NumPy)، «سای‌پای» (Scipy)، «سایکیت‌لرن» (Scikit-Learn) و «سیبورن» (Seaborn) موجب شده تا زبان پایتون به گزینه‌ای فوق‌العاده برای «تحلیل داده» (Data Analytics)، «هوش مصنوعی» (Artificial Intelligence) و «یادگیری ماشین» (Machine Learning) مبدل شود. این زبان کم کم در حال مبدل شدن به گزینه‌ای بی‌نظیر برای یادگیری ماشین و انجام وظایف آماری ابتدایی و متوسط (قبلا در دامنه وظایف زبان R بود) است.



مطالعه ادامه مطلب 👇

🔗 کدام زبان برای داده کاوی بهتر است، پایتون یا R؟ — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آزمون تی طبقه ای در SAS و R — راهنمای کابردی

‏آزمون تی طبقه ای یک روش تجزیه و تحلیل است که اغلب نادیده گرفته می شود در حالیکه یک آزمون مقایسه قوی را ارائه می‌دهد. امروزه، با ظهور قدرت محاسباتی بیشتر و سرعت پردازش سریعتر، آزمون‌های دیگری به جای آزمون تی طبقه ای مورد استفاده قرار می‌گیرد برای مثال «تحلیل کوواریانس» (ANCOVA) یکی از روش‌های جایگزین برای آزمون t طبقه ای است، که خروجی مشابه نیز دارد.

══ فهرست مطالب ══

‏ ○ آزمون تی طبقه ای
‏ ○ پیش‌فرض‌های آزمون تی طبقه ای
‏ ○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
‏ ○ خلاصه و جمع‌بندی


🔸 آزمون تی طبقه ای

‏آزمون تی برای مقایسه میانگین یک جامعه نرمال با مقدار ثابت یا انجام آزمون فرض آماری برای اختلاف میانگین در دو جامعه نرمال مورد استفاده قرار می‌گیرد. البته فرض بر این است که واریانس هر دو جامعه برابر ولی نامشخص است. هر چند اصلاحی نیز برای زمانی که واریانس دو جامعه اختلاف داشته باشند، مطرح شده و آماره آزمون تی براساس برآورد دیگری از واریانس صورت می‌گیرد. شرط استفاده از آزمون تی و آماره آن، مستقل بودن هر دو جامعه و تصادفی بودن نمونه‌ها است.

‏اما رویکرد دیگری که برای اجرای آزمون تی وجود دارد، تهیه نمونه‌ها براساس یک طرح نمونه‌گیری طبقه‌ای است. در این صورت نمونه‌ها مستقل از دو جامعه، طی یک «نمونه‌گیری طبقه‌ای» (Stratified) جمع‌آوری شده‌اند. در این صورت برای محاسبه میانگین و واریانس آماره آزمون تی، باید تغییراتی صورت گیرد. البته توجه داشته باشید که آماره حاصل باز هم دارای توزیع تی بوده و برای تصمیم نسبت به رد یا تایید فرض صفر به جدول‌های این توزیع مراجعه می‌شود.

‏از آنجایی که طرح نمونه‌گیری طبقه‌ای به کار رفته و ممکن است رابطه‌ای بین طبقه‌ها وجود داشته باشد، در این آزمون یک متغیر همبسته با طبقه به صورت مزاحم وجود دارد که بوسیله محاسبات صورت گرفته، سعی داریم اثر آن را از بین ببریم. به همین علت گاهی آزمون تی طبقه ای را مشابه با تحلیل و «آنالیز کوواریانس» (ANCOVA) یا Analysis of Covariance می‌دانند.


🔸 پیش‌فرض‌های آزمون تی طبقه ای

‏ما در این متن روش آزمون تی طبقه ای را بوسیله یک ماکرو کامل به زبان برنامه‌نویسی SAS و همچنین کدهایی به زبان R، ارائه کرده و نتایج را از تجزیه و تحلیل دریافت و یک جدول اساسی برای نمایش خروجی ایجاد کردیم. البته به یاد داشته باشید قبل از به کارگیری آزمون، باید داده‌های مورد تجزیه و تحلیل را بررسی کنیم تا از نرمال بودن آن‌ها اطمینان حاصل کنیم.

‏در روشهای آمار پارامتری فرض بر این است که داده‌ها دارای توزیع شناخته شده و معینی هستند. در بیشتر موارد در آمار کلاسیک این توزیع برای داده‌ها، توزیع گاوسی یا نرمال در نظر گرفته می‌شود. ولی اگر توزیع این داده‌ها گاوسی یا نرمال نباشد، پیش‌فرض‌های مربوط به آزمون‌ها و تحلیل‌های آمار پارامتری (Parametric Methods) و کلاسیک نقض شده و باید از روش‌های آماری «غیرپارامتری» یا «ناپارامتری» (Non Parametric Methods) استفاده کرد. ولی سوال در اینجا این است که چگونه از نرمال بودن داده‌ها مطلع شویم؟

‏خوشبختانه روش‌های زیادی به منظور سنجش و آزمودن نرمال بودن داده (Normality Test) وجود دارد که می‌توان از آنها استفاده کرد. البته از آنجایی که در این بین از آزمون آماری و مقدار احتمال (P-value) صحبت به میان می‌آید بهتر است در مورد هر یک از این اصطلاحات در نوشتارهای آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات و مقدار احتمال (p-Value) — معیاری ساده برای انجام آزمون فرض آماری اطلاعاتی کسب کنید تا مفاهیم و روش‌های نرمالیتی و سنجش توزیع داده‌ها را بهتر درک کنید. البته در اینجا از معرفی این تکنیک‌ها صرف نظر کرده و خواننده را به لینک‌ها ارائه شده، ارجاع می‌دهیم.



مطالعه ادامه مطلب 👇👇

🔗 آزمون تی طبقه ای در SAS و R — راهنمای کابردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی

‏هنگام کار با یک مجموعه داده، ممکن است به مشاهداتی برخورد کنیم که یک یا چند متغیر یا ویژگی آن، مقدار نداشته باشند. این مشکل اغلب در صورتی اتفاق می‌افتد که در هنگام جمع اوری داده‌ها دقت کافی صورت نگرفته باشد. در چنین مواردی می‌گوییم که مشاهدات دارای «مقدار گمشده» (Missing Value) هستند یا مجموعه داده از مشکل داده گمشده رنج می‌برد. راه‌ کارهای مختلفی برای مجموعه داده با مقادیر گمشده وجود دارد که هر یک از آن‌ها دارای معایب با مزایایی خاص خودش است. در این متن به مدیریت داده پرت در داده کاوی پرداخته و محاسبات و عملیات را به کمک زبان برنامه‌نویسی پایتون مورد تحلیل قرار می‌دهیم. خوشبختانه در پایتون کتابخانه متعددی برای بررسی و مدیریت داده گمشده در داده کاوی وجود دارد. در لابلای متن از الگوریتم‌ها و کدهایی به زبان پایتون برای این امر استفاده خواهیم کرد.

══ فهرست مطالب ══

‏ ○ مدیریت داده گمشده در داده کاوی با پایتون
‏ ○ خلاصه و جمع‌بندی


🔸 مدیریت داده گمشده در داده کاوی با پایتون

‏به روش‌های مختلفی می‌توان بر مشکل داده‌ها گمشده یا از دست داده رفته، غلبه پیدا کرد. به موضوعات زیر توجه کنید. هر یک از آن‌ها لزوم توجه به داده‌های گمشده را به نوعی بیان می‌کند.

‏– یک خانه ۲ خوابه اطلاعاتی برای اندازه یا مساحت اتاق خواب سوم ارائه نمی‌کند.

‏– ممکن است شخصی که تحت نظرسنجی قرار گرفته است، درآمد خود را مشخص نکند.

‏کتابخانه‌های پایتون داده‌های گمشده را به صورت عبارت nan نشان می‌دهند که مخفف “not a number” است. به کمک توابع مرتبط با این کتابخانه‌ها می‌توانید مشخص کنید که کدام سلول‌ها مقادیر گمشده دارند و سپس با دستوراتی نظیر کد زیر تعداد هر ستون یا متغیرهای مجموعه داده را بشمارید:

‏اگر می‌خواهید با استفاده از داده‌ها با «مقادیر گمشده» (Missing Data) یا از دست رفته، مدلی بسازید، بیشتر کتابخانه‌ها (از جمله scikit-learn) و تابع مدل‌سازی پیغامی مبنی بر وجود خطا ظاهر می‌سازند. بنابراین شما باید برای غلبه بر این خطاها و مشخص کردن یا مدیریت مقدار گمشده در مجموعه داده، یکی از راهکارهای زیر را انتخاب کنید.


🔸 خلاصه و جمع‌بندی

‏در این نوشتار به موضوع مدیریت داده گمشده در داده کاوی به زبان پایتون پرداختیم. از آنجایی که یکی از مراحل اصلی در داده کاوی، عمل پاکسازی داده‌ها است، بررسی داده گمشده بسیار مهم جلوه می‌کند. اگر مشاهدات با داده گمشده را از مدل آماری و تحلیل کنار بگذاریم، ممکن است تعداد نمونه‌های مورد استفاده کاهش یافته و مدل از عمومیت خارج شود. از طرفی اگر مقدار داده گمشده را با یک مقدار ثابت جایگزین کنیم، با مشکل اریبی برخورد خواهیم کرد. با این وجود الگوریتم‌های متعددی در برای جایگزین و مدیریت داده گمشده وجود داشته که بخصوص در پایتون تحت کتابخانه sklearn مختلف، پیاده‌سازی شده‌اند. در این متن به بررسی این الگوریتم‌ها یا راه‌ کارهای جایگزینی و مدیریت داده گمشده در مجموعه اطلاعات و مشاهدات آماری پرداختیم.

‏اگر این مطلب برای شما مفید بوده است، آموزش‌ها و مطالب زیر نیز به شما پیشنهاد می‌شوند:

‏– مجموعه آموزش‌های آمار و احتمالات

‏– آموزش داده کاوی و زبان برنامه نویسی R

‏– مجموعه آموزش‌های داده کاوی و یادگیری ماشین

‏– آموزش شبکه های عصبی گازی به همراه پیاده سازی عملی در متلب

‏– داده‌ گمشده یا ناموجود (Missing Data) در R – روش‌های پاکسازی داده‌ها

‏– داده‌‌های سانسور شده (Censored Data) در آمار — به زبان ساده



مطالعه ادامه مطلب 👇👇

🔗 مدیریت داده گمشده در داده کاوی با پایتون | راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی

‏آزمون واریانس یک طرفه (One-way ANOVA) یکی از محبوب‌ترین آزمون‌های آماری است که به مقایسه و بررسی میانگین بین سه یا چند جامعه می‌پردازد. البته برای استفاده از این آزمون یا تحلیل، شرایطی نیز وجود دارد که قبل از اجرای آن باید مورد بررسی قرار گیرند. در این نوشتار از مجله فرادرس به نحوه انجام آنالیز واریانس یک طرفه در اکسل خواهیم پرداخت و با ذکر مثالی، خروجی‌های حاصل در اکسل را مشاهده و نتیجه آزمون را مشخص خواهیم کرد.

══ فهرست مطالب ══

‏ ○ آنالیز واریانس یک طرفه در اکسل
‏ ○ فیلم آموزش محاسبات آماری با اکسل
‏ ○ خلاصه و جمع‌بندی


🔸 آنالیز واریانس یک طرفه در اکسل

‏از مطالب دیگر مجله فرادرس در زمینه تحلیل یا آنالیز واریانس، فرا گرفتید که جدول تحلیل واریانس برای مقایسه میانگین در بین سه گروه یا بیشتر مورد استفاده قرار می‌گیرد. فرض کنید سه جامعه مستقل از یکدیگر (دانش آموزان مقطع پیش‌دبستان، دبستان و دبیرستان) دارید که برایشان یک ویژگی (مثلا وزن) را اندازه‌گیری کرده‌اید. به کمک تحلیل واریانس می‌توانیم نشان دهیم که وزن این سه گروه، با یکدیگر اختلاف داشته و این تفاوت‌ها، از لحاظ آماری نیز معنی‌دار است. البته توجه داشته باشید که ممکن است توسط تحلیل واریانس به این نتیجه برسیم که هر سه گروه یکسان هستند و میانگین در بین این سه جامعه تفاوت یا اختلاف آماری ندارند.

‏نکته: منظور از اختلاف آماری، با اختلاف ریاضی متفاوت است. از آنجایی که با استفاده از نمونه آماری دست به استنباط زده‌ایم، ممکن است اختلاف در میانگین نمونه‌ها ناشی از خطای نمونه‌گیری بوده و واقعا جوامع با هم تفاوت نداشته باشند. این مفهوم نشانگر عدم اختلاف آماری بین میانگین جوامع است در حالیکه از لحاظ ریاضی میانگین نمونه‌ها، با یکدیگر متفاوت هستند.

‏به این ترتیب، آنالیز واریانس یک تکنیک برای اجرای آزمون فرض آماری محسوب می‌شود که اجازه انجام آزمون همزمان روی میانگین برای بیش از سه جامعه یا گروه را به محقق یا تحلیل‌گر آماری، می‌دهد. توجه دارید که در آزمون فرض آماری، ابتدا نمونه‌هایی جمع آوری شده، سپس براساس مقادیر آن‌ها در سه گروه مختلف، می‌توانیم نسبت به رد یا تایید فرضیه آماری تصمیم بگیریم. فرضیه‌های آماری احکامی هستند که برای جامعه آماری صادر می‌شود. به این معنی که به واسطه مقادیر جمع‌آوری شده از نمونه و به کارگیری محاسبات و قوانین مربوط به آزمون فرض، در مورد جامعه آماری به یک نتیجه‌گیری می‌رسیم.


🔸 فیلم آموزش محاسبات آماری با اکسل

‏اغلب کسانی که در سطح ابتدایی یا متوسط به کار تحلیل داده یا محاسبات آماری می‌پردازند، از اکسل به عنوان ابزار محاسباتی بهره می‌برند. خوشبختانه در یکی از آموزش‌های فرادرس به معرفی قابلیت‌های این نرم‌افزار در انجام تحلیل‌های آماری و اجرای فرمول‌های آماری پرداخته شده است. از آنجایی که ممکن است پیاده‌سازی فرمول‌های آماری در اکسل برای کاربران مبتدی سخت باشد، افزونه‌ای برای انجام این گونه تحلیل‌ها در اکسل تعبیه شده که در فیلم آموزش محاسبات آماری در اکسل نیز به آن اشاره شده است. بعضی از مواردی که در این آموزش در مورد آن بحث و بررسی صورت گرفته در ادامه شرح داده شده‌اند:

‏– درس اول: شیوه بدست آوردن شاخص‌های توصیفی (Denoscriptive Statistics) که نمایی کلی از جامعه و ویژگی‌های آن در اختیار کاربر قرار می‌دهد، از موارد اولیه درس اول محسوب می‌شود. همچنین تشکیل فاصله اطمینان (Confidence Interval) برای میانگین، رسم نمودار هیستوگرام (Histogram)، آزمون فرض مربوط به میانگین جامعه نرمال، آزمون و تجزیه و تحلیل واریانس یک طرفه و دوطرفه، همچنین رگرسیون خطی (Linear regression) و ایجاد اعداد تصادفی (random number generation) از دیگر مواردی است که در درس اول به آن‌ها پرداخته می‌شود.

‏– درس دوم: توابع توزیع آماری (distribution function) و معادله خط برگشت (Regression) محاسباتی شامل توابع شاخص‌های تمرکز، شاخص‌های پراکندگی، شاخص‌های تقارن و عدم تقارن، ضرایب همبستگی و کوواریانس، معکوس توابع توزیع آماری و رگرسیون و خط بازگشت است.



مطالعه ادامه مطلب 👇👇

🔗 آنالیز واریانس یک طرفه در اکسل — راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی

‏در این مقاله به بررسی برخی ابزارهای نرم افزاری ضروری برای پروژه های علوم داده و تنظیمات آن‌ها برای ایجاد یک گردش کاری با بهره‌وری بالا و کار تیمی در حوزه علوم داده می‌پردازیم. این راهنما به طور عمده برای افرادی مفید است که به تازگی شروع به کار روی پروژه‌های یادگیری ماشین کرده‌اند. همچنین برای برخی دانشمندان علوم داده که می‌خواهند رایانه جدیدی را برای استفاده در این حوزه پیکربندی کنند، جهت یادآوری پاره‌ای موارد مفید خواهد بود.

══ فهرست مطالب ══

‏ ○ گیت
‏ ○ پایتون
‏ ○ VSCode
‏ ○ Notion
‏ ○ Grammarly
‏ ○ سخن پایانی


🔸 گیت

‏در این بخش فرض ما بر این است که شما تا حدودی با گیت و گیت‌هاب آشنا هستید. اگر فکر می‌کنید که باید در این خصوص مطالبی بیاموزید و یا اطلاعات خود را یادآوری کنید، می‌توانید از مطلب زیر استفاده کنید:

‏– راهنمای پیشرفته Git برای مبتدیان — به زبان ساده

‏مؤثرترین روش برای تعامل با ریپازیتوری گیت‌هاب از طریق یک اپلیکیشن ترمینال مانند iTerm۲ است (روی سیستم‌های مک) که یکپارچگی شگفت‌انگیزی با گیت ارائه می‌کند و با ارائه پیشنهادهای خودکار، هایلایت کردن سینتکس و موارد مشابه به بهبود فرایند کار، کمک شایان توجهی می‌کند. علاوه بر این موارد امکان باز کردن تصاویر (و گیف) به صورت مستقیم در ترمینال نیز فراهم می‌شود.

‏پروژه شما شایسته چیزی فراتر از یک صفحه ساده README است و از این رو می‌توانید یک توصیف پروژه زیبا برای آن بنویسید و برخی مدال‌ها (Badges) مانند تصویر زیر بر آن بیفزایید.


🔸 پایتون

‏در این بخش به توضیح روش نصب لوکال پکیج‌های پایتون با استفاده از pip و virtualenv می‌پردازیم. اگر نیاز داشته باشید که جدیدترین نسخه از پایتون را به دست آورید، می‌توانید از دستور زیر بهره بگیرید:

‏دستور فوق جدیدترین نسخه از python و pip را روی سیستم شما نصب می‌کند. اگر از قبل نسخه‌ای قدیمی از پایتون مثلاً نسخه ۲ روی سیستم نصب باشد، و دستور python به آن لینک شده باشد (این موضوع را با اجرای دستور python –version بررسی کنید)، در این صورت brew دستورهای python۳ و pip۳ را به شما ارائه می‌کند.

‏ابتدا ابزار مدیریت محیط را با دستور زیر نصب می‌کنیم:



مطالعه ادامه مطلب 👇👇

🔗 ابزارهای نرم افزاری ضروری برای پروژه های علوم داده | راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ برنامه نویسی پویا در علم داده | راهنمای کاربردی

‏در این مطلب، مفاهیم برنامه نویسی پویا در علم داده مورد بررسی قرار گرفته و این مبحث همراه با مثال‌هایی که درک آن‌ها آسان باشد شرح داده شده است.

══ فهرست مطالب ══

‏ ○ برنامه نویسی پویا در علم داده
‏ ○ برنامه نویسی پویا در علم داده چطور کار می‌کند؟
‏ ○ چرا برنامه نویسی پویا در علم داده دشوار است؟
‏ ○ مثالی از برنامه نویسی پویا در علم داده
‏ ○ کدنویسی و برنامه نویسی پویا در علم داده
‏ ○ جمع‌بندی


🔸 برنامه نویسی پویا در علم داده

‏الگوریتم‌ها و ساختارهای داده، بخش جدایی ناپذیری از «علم داده» (Data Science) هستند. با وجود آنکه اغلب «دانشمندان داده» (Data Scientists) در طول مطالعات خود، دوره‌های تحلیل و طراحی الگوریتم مناسبی را نمی‌گذارند، اما این مبحث بسیار حائز اهمیت است و دانشمندان داده نیز نیازمند آن هستند که با مبحث ساختار داده و طراحی الگوریتم آشنایی کامل و جامع داشته باشند. شایان توجه است که بسیاری از شرکت‌ها، طی فرایند مصاحبه شغلی برای استخدام دانشمند داده، پرسش‌هایی پیرامون «طراحی الگوریتم» (Algorithm Design) و «ساختمان داده» (Data Structure) نیز مطرح می‌کنند. اکنون، پرسشی که افراد زیادی با آن مواجه می‌شوند این است که اهمیت پرسیدن سئوالاتی پیرامون ساختمان داده از متقاضیان استخدام به عنوان دانشمند داده چیست. در پاسخ به این پرسش در ساده‌ترین حالت می‌توان گفت، جوابی که فرد به این پرسش می‌دهد، می‌تواند به نوعی سطح دانش برنامه‌نویسی او را نشان دهد. بنابراین، توصیه می‌شود که علاقه‌مندان به اشتغال در مشاغل حوزه علم داده، مطالعاتی نیز پیرامون ساختمان داده و طراحی الگوریتم داشته باشند.


🔸 برنامه نویسی پویا در علم داده چطور کار می‌کند؟

‏فرض می‌شود که قرار است nامین عدد فیبوناچی پیدا شود. سری فیبوناچی یک دنباله از اعداد است که در آن، هر عدد (عدد فیبوناچی) مجموعه دو عدد ماقبل خودش است. آغاز سری فیبوناچی به صورت زیر است:

‏۱, ۱, ۲, ۳, ۵, ۸

‏برنامه محاسبه سری فیبوناچی در ادامه آمده است.



مطالعه ادامه مطلب 👇👇

🔗 برنامه نویسی پویا در علم داده | راهنمای کاربردی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ داده‌کاوی (Data Mining)

در این مطلب به مباحث «داده کاوی» (Data Mining) از صفر تا صد پرداخته شده است. با پیشرفت سریع «فناوری اطلاعات» (Information Technology)، بشر شاهد یک رشد انفجاری در تولید «داده» (Data) و ظرفیت‌های گردآوری و ذخیره‌سازی آن در دامنه‌های گوناگون بوده است. در جهان کسب‌و‌کار، «پایگاه‌داده‌های» (Databases) بسیار بزرگی برای تراکنش‌های تجاری وجود دارند که توسط خرده‌فروشان و یا در «تجارت الکترونیک» (E-commerce) ساخته شده‌اند.


🔹 فهرست مطالب این نوشته

▫️ داده کاوی چیست؟

▫️ تاریخچه داده‌کاوی

▫️ چرا داده کاوی

▫️ انواع منابع داده


🔸 داده کاوی چیست؟

به مجموعه‌ای از روش‌های قابل اعمال بر پایگاه داده‌های بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان داده‌ها، داده‌کاوی گفته می‌شود.


🔸 تاریخچه داده‌کاوی

در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیت‌های «تحلیل داده» (Data Analytics) استفاده می‌کردند. اصطلاح «داده‌کاوی» در حدود سال ۱۹۹۰ در جامعه پایگاه‌داده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسب‌تر برای فرآیند داده‌کاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.


🔸 چرا داده کاوی

با رشد و افزایش توجهات به داده‌کاوی، پرسش «چرا داده‌کاوی؟» همواره مطرح می‌شود. در پاسخ به این پرسش باید گفت، داده‌کاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینه‌ای جوان و آینده‌دار برای نسل کنونی محسوب می‌شود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع داده‌ها، نیاز حتمی به تبدیل چنین داده‌هایی به اطلاعات و دانش وجود دارد.


🔸 انواع منابع داده

در این بخش، انواع منابع داده‌ای که همه روزه حجم انبوهی از داده‌ها را تولید و یا ذخیره می‌کنند، مورد بررسی قرار گرفته‌اند.

● تراکنش‌های کسب‌و‌کار

● داده‌های علمی

● داده‌های شخصی و پزشکی

● تصاویر و ویدئوهای نظارتی

●رقابت‌های ورزشی

● رسانه‌های دیجیتال

● دنیاهای مجازی

● جهان‌های مجازی

● گزارش‌ها و اسناد متنی



ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 داده‌کاوی (Data Mining) — از صفر تا صد — کلیک کنید.




📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ داده کاوی (Data Mining) و مفاهیم کلیدی آن

در این مطلب، مفاهیم کلیدی «داده کاوی» (Data Mining) مورد بررسی قرار خواهد گرفت. این مفاهیم در کلیه مسائل این حوزه مشترک محسوب می‌شوند و یادگیری آن‌ها از الزامات یادگیری داده‌کاوی است.


🔹 فهرست مطالب این نوشته

▫️ مفاهیم مقدماتی

▫️ انواع ویژگی

▫️ جبر خطی و آمار

▫️ روش‌های داده‌کاوی


🔸 مفاهیم مقدماتی

در ادامه برخی مفاهیم مقدماتی داده‌کاوی و علم داده مورد بررسی قرار می‌گیرند.

● نویز

● داده

● قالب داده

● داده‌های خارجی

● داده‌های خارجی

● Overlay

● داده کاوی

● موتور داده‌کاوی

● پایگاه دانش

● داده‌های ناموجود

● داده‌های غیر قابل اجرا

● پاک‌سازی

● یکپارچه‌سازی داده‌ها

● تبدیل

● بصری‌سازی

● استقرار

● سیستم مدیریت پایگاه داده

● سیستم مدیریت پایگاه داده رابطه‌ای

● رابط کاربری


🔸 انواع ویژگی

یک مجموعه داده از نمونه‌ها و ویژگی‌ها (خصیصه‌ها) تشکیل می‌شود. یک ویژگی، فیلد داده‌ای است که مشخصه‌های یک شی داده را ارائه می‌کند.

● پیوسته

● گسسته

● داده‌های دسته‌ای

● بسته‌بندی

● ابعاد


🔸 جبر خطی و آمار

روش‌های آماری و مباحث جبر خطی کاربردهای بسیاری در علم داده و داده‌کاوی دارند. از جمله مفاهیم آماری پر کاربرد در داده‌کاوی می‌توان به معیارهای تمرکز و شاخص‌های پراکندگی اشاره کرد.

● میانگین

● میانه

● مُد

● نرمال‌سازی

● کمترین مربعات

● واریانس

● MARS

● بیشینه درست‌نمایی


🔸 روش‌های داده‌کاوی

روش‌های داده‌کاوی در واقع روال‌ها و الگوریتم‌هایی هستند که برای تحلیل داده‌ها در پایگاه داده مورد استفاده قرار می‌گیرند. این روش‌ها در سه دسته قرار می‌گیرند.

● تحلیل‌های اکتشافی

● استنتاج

● استقرا


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده — کلیک کنید.




📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ انواع ویژگی ها (خصیصه ها) و مفهوم بردار ویژگی در داده کاوی

چنانکه پیش‌تر تشریح شد، مجموعه‌های داده از نمونه‌ها و ویژگی‌ها (خصیصه‌ها) تشکیل می‌شوند. یک شی داده نمایانگر یک موجودیت است.


🔹 فهرست مطالب این نوشته

▫️ ویژگی چیست؟

▫️ویژگی‌های گسسته و پیوسته


🔸 ویژگی چیست؟

یک ویژگی (خصیصه)، فیلد داده‌ای است که مشخصه‌های یک شی داده را ارائه می‌کند.


🔸 ویژگی‌های گسسته و پیوسته

همانطور که پیش از این بیان شد، ویژگی‌ها در دسته‌های اسمی، دودویی، ترتیبی و عددی قرار دارند. راه‌های زیادی برای سازمان‌دهی انواع خصیصه‌ها وجود دارد. این انواع دو به دو ناسازگار نیستند. الگوریتم‌های دسته‌بندی از زمینه‌ای از یادگیری ماشین توسعه یافته‌اند که اغلب درباره ویژگی‌های گسسته یا پیوسته سخن می‌گویند.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 انواع ویژگی‌ها (خصیصه‌ها) و مفهوم بردار ویژگی در داده‌کاوی — کلیک کنید.


📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ پیش‌پردازش داده‌ها در داده‌کاوی

شروع هر نوع کار و عملیاتی در مرحله اول، دارای یک سری مقدمات و پیش‌نیازها است. «داده‌کاوی» (Data Mining) نیز از این قانون مستثنی نبوده و نیازمند آماده‌سازی و پردازش‌های مقدماتی است. در علم داده‌کاوی، تمامی داده‌هایی که برای هدف مورد نظر استفاده خواهند شد، باید پیش از شروع پردازش با استفاده از روش‌هایی، آماده و تنظیم و یا به اصطلاح «پیش‌پردازش» (Preprocess) شوند. مرحله آماده‌سازی داده‌ها قبل از پردازش را، پیش‌پردازش (Preprocessing) می‌گویند.


🔹 فهرست مطالب این نوشته

▫️پیش‌پردازش داده‌ها: داده های ناموجود

▫️پیش‌پردازش داده‌ها: تحلیل داد‌ه‌های پرت

▫️ نرمال‌سازی داده‌‌ها


🔸 پیش‌پردازش داده‌ها: داده‌های ناموجود

در برخی موارد، ممکن است بعضی از ویژگی‌های مربوط به یک یا چند نمونه، فاقد مقادیر معتبر باشند. این امر می‌تواند دلایل مختلفی داشته باشد، از جمله نویزی (Noise) بودن داده‌های ثبت شده، عدم ثبت و یا نامعتبر بودن مقدار آن. این داده‌ها را داده‌های ناموجود (Missing Data | Null Data | داده‌های گم‌شده)، می‌نامند.


🔸پیش پردازش داده‌ها: تحلیل داد‌ه‌های پرت

در برخی موارد، ممکن است به دلایلی، مقادیری در مجموعه داده ظاهر شوند که تفاوت زیاد و غیر معمولی با سایر مقادیر موجود در مجموعه داشته باشند، این داده‌ها را داده‌های پرت می‌گویند.


🔸 نرمال‌سازی داده‌‌ها

نرمال‌سازی داده‌ها از جمله مهمترین مراحل پیش‌پردازش در علم داده‌کاوی است.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 پیش پردازش داده‌ها در داده‌کاوی — به زبان ساده — کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ روش انتخاب الگوریتم داده کاوی

الگوریتم، روشی که برای جستجوی الگو در داده‌ها مورد استفاده قرار می‌گیرد را تعیین می‌کند و در واقع مانند یک روال ریاضی برای حل یک مساله خاص است.


🔸 روش انتخاب الگوریتم داده‌کاوی

هیچ راهنمای مشخصی برای آنکه پژوهشگران یا تحلیلگران چگونه الگوریتم انتخاب کنند وجود ندارد. در مقاله‌ای که در همین رابطه نوشته شده، انتخاب الگوریتم مناسب را یکی از چالش‌های موجود برای اغلب پژوهشگران حوزه داده‌کاوی بیان می‌کنند. انتخاب یک الگوریتم مشخص امری بسیار پیچیده است، لذا برخی از پژوهشگران برای ارتقای نتایج داده‌کاوی از چندین الگوریتم استفاده کرده و پردازش‌ها را با الگوریتم‌های مختلف تکرار می‌کنند.


🔸 هدف مساله

هدف اصلی مساله‌ای که قرار است حل شود برای انتخاب الگوریتم داده‌کاوی حائز اهمیت است. این مولفه شامل در نظر گرفتن دلایل چرایی کاوش داده‌ها و ماهیت مساله‌ای که قصد حل کردن آن وجود دارد می‌شود.


🔸 ساختار داده

ساختار مجموعه داده مولفه دیگری است که در تعیین الگوریتم مورد استفاده نقش مهمی دارد.


🔸 نتایج مورد انتظار

هر فرآیند داده‌کاوی باید یک خروجی به عنوان راه حل مساله داشته باشد که در واقع نتیجه مورد انتظار مساله است. هدف اصلی داده‌کاوی شناسایی الگوها و گرایش‌ها در داده‌ها است تا از این دانش در تصمیم‌گیری‌ها استفاده شود. بسته به‌نوع نتایج مورد انتظار، داده‌کاوان الگوریتمی را انتخاب می‌کنند که قادر به تولید آن نتایج است.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 روش انتخاب الگوریتم داده کاوی — کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ داده‌کاوی فازی چیست؟

نظریه «مجموعه‌های فازی» (Fuzzy Sets) نقش مهمی در «داده‌کاوی» داشته و منجر به ظهور مبحث «داده کاوی فازی» شده است. داده‌کاوی فازی یک افزونه از داده‌کاوی محسوب که با مدل‌سازی مجموعه‌های فازی انجام می‌شود و مدیریت اطلاعات قابل تفسیر و ذهنی را در فرآیندهای ورودی و خروجی داده‌کاوی امکان‌پذیر می‌سازد.


🔸 اشکال گوناگون فازی بودن در داده‌کاوی فازی

اطلاعات ذهنی و عاطفی پس از ارائه مبحث فازی طرح شدند و امکان کاوش اطلاعات پیچیده‌ای که در محیط کلاسیک ارزش‌های صفر و یک کار با آن‌ها دشوار است را با در نظر گرفتن عواطف فراهم می‌کنند.


🔸 داده‌ها و دانش ورودی

ورودی گام یادگیری ماشین ترکیبی از داده‌ها و دانش پایه‌ای است. داده‌ها معمولا به عنوان یک مجموعه آموزش که الگوریتم یادگیری از آن ارتباطات یا همبستگی‌ها را استخراج و مدل را استنتاج می‌کند، فراهم می‌شوند. دانش از اطلاعات پس‌زمینه‌ای که به الگوریتم یادگیری برای مدیریت مجموعه آموزش یا سرعت بخشیدن به آن کمک می‌کند، ساخته می‌شود. فازی بودن در داده‌کاوی در دو سطح داده‌های فازی و دانش فازی به وقوع می‌پیوندد.


🔸 مدل

مدل در پایان گام پنجم فرآیند داده‌کاوی تولید می‌شود. بسیاری از الگوریتم‌های یادگیری ماشین کلاسیک به الگوریتم‌های فازی توسعه یافته‌اند. پژوهش‌های بسیاری در زمینه درخت‌های تصمیم فازی و دیگر الگوریتم‌های مبتنی بر قوانین فازی انجام شده است. چالش اصلی در این موارد ارائه الگوریتمی است که بتواند علاوه بر مدیریت ورودی فازی، مشخصات اصلی الگوریتم‌های کلاسیک را ارضا کند. برخی از الگوریتم‌های کلاسیک برای مدیریت داده‌های پیچیده مانند عقاید یا مجموعه‌های فازی شهودی توسعه یافته‌اند.


🔸دانش خروجی

خروجی فرآیند داده‌کاوی ممکن است به دو شکل باشد. از یک‌سو، خود مدل می‌تواند خروجی فرآیند داده‌کاوی باشد که در این شرایط، هدف مشخصه‌سازی داده‌ها به وسیله مدل داده‌ها است. در صورت فازی بودن دانش خروجی نیاز به استفاده از مدل‌ها و قوانین فازی است.

برای مثال، الگوریتم یادگیرنده می‌تواند مجموعه‌ای از قواعد، دسته‌ها یا «درخت تصمیم» (Decision Tree) را تولید کند. از سوی دیگر، خروجی نتیجه استفاده از مدل با دیگر داده‌ها (داده‌های آزمون) است.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 داده کاوی فازی چیست؟— کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ مباحث ریاضی مورد نیاز برای علم داده

ریاضیات سنگ بنای همه رشته‌های علوم معاصر به حساب می‌آید. تقریباً همه تکنیک‌های علم داده مدرن که شامل «یادگیری ماشین» (Machine Learning) نیز می‌شود، زیرساخت عمیقی از ریاضیات دارند. البته بدیهی است که یک «دانشمند داده» (Data Scientist) به انواع مختلفی از علوم مانند توانایی برنامه‌نویسی، قدرت داوری در مورد مسائل تجاری و ذهنیت منحصربه‌فرد تحلیلی و کاوشگر در مورد داده‌ها هم برای رشد در این حوزه نیاز دارد.

اما می‌دانیم که این کسب اطلاع از زیرساخت‌های یک دانش به هزینه‌های زیادی نیاز دارد. از این رو کسب اطلاعات از سازوکارهای ریاضیاتی که در پسِ الگوریتم‌های زیبا قرار دارند، باعث می‌شود که نسبت به همکاران خود یک پله بالاتر بایستید.


🔹 فهرست مطالب این نوشته

▫️ تابع‌ها، متغیرها، معادله‌ها و گراف‌ها

▫️ آمار

▫️ جبر خطی

▫️ حسابان


🔸 تابع‌ها، متغیرها، معادله‌ها و گراف‌ها

ا
ین حوزه از ریاضیات شامل مباحث مقدماتی از معادله یک خط تا قضیه دوجمله‌ای و مشخصات آن می‌شود:

● توابع لگاریتم، توابع نمایی، اعداد گویا

● مفاهیم و قضیه‌های هندسه مقدماتی، مباحث مثلثات

● اعداد حقیقی، مختلط و مشخصات مقدماتی

● سری‌ها، سری هندسی، تصاعد حسابی و نامعادلات

● رسم گراف و نمودار، مختصات دکارتی، قطبی، استوانه‌ای، کروی و مقاطع مخروطی


🔸 آمار

اهمیت کسب دانشی قوی از مفاهیم ضروری آمار و احتمال در زمینه علم داده غیر قابل انکار است. بسیاری از متخصصان این حوزه، «یادگیری ماشین» کلاسیک (بدون شبکه عصبی) را اساساً چیزی به جز یادگیری آماری نمی‌شمارند. این حوزه بسیار گسترده است و برنامه‌ریزی متمرکزی برای مطالعه همه مفاهیم ضروری مورد نیاز است. برای مطالعه لیست کامل مباحث آماری مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.


🔸 جبر خطی

جبر خطی یکی از شاخه‌های ضروری از ریاضیات است که برای درک طرز کار الگوریتم‌های یادگیری ماشین روی جریان‌های داده‌ای به کار می‌آید. همه چیز از پیشنهاد دوست در فیسبوک تا توصیه موسیقی‌ها در اسپاتیفای و تا تبدیل عکس سلفی به صورت پرتره‌های به سبک سالوادور دالی با استفاده از «یادگیری انتقالی عمیق» (deep transfer learning) شامل ماتریس‌ها و جبر خطی است. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.

🔸 حسابان

چه عاشقش باشید و چه از آن متنفر باشید، در هر حال حسابان در بخش‌های مختلفی از علم داده و یادگیری ماشین نقش دارد. حتی در یک راه‌حل تحلیلی به ظاهر ساده از مسئله معمولی کمترین مربعات در رگرسیون خطی و یا حتی در هر پس‌انتشار شبکه عصبی برای یادگیری یک الگوی جدید، حسابان حضور دارد. برای مطالعه لیست کامل مباحث جبر خطی مورد نیاز برای علم داده، مطلب کامل را در مجله فرادرس مطالعه کنید.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی — کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ علم داده چیست؟

سال‌های مدیدی است که جهان مملو از داده شده، حجم این داده‌ها و سرعت تولید آن‌ها با ظهور وب و البته شبکه‌های اجتماعی رشد فزاینده‌ای داشته. در واقع، حجم داده‌های دیجیتال با سرعت زیادی در حال رشد است.


🔹 فهرست مطالب این نوشته

▫️حجم بالای داده‌ها چگونه ذخیره می‌شوند؟

▫️ چرا داده‌ها مهم هستند؟

▫️ علم داده چیست؟

▫️ مزایای علم داده


🔸 حجم بالای داده‌ها چگونه ذخیره می‌شوند؟

اولین کامپیوترها دارای حافظه‌های چند کیلوبایتی بوده‌اند، اما در حال حاضر گوشی‌های هوشمند توانایی ذخیره‌سازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپ‌تاپ‌ها می‌توانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند.


🔸 چرا داده‌ها مهم هستند؟

داده‌ها به میزان هوشمندی که می‌توان از آن‌ها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از داده‌ها، مستلزم انجام تحلیل‌های موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم داده‌ها است.


🔸 علم داده چیست؟

«
علم داده» (data science)، یک زمینه میان رشته‌ای است که از روش‌ها، فرآیندها، الگوریتم‌ها و سیستم‌های علمی برای استخراج دانش و بینش از داده‌ها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده می‌کند. چیزی مشابه داده‌کاوی! علم داده مفهومی برای یکپارچه‌سازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیده‌ها با استفاده از داده‌ها انجام می‌شود.


🔸 مزایای علم داده

مزیت اصلی علم داده، توانمندسازی و تسهیل تصمیم‌گیری است. سازمان‌هایی که بر علم داده سرمایه‌گذاری می‌کنند، می‌توانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیم‌سازی در کسب‌و‌کار خود استفاده کنند. تصمیم‌های داده‌محور می‌تواند منجر به افزایش سود و بهبود بهره‌وری عملیاتی، کارایی کسب‌و‌کار و جریان‌های کاری بشود.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 علم داده چیست؟ — کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ یادگیری علم داده (Data Science) با پایتون

همه چیز از چند سال پیش و هنگامی که تب تند «علم داده» (Data Science) افراد بیشتری را به خود دچار می‌ساخت آغاز شد. «تحلیل داده» (Data Analytics) و «داده‌کاوی» (Data Mining) خیلی زود به گرایش‌های روز علمی و پژوهشی مبدل شدند و دیری نپایید که کسب‌و‌کارها نیز به دلیل کاربردها و مزایای متعدد این حوزه‌ها به آن‌ها روی آوردند.


🔹 فهرست مطالب این نوشته

▫️ مبانی پایتون برای تحلیل داده

▫️ کتابخانه‌ها و ساختارهای داده در پایتون

▫️ پیش‌پرداز داده‌ها (Data Munging) در پایتون با استفاده از Pandas

▫️ ساخت یک مدل پیش‌بین در پایتون


🔸 مبانی پایتون برای تحلیل داده

در ادامه مبانی لازم جهت یادگیری پایتون برای علم داده بیان شده‌اند.

● چرا بسیاری از افراد برای تحلیل داده پایتون می‌آموزند؟

● پایتون نسخه ۲.۷ در مقایسه با پایتون ۳.۴

●چرا پایتون ۲.۷؟

● چرا پایتون ۳.۴؟

● چگونه می‌توان پایتون را نصب کرد؟

●انتخاب یک محیط توسعه

● اجرای چند برنامه ساده در پایتون


🔸 کتابخانه‌ها و ساختارهای داده در پایتون

پیش از آن که به طور جدی‌تر به حل مساله پرداخته شود، یک گام عقب‌تر رفته و به مبانی پایتون پرداخته می‌شود. چنانکه مشهود است ساختارهای داده، حلقه‌ها و ساختارهای شرطی مبانی زبان‌های برنامه‌نویسی را شکل می‌دهند.

● ساختارهای داده در پایتون

● لیست‌ها (Lists)

● رشته‌ها (Strings)

● تاپل‌ها (Tuples)

● دیکشنری (Dictionary)


🔸 پیش‌پرداز داده‌ها (Data Munging) در پایتون با استفاده از Pandas


مخاطبانی که تا این لحظه مطلب را مطالعه کرده‌اند باید به این نکته توجه داشته باشند که پیش‌پردازش داده‌ها مهم‌ترین گام در فرآیند تحلیل داده است که به آن به عبارتی (Data munging) نیز گفته می‌شود.

● پیش‌پردازش داده‌ها – خلاصه‌ای از نیازها

● بررسی مقادیر ناموجود در مجموعه داده

● چگونه مقادیر ناموجود برای LoanAmount محاسبه می‌شوند؟

●چگونه با مقادیر فوق‌العاده در توزیع LoanAmount و ApplicantIncome برخورد شود؟


🔸 ساخت یک مدل پیش‌بین در پایتون

پس از آنکه داده‌ها پیش پردازش و برای تحلیل مناسب شد، زمان آن رسیده که از کد پایتون برای ساخت یک مدل پیش‌بین روی مجموعه داده موجود استفاده شود.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 یادگیری علم‌داده (Data Science) با پایتون — از صفر تا صد — کلیک کنید.



📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس


❇️ چگونه یک دانشمند داده شوید؟

علم داده، تحلیل داده و داده‌کاوی از مباحث داغ روز هستند. جذابیت و کاربردپذیری این زمینه‌ها به میزانی است که در دانشگاه‌های گوناگون سراسر جهان دوره‌های اختصاصی برای آن‌ها تدوین شده. این در حالیست که تعداد پژوهش‌های آکادمیک پیرامون این حوزه‌ها نیز همواره رو به رشد است.


🔹 فهرست مطالب این نوشته

▫️ نقشه راه مبدل شدن به دانشمند داده

▫️ آمار و احتمال و جبر خطی

▫️ زبان‌های برنامه‌نویسی

▫️ یادگیری ماشین

▫️ داده کاوی


🔸 نقشه راه مبدل شدن به دانشمند داده

یادگیری علم داده در گام اول نیازمند یک انتخاب است؛ انتخابی که باید با در نظر گرفتن زمان لازم برای یادگیری این مبحث، فرصت‌های شغلی، درآمد و طول دوره یادگیری آن انجام شود. از این‌رو توصیه می‌شود که علاقمندان به داده‌کاوی ابتدا مطالعات کلی در این حوزه داشته باشند، با کاربردهای آن بیشتر آشنا شوند و برای مدتی در جوامع مربوط به علوم داده مانند سازمان‌های مردم‌نهاد مربوط به داده‌کاوان و دانشمندان داده حضور پیدا کنند.


🔸 آمار و احتمال و جبر خطی

آمار و احتمال و جبر خطی از جمله مباحثی هستند که در علم داده کاربرد قابل توجهی دارند. بهره‌گیری از مفاهیم آماری به گونه‌ای با بحث تحلیل داده و داده‌کاوی عجین شده که برخی از آماردان‌های کلاسیک علم داده را شکل مدرن آمار و حتی معادل آن می‌دانند که به زعم آن‌ها نام جدیدی به خود گرفته است.


🔸 زبان‌های برنامه‌نویسی

مفاهیم و الگوریتم‌های یادگیری ماشین کاربرد بسیار گسترده و مهمی در علم داده و داده‌کاوی دارند. بنابراین برای تبدیل شدن به یک دانشمند داده یا داده‌کاو زبده نیاز به یادگیری مفاهیم و روش‌های این حوزه است.


🔸 داده‌کاوی

داده‌کاوی یک فرآیند هفت مرحله‌ای شامل پاک‌سازی، یکپارچه‌سازی، انتخاب داده (کاهش ابعاد)، نگاشت داده، داده‌کاوی، ارزیابی و ارائه دانش است که هر یک از این مراحل نیاز به یادگیری مباحث خاصی دارند. همچنین پیش از آغاز فرآیند اصلی داده‌کاوی فرد نیازمند فراگیری دانش دامنه (دانش در رابطه با زمینه‌ای که قصد حل مساله در آن با استفاده از داده‌کاوی وجود دارد) است.


ادامه این مطلب رایگان را در مجله فرادرس در لینک زیر بخوانید.

🔗 چگونه یک دانشمند داده شوید؟ — راهنمای گام‌به‌گام به همراه معرفی منابع — کلیک کنید.




📌 کانال اختصاصی آموزش‌های رایگان علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی علم داده فرادرس [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آزمون KMO و بارتلت در تحلیل عاملی | معیارهای کفایت حجم نمونه

‏در بررسی و تحقیقاتی که برمبنای تحلیل عاملی اکتشافی (EFA)، تعیین حجم نمونه و وجود همبستگی مناسب بین متغیرها از اهمیت ویژه‌ای برخودار است. دو آزمون KMO و بارتلت در تحلیل عاملی به محققین این امکان را می‌دهند که قبل از اجرای تحلیل عاملی اکتشافی از بسندگی یا کفایت حجم نمونه و وجود کرویت در متغیرها مطمئن شده، سپس تحلیل عاملی را به کار برند. نرم‌افزارهای مختلفی نیز برای مشخص کردن شاخص‌ها و اجرای آزمون‌های مربوط به تحلیل عاملی وجود دارد که در این بین می‌توان به نرم‌افزار SPSS نیز اشاره کرد. در نوشتارهای دیگر مجله فرادرس که در ادامه معرفی شده‌اند، به بررسی مثال‌هایی برای بدست آوردن و اجرای آزمون KMO و بارتلت در تحلیل عاملی پرداخته‌ایم ولی نوشتار جاری، به مفهوم و نحوه محاسبه این معیارها در آزمون KMO و بارتلت در تحلیل عاملی می‌پردازد.

══ فهرست مطالب ══

‏ ○ آزمون KMO و بارتلت در تحلیل عاملی
‏ ○ معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS
‏ ○ خلاصه و جمع‌بندی


🔸 آزمون KMO و بارتلت در تحلیل عاملی

‏می‌دانید که رویکرد «تحلیل عاملی اکتشافی» (Exploratory Factor Analysis) در تحلیل عاملی، زمانی به کار می‌رود که از مدل و ارتباط بین متغیرها هیچ اطلاعی نداریم و قرار است با تکیه بر داده‌ها دست به تولید یا ایجاد یک مدل ارتباطی بزنیم. در این حالت، از تحلیل عاملی اکتشافی کمک گرفته و با توجه به ساختار ماتریس همبستگی یا کوواریانس، مدلی را پیشنهاد می‌دهیم. به همین علت به چنین وضعیتی تحلیل اکتشافی می‌گویند. ساده‌ترین توضیح ممکن در مورد نحوه کار در این تکنیک آن است که سعی به ایجاد گروهی از متغیرها داریم که بسیار به هم مرتبط هستند و هر دسته یا گروه با بقیه متغیرها، وابستگی کمی دارد.

‏اما اگر در نمونه‌گیری و تعیین حداقل حجم مورد نیاز برای استفاده از EFA دچار مشکل باشیم، چگونه عمل خواهیم کرد. این امر به این معنی است که استفاده از قضیه حد مرکزی برای توجیه نرمال بودن توزیع داده‌ها و همچنین محاسبه و تفکیک ماتریس کوواریانس بدون دانستن ساختار ماتریس واریانس-کوواریانس در بین گروه‌ها ممکن است با شکست مواجه شود. هر دو روش یعنی آزمون KMO و بارتلت در تحلیل عاملی راه‌کارهایی برای تشخیص چنین وضعیتی را ارائه می‌کنند. به همین علت، قبل از تحلیل EFA بهتر است به وسیله این معیارها، نسبت به شرایط اولیه EFA کسب اطلاع کرده، سپس تحلیل عاملی اکتشافی را به کار گیریم.

‏در ادامه نحوه محاسبه هر دو آماره‌ها و آزمون KMO و بارتلت در تحلیل عاملی و محدوده‌های قابل قبول برای آن‌ها را بازگو خواهیم کرد.


🔸 معرفی فیلم آموزش تجزیه و تحلیل اطلاعات با نرم افزار SAS

‏سرعت و سادگی در انجام محاسبات آماری از ویژگی‌های مهم نرم‌افزار SAS محسوب می‌شود. از طرفی قدمت و پشتیبانی مناسب آن، کاربران زیادی را در حوزه محاسبات آماری به خود جلب کرده است. نرم افزار SAS مخفف Statistical Analysis System بوده از کامل‌ترین نرم افزارهای شناخته شده آماری است. در اکثر موارد برای بیشتر پایان‌نامه‌های کارشناسی ارشد و دکتری در رشته‌های علوم انسانی، علوم پایه، مهندسی و پزشکی از این نرم‌افزار برای اجرای آزمون‌ و تحلیل‌های آماری استفاده می‌کنند. در این آموزش سعی شده به زبان ساده و کاربردی به مباحث مقدماتی و پیشرفته این نرم‌افزار برای تحلیل‌های آماری همچنین آزمون KMO و بارتلت در تحلیل عاملی اشاره شود. این آموزش در پانزده درس ارائه شده که سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه قابل مشاهده است.

‏– درس یکم: مقدمه ای بر SAS

‏– درس دوم: مدیریت داده ها

‏– درس سوم: مدیریت داده ها

‏– درس چهارم: محاسبه آمار توصیفی

‏– درس پنجم: آزمون های میانگین

‏– درس ششم: جداول توافقی

‏– درس هفتم: آزمون های همبستگی

‏– درس هشتم: رگرسیون خطی

‏– درس نهم: رگرسیون غیرخطی و لجستیک

‏– درس دهم: آزمون های ناپارامتریک

‏– درس یازدهم: طرح آزمایش ها

‏– درس دوازدهم: تحلیل مولفه های اصلی و آزمون KMO و بارتلت در تحلیل عاملی

‏– درس سیزدهم: رده بندی و ممیزی

‏– درس چهاردهم: کنترل کیفیت آماری

‏– درس پانزدهم: آشنایی با محیط IML




مطالعه ادامه مطلب 👇👇

🔗 آزمون KMO و بارتلت در تحلیل عاملی | معیارهای کفایت حجم نمونه — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

✳️ آنالیز کلان داده و ساختار شبکه اجتماعی — آشنایی با اصطلاحات و مثال عملی

‏با انفجار اطلاعات و افزایش داده‌هایی که روزانه از منابع مختلف تولید می‌شود، با پدیده جدیدی به نام «کلان داده» (Big Data) یا «مِه داده» مواجه شده‌ایم. لازم است که ابزارهای مناسب برای ثبت و نگهداری و همچنین تحلیل چنین حجم عظیمی از داده‌ها را داشته باشیم. پیشرفت دستگاه‌های محاسباتی و بوجود آمدن «رایانش ابری» (Cloud Computing) دسترسی به این داده‌ها و پردازش آن‌ها را در زمان کوتاه میسر ساخته است. بنابراین مسائلی مانند نمونه‌گیری که در آمار برای جلوگیری از بررسی همه جامعه آماری به وجود آمده، دیگر لزومی نداشته باشد. به همین جهت در این نوشتار از مجله فرادرس به بررسی روش آنالیز کلان داده و ساختار شبکه پرداخته‌ایم. در این بین به تکنیک شبکه‌ای کردن و ارتباط گره‌ها اشاره کرده و مثال‌های عینی نتایج را مورد بررسی قرار داده‌ایم.

══ فهرست مطالب ══

‏ ○ آنالیز کلان داده و ساختار شبکه اجتماعی
‏ ○ آنالیز کلان داده و تحلیل شبکه‌های اجتماعی
‏ ○ معرفی فیلم آموزش مقدماتی Hadoop (هدوپ) برای تجزیه و تحلیل کلان داده
‏ ○ خلاصه و جمع‌بندی


🔸 آنالیز کلان داده و ساختار شبکه اجتماعی

‏داده های بزرگ یا «مِه داده» (Big data) زمینه‌ای است که روش‌های تجزیه و تحلیل، استخراج سیستماتیک اطلاعات و محاسبه روی حجم عظیمی از داده‌ها را میسر می‌کند. در اغلب موارد نمی‌توان با نرم افزارهای کاربردی پردازش داده سنتی کلان داده (Big Data) را پردازش کرد. این گونه داده‌ها اگر به ساختار جدولی ثبت شوند، دارای ستون‌ها (فیلدها) و سطرها (رکوردها) زیادی خواهند بود.

‏چالش‌های آنالیز کلان داده‌ شامل «دریافت داده‌ها» (capturing data)، «ذخیره داده ها» (data storage)، «تجزیه و تحلیل داده‌ها» (data analysis)، «جستجو» (search)، «به اشتراک گذاری» (sharing)، «انتقال» (transfer)، «مصورسازی» (Visualization)، «پرس و جو» (querying)، «به روزرسانی» (updating)، «حریم خصوصی اطلاعات و منبع داده» (information privacy) است.

‏کلان داده، در ابتدا به سه مفهوم در مورد اطلاعات متمرکز بود. حجم، تنوع و سرعت. به این معنی که روش‌های تحلیل مه داده باید حجم زیاد اطلاعات که دارای تنوع بسیار هستند در زمان مناسب و سرعت زیاد، پردازش کند.


🔸 آنالیز کلان داده و تحلیل شبکه‌های اجتماعی

‏شبکه (Network) راهی برای نشان دادن اطلاعات است و با استفاده از روش‌های ریاضی قابل درک و تجزیه و تحلیل است. شبکه‌ها، گروهی از «گره‌ها» (Nodes) هستند که توسط «پیوند» (Link) یا «یال» (Edge) به هم متصل شده‌اند و می‌توانند نشانگر هدایت جهت‌دار از یک گره به گره دیگر یا بدون جهت (دو طرفه) در نظر گرفته شوند. از این جهت، یک شبکه به مانند یک «گراف» (Graph) قابل بررسی است. «صفحات وب» (Web Page) نمونه‌هایی از شبکه‌های جهت‌دار هستند که صفحه وب نشان دهنده یک گره و «ابرپیوند» (Hyperlink) به عنوان یک یال است.

‏اغلب از شبکه‌ها برای یافتن دقیق اجتماعات نیز استفاده می‌کنند. این گره‌ها راس‌هایی هستند که بصورت گروهی متصل هستند اما ارتباط کمی با گروه‌های دیگر دارند، این امر به مانند افرادی است که در شبکه‌های اجتماعی با علایق مشابه حضور داشته یا دانشمندانی را مشخص می‌کند که در یک زمینه علمی همکاری دارند. موضوع مورد توجه در این بین «متغیرهای» مربوط به این داده است که باید مورد مطالعه قرار گیرند، این کار ممکن است به بهبود دقت در شناسایی جوامع و «خوشه‌ها» (Clusters) کمک کند. با گسترش «شبکه‌های اجتماعی» (Social Network)، موضوع کلان داده در بین کارشناسان داده» (Data Scientist) بیش از هر زمان دیگری اهمیت یافته است. در ادامه متن به مقاله‌ای اشاره خواهیم کرد که در حوزه آنالیز کلان داده پرداخته و به کمک ساختار شبکه، اطلاعاتی را از مه داده استخراج می‌کند.



مطالعه ادامه مطلب 👇👇

🔗 آنالیز کلان داده و ساختار شبکه اجتماعی — آشنایی با اصطلاحات و مثال عملی — کلیک کنید (+)


📌 کانال اختصاصی آموزشی علم داده

آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید. 👇

@Fara_DS — مطالب و آموزش‌های علم داده فرادرس

Forwarded from FaraDars_Course
‌‌
📣 به کدام زبان برنامه نویسی علاقه دارید؟

🌟 با پیوستن به کانال‌های «برنامه نویسی» فرادرس، یک بار و برای همیشه برنامه نویسی را یاد بگیرید.👇👇👇
‌‌‌

❇️ فیلم آموزشی «ایجاد ماتریس سطری پلکانی» در ۷ دقیقه | به زبان ساده


📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.


❇️ ویدئو «معرفی رشته علوم کامپیوتر - گرایش‌ها، درآمد و بازار کار» در ۱۳ دقیقه | به زبان ساده


🔗 آشنایی با ۷۶ رشته مهم دانشگاهی - [کلیک کنید]

📌 آخرین مطالب علمی، مقالات رایگان و ویدئوهای آموزشی علم داده را در کانال اختصاصی [@Fara_DS] دنبال کنید.