مهندسی داده ها – Telegram
مهندسی داده ها
7.49K subscribers
476 photos
17 videos
90 files
648 links
🔶 لینکدین
🔗 Linkedin.com/in/mohammadheydari/

🔶 اینستاگرام
🔗 Instagram.com/HeydariToday

🔶 ایکس
🔗 X.com/HeydariToday

یوتیوب
🔗 Youtube.com/@MohammadHeydari

🔶 مدرسه علم داده
🔗 https://bigdataworld.ir/

🔶آیدی من در تلگرام
🔗 @BigDataEngineer
Download Telegram
📣 سخنرانی #داده_محور

🏛 دانشکده مهندسی کامپیوتر، دانشگاه صنعتی شریف

📖 Design and Implementation of Privacy-Preserving Personalized Analytics Systems on the Edge

👨‍💻 By Professor Hamed Haddadi

🌐BigDataWorld.ir
🖥@BigDataSchool
📑 مفهوم کلان‌داده‌

در مدل‌های داده‌ای سنتی، بیشتر داده‌هایی که در سازمان‌ها وجود داشتند شامل مواردی مثل نام محصولات، مشتریان، فروشندگان و مواردی مشابه بود که پيچيدگي خاصي نداشتند. امروزه با نوع داده‌اي بسيار زياد، مختلف، و با پيچيدگي بسيار بيشتر سروکار داريم که مديريت، سازمان‌دهي، و نگهداري آن‌ها مساله مهمي است.

📘 طبق آمار، ۹۰ درصد داده‌های موجود در جهان تنها در دو سال اخیر ایجاد شده‌اند. رشد داده‌ها در سال ۲۰۰۹ چیزی در حدود ۰.۸ زتابایت (۰.۸ ZB) بوده است که پیش‌بینی مي‌شود اين مقدار در سال ۲۰۲۰ به ۳۲ ZB افزايش يابد.

☑️ رشد داده‌ها همچنان مانند گذشته وجود دارد ولی رشد آن‌ها امروزه بسیار سریعتر شده است.

☑️ امروزه رشد داده‌ها به طور چشمگیری در زمینه‌ی داده‌های غیر ساخت یافته صورت می‌گیرد.

امروزه کلان‌داده‌ توسط منابع مختلفی مانند دستگاه‌های موبایل، GPS، RFID، شبکه‌های اجتماعی، مشتریان و بسیاری از منابع دیگر توليد مي‌شود.

🔰 تعریف کلان‌داده

برای کلان‌داده‌ها تعاریف متعددی ارائه شده است که در زیر به چند مورد از آن‌ها اشاره می‌شود:

☑️ به طور عمومی کلان‌داده عبارت است از مجموعه داده‌هایی که به روش‌های سنتی موجود در فناوری اطلاعات، نرم‌افزارها و سخت‌افزار و در یک زمان قابل قبول قادر به جمع‌آوری، درک، و مدیريت نباشند.

☑️ تعریف Apache Hadoop در سال ۲۰۱۰ برای کلان‌داده: کلان‌داده عبارت است از مجموعه داده‌هایی که باتوجه به کامپیوترهای موجود براحتی قابل جمع‌آوری، مدیريت، و پردازش نباشند.

برای کلان‌داده‌ها یکسری چالش و فرصت معرفی شده که به صورت مدل ۳V بیان می‌شود و شامل افزایش حجم، شتاب، و تنوع می‌باشد.

۱. حجم (Volume): با تولید و جمع‌آوری داده‌ها در نهایت به انبوهی از داده‌ها دست می‌یابیم که گستره‌ی آن‌ها بسیار زياد است.

۲. شتاب (Velocity): داده‌ها با سرعت زیادی تولید می‌شوند و نیاز به تحلیل سریع و به موقع است.

۳. تنوع (Variety): به معنی وجود انواع مختلف داده‌ها است که خود شامل داده‌های ساخت یافته، نیمه ساخت یافته و غیرساخت یافته است مانند ویدئو، صوت، متن، و صفحات وب.

📽 چرخه‌ی حیات کلان‌داده

چرخه‌ی حیات کلان‌داده را می‌توان یک حلقه از چهار عملیات زیر در نظر گرفت:

۱. جمع‌آوری (Collection): شامل جمع‌آوری داده‌های مناسب از مجموعه‌ی داده‌ای مناسب است. برای مثال جمع‌آوری داده‌ها می‌توانند از یک شبکه‌ي اجتماعي يا شبکه‌هاي حسگر بي‌سيم باشند.

۲. یکپارچه‌سازی (Integrate): داده‌های جمع‌آوری شده با یکدیگر یکپارچه و سازماندهی (Organize) می‌شوند. گاهي ممکن است مجبور شويم آن‌ها را با مجموعه‌ي داده‌اي خود منطبق کنيم.

۳. تحلیل (Analysis): در این بخش می‌توان تحلیل‌های ساده و یا تحلیل‌های پیشرفته‌ي آماري بر روي داده‌ها انجام داد.

۴. تصمیم‌گیری‌ها و اقدامات (Actions Decisions): بعد از جمع‌آوری، یکپارچه‌سازی، و تحلیل داده‌ها می‌توان آن‌ها را به مدیر تحويل داد و بر اساس اين داده‌ها مدير مي‌تواند اقدامات لازم و مفيد را اجرا کند. براي مثال اگر شما يک کتاب در زمينه‌ي علوم کامپيوتر از آمازون خريداري کنيد، ممکن است به شما پيشنهاد خريد کتابي در زمينه‌ي کلان‌داده نيز ارائه شود.

امکاناتی مثل تحلیل داده‌ها به تحلیلگران کمک می‌کنند تا با کلان‌داده‌ها براحتی کار کنند.

نوشته ای از دکتر مجید آراسته

🌐BigDataWorld.ir
🖥@BigDataSchool
#بورس #تحصیلی کشور مالزی جهت ادامه تحصیل در مقاطع کارشناسی ارشد و دکتری

🌐BigDataWorld.ir
🖥@BigDataSchool
💎 💎 💎 جشنواره تابستانه مدرسه بیگ دیتا

🎁🎁🎁 تخفیف ویژه دوره های آموزشی آنلاین



🌐BigDataWorld.ir
🖥@BigDataSchool
💻@BigData_School
Forwarded from Dr. Amin Nezarat
BDVA_SMI_Whitepaper_2020.pdf
1.9 MB
گزارش سال 2020 از چالشهای صنایع تولیدی هوشمند در اتحادیه اروپا در زمینه بیگ دیتا
💎 آشنایی با پتلفرم هوش تجاری Power BI

📑 تو این مقاله با پلتفرم هوش تجاری Power BI بیشتر آشنا می شیم و امکانات کلیدی اش رو بهتر می شناسیم.

☑️ لینک مقاله در مدرسه بیگ دیتا

#powerbi
#businessIntelligence
#reporting
#Visualization

🌐BigDataWorld.ir
🖥BigDataSchool
💻BigData_School
👍1
Forwarded from Dr. Amin Nezarat
سلام
دوستانی که فرصت نکردند محتوای گردهمایی مجازی Spark Summit 2020 را مشاهده و دنبال کنند می توانند تمامی محتوای ارائه شده را در لینک زیر مشاهده کنند:
https://databricks.com/sparkaisummit/north-america-2020/agenda
💎 دوره آموزشی آنلاین Big Data

☑️ با محوریت کار با کتابخانه های کلیدی و مطرح در حوزه Data Science بر اساس زبان Python نظیر Pandas, Matplotlib, Seaborn, Scikit-Learn, NLTK, NetworkX،

✔️ کار با ابزارهای کلیدی دنیای بیگ دیتا نظیر Hadoop Ecosystem و Apache Spark Stack

🕰 شروع دوره از یکم مرداد ماه تا یکم مهر ماه

🎁 یکصدهزار تومان، تخفیفِ ثبت نامِ زودهنگام تا قبل از بیست و پنجم تیرماه در سایت مدرسه بیگ دیتا در نظر گرفته شده است.

🔹پیش نیاز اصلی شرکت در دوره علاقه به فیلدهای Data Science و Big Data Analytic می باشد اما در صورتی که در تابستان زمان کافی برای شرکت در دوره، بررسی مقالات فنی، مطالعه کتاب های رفرنس، حل تمرین ها و انجام پروژه های دوره را ندارید این دوره برای شما سودمند نخواهد بود.

📑 لینک ثبت نام در دوره آموزشی آنلاین Big Data

🗄 به علت افزایش سطحی کیفی دوره، ظرفیت محدود در نظر گرفته شده است.

🎙 توجه: این دوره مجزی از دوره خصوصی مدرسه تابستانه بیگ دیتا می باشد که از یکم تیر ماه آغاز شده است و تکمیل ظرفیت شده است.

#BigData
#DataScience

🌐BigDataWorld.ir
🖥BigDataSchool
💻BigData_School
مهندسی داده ها pinned «💎 دوره آموزشی آنلاین Big Data ☑️ با محوریت کار با کتابخانه های کلیدی و مطرح در حوزه Data Science بر اساس زبان Python نظیر Pandas, Matplotlib, Seaborn, Scikit-Learn, NLTK, NetworkX، ✔️ کار با ابزارهای کلیدی دنیای بیگ دیتا نظیر Hadoop Ecosystem و Apache…»