تجهیزات سیار:
در حال حاضر، وسایل سیار به طور گسترده ای استفاده می شوند.
با قدرتمند شدن روز افزون کاربرد وسایل سیار، آن ها پیچیدگی بیشتر و ابزارهای اکتساب داده ها و همچنین تنوع بیشتر داده هارا نمایان می کنند.
برای وسایل سیار، به دست آوردن موقعیت جغرافیایی از طریق سیستم های موقعیت یاب؛
بدست آوردن اطلاعات صوتی از طریق میکروفون؛
بدست آوردن تصاویر، فیلم ها ، نمای خیابان ها، بارکدهای دو بعدی و سایر اطلاعات چند رسانه ای از طریق دوربین ها ؛ بدست آوردن حرکات و اطلاعات زبان بدن کاربر از طریق صفحه نمایش لمسی و حسگرهای گرانشی امکان پذیر است.
به عنوان مثال iphoneیک جاسوس سیار است.iphoneبدون این که کاربر خبر داشته باشد میتواند داده های بی سیم و اطلاعات موقعیت جغرافیایی را جمع کند و سپس چنین اطلاعاتی را برای پردازش به شرکت اپل ارسال کند.
به غیر از اپل دیگر سیستم عامل های هوشمند میتوانند اطلاعات را به شیوه ی مشابه جمع اوری کنند.
در حال حاضر، وسایل سیار به طور گسترده ای استفاده می شوند.
با قدرتمند شدن روز افزون کاربرد وسایل سیار، آن ها پیچیدگی بیشتر و ابزارهای اکتساب داده ها و همچنین تنوع بیشتر داده هارا نمایان می کنند.
برای وسایل سیار، به دست آوردن موقعیت جغرافیایی از طریق سیستم های موقعیت یاب؛
بدست آوردن اطلاعات صوتی از طریق میکروفون؛
بدست آوردن تصاویر، فیلم ها ، نمای خیابان ها، بارکدهای دو بعدی و سایر اطلاعات چند رسانه ای از طریق دوربین ها ؛ بدست آوردن حرکات و اطلاعات زبان بدن کاربر از طریق صفحه نمایش لمسی و حسگرهای گرانشی امکان پذیر است.
به عنوان مثال iphoneیک جاسوس سیار است.iphoneبدون این که کاربر خبر داشته باشد میتواند داده های بی سیم و اطلاعات موقعیت جغرافیایی را جمع کند و سپس چنین اطلاعاتی را برای پردازش به شرکت اپل ارسال کند.
به غیر از اپل دیگر سیستم عامل های هوشمند میتوانند اطلاعات را به شیوه ی مشابه جمع اوری کنند.
علاوه بر سه روش ذکر شده اکتساب داده ها از منابع داده های اصلی، روش ها یا سیستم های جمع آوری اطلاعات دیگری وجود دارد.
به عنوان مثال در آزمایش های علمی، بسیاری از ابزارهای خاص را می توان برای جمع آوری داده های تجربی استفاده کرد،مانند طیف سنج و تلسکوپ های رادیویی.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
به عنوان مثال در آزمایش های علمی، بسیاری از ابزارهای خاص را می توان برای جمع آوری داده های تجربی استفاده کرد،مانند طیف سنج و تلسکوپ های رادیویی.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
ضمن تشکر از دوستانی که طی پیام خصوصی از اطلاعات کلان داده ها در این کانال استقبال کردند.
سپاس از همگی شما که منو از ادامه کار دلگرم میکنید.
شایان ذکر است، تمامی اطلاعاتی در رابطه با کلان داده ها و رایانش ابری که در اختیار شما عزیزان قرار میگیرد شامل زحمات و اطلاعات مفید و رهنمودهای اساتید بنام از جمله دکتر امیر صحافی، دکتر امیر مسعود رحمانی، مهندس مجتبی بنائی و جامعه هدوپ ایران است و بنده فقط انتقال دهنده اطلاعات هستم.
سپاس از همگی شما که منو از ادامه کار دلگرم میکنید.
شایان ذکر است، تمامی اطلاعاتی در رابطه با کلان داده ها و رایانش ابری که در اختیار شما عزیزان قرار میگیرد شامل زحمات و اطلاعات مفید و رهنمودهای اساتید بنام از جمله دکتر امیر صحافی، دکتر امیر مسعود رحمانی، مهندس مجتبی بنائی و جامعه هدوپ ایران است و بنده فقط انتقال دهنده اطلاعات هستم.
انتقال داده ها :
به محض اتمام جمع آوری داده های خام، داده ها برای پردازش و تحلیل به زیر ساخت های ذخیره سازی داده ها منتقل خواهند شد.
کلان داده ها به طور عمده در یک دیتا سنتر ذخیره می شوند.
برای بهبود کارایی محاسبات یا تسهیل نگهداری سخت افزار جای گزاری داده ها باید تنظیم شده باشد .
مثلا ارسال داده های داخلی ممکن است در دیتا سنتر رخ دهد.
بنابراین ارسال داده ها شامل دو مرحله است :
ارسال inter-DCN :ارسال منبع دادها تا دیتا سنتر است.
ارسال intera-DCN :جریان های ارتباط داده عا در دیتا سنتر است که به مکانیسم ارتباط در دیتا سنتر بستگی دارد.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
به محض اتمام جمع آوری داده های خام، داده ها برای پردازش و تحلیل به زیر ساخت های ذخیره سازی داده ها منتقل خواهند شد.
کلان داده ها به طور عمده در یک دیتا سنتر ذخیره می شوند.
برای بهبود کارایی محاسبات یا تسهیل نگهداری سخت افزار جای گزاری داده ها باید تنظیم شده باشد .
مثلا ارسال داده های داخلی ممکن است در دیتا سنتر رخ دهد.
بنابراین ارسال داده ها شامل دو مرحله است :
ارسال inter-DCN :ارسال منبع دادها تا دیتا سنتر است.
ارسال intera-DCN :جریان های ارتباط داده عا در دیتا سنتر است که به مکانیسم ارتباط در دیتا سنتر بستگی دارد.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
ارزیابی نرم افزارهای هوش تجاری و آنالیز داده توسط گارتنر:
امروزه داده ها با قالب های مختلف و اشکال متنوع در سازمانها در قالب بانک های اطلاعاتی مختلف و فایلهای لاگ و …. توزیع شده اند و برای استخراج اطلاعات مفید و بصری سازی داده ها یا باید از مهندسین داده کمک گرفت که به صورت حرفه ای به تجمیع و تحلیل داده ها بپردازند یا از نرم افزارهای هوش تجاری استفاده کرد تا به کمک امکانات مختلف و متنوع آنها به تولید انواع گزارشات از داده ها پرداخت و در اختیار مدیران و بخشهای مختلف سازمان گذاشت .
سایت گارتنر در ابتدای سال جاری میلادی نرم افزارهای هوش تجاری موجود در بازار دنیا را در چهار گروه طبقه بندی کرده است که مقاله کامل و جزییات هر کدام از این گروه بندیها و نرم افزارها را می توانید در خود مقاله اصلی بیابید اما با یک نگاه به این نمودار که در زیر آورده شده است شرکتهای شاخص در این حوزه به راحتی قابل مشاهده هستند. از جمله آنها می توان به Tableau و Qlik و Microsoft و SAS و SAP و Oracle اشاره کرد .
منبع :
http://www.bigdata.ir/1394/04/%d8%a7%d8%b1%d8%b2%db%8c%d8%a7%d8%a8%db%8c-%d9%86%d8%b1%d9%85-%d8%a7%d9%81%d8%b2%d8%a7%d8%b1%d9%87%d8%a7%db%8c-%d9%87%d9%88%d8%b4-%d8%aa%d8%ac%d8%a7%d8%b1%db%8c-%d9%88-%d8%a2%d9%86%d8%a7%d9%84%db%8c/
امروزه داده ها با قالب های مختلف و اشکال متنوع در سازمانها در قالب بانک های اطلاعاتی مختلف و فایلهای لاگ و …. توزیع شده اند و برای استخراج اطلاعات مفید و بصری سازی داده ها یا باید از مهندسین داده کمک گرفت که به صورت حرفه ای به تجمیع و تحلیل داده ها بپردازند یا از نرم افزارهای هوش تجاری استفاده کرد تا به کمک امکانات مختلف و متنوع آنها به تولید انواع گزارشات از داده ها پرداخت و در اختیار مدیران و بخشهای مختلف سازمان گذاشت .
سایت گارتنر در ابتدای سال جاری میلادی نرم افزارهای هوش تجاری موجود در بازار دنیا را در چهار گروه طبقه بندی کرده است که مقاله کامل و جزییات هر کدام از این گروه بندیها و نرم افزارها را می توانید در خود مقاله اصلی بیابید اما با یک نگاه به این نمودار که در زیر آورده شده است شرکتهای شاخص در این حوزه به راحتی قابل مشاهده هستند. از جمله آنها می توان به Tableau و Qlik و Microsoft و SAS و SAP و Oracle اشاره کرد .
منبع :
http://www.bigdata.ir/1394/04/%d8%a7%d8%b1%d8%b2%db%8c%d8%a7%d8%a8%db%8c-%d9%86%d8%b1%d9%85-%d8%a7%d9%81%d8%b2%d8%a7%d8%b1%d9%87%d8%a7%db%8c-%d9%87%d9%88%d8%b4-%d8%aa%d8%ac%d8%a7%d8%b1%db%8c-%d9%88-%d8%a2%d9%86%d8%a7%d9%84%db%8c/
مهندسی داده
ارزیابی نرم افزارهای هوش تجاری و آنالیز داده توسط گارتنر | مهندسی داده
امروزه داده ها با قالب های مختلف و اشکال متنوع در سازمانها در قالب بانک های اطلاعاتی مختلف و فایلهای لاگ و …. توزیع شده اند و برای استخراج اطلاعات مفید و بصری سازی داده ها یا باید از مهندسین داده کمک گرفت که به صورت حرفه ای به تجمیع و تحلیل داده ها بپردازند…
چطور Facebook از Hadoop و Hive استفاده می کند؟
غول رسانه های اجتماعی ، Facebook یکی از بزرگترین قهرمانان Hadoop و داده های بزرگ است .Facebook ادعا کرده که و با بیش از 100 PetaByteفضای دیسک در یک سیستم واحد در سال 2012 بزرگترین سیستم فایل توزیع شده در تمام دنیاست. سایت Facebook بیش از 250 میلیارد عکس ذخیره کرده و روزانه 350 میلیون عکس جدید به این حجم اضافه می شود.
مدیر زیرساختهای Facebook در مصاحبه ای با InformationWeek گفت : " رسانه های اجتماعی باید از ابزارهای مختلفی استفاده کنند . در بین آنها ما از هدوپ(Hadoop) ، هایو(Hive) ، اچ بیس(HBase) برای مدیریت اطلاعات کاربران و اجرای موثر و مفید کسب و کارمان استفاده کردیم."
طبق گفته Parikh هدوپ در تمام تولیدات Facebookبه طرق مختلف استفاده می شود ، فعالیتهای کاربران از قبیل Like کردن و یا پست گذاشتن در یک دیتابیسMysql به روش توزیع شده ذخیره می شود اما نرم فزاری مانند Facebook Messenger از HBase که یکی از فریم ورکهای هدوپ است استفاده می کند. تمام مسائل تحلیلی ، رابط کاربری برنامه نویسان، داده های تحقیقاتی، محصولات مدیریتی و همچنین تبلیغات برای اشخاصی که قصد دارند کسب و کار خود را درFacebook دنبال کنند به وسیله Hadoop ، Hive وHbase صورت می گیرد.
Hive
به توسعه زیرساختهای انباره داده ها کمک می کند و مرکزی است برای گزارش کردن نیازهای Facebook . فیسبوک باید بین نیازهای خود تعادلی به وجود آورد تا با سرعت بالا بتواند به نتایج مطلوب از قبیل ابزارهای گراف و محیطی برای هرچه آسانترکردن گزارشگیری بپردازد ، پس Hive را انتخاب کرد تا بتواند بهQueryهای خودش سرعت دهد.
بالا بردن سرعت و مقیاس پذیری Hive بسیار مهم بود تا بتواند ابزاری باشد برای بهبود تاخیر زمانی در اجرایqueryها و برطرف کردن نیازهای برنامه نویسان. Hiveبسیار کارآمد است و تا مدت طولانی خواهد بود زیرا در عین سادگی بسیار قدرتمند است.
اParikh می گوید :" زمانی که شما می خواهید تعداد زیادی از مردم قادر باشند از ابزار شما استفاده کنند سادگی تنها کلید موفقیت شماست ، برای یک کسب و کار تنها شروع کار با Big Data آغاز راه است، توازن برقرار کردن بین کنترل چالشهای تکنولوژی با Hadoopو مشکلات درک داده ها بسیار دشوارتر خواهد بود ولی بسیار مهم . کسب و کار نیاز به تجربه و تمرکز روی اهداف برای مدت طولانی دارد تا مطمئن شویم روی مسیر درست گام بر می داریم ".
منبع : مرجع هدوپ ایران
غول رسانه های اجتماعی ، Facebook یکی از بزرگترین قهرمانان Hadoop و داده های بزرگ است .Facebook ادعا کرده که و با بیش از 100 PetaByteفضای دیسک در یک سیستم واحد در سال 2012 بزرگترین سیستم فایل توزیع شده در تمام دنیاست. سایت Facebook بیش از 250 میلیارد عکس ذخیره کرده و روزانه 350 میلیون عکس جدید به این حجم اضافه می شود.
مدیر زیرساختهای Facebook در مصاحبه ای با InformationWeek گفت : " رسانه های اجتماعی باید از ابزارهای مختلفی استفاده کنند . در بین آنها ما از هدوپ(Hadoop) ، هایو(Hive) ، اچ بیس(HBase) برای مدیریت اطلاعات کاربران و اجرای موثر و مفید کسب و کارمان استفاده کردیم."
طبق گفته Parikh هدوپ در تمام تولیدات Facebookبه طرق مختلف استفاده می شود ، فعالیتهای کاربران از قبیل Like کردن و یا پست گذاشتن در یک دیتابیسMysql به روش توزیع شده ذخیره می شود اما نرم فزاری مانند Facebook Messenger از HBase که یکی از فریم ورکهای هدوپ است استفاده می کند. تمام مسائل تحلیلی ، رابط کاربری برنامه نویسان، داده های تحقیقاتی، محصولات مدیریتی و همچنین تبلیغات برای اشخاصی که قصد دارند کسب و کار خود را درFacebook دنبال کنند به وسیله Hadoop ، Hive وHbase صورت می گیرد.
Hive
به توسعه زیرساختهای انباره داده ها کمک می کند و مرکزی است برای گزارش کردن نیازهای Facebook . فیسبوک باید بین نیازهای خود تعادلی به وجود آورد تا با سرعت بالا بتواند به نتایج مطلوب از قبیل ابزارهای گراف و محیطی برای هرچه آسانترکردن گزارشگیری بپردازد ، پس Hive را انتخاب کرد تا بتواند بهQueryهای خودش سرعت دهد.
بالا بردن سرعت و مقیاس پذیری Hive بسیار مهم بود تا بتواند ابزاری باشد برای بهبود تاخیر زمانی در اجرایqueryها و برطرف کردن نیازهای برنامه نویسان. Hiveبسیار کارآمد است و تا مدت طولانی خواهد بود زیرا در عین سادگی بسیار قدرتمند است.
اParikh می گوید :" زمانی که شما می خواهید تعداد زیادی از مردم قادر باشند از ابزار شما استفاده کنند سادگی تنها کلید موفقیت شماست ، برای یک کسب و کار تنها شروع کار با Big Data آغاز راه است، توازن برقرار کردن بین کنترل چالشهای تکنولوژی با Hadoopو مشکلات درک داده ها بسیار دشوارتر خواهد بود ولی بسیار مهم . کسب و کار نیاز به تجربه و تمرکز روی اهداف برای مدت طولانی دارد تا مطمئن شویم روی مسیر درست گام بر می داریم ".
منبع : مرجع هدوپ ایران
دریاچه داده : معماری جدید برای زیرساخت تحلیل و پردازش اطلاعات
در دنیای کلان داده، مدتیست که عبارت دریاچه دادهبه یک اصطلاح فراگیر در حوزه معماریهای پیشنهادی برای پردازش داده ها تبدیل شده است .
دریاچه داده از دید مفهومی، یک مکان مشترک برای ذخیره انواع داده های یک سازمان به صورت خام و پردازش نشده است .
برخلاف انباره های داده که به صورت خاص برای مقاصد تحلیل و گزارش گیری های مدیریتی طراحی می شوند و شکل داده های ورودی را به قالب مورد نیاز خود تبدیل و ذخیره می کنند، دریاچه های داده ، اطلاعات و داده ها را به صورت خام ذخیره می کنند تا در آینده، ابزارهای پردازشی و تحلیل گران، خود تصمیم بگیرند که چه تبدیلی و چه پردازشی را روی آنها انجام بدهند.
از طرفی، انباره های داده دارای قالب و ساختار از پیش تعیین شده هستند و این موضوع، انواع داده های نوینی که روزانه در سازمانها تولید می شود را برای ذخیره به منظور مقاصد تحلیلی به چالش دچار می کند چون یکسره نیاز به تیمی برای مدیریت و طراحی ساختار و تبدیل داده ها خواهیم بود. در صورتیکه در دریاچه داده ، داده ها به همان شکلی که هستند ( مثلا داده های خام شبکه ، حسگرها ، متون استخراج شده از شبکه های اجتماعی و … ) ، ذخیره می شوند و نیاز مداوم به پالایش ندارند.
نکته دیگری که در مورد انباره های داده وجود دارد این است که در این سامانه ها، اطلاعات به صورت تجمعی ذخیره می شوند مثلا فروش ماهیانه و فروش هفتگی یک محصول اما فروش ساعتی یا لحظه ای آن دیگر ذخیره نمی شود و از بین می رود که دریاچه داده سازمانی ، این نقیصه را هم با حفظ داده های اصلی، مرتفع می سازد.
برای لیست اختلافات مابین انباره های داده و دریاچه داده ، از این لینک می توانید استفاده کنید.
http://www.blue-granite.com/blog/bid/402596/Top-Five-Differences-between-Data-Lakes-and-Data-Warehouses
مارتین فاولر به عنوان یکی از پیشروهای مهندسی نرم افزار و مباحث مدیریت داده (نویسنده کتاب NoSQL Distilled) در مقاله ای که در زمینه دریاچه داده در سایت خود منتشر کرده است این تفاوت را به خوبی با شکل زیر نمایش داده است .
رابطه ای که میان دریاچه داده و سایر داده ها و نرم افزارهای یک سازمان می توان پیشنهاد کرد این است که به عنوان یک محیط جنبی و کاملا مجزا از داده های عملیاتی، به ذخیره داده ها و اطلاعات در قالب های باز (مانند جی سان ، اکس ام ال ، متن و …) یا بانکهای اطلاعاتی نو اس کیو ال بدون ساختار بپردازد و تحلیل گران از روی این داده ها ، ساختارهای تحلیلی خود را طراحی و اجرا کنند. نمایی پیشنهادی از این ساختار در شکل سوم و نیز عکس اول قابل مشاهده است.
دریاچه داده هم مثل بسیاری دیگر از فناوریهای حوزه کلان داده تا به بلوغ رسیدن و رفع اشکالات و نهادینه شدن در سازمانها، راه درازی را در پیش دارد.
منبع :
http://www.bigdata.ir/1394/09/%d8%af%d8%b1%db%8c%d8%a7%da%86%d9%87-%d8%af%d8%a7%d8%af%d9%87-%d9%85%d8%b9%d9%85%d8%a7%d8%b1%db%8c-%d8%ac%d8%af%db%8c%d8%af-%d8%a8%d8%b1%d8%a7%db%8c-%d8%b2%db%8c%d8%b1%d8%b3%d8%a7%d8%ae%d8%aa-%d8%aa/
در دنیای کلان داده، مدتیست که عبارت دریاچه دادهبه یک اصطلاح فراگیر در حوزه معماریهای پیشنهادی برای پردازش داده ها تبدیل شده است .
دریاچه داده از دید مفهومی، یک مکان مشترک برای ذخیره انواع داده های یک سازمان به صورت خام و پردازش نشده است .
برخلاف انباره های داده که به صورت خاص برای مقاصد تحلیل و گزارش گیری های مدیریتی طراحی می شوند و شکل داده های ورودی را به قالب مورد نیاز خود تبدیل و ذخیره می کنند، دریاچه های داده ، اطلاعات و داده ها را به صورت خام ذخیره می کنند تا در آینده، ابزارهای پردازشی و تحلیل گران، خود تصمیم بگیرند که چه تبدیلی و چه پردازشی را روی آنها انجام بدهند.
از طرفی، انباره های داده دارای قالب و ساختار از پیش تعیین شده هستند و این موضوع، انواع داده های نوینی که روزانه در سازمانها تولید می شود را برای ذخیره به منظور مقاصد تحلیلی به چالش دچار می کند چون یکسره نیاز به تیمی برای مدیریت و طراحی ساختار و تبدیل داده ها خواهیم بود. در صورتیکه در دریاچه داده ، داده ها به همان شکلی که هستند ( مثلا داده های خام شبکه ، حسگرها ، متون استخراج شده از شبکه های اجتماعی و … ) ، ذخیره می شوند و نیاز مداوم به پالایش ندارند.
نکته دیگری که در مورد انباره های داده وجود دارد این است که در این سامانه ها، اطلاعات به صورت تجمعی ذخیره می شوند مثلا فروش ماهیانه و فروش هفتگی یک محصول اما فروش ساعتی یا لحظه ای آن دیگر ذخیره نمی شود و از بین می رود که دریاچه داده سازمانی ، این نقیصه را هم با حفظ داده های اصلی، مرتفع می سازد.
برای لیست اختلافات مابین انباره های داده و دریاچه داده ، از این لینک می توانید استفاده کنید.
http://www.blue-granite.com/blog/bid/402596/Top-Five-Differences-between-Data-Lakes-and-Data-Warehouses
مارتین فاولر به عنوان یکی از پیشروهای مهندسی نرم افزار و مباحث مدیریت داده (نویسنده کتاب NoSQL Distilled) در مقاله ای که در زمینه دریاچه داده در سایت خود منتشر کرده است این تفاوت را به خوبی با شکل زیر نمایش داده است .
رابطه ای که میان دریاچه داده و سایر داده ها و نرم افزارهای یک سازمان می توان پیشنهاد کرد این است که به عنوان یک محیط جنبی و کاملا مجزا از داده های عملیاتی، به ذخیره داده ها و اطلاعات در قالب های باز (مانند جی سان ، اکس ام ال ، متن و …) یا بانکهای اطلاعاتی نو اس کیو ال بدون ساختار بپردازد و تحلیل گران از روی این داده ها ، ساختارهای تحلیلی خود را طراحی و اجرا کنند. نمایی پیشنهادی از این ساختار در شکل سوم و نیز عکس اول قابل مشاهده است.
دریاچه داده هم مثل بسیاری دیگر از فناوریهای حوزه کلان داده تا به بلوغ رسیدن و رفع اشکالات و نهادینه شدن در سازمانها، راه درازی را در پیش دارد.
منبع :
http://www.bigdata.ir/1394/09/%d8%af%d8%b1%db%8c%d8%a7%da%86%d9%87-%d8%af%d8%a7%d8%af%d9%87-%d9%85%d8%b9%d9%85%d8%a7%d8%b1%db%8c-%d8%ac%d8%af%db%8c%d8%af-%d8%a8%d8%b1%d8%a7%db%8c-%d8%b2%db%8c%d8%b1%d8%b3%d8%a7%d8%ae%d8%aa-%d8%aa/
پیش پردازش داده ها :
به دلیل تنوع وسیع منابع داده ها ، مجموعه ارزش داده های جمع آوری شده با توجه به مسائلی نظیر نویز، افزونگی و سازگاری تغییر میکند و بدون شک ذخیره کردن داده ها بی معنی کار بیهوده ای است.
علاوه براین برخی از روش های تحلیلی ، نیاز دقیقی به کیفیت داده ها دارند.
بنابراین برای یکپارچه سازی داده های حاصل از منابع مختلف، داده ها باید تحت حالت های بسیاری پیش پردازش شوند تا امکان تحلیل موثر داده ها فراهم شود.
داده های پیش پردازش شده نه تنها هزینه های ذخیره سازی را کاهش میدهد بلکه باعث بهبود در دقت تحلیل می شود.
یکپارچه سازی ، پاک سازی داده های نادرست و غیر منطقی و حذف افزونگی داده ها یا داده های تکراری از روش های پیش پردازش داده ها است.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
به دلیل تنوع وسیع منابع داده ها ، مجموعه ارزش داده های جمع آوری شده با توجه به مسائلی نظیر نویز، افزونگی و سازگاری تغییر میکند و بدون شک ذخیره کردن داده ها بی معنی کار بیهوده ای است.
علاوه براین برخی از روش های تحلیلی ، نیاز دقیقی به کیفیت داده ها دارند.
بنابراین برای یکپارچه سازی داده های حاصل از منابع مختلف، داده ها باید تحت حالت های بسیاری پیش پردازش شوند تا امکان تحلیل موثر داده ها فراهم شود.
داده های پیش پردازش شده نه تنها هزینه های ذخیره سازی را کاهش میدهد بلکه باعث بهبود در دقت تحلیل می شود.
یکپارچه سازی ، پاک سازی داده های نادرست و غیر منطقی و حذف افزونگی داده ها یا داده های تکراری از روش های پیش پردازش داده ها است.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
1⃣ اولین گام موفقیت، این است که بتوانی 🐌موفقیت دیگران را تحمل کنی.
2⃣ دومین گام موفقیت، این است که بتوانی موفقیت دیگران را 👌تحسین کنی.
3⃣ سومین گام موفقیت، این است که بتوانی موفقیت دیگران را 🔖تقلید کنی.
4⃣ آخرین گام موفقیت این است که بتوانی به شیوه 🚶خودت موفق شوید.
با سلام به همراهان عزیز
امروز را با یاد پروردگار با مطالب ذخیره سازی کلان داده ها:
سیستم ذخیره سازی برای داده های انبوه
سیستم ذخیره سازی توزیع شده
در خدمت شما سروران هستم.
باتشکر از توجه شما
گلناز اردشیری
@BigDataTechnology
2⃣ دومین گام موفقیت، این است که بتوانی موفقیت دیگران را 👌تحسین کنی.
3⃣ سومین گام موفقیت، این است که بتوانی موفقیت دیگران را 🔖تقلید کنی.
4⃣ آخرین گام موفقیت این است که بتوانی به شیوه 🚶خودت موفق شوید.
با سلام به همراهان عزیز
امروز را با یاد پروردگار با مطالب ذخیره سازی کلان داده ها:
سیستم ذخیره سازی برای داده های انبوه
سیستم ذخیره سازی توزیع شده
در خدمت شما سروران هستم.
باتشکر از توجه شما
گلناز اردشیری
@BigDataTechnology
ذخیره سازی کلان داده ها
سیستم ذخیره سازی برای داده های انبوه :
ذخیره سازی داده ها به ذخیره و مدیریت مجموعه داده ها در مقیاس بزرگ اشاره میکند.
سیستم ذخیره سازی داده شامل دو بخش است:
زیر ساخت ها
مکانیسم ها یا روش ذخیره سازی داده ها.
زیر ساخت های سخت افزاری شامل منابع انبوه اشتراکی فناوری ارتباطات و اطلاعات است که برای باز خورد آنی تقاضاهای وظایف به کار رفته اند و این منابع با یک روش کشسان سازمان دهی شده اند.
برای تحلیل یا تعامل با داده های ذخیره شده ، سیستم های ذخیره سازی باید به واسط های زیاد، پرس و جوی سریع یا به دیگر مدل های برنامه نویسی مجهز شود.
سیستم ذخیره سازی برای داده های انبوه :
ذخیره سازی داده ها به ذخیره و مدیریت مجموعه داده ها در مقیاس بزرگ اشاره میکند.
سیستم ذخیره سازی داده شامل دو بخش است:
زیر ساخت ها
مکانیسم ها یا روش ذخیره سازی داده ها.
زیر ساخت های سخت افزاری شامل منابع انبوه اشتراکی فناوری ارتباطات و اطلاعات است که برای باز خورد آنی تقاضاهای وظایف به کار رفته اند و این منابع با یک روش کشسان سازمان دهی شده اند.
برای تحلیل یا تعامل با داده های ذخیره شده ، سیستم های ذخیره سازی باید به واسط های زیاد، پرس و جوی سریع یا به دیگر مدل های برنامه نویسی مجهز شود.
فناوری های ذخیره سازی موجود به دو دسته تقسیم میشود:
1- Direct Attached Storage (DAS)
2- Network Storage
2-1-Network Attach Storage(NAS)
2-2-Storage Area Network
در ادامه هر یک را به متخصر معرفی خواهم کرد.
1- Direct Attached Storage (DAS)
2- Network Storage
2-1-Network Attach Storage(NAS)
2-2-Storage Area Network
در ادامه هر یک را به متخصر معرفی خواهم کرد.
DAS
در DAS درایو دیسک ها به طور مسقیم به سرویس دهنده متصل میشوند، ذخیره ساز یک وسیله جانبی (زیر سیستم ) است در حالی که سرویس دهندگان مدیریت داده ها و تمامی انواع نرم افزارهای کاربردی با زیر سیستم ذخیره ساز سازگار میشوند.
محیط های سرویس دهنده اندکی را بکار میگیرد.
اما با افزایش ظرفیت ذخیره سازی اثر بخشی منبع ذخیره ساز بسیار کم خواهد شد وقابلیت ارتقا و توسعه پذیری آن به شدت نحدود خواهد شد.
در صورت اختلال در سرویس دهنده ، دسترسی به داده ها امکان پذیر نیست و منابع ذخیره شده و داده ها نمیتوانند به اشتراک گذاشته شوند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
در DAS درایو دیسک ها به طور مسقیم به سرویس دهنده متصل میشوند، ذخیره ساز یک وسیله جانبی (زیر سیستم ) است در حالی که سرویس دهندگان مدیریت داده ها و تمامی انواع نرم افزارهای کاربردی با زیر سیستم ذخیره ساز سازگار میشوند.
محیط های سرویس دهنده اندکی را بکار میگیرد.
اما با افزایش ظرفیت ذخیره سازی اثر بخشی منبع ذخیره ساز بسیار کم خواهد شد وقابلیت ارتقا و توسعه پذیری آن به شدت نحدود خواهد شد.
در صورت اختلال در سرویس دهنده ، دسترسی به داده ها امکان پذیر نیست و منابع ذخیره شده و داده ها نمیتوانند به اشتراک گذاشته شوند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی