BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
ضمن تشکر از دوستانی که طی پیام خصوصی از اطلاعات کلان داده ها در این کانال استقبال کردند.
سپاس از همگی شما که منو از ادامه کار دلگرم میکنید.

شایان ذکر است، تمامی اطلاعاتی در رابطه با کلان داده ها و رایانش ابری که در اختیار شما عزیزان قرار میگیرد شامل زحمات و اطلاعات مفید  و رهنمودهای اساتید بنام از جمله دکتر امیر صحافی، دکتر امیر مسعود رحمانی، مهندس مجتبی بنائی و جامعه هدوپ ایران است و بنده فقط انتقال دهنده اطلاعات هستم.
انتقال داده ها :
به محض اتمام جمع آوری داده های خام، داده ها برای پردازش و تحلیل به زیر ساخت های ذخیره سازی داده ها منتقل خواهند شد.
کلان داده ها به طور عمده در یک دیتا سنتر ذخیره می شوند.
برای بهبود کارایی محاسبات یا تسهیل نگهداری سخت افزار جای گزاری داده ها باید تنظیم شده باشد .
مثلا ارسال داده های داخلی ممکن است در دیتا سنتر رخ دهد.
بنابراین ارسال داده ها شامل دو مرحله است :
ارسال inter-DCN :ارسال منبع دادها تا دیتا سنتر است.

ارسال intera-DCN :جریان های ارتباط داده عا در دیتا سنتر است که به مکانیسم ارتباط در دیتا سنتر بستگی دارد.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
DCN
ارزیابی نرم افزارهای هوش تجاری و آنالیز داده توسط گارتنر:

امروزه داده ها با قالب های مختلف و اشکال متنوع در سازمانها در قالب بانک های اطلاعاتی مختلف و فایلهای لاگ و …. توزیع شده اند و برای استخراج اطلاعات مفید و بصری سازی داده ها یا باید از مهندسین داده کمک گرفت که به صورت حرفه ای به تجمیع و تحلیل داده ها بپردازند یا از نرم افزارهای هوش تجاری استفاده کرد تا به کمک امکانات مختلف و متنوع آنها به تولید انواع گزارشات از داده ها پرداخت و در اختیار مدیران و بخشهای مختلف سازمان گذاشت .

سایت گارتنر در ابتدای سال جاری میلادی نرم افزارهای هوش تجاری موجود در بازار دنیا را در چهار گروه طبقه بندی کرده است که مقاله کامل و جزییات هر کدام از این گروه بندیها و نرم افزارها را می توانید در خود مقاله اصلی بیابید اما با یک نگاه به این نمودار که در زیر آورده شده است شرکتهای شاخص در این حوزه به راحتی قابل مشاهده هستند.  از جمله آنها می توان به  Tableau و Qlik و   Microsoft و SAS و SAP و Oracle اشاره کرد .

منبع :
 http://www.bigdata.ir/1394/04/%d8%a7%d8%b1%d8%b2%db%8c%d8%a7%d8%a8%db%8c-%d9%86%d8%b1%d9%85-%d8%a7%d9%81%d8%b2%d8%a7%d8%b1%d9%87%d8%a7%db%8c-%d9%87%d9%88%d8%b4-%d8%aa%d8%ac%d8%a7%d8%b1%db%8c-%d9%88-%d8%a2%d9%86%d8%a7%d9%84%db%8c/
چطور Facebook از Hadoop و Hive استفاده می کند؟

غول رسانه های اجتماعی ، Facebook یکی از بزرگترین قهرمانان Hadoop و داده های بزرگ است .Facebook ادعا کرده که و با بیش از 100 PetaByteفضای دیسک در یک سیستم واحد در سال 2012 بزرگترین سیستم فایل توزیع شده در تمام دنیاست. سایت Facebook بیش از 250 میلیارد عکس ذخیره کرده و روزانه 350 میلیون عکس جدید به این حجم اضافه می شود.

مدیر زیرساختهای Facebook در مصاحبه ای با InformationWeek گفت : " رسانه های اجتماعی باید از ابزارهای مختلفی استفاده کنند . در بین آنها ما از هدوپ(Hadoop) ، هایو(Hive) ، اچ بیس(HBase) برای مدیریت اطلاعات کاربران و اجرای موثر و مفید کسب و کارمان استفاده کردیم."

طبق گفته Parikh هدوپ در تمام تولیدات Facebookبه طرق مختلف استفاده می شود ، فعالیتهای کاربران از قبیل Like کردن و یا پست گذاشتن در یک دیتابیسMysql به روش توزیع شده ذخیره می شود اما نرم فزاری مانند Facebook Messenger از HBase که یکی از فریم ورکهای هدوپ است استفاده می کند. تمام مسائل تحلیلی ، رابط کاربری برنامه نویسان، داده های تحقیقاتی، محصولات مدیریتی و همچنین تبلیغات برای اشخاصی که قصد دارند کسب و کار خود را درFacebook دنبال کنند به وسیله Hadoop ، Hive وHbase صورت می گیرد.

Hive
به توسعه زیرساختهای انباره داده ها کمک می کند و مرکزی است برای گزارش کردن نیازهای Facebook . فیسبوک باید بین نیازهای خود تعادلی به وجود آورد تا با سرعت بالا بتواند به نتایج مطلوب از قبیل ابزارهای گراف و محیطی برای هرچه آسانترکردن گزارشگیری بپردازد ، پس Hive را انتخاب کرد تا بتواند بهQueryهای خودش سرعت دهد.

بالا بردن سرعت و  مقیاس پذیری Hive بسیار مهم بود تا بتواند ابزاری باشد برای بهبود تاخیر زمانی در اجرایqueryها و برطرف کردن نیازهای برنامه نویسان. Hiveبسیار کارآمد است و تا مدت طولانی خواهد بود زیرا در عین سادگی بسیار قدرتمند است.

اParikh می گوید :" زمانی که شما می خواهید تعداد زیادی از مردم قادر باشند از ابزار شما استفاده کنند  سادگی تنها کلید موفقیت شماست ، برای یک کسب و کار تنها شروع کار با Big Data آغاز راه است، توازن برقرار کردن بین کنترل چالشهای تکنولوژی با Hadoopو مشکلات درک داده ها بسیار دشوارتر خواهد بود ولی بسیار مهم . کسب و کار نیاز به تجربه و تمرکز روی اهداف برای مدت طولانی دارد تا مطمئن شویم روی مسیر درست گام بر می داریم ".

منبع : مرجع هدوپ ایران
دریاچه داده : معماری جدید برای زیرساخت تحلیل و پردازش اطلاعات

در دنیای کلان داده، مدتیست که عبارت دریاچه دادهبه یک اصطلاح فراگیر در حوزه معماریهای پیشنهادی برای پردازش داده ها تبدیل شده است .

دریاچه داده از دید مفهومی، یک مکان مشترک برای ذخیره انواع داده های یک سازمان به صورت خام و پردازش نشده است .

برخلاف انباره های داده که به صورت خاص برای مقاصد تحلیل و گزارش گیری های مدیریتی طراحی می شوند و شکل داده های ورودی را به قالب مورد نیاز خود تبدیل و ذخیره می کنند، دریاچه های داده ، اطلاعات و داده ها را به صورت خام ذخیره می کنند تا در آینده، ابزارهای پردازشی و تحلیل گران، خود تصمیم بگیرند که چه تبدیلی و چه پردازشی را روی آنها انجام بدهند.

از طرفی، انباره های داده دارای قالب و ساختار از پیش تعیین شده هستند و این موضوع، انواع داده های نوینی که روزانه در سازمانها تولید می شود را برای ذخیره به منظور مقاصد تحلیلی به چالش دچار می کند چون یکسره نیاز به تیمی برای مدیریت و طراحی ساختار و تبدیل داده ها خواهیم بود. در صورتیکه در دریاچه داده ، داده ها به همان شکلی که هستند ( مثلا داده های خام شبکه ، حسگرها ، متون استخراج شده از شبکه های اجتماعی و … ) ، ذخیره می شوند و نیاز مداوم به پالایش ندارند.

نکته دیگری که در مورد انباره های داده وجود دارد این است که در این سامانه ها، اطلاعات به صورت تجمعی ذخیره می شوند مثلا فروش ماهیانه و فروش هفتگی یک محصول اما فروش ساعتی یا لحظه ای آن دیگر ذخیره نمی شود و از بین می رود که دریاچه داده سازمانی ، این نقیصه را هم با حفظ داده های اصلی، مرتفع می سازد.

برای لیست اختلافات مابین انباره های داده و دریاچه داده ، از این لینک می توانید استفاده کنید.
http://www.blue-granite.com/blog/bid/402596/Top-Five-Differences-between-Data-Lakes-and-Data-Warehouses

مارتین فاولر به عنوان یکی از پیشروهای مهندسی نرم افزار و مباحث مدیریت داده ‌(نویسنده کتاب NoSQL Distilled) در مقاله ای که در زمینه دریاچه داده در سایت خود منتشر کرده است این تفاوت را به خوبی با شکل زیر نمایش داده است .

رابطه ای که میان دریاچه داده و سایر داده ها و نرم افزارهای یک سازمان می توان پیشنهاد کرد این است که به عنوان یک محیط جنبی و کاملا مجزا از داده های عملیاتی، به ذخیره داده ها و اطلاعات در قالب های باز (مانند جی سان ، اکس ام ال ، متن و …) یا بانکهای اطلاعاتی نو اس کیو ال بدون ساختار بپردازد و تحلیل گران از روی این داده ها ، ساختارهای تحلیلی خود را طراحی و اجرا کنند. نمایی پیشنهادی از این ساختار در شکل سوم و نیز عکس اول قابل مشاهده است.



دریاچه داده هم مثل بسیاری دیگر از فناوریهای حوزه کلان داده تا به بلوغ رسیدن و رفع اشکالات و نهادینه شدن در سازمانها، راه درازی را در پیش دارد.
منبع :
 http://www.bigdata.ir/1394/09/%d8%af%d8%b1%db%8c%d8%a7%da%86%d9%87-%d8%af%d8%a7%d8%af%d9%87-%d9%85%d8%b9%d9%85%d8%a7%d8%b1%db%8c-%d8%ac%d8%af%db%8c%d8%af-%d8%a8%d8%b1%d8%a7%db%8c-%d8%b2%db%8c%d8%b1%d8%b3%d8%a7%d8%ae%d8%aa-%d8%aa/
پیش پردازش داده ها :

 به دلیل تنوع وسیع منابع داده ها ، مجموعه ارزش داده های جمع آوری شده با توجه به مسائلی نظیر نویز، افزونگی و سازگاری تغییر میکند و بدون شک  ذخیره کردن داده ها  بی معنی کار بیهوده ای است.
علاوه براین برخی از روش های تحلیلی ، نیاز دقیقی به کیفیت داده ها دارند.
بنابراین برای یکپارچه سازی داده های حاصل از منابع مختلف،  داده ها باید تحت حالت های بسیاری پیش پردازش شوند تا امکان تحلیل موثر داده ها فراهم شود.
داده های پیش پردازش شده نه تنها هزینه های ذخیره سازی را کاهش میدهد بلکه باعث بهبود در دقت تحلیل می شود.
یکپارچه سازی ، پاک سازی داده های نادرست و غیر منطقی و حذف افزونگی داده ها یا داده های تکراری  از روش های پیش پردازش داده ها است.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
1⃣ اولین گام موفقیت، این است که بتوانی 🐌موفقیت دیگران را تحمل کنی.

2⃣ دومین گام موفقیت، این است که بتوانی موفقیت دیگران را 👌تحسین کنی.

3⃣ سومین گام موفقیت، این است که بتوانی موفقیت دیگران را 🔖تقلید کنی.

4⃣ آخرین گام موفقیت این است که بتوانی به شیوه 🚶خودت موفق شوید.

با سلام به همراهان عزیز
امروز را با یاد پروردگار با مطالب ذخیره سازی کلان داده ها:
سیستم ذخیره سازی برای داده های انبوه
سیستم ذخیره سازی توزیع شده

در خدمت شما سروران هستم.

باتشکر از توجه شما
گلناز اردشیری

@BigDataTechnology
Forwarded from Data Science
اکوسیستم BI با استفاده از کلان داده
Forwarded from Data Science
ذخیره سازی کلان داده ها

سیستم ذخیره سازی برای داده های انبوه :

ذخیره سازی داده ها به ذخیره و مدیریت مجموعه داده ها در مقیاس بزرگ اشاره میکند.
سیستم ذخیره سازی داده  شامل دو بخش است:
زیر ساخت ها
مکانیسم ها یا روش ذخیره سازی داده ها.

زیر ساخت های سخت افزاری شامل منابع انبوه اشتراکی فناوری ارتباطات و اطلاعات است که برای باز خورد آنی تقاضاهای وظایف به کار رفته اند و این منابع با یک روش کشسان سازمان دهی شده اند.
برای تحلیل یا تعامل با داده های ذخیره شده ، سیستم های ذخیره سازی باید به واسط های زیاد، پرس و جوی سریع یا به دیگر مدل های برنامه نویسی مجهز شود.
فناوری های ذخیره سازی موجود به دو دسته تقسیم میشود:

1- Direct Attached Storage (DAS)
2- Network Storage
   2-1-Network Attach Storage(NAS)
   2-2-Storage Area Network

در ادامه هر یک را به متخصر معرفی خواهم کرد.
DAS
در DAS درایو دیسک ها به طور مسقیم به سرویس دهنده متصل میشوند، ذخیره ساز یک وسیله جانبی (زیر سیستم ) است در حالی که سرویس دهندگان مدیریت داده ها و تمامی انواع نرم افزارهای کاربردی با زیر سیستم ذخیره ساز سازگار میشوند.
محیط های سرویس دهنده اندکی را بکار میگیرد.
اما با افزایش ظرفیت ذخیره سازی اثر بخشی منبع ذخیره ساز بسیار کم خواهد شد وقابلیت ارتقا و توسعه پذیری آن به شدت نحدود خواهد شد.
در صورت اختلال در سرویس دهنده ، دسترسی به داده ها امکان پذیر نیست و منابع ذخیره شده و داده ها نمیتوانند به اشتراک گذاشته شوند.

منبع :  کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی