BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
Big Data View of Communication Networks
دکتر بابک خلج
فایل ارائه شده 👇👇👇
ارائه مدل داده مناسب برای داده های عظیم
دکتر علی اصغر صفایی
فایل ارائه شده👇👇👇
اکتساب کلان داده ها:

اکتساب کلان داده ها به عنوان مرحله دوم سیستم کلان داده ها ، شامل جمع آوری داده ها ، انتقال داده ها و پیش پردازش داده ها است.
در هنگام اکتساب کلان داده ها زمانی که داده های خام جمع آوری شد برای ارسال آن ها به یک سیستم مدیریت ذخیره سازی مناسب باید از یک مکانیسم انتقال کارآمد استفاده شود که از برنامه های تحلیلی مختلف پشتیبانی می کند.
مجموعه داده های جمع آوری شده گاهی اوقات ممکن است شامل مقداری داده های افزونه و یا بلا استفاده باشد که به طور غیر ضروری فضای ذخیره سازی را افزایش میدهد و بر تحلیل داده هی بعدی نیز تاثیر میگذارد.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
اندیشیدن آسان است و عمل کردن دشوار، اما مشکل ترین کار ها، عمل کردن به چیز هایی است که می اندیشیم.

با درود فراوان به دوستان و همراهان عزیز.

شروع هفته جدید را با نام و یاد پروردگار شروع میکنیم.
هفته ای پر از انرژی و سلامتی برایتان آرزومندم.

امروز با تکمیل مطالب روز قبل از جمله:

جمع آوری داده ها
انتقال داده ها
پیش پردازش

در خدمت شما سروران هستم.

در ضمن در هفته جاری نحوه ذخیره سازی کلان داده ها را با هم دنبال خواهیم کرد.

با تشکر از توجه شما
گلناز اردشیری

@BigDataTechnology
گراف مهارت های مورد نیاز برای تبدیل شدن به یک دانشمند علم داده
جمع آوری داده ها :

جمع آوری داده ها به معنی استفاده از روش های خاص جمع آوری داده ها برای اکتساب داده های خام از یک محیط تولید داده ی خاص است.

 روش های جمع آوری:

فایل های ثبت وقایع
حسگر ها
تجهیزات سیار
فایل ثبت وقایع :
Log Files

به عنوان روشی که به طور گسترده برای جمع آوری داده ها استفاده شده است، فایل های ثبت وقایع، فایل های تولید شده به صورت خودکار توسط سیستم منبع داده ها هستند تا فعالیت ها در قالب های معین فایل برای تحلیل های بعدی ذخیره شوند.
تقریبا در تمام وسایل دیجیتال فایل های ثبت وقایع به طور معمول استفاده می شوند.
3 قالب ثبت وقایع👇
NCSA-national center for supercomputering applications

WSC - world wide web consortium

IIS - internet information services

هر سه نوع در قالب متنی ASCII هستند.
ممکن است برای ذخیره ی اطلاعات ثبت وقایع برخی مواقع به جای فایل متنی از پایگاه داده استفاده شوند تا بازده پرس و جو از مخزن بهبود یابد.
اصلاح میکنم W3C world wide web consortium
حسگر ها :

 در زندگی روزمره ، حسگرها برای اندازه گیری مقادیر فیزیکی و تبدیل مقادیر فیزیکی به سیگنال های دیجیتال قابل خواندن برای پردازش های بعدی و ذخیره سازی رایج هستند.
اطلاعات دریافتی ممکن است به صورت موج صوتی ، صدا ،ارتعاش ، خودرو،شیمیایی، جریان، آب و هوا ، فشا و دما طبقه بندی شود.
اطلاعات دریافت شده از طریق شبکه های سیمی یا بی سیم به یک نقطه جمع آوری دادها منتقل میشوند.
برای کاربردی که ممکن است به راحتی استقرار یابد و مدیریت شود.
شبکه ی حسگر سیمی یک راه کار مناسب برای اکتساب اطلاعات مرتبط است.
تجهیزات سیار:

در حال حاضر، وسایل سیار به طور گسترده ای استفاده می شوند.
با قدرتمند شدن روز افزون کاربرد وسایل سیار، آن ها پیچیدگی بیشتر و ابزارهای اکتساب داده ها و همچنین تنوع بیشتر داده هارا نمایان می کنند.
برای وسایل سیار، به دست آوردن موقعیت جغرافیایی از طریق سیستم های موقعیت یاب؛
بدست آوردن اطلاعات صوتی از طریق میکروفون؛
بدست آوردن تصاویر، فیلم ها ، نمای خیابان ها، بارکدهای دو بعدی و سایر اطلاعات چند رسانه ای از طریق دوربین ها ؛ بدست آوردن حرکات و اطلاعات زبان بدن کاربر از طریق صفحه نمایش لمسی و حسگرهای گرانشی امکان پذیر است.
به عنوان مثال iphoneیک جاسوس سیار است.iphoneبدون این که کاربر خبر داشته باشد میتواند داده های بی سیم و اطلاعات موقعیت جغرافیایی را جمع کند و سپس چنین اطلاعاتی را برای پردازش به شرکت اپل ارسال کند.
به غیر از اپل دیگر سیستم عامل های هوشمند میتوانند اطلاعات را به شیوه ی مشابه جمع اوری کنند.
علاوه بر سه روش ذکر شده اکتساب داده ها از منابع داده های اصلی، روش ها یا سیستم های جمع آوری اطلاعات دیگری وجود دارد.
به عنوان مثال در آزمایش های علمی، بسیاری از ابزارهای خاص را می توان برای جمع آوری داده های تجربی استفاده کرد،مانند طیف سنج و تلسکوپ های رادیویی.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
ضمن تشکر از دوستانی که طی پیام خصوصی از اطلاعات کلان داده ها در این کانال استقبال کردند.
سپاس از همگی شما که منو از ادامه کار دلگرم میکنید.

شایان ذکر است، تمامی اطلاعاتی در رابطه با کلان داده ها و رایانش ابری که در اختیار شما عزیزان قرار میگیرد شامل زحمات و اطلاعات مفید  و رهنمودهای اساتید بنام از جمله دکتر امیر صحافی، دکتر امیر مسعود رحمانی، مهندس مجتبی بنائی و جامعه هدوپ ایران است و بنده فقط انتقال دهنده اطلاعات هستم.
انتقال داده ها :
به محض اتمام جمع آوری داده های خام، داده ها برای پردازش و تحلیل به زیر ساخت های ذخیره سازی داده ها منتقل خواهند شد.
کلان داده ها به طور عمده در یک دیتا سنتر ذخیره می شوند.
برای بهبود کارایی محاسبات یا تسهیل نگهداری سخت افزار جای گزاری داده ها باید تنظیم شده باشد .
مثلا ارسال داده های داخلی ممکن است در دیتا سنتر رخ دهد.
بنابراین ارسال داده ها شامل دو مرحله است :
ارسال inter-DCN :ارسال منبع دادها تا دیتا سنتر است.

ارسال intera-DCN :جریان های ارتباط داده عا در دیتا سنتر است که به مکانیسم ارتباط در دیتا سنتر بستگی دارد.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
DCN
ارزیابی نرم افزارهای هوش تجاری و آنالیز داده توسط گارتنر:

امروزه داده ها با قالب های مختلف و اشکال متنوع در سازمانها در قالب بانک های اطلاعاتی مختلف و فایلهای لاگ و …. توزیع شده اند و برای استخراج اطلاعات مفید و بصری سازی داده ها یا باید از مهندسین داده کمک گرفت که به صورت حرفه ای به تجمیع و تحلیل داده ها بپردازند یا از نرم افزارهای هوش تجاری استفاده کرد تا به کمک امکانات مختلف و متنوع آنها به تولید انواع گزارشات از داده ها پرداخت و در اختیار مدیران و بخشهای مختلف سازمان گذاشت .

سایت گارتنر در ابتدای سال جاری میلادی نرم افزارهای هوش تجاری موجود در بازار دنیا را در چهار گروه طبقه بندی کرده است که مقاله کامل و جزییات هر کدام از این گروه بندیها و نرم افزارها را می توانید در خود مقاله اصلی بیابید اما با یک نگاه به این نمودار که در زیر آورده شده است شرکتهای شاخص در این حوزه به راحتی قابل مشاهده هستند.  از جمله آنها می توان به  Tableau و Qlik و   Microsoft و SAS و SAP و Oracle اشاره کرد .

منبع :
 http://www.bigdata.ir/1394/04/%d8%a7%d8%b1%d8%b2%db%8c%d8%a7%d8%a8%db%8c-%d9%86%d8%b1%d9%85-%d8%a7%d9%81%d8%b2%d8%a7%d8%b1%d9%87%d8%a7%db%8c-%d9%87%d9%88%d8%b4-%d8%aa%d8%ac%d8%a7%d8%b1%db%8c-%d9%88-%d8%a2%d9%86%d8%a7%d9%84%db%8c/
چطور Facebook از Hadoop و Hive استفاده می کند؟

غول رسانه های اجتماعی ، Facebook یکی از بزرگترین قهرمانان Hadoop و داده های بزرگ است .Facebook ادعا کرده که و با بیش از 100 PetaByteفضای دیسک در یک سیستم واحد در سال 2012 بزرگترین سیستم فایل توزیع شده در تمام دنیاست. سایت Facebook بیش از 250 میلیارد عکس ذخیره کرده و روزانه 350 میلیون عکس جدید به این حجم اضافه می شود.

مدیر زیرساختهای Facebook در مصاحبه ای با InformationWeek گفت : " رسانه های اجتماعی باید از ابزارهای مختلفی استفاده کنند . در بین آنها ما از هدوپ(Hadoop) ، هایو(Hive) ، اچ بیس(HBase) برای مدیریت اطلاعات کاربران و اجرای موثر و مفید کسب و کارمان استفاده کردیم."

طبق گفته Parikh هدوپ در تمام تولیدات Facebookبه طرق مختلف استفاده می شود ، فعالیتهای کاربران از قبیل Like کردن و یا پست گذاشتن در یک دیتابیسMysql به روش توزیع شده ذخیره می شود اما نرم فزاری مانند Facebook Messenger از HBase که یکی از فریم ورکهای هدوپ است استفاده می کند. تمام مسائل تحلیلی ، رابط کاربری برنامه نویسان، داده های تحقیقاتی، محصولات مدیریتی و همچنین تبلیغات برای اشخاصی که قصد دارند کسب و کار خود را درFacebook دنبال کنند به وسیله Hadoop ، Hive وHbase صورت می گیرد.

Hive
به توسعه زیرساختهای انباره داده ها کمک می کند و مرکزی است برای گزارش کردن نیازهای Facebook . فیسبوک باید بین نیازهای خود تعادلی به وجود آورد تا با سرعت بالا بتواند به نتایج مطلوب از قبیل ابزارهای گراف و محیطی برای هرچه آسانترکردن گزارشگیری بپردازد ، پس Hive را انتخاب کرد تا بتواند بهQueryهای خودش سرعت دهد.

بالا بردن سرعت و  مقیاس پذیری Hive بسیار مهم بود تا بتواند ابزاری باشد برای بهبود تاخیر زمانی در اجرایqueryها و برطرف کردن نیازهای برنامه نویسان. Hiveبسیار کارآمد است و تا مدت طولانی خواهد بود زیرا در عین سادگی بسیار قدرتمند است.

اParikh می گوید :" زمانی که شما می خواهید تعداد زیادی از مردم قادر باشند از ابزار شما استفاده کنند  سادگی تنها کلید موفقیت شماست ، برای یک کسب و کار تنها شروع کار با Big Data آغاز راه است، توازن برقرار کردن بین کنترل چالشهای تکنولوژی با Hadoopو مشکلات درک داده ها بسیار دشوارتر خواهد بود ولی بسیار مهم . کسب و کار نیاز به تجربه و تمرکز روی اهداف برای مدت طولانی دارد تا مطمئن شویم روی مسیر درست گام بر می داریم ".

منبع : مرجع هدوپ ایران