BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
دریاچه داده : معماری جدید برای زیرساخت تحلیل و پردازش اطلاعات

در دنیای کلان داده، مدتیست که عبارت دریاچه دادهبه یک اصطلاح فراگیر در حوزه معماریهای پیشنهادی برای پردازش داده ها تبدیل شده است .

دریاچه داده از دید مفهومی، یک مکان مشترک برای ذخیره انواع داده های یک سازمان به صورت خام و پردازش نشده است .

برخلاف انباره های داده که به صورت خاص برای مقاصد تحلیل و گزارش گیری های مدیریتی طراحی می شوند و شکل داده های ورودی را به قالب مورد نیاز خود تبدیل و ذخیره می کنند، دریاچه های داده ، اطلاعات و داده ها را به صورت خام ذخیره می کنند تا در آینده، ابزارهای پردازشی و تحلیل گران، خود تصمیم بگیرند که چه تبدیلی و چه پردازشی را روی آنها انجام بدهند.

از طرفی، انباره های داده دارای قالب و ساختار از پیش تعیین شده هستند و این موضوع، انواع داده های نوینی که روزانه در سازمانها تولید می شود را برای ذخیره به منظور مقاصد تحلیلی به چالش دچار می کند چون یکسره نیاز به تیمی برای مدیریت و طراحی ساختار و تبدیل داده ها خواهیم بود. در صورتیکه در دریاچه داده ، داده ها به همان شکلی که هستند ( مثلا داده های خام شبکه ، حسگرها ، متون استخراج شده از شبکه های اجتماعی و … ) ، ذخیره می شوند و نیاز مداوم به پالایش ندارند.

نکته دیگری که در مورد انباره های داده وجود دارد این است که در این سامانه ها، اطلاعات به صورت تجمعی ذخیره می شوند مثلا فروش ماهیانه و فروش هفتگی یک محصول اما فروش ساعتی یا لحظه ای آن دیگر ذخیره نمی شود و از بین می رود که دریاچه داده سازمانی ، این نقیصه را هم با حفظ داده های اصلی، مرتفع می سازد.

برای لیست اختلافات مابین انباره های داده و دریاچه داده ، از این لینک می توانید استفاده کنید.
http://www.blue-granite.com/blog/bid/402596/Top-Five-Differences-between-Data-Lakes-and-Data-Warehouses

مارتین فاولر به عنوان یکی از پیشروهای مهندسی نرم افزار و مباحث مدیریت داده ‌(نویسنده کتاب NoSQL Distilled) در مقاله ای که در زمینه دریاچه داده در سایت خود منتشر کرده است این تفاوت را به خوبی با شکل زیر نمایش داده است .

رابطه ای که میان دریاچه داده و سایر داده ها و نرم افزارهای یک سازمان می توان پیشنهاد کرد این است که به عنوان یک محیط جنبی و کاملا مجزا از داده های عملیاتی، به ذخیره داده ها و اطلاعات در قالب های باز (مانند جی سان ، اکس ام ال ، متن و …) یا بانکهای اطلاعاتی نو اس کیو ال بدون ساختار بپردازد و تحلیل گران از روی این داده ها ، ساختارهای تحلیلی خود را طراحی و اجرا کنند. نمایی پیشنهادی از این ساختار در شکل سوم و نیز عکس اول قابل مشاهده است.



دریاچه داده هم مثل بسیاری دیگر از فناوریهای حوزه کلان داده تا به بلوغ رسیدن و رفع اشکالات و نهادینه شدن در سازمانها، راه درازی را در پیش دارد.
منبع :
 http://www.bigdata.ir/1394/09/%d8%af%d8%b1%db%8c%d8%a7%da%86%d9%87-%d8%af%d8%a7%d8%af%d9%87-%d9%85%d8%b9%d9%85%d8%a7%d8%b1%db%8c-%d8%ac%d8%af%db%8c%d8%af-%d8%a8%d8%b1%d8%a7%db%8c-%d8%b2%db%8c%d8%b1%d8%b3%d8%a7%d8%ae%d8%aa-%d8%aa/
پیش پردازش داده ها :

 به دلیل تنوع وسیع منابع داده ها ، مجموعه ارزش داده های جمع آوری شده با توجه به مسائلی نظیر نویز، افزونگی و سازگاری تغییر میکند و بدون شک  ذخیره کردن داده ها  بی معنی کار بیهوده ای است.
علاوه براین برخی از روش های تحلیلی ، نیاز دقیقی به کیفیت داده ها دارند.
بنابراین برای یکپارچه سازی داده های حاصل از منابع مختلف،  داده ها باید تحت حالت های بسیاری پیش پردازش شوند تا امکان تحلیل موثر داده ها فراهم شود.
داده های پیش پردازش شده نه تنها هزینه های ذخیره سازی را کاهش میدهد بلکه باعث بهبود در دقت تحلیل می شود.
یکپارچه سازی ، پاک سازی داده های نادرست و غیر منطقی و حذف افزونگی داده ها یا داده های تکراری  از روش های پیش پردازش داده ها است.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
1⃣ اولین گام موفقیت، این است که بتوانی 🐌موفقیت دیگران را تحمل کنی.

2⃣ دومین گام موفقیت، این است که بتوانی موفقیت دیگران را 👌تحسین کنی.

3⃣ سومین گام موفقیت، این است که بتوانی موفقیت دیگران را 🔖تقلید کنی.

4⃣ آخرین گام موفقیت این است که بتوانی به شیوه 🚶خودت موفق شوید.

با سلام به همراهان عزیز
امروز را با یاد پروردگار با مطالب ذخیره سازی کلان داده ها:
سیستم ذخیره سازی برای داده های انبوه
سیستم ذخیره سازی توزیع شده

در خدمت شما سروران هستم.

باتشکر از توجه شما
گلناز اردشیری

@BigDataTechnology
Forwarded from Data Science
اکوسیستم BI با استفاده از کلان داده
Forwarded from Data Science
ذخیره سازی کلان داده ها

سیستم ذخیره سازی برای داده های انبوه :

ذخیره سازی داده ها به ذخیره و مدیریت مجموعه داده ها در مقیاس بزرگ اشاره میکند.
سیستم ذخیره سازی داده  شامل دو بخش است:
زیر ساخت ها
مکانیسم ها یا روش ذخیره سازی داده ها.

زیر ساخت های سخت افزاری شامل منابع انبوه اشتراکی فناوری ارتباطات و اطلاعات است که برای باز خورد آنی تقاضاهای وظایف به کار رفته اند و این منابع با یک روش کشسان سازمان دهی شده اند.
برای تحلیل یا تعامل با داده های ذخیره شده ، سیستم های ذخیره سازی باید به واسط های زیاد، پرس و جوی سریع یا به دیگر مدل های برنامه نویسی مجهز شود.
فناوری های ذخیره سازی موجود به دو دسته تقسیم میشود:

1- Direct Attached Storage (DAS)
2- Network Storage
   2-1-Network Attach Storage(NAS)
   2-2-Storage Area Network

در ادامه هر یک را به متخصر معرفی خواهم کرد.
DAS
در DAS درایو دیسک ها به طور مسقیم به سرویس دهنده متصل میشوند، ذخیره ساز یک وسیله جانبی (زیر سیستم ) است در حالی که سرویس دهندگان مدیریت داده ها و تمامی انواع نرم افزارهای کاربردی با زیر سیستم ذخیره ساز سازگار میشوند.
محیط های سرویس دهنده اندکی را بکار میگیرد.
اما با افزایش ظرفیت ذخیره سازی اثر بخشی منبع ذخیره ساز بسیار کم خواهد شد وقابلیت ارتقا و توسعه پذیری آن به شدت نحدود خواهد شد.
در صورت اختلال در سرویس دهنده ، دسترسی به داده ها امکان پذیر نیست و منابع ذخیره شده و داده ها نمیتوانند به اشتراک گذاشته شوند.

منبع :  کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
☀️"انسان با یک کلمه سقوط میکند و با یک کلمه به معراج میرود"
کلمه می تواند؛
تو را مشتاق کند مثل: "دوستت دارم"
تو را ویران کند مثل: "از تو بیزارم"
تو را تلخ کند مثل: "خسته ام"
تو را سبز کند مثل: "خوشحالم"
تو را زیبا کند مثل: "سپاسگزارم"
تو را سست کند مثل: "نمیتوانم"
تو را پیش ببرد مثل: "ایمان دارم"
تو را خاموش کند مثل: "شانس ندارم"
کلمه میتواند تو را آغاز کند مثل:
از همین لحظه شروع میکنم ،
ازهمین نقطه تغییر میکنم ،
ازهمین دم یک طرح نو میزنم ،
می توانم...
می خواهم.
می شود.
سلام و صبح همتون بخیر و پر انرژی🌹🌹

دوستان امروز ادامه مطالب روز قبل پیرامون ذخیره سازی کلان داده ها را با هم دنبال خواهیم کرد.

در ضمن کانال BigData در روز سه شنبه 23 آذر ماه از همراهی شما نسبت به انتقال اطلاعات به شما دوستان معذور است و ادامه آموزش روز چهارشنبه امکان پذیر است.

با تشکر از توجه شما
گلناز اردشیری

@BigDataTechnology
Network storage

ذخيره ساز شبكه اي از شبكه اصلي يا يك شبكه ي طراحي شده ي ويژه ي ذخيره سازي استفاده ميكند تا دستيابي يكنواخت به اطلاعات و سرويس هاي اشتراكي سيستم اطلاعاتي را براي كاربران فراهم كند.
تجهيزات ذخيره ساز شبكه اي از تجهيزات تبادل داده هاي خاص، ارايه ي ديسك ها،كتابخانه tap و رسانه ذخيره سازي ديگر،همچنين نرم افزارهاي ذخيره سازي خاص تشكيل شده است.
ذخيره ساز شبكه با ذخيره سازي داده هاي انبوه،اشتراك محدود داده ها،بهره برداري كامل اطلاعات و داده كاوي،قابليت اطمينان داده ها،پشتيباني و امنيت داده ها و همچنين مديريت داده هاي ساده شده و يكپارچه شده شناخته مي شود.
علاوه بر اين ويژيگي توسعه پذيري بسيار زيادي دارد تا براي حجم داده هاي زياد نرخ انتقال اطلاعات مناسبي را فراهم كند.
NAS- network attached storage
در حقيقت NAS يك ابزار ذخيره سازي كمكي در يك شبكه است.
از طريق يك هاب يا سوييچ به طور مستقيم به يك شبكه وصل مي شود و از طريق پروتكل TCP/IP ارتباط برقرار مي كند.NAS از تبادل پيام استفاده ميكند و داده ها به صورت فايل منتقل ميشوند.
دو ويژگي برجسته دارد:

در اتصال فيزيكي ابزار ذخيره سازي را به طور مستقيم به شبكه وصل مي كند و سپس ذخيره ساز را به انتهاي يك سرويس دهنده متصل ميكند.


به طور فني حركات بازوي متحرك را كاهش ميدهد بنابراين باعث كاهش تاخير خواندن و نوشتن مي شود،با اين حال NAS نشان ميدهد كه هنوز ذاتا يكي از تجهيزات سرويس دهنده سنتي است.
SAN -storage area network

براي ذخيره سازي داده ها با توپولوژي شبكه ي انعطاف پذير و اتصالات فيبر نوري با سرعت بالا تمركز دارد.
سوييچ كردن داده ها را به صورت چند مسيره در بين گره هاي داخلي انكان پذير مي سازد.
مديريت ذخيره سازي داده ها در ذخيره ساز نسبتا مستقل شبكه ي محلي قرار گرفته است،بنابراين حداكثر ميزان اشتراك داده ها ومديريت داده ها را دارد و همچنين به عنوان گسترش يكپارچه اي از سيستم است.

منبع : كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني