BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
1⃣ اولین گام موفقیت، این است که بتوانی 🐌موفقیت دیگران را تحمل کنی.

2⃣ دومین گام موفقیت، این است که بتوانی موفقیت دیگران را 👌تحسین کنی.

3⃣ سومین گام موفقیت، این است که بتوانی موفقیت دیگران را 🔖تقلید کنی.

4⃣ آخرین گام موفقیت این است که بتوانی به شیوه 🚶خودت موفق شوید.

با سلام به همراهان عزیز
امروز را با یاد پروردگار با مطالب ذخیره سازی کلان داده ها:
سیستم ذخیره سازی برای داده های انبوه
سیستم ذخیره سازی توزیع شده

در خدمت شما سروران هستم.

باتشکر از توجه شما
گلناز اردشیری

@BigDataTechnology
Forwarded from Data Science
اکوسیستم BI با استفاده از کلان داده
Forwarded from Data Science
ذخیره سازی کلان داده ها

سیستم ذخیره سازی برای داده های انبوه :

ذخیره سازی داده ها به ذخیره و مدیریت مجموعه داده ها در مقیاس بزرگ اشاره میکند.
سیستم ذخیره سازی داده  شامل دو بخش است:
زیر ساخت ها
مکانیسم ها یا روش ذخیره سازی داده ها.

زیر ساخت های سخت افزاری شامل منابع انبوه اشتراکی فناوری ارتباطات و اطلاعات است که برای باز خورد آنی تقاضاهای وظایف به کار رفته اند و این منابع با یک روش کشسان سازمان دهی شده اند.
برای تحلیل یا تعامل با داده های ذخیره شده ، سیستم های ذخیره سازی باید به واسط های زیاد، پرس و جوی سریع یا به دیگر مدل های برنامه نویسی مجهز شود.
فناوری های ذخیره سازی موجود به دو دسته تقسیم میشود:

1- Direct Attached Storage (DAS)
2- Network Storage
   2-1-Network Attach Storage(NAS)
   2-2-Storage Area Network

در ادامه هر یک را به متخصر معرفی خواهم کرد.
DAS
در DAS درایو دیسک ها به طور مسقیم به سرویس دهنده متصل میشوند، ذخیره ساز یک وسیله جانبی (زیر سیستم ) است در حالی که سرویس دهندگان مدیریت داده ها و تمامی انواع نرم افزارهای کاربردی با زیر سیستم ذخیره ساز سازگار میشوند.
محیط های سرویس دهنده اندکی را بکار میگیرد.
اما با افزایش ظرفیت ذخیره سازی اثر بخشی منبع ذخیره ساز بسیار کم خواهد شد وقابلیت ارتقا و توسعه پذیری آن به شدت نحدود خواهد شد.
در صورت اختلال در سرویس دهنده ، دسترسی به داده ها امکان پذیر نیست و منابع ذخیره شده و داده ها نمیتوانند به اشتراک گذاشته شوند.

منبع :  کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
☀️"انسان با یک کلمه سقوط میکند و با یک کلمه به معراج میرود"
کلمه می تواند؛
تو را مشتاق کند مثل: "دوستت دارم"
تو را ویران کند مثل: "از تو بیزارم"
تو را تلخ کند مثل: "خسته ام"
تو را سبز کند مثل: "خوشحالم"
تو را زیبا کند مثل: "سپاسگزارم"
تو را سست کند مثل: "نمیتوانم"
تو را پیش ببرد مثل: "ایمان دارم"
تو را خاموش کند مثل: "شانس ندارم"
کلمه میتواند تو را آغاز کند مثل:
از همین لحظه شروع میکنم ،
ازهمین نقطه تغییر میکنم ،
ازهمین دم یک طرح نو میزنم ،
می توانم...
می خواهم.
می شود.
سلام و صبح همتون بخیر و پر انرژی🌹🌹

دوستان امروز ادامه مطالب روز قبل پیرامون ذخیره سازی کلان داده ها را با هم دنبال خواهیم کرد.

در ضمن کانال BigData در روز سه شنبه 23 آذر ماه از همراهی شما نسبت به انتقال اطلاعات به شما دوستان معذور است و ادامه آموزش روز چهارشنبه امکان پذیر است.

با تشکر از توجه شما
گلناز اردشیری

@BigDataTechnology
Network storage

ذخيره ساز شبكه اي از شبكه اصلي يا يك شبكه ي طراحي شده ي ويژه ي ذخيره سازي استفاده ميكند تا دستيابي يكنواخت به اطلاعات و سرويس هاي اشتراكي سيستم اطلاعاتي را براي كاربران فراهم كند.
تجهيزات ذخيره ساز شبكه اي از تجهيزات تبادل داده هاي خاص، ارايه ي ديسك ها،كتابخانه tap و رسانه ذخيره سازي ديگر،همچنين نرم افزارهاي ذخيره سازي خاص تشكيل شده است.
ذخيره ساز شبكه با ذخيره سازي داده هاي انبوه،اشتراك محدود داده ها،بهره برداري كامل اطلاعات و داده كاوي،قابليت اطمينان داده ها،پشتيباني و امنيت داده ها و همچنين مديريت داده هاي ساده شده و يكپارچه شده شناخته مي شود.
علاوه بر اين ويژيگي توسعه پذيري بسيار زيادي دارد تا براي حجم داده هاي زياد نرخ انتقال اطلاعات مناسبي را فراهم كند.
NAS- network attached storage
در حقيقت NAS يك ابزار ذخيره سازي كمكي در يك شبكه است.
از طريق يك هاب يا سوييچ به طور مستقيم به يك شبكه وصل مي شود و از طريق پروتكل TCP/IP ارتباط برقرار مي كند.NAS از تبادل پيام استفاده ميكند و داده ها به صورت فايل منتقل ميشوند.
دو ويژگي برجسته دارد:

در اتصال فيزيكي ابزار ذخيره سازي را به طور مستقيم به شبكه وصل مي كند و سپس ذخيره ساز را به انتهاي يك سرويس دهنده متصل ميكند.


به طور فني حركات بازوي متحرك را كاهش ميدهد بنابراين باعث كاهش تاخير خواندن و نوشتن مي شود،با اين حال NAS نشان ميدهد كه هنوز ذاتا يكي از تجهيزات سرويس دهنده سنتي است.
SAN -storage area network

براي ذخيره سازي داده ها با توپولوژي شبكه ي انعطاف پذير و اتصالات فيبر نوري با سرعت بالا تمركز دارد.
سوييچ كردن داده ها را به صورت چند مسيره در بين گره هاي داخلي انكان پذير مي سازد.
مديريت ذخيره سازي داده ها در ذخيره ساز نسبتا مستقل شبكه ي محلي قرار گرفته است،بنابراين حداكثر ميزان اشتراك داده ها ومديريت داده ها را دارد و همچنين به عنوان گسترش يكپارچه اي از سيستم است.

منبع : كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
درود و شب بخیر بر دوستان عزیز ، بابت سکوت کوتاه مدت کانال عذرخواهی می کنیم .
مقاله ای از شرکت intel برای اشنایی با کلان داده ها در رایانش ابری تقدیم حضورتان میکنم.

با تشکر از توجه شما🌷🌷
گلناز اردشیری

@BigDataTechnology
دوستان عزیزم طی بازدید از بیست و یکمین نمایشگاه الکامپ تهران ، با شرکت آریا همراه آشنا شدم که در بخش cloud , big data فعالیت میکنن و سامانه ای  مدیریتی طراحی کردن.
به دوستان علاقمند پیشنهاد میکنم از این غرفه بازدید کن.
محل دائم نمایشگاه های بین المللی تهران - سالن 44.
در صورت نیاز به اطلاعات بیشتر در رابطه با فعالیت این شرکت ادرس ایمیل خود را  به ID شخصی بنده
@Golnazardeshiri
ارسال نمایید.
@BigDataTechnology
خردمند کسی است که از همه می آموزد.

با درود فراوان به همه ی همراهان عزیز.

صبح زیبای پاییزیتون پر از شادی و نشاط و آرامش🌷

ضمن عرض خوش آمد گویی به اعضای جدید کانال از جمله:

 مدیران امنیت اطلاعات وزارتخانه ها، سازمانها، بانک ها، مدرسین شبکه و امنیت اطلاعات، اساتید و محققین خبره دانشگاه و مدیران خبرگزاریهای تخصصی و صاحبنظران و نویسندگان و دیگر همراهان ارجمند به کانال تخصصی
@BigaDataTechnology،
باعث افتخار بنده هست مطالب مورد توجه همه ی  سرواران قرار گرفته است.

امروز با یاد پرودگار مهربان با ادامه مطالب پیرامون ذخیره سازی کلان داده ها در خدمت شما هستم.

با تشکر از توجه شما🌷

گلناز اردشیری

@BigDataTechnology
مکانیسم ذخیره سازی توزیع شده برای کلان داده ها:
سیستم فایل ها:


فناوري و دانشي را در نظر بگيريد که در پس زمينه صفحه اصلي موتور جست‌وجوي گوگل مورد استفاده قرار مي‌گيرد. در پس الگوريتم‌ها و ساير قابليت‌هايي که امکان جست‌وجو بر مبناي متن وارد شده را فراهم مي آورد، يک مرکز داده بزرگ نيز وجود دارد. در اين مرکز داده،کپي متني و کاملي از هر آنچه در اينترنت وجود دارد ذخيره شده است. در همان زمان که شما و هزاران نفر ديگر در حال وارد کردن متن مورد نظر و جست‌وجوي اينترنتی هستيد، اين کپي عظيم از داده نيز به طور متناوب با داده‌هاي جديد به‌روزرساني مي‌شود. به موازات همه اين فرآيندها، داده‌هاي موجود توسط پردازند‌ه‌های هزاران سرور مجزا در حال پردازش است. هر يک از اين پردازنده‌ها مي‌تواند هر کاري، از انتخاب آگهي متناسب با متن مورد جست‌وجوي شما تا فرآيند مرتب‌سازي جهت تعيين ترتيب نمايش آن‌ها را انجام دهد.
سیستم ذخيره‌سازي استفاده شده در موتور جست‌وجوي گوگل بايد بتواند در هر روز به ميليون‌ها درخواست خواندن و نوشتن اطلاعات پاسخ دهد. اين درخواست‌ها توسط پردازش‌‌هايي ارسال مي‌شود که به صورت مستقل روي هزاران سرور، در حال اجرا هستند. فرآيند پشتيبان‌گيري يا نگه‌داري از سيستم، تحت هيچ شرايطي نبايد منجر به غير‌فعال شدن اين سرويس‌ها شوند. از طرف ديگر اين مجموعه داده‌اي ناچار است به صورت بي‌وقفه در حال رشد و گسترش باشد. اين قابليت از آن جهت اهميت دارد که زيرساخت ذخيره‌سازي بايد بتواند صفحات يافته شده توسط روبات‌هاي جست‌وجو‌گر اينترنت را که هر روز بر تعداد آن‌ها افزوده مي‌شود، ذخيره کنند. در حال حاضر، روبات‌هاي موتور جست‌وجوي گوگل روزانه بيش از بیست پتابايت داده را پردازش مي‌کنند. شرکت گوگل براي پاسخ‌گويي به چنين نيازي نمي‌تواند حتي به قوي‌ترين معماري‌هاي ذخيره‌سازي که به صورت معمول در ساير پروژه‌هاي بزرگ استفاده مي‌شوند تکيه کند. ساير غول‌هاي دنياي وب و ابرشرکت‌هاي ارائه دهنده محيط پردازش ابري و مراکز داده فوق‌العاده بزرگ نيز با چالش‌هاي مشابهي روبه‌رو هستند. از جمله اين ابر شرکت‌ها مي‌توان به آمازون و شبکه‌های اجتماعی اشاره کرد. بيشتر مراکز داده سعي دارند تا فرآيند مقياس‌پذيري فضاي ذخيره‌سازي داده را از طريق افزودن به ظرفيت‌هاي ديسک‌ها و تعداد سرورهاي پايگاه‌داده و سرورهاي متصل به رسانه‌هاي ذخيره‌سازي، به انجام برسانند. اما اين رويکرد معمولاً با شکست مواجه مي‌شود زيرا محدوديت‌ها و التزام‌هاي موجود در محيط ابري جهت رسيدن به سطح کارايي و عملکرد بالا، چالشي است که روش مذکور نمي‌تواند پاسخ‌گوي آن باشد. در محيط ابري ممکن است در هر زمان با هزاران کاربر فعال مواجه باشيم که بايد به داده‌ها دسترسي داشته‌باشند و داده‌هايي که بايد در هر لحظه نوشته يا خوانده شوند، از چندين هزار ترابايت فراتر می‌رود.

اينجا مسئله چيزي غير از سرعت خواندن و نوشتن ديسک است. وقتي جريان داده در سطح شبکه ذخيره‌سازي به اين حد مي‌رسد، عملکرد و بازدهي شبکه ذخيره‌سازي داده است که مشکل‌ساز مي‌شود. حتي در صورت استفاده از بهترين سرورها و رسانه‌هاي ذخيره‌سازي، باز هم ممکن است تجهيزات SAN مورد استفاده، تبديل به گلوگاهي در مسير دسترسي و پردازش داده، شوند. معمولاً در اين وضعيت، با مشکلات مرتبط با محدوديت در مقياس‌پذيري سيستم مواجه مي‌شويم. با در نظر گرفتن سرعت افزايش ظرفيت مراکز داده در شرکت‌هاي بزرگ مبتني بر وب (براي نمونه به گفته جيمز هميلتون، نايب رئيس آمازون، در حال حاضر اين شرکت، روزانه به اندازه کل فضاي مورد استفاده توسط شرکت در سال ۲۰۰۱ ، به ظرفيت مرکز داده خود مي‌افزايد.) با استفاده از روش‌هاي معمولي که در مراکز داده کنوني براي ارتقاي ظرفيت به کار مي‌رود،‌هزينه‌هاي نرم‌افزاري، سخت‌افزاري و مديريتي اين فرآيند، بسيار زياد خواهد بود.
 اين روش ممکن است صدها ماشين که در حال جمع‌آوري اطلاعات هستند، نتيجه کار خود را در يک فايل مشترک ذخيره کنند. در عين حال، ممکن است اين فايل توسط برنامه‌ ديگري مورد استفاده قرار گيرد که وظيفه ترکيب و تحليل داده را بر عهده دارد و حتي ممکن است اين فرآيند نيز به موازات فرآيند قبلي ذخيره داده در فايل، انجام شود.

گوگل، بيشتر جزئيات تکنيکي معماري GFS را به دلايل کاملاً مشخص محرمانه نگاه داشته‌است. اما در مقاله‌‌اي که در سال ۲۰۰۳ توسط سان‌جاي گماوات (Sanjay Ghemawat) عضو گروه تحقيقاتي شرکت گوگل، هوارد گوبيوف (Howard Gobioff) مهندس پايه و شان‌تک‌ليونگ (Shun-Tak Leung) عضو گروه مهندسان ارشد منتشر شد، اين‌ طور عنوان شده که سيستم‌فايلي GFS با در نظر گرفتن اولويت‌هاي بسيار خاصي طراحي شده است. اين مقاله عنوان مي‌کند که هدف از طراحي GFS، تبديل تعداد زيادي از سرورها و هاردديسک‌هاي ارزان‌قيمت، به مجموعه‌اي است که بتواند صدها ترابايت داده را ذخیره و مديريت کرده و در صورت بروز خطا يا نقص‌های سخت‌افزاري بتواند مشکل به وجود آمده را برطرف کند. اين سيستم‌فايلي به طور سفارشي و متناسب با روش جمع‌آوري و خواندن داده توسط گوگل،‌ طراحي شده است و مي‌تواند به چندين برنامه امکان دهد تا به طور همزمان حجم‌ بزرگي از داده‌ها را به سيستم بيافزايند و با بالاترين سرعت ممکن به داده‌ها دسترسي داشته‌باشند.