ذخیره سازی کلان داده ها
سیستم ذخیره سازی برای داده های انبوه :
ذخیره سازی داده ها به ذخیره و مدیریت مجموعه داده ها در مقیاس بزرگ اشاره میکند.
سیستم ذخیره سازی داده شامل دو بخش است:
زیر ساخت ها
مکانیسم ها یا روش ذخیره سازی داده ها.
زیر ساخت های سخت افزاری شامل منابع انبوه اشتراکی فناوری ارتباطات و اطلاعات است که برای باز خورد آنی تقاضاهای وظایف به کار رفته اند و این منابع با یک روش کشسان سازمان دهی شده اند.
برای تحلیل یا تعامل با داده های ذخیره شده ، سیستم های ذخیره سازی باید به واسط های زیاد، پرس و جوی سریع یا به دیگر مدل های برنامه نویسی مجهز شود.
سیستم ذخیره سازی برای داده های انبوه :
ذخیره سازی داده ها به ذخیره و مدیریت مجموعه داده ها در مقیاس بزرگ اشاره میکند.
سیستم ذخیره سازی داده شامل دو بخش است:
زیر ساخت ها
مکانیسم ها یا روش ذخیره سازی داده ها.
زیر ساخت های سخت افزاری شامل منابع انبوه اشتراکی فناوری ارتباطات و اطلاعات است که برای باز خورد آنی تقاضاهای وظایف به کار رفته اند و این منابع با یک روش کشسان سازمان دهی شده اند.
برای تحلیل یا تعامل با داده های ذخیره شده ، سیستم های ذخیره سازی باید به واسط های زیاد، پرس و جوی سریع یا به دیگر مدل های برنامه نویسی مجهز شود.
فناوری های ذخیره سازی موجود به دو دسته تقسیم میشود:
1- Direct Attached Storage (DAS)
2- Network Storage
2-1-Network Attach Storage(NAS)
2-2-Storage Area Network
در ادامه هر یک را به متخصر معرفی خواهم کرد.
1- Direct Attached Storage (DAS)
2- Network Storage
2-1-Network Attach Storage(NAS)
2-2-Storage Area Network
در ادامه هر یک را به متخصر معرفی خواهم کرد.
DAS
در DAS درایو دیسک ها به طور مسقیم به سرویس دهنده متصل میشوند، ذخیره ساز یک وسیله جانبی (زیر سیستم ) است در حالی که سرویس دهندگان مدیریت داده ها و تمامی انواع نرم افزارهای کاربردی با زیر سیستم ذخیره ساز سازگار میشوند.
محیط های سرویس دهنده اندکی را بکار میگیرد.
اما با افزایش ظرفیت ذخیره سازی اثر بخشی منبع ذخیره ساز بسیار کم خواهد شد وقابلیت ارتقا و توسعه پذیری آن به شدت نحدود خواهد شد.
در صورت اختلال در سرویس دهنده ، دسترسی به داده ها امکان پذیر نیست و منابع ذخیره شده و داده ها نمیتوانند به اشتراک گذاشته شوند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
در DAS درایو دیسک ها به طور مسقیم به سرویس دهنده متصل میشوند، ذخیره ساز یک وسیله جانبی (زیر سیستم ) است در حالی که سرویس دهندگان مدیریت داده ها و تمامی انواع نرم افزارهای کاربردی با زیر سیستم ذخیره ساز سازگار میشوند.
محیط های سرویس دهنده اندکی را بکار میگیرد.
اما با افزایش ظرفیت ذخیره سازی اثر بخشی منبع ذخیره ساز بسیار کم خواهد شد وقابلیت ارتقا و توسعه پذیری آن به شدت نحدود خواهد شد.
در صورت اختلال در سرویس دهنده ، دسترسی به داده ها امکان پذیر نیست و منابع ذخیره شده و داده ها نمیتوانند به اشتراک گذاشته شوند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
☀️"انسان با یک کلمه سقوط میکند و با یک کلمه به معراج میرود"
کلمه می تواند؛
تو را مشتاق کند مثل: "دوستت دارم"
تو را ویران کند مثل: "از تو بیزارم"
تو را تلخ کند مثل: "خسته ام"
تو را سبز کند مثل: "خوشحالم"
تو را زیبا کند مثل: "سپاسگزارم"
تو را سست کند مثل: "نمیتوانم"
تو را پیش ببرد مثل: "ایمان دارم"
تو را خاموش کند مثل: "شانس ندارم"
کلمه میتواند تو را آغاز کند مثل:
از همین لحظه شروع میکنم ،
ازهمین نقطه تغییر میکنم ،
ازهمین دم یک طرح نو میزنم ،
می توانم...
می خواهم.
می شود.
سلام و صبح همتون بخیر و پر انرژی🌹🌹
دوستان امروز ادامه مطالب روز قبل پیرامون ذخیره سازی کلان داده ها را با هم دنبال خواهیم کرد.
در ضمن کانال BigData در روز سه شنبه 23 آذر ماه از همراهی شما نسبت به انتقال اطلاعات به شما دوستان معذور است و ادامه آموزش روز چهارشنبه امکان پذیر است.
با تشکر از توجه شما
گلناز اردشیری
@BigDataTechnology
کلمه می تواند؛
تو را مشتاق کند مثل: "دوستت دارم"
تو را ویران کند مثل: "از تو بیزارم"
تو را تلخ کند مثل: "خسته ام"
تو را سبز کند مثل: "خوشحالم"
تو را زیبا کند مثل: "سپاسگزارم"
تو را سست کند مثل: "نمیتوانم"
تو را پیش ببرد مثل: "ایمان دارم"
تو را خاموش کند مثل: "شانس ندارم"
کلمه میتواند تو را آغاز کند مثل:
از همین لحظه شروع میکنم ،
ازهمین نقطه تغییر میکنم ،
ازهمین دم یک طرح نو میزنم ،
می توانم...
می خواهم.
می شود.
سلام و صبح همتون بخیر و پر انرژی🌹🌹
دوستان امروز ادامه مطالب روز قبل پیرامون ذخیره سازی کلان داده ها را با هم دنبال خواهیم کرد.
در ضمن کانال BigData در روز سه شنبه 23 آذر ماه از همراهی شما نسبت به انتقال اطلاعات به شما دوستان معذور است و ادامه آموزش روز چهارشنبه امکان پذیر است.
با تشکر از توجه شما
گلناز اردشیری
@BigDataTechnology
Network storage
ذخيره ساز شبكه اي از شبكه اصلي يا يك شبكه ي طراحي شده ي ويژه ي ذخيره سازي استفاده ميكند تا دستيابي يكنواخت به اطلاعات و سرويس هاي اشتراكي سيستم اطلاعاتي را براي كاربران فراهم كند.
تجهيزات ذخيره ساز شبكه اي از تجهيزات تبادل داده هاي خاص، ارايه ي ديسك ها،كتابخانه tap و رسانه ذخيره سازي ديگر،همچنين نرم افزارهاي ذخيره سازي خاص تشكيل شده است.
ذخيره ساز شبكه با ذخيره سازي داده هاي انبوه،اشتراك محدود داده ها،بهره برداري كامل اطلاعات و داده كاوي،قابليت اطمينان داده ها،پشتيباني و امنيت داده ها و همچنين مديريت داده هاي ساده شده و يكپارچه شده شناخته مي شود.
علاوه بر اين ويژيگي توسعه پذيري بسيار زيادي دارد تا براي حجم داده هاي زياد نرخ انتقال اطلاعات مناسبي را فراهم كند.
ذخيره ساز شبكه اي از شبكه اصلي يا يك شبكه ي طراحي شده ي ويژه ي ذخيره سازي استفاده ميكند تا دستيابي يكنواخت به اطلاعات و سرويس هاي اشتراكي سيستم اطلاعاتي را براي كاربران فراهم كند.
تجهيزات ذخيره ساز شبكه اي از تجهيزات تبادل داده هاي خاص، ارايه ي ديسك ها،كتابخانه tap و رسانه ذخيره سازي ديگر،همچنين نرم افزارهاي ذخيره سازي خاص تشكيل شده است.
ذخيره ساز شبكه با ذخيره سازي داده هاي انبوه،اشتراك محدود داده ها،بهره برداري كامل اطلاعات و داده كاوي،قابليت اطمينان داده ها،پشتيباني و امنيت داده ها و همچنين مديريت داده هاي ساده شده و يكپارچه شده شناخته مي شود.
علاوه بر اين ويژيگي توسعه پذيري بسيار زيادي دارد تا براي حجم داده هاي زياد نرخ انتقال اطلاعات مناسبي را فراهم كند.
NAS- network attached storage
در حقيقت NAS يك ابزار ذخيره سازي كمكي در يك شبكه است.
از طريق يك هاب يا سوييچ به طور مستقيم به يك شبكه وصل مي شود و از طريق پروتكل TCP/IP ارتباط برقرار مي كند.NAS از تبادل پيام استفاده ميكند و داده ها به صورت فايل منتقل ميشوند.
دو ويژگي برجسته دارد:
در اتصال فيزيكي ابزار ذخيره سازي را به طور مستقيم به شبكه وصل مي كند و سپس ذخيره ساز را به انتهاي يك سرويس دهنده متصل ميكند.
به طور فني حركات بازوي متحرك را كاهش ميدهد بنابراين باعث كاهش تاخير خواندن و نوشتن مي شود،با اين حال NAS نشان ميدهد كه هنوز ذاتا يكي از تجهيزات سرويس دهنده سنتي است.
در حقيقت NAS يك ابزار ذخيره سازي كمكي در يك شبكه است.
از طريق يك هاب يا سوييچ به طور مستقيم به يك شبكه وصل مي شود و از طريق پروتكل TCP/IP ارتباط برقرار مي كند.NAS از تبادل پيام استفاده ميكند و داده ها به صورت فايل منتقل ميشوند.
دو ويژگي برجسته دارد:
در اتصال فيزيكي ابزار ذخيره سازي را به طور مستقيم به شبكه وصل مي كند و سپس ذخيره ساز را به انتهاي يك سرويس دهنده متصل ميكند.
به طور فني حركات بازوي متحرك را كاهش ميدهد بنابراين باعث كاهش تاخير خواندن و نوشتن مي شود،با اين حال NAS نشان ميدهد كه هنوز ذاتا يكي از تجهيزات سرويس دهنده سنتي است.
SAN -storage area network
براي ذخيره سازي داده ها با توپولوژي شبكه ي انعطاف پذير و اتصالات فيبر نوري با سرعت بالا تمركز دارد.
سوييچ كردن داده ها را به صورت چند مسيره در بين گره هاي داخلي انكان پذير مي سازد.
مديريت ذخيره سازي داده ها در ذخيره ساز نسبتا مستقل شبكه ي محلي قرار گرفته است،بنابراين حداكثر ميزان اشتراك داده ها ومديريت داده ها را دارد و همچنين به عنوان گسترش يكپارچه اي از سيستم است.
منبع : كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
براي ذخيره سازي داده ها با توپولوژي شبكه ي انعطاف پذير و اتصالات فيبر نوري با سرعت بالا تمركز دارد.
سوييچ كردن داده ها را به صورت چند مسيره در بين گره هاي داخلي انكان پذير مي سازد.
مديريت ذخيره سازي داده ها در ذخيره ساز نسبتا مستقل شبكه ي محلي قرار گرفته است،بنابراين حداكثر ميزان اشتراك داده ها ومديريت داده ها را دارد و همچنين به عنوان گسترش يكپارچه اي از سيستم است.
منبع : كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
درود و شب بخیر بر دوستان عزیز ، بابت سکوت کوتاه مدت کانال عذرخواهی می کنیم .
مقاله ای از شرکت intel برای اشنایی با کلان داده ها در رایانش ابری تقدیم حضورتان میکنم.
با تشکر از توجه شما🌷🌷
گلناز اردشیری
@BigDataTechnology
مقاله ای از شرکت intel برای اشنایی با کلان داده ها در رایانش ابری تقدیم حضورتان میکنم.
با تشکر از توجه شما🌷🌷
گلناز اردشیری
@BigDataTechnology
دوستان عزیزم طی بازدید از بیست و یکمین نمایشگاه الکامپ تهران ، با شرکت آریا همراه آشنا شدم که در بخش cloud , big data فعالیت میکنن و سامانه ای مدیریتی طراحی کردن.
به دوستان علاقمند پیشنهاد میکنم از این غرفه بازدید کن.
محل دائم نمایشگاه های بین المللی تهران - سالن 44.
در صورت نیاز به اطلاعات بیشتر در رابطه با فعالیت این شرکت ادرس ایمیل خود را به ID شخصی بنده
@Golnazardeshiri
ارسال نمایید.
@BigDataTechnology
به دوستان علاقمند پیشنهاد میکنم از این غرفه بازدید کن.
محل دائم نمایشگاه های بین المللی تهران - سالن 44.
در صورت نیاز به اطلاعات بیشتر در رابطه با فعالیت این شرکت ادرس ایمیل خود را به ID شخصی بنده
@Golnazardeshiri
ارسال نمایید.
@BigDataTechnology
خردمند کسی است که از همه می آموزد.
با درود فراوان به همه ی همراهان عزیز.
صبح زیبای پاییزیتون پر از شادی و نشاط و آرامش🌷
ضمن عرض خوش آمد گویی به اعضای جدید کانال از جمله:
مدیران امنیت اطلاعات وزارتخانه ها، سازمانها، بانک ها، مدرسین شبکه و امنیت اطلاعات، اساتید و محققین خبره دانشگاه و مدیران خبرگزاریهای تخصصی و صاحبنظران و نویسندگان و دیگر همراهان ارجمند به کانال تخصصی
@BigaDataTechnology،
باعث افتخار بنده هست مطالب مورد توجه همه ی سرواران قرار گرفته است.
امروز با یاد پرودگار مهربان با ادامه مطالب پیرامون ذخیره سازی کلان داده ها در خدمت شما هستم.
با تشکر از توجه شما🌷
گلناز اردشیری
@BigDataTechnology
با درود فراوان به همه ی همراهان عزیز.
صبح زیبای پاییزیتون پر از شادی و نشاط و آرامش🌷
ضمن عرض خوش آمد گویی به اعضای جدید کانال از جمله:
مدیران امنیت اطلاعات وزارتخانه ها، سازمانها، بانک ها، مدرسین شبکه و امنیت اطلاعات، اساتید و محققین خبره دانشگاه و مدیران خبرگزاریهای تخصصی و صاحبنظران و نویسندگان و دیگر همراهان ارجمند به کانال تخصصی
@BigaDataTechnology،
باعث افتخار بنده هست مطالب مورد توجه همه ی سرواران قرار گرفته است.
امروز با یاد پرودگار مهربان با ادامه مطالب پیرامون ذخیره سازی کلان داده ها در خدمت شما هستم.
با تشکر از توجه شما🌷
گلناز اردشیری
@BigDataTechnology
مکانیسم ذخیره سازی توزیع شده برای کلان داده ها:
سیستم فایل ها:
فناوري و دانشي را در نظر بگيريد که در پس زمينه صفحه اصلي موتور جستوجوي گوگل مورد استفاده قرار ميگيرد. در پس الگوريتمها و ساير قابليتهايي که امکان جستوجو بر مبناي متن وارد شده را فراهم مي آورد، يک مرکز داده بزرگ نيز وجود دارد. در اين مرکز داده،کپي متني و کاملي از هر آنچه در اينترنت وجود دارد ذخيره شده است. در همان زمان که شما و هزاران نفر ديگر در حال وارد کردن متن مورد نظر و جستوجوي اينترنتی هستيد، اين کپي عظيم از داده نيز به طور متناوب با دادههاي جديد بهروزرساني ميشود. به موازات همه اين فرآيندها، دادههاي موجود توسط پردازندههای هزاران سرور مجزا در حال پردازش است. هر يک از اين پردازندهها ميتواند هر کاري، از انتخاب آگهي متناسب با متن مورد جستوجوي شما تا فرآيند مرتبسازي جهت تعيين ترتيب نمايش آنها را انجام دهد.
سیستم ذخيرهسازي استفاده شده در موتور جستوجوي گوگل بايد بتواند در هر روز به ميليونها درخواست خواندن و نوشتن اطلاعات پاسخ دهد. اين درخواستها توسط پردازشهايي ارسال ميشود که به صورت مستقل روي هزاران سرور، در حال اجرا هستند. فرآيند پشتيبانگيري يا نگهداري از سيستم، تحت هيچ شرايطي نبايد منجر به غيرفعال شدن اين سرويسها شوند. از طرف ديگر اين مجموعه دادهاي ناچار است به صورت بيوقفه در حال رشد و گسترش باشد. اين قابليت از آن جهت اهميت دارد که زيرساخت ذخيرهسازي بايد بتواند صفحات يافته شده توسط روباتهاي جستوجوگر اينترنت را که هر روز بر تعداد آنها افزوده ميشود، ذخيره کنند. در حال حاضر، روباتهاي موتور جستوجوي گوگل روزانه بيش از بیست پتابايت داده را پردازش ميکنند. شرکت گوگل براي پاسخگويي به چنين نيازي نميتواند حتي به قويترين معماريهاي ذخيرهسازي که به صورت معمول در ساير پروژههاي بزرگ استفاده ميشوند تکيه کند. ساير غولهاي دنياي وب و ابرشرکتهاي ارائه دهنده محيط پردازش ابري و مراکز داده فوقالعاده بزرگ نيز با چالشهاي مشابهي روبهرو هستند. از جمله اين ابر شرکتها ميتوان به آمازون و شبکههای اجتماعی اشاره کرد. بيشتر مراکز داده سعي دارند تا فرآيند مقياسپذيري فضاي ذخيرهسازي داده را از طريق افزودن به ظرفيتهاي ديسکها و تعداد سرورهاي پايگاهداده و سرورهاي متصل به رسانههاي ذخيرهسازي، به انجام برسانند. اما اين رويکرد معمولاً با شکست مواجه ميشود زيرا محدوديتها و التزامهاي موجود در محيط ابري جهت رسيدن به سطح کارايي و عملکرد بالا، چالشي است که روش مذکور نميتواند پاسخگوي آن باشد. در محيط ابري ممکن است در هر زمان با هزاران کاربر فعال مواجه باشيم که بايد به دادهها دسترسي داشتهباشند و دادههايي که بايد در هر لحظه نوشته يا خوانده شوند، از چندين هزار ترابايت فراتر میرود.
اينجا مسئله چيزي غير از سرعت خواندن و نوشتن ديسک است. وقتي جريان داده در سطح شبکه ذخيرهسازي به اين حد ميرسد، عملکرد و بازدهي شبکه ذخيرهسازي داده است که مشکلساز ميشود. حتي در صورت استفاده از بهترين سرورها و رسانههاي ذخيرهسازي، باز هم ممکن است تجهيزات SAN مورد استفاده، تبديل به گلوگاهي در مسير دسترسي و پردازش داده، شوند. معمولاً در اين وضعيت، با مشکلات مرتبط با محدوديت در مقياسپذيري سيستم مواجه ميشويم. با در نظر گرفتن سرعت افزايش ظرفيت مراکز داده در شرکتهاي بزرگ مبتني بر وب (براي نمونه به گفته جيمز هميلتون، نايب رئيس آمازون، در حال حاضر اين شرکت، روزانه به اندازه کل فضاي مورد استفاده توسط شرکت در سال ۲۰۰۱ ، به ظرفيت مرکز داده خود ميافزايد.) با استفاده از روشهاي معمولي که در مراکز داده کنوني براي ارتقاي ظرفيت به کار ميرود،هزينههاي نرمافزاري، سختافزاري و مديريتي اين فرآيند، بسيار زياد خواهد بود.
سیستم فایل ها:
فناوري و دانشي را در نظر بگيريد که در پس زمينه صفحه اصلي موتور جستوجوي گوگل مورد استفاده قرار ميگيرد. در پس الگوريتمها و ساير قابليتهايي که امکان جستوجو بر مبناي متن وارد شده را فراهم مي آورد، يک مرکز داده بزرگ نيز وجود دارد. در اين مرکز داده،کپي متني و کاملي از هر آنچه در اينترنت وجود دارد ذخيره شده است. در همان زمان که شما و هزاران نفر ديگر در حال وارد کردن متن مورد نظر و جستوجوي اينترنتی هستيد، اين کپي عظيم از داده نيز به طور متناوب با دادههاي جديد بهروزرساني ميشود. به موازات همه اين فرآيندها، دادههاي موجود توسط پردازندههای هزاران سرور مجزا در حال پردازش است. هر يک از اين پردازندهها ميتواند هر کاري، از انتخاب آگهي متناسب با متن مورد جستوجوي شما تا فرآيند مرتبسازي جهت تعيين ترتيب نمايش آنها را انجام دهد.
سیستم ذخيرهسازي استفاده شده در موتور جستوجوي گوگل بايد بتواند در هر روز به ميليونها درخواست خواندن و نوشتن اطلاعات پاسخ دهد. اين درخواستها توسط پردازشهايي ارسال ميشود که به صورت مستقل روي هزاران سرور، در حال اجرا هستند. فرآيند پشتيبانگيري يا نگهداري از سيستم، تحت هيچ شرايطي نبايد منجر به غيرفعال شدن اين سرويسها شوند. از طرف ديگر اين مجموعه دادهاي ناچار است به صورت بيوقفه در حال رشد و گسترش باشد. اين قابليت از آن جهت اهميت دارد که زيرساخت ذخيرهسازي بايد بتواند صفحات يافته شده توسط روباتهاي جستوجوگر اينترنت را که هر روز بر تعداد آنها افزوده ميشود، ذخيره کنند. در حال حاضر، روباتهاي موتور جستوجوي گوگل روزانه بيش از بیست پتابايت داده را پردازش ميکنند. شرکت گوگل براي پاسخگويي به چنين نيازي نميتواند حتي به قويترين معماريهاي ذخيرهسازي که به صورت معمول در ساير پروژههاي بزرگ استفاده ميشوند تکيه کند. ساير غولهاي دنياي وب و ابرشرکتهاي ارائه دهنده محيط پردازش ابري و مراکز داده فوقالعاده بزرگ نيز با چالشهاي مشابهي روبهرو هستند. از جمله اين ابر شرکتها ميتوان به آمازون و شبکههای اجتماعی اشاره کرد. بيشتر مراکز داده سعي دارند تا فرآيند مقياسپذيري فضاي ذخيرهسازي داده را از طريق افزودن به ظرفيتهاي ديسکها و تعداد سرورهاي پايگاهداده و سرورهاي متصل به رسانههاي ذخيرهسازي، به انجام برسانند. اما اين رويکرد معمولاً با شکست مواجه ميشود زيرا محدوديتها و التزامهاي موجود در محيط ابري جهت رسيدن به سطح کارايي و عملکرد بالا، چالشي است که روش مذکور نميتواند پاسخگوي آن باشد. در محيط ابري ممکن است در هر زمان با هزاران کاربر فعال مواجه باشيم که بايد به دادهها دسترسي داشتهباشند و دادههايي که بايد در هر لحظه نوشته يا خوانده شوند، از چندين هزار ترابايت فراتر میرود.
اينجا مسئله چيزي غير از سرعت خواندن و نوشتن ديسک است. وقتي جريان داده در سطح شبکه ذخيرهسازي به اين حد ميرسد، عملکرد و بازدهي شبکه ذخيرهسازي داده است که مشکلساز ميشود. حتي در صورت استفاده از بهترين سرورها و رسانههاي ذخيرهسازي، باز هم ممکن است تجهيزات SAN مورد استفاده، تبديل به گلوگاهي در مسير دسترسي و پردازش داده، شوند. معمولاً در اين وضعيت، با مشکلات مرتبط با محدوديت در مقياسپذيري سيستم مواجه ميشويم. با در نظر گرفتن سرعت افزايش ظرفيت مراکز داده در شرکتهاي بزرگ مبتني بر وب (براي نمونه به گفته جيمز هميلتون، نايب رئيس آمازون، در حال حاضر اين شرکت، روزانه به اندازه کل فضاي مورد استفاده توسط شرکت در سال ۲۰۰۱ ، به ظرفيت مرکز داده خود ميافزايد.) با استفاده از روشهاي معمولي که در مراکز داده کنوني براي ارتقاي ظرفيت به کار ميرود،هزينههاي نرمافزاري، سختافزاري و مديريتي اين فرآيند، بسيار زياد خواهد بود.
اين روش ممکن است صدها ماشين که در حال جمعآوري اطلاعات هستند، نتيجه کار خود را در يک فايل مشترک ذخيره کنند. در عين حال، ممکن است اين فايل توسط برنامه ديگري مورد استفاده قرار گيرد که وظيفه ترکيب و تحليل داده را بر عهده دارد و حتي ممکن است اين فرآيند نيز به موازات فرآيند قبلي ذخيره داده در فايل، انجام شود.
گوگل، بيشتر جزئيات تکنيکي معماري GFS را به دلايل کاملاً مشخص محرمانه نگاه داشتهاست. اما در مقالهاي که در سال ۲۰۰۳ توسط سانجاي گماوات (Sanjay Ghemawat) عضو گروه تحقيقاتي شرکت گوگل، هوارد گوبيوف (Howard Gobioff) مهندس پايه و شانتکليونگ (Shun-Tak Leung) عضو گروه مهندسان ارشد منتشر شد، اين طور عنوان شده که سيستمفايلي GFS با در نظر گرفتن اولويتهاي بسيار خاصي طراحي شده است. اين مقاله عنوان ميکند که هدف از طراحي GFS، تبديل تعداد زيادي از سرورها و هاردديسکهاي ارزانقيمت، به مجموعهاي است که بتواند صدها ترابايت داده را ذخیره و مديريت کرده و در صورت بروز خطا يا نقصهای سختافزاري بتواند مشکل به وجود آمده را برطرف کند. اين سيستمفايلي به طور سفارشي و متناسب با روش جمعآوري و خواندن داده توسط گوگل، طراحي شده است و ميتواند به چندين برنامه امکان دهد تا به طور همزمان حجم بزرگي از دادهها را به سيستم بيافزايند و با بالاترين سرعت ممکن به دادهها دسترسي داشتهباشند.
گوگل، بيشتر جزئيات تکنيکي معماري GFS را به دلايل کاملاً مشخص محرمانه نگاه داشتهاست. اما در مقالهاي که در سال ۲۰۰۳ توسط سانجاي گماوات (Sanjay Ghemawat) عضو گروه تحقيقاتي شرکت گوگل، هوارد گوبيوف (Howard Gobioff) مهندس پايه و شانتکليونگ (Shun-Tak Leung) عضو گروه مهندسان ارشد منتشر شد، اين طور عنوان شده که سيستمفايلي GFS با در نظر گرفتن اولويتهاي بسيار خاصي طراحي شده است. اين مقاله عنوان ميکند که هدف از طراحي GFS، تبديل تعداد زيادي از سرورها و هاردديسکهاي ارزانقيمت، به مجموعهاي است که بتواند صدها ترابايت داده را ذخیره و مديريت کرده و در صورت بروز خطا يا نقصهای سختافزاري بتواند مشکل به وجود آمده را برطرف کند. اين سيستمفايلي به طور سفارشي و متناسب با روش جمعآوري و خواندن داده توسط گوگل، طراحي شده است و ميتواند به چندين برنامه امکان دهد تا به طور همزمان حجم بزرگي از دادهها را به سيستم بيافزايند و با بالاترين سرعت ممکن به دادهها دسترسي داشتهباشند.
نحوه عملکرد GFS بسيار شبيه روش انجام فرآيند RAID5 در رسانههاي ذخيرهسازي است که در آن داده به صورت تکهتکه در سطح تمام ديسکها ذخيره ميشود تا جلوي از دست رفتن داده، گرفته شود. در GFS نيز فايلها به صورت تکههایي با اندازه ثابت در سطح خوشهاي از سرورها کپي شده و توزيع ميشود. از آنجا که در اين روش از کامپيوترها و هاردديسکهاي ارزان قيمت استفاده ميشود، ممکن است اين سرورها به طور ناخواسته با مشکل مواجه شوند. در نتيجه GFS، طوري طراحي شدهاست که بتواند بدون از دست دادن حجم قابل توجهي از داده براي اين گونه خطاها، راهکار ارائه دهد. اما شباهتهاي مکانيزم RAID 5 و GFS به همين موارد ختم ميشود. در GFS ميتوان سرورهاي مورد بحث را در سطح شبکه توزيع کرد. به اين ترتيب، سرورها ميتوانند در يک يا چند مرکز داده توزيع شوند و تصميمگيري در اين مورد به کاربرد داده بستگي دارد. GFS براي آن طراحي شده تا بتواند حجم عظيمي از داده را به صورت گروهي، پردازش کند. آنچه که در اين فرآيند اهميت دارد، خواندن سريع داده است و فاکتورهايي نظير سرعت دسترسي به يک قسمت خاص از فايل يا سرعت نوشتن داده در سيستمفايلي اهميت چنداني ندارد. GFS براي سريع کار کردن، دادهها را به صورت تکهتکه و از سطح چندين رسانه ميخواند يا مينويسد. هزينه دستيابي به سرعت بالا در سيستمفايلي GFS، نوشتن و خواندن قطعهبندي شده روي چندين ديسک است. به گفته گماوات در مقاله ذکر شده «نوشتن قطعات کوچک داده در آدرسهاي متعدد و متفاوت توسط اين سيستمفايلي پشتيباني ميشود اما لزوماً کارايي بالايي ندارد.» ماهيت توزيع شده GFS و حجم بسيار زياد دادهاي که توسط اين سيستمفايلي مديريت ميشود (ميليونها فايل که حجم بيشتر آنها بالاي صد مگابايت و معمولاً در محدوده گيگابايت است.) به معني هزينهها و اثرات جانبي مشخصي است و اين اثرات جانبي باعث ميشود تا سيستمفايلي GFS براي نصب روي يک سرور مستقل و منفرد، گزينه نامناسبي به شمار آيد. از آنجا که صدها نفر ممکن است به طور همزمان در حال نوشتن يا خواندن از يک فايل باشند، لازم است که سيستمفايلي تا حد ممکن از فرآيند تکهتکه کردن و ايجاد قطعات کوچک داده پشتيباني کرده و بدون تأثير بر ساير برنامهها از فرآيند بازگرداندن و معکوس کردن فرآيندهاي ناموفق نیز، پشتيباني کند. همچنين اين سيستمفايلي بايد جامعيت دادهها را تضمين کرده و سربار ناشي از فرآيند همزمانسازي را نيز به حداقل برساند تا از هر گونه کاهش کارايي ناشي از انجام اينگونه فرآيندها، جلوگيري شود. GFS از سه لايه تشکيل شدهاست: يک کلاينت GFS که وظيفه آن پاسخگويي به درخواست داده از جانب برنامهها است؛ يک مرجع که با استفاده از يک انديس مقيم در حافظه به رديابي فايلهاي داده و مکان قطعات هر فايل داده در حافظه ميپردازد. المان بعدي اين معماري خود سرورهاي ارائه خدمات است که “chunk servers” نام دارند.
در ابتدا به منظور حفظ سادگي اين روش،از يک مرجع به ازاي هر کلاستر يا خوشه استفاده ميکرد. به اين ترتيب وظيفه سيستم اين بود که تا حد ممکن بار کاري پردازش مرجع را در جهت تعيين روش دسترسي به داده، به حداقل برساند. اما اکنون گوگل يک سيستم مرجع توزيع شده فراهم کرده است که ميتواند مديريت صدها مرجع را انجام دهد و هر يک از اين مرجعها نيز ميتواند حدود صد ميليون فايل را مديريت کند. زماني که کلاينت فايل سيستم GFS، درخواستي را به منظور دسترسي به يک فايل داده خاص دريافت ميکند، درخواستي را براي سرور مرجع ارسال ميکند تا آدرس فايل را به دست آورد. سرور مرجع آدرس يکي از کپيهاي داده مورد نظر را اعلام ميکند و کلاينت نيز به طور مستقيم با آن chunk server تعامل ميکند و به اين ترتيب فرآيند نوشتن و خواندن داده انجام ميشود. سرور مرجع ديگر در اين فرآيند نقشي نخواهد داشت، مگر آنکه بخشي از اين فرآيند و عملکردها، با خطا مواجه شود. سيستمفايلي GFS براي تضمين بالاترين ميزان دسترسي به اين مجموعه داده، بعضي از هزينهها را پذیرفته و برخی قابلیتها را قربانی میکند، نظير اصل ثبات و تشابه داده به ازاي کليه کپيهاي داده. همچنين GFS اصل تکهتکهکردن داده را تا حد ممکن اعمال ميکند. اگر يکي از فرآيندهاي نوشتن داده با خطا مواجه شود، در اين صورت فرآيند بازگرداندن متاديتا به وضعيت قبلي انجام ميشود و يک کپي از داده قبلي را دوباره در اختيار درخواست مورد نظر قرار ميدهد. اما از طرفي عدم مشارکت سرور مرجع در فرآيندهاي نوشتن به آن معنا است که به موازات نوشته شدن داده در سيستم اين تغييرات به طور آني در ساير کپيهاي آن داده که در سطح هر خوشه وجود دارند، منعکس نميشود. اين سيستم از فرآيندي بهره میبرد که گوگل آن را “relaxed consistency model” مينامد. اين مدل به واسطه نيازهايي که در صورت دسترسي همزمان به دادهها مطرح ميشد و همچنين به دليل محدوديتهايي که شبکه ايجاد ميکرد، طراحي شده است. استفاده از اين فرآيند، به معناي آن است که سيستم GFS هيچ مشکلي با ارائه اطلاعات کهنه و قديمي ندارد. به عبارت ديگر اگر در آن لحظه خاص داده جديد هنوز در سطح سيستم توزيع نشده باشد و کپيهاي در دسترس، نسخههاي قديمي باشد، GFS همان داده هاي قديمي را به درخواست کننده تحويل خواهد داد. البته پردازه مرجع تا حد امکان سعي خواهد کرد دادهها را به روز نگه دارد و براي اين کار به رديابي تغييرات ميپردازد و براي اين منظور به ازاي هر کپي، شماره نگارش قطعات داده را با هم مقايسه ميکند. به محض اینکه بعضي از کپيهاي داده از فرآيند به روزرساني عقب مانده و به اصطلاح بيات میشوند، پردازه مرجع GFS اين اطمينان را ايجاد ميکند که آدرس اين قطعات در اختيار کلاينتها قرار نميگيرد و اين محدوديت تا زماني اعمال ميشود که داده آن chunk بهروزرساني شود. اما اين مسئله لزوماً درباره پردازههايي که از قبل آدرس آن chunk را در اختيار گرفتهاند، انجام نميشود. متاديتاي مربوط به تغييرات تا زماني که پردازه مرجع، تغييرات را بررسي نکرده و آنها را در متاديتا منعکس نکردهباشد، اعمال نميشود. همچنين لازم است تا خود متادیتا نيز در چندين مکان مختلف کپي شود تا در صورت بروز خطا در کپي اصلي، جايگزيني براي آن، موجود باشد. اگر اين فرآيند انجام نشود، با از دست رفتن دادههای مرجع، کل اطلاعات مورد نياز جهت استفاده از اين سيستمفايلي، از دست ميرود. همچنين اگر در طول فرآيند نوشتن، پردازه مرجع با خطا مواجه شود، در اين صورت نيز تغييرات به طور کامل از دست ميرود. البته با توجه به نحوه تعامل گوگل با دادهها، اين مسئله، مشکل بزرگي به شمار نميرود زيرا اکثريت نسبي دادههاي مورد استفاده توسط برنامههاي اين شرکت، به ندرت تغيير ميکنند و تغييرات هم به جاي بهروزرساني اطلاعات موجود، در قالب افزوده شدن داده به سيستم، انجام ميشود.