زندگی ما زاییده اندیشه ماست.
سلام و درود فراوان خدمت همراهان و سروران عزیز.
آخرین هفته پاییزتون سرشار از آرامش و نشاط و سلامتی.
امروز با یاد ایزد با مطالبی پیرامون مدل برنامه نویسی پایگاه داده کلان داده ها از جمله :
MapReduce
Dryad
All-Pairs
Pregel
در خدمت شما هستم.
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
سلام و درود فراوان خدمت همراهان و سروران عزیز.
آخرین هفته پاییزتون سرشار از آرامش و نشاط و سلامتی.
امروز با یاد ایزد با مطالبی پیرامون مدل برنامه نویسی پایگاه داده کلان داده ها از جمله :
MapReduce
Dryad
All-Pairs
Pregel
در خدمت شما هستم.
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
مدل برنامه نویسی پایگاه داده :
مجموعه داده های انبوهی از کلان داده ها معمولا در صداها و حتی هزاران سرویس دهنده ی تجاری ذخیره می شوند.
ظاهرا مدل های موازی سنتی مانند MPI و OpenMP ممکن است برای پشتیبانی چنین برنامه های موازی مقیاس بزرگ مناسب نباشد.
برخی مدل های برنامه نویسی به طور موثری کارایی پایگاه داده داده های NoSQL را بهبود میبخشند و شکاف کارایی بین پایگاه داده رابطه ای را کاهش میدهند.
بنا بر این این مدل ها سنگ بنای تحلیل داده های انبوه شدند که به مختصر هر کدام را بررسی خواهیم کرد.
مجموعه داده های انبوهی از کلان داده ها معمولا در صداها و حتی هزاران سرویس دهنده ی تجاری ذخیره می شوند.
ظاهرا مدل های موازی سنتی مانند MPI و OpenMP ممکن است برای پشتیبانی چنین برنامه های موازی مقیاس بزرگ مناسب نباشد.
برخی مدل های برنامه نویسی به طور موثری کارایی پایگاه داده داده های NoSQL را بهبود میبخشند و شکاف کارایی بین پایگاه داده رابطه ای را کاهش میدهند.
بنا بر این این مدل ها سنگ بنای تحلیل داده های انبوه شدند که به مختصر هر کدام را بررسی خواهیم کرد.
مدل برنامه نویسی پایگاه داده :
MapReduce
کاهش نگاشت یک مدل برنامه نویسی ساده وقدرتمند برای محاسبات مقیاس بزرگ است.
چارچوب نرمافزاری است که از جانب شرکت گوگل برای پشتیبانی از رایانش توزیعشده ارایه شدهاست. این رایانش بر روی مجموعههای داده که متشکل ازخوشههایِ رایانهای است، صورت میگیرد.
این چارچوب با الهامگیری از نگاشت و کاهش که در واقع در زبانهای برنامهنویسی تابعی وجود دارد، ایجاد شد.
اگرچه آنچه که امروزه استفاده میشود دقیقاً همان چیزی نیست که مد نظر سازندگان اولیهاش است.
کتابخانههایِ نگاشتکاهش برای زبانهای سی++ وسیشارپ٬ ارلارج ٬جاوا ٬پرل ٬پایتون ٬روبی ٬افشارپ٬آر و سایر زبانها نوشتهشدهاند.
نگاشتکاهش چارچوبی برای پردازش مجموعههای عظیمی از دادهها بر روی رایانهها(گرهها) که بر روی موضوعی خاص فعالیت میکنند.
این مجموعه رویهم رفته به عنوان خوشه شناخته میشود(در صورتی که از سختافزاری یکسان بهره برند).
پردازش محاسباتی بر روی دادهایِ ذخیره شده درون سامانه فایل (ساختار نیافته) یا بر رویپایگاه داده (ساختاریافته) قابل اجراست.
گامِ "نگاشت": گره اصلی (Master Node) ورودی را به قطعاتی کوچکتر تقسیم مینماید(تقسیم مسالهی بزرگ به مسایل کوچک) و سپس تقسیم این مسایل کوچک(زیر مسایل) بین گرههای کارگر.
یک گره کارگر نیز ممکن است این عملیات را به نوبهی خود تکرار نماید، که ایجاد کنندهای ساختاری درختی و چند مرحلهای است. هر گره کارگر زیر-مسالهی خود را حل نموده و نتیجه را به گره اصلیِ خود برمیگرداند.
گامِ "کاهش": سپس گرهِ اصلی جواب زیر-مسایل را از گرههای کارگرش گرفته و خروجی را میسازد تا خروجی، که حل مسالهی ورودی است، را ایجاد نماید.
برتری نگاشتکاهش، در این است که اجازه میدهد تا پردازش عملیاتهای پردازش و کاهش توزیعشود.
فراهم آوردن این امر که هر کدام از این نگاشتها مستقل از دیگران است، که خود متضمن اجرای موازی این نگاشتهاست. اگرچه این گفته در عمل به این صورت خواهد بود که محدود به منابع داده یا تعداد پردازندههای نزدیک به آن دادهاست. به صورت مشابه، مجموعهای از 'کاهندهها' میتوانند فاز کاهش را به انجام رسانند.
لازمهی این امر آن است که خروجی عملیات نگاشت کلیدی یکسان را در یک زمان به همه کاهندهها ارسال نماید.
این روش برای الگوریتمهایی که به صورت دنبالهای از دستورهای غیرقابل موازی سازی هستند، ناکارآمد است. نگاشتکاهش بر روی مجموعههای عظیم دادهای بهتر جواب میدهد تا سرورهای تجاری.
مجموعههای عظیم دادهای را میتوان به مزارع سرور تعمیم داد.
مزارعی که حجمی به بزرگی چندین پتابایت داده را در کسری از ساعت، پردازش مینماید.
همچنین موازیسازی امکان بازسازی بعد از بروز خطایِ جزیی در سرورها را در طول عملیات فراهم میآورد:
اگر یکی از نگاشتکنندگان یا کاهندگان دچار خطا شود، کار دوباره زمانبندی خواهدشد- با فرض اینکه دادههمچنان در دسترس باشد.
MapReduce
کاهش نگاشت یک مدل برنامه نویسی ساده وقدرتمند برای محاسبات مقیاس بزرگ است.
چارچوب نرمافزاری است که از جانب شرکت گوگل برای پشتیبانی از رایانش توزیعشده ارایه شدهاست. این رایانش بر روی مجموعههای داده که متشکل ازخوشههایِ رایانهای است، صورت میگیرد.
این چارچوب با الهامگیری از نگاشت و کاهش که در واقع در زبانهای برنامهنویسی تابعی وجود دارد، ایجاد شد.
اگرچه آنچه که امروزه استفاده میشود دقیقاً همان چیزی نیست که مد نظر سازندگان اولیهاش است.
کتابخانههایِ نگاشتکاهش برای زبانهای سی++ وسیشارپ٬ ارلارج ٬جاوا ٬پرل ٬پایتون ٬روبی ٬افشارپ٬آر و سایر زبانها نوشتهشدهاند.
نگاشتکاهش چارچوبی برای پردازش مجموعههای عظیمی از دادهها بر روی رایانهها(گرهها) که بر روی موضوعی خاص فعالیت میکنند.
این مجموعه رویهم رفته به عنوان خوشه شناخته میشود(در صورتی که از سختافزاری یکسان بهره برند).
پردازش محاسباتی بر روی دادهایِ ذخیره شده درون سامانه فایل (ساختار نیافته) یا بر رویپایگاه داده (ساختاریافته) قابل اجراست.
گامِ "نگاشت": گره اصلی (Master Node) ورودی را به قطعاتی کوچکتر تقسیم مینماید(تقسیم مسالهی بزرگ به مسایل کوچک) و سپس تقسیم این مسایل کوچک(زیر مسایل) بین گرههای کارگر.
یک گره کارگر نیز ممکن است این عملیات را به نوبهی خود تکرار نماید، که ایجاد کنندهای ساختاری درختی و چند مرحلهای است. هر گره کارگر زیر-مسالهی خود را حل نموده و نتیجه را به گره اصلیِ خود برمیگرداند.
گامِ "کاهش": سپس گرهِ اصلی جواب زیر-مسایل را از گرههای کارگرش گرفته و خروجی را میسازد تا خروجی، که حل مسالهی ورودی است، را ایجاد نماید.
برتری نگاشتکاهش، در این است که اجازه میدهد تا پردازش عملیاتهای پردازش و کاهش توزیعشود.
فراهم آوردن این امر که هر کدام از این نگاشتها مستقل از دیگران است، که خود متضمن اجرای موازی این نگاشتهاست. اگرچه این گفته در عمل به این صورت خواهد بود که محدود به منابع داده یا تعداد پردازندههای نزدیک به آن دادهاست. به صورت مشابه، مجموعهای از 'کاهندهها' میتوانند فاز کاهش را به انجام رسانند.
لازمهی این امر آن است که خروجی عملیات نگاشت کلیدی یکسان را در یک زمان به همه کاهندهها ارسال نماید.
این روش برای الگوریتمهایی که به صورت دنبالهای از دستورهای غیرقابل موازی سازی هستند، ناکارآمد است. نگاشتکاهش بر روی مجموعههای عظیم دادهای بهتر جواب میدهد تا سرورهای تجاری.
مجموعههای عظیم دادهای را میتوان به مزارع سرور تعمیم داد.
مزارعی که حجمی به بزرگی چندین پتابایت داده را در کسری از ساعت، پردازش مینماید.
همچنین موازیسازی امکان بازسازی بعد از بروز خطایِ جزیی در سرورها را در طول عملیات فراهم میآورد:
اگر یکی از نگاشتکنندگان یا کاهندگان دچار خطا شود، کار دوباره زمانبندی خواهدشد- با فرض اینکه دادههمچنان در دسترس باشد.
یک راه کار پیشنهادی برا بهبود بازده برنامه نویسی و اسان کردن کار برای کاربران ترکیب سبک SQL در چارچوب MapReduce هست.
چندین زبان پیشرفته در این رابطه معرفی شده است :
گوگل --------- Sawzall
یاهو --------- Pig
فیس بوک ----- Hive
مایکروسافت -- Scope
چندین زبان پیشرفته در این رابطه معرفی شده است :
گوگل --------- Sawzall
یاهو --------- Pig
فیس بوک ----- Hive
مایکروسافت -- Scope
مدل برنامه نویسی پایگاه داده:
Dryad
یک موتور اجرایی توزیع شده ی همه منظوره برای پردازش برنامه های کاربردی موازی داده های coarse grained است.
ساختار عملیاتی آن یک گراف غیر چرخه ای جهت دار است.
این مدل عملیات را در راس هر خوشه کامپیوتر اجرا میکند و داده ها از طریق کانال داده شامل اسناد و اتصالات TCP و حافظه مشترک FIFO منتقل میکند.
ساختار عملیاتی Dryad توسط یک برنامه ی مرکزی به نام JobManager هماهنگ می شود.
Dryad
یک موتور اجرایی توزیع شده ی همه منظوره برای پردازش برنامه های کاربردی موازی داده های coarse grained است.
ساختار عملیاتی آن یک گراف غیر چرخه ای جهت دار است.
این مدل عملیات را در راس هر خوشه کامپیوتر اجرا میکند و داده ها از طریق کانال داده شامل اسناد و اتصالات TCP و حافظه مشترک FIFO منتقل میکند.
ساختار عملیاتی Dryad توسط یک برنامه ی مرکزی به نام JobManager هماهنگ می شود.
✌️«بزرگ ترین قهرمان های دومیدانی هم موفقیت خود را با برداشتن اولین قدم شروع میکنند»✌️
👈«تا وقتی دست به کار نشوید هیچ اتفاقی نخواهد افتاد»👉
🤓«برای اینکه رؤیاهایمان به واقعیت بدل شوند، باید بیدار ماند»🤓
🌺 با سلام و درود فراوان خدمت همراهان عزیز 🌺
🍂🍂امید است آخرین آدینه پاییزیتون پر از سلامتی و لبخند و شادی سپری شود.🍂🍂
امروز با یاد پروردگار مهربان فصل ذخیره سازی کلان داده ها را به پایان میرسانیم. 🙏
در ضمن روزهای جمعه هر هفته مقالات مفید روز، پیرامون کلان داده ها از طریق این کانال در اختیار علاقمندان قرار میگیرد.
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
👈«تا وقتی دست به کار نشوید هیچ اتفاقی نخواهد افتاد»👉
🤓«برای اینکه رؤیاهایمان به واقعیت بدل شوند، باید بیدار ماند»🤓
🌺 با سلام و درود فراوان خدمت همراهان عزیز 🌺
🍂🍂امید است آخرین آدینه پاییزیتون پر از سلامتی و لبخند و شادی سپری شود.🍂🍂
امروز با یاد پروردگار مهربان فصل ذخیره سازی کلان داده ها را به پایان میرسانیم. 🙏
در ضمن روزهای جمعه هر هفته مقالات مفید روز، پیرامون کلان داده ها از طریق این کانال در اختیار علاقمندان قرار میگیرد.
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
مدل برنامه نویسی پایگاه داده
All-Pairs
یک سیستم برای کاربردهای بیومتریک،بیوانفرماتیک و داده کاوی طراحی شده است.
در چهار مرحله پیاده سازی شده است:
مدل سازی سیستم
توزیع داده های ورودی
مدیریت
جمع آوری نتیجه
All-Pairs
یک سیستم برای کاربردهای بیومتریک،بیوانفرماتیک و داده کاوی طراحی شده است.
در چهار مرحله پیاده سازی شده است:
مدل سازی سیستم
توزیع داده های ورودی
مدیریت
جمع آوری نتیجه
مدل برنامه نویسی پایگاه داده :
Pregel
سیستمی از تسهیلات گوگل در پردازش گراف های بزرگ است. مانند:
تحلیل گراف های شبکه
سرویس های شبکه سازی اجتماعی
این مدل برنامه نویسی ،تحقیقات دیگری بروی روش های برای وظایف محاسباتی پیچیده متمرکز شده است:
رایانش محاوره ای -
Iterative Computations
رایانش حافظه ی تحمل پذیر خطا
محاسباتی افزایش -
Incremental Computations
کنترل جریان تصمیم گیری مربوط به داده ها
Pregel
سیستمی از تسهیلات گوگل در پردازش گراف های بزرگ است. مانند:
تحلیل گراف های شبکه
سرویس های شبکه سازی اجتماعی
این مدل برنامه نویسی ،تحقیقات دیگری بروی روش های برای وظایف محاسباتی پیچیده متمرکز شده است:
رایانش محاوره ای -
Iterative Computations
رایانش حافظه ی تحمل پذیر خطا
محاسباتی افزایش -
Incremental Computations
کنترل جریان تصمیم گیری مربوط به داده ها
«همیشه هر آنچه در توان دارید انجام دهید. شاید بتوانید آنهایی که رضایتشان را جلب نکرده اید غافلگیر کنید»
با درود فراوان به همراهان عزیز.
اول هفته پر از انرژی و سلامتی برایتان آرزومندم.
این هفته با تحلیل کلان داده ها در خدمت شما هستم.
امروز با یاد پرودرگار با هم تحلیل داده های سنتی مرور میکنیم و از روزهای آینده تحلیل کلان داده ها را بررسی میکنیم.
با تشکر از توجه شما🌷
گلناز اردشیری
@BigDataTechnology
با درود فراوان به همراهان عزیز.
اول هفته پر از انرژی و سلامتی برایتان آرزومندم.
این هفته با تحلیل کلان داده ها در خدمت شما هستم.
امروز با یاد پرودرگار با هم تحلیل داده های سنتی مرور میکنیم و از روزهای آینده تحلیل کلان داده ها را بررسی میکنیم.
با تشکر از توجه شما🌷
گلناز اردشیری
@BigDataTechnology