BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
CouchDB

در سال 2005 برای اولین بار منتشر شد ولی در سال 2008 بنیاد آپاچی مالک آن شد. CouchDB که در ابتدا با زبان برنامه نویسی سی ++ پیاده سازی شده بود بعد ها در سال 2008 به زبان ارلنگ منتقل شد. این پایگاه داده نیز همانند اعضای دیگر، یک پایگاه داده سندگرا است که با استفاده از فرمت JSON داده ها را در غالب سند ذخیره میکند. این پایگاه داده که با شعار “یک دیتابیس که مفهوم وب را بپذیرد” شروع به کار کرد.

این پایگاه داده با اینکه از MapReduce استفاده میکند ولی دسترسی آن فقط از طریق API های وب امکان پذیر است. به این صورت که برای دریافت اسناد می بایست یک دستور Get به HTTP فرستاده شود. این پایگاه داده بر خلاف پایگاه داده های دیگر که یک نود اصلی و چند نود فرعی هستند (Single Master/Multiple Slaves)، این پایگاه داده از نوع چند نود اصلی و چند نود فرعی (Multi Masters/Multi Slaves) است و اینکه این پایگاه داده تنها عضوی است که می توان از آن فعلا در برنامه نویسی اندروید استفاده کرد. سیستم مدیریت دیتابیس هم که Futon نام دارد از طریق مرورگر قابل دسترسی است.
Platform for nimble universal table storage :
سکو برای ذخیره سازی جدول جامع:
یک سیستم توزیع شده موازی در مقیاس بزرگ برای برنامه های کاربردی وب در یاهو

https://wiki.apache.org/hadoop/Hbase/PNUTS
جهت اطلاع دوستان عزیزی که درخواست مقاله های لاتین پیرامون رایانش ابری و کلان داده ها کردند،
از این پس فقط روز های جمعه مقاله های درخواست شده ارسال میشود.
زندگی ما زاییده اندیشه ماست.

سلام و درود فراوان خدمت همراهان و سروران عزیز.

آخرین هفته پاییزتون سرشار از آرامش و نشاط و سلامتی.

امروز با یاد ایزد با مطالبی پیرامون مدل برنامه نویسی پایگاه داده کلان داده ها از جمله :

MapReduce
Dryad
All-Pairs
Pregel
در خدمت شما هستم.

با تشکر از توجه شما 🌷

گلناز اردشیری
@BigDataTechnology
مدل برنامه نویسی پایگاه داده :

مجموعه داده های انبوهی از کلان داده ها معمولا در صداها و حتی هزاران سرویس دهنده ی تجاری ذخیره می شوند.
ظاهرا مدل های موازی سنتی مانند MPI و OpenMP ممکن است برای پشتیبانی چنین برنامه های موازی مقیاس بزرگ مناسب نباشد.
برخی مدل های برنامه نویسی به طور موثری کارایی پایگاه داده داده های NoSQL را بهبود میبخشند و شکاف کارایی بین پایگاه داده رابطه ای را کاهش میدهند.
بنا بر این این مدل ها سنگ بنای تحلیل داده های انبوه شدند که به مختصر هر کدام را بررسی خواهیم کرد.
مدل برنامه نویسی پایگاه داده :
MapReduce

کاهش نگاشت یک مدل برنامه نویسی ساده وقدرتمند برای محاسبات مقیاس بزرگ است.
چارچوب نرم‌افزاری است که از جانب شرکت گوگل برای پشتیبانی از رایانش توزیع‌شده ارایه شده‌است. این رایانش بر روی مجموعه‌های داده که متشکل ازخوشه‌هایِ رایانه‌ای است، صورت می‌گیرد.

این چارچوب با الهام‌گیری از نگاشت و کاهش که در واقع در زبان‌های برنامه‌نویسی تابعی وجود دارد، ایجاد شد.
اگرچه آنچه که امروزه استفاده می‌شود دقیقاً همان چیزی نیست که مد نظر سازندگان اولیه‌اش است.
کتابخانه‌هایِ نگاشت‌کاهش برای زبان‌های سی++ وسی‌شارپ٬ ارلارج ٬جاوا ٬پرل ٬پایتون ٬روبی ٬اف‌شارپ٬آر و سایر زبان‌ها نوشته‌شده‌اند.

نگاشت‌کاهش چارچوبی برای پردازش مجموعه‌های عظیمی از داده‌ها بر روی رایانه‌ها(گره‌ها) که بر روی موضوعی خاص فعالیت می‌کنند.
 این مجموعه روی‌هم رفته به عنوان خوشه شناخته می‌شود(در صورتی که از سخت‌افزاری یکسان بهره برند).
پردازش محاسباتی بر روی دادهایِ ذخیره شده درون سامانه فایل (ساختار نیافته) یا بر رویپایگاه داده (ساختاریافته) قابل اجراست.

گامِ "نگاشت": گره اصلی (Master Node) ورودی را به قطعاتی کوچک‌تر تقسیم می‌نماید(تقسیم مساله‌ی بزرگ به مسایل کوچک) و سپس تقسیم این مسایل کوچک(زیر مسایل) بین گره‌های کارگر.
 یک گره کارگر نیز ممکن است این عملیات را به نوبه‌ی خود تکرار نماید، که ایجاد کننده‌ای ساختاری درختی و چند مرحله‌ای است. هر گره کارگر زیر-مساله‌ی خود را حل نموده و نتیجه را به گره اصلیِ خود برمی‌گرداند.

گامِ "کاهش": سپس گره‌ِ اصلی جواب زیر-مسایل را از گره‌های کارگرش گرفته و خروجی را می‌سازد تا خروجی، که حل مساله‌ی ورودی است، را ایجاد نماید.

برتری نگاشت‌کاهش، در این است که اجازه می‌دهد تا پردازش عملیات‌های پردازش و کاهش توزیع‌شود.
فراهم آوردن این امر که هر کدام از این نگاشت‌ها مستقل از دیگران است، که خود متضمن اجرای موازی این نگاشت‌هاست. اگرچه این گفته در عمل به این صورت خواهد بود که محدود به منابع داده یا تعداد پردازنده‌های نزدیک به آن داده‌است. به صورت مشابه، مجموعه‌ای از 'کاهنده‌ها' می‌توانند فاز کاهش را به انجام رسانند.
 لازمه‌ی این امر آن است که خروجی عملیات نگاشت کلیدی یکسان را در یک زمان به همه کاهنده‌ها ارسال نماید.
 این روش برای الگوریتم‌هایی که به صورت دنباله‌ای از دستورهای غیرقابل موازی سازی هستند، ناکارآمد است. نگاشت‌کاهش بر روی مجموعه‌های عظیم داده‌ای بهتر جواب می‌دهد تا سرورهای تجاری.
مجموعه‌های عظیم داده‌ای را می‌توان به مزارع سرور تعمیم داد.
 مزارعی که حجمی به بزرگی چندین پتابایت داده را در کسری از ساعت، پردازش می‌نماید.

 همچنین موازی‌سازی امکان بازسازی بعد از بروز خطایِ جزیی در سرورها را در طول عملیات فراهم می‌آورد:
 اگر یکی از نگاشت‌کنندگان یا کاهندگان دچار خطا شود، کار دوباره زمان‌بندی خواهدشد- با فرض اینکه داده‌همچنان در دسترس باشد.
یک راه کار پیشنهادی برا بهبود بازده برنامه نویسی و اسان کردن کار برای کاربران ترکیب سبک SQL در چارچوب MapReduce هست.
چندین زبان پیشرفته در این رابطه معرفی شده است :

گوگل --------- Sawzall
یاهو --------- Pig
فیس بوک ----- Hive
مایکروسافت -- Scope
مدل برنامه نویسی پایگاه داده:
Dryad
یک موتور اجرایی توزیع شده ی همه منظوره برای پردازش برنامه های کاربردی موازی داده های coarse grained است.
ساختار عملیاتی آن یک گراف غیر چرخه ای جهت دار است.
این مدل عملیات را در راس هر خوشه کامپیوتر اجرا میکند و داده ها از طریق کانال داده شامل اسناد و اتصالات TCP و حافظه مشترک FIFO منتقل میکند.
ساختار عملیاتی Dryad توسط یک برنامه ی مرکزی به نام JobManager هماهنگ می شود.
 ✌️«بزرگ ترین قهرمان های دومیدانی هم موفقیت خود را با برداشتن اولین قدم شروع میکنند»✌️

👈«تا وقتی دست به کار نشوید هیچ اتفاقی نخواهد افتاد»👉

🤓«برای اینکه رؤیاهایمان به واقعیت بدل شوند، باید بیدار ماند»🤓

🌺 با سلام و درود فراوان خدمت همراهان عزیز 🌺

🍂🍂امید است آخرین آدینه پاییزیتون پر از سلامتی و لبخند و شادی سپری شود.🍂🍂

امروز با یاد پروردگار مهربان فصل ذخیره سازی کلان داده ها را به پایان میرسانیم. 🙏

در ضمن روزهای جمعه هر هفته مقالات مفید روز، پیرامون کلان داده ها از طریق این کانال در اختیار علاقمندان قرار میگیرد.

با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
مدل برنامه نویسی پایگاه داده

All-Pairs
یک سیستم برای کاربردهای بیومتریک،بیوانفرماتیک و داده کاوی طراحی شده است.
در چهار مرحله پیاده سازی شده است:
مدل سازی سیستم
توزیع داده های ورودی
مدیریت
جمع آوری نتیجه
مدل برنامه نویسی پایگاه داده :
Pregel

سیستمی از تسهیلات گوگل در پردازش گراف های بزرگ است. مانند:

تحلیل گراف های شبکه
سرویس های شبکه سازی اجتماعی
این مدل برنامه نویسی ،تحقیقات دیگری بروی روش های برای وظایف محاسباتی پیچیده متمرکز شده است:

رایانش محاوره ای -
Iterative Computations

رایانش حافظه ی تحمل پذیر خطا

محاسباتی افزایش -
Incremental Computations

کنترل جریان تصمیم گیری مربوط به داده ها
Intel's Open cloud computing☝️
MapReduce: Simplified Data Processing on Large Clusters
The Google File System