BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
GFS
MongoDB
یک پایگاه داده‌های سند-گرای متن‌باز، کارا، مقیاس‌پذیر، بدون نیاز به طرح‌بندی اولیه نوشته شده در زبان برنامه‌نویسی سی++ است.

هدف مانگودی‌بی پرکردن فاصلهٔ ذخیره‌بندی‌های کلید/مقداری—که سریع و مقیاس پذیر هستند— و سامانه‌های سنتی مدیریت پایگاه داده رابطه‌ای—که درخواست‌های غنی و عملکرد عمیقی دارند— بوده‌است. مانگودی‌بی برای رفع مشکلاتی طراحی شده که با پایگاه داده‌های رابطه‌ای به سادگی رفع نمی‌شوند؛ برای مثال اگر پایگاه داده کارسازهای زیادی را دربرگیرد.

مانگودی‌بی به جای اینک همانند پایگاه های داده‌های رابطه‌ای کلاسیک داده‌ها را در جداول ذخیره کند، داده‌های ساختاریافته را در اسنادی با قالبی شبیه به جی‌سون(مانگودی‌بی این قالب را بی‌سون(BSON) می‌نامد) ذخیره‌سازی می کند، و بدین ترتیب یکپارچه‌سازی داده‌ها را در برخی اقسام برنامه‌های کاربردی آسان‌تر و سریع‌تر می کند.
SimpleDB
پایگاه داده ی توزیع شده و یک سرویس دهنده وب آمازون است.
داده ها بر اساس دامنه های مختلف سازمان دهی شده اند که ممکن است داده های ذخیره شده حاصل شوه و  پرس و جو شده باشند.
دامنه ها شامل خواص مختلف و مجموعه جفت های نام/ مقدار پروژه ها هستند.
برای تضمین امنیت داده ها و بهبود کارایی تاریخ در ماشین های متفاوت در مراکز داده ی مختلف ثبت شده است.
زیرا سیستم از تقسیم بندی خودکار پشتیبانی نمیکند.
بنابراین با تغییر حجم داده ها نمیتواند گسترش داده شود.
این پایگاه داده برای پرس و جو به کاربران اجازه استفاده از SQL را میدهد.
CouchDB

در سال 2005 برای اولین بار منتشر شد ولی در سال 2008 بنیاد آپاچی مالک آن شد. CouchDB که در ابتدا با زبان برنامه نویسی سی ++ پیاده سازی شده بود بعد ها در سال 2008 به زبان ارلنگ منتقل شد. این پایگاه داده نیز همانند اعضای دیگر، یک پایگاه داده سندگرا است که با استفاده از فرمت JSON داده ها را در غالب سند ذخیره میکند. این پایگاه داده که با شعار “یک دیتابیس که مفهوم وب را بپذیرد” شروع به کار کرد.

این پایگاه داده با اینکه از MapReduce استفاده میکند ولی دسترسی آن فقط از طریق API های وب امکان پذیر است. به این صورت که برای دریافت اسناد می بایست یک دستور Get به HTTP فرستاده شود. این پایگاه داده بر خلاف پایگاه داده های دیگر که یک نود اصلی و چند نود فرعی هستند (Single Master/Multiple Slaves)، این پایگاه داده از نوع چند نود اصلی و چند نود فرعی (Multi Masters/Multi Slaves) است و اینکه این پایگاه داده تنها عضوی است که می توان از آن فعلا در برنامه نویسی اندروید استفاده کرد. سیستم مدیریت دیتابیس هم که Futon نام دارد از طریق مرورگر قابل دسترسی است.
Platform for nimble universal table storage :
سکو برای ذخیره سازی جدول جامع:
یک سیستم توزیع شده موازی در مقیاس بزرگ برای برنامه های کاربردی وب در یاهو

https://wiki.apache.org/hadoop/Hbase/PNUTS
جهت اطلاع دوستان عزیزی که درخواست مقاله های لاتین پیرامون رایانش ابری و کلان داده ها کردند،
از این پس فقط روز های جمعه مقاله های درخواست شده ارسال میشود.
زندگی ما زاییده اندیشه ماست.

سلام و درود فراوان خدمت همراهان و سروران عزیز.

آخرین هفته پاییزتون سرشار از آرامش و نشاط و سلامتی.

امروز با یاد ایزد با مطالبی پیرامون مدل برنامه نویسی پایگاه داده کلان داده ها از جمله :

MapReduce
Dryad
All-Pairs
Pregel
در خدمت شما هستم.

با تشکر از توجه شما 🌷

گلناز اردشیری
@BigDataTechnology
مدل برنامه نویسی پایگاه داده :

مجموعه داده های انبوهی از کلان داده ها معمولا در صداها و حتی هزاران سرویس دهنده ی تجاری ذخیره می شوند.
ظاهرا مدل های موازی سنتی مانند MPI و OpenMP ممکن است برای پشتیبانی چنین برنامه های موازی مقیاس بزرگ مناسب نباشد.
برخی مدل های برنامه نویسی به طور موثری کارایی پایگاه داده داده های NoSQL را بهبود میبخشند و شکاف کارایی بین پایگاه داده رابطه ای را کاهش میدهند.
بنا بر این این مدل ها سنگ بنای تحلیل داده های انبوه شدند که به مختصر هر کدام را بررسی خواهیم کرد.
مدل برنامه نویسی پایگاه داده :
MapReduce

کاهش نگاشت یک مدل برنامه نویسی ساده وقدرتمند برای محاسبات مقیاس بزرگ است.
چارچوب نرم‌افزاری است که از جانب شرکت گوگل برای پشتیبانی از رایانش توزیع‌شده ارایه شده‌است. این رایانش بر روی مجموعه‌های داده که متشکل ازخوشه‌هایِ رایانه‌ای است، صورت می‌گیرد.

این چارچوب با الهام‌گیری از نگاشت و کاهش که در واقع در زبان‌های برنامه‌نویسی تابعی وجود دارد، ایجاد شد.
اگرچه آنچه که امروزه استفاده می‌شود دقیقاً همان چیزی نیست که مد نظر سازندگان اولیه‌اش است.
کتابخانه‌هایِ نگاشت‌کاهش برای زبان‌های سی++ وسی‌شارپ٬ ارلارج ٬جاوا ٬پرل ٬پایتون ٬روبی ٬اف‌شارپ٬آر و سایر زبان‌ها نوشته‌شده‌اند.

نگاشت‌کاهش چارچوبی برای پردازش مجموعه‌های عظیمی از داده‌ها بر روی رایانه‌ها(گره‌ها) که بر روی موضوعی خاص فعالیت می‌کنند.
 این مجموعه روی‌هم رفته به عنوان خوشه شناخته می‌شود(در صورتی که از سخت‌افزاری یکسان بهره برند).
پردازش محاسباتی بر روی دادهایِ ذخیره شده درون سامانه فایل (ساختار نیافته) یا بر رویپایگاه داده (ساختاریافته) قابل اجراست.

گامِ "نگاشت": گره اصلی (Master Node) ورودی را به قطعاتی کوچک‌تر تقسیم می‌نماید(تقسیم مساله‌ی بزرگ به مسایل کوچک) و سپس تقسیم این مسایل کوچک(زیر مسایل) بین گره‌های کارگر.
 یک گره کارگر نیز ممکن است این عملیات را به نوبه‌ی خود تکرار نماید، که ایجاد کننده‌ای ساختاری درختی و چند مرحله‌ای است. هر گره کارگر زیر-مساله‌ی خود را حل نموده و نتیجه را به گره اصلیِ خود برمی‌گرداند.

گامِ "کاهش": سپس گره‌ِ اصلی جواب زیر-مسایل را از گره‌های کارگرش گرفته و خروجی را می‌سازد تا خروجی، که حل مساله‌ی ورودی است، را ایجاد نماید.

برتری نگاشت‌کاهش، در این است که اجازه می‌دهد تا پردازش عملیات‌های پردازش و کاهش توزیع‌شود.
فراهم آوردن این امر که هر کدام از این نگاشت‌ها مستقل از دیگران است، که خود متضمن اجرای موازی این نگاشت‌هاست. اگرچه این گفته در عمل به این صورت خواهد بود که محدود به منابع داده یا تعداد پردازنده‌های نزدیک به آن داده‌است. به صورت مشابه، مجموعه‌ای از 'کاهنده‌ها' می‌توانند فاز کاهش را به انجام رسانند.
 لازمه‌ی این امر آن است که خروجی عملیات نگاشت کلیدی یکسان را در یک زمان به همه کاهنده‌ها ارسال نماید.
 این روش برای الگوریتم‌هایی که به صورت دنباله‌ای از دستورهای غیرقابل موازی سازی هستند، ناکارآمد است. نگاشت‌کاهش بر روی مجموعه‌های عظیم داده‌ای بهتر جواب می‌دهد تا سرورهای تجاری.
مجموعه‌های عظیم داده‌ای را می‌توان به مزارع سرور تعمیم داد.
 مزارعی که حجمی به بزرگی چندین پتابایت داده را در کسری از ساعت، پردازش می‌نماید.

 همچنین موازی‌سازی امکان بازسازی بعد از بروز خطایِ جزیی در سرورها را در طول عملیات فراهم می‌آورد:
 اگر یکی از نگاشت‌کنندگان یا کاهندگان دچار خطا شود، کار دوباره زمان‌بندی خواهدشد- با فرض اینکه داده‌همچنان در دسترس باشد.
یک راه کار پیشنهادی برا بهبود بازده برنامه نویسی و اسان کردن کار برای کاربران ترکیب سبک SQL در چارچوب MapReduce هست.
چندین زبان پیشرفته در این رابطه معرفی شده است :

گوگل --------- Sawzall
یاهو --------- Pig
فیس بوک ----- Hive
مایکروسافت -- Scope
مدل برنامه نویسی پایگاه داده:
Dryad
یک موتور اجرایی توزیع شده ی همه منظوره برای پردازش برنامه های کاربردی موازی داده های coarse grained است.
ساختار عملیاتی آن یک گراف غیر چرخه ای جهت دار است.
این مدل عملیات را در راس هر خوشه کامپیوتر اجرا میکند و داده ها از طریق کانال داده شامل اسناد و اتصالات TCP و حافظه مشترک FIFO منتقل میکند.
ساختار عملیاتی Dryad توسط یک برنامه ی مرکزی به نام JobManager هماهنگ می شود.
 ✌️«بزرگ ترین قهرمان های دومیدانی هم موفقیت خود را با برداشتن اولین قدم شروع میکنند»✌️

👈«تا وقتی دست به کار نشوید هیچ اتفاقی نخواهد افتاد»👉

🤓«برای اینکه رؤیاهایمان به واقعیت بدل شوند، باید بیدار ماند»🤓

🌺 با سلام و درود فراوان خدمت همراهان عزیز 🌺

🍂🍂امید است آخرین آدینه پاییزیتون پر از سلامتی و لبخند و شادی سپری شود.🍂🍂

امروز با یاد پروردگار مهربان فصل ذخیره سازی کلان داده ها را به پایان میرسانیم. 🙏

در ضمن روزهای جمعه هر هفته مقالات مفید روز، پیرامون کلان داده ها از طریق این کانال در اختیار علاقمندان قرار میگیرد.

با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
مدل برنامه نویسی پایگاه داده

All-Pairs
یک سیستم برای کاربردهای بیومتریک،بیوانفرماتیک و داده کاوی طراحی شده است.
در چهار مرحله پیاده سازی شده است:
مدل سازی سیستم
توزیع داده های ورودی
مدیریت
جمع آوری نتیجه
مدل برنامه نویسی پایگاه داده :
Pregel

سیستمی از تسهیلات گوگل در پردازش گراف های بزرگ است. مانند:

تحلیل گراف های شبکه
سرویس های شبکه سازی اجتماعی
این مدل برنامه نویسی ،تحقیقات دیگری بروی روش های برای وظایف محاسباتی پیچیده متمرکز شده است:

رایانش محاوره ای -
Iterative Computations

رایانش حافظه ی تحمل پذیر خطا

محاسباتی افزایش -
Incremental Computations

کنترل جریان تصمیم گیری مربوط به داده ها
Intel's Open cloud computing☝️
MapReduce: Simplified Data Processing on Large Clusters