Forwarded from Kahkeshan 🎓🎄🎅
Forwarded from Mobin Ranjbar
سخنرانی Doug Cutting در کنفرانس Strata Hadoop World 2016 به مناسبت 10 ساله شدن هدوپ
لینک یوتیوب:
https://www.youtube.com/watch?v=8FZGT1-0MBM
لینک دانلود ویدیو:
http://fs2.filegir.com/mobinranjbar/Apache_Hadoop_at_10_-_Doug_Cutting_%28Strata___Hadoop_World_2016%29.mp4
لینک یوتیوب:
https://www.youtube.com/watch?v=8FZGT1-0MBM
لینک دانلود ویدیو:
http://fs2.filegir.com/mobinranjbar/Apache_Hadoop_at_10_-_Doug_Cutting_%28Strata___Hadoop_World_2016%29.mp4
YouTube
Apache Hadoop at 10 - Doug Cutting (Strata + Hadoop World 2016)
2016 marks the 10th anniversary of Apache Hadoop. This milestone provides us an opportunity to reflect on how we got here and where we are going. Subscribe t...
نگاهی مقایسه ای به پروژه های پردازش جریان آپاچی:
ادامه مطلب....
@BigDataTechnology
اگر بخواهیم سیستم های پردازش جریان را گروه بندی کنیم، می توانیم طبقه بندی زیر برای آنها در نظر بگیریم :
1. جمع آوری داده مانند NiFi و Flume که به آنها اختصاراً DC می گوییم .
2. پردازش تک رخداد (SEP)پردازش جریان
3. رخدادی (ESP)سامانه های حرفه ای
4. پردازش رخداد (CEP – Coplex Event Processing)
البته، سامانه های حرفه ای پردازش داده که علاوه بر پردازش رخداد، پردازش انبوه را هم در بر میگیرندو یک راه حل جامع برای پردازش انواع داده ها پیشنهاد می کنند
مانند Apache Spark,Apache Ignite,Apache Apex هم می توانند به لیست فوق اضافه شوند.
و Kafka Streams هم هر چند هنوز قانونی عرضه نشده است اما چون تا اردیبهشت ۹۵ وارد بازار خواهد شد در جدول فوق ، آمده است .
برخی ستون ها یا مواردی که در جدول بالا آمده است از قرار زیر است :
ا. Back Pressure : منظور میزان فشار و باریست که برای پردازش جریان ، بر سیستم وارد می شود و مجموعه میزان مصرف رم و سی پی یو و … را تشکیل می دهد.
اا. Auto-Scaling : یا مقیاس پذیری افقی ناظر به گسترش افقی سامانه است یعنی بسته به نیاز ما، با افزودن یک سیستم به سامانه ، به طور خودکار و بدون دردسر ، مجموعه گره های پردازشی یک عدد اضافه شود و پردازش، این سیستم را هم سریعاً در بر گیرد.
ااا. In Flight Modification : قابلیت تغییر داده ها قبل از شروع پردازش بدون نیاز به ارسال مجدد آنها یا توقف سیستم . Spooker از طلایه داران این قابلیت است .Event Size: منظور این است که هر رخداد جداگانه بررسی می شود (Single)یا هر چند تا رخداد با هم دیگر یک دسته را تشکیل می دهند و بعد برای پردازش آماده می شوند (MicroBatch)
اااا. Delivery Gurantees که نحوه تضمین پردازش هر رخداد را بیان می کند که بسته به نیاز و نوع کاربرد، باید حتما این پارامتر مد نظر باشد. مثلا برای پردازش سنسورهای غیر حیاتی ، حداکثر یک بار هم کفایت می کند اما برای داده های حساس ، حداقل یک بار باید هر رخداد، بررسی و پردازش شود .
@BigDataTechnology
منبع :bigdata.ir
نویسنده : سید مجتبی بنائی
ادامه مطلب....
@BigDataTechnology
اگر بخواهیم سیستم های پردازش جریان را گروه بندی کنیم، می توانیم طبقه بندی زیر برای آنها در نظر بگیریم :
1. جمع آوری داده مانند NiFi و Flume که به آنها اختصاراً DC می گوییم .
2. پردازش تک رخداد (SEP)پردازش جریان
3. رخدادی (ESP)سامانه های حرفه ای
4. پردازش رخداد (CEP – Coplex Event Processing)
البته، سامانه های حرفه ای پردازش داده که علاوه بر پردازش رخداد، پردازش انبوه را هم در بر میگیرندو یک راه حل جامع برای پردازش انواع داده ها پیشنهاد می کنند
مانند Apache Spark,Apache Ignite,Apache Apex هم می توانند به لیست فوق اضافه شوند.
و Kafka Streams هم هر چند هنوز قانونی عرضه نشده است اما چون تا اردیبهشت ۹۵ وارد بازار خواهد شد در جدول فوق ، آمده است .
برخی ستون ها یا مواردی که در جدول بالا آمده است از قرار زیر است :
ا. Back Pressure : منظور میزان فشار و باریست که برای پردازش جریان ، بر سیستم وارد می شود و مجموعه میزان مصرف رم و سی پی یو و … را تشکیل می دهد.
اا. Auto-Scaling : یا مقیاس پذیری افقی ناظر به گسترش افقی سامانه است یعنی بسته به نیاز ما، با افزودن یک سیستم به سامانه ، به طور خودکار و بدون دردسر ، مجموعه گره های پردازشی یک عدد اضافه شود و پردازش، این سیستم را هم سریعاً در بر گیرد.
ااا. In Flight Modification : قابلیت تغییر داده ها قبل از شروع پردازش بدون نیاز به ارسال مجدد آنها یا توقف سیستم . Spooker از طلایه داران این قابلیت است .Event Size: منظور این است که هر رخداد جداگانه بررسی می شود (Single)یا هر چند تا رخداد با هم دیگر یک دسته را تشکیل می دهند و بعد برای پردازش آماده می شوند (MicroBatch)
اااا. Delivery Gurantees که نحوه تضمین پردازش هر رخداد را بیان می کند که بسته به نیاز و نوع کاربرد، باید حتما این پارامتر مد نظر باشد. مثلا برای پردازش سنسورهای غیر حیاتی ، حداکثر یک بار هم کفایت می کند اما برای داده های حساس ، حداقل یک بار باید هر رخداد، بررسی و پردازش شود .
@BigDataTechnology
منبع :bigdata.ir
نویسنده : سید مجتبی بنائی
مهندسی داده
کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است - مهندسی داده
وب سایت مهندسی داده : کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است
اگر بدانی
چه کسی،کشتی زندگی را
از میان موج های سهمگین روزگار
به ساحل آرام رویاهایت
رسانده است؟
“مرد زندگیت” را می پرستی .
روز پدر و مرد بر تمام مردان و پدران سرزمینم مبارک💐
@BigDataTechnology
HBase
#HBase
@BigDataTechnology
یک پیاده سازی متن باز از ابزار Google Big Table می باشد و مانند دیتابیس های رابطه ای، داده ها در جداول ذخیره می شوند اما فرآیندهایی مانند Join و Query نویسی در آن بخوبی پشتیبانی نشده اند. البته باید به این نکته اشاره کرد که با وجود ابزار قدرتمند MapReduce ایجاد اعمالی مانند Join و پرس و جو در هادوپ بسیار ساده پیاده سازی می شود. به بیان دیگر می توان گفت با وجود Pig و Hive پیاده سازی این اعمال راحت خواهد بود.
در HBase چهار عمل اصلی Insert(Create) ، Read ، Update و Delete روی جداول بزرگ قابل انجام است، علاوه بر این برخی اعمال اتمیک ، برخی قفلگذاری مربوط به دیتابیس و ایندکس گذاری ها در آن لحاظ شده است. همانطور که در شکل نشان داده ایم HBase نیز مانند HDFS از دو بخش Master و Slave تشکیل شده است که این بخش ها HMaster و Region Server نامیده می شوند. البته این را هم باید گفت که HBase از HDFS به عنوان مسئول ذخیره سازی داده استفاده می کند. این باعث می شود HBase از همه ی خصوصیات HDFS مانند Replication استفاده کند.
مدیریت دادها در HBase در نودهای فرعی که توسط نود اصلی مدیریت می شود انجام می گردد.
@BigDataTechnology
#HBase
@BigDataTechnology
یک پیاده سازی متن باز از ابزار Google Big Table می باشد و مانند دیتابیس های رابطه ای، داده ها در جداول ذخیره می شوند اما فرآیندهایی مانند Join و Query نویسی در آن بخوبی پشتیبانی نشده اند. البته باید به این نکته اشاره کرد که با وجود ابزار قدرتمند MapReduce ایجاد اعمالی مانند Join و پرس و جو در هادوپ بسیار ساده پیاده سازی می شود. به بیان دیگر می توان گفت با وجود Pig و Hive پیاده سازی این اعمال راحت خواهد بود.
در HBase چهار عمل اصلی Insert(Create) ، Read ، Update و Delete روی جداول بزرگ قابل انجام است، علاوه بر این برخی اعمال اتمیک ، برخی قفلگذاری مربوط به دیتابیس و ایندکس گذاری ها در آن لحاظ شده است. همانطور که در شکل نشان داده ایم HBase نیز مانند HDFS از دو بخش Master و Slave تشکیل شده است که این بخش ها HMaster و Region Server نامیده می شوند. البته این را هم باید گفت که HBase از HDFS به عنوان مسئول ذخیره سازی داده استفاده می کند. این باعث می شود HBase از همه ی خصوصیات HDFS مانند Replication استفاده کند.
مدیریت دادها در HBase در نودهای فرعی که توسط نود اصلی مدیریت می شود انجام می گردد.
@BigDataTechnology
چه موقع باید از HBASE استفاده نمود؟
از Hbase زمانی استفاده می شود که برای خواندن و نوشتن در زمان واقعی نیاز باشد.
هدف این پروژه میزبانی از جداول بسیار بزرگ با میلیاردها ردیف و میلیون ها جدول می باشد.
از Hbase زمانی استفاده می شود که برای خواندن و نوشتن در زمان واقعی نیاز باشد.
هدف این پروژه میزبانی از جداول بسیار بزرگ با میلیاردها ردیف و میلیون ها جدول می باشد.
ویژگی های HBase
#HBase
@BigDataTechnology
- مقیاس پذیری خطی و مدولار .
- به شدت سازگار با خواندن و نوشتن.
- بخش بندی و تنظیم خودکارجداول.
- پشتیبانی خطایابی خودکاربین سرورها.
- کلاس های پایه مناسب جهت پشتیبانی Hadoop MapReduce jobs با استفاده از جداول (Apache HBase tables) .
- دسترسی راحت کاربر به Java API.
- فیلترهای حافظه نهان و بلوم جهت نمایش داده در زمان واقعی.
- رساندن گزاره پرس و جو از طریق سرور به فیلترها.
- و Thrift gateway و وب سرویس REST-ful از فرمتهای XML, Protobuf,گزینه های رمز گزاری داده های باینری را پشتیبانی می کند.
- توسعه پذیری در زمینه jruby-based (JIRB) shell.
- پشتیبانی برای exporting metrics از طریق Hadoop metrics subsystem در فایل ها یاGanglia و یا از طریق JMX.
@BigDataTechnology
#HBase
@BigDataTechnology
- مقیاس پذیری خطی و مدولار .
- به شدت سازگار با خواندن و نوشتن.
- بخش بندی و تنظیم خودکارجداول.
- پشتیبانی خطایابی خودکاربین سرورها.
- کلاس های پایه مناسب جهت پشتیبانی Hadoop MapReduce jobs با استفاده از جداول (Apache HBase tables) .
- دسترسی راحت کاربر به Java API.
- فیلترهای حافظه نهان و بلوم جهت نمایش داده در زمان واقعی.
- رساندن گزاره پرس و جو از طریق سرور به فیلترها.
- و Thrift gateway و وب سرویس REST-ful از فرمتهای XML, Protobuf,گزینه های رمز گزاری داده های باینری را پشتیبانی می کند.
- توسعه پذیری در زمینه jruby-based (JIRB) shell.
- پشتیبانی برای exporting metrics از طریق Hadoop metrics subsystem در فایل ها یاGanglia و یا از طریق JMX.
@BigDataTechnology