NEW BOT Телеграм, страница

510 views10:36

نگاهی مقایسه ای به پروژه های پردازش جریان آپاچی:

#BigData
#MapReduce
#Spark

@BigDataTechnology

در حوزه پردازش داده، دو نوع اصلی پردازش داریم : پردازش بلادرنگ (Real Time) یا همان پردازش جریان (Stream Processing) و پردازش انبوده (Batch Processing) که فناوریهای اصلی حوزه کلان داده ، مانند روش توزیع و تجمیع (MapReduce)، و جدیدا اسپارک برای پردازش انبوه داده ها طراحی شده اند . رهیافت اصلی پردازش بلادرنگ برای سالها، استفاده از صفهای توزیع شده و پروژه های محدودی مانند Storm بود.
در سالهای اخیر ، فناوریهای پردازش بلادرنگ و داده های جریانی مانند داده های دریافتی از حسگرها و تصاویر ترافیک و ماهواره، داده های شبکه های اجتماعی و مانند آن که یکسره در حال تولید هستند و جریان آنها به صورت پیوسته درحال تزریق به برنامه های پردازشی است، پیشرفت زیادی کرده اند و فقط در اکوسیستم آپاچی (مجموعه پروژه های بنیاد آپاچی) امروزه بیش از ده پروژه مختلف متن باز مختلف در این حوزه داریم بعضی از آنها، تفاوت بسیار کمی با یکدیگر دارند که این امر، انتخاب درست ابزار و کتابخانه های مورد نیاز برای پردازش جریان را امری زمان بر و تخصصی نموده است .
با هدف سهولت تصمیم گیری مهندسین داده، وبلاگ DataBaseLine در اقدامی تحسین برانگیز، این فناوریها را در یک جدول با هم مقایسه کرده است که آنرا در زیر می توانید مشاهده کنید .

منبع : Bigdata.ir

مطلب ادامه دارد.....

مهندسی داده

کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است - مهندسی داده

وب سایت مهندسی داده : کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است

618 views10:37

BigData

مقایسه فناوری ها

529 views10:37

BigData

hadoop_tutorial.pdf

499 views11:24

BigData

Hadoop Tutorial as a PDF

526 views11:25

543 views11:25

با عرض سلام و ادب .
آخرین جمعه فروردین زیبای 95 بخیر.

دوستان عزیز چندین کتاب کابردی در حوزه بیگ دیتا در اختیارتون قرار می دهم.
امیدوارم مفید قرار بگیره.
پیروز باشید.

گلناز اردشیری

@BigDataTechnology

505 views11:27

BigData

orielly-cloudera-impala-ebook.pdf

508 views11:31

BigData

Cloudera Impala

784 views11:32

BigData

orielly-cloudera-impala-ebook.pdf

6.2 MB

762 views11:35

BigData

hadoop-illuminated.pdf

522 views11:40

BigData

cassandra_tutorial.pdf

527 views11:40

BigData

Cassandra Tutorial as a PDF

806 views11:40

BigData

hadoop-illuminated.pdf

9 MB

826 views11:45

BigData

cassandra_tutorial.pdf

1.6 MB

942 views11:46

BigData

Forwarded from Kahkeshan 🎓🖤

در یک دقیقه اینترنتی چه اتفاقی میافتد!
نسخه 2016
@Kahkeshannoor

7 views15:46

BigData

Forwarded from مفتا - ناشنیده‌های تکنولوژی

TOP BIG DATA CHALLENGES

🆔: @mfta_ir

8 views16:59

BigData

Forwarded from مفتا - ناشنیده‌های تکنولوژی

Data science methodology

🆔: @mfta_ir

10 views16:59

BigData

Forwarded from Mobin Ranjbar

سخنرانی Doug Cutting در کنفرانس Strata Hadoop World 2016 به مناسبت 10 ساله شدن هدوپ

لینک یوتیوب:
https://www.youtube.com/watch?v=8FZGT1-0MBM

لینک دانلود ویدیو:
http://fs2.filegir.com/mobinranjbar/Apache_Hadoop_at_10_-_Doug_Cutting_%28Strata___Hadoop_World_2016%29.mp4

YouTube

Apache Hadoop at 10 - Doug Cutting (Strata + Hadoop World 2016)

2016 marks the 10th anniversary of Apache Hadoop. This milestone provides us an opportunity to reflect on how we got here and where we are going. Subscribe t...

628 views17:34

BigData

612 views09:19

BigData

نگاهی مقایسه ای به پروژه های پردازش جریان آپاچی:

ادامه مطلب....
@BigDataTechnology

اگر بخواهیم سیستم های پردازش جریان را گروه بندی کنیم، می توانیم طبقه بندی زیر برای آنها در نظر بگیریم :

1. جمع آوری داده مانند NiFi و Flume که به آنها اختصاراً DC می گوییم .

2. پردازش تک رخداد (SEP)پردازش جریان
3. رخدادی (ESP)سامانه های حرفه ای
4. پردازش رخداد (CEP – Coplex Event Processing)

البته، سامانه های حرفه ای پردازش داده که علاوه بر پردازش رخداد، پردازش انبوه را هم در بر میگیرندو یک راه حل جامع برای پردازش انواع داده ها پیشنهاد می کنند
مانند Apache Spark,Apache Ignite,Apache Apex هم می توانند به لیست فوق اضافه شوند.

و Kafka Streams هم هر چند هنوز قانونی عرضه نشده است اما چون تا اردیبهشت ۹۵ وارد بازار خواهد شد در جدول فوق ، آمده است .

برخی ستون ها یا مواردی که در جدول بالا آمده است از قرار زیر است :

ا. Back Pressure : منظور میزان فشار و باریست که برای پردازش جریان ، بر سیستم وارد می شود و مجموعه میزان مصرف رم و سی پی یو و … را تشکیل می دهد.

اا. Auto-Scaling : یا مقیاس پذیری افقی ناظر به گسترش افقی سامانه است یعنی بسته به نیاز ما، با افزودن یک سیستم به سامانه ، به طور خودکار و بدون دردسر ، مجموعه گره های پردازشی یک عدد اضافه شود و پردازش، این سیستم را هم سریعاً در بر گیرد.
ااا. In Flight Modification : قابلیت تغییر داده ها قبل از شروع پردازش بدون نیاز به ارسال مجدد آنها یا توقف سیستم . Spooker از طلایه داران این قابلیت است .Event Size: منظور این است که هر رخداد جداگانه بررسی می شود (Single)یا هر چند تا رخداد با هم دیگر یک دسته را تشکیل می دهند و بعد برای پردازش آماده می شوند (MicroBatch)

اااا. Delivery Gurantees که نحوه تضمین پردازش هر رخداد را بیان می کند که بسته به نیاز و نوع کاربرد، باید حتما این پارامتر مد نظر باشد. مثلا برای پردازش سنسورهای غیر حیاتی ، حداکثر یک بار هم کفایت می کند اما برای داده های حساس ، حداقل یک بار باید هر رخداد، بررسی و پردازش شود .

@BigDataTechnology

منبع :bigdata.ir
نویسنده : سید مجتبی بنائی

مهندسی داده

کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است - مهندسی داده

وب سایت مهندسی داده : کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است

765 views09:19

About

Blog

Apps

Platform