آشنایی با مفهوم MapReduce:
Map part
Reduce part
MapReduce 1.0
Coding
کلاس های MapReduce
مثال ساده جهت آشنایی با MapReduce
@BigDataTechnology
Map part
Reduce part
MapReduce 1.0
Coding
کلاس های MapReduce
مثال ساده جهت آشنایی با MapReduce
@BigDataTechnology
Forwarded from Ping Channel
انتخابات ۲۰۱۶ آمریکا با طعم Big Data!
مهم ترین وظیفه داده کاوان و ابزار های داده کاوی، پیش بینی می باشد. با پیشرفت تکنولوژی و ابزارهای ارتباطی دسترسی مردم به اینترنت آسان تر شده و همین امر نیز باعث شده تا داده کاوان به ارائه خدمات داده کاوی خود در بستر اینترنت بپردازند. در مبحث پیش بینی یکی از بهترین بسترها، انتخابات می باشد که در این مورد آمریکا همیشه پیش قدم بوده و از تیم های داده کاوی خود نهایت استفاده را برده است. یکی از این خدمات اینترنتی، اپلیکیشن تحت وبElectiontracker می باشد که به ارائه خدمات آنالیز و تصویر سازی در حوزه انتخابات ۲۰۱۶ آمریکا می پردزاد.
اپلیکیشن “The Election Tracker ’16 که تحت وب و آنلاین است توسط OpenText™ ساخته شده است. تکنولوژی استفاده شده در این اپلیکیشن به کابرانش اجازه میدهد تا به صورت تصویری به مانیتور، مقایسه و کشف واقعیت های جذاب درباره انتخابات ۲۰۱۶ آمریکا بپردازند. متون موجود در هزاران وبسایت خبری آنلاین در ماه های طولانی جمع آوری و دسته بندی شده اند تا در این اپلیکیشن به داشبوردی معنی دار، بصری و بسیار تعاملی تبدیل شوند.
این App را در لینک زیر می توانید مشاهده کنید:
http://www.opentext.com/campaigns/analytics-election-tracker-16
پیش بینی نتایج انتخاب 2016 آمریکا محک خوبی برای Data Mining و Big Data و آنالیزهای اطلاعاتی به شمار می رود.
🆔 @PingChannel
کانال تخصصی مدیران شبکه و امنیت
مهم ترین وظیفه داده کاوان و ابزار های داده کاوی، پیش بینی می باشد. با پیشرفت تکنولوژی و ابزارهای ارتباطی دسترسی مردم به اینترنت آسان تر شده و همین امر نیز باعث شده تا داده کاوان به ارائه خدمات داده کاوی خود در بستر اینترنت بپردازند. در مبحث پیش بینی یکی از بهترین بسترها، انتخابات می باشد که در این مورد آمریکا همیشه پیش قدم بوده و از تیم های داده کاوی خود نهایت استفاده را برده است. یکی از این خدمات اینترنتی، اپلیکیشن تحت وبElectiontracker می باشد که به ارائه خدمات آنالیز و تصویر سازی در حوزه انتخابات ۲۰۱۶ آمریکا می پردزاد.
اپلیکیشن “The Election Tracker ’16 که تحت وب و آنلاین است توسط OpenText™ ساخته شده است. تکنولوژی استفاده شده در این اپلیکیشن به کابرانش اجازه میدهد تا به صورت تصویری به مانیتور، مقایسه و کشف واقعیت های جذاب درباره انتخابات ۲۰۱۶ آمریکا بپردازند. متون موجود در هزاران وبسایت خبری آنلاین در ماه های طولانی جمع آوری و دسته بندی شده اند تا در این اپلیکیشن به داشبوردی معنی دار، بصری و بسیار تعاملی تبدیل شوند.
این App را در لینک زیر می توانید مشاهده کنید:
http://www.opentext.com/campaigns/analytics-election-tracker-16
پیش بینی نتایج انتخاب 2016 آمریکا محک خوبی برای Data Mining و Big Data و آنالیزهای اطلاعاتی به شمار می رود.
🆔 @PingChannel
کانال تخصصی مدیران شبکه و امنیت
OpenText
OpenText™ Analytics Election Tracker 16
OpenText™ Analytics, in concert with OpenText InfoFusion, is the fastest way to realize the promise of unstructured data analytics by summarizing and visualizing insights from unstructured big data and delivering it securely to millions of users and billions…
Forwarded from Hadoop.ir
پرسشنامه کلان داده ها در ایران را لطفا تکمیل نمایید :
http://www.hadoop.ir/survey
http://www.hadoop.ir/survey
مرجع هدوپ ایران
پرسشنامه داده های کلان در ایران
پرسشنامه ای که مشاهده می کنید جهت گردآوری اطلاعات مربوط به میزان استفاده و آشنایی شرکت ها،سازمان ها و محققین در دانشگاه ها از ابزارها و مباحث داده های کلان تنظیم شد...
Forwarded from Hadoop.ir
بزرگ ترین پروژه داده های کلان جهان ، پروژه SKA
http://hadoop.ir/?p=307
مرجع هدوپ ایران
http://www.hadoop.ir
@hadoop
http://hadoop.ir/?p=307
مرجع هدوپ ایران
http://www.hadoop.ir
@hadoop
Apache Spark
یک چارچوب محاسباتی برای داده های عظیم است. Spark از MapReduce به عنوان موتور اجرای خودش، استفاده نمیکند اما بخوبی با هدوپ یکپارچه است.
در واقع Spark میتواند در Yarn اجرا شود و با فرمت دادهای هدوپ و HDFS کار کند. Spark بیشتر بخاطر توانایی نگهداشتن مجموعه های دادهای بین کارها، در حافظه، شناخته میشود.
این قابلیت Spark سبب میشود تا سریعتر از جریان کاری MapReduce معادل که مجموعه های دادهای همیشه از دیسک بار میشوند، عمل کند.
دو نوع کاربردی که از مدل پردازشی Spark بهره میبرند، الگوریتم های تکرار شونده (که یک تابع بر روی مجموعه دادهای بصورت تکراری تا حصول شرط خروج، اعمال میگردد، و تحلیل تعاملی(که یک کاربر مجموعه ای از پرس و جوهای اکتشافی تک کاره را بر روی مجموعه ی دادهای، اعمال میکنند) است. همچنین اسپارک APIهایی در زبانهای Java، Scala و Python، ارایه میکند. پروژه Apache Spark شامل ماژولهایی یادگیری ماشین(MLlib)، پردازش گراف (GraphX)، پردازش جریانی( (Spark Streaming)، و SQL (Spark SQL است.
مزیت های Apache Spark:
استفاده آسان: شما می توانید برنامه خود را در لپ تاپ تان توسعه دهید، استفاده ازAPI سطح بالا، سبب می شود تا بتوانید بر محتوای محاسبه تمرکز داشته باشید.
همچنین Spark سریع است: استفاده تعاملی و الگوریتم های پیچیده را ممکن می سازد.
موتور عمومی: به شما امکان ترکیب چندین نوع محاسبات را می دهد(برای نمونه،پرس و جوهای SQL، پردازش متن، یادگیری ماشین و پردازش گراف) که قبلا توسط موتورهای مختلف، امکان پذیر بود.
یکی از ویژگی های اصلی Spark که برای سرعت ارایه می دهد، اجرای پردازش ها درحافظه است، اما این سیستم همچنین در اجرای برنامه در دیسک هم از MapReduceکاراتر است. Spark می تواند در کلاسترهای هدوپ اجرا شود و به هر منبع داده ای هدوپ مانند Cassandra دسترسی داشته باشد.
@BigDataTechnology
یک چارچوب محاسباتی برای داده های عظیم است. Spark از MapReduce به عنوان موتور اجرای خودش، استفاده نمیکند اما بخوبی با هدوپ یکپارچه است.
در واقع Spark میتواند در Yarn اجرا شود و با فرمت دادهای هدوپ و HDFS کار کند. Spark بیشتر بخاطر توانایی نگهداشتن مجموعه های دادهای بین کارها، در حافظه، شناخته میشود.
این قابلیت Spark سبب میشود تا سریعتر از جریان کاری MapReduce معادل که مجموعه های دادهای همیشه از دیسک بار میشوند، عمل کند.
دو نوع کاربردی که از مدل پردازشی Spark بهره میبرند، الگوریتم های تکرار شونده (که یک تابع بر روی مجموعه دادهای بصورت تکراری تا حصول شرط خروج، اعمال میگردد، و تحلیل تعاملی(که یک کاربر مجموعه ای از پرس و جوهای اکتشافی تک کاره را بر روی مجموعه ی دادهای، اعمال میکنند) است. همچنین اسپارک APIهایی در زبانهای Java، Scala و Python، ارایه میکند. پروژه Apache Spark شامل ماژولهایی یادگیری ماشین(MLlib)، پردازش گراف (GraphX)، پردازش جریانی( (Spark Streaming)، و SQL (Spark SQL است.
مزیت های Apache Spark:
استفاده آسان: شما می توانید برنامه خود را در لپ تاپ تان توسعه دهید، استفاده ازAPI سطح بالا، سبب می شود تا بتوانید بر محتوای محاسبه تمرکز داشته باشید.
همچنین Spark سریع است: استفاده تعاملی و الگوریتم های پیچیده را ممکن می سازد.
موتور عمومی: به شما امکان ترکیب چندین نوع محاسبات را می دهد(برای نمونه،پرس و جوهای SQL، پردازش متن، یادگیری ماشین و پردازش گراف) که قبلا توسط موتورهای مختلف، امکان پذیر بود.
یکی از ویژگی های اصلی Spark که برای سرعت ارایه می دهد، اجرای پردازش ها درحافظه است، اما این سیستم همچنین در اجرای برنامه در دیسک هم از MapReduceکاراتر است. Spark می تواند در کلاسترهای هدوپ اجرا شود و به هر منبع داده ای هدوپ مانند Cassandra دسترسی داشته باشد.
@BigDataTechnology
spark Core
هسته Spark شامل قابلیت های اساسی Spark از قبیل اجزایی برای زمان بندی وظیفه،مدیریت حافظه، ترمیم خطا، تعامل با سیستم های ذخیره سازی و دیگر اجزا است.
همچنین هسته Spark مکان API ای است که مجموعه داده ای توزیع شده ارتجاعی(resilient distributed datasets-RDD) که انتزاع برنامه نویسی اصلی Sparkاست را تعریف می کند. RDD ها مجموعه اقلام توزیع شده در چندین گره پردازشی که می توانند بطور موازی استفاده شوند، را نشان می دهد.
@BigDataTechnology
هسته Spark شامل قابلیت های اساسی Spark از قبیل اجزایی برای زمان بندی وظیفه،مدیریت حافظه، ترمیم خطا، تعامل با سیستم های ذخیره سازی و دیگر اجزا است.
همچنین هسته Spark مکان API ای است که مجموعه داده ای توزیع شده ارتجاعی(resilient distributed datasets-RDD) که انتزاع برنامه نویسی اصلی Sparkاست را تعریف می کند. RDD ها مجموعه اقلام توزیع شده در چندین گره پردازشی که می توانند بطور موازی استفاده شوند، را نشان می دهد.
@BigDataTechnology