BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
تا لحظات دیگر آموزش تصویری MapReduce شروع خواهد شد.
آشنایی با مفهوم MapReduce:

Map part
Reduce part
MapReduce 1.0
Coding
کلاس های MapReduce
مثال ساده جهت آشنایی با MapReduce

@BigDataTechnology
فایل تصویری آموزش hadoop shell commands
Forwarded from Hadoop.ir
کتابخانه مرجع هدوپ ایران واقع در شرکت فرافکر
Forwarded from Ping Channel
انتخابات ۲۰۱۶ آمریکا با طعم Big Data!
مهم ترین وظیفه داده کاوان و ابزار های داده کاوی، پیش بینی می باشد. با پیشرفت تکنولوژی و ابزارهای ارتباطی دسترسی مردم به اینترنت آسان تر شده و همین امر نیز باعث شده تا داده کاوان به ارائه خدمات داده کاوی خود در بستر اینترنت بپردازند. در مبحث پیش بینی یکی از بهترین بسترها، انتخابات می باشد که در این مورد آمریکا همیشه پیش قدم بوده و از تیم های داده کاوی خود نهایت استفاده را برده است. یکی از این خدمات اینترنتی، اپلیکیشن تحت وبElectiontracker می باشد که به ارائه خدمات آنالیز و تصویر سازی در حوزه انتخابات ۲۰۱۶ آمریکا می پردزاد.
اپلیکیشن “The Election Tracker ’16 که تحت وب و آنلاین است توسط OpenText ساخته شده است. تکنولوژی استفاده شده در این اپلیکیشن به کابرانش اجازه میدهد تا به صورت تصویری به مانیتور، مقایسه و کشف واقعیت های جذاب درباره انتخابات ۲۰۱۶ آمریکا بپردازند. متون موجود در هزاران وبسایت خبری آنلاین در ماه های طولانی جمع آوری و دسته بندی شده اند تا در این اپلیکیشن به داشبوردی معنی دار، بصری و بسیار تعاملی تبدیل شوند.
این App را در لینک زیر می توانید مشاهده کنید:

http://www.opentext.com/campaigns/analytics-election-tracker-16

پیش بینی نتایج انتخاب 2016 آمریکا محک خوبی برای Data Mining و Big Data و آنالیزهای اطلاعاتی به شمار می رود.

🆔 @PingChannel
کانال تخصصی مدیران شبکه و امنیت
ویدئو آموزشی
MapReduce example -word count
Loading and navigation the Hadoop File system (HDFS)
Loading and navigation the Hadoop File system (HDFS) part2
محدودیت های MapReduce 1.0 و معرفی(YARN) MapReduce 2.0
Forwarded from Hadoop.ir
بزرگ ترین پروژه داده های کلان جهان ، پروژه SKA

http://hadoop.ir/?p=307

مرجع هدوپ ایران
http://www.hadoop.ir
@hadoop
Apache Spark

یک چارچوب محاسباتی برای داده ­های عظیم است. Spark از MapReduce به عنوان موتور اجرای خودش، استفاده نمی­کند اما بخوبی با هدوپ یکپارچه است.
در واقع Spark می­تواند در Yarn اجرا شود و با فرمت داده­ای هدوپ و HDFS کار کند. Spark بیشتر بخاطر توانایی نگهداشتن مجموعه ­های داده­ای بین کارها، در حافظه، شناخته می­شود.
این قابلیت Spark سبب می­شود تا سریعتر از جریان کاری MapReduce معادل که مجموعه ­های داده­ای همیشه از دیسک بار می­شوند، عمل کند.
دو نوع کاربردی که از مدل پردازشی Spark بهره می­برند، الگوریتم ­های تکرار شونده (که یک تابع بر روی مجموعه داده­ای بصورت تکراری تا حصول شرط خروج، اعمال می­گردد، و تحلیل تعاملی(که یک کاربر مجموعه ای از پرس و جوهای اکتشافی تک کاره را بر روی مجموعه ­ی داده­ای، اعمال می­کنند) است. همچنین اسپارک APIهایی در زبان­های Java، Scala و Python، ارایه می­کند. پروژه Apache Spark شامل ماژول­هایی یادگیری ماشین(MLlib)، پردازش گراف (GraphX)، پردازش جریانی( (Spark Streaming)، و SQL (Spark SQL است.


مزیت های Apache Spark:
 استفاده آسان: شما می توانید برنامه خود را در لپ تاپ تان توسعه دهید، استفاده ازAPI سطح بالا، سبب می شود تا بتوانید بر محتوای محاسبه تمرکز داشته باشید.
همچنین Spark سریع است: استفاده تعاملی و الگوریتم های پیچیده را ممکن می سازد.
موتور عمومی: به شما امکان ترکیب چندین نوع محاسبات را می دهد(برای نمونه،پرس و جوهای SQL، پردازش متن، یادگیری ماشین و پردازش گراف) که قبلا توسط موتورهای مختلف، امکان پذیر بود.

یکی از ویژگی های اصلی Spark که برای سرعت ارایه می دهد، اجرای پردازش ها درحافظه است، اما این سیستم همچنین در اجرای برنامه در دیسک هم از MapReduceکاراتر است. Spark می تواند در کلاسترهای هدوپ اجرا شود و به هر منبع داده ای هدوپ مانند Cassandra دسترسی داشته باشد.

@BigDataTechnology
spark Core

هسته Spark شامل قابلیت های اساسی Spark از قبیل اجزایی برای زمان بندی وظیفه،مدیریت حافظه، ترمیم خطا، تعامل با سیستم های ذخیره سازی و دیگر اجزا است.
همچنین هسته Spark مکان API ای است که مجموعه داده ای توزیع شده ارتجاعی(resilient distributed datasets-RDD) که انتزاع برنامه نویسی اصلی Sparkاست را تعریف می کند. RDD ها مجموعه اقلام توزیع شده در چندین گره پردازشی که می توانند بطور موازی استفاده شوند، را نشان می دهد.

@BigDataTechnology