Forwarded from Ping Channel
انتخابات ۲۰۱۶ آمریکا با طعم Big Data!
مهم ترین وظیفه داده کاوان و ابزار های داده کاوی، پیش بینی می باشد. با پیشرفت تکنولوژی و ابزارهای ارتباطی دسترسی مردم به اینترنت آسان تر شده و همین امر نیز باعث شده تا داده کاوان به ارائه خدمات داده کاوی خود در بستر اینترنت بپردازند. در مبحث پیش بینی یکی از بهترین بسترها، انتخابات می باشد که در این مورد آمریکا همیشه پیش قدم بوده و از تیم های داده کاوی خود نهایت استفاده را برده است. یکی از این خدمات اینترنتی، اپلیکیشن تحت وبElectiontracker می باشد که به ارائه خدمات آنالیز و تصویر سازی در حوزه انتخابات ۲۰۱۶ آمریکا می پردزاد.
اپلیکیشن “The Election Tracker ’16 که تحت وب و آنلاین است توسط OpenText™ ساخته شده است. تکنولوژی استفاده شده در این اپلیکیشن به کابرانش اجازه میدهد تا به صورت تصویری به مانیتور، مقایسه و کشف واقعیت های جذاب درباره انتخابات ۲۰۱۶ آمریکا بپردازند. متون موجود در هزاران وبسایت خبری آنلاین در ماه های طولانی جمع آوری و دسته بندی شده اند تا در این اپلیکیشن به داشبوردی معنی دار، بصری و بسیار تعاملی تبدیل شوند.
این App را در لینک زیر می توانید مشاهده کنید:
http://www.opentext.com/campaigns/analytics-election-tracker-16
پیش بینی نتایج انتخاب 2016 آمریکا محک خوبی برای Data Mining و Big Data و آنالیزهای اطلاعاتی به شمار می رود.
🆔 @PingChannel
کانال تخصصی مدیران شبکه و امنیت
مهم ترین وظیفه داده کاوان و ابزار های داده کاوی، پیش بینی می باشد. با پیشرفت تکنولوژی و ابزارهای ارتباطی دسترسی مردم به اینترنت آسان تر شده و همین امر نیز باعث شده تا داده کاوان به ارائه خدمات داده کاوی خود در بستر اینترنت بپردازند. در مبحث پیش بینی یکی از بهترین بسترها، انتخابات می باشد که در این مورد آمریکا همیشه پیش قدم بوده و از تیم های داده کاوی خود نهایت استفاده را برده است. یکی از این خدمات اینترنتی، اپلیکیشن تحت وبElectiontracker می باشد که به ارائه خدمات آنالیز و تصویر سازی در حوزه انتخابات ۲۰۱۶ آمریکا می پردزاد.
اپلیکیشن “The Election Tracker ’16 که تحت وب و آنلاین است توسط OpenText™ ساخته شده است. تکنولوژی استفاده شده در این اپلیکیشن به کابرانش اجازه میدهد تا به صورت تصویری به مانیتور، مقایسه و کشف واقعیت های جذاب درباره انتخابات ۲۰۱۶ آمریکا بپردازند. متون موجود در هزاران وبسایت خبری آنلاین در ماه های طولانی جمع آوری و دسته بندی شده اند تا در این اپلیکیشن به داشبوردی معنی دار، بصری و بسیار تعاملی تبدیل شوند.
این App را در لینک زیر می توانید مشاهده کنید:
http://www.opentext.com/campaigns/analytics-election-tracker-16
پیش بینی نتایج انتخاب 2016 آمریکا محک خوبی برای Data Mining و Big Data و آنالیزهای اطلاعاتی به شمار می رود.
🆔 @PingChannel
کانال تخصصی مدیران شبکه و امنیت
OpenText
OpenText™ Analytics Election Tracker 16
OpenText™ Analytics, in concert with OpenText InfoFusion, is the fastest way to realize the promise of unstructured data analytics by summarizing and visualizing insights from unstructured big data and delivering it securely to millions of users and billions…
Forwarded from Hadoop.ir
پرسشنامه کلان داده ها در ایران را لطفا تکمیل نمایید :
http://www.hadoop.ir/survey
http://www.hadoop.ir/survey
مرجع هدوپ ایران
پرسشنامه داده های کلان در ایران
پرسشنامه ای که مشاهده می کنید جهت گردآوری اطلاعات مربوط به میزان استفاده و آشنایی شرکت ها،سازمان ها و محققین در دانشگاه ها از ابزارها و مباحث داده های کلان تنظیم شد...
Forwarded from Hadoop.ir
بزرگ ترین پروژه داده های کلان جهان ، پروژه SKA
http://hadoop.ir/?p=307
مرجع هدوپ ایران
http://www.hadoop.ir
@hadoop
http://hadoop.ir/?p=307
مرجع هدوپ ایران
http://www.hadoop.ir
@hadoop
Apache Spark
یک چارچوب محاسباتی برای داده های عظیم است. Spark از MapReduce به عنوان موتور اجرای خودش، استفاده نمیکند اما بخوبی با هدوپ یکپارچه است.
در واقع Spark میتواند در Yarn اجرا شود و با فرمت دادهای هدوپ و HDFS کار کند. Spark بیشتر بخاطر توانایی نگهداشتن مجموعه های دادهای بین کارها، در حافظه، شناخته میشود.
این قابلیت Spark سبب میشود تا سریعتر از جریان کاری MapReduce معادل که مجموعه های دادهای همیشه از دیسک بار میشوند، عمل کند.
دو نوع کاربردی که از مدل پردازشی Spark بهره میبرند، الگوریتم های تکرار شونده (که یک تابع بر روی مجموعه دادهای بصورت تکراری تا حصول شرط خروج، اعمال میگردد، و تحلیل تعاملی(که یک کاربر مجموعه ای از پرس و جوهای اکتشافی تک کاره را بر روی مجموعه ی دادهای، اعمال میکنند) است. همچنین اسپارک APIهایی در زبانهای Java، Scala و Python، ارایه میکند. پروژه Apache Spark شامل ماژولهایی یادگیری ماشین(MLlib)، پردازش گراف (GraphX)، پردازش جریانی( (Spark Streaming)، و SQL (Spark SQL است.
مزیت های Apache Spark:
استفاده آسان: شما می توانید برنامه خود را در لپ تاپ تان توسعه دهید، استفاده ازAPI سطح بالا، سبب می شود تا بتوانید بر محتوای محاسبه تمرکز داشته باشید.
همچنین Spark سریع است: استفاده تعاملی و الگوریتم های پیچیده را ممکن می سازد.
موتور عمومی: به شما امکان ترکیب چندین نوع محاسبات را می دهد(برای نمونه،پرس و جوهای SQL، پردازش متن، یادگیری ماشین و پردازش گراف) که قبلا توسط موتورهای مختلف، امکان پذیر بود.
یکی از ویژگی های اصلی Spark که برای سرعت ارایه می دهد، اجرای پردازش ها درحافظه است، اما این سیستم همچنین در اجرای برنامه در دیسک هم از MapReduceکاراتر است. Spark می تواند در کلاسترهای هدوپ اجرا شود و به هر منبع داده ای هدوپ مانند Cassandra دسترسی داشته باشد.
@BigDataTechnology
یک چارچوب محاسباتی برای داده های عظیم است. Spark از MapReduce به عنوان موتور اجرای خودش، استفاده نمیکند اما بخوبی با هدوپ یکپارچه است.
در واقع Spark میتواند در Yarn اجرا شود و با فرمت دادهای هدوپ و HDFS کار کند. Spark بیشتر بخاطر توانایی نگهداشتن مجموعه های دادهای بین کارها، در حافظه، شناخته میشود.
این قابلیت Spark سبب میشود تا سریعتر از جریان کاری MapReduce معادل که مجموعه های دادهای همیشه از دیسک بار میشوند، عمل کند.
دو نوع کاربردی که از مدل پردازشی Spark بهره میبرند، الگوریتم های تکرار شونده (که یک تابع بر روی مجموعه دادهای بصورت تکراری تا حصول شرط خروج، اعمال میگردد، و تحلیل تعاملی(که یک کاربر مجموعه ای از پرس و جوهای اکتشافی تک کاره را بر روی مجموعه ی دادهای، اعمال میکنند) است. همچنین اسپارک APIهایی در زبانهای Java، Scala و Python، ارایه میکند. پروژه Apache Spark شامل ماژولهایی یادگیری ماشین(MLlib)، پردازش گراف (GraphX)، پردازش جریانی( (Spark Streaming)، و SQL (Spark SQL است.
مزیت های Apache Spark:
استفاده آسان: شما می توانید برنامه خود را در لپ تاپ تان توسعه دهید، استفاده ازAPI سطح بالا، سبب می شود تا بتوانید بر محتوای محاسبه تمرکز داشته باشید.
همچنین Spark سریع است: استفاده تعاملی و الگوریتم های پیچیده را ممکن می سازد.
موتور عمومی: به شما امکان ترکیب چندین نوع محاسبات را می دهد(برای نمونه،پرس و جوهای SQL، پردازش متن، یادگیری ماشین و پردازش گراف) که قبلا توسط موتورهای مختلف، امکان پذیر بود.
یکی از ویژگی های اصلی Spark که برای سرعت ارایه می دهد، اجرای پردازش ها درحافظه است، اما این سیستم همچنین در اجرای برنامه در دیسک هم از MapReduceکاراتر است. Spark می تواند در کلاسترهای هدوپ اجرا شود و به هر منبع داده ای هدوپ مانند Cassandra دسترسی داشته باشد.
@BigDataTechnology
spark Core
هسته Spark شامل قابلیت های اساسی Spark از قبیل اجزایی برای زمان بندی وظیفه،مدیریت حافظه، ترمیم خطا، تعامل با سیستم های ذخیره سازی و دیگر اجزا است.
همچنین هسته Spark مکان API ای است که مجموعه داده ای توزیع شده ارتجاعی(resilient distributed datasets-RDD) که انتزاع برنامه نویسی اصلی Sparkاست را تعریف می کند. RDD ها مجموعه اقلام توزیع شده در چندین گره پردازشی که می توانند بطور موازی استفاده شوند، را نشان می دهد.
@BigDataTechnology
هسته Spark شامل قابلیت های اساسی Spark از قبیل اجزایی برای زمان بندی وظیفه،مدیریت حافظه، ترمیم خطا، تعامل با سیستم های ذخیره سازی و دیگر اجزا است.
همچنین هسته Spark مکان API ای است که مجموعه داده ای توزیع شده ارتجاعی(resilient distributed datasets-RDD) که انتزاع برنامه نویسی اصلی Sparkاست را تعریف می کند. RDD ها مجموعه اقلام توزیع شده در چندین گره پردازشی که می توانند بطور موازی استفاده شوند، را نشان می دهد.
@BigDataTechnology
Spark SQL
این بسته برای کار کردن با داده های دارای ساختار است.
ما را قادر می سازد تا از داده ها با SQL مانند زبان پرس و جوی Hive، پرس وجو بگیریم. Spark SQL از چندین منبع داده ای شامل جداول Hive، Parquet، و JSON پشتیبانی می کند. همچنین توسعه دهندگان می توانند پرس و جوهای SQL را با عملیات دیگری که توسط RDD ها درپایتون، جاوا و اسکالا انجام می شود، در یک برنامه واحد انجام دهند که منجر به ترکیبSQL با تحلیل های پیچیده می شود.
Shark
نسخه قدیمی Spark SQL بود که اکنون توسط Spark SQL جازگزین شدهاست.
@BigDataTechnology
این بسته برای کار کردن با داده های دارای ساختار است.
ما را قادر می سازد تا از داده ها با SQL مانند زبان پرس و جوی Hive، پرس وجو بگیریم. Spark SQL از چندین منبع داده ای شامل جداول Hive، Parquet، و JSON پشتیبانی می کند. همچنین توسعه دهندگان می توانند پرس و جوهای SQL را با عملیات دیگری که توسط RDD ها درپایتون، جاوا و اسکالا انجام می شود، در یک برنامه واحد انجام دهند که منجر به ترکیبSQL با تحلیل های پیچیده می شود.
Shark
نسخه قدیمی Spark SQL بود که اکنون توسط Spark SQL جازگزین شدهاست.
@BigDataTechnology
Spark Streaming
جزء جریانی Spark، به ما امکان پردازش زنده جریان هایی از داده را می دهد.
مثال هایی از داده های جریانی شامل فایل های نگاره تولید شده توسط سرویس دهنده های وب یا صف های پیام هایی شامل بروزرسانی وضع و حالت که توسط کاربران یک سرویس وب ارسال می شوند است.
_____________________
Mllib
این بسته شامل قابلیت های یاگیری ماشین متداول است. Mllib شامل چندین نوع اگوریتم یادگیری ماشین از قبیل کلاس بندی، رگرسیون، خوشه بندی و پالایش گروهی و همچنین شامل قابلیت های ارزیابی مدل و ورودی داده ها است.
تمام این متدها طراحی شده اند تادر یک کلاستر مقیاس پذیر باشند.
__________________
GraphX
کتابخانه ای برای پردازش گرافها(گراف دوست شبکه اجتماعی) است.
مانند جریان و SQL، این کتابخانه نیز Spark RDD API را توسعه می دهد و ما راقادر می سازد تا یک گراف جهت دار با مشخصه های دلخواه ضمیمه شده به هر لبه وراس را ایجاد کنیم. GraphX همچنین عملگرهایی برای دستکاری گراف (مانندsubgraph و mapVertices) و کتابخانه ای از الگوریتم های متداول گراف (مانند PageRank و شمارش مثلث) را ارایه می دهد.
_______________________
Cluster Mangers
توجه به اینکه Spark طراحی شده است تا بصورت کارا از یک تا چند هزار گره پردازشی مقیاس یابد.
برای حصول این قابلیت در حالی که قابلیت انعطاف پذیری نیز به حداکثر برسد، Sparkمی تواند بر روی انواعی از مدیران خوشه از قبیل Hadoop YARN، Apache Mesos و مدیر خوشه ساده ای که در خود Spark به نام زمان بند مستقل است.
@BigDataTechnology
جزء جریانی Spark، به ما امکان پردازش زنده جریان هایی از داده را می دهد.
مثال هایی از داده های جریانی شامل فایل های نگاره تولید شده توسط سرویس دهنده های وب یا صف های پیام هایی شامل بروزرسانی وضع و حالت که توسط کاربران یک سرویس وب ارسال می شوند است.
_____________________
Mllib
این بسته شامل قابلیت های یاگیری ماشین متداول است. Mllib شامل چندین نوع اگوریتم یادگیری ماشین از قبیل کلاس بندی، رگرسیون، خوشه بندی و پالایش گروهی و همچنین شامل قابلیت های ارزیابی مدل و ورودی داده ها است.
تمام این متدها طراحی شده اند تادر یک کلاستر مقیاس پذیر باشند.
__________________
GraphX
کتابخانه ای برای پردازش گرافها(گراف دوست شبکه اجتماعی) است.
مانند جریان و SQL، این کتابخانه نیز Spark RDD API را توسعه می دهد و ما راقادر می سازد تا یک گراف جهت دار با مشخصه های دلخواه ضمیمه شده به هر لبه وراس را ایجاد کنیم. GraphX همچنین عملگرهایی برای دستکاری گراف (مانندsubgraph و mapVertices) و کتابخانه ای از الگوریتم های متداول گراف (مانند PageRank و شمارش مثلث) را ارایه می دهد.
_______________________
Cluster Mangers
توجه به اینکه Spark طراحی شده است تا بصورت کارا از یک تا چند هزار گره پردازشی مقیاس یابد.
برای حصول این قابلیت در حالی که قابلیت انعطاف پذیری نیز به حداکثر برسد، Sparkمی تواند بر روی انواعی از مدیران خوشه از قبیل Hadoop YARN، Apache Mesos و مدیر خوشه ساده ای که در خود Spark به نام زمان بند مستقل است.
@BigDataTechnology
دلیل استفاده اسپارک برای یادگیری ماشین
Why you should use Spark for machine learning
http://www.infoworld.com/article/3031690/analytics/why-you-should-use-spark-for-machine-learning.html
@BigDataTechnology
Why you should use Spark for machine learning
http://www.infoworld.com/article/3031690/analytics/why-you-should-use-spark-for-machine-learning.html
@BigDataTechnology
InfoWorld
Why you should use Spark for machine learning
Spark MLlib enhances machine learning because of its simplicity, scalability, and easy integration with other tools
Forwarded from مفتا - ناشنیدههای تکنولوژی
فوربس
در مقیاس جهانی، اکثر مدیران ارشد دنیا، توانایی تحلیلها و اطلاعات داده ای بزرگ را برای نوآوریِ موفق شرکتها، ضروری میدانند.
تحلیلهای پیشِ رو برای ۲۳ کشوری که در مطالعه موسسه جیای و ادلمن برلند آمده است، نشاندهندهی ارزشِ تغییر مسیر به سمت تحلیلها و اطلاعات داده ای بزرگ از سال ۲۰۱۴ تا ۲۰۱۵ است.
🆔: @mfta_ir
در مقیاس جهانی، اکثر مدیران ارشد دنیا، توانایی تحلیلها و اطلاعات داده ای بزرگ را برای نوآوریِ موفق شرکتها، ضروری میدانند.
تحلیلهای پیشِ رو برای ۲۳ کشوری که در مطالعه موسسه جیای و ادلمن برلند آمده است، نشاندهندهی ارزشِ تغییر مسیر به سمت تحلیلها و اطلاعات داده ای بزرگ از سال ۲۰۱۴ تا ۲۰۱۵ است.
🆔: @mfta_ir