چه موقع باید از HBASE استفاده نمود؟
از Hbase زمانی استفاده می شود که برای خواندن و نوشتن در زمان واقعی نیاز باشد.
هدف این پروژه میزبانی از جداول بسیار بزرگ با میلیاردها ردیف و میلیون ها جدول می باشد.
از Hbase زمانی استفاده می شود که برای خواندن و نوشتن در زمان واقعی نیاز باشد.
هدف این پروژه میزبانی از جداول بسیار بزرگ با میلیاردها ردیف و میلیون ها جدول می باشد.
ویژگی های HBase
#HBase
@BigDataTechnology
- مقیاس پذیری خطی و مدولار .
- به شدت سازگار با خواندن و نوشتن.
- بخش بندی و تنظیم خودکارجداول.
- پشتیبانی خطایابی خودکاربین سرورها.
- کلاس های پایه مناسب جهت پشتیبانی Hadoop MapReduce jobs با استفاده از جداول (Apache HBase tables) .
- دسترسی راحت کاربر به Java API.
- فیلترهای حافظه نهان و بلوم جهت نمایش داده در زمان واقعی.
- رساندن گزاره پرس و جو از طریق سرور به فیلترها.
- و Thrift gateway و وب سرویس REST-ful از فرمتهای XML, Protobuf,گزینه های رمز گزاری داده های باینری را پشتیبانی می کند.
- توسعه پذیری در زمینه jruby-based (JIRB) shell.
- پشتیبانی برای exporting metrics از طریق Hadoop metrics subsystem در فایل ها یاGanglia و یا از طریق JMX.
@BigDataTechnology
#HBase
@BigDataTechnology
- مقیاس پذیری خطی و مدولار .
- به شدت سازگار با خواندن و نوشتن.
- بخش بندی و تنظیم خودکارجداول.
- پشتیبانی خطایابی خودکاربین سرورها.
- کلاس های پایه مناسب جهت پشتیبانی Hadoop MapReduce jobs با استفاده از جداول (Apache HBase tables) .
- دسترسی راحت کاربر به Java API.
- فیلترهای حافظه نهان و بلوم جهت نمایش داده در زمان واقعی.
- رساندن گزاره پرس و جو از طریق سرور به فیلترها.
- و Thrift gateway و وب سرویس REST-ful از فرمتهای XML, Protobuf,گزینه های رمز گزاری داده های باینری را پشتیبانی می کند.
- توسعه پذیری در زمینه jruby-based (JIRB) shell.
- پشتیبانی برای exporting metrics از طریق Hadoop metrics subsystem در فایل ها یاGanglia و یا از طریق JMX.
@BigDataTechnology
معرفی MAHOUT
#Mahout
زیر پروژه Mahout که جزء جدایی ناپذیر پروژه هدوپ است یک محیط برای ایجاد برنامه ها و الگوریتم های یادگیری ماشین به صورت توزیع شده می باشد.
این زیرپروژه شامل الگوریتم ها و کتابخانه های مختلفی برای داده کاوی می شود که می توان به الگوریتم های خوشه بندی نظیر K-Means و دسته بندی نظیر Naïve Bayes اشاره کرد.
و Mahout همچنین کتابخانه های محسابات ریاضی بر طبق جبر خطی و آمار را نیز برای جاوا فراهم می کند.
این زیر پروژه هنوز در حال تکمیل شدن است اما تا به حال الگوریتم های زیادی برای آن پیاده سازی شده است.
هرچند Mahout بیشتر به عنوان یکی از زیرپروژه های هدوپ شناخته می شود ولی این به این معنی نیست که وابسته به هدوپ باشد و Mahout می تواند بدون هدوپ و بر روی Single Node و حتی کلاستر غیر هدوپی مورد استفاده قرار گیرد.
لازم به ذکر است که Mahout به زبان جاوا و اسکالا نوشته شده است.
سه جزء مهم از Apache mahout
برای ساختن الگوریتمهای مقیاس پذیر عبارتند از :
- New Scala
- Spark algorithms
- الگوریتمهای Mapreduce کامل هدوپ که برایMahout به کار می رود.
@BigDataTechnology
#Mahout
زیر پروژه Mahout که جزء جدایی ناپذیر پروژه هدوپ است یک محیط برای ایجاد برنامه ها و الگوریتم های یادگیری ماشین به صورت توزیع شده می باشد.
این زیرپروژه شامل الگوریتم ها و کتابخانه های مختلفی برای داده کاوی می شود که می توان به الگوریتم های خوشه بندی نظیر K-Means و دسته بندی نظیر Naïve Bayes اشاره کرد.
و Mahout همچنین کتابخانه های محسابات ریاضی بر طبق جبر خطی و آمار را نیز برای جاوا فراهم می کند.
این زیر پروژه هنوز در حال تکمیل شدن است اما تا به حال الگوریتم های زیادی برای آن پیاده سازی شده است.
هرچند Mahout بیشتر به عنوان یکی از زیرپروژه های هدوپ شناخته می شود ولی این به این معنی نیست که وابسته به هدوپ باشد و Mahout می تواند بدون هدوپ و بر روی Single Node و حتی کلاستر غیر هدوپی مورد استفاده قرار گیرد.
لازم به ذکر است که Mahout به زبان جاوا و اسکالا نوشته شده است.
سه جزء مهم از Apache mahout
برای ساختن الگوریتمهای مقیاس پذیر عبارتند از :
- New Scala
- Spark algorithms
- الگوریتمهای Mapreduce کامل هدوپ که برایMahout به کار می رود.
@BigDataTechnology
هدوپ در ده سالی که گذشت ….
شرکت کلودارا به مناسبت ده سالگی هدوپ، یک اینفوگرافیک از تاریخچه آن و نقاط عطف این پروژه فراگیر امروزی ، طراحی کرده است که مشاهده آنرا به تمام علاقه مندان و فعالین این حوزه توصیه می کنم .
http://www.bigdata.ir/1395/02/%d9%87%d8%af%d9%88%d9%be-%d8%af%d8%b1-%d8%af%d9%87-%d8%b3%d8%a7%d9%84%db%8c-%da%a9%d9%87-%da%af%d8%b0%d8%b4%d8%aa/
شرکت کلودارا به مناسبت ده سالگی هدوپ، یک اینفوگرافیک از تاریخچه آن و نقاط عطف این پروژه فراگیر امروزی ، طراحی کرده است که مشاهده آنرا به تمام علاقه مندان و فعالین این حوزه توصیه می کنم .
http://www.bigdata.ir/1395/02/%d9%87%d8%af%d9%88%d9%be-%d8%af%d8%b1-%d8%af%d9%87-%d8%b3%d8%a7%d9%84%db%8c-%da%a9%d9%87-%da%af%d8%b0%d8%b4%d8%aa/
مهندسی داده
هدوپ در ده سالی که گذشت ….
شرکت کلودارا به مناسبت ده سالگی هدوپ، یک اینفوگرافیک از تاریخچه آن و نقاط عطف این پروژه فراگیر امروز...
پردازش یک میلیارد داده تاکسی های نیویورک
وبلاگ marksblogg اخیراً مجموعه مقالاتی را منتشر کرده است در خصوص پردازش داده های مسیرهای طی شده توسط تاکسی های نیویورک در شش سال گذشته که بالای یک میلیارد رکورد را شامل می شود.
کار بسیار خوبی که نویسنده مقاله انجام داده است، اجرای چند کوئری مشخص روی معماری ها و دیتابیس های مختلف است به گونه ای که کاربر بتواند آنها را با هم مقایسه کند. نحوه تنظیم و بارگذاری داده ها در هریک و نیز محدودیت ها و معایب هر کدام با توضیحات کامل مشخص شده است .
http://www.bigdata.ir/1395/02/%d9%be%d8%b1%d8%af%d8%a7%d8%b2%d8%b4-%db%8c%da%a9-%d9%85%db%8c%d9%84%db%8c%d8%a7%d8%b1%d8%af-%d8%af%d8%a7%d8%af%d9%87-%d8%aa%d8%a7%da%a9%d8%b3%db%8c-%d9%87%d8%a7%db%8c-%d9%86%db%8c%d9%88%db%8c%d9%88/
وبلاگ marksblogg اخیراً مجموعه مقالاتی را منتشر کرده است در خصوص پردازش داده های مسیرهای طی شده توسط تاکسی های نیویورک در شش سال گذشته که بالای یک میلیارد رکورد را شامل می شود.
کار بسیار خوبی که نویسنده مقاله انجام داده است، اجرای چند کوئری مشخص روی معماری ها و دیتابیس های مختلف است به گونه ای که کاربر بتواند آنها را با هم مقایسه کند. نحوه تنظیم و بارگذاری داده ها در هریک و نیز محدودیت ها و معایب هر کدام با توضیحات کامل مشخص شده است .
http://www.bigdata.ir/1395/02/%d9%be%d8%b1%d8%af%d8%a7%d8%b2%d8%b4-%db%8c%da%a9-%d9%85%db%8c%d9%84%db%8c%d8%a7%d8%b1%d8%af-%d8%af%d8%a7%d8%af%d9%87-%d8%aa%d8%a7%da%a9%d8%b3%db%8c-%d9%87%d8%a7%db%8c-%d9%86%db%8c%d9%88%db%8c%d9%88/
مهندسی داده
پردازش یک میلیارد داده تاکسی های نیویورک | مهندسی داده
وبلاگ marksblogg اخیراً مجموعه مقالاتی را منتشر کرده است در خصوص پردازش داده های مسیرهای طی شده توسط تاکسی های نیویورک در شش سال گذشته که بالای یک میلیارد رکورد را شامل می شود. کار بسیار خوبی که نویسنده مقاله انجام داده است، اجرای چند کوئری مشخص روی معماری…
جهت کسب اطلاع بیشتر به لینک زیر مراجعه کنید.
http://www.bigdata.ir/1395/02/%da%a9%d8%a7%d8%b1%da%af%d8%a7%d9%87-%d8%a2%d9%85%d9%88%d8%b2%d8%b4%db%8c-%d8%a7%d8%a8%d8%b2%d8%a7%d8%b1-%d8%a2%d9%85%d8%a7%d8%b1%db%8c-%da%a9%d9%84%d8%a7%d9%86-%d8%af%d8%a7%d8%af%d9%87/
http://www.bigdata.ir/1395/02/%da%a9%d8%a7%d8%b1%da%af%d8%a7%d9%87-%d8%a2%d9%85%d9%88%d8%b2%d8%b4%db%8c-%d8%a7%d8%a8%d8%b2%d8%a7%d8%b1-%d8%a2%d9%85%d8%a7%d8%b1%db%8c-%da%a9%d9%84%d8%a7%d9%86-%d8%af%d8%a7%d8%af%d9%87/
مهندسی داده
کارگاه آموزشی ابزارهای آماری و ریاضی مه داده ها برای علم زندگی
با همکاری مرکز تحقيقات علمی ملی فرانسه، مدرسه عالی سوپلک، دانشگاه پاريس 11، دانشگاه ساكلی پاريس و با...
Forwarded from DataScience.Media
میزان درصد منابع داده ای حجیم مورد استفاده برای تحلیل Big-Data در سازمان ها
#DataMining_BigData
@SQL_DataMining
#DataMining_BigData
@SQL_DataMining
سایت مکتب خونه ویدئوهای آموزشی کلاسهای دانشگاه های ایران ، به بازنشر دروس مختلف دانشگاهی کشور می پردازد . اخیراً درسی با عنوان الگوریتم های داده های حجیم که توسط دکتر آبام در دانشگاه صنعتی شریف در حال برگزاری است ، به این سایت اضافه شده است که هفته به هفته، مطالب مطرح شده در این کلاس ، آپلود شده و قابل مشاهده است .
http://maktabkhooneh.org/video/abam-bigdata-1
http://maktabkhooneh.org/video/abam-bigdata-1
Forwarded from BigData
اولین وبینار آنلاین «آشنایی با هدوپ»
19 اردی بهشت 1395 ساعت 19 تا 20
لینک ثبت نام: www.hadoop.ir/webinars/intro
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
19 اردی بهشت 1395 ساعت 19 تا 20
لینک ثبت نام: www.hadoop.ir/webinars/intro
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
به طور حتم درآمدزایی بالای فوتبال به عنوان یکی از کسب و کارهای پولساز دنیا، پای فناوری را به این رشته باز کرده است. با توجه به اینکه درآمد کسب شده توسط ۲۰ باشگاه ثروتمند دنیای فوتبال در طول یک سال بالغ بر ۸ میلیارد دلار است، از اینرو سرمایهگذاری برای استفاده از آخرین فناوریها چندان هم غیرمنتظره نیست. استفاده از کلان داده یا Big Data در سالهای اخیر رشد زیادی در فوتبال داشته و بسیاری از تیمها با استفاده از دادههای برگرفته از سنسورهایی نظیر GPS و دریافت و ثبت میزان مسافت طی شده یا ناحیه تحت پوشش توسط بازیکنان، استراتژیهای مختلفی را در برابر تیمها مورد استفاده قرار میدهند. البته با نگاهی به تاریخ میتوان چنین نتیجه گرفت که استفاده از دادههای آماری سابقهی بلندی در دنیای فوتبال دارند، بطوریکه برای اولین بار در تاریخ این رشتهی ورزشی، چارلز ریپ (Charles Reep) اقدام به استفاده از آمار در رشتهی فوتبال کرد. وی یک حسابدار و طرفدار فوتبال بود که آمار مربوط به گلهای به ثمر رسیده را تحلیل کرده و به این نتیجه رسید که بیشترین گلها با ارسال کمتر از سه پاس به ثمر میرسند. البته اطلاعات ارائهی شده توسط ریپ منجر به ایجاد سبک بازی بسیار خستهکنندهای با عنوان بازی مستقیم شد که طی آن تیمها سعی میکردند با ارسال توپهای بلند و تاثیر گذاشتن روی این توپها، به طریقی توپ را به مهاجم خود رسانده و وی را صاحب موقعیت گل کنند. هر چند این سبک از بازی که اتفاقا در کشورمان نیز محبوب است، میتواند منجر به گل زنی شود، اما بسیار خسته کننده و غیرجذاب است، از اینرو بسیاری انتقادات شدیدی را به ریپ و دادههای ارائه شده توسط وی وارد کردند.
استفاده از دادههای آماری و تحلیلی تا دههی نود میلادی تغییر چندانی به خود ندید، تا اینکه ترکیب دادههای برگرفته از ویدیو و دادههای دستی وارد شده، سیستم Prozone را معرفی کرد. این سیستم با جزئیات دادههای به دست آمده از تصاویر ویدیویی را پس از بازی در اختیار مربیان قرار میداد. تیم Derby County اولین تیم در لیگ جزیره بود که در سال ۱۹۹۸ این سیستم را برای استفاده تهیه کرد. این روزها اغلب تیمهای مطرح در جهان از وجود دوربینهای دیجیتال برای تحلیل بازیها در ورزشگاه خانگی استفاده میکنند. در هر بازی بیش از ۱.۴ میلیون نقطه داده جمع آوری میشود. اطلاعات جمع آوری شده که از ۸ تا ۱۰ دوربین به کار رفته به دست میآیند، شامل بیش از ۱۰ نقطه داده در هر ثانیه از ۲۲ بازیکن حاضر در زمین بازی است که در مجموع بیش از ۱.۴ میلیون نقطه داده را به ارمغان میآورد
ادامه مطلب :
http://www.zoomit.ir/2016/3/
استفاده از دادههای آماری و تحلیلی تا دههی نود میلادی تغییر چندانی به خود ندید، تا اینکه ترکیب دادههای برگرفته از ویدیو و دادههای دستی وارد شده، سیستم Prozone را معرفی کرد. این سیستم با جزئیات دادههای به دست آمده از تصاویر ویدیویی را پس از بازی در اختیار مربیان قرار میداد. تیم Derby County اولین تیم در لیگ جزیره بود که در سال ۱۹۹۸ این سیستم را برای استفاده تهیه کرد. این روزها اغلب تیمهای مطرح در جهان از وجود دوربینهای دیجیتال برای تحلیل بازیها در ورزشگاه خانگی استفاده میکنند. در هر بازی بیش از ۱.۴ میلیون نقطه داده جمع آوری میشود. اطلاعات جمع آوری شده که از ۸ تا ۱۰ دوربین به کار رفته به دست میآیند، شامل بیش از ۱۰ نقطه داده در هر ثانیه از ۲۲ بازیکن حاضر در زمین بازی است که در مجموع بیش از ۱.۴ میلیون نقطه داده را به ارمغان میآورد
ادامه مطلب :
http://www.zoomit.ir/2016/3/