BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
Forwarded from فرزاد خندان
ویدیوهای جلسه دوم:
کیودو – لایه ذخیره ساز جدید هدوپ
#kudu

@BigDataTechnology

کیودو (Kudu) به عنوان یک لایه ذخیره ساز جدید و جایگزین HDFS توسط شرکت کلودارا (Cloudera) بعد از سه سال تحقیق و توسعه ، به عنوان یک پروژه متن باز به بنیاد آپاچی پیشنهاد و توسط آپاچی به عنوان یک پروژه نوپا (در حال رشد – incubating) پذیرفته شده است .

همانطور که می دانید، HDFS به عنوان لایه اصلی ذخیره سازی داده ها در هدوپ، یک مکانیزم ترتیبی در خواندن اطلاعات دارد و بازیابی یک داده خاص در یک کلاستر از رایانه ها، عملی زمان بر است . برای رفع این مشکل، از HBASE به عنوان یک رهیافت جایگزین ذخیره سازی داده ها در هدوپ استفاده می کنیم که به ما اجازه دسترسی تصادفی و سریع به یک رکورد اطلاعاتی را می دهد. اما HBASE هم به عنوان یک بانک اطلاعاتی سطر گسترده توزیع شده، امکان پردازش دسته ای داده ها را با سرعت بالا فراهم نمی کند و معمولاً ترکیب این دو روش برای یک راه حل کامل تحلیل و بازیابی اطلاعات در سازمانها و شرکتها استفاده میشود.

کیودو در این بین، برای ایجاد یک راه حل میانه، ایجاد و توسعه داده شده است و روشی را برای ذخیره داده ها پیشنهاد می کند که هم به سرعت می تواند یک رکورد را در بین میلیون ها رکورد پیدا کند و هم پردازش دسته ای و گروهی داده ها را برای ما با سرعت و کارآیی بالا به ارمغان می آورد و از سرورهای امروزی که رم بالایی دارند هم حداکثر استفاده را انجام می دهد. (تا حد امکان پردازش ها را در حافظه انجام می دهد)

برای نیل به این هدف، کلوداِرا به جای بهبود HDFS یک سیستم ذخیره سازی جدید را از پایه طراحی کرده است که به طور مستقل می تواند مورد استفاده عملیات پردازش داده قرار گیرد. کیودو یک فضای ذخیره سازی با قابلیت دسترسی تصادفی به داده ها و رابطی شبیه به کاساندرا و HBASE و Google BigTable است یعنی برای ذخیره داده ها از مدل جدولی استفاده می کند و امکان توزیع داده ها را بین صدها رایانه در یک کلاستر به ما می دهد اما  بر خلاف HBASE و Google Big Table به جای وابسته بودن به HDFS از سیستم فایل محلی هر رایانه استفاده می کند و بر خلاف کاساندرا، الگوریتم Raft consensus algorithm  را برای تضمین یکپارچگی و جامعیت داده ها به کار می برد. الگوریتم فشرده سازی داده های آن هم با این رهیافتها، متفاوت است .


http://www.bigdata.ir/1394/12/kudu-%DA%A9%DB%8C%D9%88%D8%AF%D9%88-%D9%84%D8%A7%DB%8C%D9%87-%D8%B0%D8%AE%DB%8C%D8%B1%D9%87-%D8%B3%D8%A7%D8%B2-%D8%AC%D8%AF%DB%8C%D8%AF-%D9%87%D8%AF%D9%88%D9%BE/
معرفی Apache Zookeeper

در گذشته نرم افزارها دارای یک برنامه بود و برروی یک کامپیوتر اجرا می شد و یک CPU فعالیت های آن را پردازش می کرد. امروزه همه چیز عوض شده ، دنیا دنیای BigData و Cloud computing است ، نرم افزارها از برنامه های نامستقل فراوانی ساخته می شوند که برروی کامپیوترهایی کار می کنند که از لحاظ مکان جغرافیایی برای ما اهمیت ندارند که کجا هستند.

هماهنگ کردن عملیات این برنامه های نامستقل به مراتب سخت تر از نوشتن یک برنامه و اجرایش برروی یک ماشین است. برای برنامه نویسان ساده است که مدت زیادی درگیر منطق هماهنگسازی شوند و زمان کمتری وقت برای تولید برنامه اصلی کنند یا برعکس زمان کوتاهی صرف هماهنگسازی کنند و مابقی زمان را صرف تولید محصولشان کند؟ منطقا گزینه دوم ایدال تمام برنامه نویسان می باشد.

ساختن یک سیستم توزیع شده مشکل است ، مردم در طول روز از نرم افزارهای زیادی به صورت سیستم توزیع شده استفاده می کنند و به هر حال به نظر نمی رسد ما در آینده نزدیک وابستگی خود را از اینگونه سیستمها کم کنیم.

Apache Zookeeper برای ساختن سیستمهای توزیع شده قوی طراحی شده با هدف آنکه برنامه نویسان بتوانند با رابط کاربری ساده و قابل فهم نیازهای خود را برطرف نماید.

Zookeeper یک پروژه نرم افزاری از بنیاد نرم افزاری آپاچی است که سرویسهایی با پیکربندی متن باز را فراهم و همچنین از سرویسهای همگام سازی استفاده می کند.

Zookeeper در گذشته یکی از زیر پروژه های هدوپ بود ولی هم اکنون یکی از پروژه های اصلی هدوپ محسوب می شود.

معماری Zookeeper از سیستمهایی که دارای افزونگی سرویسی می باشند در سطح بالایی پشتیبانی می کند. بنابراین در صورت fail شدن zookeeper محلی clientها می توانند از zookeeper leader دیگری سرویس بخواهند . گره های zookeeperداده هایشان را شبیه فایل سیستم یا ساختار داده ای درختی در داخل name space سلسله مراتبی ذخیره می کنند. clientها می توانند از نودهای دیگر بخوانند و بنویسند در این صورت آنها دارای سرویس اشتراک گذاری با پیکربندی یکسان هستند.

ZooKeeper توسط کمپانیهایی از قبیل Rackspace,yahoo,odnoklassniki,eBay و همچنین به عنوان open source سیستم های جستجو مانند شرکت Solr  استفاده می کنند.

http://hadoop.ir/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-apache-zookeeper/
The internet of things and big data: Unlocking the power

The IoT will massively increase the amount of data available for analysis by all manner of organisations. However, there are significant barriers to overcome before the potential benefits are fully realised.


http://www.zdnet.com/article/the-internet-of-things-and-big-data-unlocking-the-power/
Forwarded from Internet of Things
Ten examples of IoT and big data working well together


1. UPS

2. BARCELONA, SPAIN

3. VIRGIN ATLANTIC

4. JOHN DEERE

5. TEMPUTECH

6. DISNEY WORLD MAGICBAND

7. ALEX AND ANI

8. CLERMONT-FERRAND UNIVERSITY HOSPITAL

9. KING'S HAWAIIAN

10. BC HYDRO


http://www.zdnet.com/article/ten-examples-of-iot-and-big-data-working-well-together/
Forwarded from Internet of Things
Forwarded from Internet of Things
Integration with the Hadoop Ecosystem

#kudu

Kudu was designed to fit in with the Hadoop ecosystem, and integrating it with other data processing frameworks is simple. You can stream data in from live real-time data sources using the Java client, and then process it immediately upon arrival using Spark, Impala, or MapReduce. You can even transparently join Kudu tables with data stored in other Hadoop storage such as HDFS or HBase.

Kudu is a good citizen on a Hadoop cluster: it can easily share data disks with HDFS DataNodes, and can operate in a RAM footprint as small as 1 GB for light workloads.


➡️View an example of a MapReduce job on Kudu⬅️

https://github.com/apache/incubator-kudu/blob/master/java/kudu-client-tools/src/main/java/org/kududb/mapreduce/tools/RowCounter.java

@BigDataTechnology
Forwarded from Hadoop.ir
مقاله جدید مرجع هدوپ ایران:

«امنیت در هدوپ - بخش اول»

در این مقاله قصد داریم به بررسی امنیت در هدوپ بپردازیم و روش ها و راه کارهای آنرا بررسی کنیم. در ابتدا می بایست به نحوه نگاه هدوپ به مسئله امنیت بپردازیم.

هدوپ به صورت پیش فرض بدون هیچ ساز و کار امنیتی و بدون اعتبارسنجی اجرا می شود و هدوپ فرض را بر این قرار می دهد که "همه چی آرومه". در واقعیت هیج وقت اینطور نیست و بلاخره هدوپ در محیط های واقعی مورد استفاده قرار می گیرد و همیشه در محیط آزمایشگاهی امن نخواهیم ماند. در واقع کاربری که می خواهد با هدوپ کار کند کافی است نام کاربری خودش را به هدوپ معرفی کند و هدوپ هم (به صورت پیش فرض) فکر میکند کاربر موردنظر درست می گوید و بدون هیج اعتبارسنجی نه تنها خودش اجازه فعالیت به آن کاربر می دهد،بلکه به تمامی ماشین ها در شبکه اعلام می کند که این کاربر اجازه فعالیت دارد.

ادامه در : http://hadoop.ir/?p=629

مرجع هدوپ ایران
http://www.hadoop.ir
@hadoop
Forwarded from مفتا - ناشنیده‌های تکنولوژی
طیف یادگیری علم داده

🆔: @mfta_ir