BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
محدودیت های MapReduce 1.0 و معرفی(YARN) MapReduce 2.0
Forwarded from Hadoop.ir
بزرگ ترین پروژه داده های کلان جهان ، پروژه SKA

http://hadoop.ir/?p=307

مرجع هدوپ ایران
http://www.hadoop.ir
@hadoop
Apache Spark

یک چارچوب محاسباتی برای داده ­های عظیم است. Spark از MapReduce به عنوان موتور اجرای خودش، استفاده نمی­کند اما بخوبی با هدوپ یکپارچه است.
در واقع Spark می­تواند در Yarn اجرا شود و با فرمت داده­ای هدوپ و HDFS کار کند. Spark بیشتر بخاطر توانایی نگهداشتن مجموعه ­های داده­ای بین کارها، در حافظه، شناخته می­شود.
این قابلیت Spark سبب می­شود تا سریعتر از جریان کاری MapReduce معادل که مجموعه ­های داده­ای همیشه از دیسک بار می­شوند، عمل کند.
دو نوع کاربردی که از مدل پردازشی Spark بهره می­برند، الگوریتم ­های تکرار شونده (که یک تابع بر روی مجموعه داده­ای بصورت تکراری تا حصول شرط خروج، اعمال می­گردد، و تحلیل تعاملی(که یک کاربر مجموعه ای از پرس و جوهای اکتشافی تک کاره را بر روی مجموعه ­ی داده­ای، اعمال می­کنند) است. همچنین اسپارک APIهایی در زبان­های Java، Scala و Python، ارایه می­کند. پروژه Apache Spark شامل ماژول­هایی یادگیری ماشین(MLlib)، پردازش گراف (GraphX)، پردازش جریانی( (Spark Streaming)، و SQL (Spark SQL است.


مزیت های Apache Spark:
 استفاده آسان: شما می توانید برنامه خود را در لپ تاپ تان توسعه دهید، استفاده ازAPI سطح بالا، سبب می شود تا بتوانید بر محتوای محاسبه تمرکز داشته باشید.
همچنین Spark سریع است: استفاده تعاملی و الگوریتم های پیچیده را ممکن می سازد.
موتور عمومی: به شما امکان ترکیب چندین نوع محاسبات را می دهد(برای نمونه،پرس و جوهای SQL، پردازش متن، یادگیری ماشین و پردازش گراف) که قبلا توسط موتورهای مختلف، امکان پذیر بود.

یکی از ویژگی های اصلی Spark که برای سرعت ارایه می دهد، اجرای پردازش ها درحافظه است، اما این سیستم همچنین در اجرای برنامه در دیسک هم از MapReduceکاراتر است. Spark می تواند در کلاسترهای هدوپ اجرا شود و به هر منبع داده ای هدوپ مانند Cassandra دسترسی داشته باشد.

@BigDataTechnology
spark Core

هسته Spark شامل قابلیت های اساسی Spark از قبیل اجزایی برای زمان بندی وظیفه،مدیریت حافظه، ترمیم خطا، تعامل با سیستم های ذخیره سازی و دیگر اجزا است.
همچنین هسته Spark مکان API ای است که مجموعه داده ای توزیع شده ارتجاعی(resilient distributed datasets-RDD) که انتزاع برنامه نویسی اصلی Sparkاست را تعریف می کند. RDD ها مجموعه اقلام توزیع شده در چندین گره پردازشی که می توانند بطور موازی استفاده شوند، را نشان می دهد.

@BigDataTechnology
Spark SQL

این بسته برای کار کردن با داده های دارای ساختار است.
ما را قادر می سازد تا از داده ها با SQL مانند زبان پرس و جوی Hive، پرس وجو بگیریم. Spark SQL از چندین منبع داده ای شامل جداول Hive، Parquet، و JSON پشتیبانی می کند. همچنین توسعه دهندگان می توانند پرس و جوهای SQL را با عملیات دیگری که توسط RDD ها درپایتون، جاوا و اسکالا انجام می شود، در یک برنامه واحد انجام دهند که منجر به ترکیبSQL با تحلیل های پیچیده می شود.

Shark 
نسخه قدیمی Spark SQL بود که اکنون توسط Spark SQL جازگزین شدهاست.

@BigDataTechnology
Spark Streaming

جزء جریانی Spark، به ما امکان پردازش زنده جریان هایی از داده را می دهد.
مثال هایی از داده های جریانی شامل فایل های نگاره تولید شده توسط سرویس دهنده های وب یا صف های پیام هایی شامل بروزرسانی وضع و حالت که توسط کاربران یک سرویس وب ارسال می شوند است.
_____________________

Mllib

این بسته شامل قابلیت های یاگیری ماشین متداول است. Mllib شامل چندین نوع اگوریتم یادگیری ماشین از قبیل کلاس بندی، رگرسیون، خوشه بندی و پالایش گروهی و همچنین شامل قابلیت های ارزیابی مدل و ورودی داده ها است.
تمام این متدها طراحی شده اند تادر یک کلاستر مقیاس پذیر باشند.
__________________

GraphX

کتابخانه ای برای پردازش گرافها(گراف دوست شبکه اجتماعی) است.
مانند جریان و SQL، این کتابخانه نیز Spark RDD API را توسعه می دهد و ما راقادر می سازد تا یک گراف جهت دار با مشخصه های دلخواه ضمیمه شده به هر لبه وراس را ایجاد کنیم. GraphX همچنین عملگرهایی برای دستکاری گراف (مانندsubgraph و mapVertices) و کتابخانه ای از الگوریتم های متداول گراف (مانند PageRank و شمارش مثلث) را ارایه می دهد.
_______________________

Cluster Mangers

توجه به اینکه Spark طراحی شده است تا بصورت کارا از یک تا چند هزار گره پردازشی مقیاس یابد.
برای حصول این قابلیت در حالی که قابلیت انعطاف پذیری نیز به حداکثر برسد، Sparkمی تواند بر روی انواعی از مدیران خوشه از قبیل Hadoop YARN، Apache Mesos و مدیر خوشه ساده ای که در خود Spark به نام زمان بند مستقل است.

@BigDataTechnology
Forwarded from مفتا - ناشنیده‌های تکنولوژی
فوربس
در مقیاس جهانی، اکثر مدیران ارشد دنیا، توانایی تحلیل‌ها و اطلاعات داده ای بزرگ را برای نوآوریِ موفق شرکت‌ها، ضروری می‌دانند.
تحلیل‌های پیشِ رو برای ۲۳ کشوری که در مطالعه موسسه جی‌ای و ادلمن برلند آمده است، نشان‌دهنده‌ی ارزشِ تغییر مسیر به سمت تحلیل‌ها و اطلاعات داده ای بزرگ از سال ۲۰۱۴ تا ۲۰۱۵ است.
🆔: @mfta_ir
Forwarded from Hadoop.ir
ترفندهای هدوپ
در محیط واقعی برای حفظ امنیت سرورها هیچ وقت هدوپ را با شماره پورت های استاندارد راه اندازی نکنید و همیشه یک دفترچه از شماره های حیاتی کلاستر همراه خود داشته باشید.

مرجع هدوپ ایران
http://www.hadoop.ir
@hadoop
Forwarded from Data Science
تفاوت های علم آمار، داده کاوی و کلان داده ها
Forwarded from Hadoop.ir
نکته های هدوپ
یکی از اشتباهاتی که در استفاده از هدوپ رخ می دهد این است که هدوپ در همه شرایط بهترین نتیجه را خواهد داشت. در طراحی الگوریتم ها معمولا گفته می شود یک فایل حجیم را تبدیل به فایل های کوچک تر کنید تا پردازش آن سریع تر و به صورت موازی انجام شود. در هدوپ این نکته دقیقا برعکس است. هدوپ در هنگام کار با فایل های کوچک نتیجه ای مطلوب نخواهد داشت. اتفاقا اگر به هدوپ یک فایل حجیم بدهید بهتر از آن است که چند فایل کوچیک تکه تکه شده از یک فایل حجیم را بدهید. به دلیل ایجاد سربار بالا در خواندن فایل های کوچک،زمان اجرا و میزان مصرف حافظه افزایش چشمگیری خواهد داشت. راه حل جلوگیری از اینکار تبدیل فایل های کوچک به SequenceFile ها است که به جای وجود چند فایل کوچک،یک فایل حجیم داشته باشید. درست انتخاب کنید.

مرجع هدوپ ایران
http://www.hadoop.ir
@hadoop
IBM data scientists break big data into four dimensions: volume, variety, velocity and veracity. This infographic explains and gives examples of each 👇👇👇
Forwarded from Data Science
تفاوت متخصص علم داده و مهندس کلان داده @dataanalysis
به سلامتی تمام کسانی که مهندسی را درک کردند، به سلامتی تمام کسانی که پلی ساختند از انتهای بن بست کوچه ی رفاه تا بیکران، به سلامتی  تمام کسانی که خود را شبانه روز وقف کردند تا همگان شبانه روزی روشن داشته باشند، به سلامتی تمام کسانی که لذتش را فهمیدند نه آنان که تنها به نامش خوانده شدند…

روز مهندس مبارک🌷

@BigDataTechnology

درود فراوان به تمام دوستان و همراهان بیگ دیتا.

امروز فایل تصویری آموزش :
👈 "ذخیره دیتا در فایل سیستم هدوپ "👉
برای علاقمندان در کانال قرار می گیرد.

در ضمن بنا به درخواست دوستان طی چند روز آینده معرفی پایگاه داد های nosql و آموزش تخصصی کاساندرا همراه با فایل های تصویری در کانال بیگ دیتا انجام می شود.
با ما همراه باشید.
به دوستان و علاقمندان اطلاع دهید.

با تشکر از توجه شما
گلناز اردشیری

@BigDataTechnology
Internet of Things
معرفی اینترنت اشیاء و فناوری های مرتبط

 📞ارتباط با ادمین :
@Golnazardeshiri
-
https://telegram.me/IoTTechnology