براساس تحقیقات موسسه IDC IT با رشد روز افزون داده ها نیاز مبرم به کارشناسان داده بیش از پیش احساس میشود و بر همین اساس پیش بینی هایی از آینده بیگ دیتا به شرح زیر انجام شده است:
ابزارهای کشف داده های بصری در سال ۲۰۱۸ رشد ۲٫۵ برابری نسبت به سایر ابزارهای کسب و کار خواهد داشت. همچنین در ۵ سال آینده هزینه های مبتنی بر بیگ دیتا رشد ۳برابری خواهد داشت.کمبود کارمندان ماهر همچنان ادامه خواهد داشت. بر همین اساس تنها در کشور امریکا در سال ۲۰۱۵ حدود ۱۸۱ هزار جایگاه تجزیه و تحلیل وجود خواهد داشت که نیازمند جذب نیروی متخصص هستند.
ابزارهای کشف داده های بصری در سال ۲۰۱۸ رشد ۲٫۵ برابری نسبت به سایر ابزارهای کسب و کار خواهد داشت. همچنین در ۵ سال آینده هزینه های مبتنی بر بیگ دیتا رشد ۳برابری خواهد داشت.کمبود کارمندان ماهر همچنان ادامه خواهد داشت. بر همین اساس تنها در کشور امریکا در سال ۲۰۱۵ حدود ۱۸۱ هزار جایگاه تجزیه و تحلیل وجود خواهد داشت که نیازمند جذب نیروی متخصص هستند.
http://uupload.ir/files/9x2i_photo_2015-11-13_11-29-28.jpg
دانلود فیلم آموزشی WEKA به زبان فارسی
وکا (Weka) یک نرم افزار داده کاوی متنباز میباشد که بسیاری از الگوریتمهای یادگیری ماشین را پشتیبانی میکند. تمام قسمتهای این نرمافزار به زبان جاوا نوشته شده است و در نتیجه میتواند بر روی هر پلتفرمی اجرا گردد.
فیلم های آموزش weka (داده کاوی) به زبان فارسی:
جلسه ی اول:
http://www.cmpclub.ir/viewtopic.php?f=473&t=1832&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه ی دوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2065&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه سوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2084&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه ی چهارم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2600&sid=087203fbfcb7855aa2075e655579b86f
دانلود فیلم آموزشی WEKA به زبان فارسی
وکا (Weka) یک نرم افزار داده کاوی متنباز میباشد که بسیاری از الگوریتمهای یادگیری ماشین را پشتیبانی میکند. تمام قسمتهای این نرمافزار به زبان جاوا نوشته شده است و در نتیجه میتواند بر روی هر پلتفرمی اجرا گردد.
فیلم های آموزش weka (داده کاوی) به زبان فارسی:
جلسه ی اول:
http://www.cmpclub.ir/viewtopic.php?f=473&t=1832&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه ی دوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2065&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه سوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2084&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه ی چهارم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2600&sid=087203fbfcb7855aa2075e655579b86f
Forwarded from مفتا - ناشنیدههای تکنولوژی
http://uupload.ir/files/c5a3_cover.jpg
کتاب آموزش هدوپ برای علاقه مندان به علوم داده
Hadoop for dummies
زبان اصلی*
لینک دانلود:
http://s6.picofile.com/file/8221909968/Hadoop_For_Dummies_Dirk_deRoos.pdf.html
@mfta_ir
کتاب آموزش هدوپ برای علاقه مندان به علوم داده
Hadoop for dummies
زبان اصلی*
لینک دانلود:
http://s6.picofile.com/file/8221909968/Hadoop_For_Dummies_Dirk_deRoos.pdf.html
@mfta_ir
تعاریف داده های بزرگ
در سال 2001 موسسه گارتنر(Gartner)، (گروه متا) سه بعد از چالش ها و فرصت های پیش رو در حوزه رشد داده ها را مطرح کرد که عبارت بودند از:
افزایش حجم (Volume): افزایش در میزان دادهسرعت و شتاب (Velocity): افزایش سرعت تولید داده های ورودی و خروجیتنوع (Variety): افزایش محدوده تنوع و منابع داده ها
که این ویژگی ها (3Vs) بعد از آن به عنوان ویژگی های اصلی و معرف داده های بزرگ مطرح شدند.
در سال 2012 موسسه گارتنر تعریف جدیدی را ارایه کرد:
«داده های بزرگ، حجم بالا، سرعت و شتاب بالا و تنوع بالایی از دادایی های اطلاعاتی هستند که نیازمند شکل جدیدی از پزدازش هستند تا بتوانند تصمیم گیری را غنی¬تر سازند، بینش جدیدی را کشف کنند و نیز فرآیندها را بهینه نمایند.»
علاوه بر این مفهوم جدیدی به نام «صحت» (Veracity) نیز به ویژگی های داده های بزرگ افزوده شد تا بتواند ان را بهتر توصیف نماید.
در سال 2001 موسسه گارتنر(Gartner)، (گروه متا) سه بعد از چالش ها و فرصت های پیش رو در حوزه رشد داده ها را مطرح کرد که عبارت بودند از:
افزایش حجم (Volume): افزایش در میزان دادهسرعت و شتاب (Velocity): افزایش سرعت تولید داده های ورودی و خروجیتنوع (Variety): افزایش محدوده تنوع و منابع داده ها
که این ویژگی ها (3Vs) بعد از آن به عنوان ویژگی های اصلی و معرف داده های بزرگ مطرح شدند.
در سال 2012 موسسه گارتنر تعریف جدیدی را ارایه کرد:
«داده های بزرگ، حجم بالا، سرعت و شتاب بالا و تنوع بالایی از دادایی های اطلاعاتی هستند که نیازمند شکل جدیدی از پزدازش هستند تا بتوانند تصمیم گیری را غنی¬تر سازند، بینش جدیدی را کشف کنند و نیز فرآیندها را بهینه نمایند.»
علاوه بر این مفهوم جدیدی به نام «صحت» (Veracity) نیز به ویژگی های داده های بزرگ افزوده شد تا بتواند ان را بهتر توصیف نماید.
با سلام و احترام
دوستان و همراهان گرامی ضمن عرض خوش آمدگویی خدمت شما عزیزان؛
این هفته با معرفی کلان داده ها،سیر تکامل،خصوصیات و توسعه آن ها در خدمت شما هستم.
امیدوارم مطالب مفید و ارزشمند باشند.
در صورت تمایل به دعوت دوستان خود به این مجموعه، این پیام را خدمت آن بزرگواران ارسال نمایید .
با تشکر
گلناز اردشیری
@bigdatatechnology
دوستان و همراهان گرامی ضمن عرض خوش آمدگویی خدمت شما عزیزان؛
این هفته با معرفی کلان داده ها،سیر تکامل،خصوصیات و توسعه آن ها در خدمت شما هستم.
امیدوارم مطالب مفید و ارزشمند باشند.
در صورت تمایل به دعوت دوستان خود به این مجموعه، این پیام را خدمت آن بزرگواران ارسال نمایید .
با تشکر
گلناز اردشیری
@bigdatatechnology
Forwarded from یادگیری و تغییر با هدایت
چالشها و خصوصیات کلان داده
تا کنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند. این چالش ها در ابتدا سه بعد اصلی حجم داده، نرخ تولید و تنوع به عنوان ۳V’s مطرح شدند ولی در ادامه چالش های بیشتری در ادبیات موضوع توسط محققان مطرح شده است:
حجم داده (Volume): حجم داده های درون سازمان و خارج آن به مدد پدیده اینترنت، دستگاه های الکترونیکی و موبایل ها، زیر ساخت های شبکه و سایر منابع هر ساله رشد نمایی دارد و پیش بینی شده است که تا سال ۲۰۲۰ ما ده زتابایت داده در جهان خواهیم داشت.نرخ تولید (Velocity): داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می شوند که اغلب باید در لحظه پردازش و ذخیره شوند.تنوع (Variety): انواع منابع داده و تنوع در نوع داده بسیار زیاد می باشد که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد و بیشتر حجم داده دنیا هم بیساختار و بسیار متنوع است. بخشی از دادهها امروزه در بانکهای اطلاعاتی، بخشی در صفحات وب، بخشی به صورت XML و JSON و بقیه نیز در فایلها با قالب های متفاوت ذخیره شده اند که عمل پردازش آنها را پیچیده میکند.صحت (Veracity): با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشتاعتبار (Validity): با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.نوسان (Volatility): سرعت تغییر ارزش داده های مختلف در طول زمان میتواند متفاوت باشد. در کاربردهایی نظیر تحلیل ارز و بورس، داده با نوسان زیادی مواجه هستند و داده ها به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود می گیرند. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.نمایش (Visualization): یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.ارزش (Value): آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیم گیری دارد یا نه و ارزش و فایده موردنظر را برای یک سازمان خواهند داشت؟
www.bigdata.ir
تا کنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند. این چالش ها در ابتدا سه بعد اصلی حجم داده، نرخ تولید و تنوع به عنوان ۳V’s مطرح شدند ولی در ادامه چالش های بیشتری در ادبیات موضوع توسط محققان مطرح شده است:
حجم داده (Volume): حجم داده های درون سازمان و خارج آن به مدد پدیده اینترنت، دستگاه های الکترونیکی و موبایل ها، زیر ساخت های شبکه و سایر منابع هر ساله رشد نمایی دارد و پیش بینی شده است که تا سال ۲۰۲۰ ما ده زتابایت داده در جهان خواهیم داشت.نرخ تولید (Velocity): داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می شوند که اغلب باید در لحظه پردازش و ذخیره شوند.تنوع (Variety): انواع منابع داده و تنوع در نوع داده بسیار زیاد می باشد که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد و بیشتر حجم داده دنیا هم بیساختار و بسیار متنوع است. بخشی از دادهها امروزه در بانکهای اطلاعاتی، بخشی در صفحات وب، بخشی به صورت XML و JSON و بقیه نیز در فایلها با قالب های متفاوت ذخیره شده اند که عمل پردازش آنها را پیچیده میکند.صحت (Veracity): با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشتاعتبار (Validity): با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.نوسان (Volatility): سرعت تغییر ارزش داده های مختلف در طول زمان میتواند متفاوت باشد. در کاربردهایی نظیر تحلیل ارز و بورس، داده با نوسان زیادی مواجه هستند و داده ها به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود می گیرند. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.نمایش (Visualization): یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.ارزش (Value): آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیم گیری دارد یا نه و ارزش و فایده موردنظر را برای یک سازمان خواهند داشت؟
www.bigdata.ir
ابزار های ذخیره و پردازش در حوزه کلان داده:
🐘🐘🐘🐘🐘🐘🐘🐘
رهیافتهایی که امروزه در بخش پردازش کلان داده مطرح هستند، دارای چندین خاصیت مشترک هستند :
اجرا بر روی سخت افزار موجود که باعث می شود بتوان با هزینه کم امکان پردازش موازی و ارتقای سخت افزاری را فراهم کرد.
استفاده از ابزارهای تحلیل و مصورسازی پیشرفته برای سهولت کاربر نهایی .
استفاده همزمان از ابزارها و کتابخانه های مختلف که معماری داده یک سازمان را شکل می دهند.
استفاده از بانک های اطلاعاتی غیر رابطه ای (NoSql) به عنوان جزئی از معماری و بسترداده سازمان
دو رهیافت اصلی که امروزه در پردازش و تحلیل کلان داده بیشترین رواج را دارند عبارتند از هدوپ و بانکهای اطلاعاتی NoSQL
www.bigdata.ir
🐘🐘🐘🐘🐘🐘🐘🐘
رهیافتهایی که امروزه در بخش پردازش کلان داده مطرح هستند، دارای چندین خاصیت مشترک هستند :
اجرا بر روی سخت افزار موجود که باعث می شود بتوان با هزینه کم امکان پردازش موازی و ارتقای سخت افزاری را فراهم کرد.
استفاده از ابزارهای تحلیل و مصورسازی پیشرفته برای سهولت کاربر نهایی .
استفاده همزمان از ابزارها و کتابخانه های مختلف که معماری داده یک سازمان را شکل می دهند.
استفاده از بانک های اطلاعاتی غیر رابطه ای (NoSql) به عنوان جزئی از معماری و بسترداده سازمان
دو رهیافت اصلی که امروزه در پردازش و تحلیل کلان داده بیشترین رواج را دارند عبارتند از هدوپ و بانکهای اطلاعاتی NoSQL
www.bigdata.ir
هدوپ چگونه کار می کند؟
🐘🐘🐘🐘🐘🐘🐘🐘🐘🐘
در این سامانه فایلهای داده ای با حجم بالا مانند فایلهای ثبت تراکنش، خوراک خوان شبکه های اجتماعی و سایر منابع داده ای ابتدا بخش بندی شده و در شبکه توزیع می شوند.
وظیفه تقسیم، ذخیره و بازیابی فایلهای حجیم بر روی یک کلاستر هدوپ را سیستم فایل توزیع شده آن به نام HDFS بر عهده دارد. برای بالابردن ضریب اطمینان سیستم ، هر بخش از فایل در چندین رایانه توزیع می شود تا در صورت از کارافتادن یک سیستم، آن فایل باز هم قابل بازیابی باشد.
در هدوپ سه نوع گره محاسباتی یا رایانه داریم . مدیر نام ، وظیفه تقسیم فایلها و ذخیره آدرس هر بخش از آن را برعهده دارد. بررسی دورهای گره ها و تعیین از رده خارج شدن آنها هم جزء وظایف این مولفه از سیستم مدیریت فایل هدوپ است.
گره داده که تک تک رایانه های عضو هدوپ را در بر می گیرد، بلاک های فایل را در بردارد که برای مدیریت بهتر آنها، به ازای مجموعه ای از این گرههای داده ، یک گره مدیریت نام در سامانه هدوپ وجود دارد. نوع سوم ، گره نام ثانویه است که یک رونوشت از اطلاعات گره مدیریت نام بر روی آن قرار دارد تا در صورت از کار افتادن آن گره ، اطلاعات آن از بین نرود.
🐘🐘🐘🐘🐘🐘🐘🐘🐘🐘
در این سامانه فایلهای داده ای با حجم بالا مانند فایلهای ثبت تراکنش، خوراک خوان شبکه های اجتماعی و سایر منابع داده ای ابتدا بخش بندی شده و در شبکه توزیع می شوند.
وظیفه تقسیم، ذخیره و بازیابی فایلهای حجیم بر روی یک کلاستر هدوپ را سیستم فایل توزیع شده آن به نام HDFS بر عهده دارد. برای بالابردن ضریب اطمینان سیستم ، هر بخش از فایل در چندین رایانه توزیع می شود تا در صورت از کارافتادن یک سیستم، آن فایل باز هم قابل بازیابی باشد.
در هدوپ سه نوع گره محاسباتی یا رایانه داریم . مدیر نام ، وظیفه تقسیم فایلها و ذخیره آدرس هر بخش از آن را برعهده دارد. بررسی دورهای گره ها و تعیین از رده خارج شدن آنها هم جزء وظایف این مولفه از سیستم مدیریت فایل هدوپ است.
گره داده که تک تک رایانه های عضو هدوپ را در بر می گیرد، بلاک های فایل را در بردارد که برای مدیریت بهتر آنها، به ازای مجموعه ای از این گرههای داده ، یک گره مدیریت نام در سامانه هدوپ وجود دارد. نوع سوم ، گره نام ثانویه است که یک رونوشت از اطلاعات گره مدیریت نام بر روی آن قرار دارد تا در صورت از کار افتادن آن گره ، اطلاعات آن از بین نرود.
عد از توزیع داده ها در سامانه هدوپ ، تحلیل و پردازش آنها بر عهده بخش نگاشت و تجمیع آن است. شکل ۲ این فرایند را به صورت بصری نمایش می دهد. در مرحله اول،کاربر درخواست خود را که معمولاً یک پرس و جو به زبان جاواست را به گرهی که وظیفه اجرای درخواست ها را بر عهده دارد (مدیر درخواست – Job tracker) ارسال میکند. در این مرحله مدیر درخواست بررسی می کند که به چه فایل هایی برای پاسخ به پرس و جوی کاربر نیاز دارد و به کمک گره مدیریت نام ، گره های داده حاوی آن بخش ها را در کلاستر می یابد (عمل نگاشت).
سپس این درخواست به تک تک آن گره ها ارسال میگردد. این گره ها که هنگام پردازش به آنها مدیر وظیفه می گوئیم مستقلاً و به صورت موازی کار پردازش داده های خود را (اجرای تابع نگاشت) انجام می دهند.
سپس این درخواست به تک تک آن گره ها ارسال میگردد. این گره ها که هنگام پردازش به آنها مدیر وظیفه می گوئیم مستقلاً و به صورت موازی کار پردازش داده های خود را (اجرای تابع نگاشت) انجام می دهند.
پس از اتمام کار هر مدیر وظیفه، نتایج در همان گره ذخیره می گردد. پس از آماده شدن نتایج میانی که طبیعتا چون وابسته به داده ه ای موجود در روی یک گره است ، محلی و ناقص خواهد بود ، مدیر درخواست، فرمان تجمیع را به این گره ها ارسال می کند تا پردازش نهایی را بر روی نتایج انجام داده و نتیجه درخواست کاربر در یک گره محاسباتی نهایی ذخیره گردد. در این مرحله ، نگاشت و تجمیع به اتمام رسیده است و پردازش بعدی بر روی نتایج حاصل بر عهده تحلیل گران حوزه کلان داده است . این پردازش می تواند به صورت مستقیم بر روی نتایج انجام شود و یا با انتقال داده های حاصله به بانک های اطلاعاتی رابطه ای و یا انباره های داده، از روشهای کلاسیک تحلیل داده استفاده شود.
مثالی از نحوه شمارش کلمات در یک کلاستر هدوپ با روش نگاشت و تجمیع در شکل زیر نمایش داده شده است . فایلهای ورودی در HDFS ذخیره شده اند و عملیات نگاشت در هر گره محاسباتی بدین صورت انجام میگیرد که به ازای هر کلمه که از فایل خوانده میشود، یک زوج (کلمه ، تعداد) ایجاد می کند که تعداد اولیه آن یک خواهد بود. در مرحله بعدی این زوجهای ایجاد شده مرتب سازی می شوند و در مرحله تجمیع، کلمات کنار هم که یکسان هستند با هم ادغام شده و اعداد آنها با هم جمع میشود و سرانجام فایل نهایی که شمارش تعداد هر کلمه در آن آمده است، ایجاد می گردد.
مثالی از نحوه شمارش کلمات در یک کلاستر هدوپ با روش نگاشت و تجمیع در شکل زیر نمایش داده شده است . فایلهای ورودی در HDFS ذخیره شده اند و عملیات نگاشت در هر گره محاسباتی بدین صورت انجام میگیرد که به ازای هر کلمه که از فایل خوانده میشود، یک زوج (کلمه ، تعداد) ایجاد می کند که تعداد اولیه آن یک خواهد بود. در مرحله بعدی این زوجهای ایجاد شده مرتب سازی می شوند و در مرحله تجمیع، کلمات کنار هم که یکسان هستند با هم ادغام شده و اعداد آنها با هم جمع میشود و سرانجام فایل نهایی که شمارش تعداد هر کلمه در آن آمده است، ایجاد می گردد.
مزایا و معایب هدوپ:
مهم ترین مزیت هدوپ توانایی پردازش و تحلیل حجم عظیم دادههای بدون ساختار یا شبهساختار که تاکنون امکان پردازش آنها به صورت بهینه (هزینه و زمان ) مقدور نبوده است.
مزیت بعدی هدوپ به امکان گسترش ساده و مقیاس پذیری افقی ( سهولت افزودن سیستم به کلاستر هدوپ بدون نیاز به ارتقاء سخت افزاری یک سیستم ) آن بر می گردد که به راحتی می توان تا سطح اگزا بایت داده ها را مورد تحلیل قرار داد و دیگر لازم نیست شرکتها بر روی داده های نمونه و زیرمجموعه ای از داده های اصلی کار کنند و به کمک هدوپ امکان بررسی تمام داده ها فراهم شده است.
مزیت دیگر هدوپ هم هزینه راه اندازی اندک آن است که دلیل اصلی آنهم رایگان بودن آن است و نیز عدم نیاز به سخت افزار حرفه ای و گران . بخصوص با رواج رایانش ابری و قیمتهای مناسب آن برای پردازشهای موردی و نیز ابرهای خصوصی، راه اندازی یک سامانه هدوپ به فرآیندی چند ساعته تبدیل شده است.
از طرف دیگر هدوپ و زیر مجموعه های آن همگی در مراحل اولیه توسعه هستند و غیر بالغ و نوپا هستند. این امر خود باعث تغییر و اصلاح مداوم این چهارچوب می شود که هزینه آموزش مداوم را به سازمانها تحمیل می کند .
از سوی دیگر نوپا بودن این مدل نرم افزاری باعث می شود افراد کمی مهارت لازم برای ایجاد و کار با سامانه های مبتنی بر هدوپ را دارند و برای بسیاری از شرکتها کمبود نیروی انسانی متخصص مهمترین چالش آنها در استفاده از این سامانه خواهد بود.
مشکل دیگر هدوپ که ماهیت ذاتی دارد، عدم توانایی پردازش بلادرنگ داده هاست. چون مدیر درخواست باید منتظر تکمیل کار تک تک گره های محاسباتی سامانه بماند تا بتواند جواب نهایی را به کاربر تحویل دهد . هر چند با رشد سریع فناوریهای بانکهای اطلاعاتی NoSQL و تلفیق آن با هدوپ ، این مشکل نیز تا حدی رفع خواهد شد.
مهم ترین مزیت هدوپ توانایی پردازش و تحلیل حجم عظیم دادههای بدون ساختار یا شبهساختار که تاکنون امکان پردازش آنها به صورت بهینه (هزینه و زمان ) مقدور نبوده است.
مزیت بعدی هدوپ به امکان گسترش ساده و مقیاس پذیری افقی ( سهولت افزودن سیستم به کلاستر هدوپ بدون نیاز به ارتقاء سخت افزاری یک سیستم ) آن بر می گردد که به راحتی می توان تا سطح اگزا بایت داده ها را مورد تحلیل قرار داد و دیگر لازم نیست شرکتها بر روی داده های نمونه و زیرمجموعه ای از داده های اصلی کار کنند و به کمک هدوپ امکان بررسی تمام داده ها فراهم شده است.
مزیت دیگر هدوپ هم هزینه راه اندازی اندک آن است که دلیل اصلی آنهم رایگان بودن آن است و نیز عدم نیاز به سخت افزار حرفه ای و گران . بخصوص با رواج رایانش ابری و قیمتهای مناسب آن برای پردازشهای موردی و نیز ابرهای خصوصی، راه اندازی یک سامانه هدوپ به فرآیندی چند ساعته تبدیل شده است.
از طرف دیگر هدوپ و زیر مجموعه های آن همگی در مراحل اولیه توسعه هستند و غیر بالغ و نوپا هستند. این امر خود باعث تغییر و اصلاح مداوم این چهارچوب می شود که هزینه آموزش مداوم را به سازمانها تحمیل می کند .
از سوی دیگر نوپا بودن این مدل نرم افزاری باعث می شود افراد کمی مهارت لازم برای ایجاد و کار با سامانه های مبتنی بر هدوپ را دارند و برای بسیاری از شرکتها کمبود نیروی انسانی متخصص مهمترین چالش آنها در استفاده از این سامانه خواهد بود.
مشکل دیگر هدوپ که ماهیت ذاتی دارد، عدم توانایی پردازش بلادرنگ داده هاست. چون مدیر درخواست باید منتظر تکمیل کار تک تک گره های محاسباتی سامانه بماند تا بتواند جواب نهایی را به کاربر تحویل دهد . هر چند با رشد سریع فناوریهای بانکهای اطلاعاتی NoSQL و تلفیق آن با هدوپ ، این مشکل نیز تا حدی رفع خواهد شد.
مروزه نسخه دوم هدوپ با بهبود فرآیند مدیریت منابع، لایه ای جدید به سامانه هدوپ اضافه کرده است با نام YARN که وظیفه مدیریت منابع سیستم مانند حافظه، دیسک ، شبکه و غیره را بر عهده دارد که با این توصیف، در لایه پایین هدوپ ما سیستم HDFS را برای ذخیره داده ها داریم و در لایه میانی ، YARN وظیفه مدیریت منابع سیستمی را برعهده دارد و در لایه بالا هم عملیات پردازش داده با مکانیزم نگاشت و تجمیع انجام می پذیرد.
می توان به جای لایه فوقانی یعنی روش کلاسیک و سنتی نگاشت و تجمیع (Map/Reduce) در دنیای کلان داده از روشهای نوینی مانند آپاچی تز (TEZ) و یااسپارک استفاده کرد که بسته به کاربرد، اسپارک سرعتی ده تا صد برابری نسبت به روش معمول نگاشت و تجمیع دارد.
می توان به جای لایه فوقانی یعنی روش کلاسیک و سنتی نگاشت و تجمیع (Map/Reduce) در دنیای کلان داده از روشهای نوینی مانند آپاچی تز (TEZ) و یااسپارک استفاده کرد که بسته به کاربرد، اسپارک سرعتی ده تا صد برابری نسبت به روش معمول نگاشت و تجمیع دارد.