کدام موتور پردازشی هدوپ را باید استفاده کنیم ؟
http://www.bigdata.ir/1394/04/%da%a9%d8%af%d8%a7%d9%85-%d9%85%d9%88%d8%aa%d9%88%d8%b1-%d9%be%d8%b1%d8%af%d8%a7%d8%b2%d8%b4%db%8c-%d9%87%d8%af%d9%88%d9%be-%d8%b1%d8%a7-%d8%a8%d8%a7%db%8c%d8%af-%d8%a7%d8%b3%d8%aa%d9%81%d8%a7%d8%af/
http://www.bigdata.ir/1394/04/%da%a9%d8%af%d8%a7%d9%85-%d9%85%d9%88%d8%aa%d9%88%d8%b1-%d9%be%d8%b1%d8%af%d8%a7%d8%b2%d8%b4%db%8c-%d9%87%d8%af%d9%88%d9%be-%d8%b1%d8%a7-%d8%a8%d8%a7%db%8c%d8%af-%d8%a7%d8%b3%d8%aa%d9%81%d8%a7%d8%af/
مهندسی داده
کدام موتور پردازشی هدوپ را باید استفاده کنیم ؟ | مهندسی داده
امروزه و در میانه سال ۲۰۱۵ دیگر پردازش ها در حوزه کلان داده محدود به HDFS و رهیافت نگاشت و تجمیع (Map Reduce) نیست بلکه اکوسیستمی کامل از فناوریهایی مختلفی شده است که برای تحلیل انواع داده در مقیاس وسیع به آنها نیاز داریم و مجموعه وسیعی از ابزار و کتابخانه…
معرفی Radoop :
Radoop یک شرکت بزرگ تجزیه و تحلیل داده با هدف کم کردن موانع برای استفاده از Hadoop است. بستهRadoop اجازه می دهد تا حتی افراد غیر فنی نیز توانایی دسترسی ، تجزیه و تحلیل و شبیه سازی داده های بزرگ را داشته باشند. برای افراد متخصص علاوه بر امکانات ذکر شده برنامه نویسی ، تجزیه و تحلیل و پیش بینی پیشرفته را فراهم می کند و این دلیل محکمی است که RapidMiner با تکیه بر توانایی هدوپ در پردازش موازی داده های کلان به عنوان محبوب ترین ابزار داده کاوی یکپارچه شناخته شود و کم کم کاربران زیادی را به سمت خود سوق دهد.
http://hadoop.ir/%d9%85%d8%b9%d8%b1%d9%81%db%8c-radoop/#respond
Radoop یک شرکت بزرگ تجزیه و تحلیل داده با هدف کم کردن موانع برای استفاده از Hadoop است. بستهRadoop اجازه می دهد تا حتی افراد غیر فنی نیز توانایی دسترسی ، تجزیه و تحلیل و شبیه سازی داده های بزرگ را داشته باشند. برای افراد متخصص علاوه بر امکانات ذکر شده برنامه نویسی ، تجزیه و تحلیل و پیش بینی پیشرفته را فراهم می کند و این دلیل محکمی است که RapidMiner با تکیه بر توانایی هدوپ در پردازش موازی داده های کلان به عنوان محبوب ترین ابزار داده کاوی یکپارچه شناخته شود و کم کم کاربران زیادی را به سمت خود سوق دهد.
http://hadoop.ir/%d9%85%d8%b9%d8%b1%d9%81%db%8c-radoop/#respond
مرجع هدوپ ایران
معرفی Radoop
Radoop یک شرکت بزرگ تجزیه و تحلیل داده با هدف کم کردن موانع برای استفاده از Hadoop است. بسته Radoop اجازه می دهد تا حتی افراد غیر فنی نیز توانایی دسترسی ، تجزیه و تحلیل و شبیه سازی داده های بزرگ را داشته باشند.
آخرین نسخه هدوپ
این نسخه برای استفاده عملیاتی هنوز مناسب نیست و پس از گزارش اشکالات ، در نسخه های 2.7.1 و 2.7.2 حل خواهد شد. برای استفاده های عملیاتی و تجاری تا انتشار نسخه 2.7.1 و 2.7.2 صبر کنید.پشتیبانی از منبع ذخیره Windows Azure در بسته عمومی پشتیبانی از ترانکیت فایل ها در HDFSپشتیبانی از فایل های با طول بلوک متغیر در HDFSپشتیبانی از Storage Type در Quotaافزایش توانایی اعتبارسنجی در YARNکش کردن اتوماتیک در منابع محلی در YARN (آزمایشی)توانایی محدود کردن Task های در حال اجرای یک Job در MapReduceافزایش سرعت FileOutputCommitter برای Job های با حجم بالا و فایل های خروجی زیاد در MapReduce
http://mirrors.sonic.net/apache/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
این نسخه برای استفاده عملیاتی هنوز مناسب نیست و پس از گزارش اشکالات ، در نسخه های 2.7.1 و 2.7.2 حل خواهد شد. برای استفاده های عملیاتی و تجاری تا انتشار نسخه 2.7.1 و 2.7.2 صبر کنید.پشتیبانی از منبع ذخیره Windows Azure در بسته عمومی پشتیبانی از ترانکیت فایل ها در HDFSپشتیبانی از فایل های با طول بلوک متغیر در HDFSپشتیبانی از Storage Type در Quotaافزایش توانایی اعتبارسنجی در YARNکش کردن اتوماتیک در منابع محلی در YARN (آزمایشی)توانایی محدود کردن Task های در حال اجرای یک Job در MapReduceافزایش سرعت FileOutputCommitter برای Job های با حجم بالا و فایل های خروجی زیاد در MapReduce
http://mirrors.sonic.net/apache/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
براساس تحقیقات موسسه IDC IT با رشد روز افزون داده ها نیاز مبرم به کارشناسان داده بیش از پیش احساس میشود و بر همین اساس پیش بینی هایی از آینده بیگ دیتا به شرح زیر انجام شده است:
ابزارهای کشف داده های بصری در سال ۲۰۱۸ رشد ۲٫۵ برابری نسبت به سایر ابزارهای کسب و کار خواهد داشت. همچنین در ۵ سال آینده هزینه های مبتنی بر بیگ دیتا رشد ۳برابری خواهد داشت.کمبود کارمندان ماهر همچنان ادامه خواهد داشت. بر همین اساس تنها در کشور امریکا در سال ۲۰۱۵ حدود ۱۸۱ هزار جایگاه تجزیه و تحلیل وجود خواهد داشت که نیازمند جذب نیروی متخصص هستند.
ابزارهای کشف داده های بصری در سال ۲۰۱۸ رشد ۲٫۵ برابری نسبت به سایر ابزارهای کسب و کار خواهد داشت. همچنین در ۵ سال آینده هزینه های مبتنی بر بیگ دیتا رشد ۳برابری خواهد داشت.کمبود کارمندان ماهر همچنان ادامه خواهد داشت. بر همین اساس تنها در کشور امریکا در سال ۲۰۱۵ حدود ۱۸۱ هزار جایگاه تجزیه و تحلیل وجود خواهد داشت که نیازمند جذب نیروی متخصص هستند.
http://uupload.ir/files/9x2i_photo_2015-11-13_11-29-28.jpg
دانلود فیلم آموزشی WEKA به زبان فارسی
وکا (Weka) یک نرم افزار داده کاوی متنباز میباشد که بسیاری از الگوریتمهای یادگیری ماشین را پشتیبانی میکند. تمام قسمتهای این نرمافزار به زبان جاوا نوشته شده است و در نتیجه میتواند بر روی هر پلتفرمی اجرا گردد.
فیلم های آموزش weka (داده کاوی) به زبان فارسی:
جلسه ی اول:
http://www.cmpclub.ir/viewtopic.php?f=473&t=1832&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه ی دوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2065&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه سوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2084&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه ی چهارم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2600&sid=087203fbfcb7855aa2075e655579b86f
دانلود فیلم آموزشی WEKA به زبان فارسی
وکا (Weka) یک نرم افزار داده کاوی متنباز میباشد که بسیاری از الگوریتمهای یادگیری ماشین را پشتیبانی میکند. تمام قسمتهای این نرمافزار به زبان جاوا نوشته شده است و در نتیجه میتواند بر روی هر پلتفرمی اجرا گردد.
فیلم های آموزش weka (داده کاوی) به زبان فارسی:
جلسه ی اول:
http://www.cmpclub.ir/viewtopic.php?f=473&t=1832&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه ی دوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2065&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه سوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2084&sid=ea93b17bfa58464f3a785ba1155c2b28
جلسه ی چهارم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2600&sid=087203fbfcb7855aa2075e655579b86f
Forwarded from مفتا - ناشنیدههای تکنولوژی
http://uupload.ir/files/c5a3_cover.jpg
کتاب آموزش هدوپ برای علاقه مندان به علوم داده
Hadoop for dummies
زبان اصلی*
لینک دانلود:
http://s6.picofile.com/file/8221909968/Hadoop_For_Dummies_Dirk_deRoos.pdf.html
@mfta_ir
کتاب آموزش هدوپ برای علاقه مندان به علوم داده
Hadoop for dummies
زبان اصلی*
لینک دانلود:
http://s6.picofile.com/file/8221909968/Hadoop_For_Dummies_Dirk_deRoos.pdf.html
@mfta_ir
تعاریف داده های بزرگ
در سال 2001 موسسه گارتنر(Gartner)، (گروه متا) سه بعد از چالش ها و فرصت های پیش رو در حوزه رشد داده ها را مطرح کرد که عبارت بودند از:
افزایش حجم (Volume): افزایش در میزان دادهسرعت و شتاب (Velocity): افزایش سرعت تولید داده های ورودی و خروجیتنوع (Variety): افزایش محدوده تنوع و منابع داده ها
که این ویژگی ها (3Vs) بعد از آن به عنوان ویژگی های اصلی و معرف داده های بزرگ مطرح شدند.
در سال 2012 موسسه گارتنر تعریف جدیدی را ارایه کرد:
«داده های بزرگ، حجم بالا، سرعت و شتاب بالا و تنوع بالایی از دادایی های اطلاعاتی هستند که نیازمند شکل جدیدی از پزدازش هستند تا بتوانند تصمیم گیری را غنی¬تر سازند، بینش جدیدی را کشف کنند و نیز فرآیندها را بهینه نمایند.»
علاوه بر این مفهوم جدیدی به نام «صحت» (Veracity) نیز به ویژگی های داده های بزرگ افزوده شد تا بتواند ان را بهتر توصیف نماید.
در سال 2001 موسسه گارتنر(Gartner)، (گروه متا) سه بعد از چالش ها و فرصت های پیش رو در حوزه رشد داده ها را مطرح کرد که عبارت بودند از:
افزایش حجم (Volume): افزایش در میزان دادهسرعت و شتاب (Velocity): افزایش سرعت تولید داده های ورودی و خروجیتنوع (Variety): افزایش محدوده تنوع و منابع داده ها
که این ویژگی ها (3Vs) بعد از آن به عنوان ویژگی های اصلی و معرف داده های بزرگ مطرح شدند.
در سال 2012 موسسه گارتنر تعریف جدیدی را ارایه کرد:
«داده های بزرگ، حجم بالا، سرعت و شتاب بالا و تنوع بالایی از دادایی های اطلاعاتی هستند که نیازمند شکل جدیدی از پزدازش هستند تا بتوانند تصمیم گیری را غنی¬تر سازند، بینش جدیدی را کشف کنند و نیز فرآیندها را بهینه نمایند.»
علاوه بر این مفهوم جدیدی به نام «صحت» (Veracity) نیز به ویژگی های داده های بزرگ افزوده شد تا بتواند ان را بهتر توصیف نماید.
با سلام و احترام
دوستان و همراهان گرامی ضمن عرض خوش آمدگویی خدمت شما عزیزان؛
این هفته با معرفی کلان داده ها،سیر تکامل،خصوصیات و توسعه آن ها در خدمت شما هستم.
امیدوارم مطالب مفید و ارزشمند باشند.
در صورت تمایل به دعوت دوستان خود به این مجموعه، این پیام را خدمت آن بزرگواران ارسال نمایید .
با تشکر
گلناز اردشیری
@bigdatatechnology
دوستان و همراهان گرامی ضمن عرض خوش آمدگویی خدمت شما عزیزان؛
این هفته با معرفی کلان داده ها،سیر تکامل،خصوصیات و توسعه آن ها در خدمت شما هستم.
امیدوارم مطالب مفید و ارزشمند باشند.
در صورت تمایل به دعوت دوستان خود به این مجموعه، این پیام را خدمت آن بزرگواران ارسال نمایید .
با تشکر
گلناز اردشیری
@bigdatatechnology
Forwarded from یادگیری و تغییر با هدایت
چالشها و خصوصیات کلان داده
تا کنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند. این چالش ها در ابتدا سه بعد اصلی حجم داده، نرخ تولید و تنوع به عنوان ۳V’s مطرح شدند ولی در ادامه چالش های بیشتری در ادبیات موضوع توسط محققان مطرح شده است:
حجم داده (Volume): حجم داده های درون سازمان و خارج آن به مدد پدیده اینترنت، دستگاه های الکترونیکی و موبایل ها، زیر ساخت های شبکه و سایر منابع هر ساله رشد نمایی دارد و پیش بینی شده است که تا سال ۲۰۲۰ ما ده زتابایت داده در جهان خواهیم داشت.نرخ تولید (Velocity): داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می شوند که اغلب باید در لحظه پردازش و ذخیره شوند.تنوع (Variety): انواع منابع داده و تنوع در نوع داده بسیار زیاد می باشد که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد و بیشتر حجم داده دنیا هم بیساختار و بسیار متنوع است. بخشی از دادهها امروزه در بانکهای اطلاعاتی، بخشی در صفحات وب، بخشی به صورت XML و JSON و بقیه نیز در فایلها با قالب های متفاوت ذخیره شده اند که عمل پردازش آنها را پیچیده میکند.صحت (Veracity): با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشتاعتبار (Validity): با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.نوسان (Volatility): سرعت تغییر ارزش داده های مختلف در طول زمان میتواند متفاوت باشد. در کاربردهایی نظیر تحلیل ارز و بورس، داده با نوسان زیادی مواجه هستند و داده ها به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود می گیرند. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.نمایش (Visualization): یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.ارزش (Value): آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیم گیری دارد یا نه و ارزش و فایده موردنظر را برای یک سازمان خواهند داشت؟
www.bigdata.ir
تا کنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند. این چالش ها در ابتدا سه بعد اصلی حجم داده، نرخ تولید و تنوع به عنوان ۳V’s مطرح شدند ولی در ادامه چالش های بیشتری در ادبیات موضوع توسط محققان مطرح شده است:
حجم داده (Volume): حجم داده های درون سازمان و خارج آن به مدد پدیده اینترنت، دستگاه های الکترونیکی و موبایل ها، زیر ساخت های شبکه و سایر منابع هر ساله رشد نمایی دارد و پیش بینی شده است که تا سال ۲۰۲۰ ما ده زتابایت داده در جهان خواهیم داشت.نرخ تولید (Velocity): داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می شوند که اغلب باید در لحظه پردازش و ذخیره شوند.تنوع (Variety): انواع منابع داده و تنوع در نوع داده بسیار زیاد می باشد که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد و بیشتر حجم داده دنیا هم بیساختار و بسیار متنوع است. بخشی از دادهها امروزه در بانکهای اطلاعاتی، بخشی در صفحات وب، بخشی به صورت XML و JSON و بقیه نیز در فایلها با قالب های متفاوت ذخیره شده اند که عمل پردازش آنها را پیچیده میکند.صحت (Veracity): با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشتاعتبار (Validity): با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.نوسان (Volatility): سرعت تغییر ارزش داده های مختلف در طول زمان میتواند متفاوت باشد. در کاربردهایی نظیر تحلیل ارز و بورس، داده با نوسان زیادی مواجه هستند و داده ها به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود می گیرند. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.نمایش (Visualization): یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.ارزش (Value): آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیم گیری دارد یا نه و ارزش و فایده موردنظر را برای یک سازمان خواهند داشت؟
www.bigdata.ir
ابزار های ذخیره و پردازش در حوزه کلان داده:
🐘🐘🐘🐘🐘🐘🐘🐘
رهیافتهایی که امروزه در بخش پردازش کلان داده مطرح هستند، دارای چندین خاصیت مشترک هستند :
اجرا بر روی سخت افزار موجود که باعث می شود بتوان با هزینه کم امکان پردازش موازی و ارتقای سخت افزاری را فراهم کرد.
استفاده از ابزارهای تحلیل و مصورسازی پیشرفته برای سهولت کاربر نهایی .
استفاده همزمان از ابزارها و کتابخانه های مختلف که معماری داده یک سازمان را شکل می دهند.
استفاده از بانک های اطلاعاتی غیر رابطه ای (NoSql) به عنوان جزئی از معماری و بسترداده سازمان
دو رهیافت اصلی که امروزه در پردازش و تحلیل کلان داده بیشترین رواج را دارند عبارتند از هدوپ و بانکهای اطلاعاتی NoSQL
www.bigdata.ir
🐘🐘🐘🐘🐘🐘🐘🐘
رهیافتهایی که امروزه در بخش پردازش کلان داده مطرح هستند، دارای چندین خاصیت مشترک هستند :
اجرا بر روی سخت افزار موجود که باعث می شود بتوان با هزینه کم امکان پردازش موازی و ارتقای سخت افزاری را فراهم کرد.
استفاده از ابزارهای تحلیل و مصورسازی پیشرفته برای سهولت کاربر نهایی .
استفاده همزمان از ابزارها و کتابخانه های مختلف که معماری داده یک سازمان را شکل می دهند.
استفاده از بانک های اطلاعاتی غیر رابطه ای (NoSql) به عنوان جزئی از معماری و بسترداده سازمان
دو رهیافت اصلی که امروزه در پردازش و تحلیل کلان داده بیشترین رواج را دارند عبارتند از هدوپ و بانکهای اطلاعاتی NoSQL
www.bigdata.ir
هدوپ چگونه کار می کند؟
🐘🐘🐘🐘🐘🐘🐘🐘🐘🐘
در این سامانه فایلهای داده ای با حجم بالا مانند فایلهای ثبت تراکنش، خوراک خوان شبکه های اجتماعی و سایر منابع داده ای ابتدا بخش بندی شده و در شبکه توزیع می شوند.
وظیفه تقسیم، ذخیره و بازیابی فایلهای حجیم بر روی یک کلاستر هدوپ را سیستم فایل توزیع شده آن به نام HDFS بر عهده دارد. برای بالابردن ضریب اطمینان سیستم ، هر بخش از فایل در چندین رایانه توزیع می شود تا در صورت از کارافتادن یک سیستم، آن فایل باز هم قابل بازیابی باشد.
در هدوپ سه نوع گره محاسباتی یا رایانه داریم . مدیر نام ، وظیفه تقسیم فایلها و ذخیره آدرس هر بخش از آن را برعهده دارد. بررسی دورهای گره ها و تعیین از رده خارج شدن آنها هم جزء وظایف این مولفه از سیستم مدیریت فایل هدوپ است.
گره داده که تک تک رایانه های عضو هدوپ را در بر می گیرد، بلاک های فایل را در بردارد که برای مدیریت بهتر آنها، به ازای مجموعه ای از این گرههای داده ، یک گره مدیریت نام در سامانه هدوپ وجود دارد. نوع سوم ، گره نام ثانویه است که یک رونوشت از اطلاعات گره مدیریت نام بر روی آن قرار دارد تا در صورت از کار افتادن آن گره ، اطلاعات آن از بین نرود.
🐘🐘🐘🐘🐘🐘🐘🐘🐘🐘
در این سامانه فایلهای داده ای با حجم بالا مانند فایلهای ثبت تراکنش، خوراک خوان شبکه های اجتماعی و سایر منابع داده ای ابتدا بخش بندی شده و در شبکه توزیع می شوند.
وظیفه تقسیم، ذخیره و بازیابی فایلهای حجیم بر روی یک کلاستر هدوپ را سیستم فایل توزیع شده آن به نام HDFS بر عهده دارد. برای بالابردن ضریب اطمینان سیستم ، هر بخش از فایل در چندین رایانه توزیع می شود تا در صورت از کارافتادن یک سیستم، آن فایل باز هم قابل بازیابی باشد.
در هدوپ سه نوع گره محاسباتی یا رایانه داریم . مدیر نام ، وظیفه تقسیم فایلها و ذخیره آدرس هر بخش از آن را برعهده دارد. بررسی دورهای گره ها و تعیین از رده خارج شدن آنها هم جزء وظایف این مولفه از سیستم مدیریت فایل هدوپ است.
گره داده که تک تک رایانه های عضو هدوپ را در بر می گیرد، بلاک های فایل را در بردارد که برای مدیریت بهتر آنها، به ازای مجموعه ای از این گرههای داده ، یک گره مدیریت نام در سامانه هدوپ وجود دارد. نوع سوم ، گره نام ثانویه است که یک رونوشت از اطلاعات گره مدیریت نام بر روی آن قرار دارد تا در صورت از کار افتادن آن گره ، اطلاعات آن از بین نرود.