NEW BOT Телеграм, страница

نحوه نصب هدوپ (Single Node)

http://hadoop.ir/howtoinstall/

سیستم عامل: همه سیستم عامل ها نوع نصب: Single Node Cluster (نصب به صورت Multi-Node) برای نصب هدوپ راه های گوناگونی وجود دارد. با توجه به سطح آشنایی شما با فریم ورک هدوپ می تواند این فرآیند آسان و یا سخت باشد ولی نگران نباشید ما تمامی مراحل را شرح می دهیم.

259 views18:51

BigData

آخرین نسخه هدوپ
این نسخه برای استفاده عملیاتی هنوز مناسب نیست و پس از گزارش اشکالات ، در نسخه های 2.7.1 و 2.7.2 حل خواهد شد. برای استفاده های عملیاتی و تجاری تا انتشار نسخه 2.7.1 و 2.7.2 صبر کنید.پشتیبانی از منبع ذخیره Windows Azure در بسته عمومی پشتیبانی از ترانکیت فایل ها در HDFSپشتیبانی از فایل های با طول بلوک متغیر در HDFSپشتیبانی از Storage Type در Quotaافزایش توانایی اعتبارسنجی در YARNکش کردن اتوماتیک در منابع محلی در YARN (آزمایشی)توانایی محدود کردن Task های در حال اجرای یک Job در MapReduceافزایش سرعت FileOutputCommitter برای Job های با حجم بالا و فایل های خروجی زیاد در MapReduce
http://mirrors.sonic.net/apache/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz

266 views18:57

BigData

برای دانلود اخرین نسخه هدوپ بروی لینک بالا کلیک بفرمایید.

261 views18:58

BigData

http://mfta.ir/data-science/id=11317/%d9%be%db%8c%d8%b4-%d8%a8%db%8c%d9%86%db%8c-%d9%87%d8%a7%db%8c-%d8%a8%db%8c%da%af-%d8%af%db%8c%d8%aa%d8%a7-%d8%af%d8%b1-%d8%b3%d8%a7%d9%84-2015

مفتا

مفتا | پیش بینی های بیگ دیتا در سال 2015

براساس تحقیقات موسسه IDC IT با رشد روز افزون داده ها نیاز مبرم به کارشناسان داده بیش از پیش احساس میشود و بر همین اساس پیش بینی هایی از آینده بیگ دی

259 views20:17

BigData

براساس تحقیقات موسسه IDC IT با رشد روز افزون داده ها نیاز مبرم به کارشناسان داده بیش از پیش احساس میشود و بر همین اساس پیش بینی هایی از آینده بیگ دیتا به شرح زیر انجام شده است:

ابزارهای کشف داده های بصری در سال ۲۰۱۸ رشد ۲٫۵ برابری نسبت به سایر ابزارهای کسب و کار خواهد داشت. همچنین در ۵ سال آینده هزینه های مبتنی بر بیگ دیتا رشد ۳برابری خواهد داشت.کمبود کارمندان ماهر همچنان ادامه خواهد داشت. بر همین اساس تنها در کشور امریکا در سال ۲۰۱۵ حدود ۱۸۱ هزار جایگاه تجزیه و تحلیل وجود خواهد داشت که نیازمند جذب نیروی متخصص هستند.

261 views20:18

BigData

http://uupload.ir/files/9x2i_photo_2015-11-13_11-29-28.jpg

دانلود فیلم آموزشی WEKA به زبان فارسی

وکا (Weka) یک نرم افزار داده کاوی متن‌باز می‌باشد که بسیاری از الگوریتم‌های یادگیری ماشین را پشتیبانی می‌کند. تمام قسمت‌های این نرم‌افزار به زبان جاوا نوشته شده است و در نتیجه می‌تواند بر روی هر پلتفرمی اجرا گردد.

فیلم های آموزش weka (داده کاوی) به زبان فارسی:

جلسه ی اول:
http://www.cmpclub.ir/viewtopic.php?f=473&t=1832&sid=ea93b17bfa58464f3a785ba1155c2b28

جلسه ی دوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2065&sid=ea93b17bfa58464f3a785ba1155c2b28

جلسه سوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2084&sid=ea93b17bfa58464f3a785ba1155c2b28

جلسه ی چهارم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2600&sid=087203fbfcb7855aa2075e655579b86f

361 views21:43

BigData

Forwarded from مفتا - ناشنیده‌های تکنولوژی

http://uupload.ir/files/c5a3_cover.jpg

کتاب آموزش هدوپ برای علاقه مندان به علوم داده
Hadoop for dummies
زبان اصلی*

لینک دانلود:
http://s6.picofile.com/file/8221909968/Hadoop_For_Dummies_Dirk_deRoos.pdf.html

@mfta_ir

10 views21:44

BigData

تعاریف داده های بزرگ

در سال 2001 موسسه گارتنر(Gartner)، (گروه متا) سه بعد از چالش ها و فرصت های پیش رو در حوزه رشد داده ها را مطرح کرد که عبارت بودند از:

افزایش حجم (Volume): افزایش در میزان دادهسرعت و شتاب (Velocity): افزایش سرعت تولید داده های ورودی و خروجیتنوع (Variety): افزایش محدوده تنوع و منابع داده ها

که این ویژگی ها (3Vs) بعد از آن به عنوان ویژگی های اصلی و معرف داده های بزرگ مطرح شدند.
در سال 2012 موسسه گارتنر تعریف جدیدی را ارایه کرد:
«داده های بزرگ، حجم بالا، سرعت و شتاب بالا و تنوع بالایی از دادایی های اطلاعاتی هستند که نیازمند شکل جدیدی از پزدازش هستند تا بتوانند تصمیم گیری را غنی¬تر سازند، بینش جدیدی را کشف کنند و نیز فرآیندها را بهینه نمایند.»
علاوه بر این مفهوم جدیدی به نام «صحت» (Veracity) نیز به ویژگی های داده های بزرگ افزوده شد تا بتواند ان را بهتر توصیف نماید.

480 views03:59

BigData

نمای 3vs در یک نگاه

433 views03:59

BigData

با سلام و احترام
دوستان و همراهان گرامی ضمن عرض خوش آمدگویی خدمت شما عزیزان؛
این هفته با معرفی کلان داده ها،سیر تکامل،خصوصیات و توسعه آن ها در خدمت شما هستم.
امیدوارم مطالب مفید و ارزشمند باشند.

در صورت تمایل به دعوت دوستان خود به این مجموعه، این پیام را خدمت آن بزرگواران ارسال نمایید .

با تشکر
گلناز اردشیری

@bigdatatechnology

250 views05:35

BigData

Forwarded from یادگیری و تغییر با هدایت

اولین کنفرانس ملی مهندسی فناوری اطلاعات مکانی
http://ncegit2016.kntu.ac.ir/fa/

@eadv_events

10 views06:49

BigData

AEBSCONF01_114_3917807.pdf

268.7 KB

319 views11:02

BigData

مقاله کلان داده، کاربردها و چالش های آن

273 views11:03

BigData

چالشها و خصوصیات کلان داده

تا کنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند. این چالش ها در ابتدا سه بعد اصلی حجم داده، نرخ تولید و تنوع به عنوان ۳V’s مطرح شدند ولی در ادامه چالش های بیشتری در ادبیات موضوع توسط محققان مطرح شده است:

حجم داده (Volume): حجم داده های درون سازمان و خارج آن به مدد پدیده اینترنت، دستگاه های الکترونیکی و موبایل ها، زیر ساخت های شبکه و سایر منابع هر ساله رشد نمایی دارد و پیش بینی شده است که تا سال ۲۰۲۰ ما ده زتابایت داده در جهان خواهیم داشت.نرخ تولید (Velocity): داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می شوند که اغلب باید در لحظه پردازش و ذخیره شوند.تنوع (Variety): انواع منابع داده و تنوع در نوع داده بسیار زیاد می باشد که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد و بیشتر حجم داده دنیا هم بیساختار و بسیار متنوع است. بخشی از دادهها امروزه در بانکهای اطلاعاتی، بخشی در صفحات وب، بخشی به صورت XML و JSON و بقیه نیز در فایلها با قالب های متفاوت ذخیره شده اند که عمل پردازش آنها را پیچیده میکند.صحت (Veracity): با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشتاعتبار (Validity): با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.نوسان (Volatility): سرعت تغییر ارزش داده های مختلف در طول زمان میتواند متفاوت باشد. در کاربردهایی نظیر تحلیل ارز و بورس، داده با نوسان زیادی مواجه هستند و داده ها به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود می گیرند. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.نمایش (Visualization): یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.ارزش (Value): آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیم گیری دارد یا نه و ارزش و فایده موردنظر را برای یک سازمان خواهند داشت؟
www.bigdata.ir

333 views11:09

BigData

ابزار های ذخیره و پردازش در حوزه کلان داده:
🐘🐘🐘🐘🐘🐘🐘🐘
رهیافتهایی که امروزه در بخش پردازش کلان داده مطرح هستند، دارای چندین خاصیت مشترک هستند :

اجرا بر روی سخت افزار موجود که باعث می شود بتوان با هزینه کم امکان پردازش موازی و ارتقای سخت افزاری را فراهم کرد.

استفاده از ابزارهای تحلیل و مصورسازی پیشرفته برای سهولت کاربر نهایی .

استفاده همزمان از ابزارها و کتابخانه های مختلف که معماری داده یک سازمان را شکل می دهند.

استفاده از بانک های اطلاعاتی غیر رابطه ای (NoSql) به عنوان جزئی از معماری و بسترداده سازمان

دو رهیافت اصلی که امروزه در پردازش و تحلیل کلان داده بیشترین رواج را دارند عبارتند از هدوپ و بانکهای اطلاعاتی NoSQL

www.bigdata.ir

284 views11:12

BigData

هدوپ چگونه کار می کند؟
🐘🐘🐘🐘🐘🐘🐘🐘🐘🐘

در این سامانه فایلهای داده ای با حجم بالا مانند فایلهای ثبت تراکنش، خوراک خوان شبکه های اجتماعی و سایر منابع داده ای ابتدا بخش بندی شده و در شبکه توزیع می شوند.

وظیفه تقسیم، ذخیره و بازیابی فایلهای حجیم بر روی یک کلاستر هدوپ را سیستم فایل توزیع شده آن به نام HDFS بر عهده دارد. برای بالابردن ضریب اطمینان سیستم ، هر بخش از فایل در چندین رایانه توزیع می شود تا در صورت از کارافتادن یک سیستم، آن فایل باز هم قابل بازیابی باشد.

در هدوپ سه نوع گره محاسباتی یا رایانه داریم . مدیر نام ، وظیفه تقسیم فایلها و ذخیره آدرس هر بخش از آن را برعهده دارد. بررسی دورهای گره ها و تعیین از رده خارج شدن آنها هم جزء وظایف این مولفه از سیستم مدیریت فایل هدوپ است.

گره داده که تک تک رایانه های عضو هدوپ را در بر می گیرد، بلاک های فایل را در بردارد که برای مدیریت بهتر آنها، به ازای مجموعه ای از این گرههای داده ، یک گره مدیریت نام در سامانه هدوپ وجود دارد. نوع سوم ، گره نام ثانویه است که یک رونوشت از اطلاعات گره مدیریت نام بر روی آن قرار دارد تا در صورت از کار افتادن آن گره ، اطلاعات آن از بین نرود.

320 views11:29

BigData

شکل شمایی کلی از مولفه مدیریت فایل هدوپ را نشان می دهد.

298 views11:30

BigData

عد از توزیع داده ها در سامانه هدوپ ، تحلیل و پردازش آنها بر عهده بخش نگاشت و تجمیع آن است. شکل ۲ این فرایند را به صورت بصری نمایش می دهد. در مرحله اول،کاربر درخواست خود را که معمولاً یک پرس و جو به زبان جاواست را به گرهی که وظیفه اجرای درخواست ها را بر عهده دارد (مدیر درخواست – Job tracker) ارسال میکند. در این مرحله مدیر درخواست بررسی می کند که به چه فایل هایی برای پاسخ به پرس و جوی کاربر نیاز دارد و به کمک گره مدیریت نام ، گره های داده حاوی آن بخش ها را در کلاستر می یابد (عمل نگاشت).

سپس این درخواست به تک تک آن گره ها ارسال میگردد. این گره ها که هنگام پردازش به آنها مدیر وظیفه می گوئیم مستقلاً و به صورت موازی کار پردازش داده های خود را (اجرای تابع نگاشت) انجام می دهند.

250 views11:31

BigData

ساختار عملیاتی هدوپ و فرآیند نگاشت و تجمیع

249 views11:31

BigData

پس از اتمام کار هر مدیر وظیفه، نتایج در همان گره ذخیره می گردد. پس از آماده شدن نتایج میانی که طبیعتا چون وابسته به داده ه ای موجود در روی یک گره است ، محلی و ناقص خواهد بود ، مدیر درخواست، فرمان تجمیع را به این گره ها ارسال می کند تا پردازش نهایی را بر روی نتایج انجام داده و نتیجه درخواست کاربر در یک گره محاسباتی نهایی ذخیره گردد. در این مرحله ، نگاشت و تجمیع به اتمام رسیده است و پردازش بعدی بر روی نتایج حاصل بر عهده تحلیل گران حوزه کلان داده است . این پردازش می تواند به صورت مستقیم بر روی نتایج انجام شود و یا با انتقال داده های حاصله به بانک های اطلاعاتی رابطه ای و یا انباره های داده، از روشهای کلاسیک تحلیل داده استفاده شود.

مثالی از نحوه شمارش کلمات در یک کلاستر هدوپ با روش نگاشت و تجمیع در شکل زیر نمایش داده شده است . فایلهای ورودی در HDFS ذخیره شده اند و عملیات نگاشت در هر گره محاسباتی بدین صورت انجام میگیرد که به ازای هر کلمه که از فایل خوانده میشود، یک زوج (کلمه ، تعداد) ایجاد می کند که تعداد اولیه آن یک خواهد بود. در مرحله بعدی این زوجهای ایجاد شده مرتب سازی می شوند و در مرحله تجمیع، کلمات کنار هم که یکسان هستند با هم ادغام شده و اعداد آنها با هم جمع میشود و سرانجام فایل نهایی که شمارش تعداد هر کلمه در آن آمده است، ایجاد می گردد.

243 views11:32

BigData

247 views11:32

About

Blog

Apps

Platform