BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
آخرین نسخه هدوپ
این نسخه برای استفاده عملیاتی هنوز مناسب نیست و پس از گزارش اشکالات ، در نسخه های 2.7.1 و 2.7.2  حل خواهد شد. برای استفاده های عملیاتی و تجاری تا انتشار نسخه 2.7.1 و 2.7.2 صبر کنید.پشتیبانی از منبع ذخیره Windows Azure در بسته عمومی پشتیبانی از ترانکیت فایل ها در HDFSپشتیبانی از فایل های با طول بلوک متغیر در HDFSپشتیبانی از Storage Type در Quotaافزایش توانایی اعتبارسنجی در YARNکش کردن اتوماتیک در منابع محلی در YARN (آزمایشی)توانایی محدود کردن Task های در حال اجرای یک Job در MapReduceافزایش سرعت FileOutputCommitter برای Job های با حجم بالا و فایل های خروجی زیاد در MapReduce
http://mirrors.sonic.net/apache/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
برای دانلود اخرین نسخه هدوپ بروی لینک بالا کلیک بفرمایید.
براساس تحقیقات موسسه IDC IT با رشد روز افزون داده ها نیاز مبرم به کارشناسان داده بیش از پیش احساس میشود و بر همین اساس پیش بینی هایی از آینده بیگ دیتا به شرح زیر انجام  شده است:

ابزارهای کشف داده های بصری در سال ۲۰۱۸ رشد ۲٫۵ برابری نسبت به سایر ابزارهای کسب و کار خواهد داشت. همچنین در ۵ سال آینده هزینه های مبتنی بر بیگ دیتا رشد ۳برابری خواهد داشت.کمبود کارمندان ماهر همچنان ادامه خواهد داشت. بر همین اساس تنها در کشور امریکا در سال ۲۰۱۵ حدود ۱۸۱ هزار جایگاه تجزیه و تحلیل وجود خواهد داشت که نیازمند جذب نیروی متخصص هستند.
http://uupload.ir/files/9x2i_photo_2015-11-13_11-29-28.jpg

دانلود فیلم آموزشی WEKA به زبان فارسی

وکا (Weka) یک نرم افزار داده کاوی متن‌باز می‌باشد که بسیاری از الگوریتم‌های یادگیری ماشین را پشتیبانی می‌کند. تمام قسمت‌های این نرم‌افزار به زبان جاوا نوشته شده است و در نتیجه می‌تواند بر روی هر پلتفرمی اجرا گردد.

فیلم های آموزش weka (داده کاوی) به زبان فارسی:

جلسه ی اول:
http://www.cmpclub.ir/viewtopic.php?f=473&t=1832&sid=ea93b17bfa58464f3a785ba1155c2b28

جلسه ی دوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2065&sid=ea93b17bfa58464f3a785ba1155c2b28

جلسه سوم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2084&sid=ea93b17bfa58464f3a785ba1155c2b28

جلسه ی چهارم:
http://www.cmpclub.ir/viewtopic.php?f=473&t=2600&sid=087203fbfcb7855aa2075e655579b86f
Forwarded from مفتا - ناشنیده‌های تکنولوژی
http://uupload.ir/files/c5a3_cover.jpg

کتاب آموزش هدوپ برای علاقه مندان به علوم داده
Hadoop for dummies
زبان اصلی*

لینک دانلود:
http://s6.picofile.com/file/8221909968/Hadoop_For_Dummies_Dirk_deRoos.pdf.html

@mfta_ir
تعاریف داده های بزرگ

در سال 2001 موسسه گارتنر(Gartner)، (گروه متا) سه بعد از چالش ها و فرصت های پیش رو در حوزه رشد داده ها را مطرح کرد که عبارت بودند از:

افزایش حجم (Volume): افزایش در میزان دادهسرعت و شتاب (Velocity): افزایش سرعت تولید داده های ورودی و خروجیتنوع (Variety): افزایش محدوده تنوع و منابع داده ها

که این ویژگی ها (3Vs) بعد از آن به عنوان ویژگی های اصلی و معرف داده های بزرگ مطرح شدند.
در سال 2012 موسسه گارتنر تعریف جدیدی را ارایه کرد:
«داده های بزرگ، حجم بالا، سرعت و شتاب بالا و تنوع بالایی از دادایی های اطلاعاتی هستند که نیازمند شکل جدیدی از پزدازش هستند تا بتوانند تصمیم گیری را غنی¬تر سازند، بینش جدیدی را کشف کنند و نیز فرآیندها را بهینه نمایند.»
علاوه بر این مفهوم جدیدی به نام «صحت» (Veracity) نیز به ویژگی های داده های بزرگ افزوده شد تا بتواند ان را بهتر توصیف نماید.
نمای 3vs در یک نگاه
با سلام و احترام
دوستان و همراهان گرامی ضمن عرض خوش آمدگویی خدمت شما عزیزان؛
این هفته با معرفی کلان داده ها،سیر تکامل،خصوصیات و توسعه آن ها در خدمت شما هستم.
امیدوارم مطالب مفید و ارزشمند باشند.

در صورت تمایل به دعوت دوستان خود به این مجموعه، این پیام را خدمت آن بزرگواران ارسال نمایید .

با تشکر
گلناز اردشیری

@bigdatatechnology
اولین کنفرانس ملی مهندسی فناوری اطلاعات مکانی
http://ncegit2016.kntu.ac.ir/fa/

@eadv_events
مقاله کلان داده، کاربردها و چالش های آن
چالشها و خصوصیات کلان داده

تا کنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند. این چالش ها در ابتدا سه بعد اصلی حجم داده، نرخ تولید و تنوع به عنوان ۳V’s مطرح شدند ولی در ادامه چالش های بیشتری در ادبیات موضوع توسط محققان مطرح شده است:

حجم داده (Volume): حجم داده های درون سازمان و خارج آن به مدد پدیده اینترنت، دستگاه های الکترونیکی و موبایل ها، زیر ساخت های شبکه و سایر منابع هر ساله رشد نمایی دارد و پیش بینی شده است که تا سال ۲۰۲۰ ما ده زتابایت داده در جهان خواهیم داشت.نرخ تولید (Velocity): داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می شوند که اغلب باید در لحظه پردازش و ذخیره شوند.تنوع (Variety): انواع منابع داده و تنوع در نوع داده بسیار زیاد می باشد که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد و بیشتر حجم داده دنیا هم بی­ساختار و بسیار متنوع است. بخشی از داده­ها امروزه در بانکهای اطلاعاتی، بخشی در صفحات وب، بخشی به صورت XML و JSON و بقیه نیز در فایلها با قالب های متفاوت ذخیره شده اند که عمل پردازش آنها را پیچیده می­کند.صحت (Veracity): با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشتاعتبار (Validity): با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.نوسان (Volatility): سرعت تغییر ارزش داده های مختلف در طول زمان میتواند متفاوت باشد. در کاربردهایی نظیر تحلیل ارز و بورس، داده با نوسان زیادی مواجه هستند و داده ها به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود می گیرند. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلما هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.نمایش (Visualization): یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد از طریق روش های تحلیلی و بصری سازی مناسب اطلاعات امکان پذیری است.ارزش (Value): آیا هزینه ای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیم گیری دارد یا نه و ارزش و فایده موردنظر را برای یک سازمان خواهند داشت؟
www.bigdata.ir
 ابزار های ذخیره و پردازش در حوزه کلان داده:
🐘🐘🐘🐘🐘🐘🐘🐘
رهیافتهایی که امروزه در بخش پردازش کلان داده مطرح هستند، دارای چندین خاصیت مشترک هستند :

اجرا بر روی سخت افزار موجود که باعث می شود بتوان با هزینه کم امکان پردازش موازی و ارتقای سخت افزاری را فراهم کرد.

استفاده از ابزارهای تحلیل و مصورسازی پیشرفته برای سهولت کاربر نهایی .

استفاده همزمان از ابزارها و کتابخانه های مختلف که معماری داده یک سازمان را شکل می دهند.

استفاده از بانک های اطلاعاتی غیر رابطه ای (NoSql) به عنوان جزئی از معماری و بسترداده سازمان

دو رهیافت اصلی که امروزه در پردازش و تحلیل کلان داده بیشترین رواج را دارند عبارتند از هدوپ و بانکهای اطلاعاتی NoSQL

www.bigdata.ir
هدوپ چگونه کار می کند؟
🐘🐘🐘🐘🐘🐘🐘🐘🐘🐘

در این سامانه فایلهای داده ای با حجم بالا مانند فایلهای ثبت تراکنش، خوراک خوان شبکه های اجتماعی و سایر منابع داده ای ابتدا بخش بندی شده و در شبکه توزیع می شوند.

وظیفه تقسیم، ذخیره و بازیابی فایلهای حجیم بر روی یک کلاستر هدوپ را سیستم فایل توزیع شده آن به نام HDFS بر عهده دارد. برای بالابردن ضریب اطمینان سیستم ، هر بخش از فایل در چندین رایانه توزیع می شود تا در صورت از کارافتادن یک سیستم، آن فایل باز هم قابل بازیابی باشد.

در هدوپ سه نوع گره محاسباتی یا رایانه داریم . مدیر نام ، وظیفه تقسیم فایلها و ذخیره آدرس هر بخش از آن را برعهده دارد. بررسی دوره­ای گره ها و تعیین از رده خارج شدن آنها هم جزء وظایف این مولفه از سیستم مدیریت فایل هدوپ است.

گره داده که تک تک رایانه های عضو هدوپ را در بر می گیرد، بلاک های فایل را در بردارد که برای مدیریت بهتر آنها، به ازای مجموعه ای از این گره­های داده ، یک گره مدیریت نام در سامانه هدوپ وجود دارد. نوع سوم ، گره نام ثانویه است که یک رونوشت از اطلاعات گره مدیریت نام بر روی آن قرار دارد تا در صورت از کار افتادن آن گره ، اطلاعات آن از بین نرود.
 شکل شمایی کلی از مولفه مدیریت فایل هدوپ را نشان می دهد.
عد از توزیع داده ها در سامانه هدوپ ، تحلیل و پردازش آنها بر عهده بخش نگاشت و تجمیع آن است. شکل ۲ این فرایند را به صورت بصری نمایش می دهد. در مرحله اول،کاربر درخواست خود را که معمولاً یک پرس و جو به زبان جاواست را به گرهی که وظیفه اجرای درخواست ها را بر عهده دارد (مدیر درخواست – Job tracker) ارسال می­کند. در این مرحله مدیر درخواست بررسی می کند که به چه فایل هایی برای پاسخ به پرس و جوی کاربر نیاز دارد و به کمک گره مدیریت نام ، گره های داده حاوی آن بخش ها را در کلاستر می یابد (عمل نگاشت).

سپس این درخواست به تک تک آن گره ها ارسال میگردد. این گره ها که هنگام پردازش به آنها مدیر وظیفه می گوئیم مستقلاً و به صورت موازی کار پردازش داده های خود را (اجرای تابع نگاشت) انجام می دهند.
ساختار عملیاتی هدوپ و فرآیند نگاشت و تجمیع
پس از اتمام کار هر مدیر وظیفه، نتایج در همان گره ذخیره می گردد. پس از آماده شدن نتایج میانی که طبیعتا چون وابسته به داده ه ای موجود در روی یک گره است ، محلی و ناقص خواهد بود ، مدیر درخواست، فرمان تجمیع را به این گره ها ارسال می کند تا پردازش نهایی را بر روی نتایج انجام داده و نتیجه درخواست کاربر در یک گره محاسباتی نهایی ذخیره گردد. در این مرحله ، نگاشت و تجمیع به اتمام رسیده است و پردازش بعدی بر روی نتایج حاصل بر عهده تحلیل گران حوزه کلان داده است . این پردازش می تواند به صورت مستقیم بر روی نتایج انجام شود و یا با انتقال داده های حاصله به بانک های اطلاعاتی رابطه ای و یا انباره های داده، از روشهای کلاسیک تحلیل داده استفاده شود.

مثالی از نحوه شمارش کلمات در یک کلاستر هدوپ با روش نگاشت و تجمیع در شکل زیر نمایش داده شده است . فایلهای ورودی در HDFS ذخیره شده اند و عملیات نگاشت در هر گره محاسباتی بدین صورت انجام میگیرد که به ازای هر کلمه که از فایل خوانده میشود، یک زوج (کلمه ، تعداد) ایجاد می کند که تعداد اولیه آن یک خواهد بود. در مرحله بعدی این زوجهای ایجاد شده مرتب سازی می شوند و در مرحله تجمیع، کلمات کنار هم که یکسان هستند با هم ادغام شده و اعداد آنها با هم جمع میشود و سرانجام فایل نهایی که شمارش تعداد هر کلمه در آن آمده است، ایجاد می گردد.