BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
ارتباط بين هدوپ و كلان داده ها:

در حال حاظر در كاربردهاي كلان داده ها در صنعت به طور مثال فيلتر كردن spam، جست وجوي شبكه، تحليل جريان كليك click stream analysis و توصيه گرهاي اجتماعي social recommendation از هدوپ به طور گسترده استفاده مي شود.
علاوه بر آن، هم اكنون تحقيقات دانشگاهي قابل توجهي نيز مبتني بر هدوپ است.
فيس بوك اعلام كرد كه خوشه هدوپ او مي تواند صد پتابايت داده را پردازش كند.
بعضي از سازمان هاي معروف از هدوپ براي انجام رايانش توزيع شده استفاده مي كنند.
همچنين ،براي جمع اوري اطلاعات به منظور نظارت محيطي و پيش بيني خطا سيستم ها و دستگاه هاي صنعتي جديد و حسگرها توسعه ي بيشتري يافتند.

منبع:كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
بزرگ ترین پروژه داده های کلان جهان ، پروژه SKA

برای شروع اجازه دهید از اینجا آغاز کنم که وسعت و بزرگی این پروژه به اندازه ایست که کامپیوتر و تکنولوژیی برای نگهداری و تحلیل داده های آن وجود ندارد. حامیان این پروژه ، کامپیوتری براساس تکنولوژی روز طراحی کردند تا بتواند تقریبا 2 برابرکل حجم داده ای اینترنت موجود را در یک روز ذخیره و پردازش کنند و هدف از آن پاسخ دادن به یک سوال ساده و در عین حال پیچیده است که بشر را صدها سال است به چالش کشیده.

طبق تئوریهای مختلف ، 13.75 میلیون سال پیش بیگ بنگ اتفاق افتاده و کهکشانها، سیارات، ستاره ها و بطور کل دنیا بوجود آمد ولی در مقیاس کوچکتر لازمه و چارچوب زندگی یعنی الکترون و پروتون بدنیا آمدند.

زمانی که در مورد تئوری موجود تحقیقات لازم انجام شد و پروژه کلید خورد، دانشمندان دریافتند که اطلاعاتی در مورد زمان اتفاق و نوع شکل گیری کهکشانها و حتی 800 هزار سال بعد از آن وقوع Big Bang در دسترس نیست. منجمان بر این باورند که اگر ما بتوانیم اطلاعات دقیقتر در مورد این دوره زمانی بدست آوریم ، قادریم قفل بسیاری از شگفتیهای جهان را باز کنیم از جمله چطور کهکشان ها شکل گرفتند ، چطور تکامل یافتند و بسیاری از سوالات هیجان انگیز دیگر مانند "آیا ما تنهائیم؟".

محققان شرکت IBM با همکاری موسسه رادیو تلسکوپ هلند با استفاده از داده های کلان(Big Data) ، تکنولوژیهای پردازش اطلاعات در مقیاس وسیع و در نهایت تحلیل داده های جمع آوری شده از سیگنالهای رادیویی، در حال تحقیق و آزمایش هستند تا به این سوالات پاسخ دهند.

بشر صدها سال در تلاش است تا با استفاده از تلسکوپ ها اعماق بیکران آسمانها را پیمایش کند و به موفقیتهایی نیز دست پیدا کرد اما در سال 1994 جامعه جهانی تصمیمی بزرگی گرفت و پروژه ای با نام (Square Kilometer Array(SKA را با هدف سرعت دادن به پاسخ سوالات مجهول خود آغاز کرد. پروژه SKA توسط 20 کشور با مجموع 1.5 میلیارد یورو بوجه شروع به کار کرد. آنها رادیو تلسکوپهایی طراحی کردند تا بتواند سیگنالهای بسیار ضعیف از زمان بیگ بنگ را دریافت کند ؛ آنها هزاران دیش رادیویی را به وسعت 5000 کیلومتر چیزی معادل فاصله نیویورک تا لوس آنجلس در فواصل مشخص شده قرار دادند. همه این سیگنالهای ضعیف دریافتی مقدار بسیار زیادی داده هستند که نیاز است تا آنها را با منجمان سرتاسر جهان به اشتراک گذاشت در واقع مقدار داده خام تولید شده توسط این پروژه در روز معادل ظرفیت 15 میلیون Ipad 64 گیگابایتی است .
به گفته Ton Engbersen محقق و دانشمند IBM:"این تجزیه و تحلیل داده های کلان، تا بی نهایت است" او همچنین می افزاید :"اگر شما ترافیک داده های اینترنت را جمع آوری و سپس آن را دو برابر کنید تقریبا شما به مقدار داده جمع آوری شده توسط پروژه SKA در یک روز رسیده اید. "

اگر پروژه SKA امروز به پایان رسد، ما نیاز به سیستمهای کامپیوتری داریم تا این حجم عظیم داده ای را تحلیل کند که آن را Exascale می نامیم و به سادگی می توان گفت که هنوز اینچنین سیستم کامپیوتری وجود ندارد. Exascale قادر خواهد بود در 1 ثانیه به 1quintillion معادل با  عملیات شناور برسد و این یعنی هزار بار سریعتر از قویترین سوپرکامپیوتر امروزی دنیا .

برای حل این چالش بی نظیر دانشمندان در هلند ، سوئیس و ASTRON (موسسه رادیو تلسکوپ هلند) یک همکاری 5 ساله با نام DOME را در این زمینه آغاز کردند. نام Dome از پوشش محافظ تلسکوپ گرفته شده و همچنین نام یک کوه معروف در سوئیس است.

 

تحقیقات Dome زمینه بوجود آمدن Exascale را فراهم کرد که فعالیتهای آن شامل انتقال داده ها ، ذخیره پردازشها، تحلیل داده های در جریان و ذخیره و تحلیل همه داده های خام که روزانه جمع آوری می شوند است.

در دسامبر 2012 آفریقای جنوبی نیز به پروژه SKAپیوست .همکاری دانشمندان در آفریقای جنوبی بصورت از راه دور است و تمرکز آنها بیشتر بر روی پردازش سیگنالها ، الگوریتمهای بسیار پیشرفته پردازش اطلاعات دریافتی و تحلیل داده های SKA است.

دکتر Albert-Jan Boonstra دانشمند و محقق در پروژه DOME در مورد این سوال که وابستگی علم نجوم تا به چه اندازه به Big Data است گفت : "  Big Data با پردازش در مقیاس وسیع، در به تصویر کشیدن هستی از ابتدای پیدایش تا کنون به ما کمک می کند. ما قابلیتهای Big Data و توانایی آن در پردازش و محاسبه در مقیاس وسیع ثابت می کنیم. SKA بسیار بزرگ و قدرتمند خواهد شد و این اولین تلسکوپی خواهد بود که قادر است در اعماق کهکشانها سفر کند و چنین محاسبات حساسی را انجام دهد. این بدین معنی است که اگر اشخاص دیگری در اطراف زمین قصد ارتباط با ما را دارند ما صدای آنها را می شنویم اما قدم اول شنیدن است ! "

منبع : مرجع هدوپ ایران
چطور NASA(ناسا) برای پیش بینی آب و هوا از هدوپ استفاده می کند؟

در چند سال اخیر بحث هواشناسی و بحران آب یکی از مباحث داغ و مهم جوامع بین المللی بوده است و کشورهای مختلف بنا بر ظرفیتهای خود به دنبال راه حلهای مختلف جهت بیش بینی و جلوگیری از تخریب روزافزون آن هستند.  ایالات متحده نیز در این بین با استفاده از سازمانهای گوناگون خود از جمله Nasa به دنبال یافتن راه حلهای موجود است.

دانشمندان هواشناسی برای پیش بینی آب و هوا نیاز دارند تا داده های جمع آوری شده که مقدار آن بسیار زیاد است را به صورت کاملا نامرتب جمع آوری کنند ، سپس بعد از مراحل مرتب سازی و تمیز کردن داده ها آنها را ذخیره و استفاده کنند در این بین زمان بسیار زیادی هدر خواهد رفت. علاوه برآن پردازش این حجم عظیم داده نیازمند هزینه ای بسیار بالاست. در این موقعیت ، دولت شروع به سرمایه گذاری برای حل این مشکل می کند.

ناسا تصمیم گرفت به وسیله تکنولوژی های فناوری اطلاعات، نسل آینده تحلیل و پیش بینی هواشناسی را تولید و راه اندازی کند. ناسا برای شبیه سازی و تحلیل آب و هوا از Apache Hadoop بدلیل بهره وری بالا استفاده می کند. زیرا هدوپ با توزیع داده ها مشکلاتی از قبیل دسترس پذیری داده ها و قابلیت اعتماد را حل کرده و علاوه بر آن با قابلیت پردازش موازی داده ها سرعت پردازش را بطور چشمگیری افزایش داده است.

Glenn Tamkin از تولیدکنندگان و طراحان نرم افزار در Nasa با کمک یکی از همکارانش با استفاده از 34 نود کلاستر شده Hadoop توانست برنامه ای تولید کند تا با استفاده از آن بتوان وضعیت آب و هوا را بیش بینی و شبیه سازی کنند. تیم Tamkin از ترابایت 80 داده برای این کار استفاده کردند. این تیم برای 3 سال تمام داده های آب و هوایی از قبیل سرعت باد، مقدار ریزش باران، درجه هوا، مقدار بارش برف و… را بررسی و ذخیره کرد همچنین اطلاعات تصویری مثل عکس های ماهواره ای و داده های شبیه سازی شده نیز جزئی داده ها هستند.

برنامه نویسان اطلاعات را روی سیستم فایل هدوپ(HDFS) ذخیره می کنند و به وسیله پردازش توزیع شده سرعت پردازش را چند برابر می کنند. عملیاتی از قبیل جمع کردن، شمارش، میانگین، انحراف معیار و دیگر عملیات محاسباتی و آماری با روش MapReduce بسیار سریعتر و قابل اعتمادتر بودند. اجرای عملیات با استفاده از هدوپ بسیاری از مشکلات دانشمندان در این زمینه را می تواند برطرف کند.

با این وجود Tamkin اعلام کرد که هدوپ به صورت کامل انتظاراتشان را برطرف نکرده است ولی تیم بسیار علاقمند است تا بتواند با استفاده از مدیریت کلاسترها سیستم را بهینه تر کند.
مرجع هدوپ ایران hadoop.ir
موفقیت! 💪
رفتن از یک شکست به شکست بعدی بدون از دست دادن اشتیاق است.

سلام و درود بر دوستان و همراهان عزیز.

پنجشنبه پاییزی دلنشین را با یاد پروردگار مهربان آغاز میکنیم.

امروز با مطالبی پیرامون تولید کلان دادها در خدمت شما همراهان عزیز هستم.

با تشکر از توجه همه شما🌷

گلناز اردشیری
@BigDataTechnology
مقالات روز رایانش ابری
دوستان

در SQL Server 2016 قابلیت جدیدی به نام PolyBase اضافه شده است شما بوسیله این قابلیت می توانید SQL Server را به یک کلاستر از نوع هادوپ متصل کنید.
فرض کنید بانک اطلاعاتی با حجم 100PB (یکصد پتا بایت) بر روی بستر هادوپ دارید. این بانک اطلاعاتی مطابق قابلیت هایی که هادوپ در اختیار ما قرار می دهد بر روی بیش از N سرور می تواند توزیع شود.
حالا شما با استفاده از قابلیت PolyBase به کلاستر هادوپی متصل شوید و جداول موجود در هادوپ را به عنوان یک External Table به بانک اطلاعاتی خود معرفی کنید. با اینکار می توانید در SQL Server با استفاده از دستورات TSQL داده های موجود در هادوپ پردازش کنید.
توجه داشته باشید که پردازش حجم عظیم دیتا (Big Data) سمت خود هادوپ به شکل Distribute (توزیع یافته) و نتیجه به سمت SQL Server برگشت داده می شود.
البته اصلاح میکنم هدوپ نه هادوپ*
تولید کلان داده ها:

اولین مرحله از زنجیره کلان داده ها ، تولید داده ها است.
کلان داده ها مجموعه داده های مقیاس بزرگ،متنوع و پیچیده تولید شده از طریق منابع داده های توزیع شده درگسترده ی جغرافیاست.
چنین منابعی شامل حسگر ها، فیلم ها،جریان کلیک و یا همه ی منابع داده های در دسترس دیگر است.
در حال حاظر ، منابع اصلی کلان داده ها اطلاعات عملیاتی و معاملات بازرگانی در شرکت ها ؛ اطلاعات استدلالی و دریافتی از اینترنت اشیا،اطلاعات تعاملی انسانی و اطلاعات مکانی در اینترنت جهانی و داده های تولید شده در تحقیقات علمی است.
این اطلاعات به مراتب بیشتر از ظرفیت های معماری های IT و زیر ساخت های شرکت های موجود است حال نیازمندی بی درنگ بودن نیز بر ظرفیت های محاسباتی موجود فشار بسیار زیادی وارد می کند.

در ادامه در مورد :

داده های شرکت ها ،
داده های اینترنت اشیا،
داده های اینترنتی،
داده های زیست پزشکی

بحث خواهیم کرد.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی

@BigDataTechnology
 کلان داده ها و اپراتورهای مخابراتی

فراهم کننده های سرویس های ارتباطی به علت روند رو به رشد شبکه ها و سرویس های پهن باند، گسترش شبکه های سیار نسل آینده و افزایش ضریب نفوذ اینترنت و تجهیزات ارتباطی (همچون تلفن های هوشمند) و استفاده روز افزون مردم از رسانه های اجتماعی، با حجم سنگین، تنوع بالا و سرعت زیاد اطلاعات مواجه شده­اند. همین امر موجب توجه جدی تر اپراتورهای مخابراتی جهان به بهره برداری از صنعتBig Dataبرای بهبود کسب و کار خود شده است. معمولا اپراتورهای مخابراتی از صنعت Big Dataبرای اهداف زیر استفاده می­کنند:

🔵متمایز شدن از رقبا
🔵بدست آوردن سهم بازار بیشتر
🔵افزایش درآمد
🔵درک بهتر مشتریان
🔵 سودآوری از طریق سرویس های جدید نوآورانه

بهره گیری از مزایای صنعت Big Dataبه اپراتورهای مخابراتی می تواند برای تحقق سه هدف حیاتی زیر در تحول مخابرات استفاده شود:

🔵تحویل سرویس های هوشمندتری که منابع درآمدی جدیدی را تولید می کنند

🔵تحول در عملیات ها برای دستیابی به برتری تجاری و سرویس دهی

🔵ساخت شبکه های هوشمندتر (Smarter Network) برای هدایت و تقویت سازگاری و کیفیت تجربه مشتری

بعضی از کاربردهای Big Dataدر موفقیت کسب و کار اپراتورهای مخابراتی عبارتند از:

مرکز تماس پیشدستانه
 (Pro-active Call Center)
کمپین های هوشمندتر
 (Smarter Campaigns)
تحلیل شبکه
(Network analytics)
سرویس های مبتنی بر مکان
(Location-based Services)


منبع : ایرانیان نت
@BigDataTechnology
داده های اینترنت اشیا

با گسترش تکنولوژی های دیجیتال و افزایش ارتباطات و تعاملات دیجیتالی، رفته رفته سایر علوم و موضوعات بشری نیز از این گسترش بهره مند می شوند. این گسترش با ورود دستگاه های بی سیم کم کم شکل جدیدی را به خود گرفت و جای خود را در قسمت های مهمی از زندگی بشر پیدا کرد.

در این بین یکی از مباحثی که بطور نوظهوری مطرح و شروع به رشد کرده است موضوع اینترنت اشیاء یا همان IOT (Internet Of Things) می باشد. این موضوع در اکثر موضوعات و صنایع خود را بروز داده است که یکی از مهمترین آن موضوعات، اقتصاد و تجارت می باشد. در این تحقیق، پتانسیل های موجود برای ارائه و گسترش این تکنولوژی در اقتصاد و تجارت الکترونیک بررسی شده است. این تکنولوژی در قسمت های مختلفی از تجارت الکترونیک کاربرد دارد. از فروش و بازاریابی تا مباحث لجستیک و انبار داری و همینطور مسائل مالی و غیره. در واقع موضوع اینترنت اشیاء، مفهومی جدید در دنیای فناوری اطلاعات است. این موضوع به مقدار زیادی گسترده است و حتی عده از آن به عنوان اینترنت نسل جدید نام می برند. در واقع این تکنولوژی شامل تعداد زیادی از دستگاه های ریز، سنسور ها، موبایل ها ست که اطلاعاتی را مخابره، ذخیره، بررسی و محاسبه می کنند.


در واقع در این حوزه یک شی (thing) می تواند یک انسان با یک سنسور مانیتور ضربان قلب، یک خودرو با سنسور کنترل باد لاستیک خودرو، یک دستگاه کوچک در یک کارخانه که دود و دما مانیتور می کند و یا هر چیز طبیعی یا دستگاهی که می تواند آدرس شناسه ایی مانند آدرس آی پی را داشته باشد و اطلاعاتی را از طریق قسمت ارتباطی خود مخابره و ارسال کند باشد.


این دستگاه بایستی به دستگاه های دیگر و یا شبکه ای متصل باشد تا بتواند اطلاعات خود را مخابره و ارسال کند. امروزه چنین دستگاه هایی با تکنولوژی هایی مانند RFID (Radio-frequency identification) ، wifi، barcode، QR code و امواج مادون قرمز کار تشخیص و شناسایی را انجام می دهند. هر دستگاه در این گستره بوسیله یک شناسه کاربری (ID) شناسایی شده و عموما فراتر از مدل ارتباطی M2M (Machine-to-Machine) ارتباط برقرار می کنند و پروتکل های مختلفی را پشتیبانی می کنند.

در این تحقیق نقش و کارایی این تکنولوژی در حوزه تجارت الکترونیک بررسی شده است.

همینطور نیاز به آدرس دهی گسترده در این بین نیز پر رنگ شده و پروتکل هایی مانند آی پی نسخه 6 نیز بیشتر مورد توجه قرار گرفته اند. کاربرد و استفاده های مختلفی را برای این تکنولوژی می توان نام برد. مواردی مانند:

سیستم های کنترل و سیستم های مانیتورینگ برای استفاده در خانه های هوشمند، کارخانه ها، بیمارستان ها، اماکن ورزشی، ساختمان های هوشمند، مراکز خرید و تجاری و غیره . طبق بررسی اخیر گارتنر پیش بینی می شود تا سال 2020 میلادی حدود 26,000,000,000 دستگاه اینترنت اشیاء وجود داشته باشد. تحقیق دیگری توسط ABI research صورت گرفته که نشان میدهد تا سال 2020 چیزی حدود 30,000,000,000 دستگاه متصل به اینترنت اشیاء بصورت بی سیم وجود خواهند داشت.

منبع :جامع آزاد رایانش ابری

@BigDataTechnology
نقش داده های کلان (Big Data) نیز در استفاده از اینترنت اشیاء مهم و تاثیرگذار است. رفته رفته و با گذشت زمان، داده های عظیم تولید شده توسط دستگاه ها، موبایل ها، شبکه های اجتماعی و وب ها بیشتر و بیشتر می شود و اطلاعات و نتایج استخراج شده از داده های کلان می تواند تاثیرات زیادی در فعالیت های تجاری و تصمیم گیری های داشته داشته باشد. داده های کلان همیشه ارتباط خوبی با تجارت داشته است. حال با وجود اینترنت اشیاء، تولید داده های کلان بر روی این بستر آسان تر و با کیفیت تر می شود.
🌹 موفقیت یک مهارت است که باید آموخته شود . برای کسب هر مهارتی باید وقت گذاشت .

در مسیر موفقیت شاید نتوانید خرگوش باشید اما لاکپشت بودن بهتر از سنگ بودن است .

لاک پشت دیر یا زود به جایی میرسد اما سنگ هرگز 🌹

سلام بر دوستان و همراهان عزیز

💐 صبح زیبای آدینه تان بخیر،  دلتون شاد و تن تون سلامت 💐

امروز با یاد پروردگار مهربان با مطالب :

انواع داده های کلان
اکتساب کلان داده ها
جمع آوری داده ها
انتقال داده ها
پیش پردازش داده ها
یکپارچه سازی

در خدمت شما سروران هستم.

با تشکر از توجه شما
گلناز اردشیری
@BigDataTechnology
داده های شرکت ها :

در سال 2013 شرکت IBM گزارشی را با عنوان "علم تحلیل: استفاده ی دنیای واقعی از کلان داده ها " منتشر کرد که نشان می دهد داده های داخلی شرکت ها منابع اصلی کلان داده ها هستند.
داده های داخلی شرکت ها به طور عمده از داده های بازرگانی بر خط و تحلیل داده های بر خط تشکیل می سود که اکثر آن ها داده های جمع آوری شده ی ایستا هستند و توسط RDBMS ها به شیوه ای ساخت یافته مدیریت می شوند.
علاوه بر این داده های تولید، داده های موجودی،داده های فروش،داده های مالی نیز داده های داخلی شرکت ها را تشکیل میدهند که هدف آن ذخیره ی فعالیت های اطلاعاتی و داده محور در شرکت ها است تا تمام فعالیت های شرکت ها در قالب داده های داخلی ثبت شود.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی

@BigDataTechnology