BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
بعد از این کار، از دکمه + که بالای صفحه مشاهده می کنید استفاده کنید تا وارد صفحه جستجوی کتابخانه ها شود. langdetect و requests را جستجو کرده و با زدن دکمه Install آنرا نصب کنید . (به شکل بالا رجوع کنید)

پروژه ایجاد شده را از این آدرس در گیت هاب دانلود کنید :

https://github.com/smbanaie/instagram_analysis

بهترین راه دانلود آن هم البته این است که اگر یک اکانت در گیت هاب دارید و با آن وارد گیت هاب شده اید ، بر روی دکمه Fork روی این مخزن کد کلیک کنید تا کدها به حساب کاربری شما منتقل شود سپس پروژه را روی سیستمتان کلون گرفته و آنرا با پای چارم باز کنید . به این ترتیب تغییرات شما هم می تواند مجددا به مخزن کد خودتان در گیت هاب منتقل شود .

برای شروع کار هر چه لازم داشته ایم ، آماده شده است.
آشنایی با توابع ایستاگرام – Instagram API

قبل از شروع به کار ، بد نیست نگاهی به اطلاعاتی که ایستاگرام در اختیار ما می گذارد بیندازیم . هر چند می توانیم از کتابخانه هایی که اینستاگرام برای زبانهای برنامه نویسی مختلف نوشته است استفاده کنیم اما چون اینستاگرام یک روش فراخوانی توابع به صورت REST‌ هم در اختیار می گذارد و کافیست یک آدرس وب را فراخوانی کنیم تا اطلاعات عمومی یک کاربر خاص ، آخرین پستها راجع به یک برچسب ،‌آخرین پستهای یک کاربر ، افرادی که یک پست را لایک کرده یا کامنت گذاشته اند و … را به راحتی به دست بیاوریم . برای مشاهده لیست کامل توابعی که اینستاگرام در اختیار ما می گذارد به بخش نقاط فراخوانی یا EndPoints‌ از منوی توسعه گران اینستاگرام مراجعه کنید .

مثلا برای مشاهده آخرین مطالبی که راجع به یک برچسب در ایستاگرام ارسال شده است،‌ این نقطه فراخوانی را داریم :

https://api.instagram.com/v1/tags/{tag-name}/media/recent?access_token=ACCESS-TOKEN

که البته ما آنرا به صورت

https://api.instagram.com/v1/tags/{tag-name}/media/recent?access_token=ACCESS-TOKEN

فراخوانی می کنیم . مثلا برای یافتن آخرین پستهای راجع به آنفولانزایی که جدیداً شایع شده است این آدرس را فراخوانی می کنیم :‌

https://api.instagram.com/v1/tags/آنفولانزا/media/recent?client_id=baad7b9aa14041c5bb2dc1f9b477447c

که البته اگر روی آن کلیک کنید اطلاعات را به صورت جی سان و نامرتب مشاهده می کنید .

توصیه می کنم برای مشاهده خروجی این نقاط فراخوانی حتما از افزونه Postman‌ در مرورگر کروم استفاده کنید تا خروجی را به این شکل مشاهده کنید و بتوانید هر درخواست را با توضیح مناسب برای مراجعات بعدی خودتان ذخیره کنید .
رای مشاهده آخرین پستهای یک یوزر ،‌ افرادی که یک پست را لایک کرده اند، افرادی که برای یک پست نظر گذاشته اند و نیز اطلاعات یک پست (media) که در این برنامه استفاده کرده ایم  از نقاط فراخوانی زیر استفاده کرده ایم :

https://api.instagram.com/v1/users/{user-id}/media/recent/?access_token=ACCESS-TOKEN

https://api.instagram.com/v1/media/{media-id}/likes?access_token=ACCESS-TOKEN

https://api.instagram.com/v1/media/{media-id}}/comments?access_token=ACCESS-TOKEN

https://api.instagram.com/v1/media/{media-id}?access_token=ACCESS-TOKEN

می توانید هر کدام از این لینکها را با داده هایی که از با جستجوی مطالب یک برچسب به دست می آورید (شماره شناسایی یک پست ، شماره شناسایی یک کاربر) بررسی کنید و اطلاعات مفیدی را به صورت چشمی درون postman مشاهده کنید . قبل از اینکه حتی به سراغ کد نویسی برویم .

جمع آوری اطلاعات

برای جمع آوری اطلاعات راجع به پست ها و اینکه به ازای هر پست چه تعداد برچسب و چه تعداد لایک و چه تعداد نظر داریم، استراتژی ساده زیر را پیاده کرده ام :

۱. ابتدا چند برچسب مشخص را در اینستاگرام جستجو کردم (GenerateTags.py) و از بین نتایج ، برچسب های آنها را در یک فایل ذخیره کردم (tags.txt).

همانطور که می بینید کدها بسیار ساده و گویا هستند .
کته ای که وجود دارد در خط ۲۲ بررسی کرده ام که اگر برچسب یک برچسب فارسی باشد ، آنرا به خروجی اضافه کنم چون به دلیل نزدیک عربی با فارسی و کلمات مشترک زیادی که بین این دو زبان هست ، در نتایج جستجو ، گاهی پستهای عربی هم ظاهر می شد که سعی کردم به این صورت آنها را کنترل کنم و خط آخر هم سعی کردم تگ های تکراری را با فایل کتابخانه ایکه به صورت بسیار ساده نوشته ام ، حذف کنم.

۲. در مرحله بعد ، از روی این تگ ها که تعدادشان زیاد شده است، مجددا آخرین پستهای آنها را خوانده (GetMediasFromTags.py) و پستها را در یک فایل ذخیره کردم (medias.txt) .

۳. با این کار ،‌ حدود هزاران مطلب داریم که می توانیم کاربرانی که آنها را لایک کرده اند یا کامنت گذاشته اند را استخراج کنیم (GetUserIdFromMedias.py) . با این روش سعی کرده ام که کاربران کاملا تصادفی را برای تحلیل انتخاب کنم  . (user_ids.txt)

۴. در مرحله آخر ، اطلاعات پستهای هر کاربر را استخراج می کنیم (GetInfoFromUsers.py) و در یک فایل  csv ذخیره می کنیم (info.csv) . البته اطلاعات بسیار زیادتری می توان راجع به یک کاربر و پستهای او هم ذخیره کرد مثلاً متن پستها یا برچسب ها یا تعداد دنبال کنندگان و تعداد دنبال شوندگان کاربر که آنرا به عهده خواننده می گذاریم .

در آموزش بعدی به استفاده از این داده ها و ساخت نمودارهای مختلف آماری خواهیم پرداخت ….
تجربه کردن، به تنهائی کافی نیست، تجربه را باید سنجید و در جایگاه خویش قرار داده و آن را تجزیه و تحلیل نمود تا بتوان به نتایج آن دست یافت.

چند قدم مانده به یلدا
به شبی خاطره انگیز و بلند
به سفیدی زمستان و اناری که دلش قصه ی یکرنگی است.
یلدایتان پیشاپیش مبارک🍉

با سلام و درود خدمت دوستان عزیز.
آخرین روز پاییزتون گرم و زیبا🍂🍁🔥

امروز با یاد پروردگار ادامه مطالب روش های تحلیل کلان داده ها را با هم دنبال خواهیم کرد.🙏

لازم به ذکر است پایه و اساس آموزش گام گام بر اساس سر فصل های کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی است.

با تشکر از توجه شما🌷

گلناز اردشیری

@BigDataTechnology
روش تحلیل کلان داده ها

Index
شاخص :

موارد استفاده :
"پایگاه داده های رابطه ای سنتی، فناوری مدیریت داده های نیمه ساخت یافته و غیر ساخت یافته"

مزایا :کاهش هزینه خواندن و نوشتن در دیسک
بهبود در سرعت درج،حذف،اصلاح پرس و جو

معایب: هزینه اضافی ذخیره سازی فایل های شاخص
دانلود بسته مجازی هدوپ

مرجع هدوپ ایران برای سهولت در استفاده از فریم ورک هدوپ و آشنایی سریع با توانایی های آن،بسته ماشین مجازی هدوپ اختصاصی خود را برای دانلود ارائه می کند. لازم به ذکر است این بسته ماشین مجازی دارای حجمی کمتر از ماشین های مجازی متداول نظیر Cloudera و Hortonworks (نزدیک به ۹۵۰ مگابایت) و همینطور ساده تر از آنها می باشد. با راه اندازی این بسته می توانید به سرعت با هدوپ کار کنید بدون اینکه درگیر مشکلات نصب شوید.

http://hadoop.ir/box/
ﺯﻣﺴﺘﺎﻥ ڪم ڪم می آید
ﺩﻭﺭ ﻗﻠﺒﺘﺎﻥ ﺷﺎﻝ ﮔﺮﺩﻥ ﺑﭙﯿﭽﯿﺪ
ڪہﺩﺭ ڪﻮﻻﮎ آﺩﻣﻬﺎے ﯾﺦ ﺯﺩﻩ ﺍﯾﻦ ﺩﯾﺎﺭ،ﻣﻨﺠﻤﺪ ﻧﺸﻮﺩ ....🍃
ﻣﻮﺍﻇﺐ ﺳﺮﻣﺎے ﺳﻮﺯﺍﻥ ﻧﺎﻣﻼﯾﻤﺘے ﻫﺎﯼ ﺍﯾﻦ ﺩﻧﯿﺎ ﺑﺎﺷﯿﺪ،
ﻣﺒﺎﺩﺍ ﺭﻭﺣﺘﺎﻥ ﺳﻨﮓ ﺷﻮﺩ ...
ﺣﻮﺍﺳﺘﺎﻥ ﺑﻪ ﺑﺮﮔﻬﺎے ﺯﯾﺮ ﭘﺎﯾﺘﺎﻥ ﺑﺎﺷﺪ،
ﺍﻧﻬﺎ ﺭﻭﺯے ﻋﺮﻭﺱ ﺩﺭﺧﺘےﺑﻮﺩﻧﺪ،
ﻟﻬﺸﺎﻥ ﻧڪﻨﯿﺪ
ﺧﻼﺻﻪ ﺯﻣﺴﺘﺎﻥ ﺯﯾﺒﺎ ﺍﻣﺪﻩ ،🌞
ﻣﻮﺍﻇﺐ ﺍﻧﺴﺎﻧﯿﺘﻬﺎے ﺑﻪ ﺧﻮﺍﺏ ﺯﻣﺴﺘﺎﻧے ﺭﻓﺘﻪ ﺑﺎﺷﯿﺪ ...

ﺯﻣﺴﺘﺎﻧﺘﺎﻥ ﺯﯾﺮ ڪﺮﺳے ﻋﺸﻖ،ﮔﺮﻡ ﮔﺮﻡ...ツ

سلام و درود به دوستان عزیز بیگ دیتا
امروز با یاد پرورگار مهربان با ادامه بحث دیروز در خدمت شما هستم.

با تشکر با توجه شما 🌷

گلناز اردشیری
@BigDataTechnology
Forwarded from Ping Channel
اتحادیه ITU نخستین استاندارد برای کلان‌داده‌ها را تدوین کرد.
اتحادیه بین‌المللی ITU وابسته به سازمان ملل متحد که سال‌هاست با کار بر روی مباحث فنی فراوان تلاش کرده همکاری جمعی در این زمینه‌ها را شکل دهد، جمعه گذشته نخستین استاندارد جهانی در حوزه کلان‌داده‌ها (Big Data) را عرضه کرد.
http://bigdatasp.com/wp-content/uploads/2015/06/bd5.jpg
استاندارد تازه بین‌المللی، حاوی پیش‌نیازها، قابلیت‌ها و کاربردهای کلان‌داده‌های مبتنی بر فضای ابری است. در استاندارد مزبور بر این مسئله هم تاکید شده که منافع این فناوری می‌تواند در یک مقیاس جهانی بدست آید.
این استاندارد ضمنا شرح می‌دهد که چگونه سیستم‌های پردازش ابری می‌توانند موجب پدید آوردن کلان‌داده‌ها گردند. به گفته یکی از مدیران ITU استاندارد ارائه شده جدید، مبانی جهانی مورد توافق برای کلان‌داده‌های مبتنی بر فضای ابری را فراهم کرده است.
در تشریح این استاندارد جدید، موضوعاتی مانند توصیه‌ها و الزامات جمع‌آوری داده‌ها، مشاهده، تحلیل و ذخیره‌سازی، و نیز مسائلی مانند ملاحظات امنیتی ذکر شده است.با این حال ظاهرا در این استاندارد، تفاوت قابل ملاحظه‌ای با شرایط و ضوابط حاکم بر شرکت‌ها و وضعیت کنونی به چشم نمی‌خورد.
به نظر می‌رسد این نکته از این واقعیت سرچشمه می‌گیرد که غالبا در فضای فناوری‌های جدید و پیش از شکل گرفتن استاندارد رسمی، شرکت‌ها و سازندگان نوعی توافق و هماهنگی میان یکدیگر را شکل می‌دهند که در نتیجه آن، چندگانگی و اختلاف رویه‌ها کاهش می‌یابد. به گفته یک کارشناس، این هماهنگی در فضای فناوری کلان‌داده‌ها هم اتفاق افتاده و نتیجتا توافق جمعی را پیش‌تر شکل داده است.
منبع: http://www.itu.int/en/ITU-T/techwatch/Pages/big-data-standards.aspx
روش تحلیل کلان داده ها

Triel

درخت پیشوندی :
نوعی درخت در هم ساز است.
در اصل برای بازیابی سریع به دست آوردن آمار فراوانی کلمات (word frequency) استفاده می شود.
ایده اصلی استفاده از پیشوند های مشترک رشته های کاراکتری است تا برای بهبود کارایی پرس و جو، تعداد مقایسه روی رشته های کاراکتری در بزرگ ترین اندازه را کاهش میدهد.

منبع :  کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
Parallel Computing
رایانش موازی :

 ایده اصلی :
تجزیه یک مسئله و انتساب زیر مسئله ها به چند پردازش مستقل.

محاسبات موازی کلاسیک و ابزاها:
MPI
MapReduce---》big data :

- hive
- pig
- sawzall

Dryad  --------》big data :

- Scope
- DryadLINQ

منبع کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
آزمایش اجرای MapReduce بر روی رزبری پای توسط شرکت مهندسی تکنولوژی فرافکر


همیشه این فرض وجود داشته که آیا برای استفاده از هدوپ و اجرای یک عمل MapReduce نیازمند سخت افزارهای گران و قدرتمند هستیم؟ ما در این آزمایش قصد داریم چگونگی اجرای یک عمل MapReduce را بر روی یک دستگاه کامپیوتر کوچک رزبری پای امتحان کنیم.

رزبری پای چیست؟

برد Raspberry Pi يک برد پردازشگر در ابعاد يک کارت اعتباري است. هدف از توليد اين برد ترويج آموزش علوم کامپيوتر و الکترونيک در مدارس و دانشگاه هاست. این کامپیوتر کوچک دارای پردازشگری با قدرت ۷۰۰ مگاهرتز و ۵۱۲ مگابایت رم می باشد.
اين برد از سيستم عامل‌هاي Debian GNU/Linux، Raspbian، Fedora،Arch Linux ARM، RISC OS، Free BSD و Plan9 پشتيباني مي‌کند.

شروع کار

برای شروع کار فرض می‌کنیم که رزبری پای ما دارای یک عدد کارت شبکه بیسیم و وصل به شبکه داخلی کامپیوتر اصلی ما می‌باشد و یا با استفاده از یک کابل شبکه لپ تاپ یا کامپیوتر خودمان را به آن متصل کرده ایم. همچنین بسته هدوپ را دانلود کرده اید و آنرا به درستی نصب کرده اید. اگر نمی دانید چطور هدوپ را نصب کنید به این لینک مراجعه کنید.

۱. آی پی رزبری پای ما ۱۹۲.۱۶۸.۱.۱۵۵ می باشد. با استفاده از ssh می بایست به این آی پی وصل شویم تا دسترسی خط فرمان به کامپیوتر رزبری پای داشته باشیم:

ssh pi@192.168.1.155

ا pi نام کاربری پیش‌فرض رزبری پای می‌باشد.

با اجرای این دستور از ما رمز عبور درخواست می‌شود که به صورت پیش‌فرض رمز عبور raspberry می باشد.

پس از اجرای این دستور خط فرمان کامپیوتر رزبری در اختیار ما قرار میگیرد:
۲. با استفاده از دستور cd به پوشه ای که هدوپ در آن قرار گرفته می رویم. فایل‌های اجرایی که می‌توان با هدوپ کار کرد در پوشه bin قرار گرفته است: