BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
MapReduce: Simplified Data Processing on Large Clusters
The Google File System
Bigtable: A Distributed Storage System for Structured Data
«همیشه هر آنچه در توان دارید انجام دهید. شاید بتوانید آنهایی که رضایتشان را جلب نکرده اید غافلگیر کنید»

با درود فراوان به همراهان عزیز.

اول هفته پر از انرژی و سلامتی برایتان آرزومندم.
این هفته با تحلیل کلان داده ها در خدمت شما هستم.
امروز با یاد پرودرگار با هم تحلیل داده های سنتی مرور میکنیم و از روزهای آینده تحلیل کلان داده ها را بررسی میکنیم.

با تشکر از توجه شما🌷

گلناز اردشیری

@BigDataTechnology
BigaData Analytics

🔵 تحلیل داده های سنتی:

تحلیل داده ها به منظور متمرکز کردن،استخراج و تصفیه ی داده های مفید از داده های مخفی شده در دسته از داده های بی نظم از روش آماری مناسب استفاده می شود و برای بیشترین استفاده از عملکرد داده ها  و حداکثر کردن ارزش داده ها شناسایی می شود.

تحلیل کلان داده ها میتواند به عنوان تحلیل نوعی خاص از داده ها فرض شود.
بسیاری از روش های های تحلیل داده های سنتی ممکن است هنوز برای تحلیل کلان داده ها استفاده شود.
روش های سنتی زیر که مربوط به علوم کامپیوتر و آمار هستند با هم  بررسی خواهیم کرد.

Cluster Analysis
Factor Analysis
Correlation Analysis
Regression Analysis
A/B Testing
Statistical Analysis
Data mining
تحلیل سنتی---》
Cluster Analysis
تحلیل خوشه ای :

تجزیه و تحلیل خوشه ای، یک روش آماری برای گروه بندی داده ها یا مشاهدات، با توجه به شباهت یا درجه نزدیکی آنها است. از طریق تجزیه و تحلیل خوشه ای داده ها یا مشاهدات به دسته های همگن و متمایز از هم تقسیم می شوند. از این روش برای بخش بندی کردن مشتریان بر مبنای شباهت هایشان استفاده می شود. غالبا در تحلیل خوشه ای، تصمیم گیری درباره تعداد خوشه ها بر مبنای ملاک بیزی و ملاک آکائیکه گرفته می شود. جوابی در سطح حد اقل ملاک بیزی و ملاک آکائیکه به دست می آید، می تواند معرف بهترین تعادل موجود بین دقت و پیچیدگی باشد که مهم ترین تاثیرات را در نظر بگیرد و اهمیت آنها را کم نشان ندهد. همچنین، راه دیگر برای تصمیم گیری در زمینه تعداد خوشه ها، استفاده از نسبت فاصله می باشد. بهینه ترین تعداد خوشه ها هنگامی است که تغییری بزرگ در نسبت فاصله مشاهده می گردد.

اصطلاح تحلیل خوشه ای اولین بار توسط Tryon در سال ۱۹۳۹ برای روش های گروه بتدی اشیائی که شبیه بودند مورد استفاده قرار گرفت. تجزیه خوشه ای ابزار میانبر تحلیل داده هاست که هدف آن نظم دادن به اشیا مختلف به گروه هایی که درجه ارتباط بین دو شئی اگر آنها به یک گروه تعلق داشته باشند حداکثر و در غیر این صورت حداقل است. به عبارت دیگر تحلیل خوشه ای ساختار داده ها را بدون توضیح اینکه چه وجود دارد را نشان می دهد.

تحلیل خوشه ای یک ابزار اکتشاف  است و نتایج آن ممکن است
۱) در تعریف یک طرح طبقه بندی مانند رده بندی حیوانات، حشرات یا گیاهان مفید باشد.
۲) قواعدی برای اختصاص موارد جدید به طبقه ها به منظور شناسایی و تشخیص به دست دهد.
۳) حدود تعریف، اندازه و تنوع و تعریف برای آنچه قبلا به شکل مفاهیم وسیعی بوده است، فراهم آورد.
۴) نمونه هایی برای معرفی طبقه ها بیاید.
۵) مدل آماری برای توصیف جامعه ارائه دهد.

مفاهیم فاصله و تشابه از مفاهیم اساسی تحلیل خوشه ای است. فاصله اندازه‌ای است که نشان می دهد دو مشاهده تا چه حد جدا از یکدیگرند. در حالی که تشابه شاخص نزدیکی آنها با یکدیگر است. پژوهشگر قبل از تحلیل، نخست باید یک مقیاس کمی  را که بر پایه همخوانی(تشابه) بین مشاهده‌ها اندازه گرفته می شود را انتخاب کند. این شاخص ها با توجه به الگوریتم تشکیل خوشه، ماهیت متغیر ها(پیوسته، گسسته یا دو ارزشی) و مقیاس اندازه گیری انتخاب می شوند.
تحلیل داده های سنتی ---》

تحلیل عاملی- Factor Analysis

تحلیل عاملی نامی عمومی است برای برخی روشهای آماری چند متغیره که هدف اصلی آن خلاصه کردن داده ها می باشد. این روش به بررسی همبستگی درونی تعداد زیادی از متغیرها می پردازد و در نهایت آن ها را در قالب عامل های کلی محدودی دسته بندی و تبیین می کند. تحلیل عاملی روشی هم وابسته بوده که در آن کلیه متغیرها به طور همزمان مدنظر قرار می گیرند، به عبارت دیگر در این تکنیک که به دو نوع Q و R قابل تقسیم است، هریک از متغیرها به عنوان یک متغیر وابسته لحاظ می شوند.
تحلیل داده های سنتی --》

تحلیل همبستگی -
Correlation Analysis
یک روش تحلیلی برای یافتن قانون همبستگی بین پدیده های مشاهده شده و بر اساس پیش بینی کردن و کنترل است.

یک مثال:
وقتی مشتریان سوپرمارکت ها در حال خرید پوشک بچه هستند شیر نیز میخرند.
تحلیل داده های سنتی --》

 
تحلیل رگرسيون - (Regression) 

از لحاظ لغوی تعریف نماییم ، این واژه در فرهنگ لغت به معني پسروی، برگشت و بازگشت است. اما اگر آن را از دید آمار و ریاضیات تعریف کنیم اغلب جهت رساندن مفهوم "بازگشت به يک مقدار متوسط يا ميانگين” به کار مي رود. بدين معني که برخي پديده ها به مرور زمان از نظر کمي به طرف يک مقدار متوسط ميل مي کنند.

در حقيقت تحليل رگرسيوني فن و تکنيکي آماري براي بررسي و مدل سازي ارتباط بين متغيرها است.
 رگرسيون تقريباً در هر زمينه اي از جمله مهندسي، فيزيک، اقتصاد، مديريت، علوم زيستي، بيولوژي و علوم اجتماعي برای برآورد و پیشبینی مورد نیاز است .

مي توان گفت تحليل رگرسيوني، پرکاربردترین روش در بين تکنيک هاي آماري است. شمايي کلي و خلاصه شده از يک تحليل رگرسيوني ساده به صورت زير مي باشد: 
در ابتدا تحليل گر حدس مي زند که بين دو متغير نوعي ارتباط وجود دارد ، در حقيقت حدس مي زند که يک رابطه به شکل يک خط بين دو متغير وجود دارد و سپس به جمع آوري اطلاعات کمي از دو متغير مي پردازد و اين داده ها را به صورت نقاطي در يک نمودار دو بعدي رسم مي کند.
تحليل داده هاي سنتي-->

آزمون A/B :
Bucket testing
اين روش يك فناوري براي تعيين طرح ها براي بهبود متغيير هاي هدف به وسيله مقايسه گروه داده هاي آزموده شده است.
كلان داده ها براي اجرا و تحليل به تعداد زيادي آزمون نياز دارند تا ميزان كافي از گروه ها را براي تشخيص تفاوت هاي مهم بين گروه كنترل و گروه عمليات تضمين كند.
تحليل داده هاي سنتي -->

تحليل آماري - Statistical Analysis

تحليل بر اساس نظريه آماري،يك شاخه از رياضيات كاربردي است.
در نظريه آماري تصادفي بودن و عدم قطعيت با نظريه احتمال مدل شده است.
تحليل آماري براي مجموعه داده هاي مقياس بزرگ ميتواند توصيف و استنباط را فراهم كند.
تحليل آماري در زمينه اقتصاد و سيستم سلامت بسيار پر كاربرد است.
تحليل داده هاي سنتي -->

داده كاوي - Data Mining

حتماً تاکنون بارها عبارت "انقلاب دیجیتال" به گوشتان خورده است و احتمالاً درباره واژه هایی مانند انقلاب دیجیتال، انفجار اطلاعات، عصر رایانه، عصر اطلاعات و ارتباطات و واژه های مشابه، اطلاعاتی نیز دارید. اما چقدر به کاربرد عملی و ملموس این عبارات و مخصوصاً فایده انقلاب دیجیتال در زندگی فکر کرده اید؟

در طول دهه گذشته با پیشرفت روز افزون کاربرد پایگاه داده ها، حجم داده های ثبت شده به طور متوسط هر 5 سال 2 برابر می شود. در این میان سازمان­هایی موفقند که بتوانند حداقل 7% داده هایشان را تحلیل کنند . تحقیقات انجام یافته نشان داده است که سازمانها کمتر از یک درصد داده هایشان را برای تحلیل استفاده می کنند . به عبارت دیگر در حالی که غرق در داده ها هستند تشنه دانش می باشند.

بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند .

امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمند و بسیاری از موارد دیگر می باشد.

داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.

کاوش داد ه ها به معني کنکاش داده هاي موجود در پايگاه داده و انجام تحليل هاي مختلف بر روي آن به منظور استخراج اطلاعات مي باشد.
داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت می‌گیرد و یافته‌ها‌با‌به‌كارگیری الگوهایی‌،‌احراز اعتبار می‌شوند . هدف اصلی داده كاوی پیش بینی است. و به صورت دقیق تر میتوان گفت :

"کاوش داده ها شناسايي الگوهاي صحيح، بديع، سودمند و قابل درک از داده هاي موجود در يک پايگاه داده است که با استفاده از پرداز شهاي معمول قابل دستيابي نيستند"


‌فرایند داده ‌كاوی شامل سه مرحله می باشد :
1. كاوش اولیه
2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید
3. بهره برداری
داده كاوي

مرحله 1 : كاوش
معمولا‌ این‌ مرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،‌تبدیل داده ها‌و‌انتخاب زیرمجموعه ‌هايي‌‌ از ركوردها ‌با‌ حجم ‌عظیمی‌از ‌متغييرها( فیلدها ) باشد .
سپس با توجه ‌به‌ ماهیت‌ مساله تحلیلی‌، این‌مرحله ‌به‌ مدل‌ هاي‌‌ ‌پیش بیني ساده یا مدل ‌های‌ آماری‌ و‌ گرافیكی برای شناسایی متغیرهاي مورد نظر و تعیین پیچیدگی مدل ‌ها برای استفاده در مرحله بعدی نیاز دارد .

مرحله 2:ساخت و احراز اعتبار مدل
این ‌مرحله‌ به بررسی‌ مدل ‌هاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيش‌بيني آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیك‌ های‌ متعددی‌ برای ‌رسیدن ‌به‌ این ‌هدف توسعه یافتند و " ارزیابی رقابتی مدل ها"‌نام گرفتند.
بدین منظور مدل‌ های مختلف برای مجموعه داده‌های یكسان ‌‌به‌كار‌می‌روند‌ تا ‌كارآیی ‌شان ‌با‌هم مقایسه‌شود ،‌
سپس مدلی كه ‌بهترین كارآیی را داشته باشد‌، انتخاب می‌شود.‌
این‌تكنیك‌ها عبارتند از :
Bagging,Boosting ,Stacking و Meta-learning

مرحله 3 : بهره برداری
آخرین ‌مرحله ‌مدلی ‌را كه ‌در مرحله قبل ‌انتخاب‌ شده است، در داده‌های‌ جدید به كار‌ می‌گیرد تا پیش‌بینی ‌هاي‌ خروجی‌ های مورد انتظار را تولید نماید.
داده كاوی‌ به‌ عنوان‌ ابزار ‌مدیریت ‌اطلاعات ‌برای ‌تصمیم گیری‌،‌عمومیت ‌یافته ‌است .
اخیرا‌،‌توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.

بااین وجود تفاوت عمده ای بین داده كاوی و EDA وجود‌دارد‌.داده‌كاوی‌ بیشتر‌ به ‌برنامه ‌های ‌كاربردی گرایش دارد تا ماهیت اصلی پدیده .به عبارتی‌داده كاوی كمتر با شناسایی روابط بین متغیرها سروكار دارد .
مفاهیم اساسی در داده كاوی

Bagging:
این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل به كار می رود.
فرض كنید كه قصد دارید مدلی برای رده بندی پیش بيني بسازید و مجموعه داده های مورد نظرتان كوچك است.
شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.
به طور كلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.
سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها ،‌یك رای گیری ساده انجام دهید.
رده بندی نهایی ، رده بندی ای‌خواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند .

Boosting:
این مفهوم برای تولید مدل‌های چندگانه (برای پیش بینی یا رده بندی)به كار می‌رود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد كرد .

Meta-Learning :
این مفهوم برای تركیب پیش بینی‌های حاصل از چند مدل به كار می‌رود و هنگامی كه انواع مدل‌های موجود در پروژه خیلی متفاوت هستند، كاربرد دارد.
فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.
هر یك از كامپیوترها،رده بندی هایی رابرای نمونه ها‌پیش بینی كرده اند.
تجربه نشان می‌دهدكه تركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.
پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.
گاهی درست در لحظه سقوط، فرصت پرواز هم هست،انتخاب با توست.🕊

سلام و صبح بخیر خدمت دوستان عزیز بیگ دیتا.☀️

روزی پر از سلامتی ،شادی، تندرستی برایتان آرزومندم.💥💫

امروز با یاد ایزد با مطالب پیرامون روش های تحلیل کلان داده ها در خدمت شما عزیزان هستم.🙏

در ضمن تحلیل آماری اینستاگرام برای کاربران فارسی که توسط استاد گرانقدر آقای مجتبی بنائی انجام شده در اختیار شما عزیزان قرار میدهم.

با تشکر از توجه شما 🌷

گلناز اردشیری
@BigDataTechnology
روش های تحلیل کلان داده ها :


Bloom Filter
Hashing
Index
Triel
Parallel computing

هر یک را به متخصر بررسی میکنیم.
Bloom filter

بلوم فیلتر:

در کاربرد کلان داده هایی استفاده می شود که نرخ بازشناسی نادرست قطعی را اجازه میدهند.

در واقع یک آرایه بیتی و یک سری از توابع در هم ساز است.

قاعده کلی :

"ذخیره سازی مقادیر در هم داده ها به جای خود داده ها با استفاده از یک آرایه بیتی است."

مزایا :

کارایی بالا فضا
سرعت بالا پرس و جو

معایب :

نرخ بازنشانی نادرست قطعی
 Certain misrecognition rate

دشواری در حذف