تحلیلگری عظیم‌داده و کسب‌وکار – Telegram
تحلیلگری عظیم‌داده و کسب‌وکار
892 subscribers
45 photos
42 videos
57 files
478 links
📌تحلیلگری عظیم داده و کسب و کار؛

🔎Big Data and Business Analytics

آموزش، پژوهش، اطلاع‌رسانی، ترویج و خدمات مشاوره حوزه تحلیلگری عظیم‌داده

سرپرست کانال: دکتر سعید روحانی، عضو هیأت علمی دانشگاه تهران

وبسایت
www.bdbanalytics.ir

ادمین کانال
@BDBA_UT
Download Telegram
📚معرفی کتاب

📌کتابچه راهنمای پژوهشگر در تجزیه و تحلیل عظیم­‌داده

"Research Practitioner's Handbook on Big Data Analytics"


📌نویسندگان: S. Sasikala, Renuka Devi D
📌این کتاب در سال 2023 و توسط Apple Academic Press انتشار یافته است.


📍 این کتاب با معرفی مفهوم عظیم­‌داده بر مفاهیم اصلی تجزیه و تحلیل داده‌های عظیم، ابزارها، تکنیک‌ها و روش‌شناسی از دیدگاه‌های پژوهشی تمرکز دارد و می­‌تواند راهنمایی جامع با ترکیبی از بینش‌های نظری و رویکردهای عملی را ارائه ‌دهد که طیف وسیعی از خوانندگان را پوشش می­‌دهد. این کتاب همچنین توضیح می‌دهد که چگونه می‌توان از تجزیه و تحلیل عظیم­­‌داده‌ها برای استخراج بینش‌های ارزشمند از مجموعه داده‌های بزرگ و تصمیم­‌گیری آگاهانه استفاده کرد.

📍نویسندگان جنبه‌های مختلف تجزیه و تحلیل عظیم­‌داده، از جمله؛ جمع‌آوری، پیش‌پردازش، ذخیره‌سازی، تکنیک‌های تجزیه و تحلیل‌ و نیز تصویرسازی‌داده‌ها را پوشش می‌دهند. آن‌ها درباره ابزارها و فناوری‌های رایج مورد استفاده در تجزیه و تحلیل داده‌های عظیم مانند Hadoop ،Apache Spark و الگوریتم‌های یادگیری ماشین بحث می‌کنند. یکی از تاکیدهای اصلی کتاب بر روی روش تحقیق در تجزیه و تحلیل داده‌های عظیم است. این کتاب همچنین، راهنمایی در مورد فرمول‌بندی سؤالات پژوهش، طراحی آزمایش‌ها، انتخاب تکنیک‌های مناسب تجزیه و تحلیل داده‌ها و تفسیر نتایج ارائه می‌کند. در ادامه نویسندگان بر اهمیت اخلاق و ملاحظات حریم خصوصی در پژوهش­‌های عظیم­‌داده تاکید می‌کنند.

📍در این کتاب، مطالعات موردی و نمونه‌هایی در دنیای واقعی برای نشان دادن مفاهیم و تکنیک‌های مورد بحث ارائه شده‌اند. این مطالعات موردی نشان می‌دهد که چگونه تجزیه و تحلیل عظیم­‌داده‌ها با موفقیت در حوزه‌های مختلف مانند مراقبت‌های بهداشتی، کسب و کار، اجتماعی و آموزشی به کار گرفته شده است. علاوه بر این، کتاب حاضر به چالش‌ها و محدودیت‌های مرتبط با تجزیه و تحلیل عظیم­‌داده‌ها، مانند مسائل مربوط به کیفیت داده، نگرانی‌های مقیاس پذیری، و پیامدهای اخلاقی می‌پردازد. برای غلبه بر این چالش‌ها و نیز به حداکثر رساندن ارزش عظیم­‌داده، استراتژی‌ها و به روش‌هایی را ارائه می‌دهد.

📍به طور کلی، این کتاب به عنوان یک راهنمای عملی برای پژوهشگران و متخصصانی عمل می­‌کند که می‌خواهند از قدرت تجزیه و تحلیل داده‌های عظیم استفاده کنند و آن‌ها را با دانش و مهارت‌های لازم برای انجام پژوهش­‌های مؤثر و استفاده از این نوع داده­‌ها برای بینش و تصمیم­‌گیری معنادار مجهز می‌کند.


این کتاب را می‌توانید در پست بعد دریافت نمایید.


#معرفی_کتاب
#عظیم_داده
#زهرا_رفیعی‌پور


@BigData_BusinessAnalytics
http://www.bdbanalytics.ir
📌📌معرفی ابزار Apache Sqoop

🖌 ابزار Apache Sqoop ابزاری است که برای انتقال کارآمد داده های انبوه بین Apache Hadoop و داده‌های ساختار یافته، مانند پایگاه‌های داده رابطه ای طراحی شده است. این یک رابط خط فرمان را فراهم می‌کند که به کاربران اجازه می‌دهد داده‌های مورد نظر را برای انتقال و مکان مورد نظر برای داده‌ها مشخص کنند.

🖌ابزار Sqoop می‌تواند با تولید کد Java MapReduce که می‌تواند روی خوشه Hadoop اجرا شود، داده‌ها را از یک پایگاه داده به Hadoop وارد کند. برعکس، همچنین می‌تواند داده‌ها را از Hadoop به یک پایگاه داده بازگرداند. این برنامه از وارد کردن داده‌ها و استخراج داده‌ها به سیستم‌های پایگاه داده مختلف، از جمله MySQL، Oracle، PostgreSQL و Microsoft SQL Server پشتیبانی می‌کند.

🖌 یکی از ویژگی‌های کلیدی Sqoop این است که از ورود افزایشی پشتیبانی می‌کند و به کاربران اجازه می‌دهد فقط داده‌های جدیدتر را از یک پایگاه داده از زمان آخرین ورود داده وارد کنند. این به به روز نگه داشتن خوشه Hadoop با تغییراتی که در پایگاه داده رخ می‌دهد کمک می‌کند.

🖌همچنین Sqoop از موازی سازی و تحمل خطا پشتیبانی می‌کند و امکان انتقال سریع و مطمئن داده‌ها را فراهم می‌کند. از قابلیت‌های پردازش توزیع شده Hadoop برای اجرای عملیات واردات و ارسال به صورت موازی در چندین ماشین در خوشه استفاده می‌کند.

🖌 برخی از ویژگی‌های کلیدی Sqoop عبارتند از:

📍یکپارچه سازی داده‌ها: Sqoop امکان یکپارچه سازی و انتقال یکپارچه داده‌ها را بین Hadoop و پایگاه‌های داده رابطه ای مختلف، انبارهای داده و سایر منابع داده ساختاریافته فراهم می‌کند.

📍واردات و صادرات: Sqoop قابلیت‌هایی را برای وارد کردن داده‌ها از منابع داده‌های ساخت یافته به Hadoop و همچنین استخراج داده‌ها از Hadoop به فروشگاه‌های داده ساخت یافته را فراهم می‌کند.

📍انتقال موازی: Sqoop داده‌ها را به صورت موازی انتقال می‌دهد، به این معنی که می‌تواند به طور موثر مجموعه داده‌های بزرگ را انتقال دهد و عملکرد کلی را با استفاده از چندین نقشه نگار در Hadoop بهبود بخشد.

📍واردات افزایشی: Sqoop از واردات افزایشی پشتیبانی می‌کند و استخراج و انتقال تنها ردیف‌های تغییر یافته یا جدید در پایگاه داده منبع را از زمان آخرین واردات امکان‌پذیر می‌سازد. این ویژگی به به روز رسانی موثر داده‌ها در Hadoop کمک می‌کند.

📍تبدیل داده: Sqoop از تبدیل‌های اساسی در حین انتقال داده پشتیبانی می‌کند و به کاربران اجازه می‌دهد ستون‌های خاص، ردیف‌های فیلتر، داده‌ها را جمع‌آوری کنند و سایر تبدیل‌ها را در طول فرآیند ورود یا استخراج انجام دهند.

📍ادغام با اکوسیستم Hadoop : به طور یکپارچه با سایر ابزارهای اکوسیستم Hadoop مانند Hive، که به کاربران اجازه می‌دهد داده‌ها را مستقیماً به جداول Hive وارد کنند و Apache Flume، امکان انتقال داده‌ها از منابع مختلف به Hadoop را با استفاده از Sqoop فراهم می‌کند.

📍احراز هویت و امنیت: Sqoop از روش‌های مختلف احراز هویت، از جمله احراز هویت مبتنی بر رمز عبور، Kerberos و LDAP پشتیبانی می کند. همچنین برای حفظ امنیت داده‌ها رمزگذاری داده‌ها را در حین انتقال ارائه می‌دهد.

📍توسعه پذیری: Sqoop توسعه پذیری را از طریق معماری پلاگین خود فراهم می‌کند و به کاربران امکان می‌دهد اتصالات سفارشی را برای پایگاه‌های داده یا منابع داده خاص ایجاد و ادغام کنند.


🖌به طور کلی، Apache Sqoop فرآیند یکپارچه سازی داده‌ها بین Hadoop و پایگاه داده‌های رابطه ای را ساده می‌کند و استفاده از قدرت Hadoop را برای تجزیه و تحلیل و پردازش مجموعه داده‌های عظیم برای کاربران آسان‌تر می‌کند، و آن را به ابزاری ضروری برای مهندسان داده و تحلیلگرانی تبدیل می‌کند که با مجموعه داده‌های بزرگ کار می‌کنند.

#معرفی_ابزار
#عظیم_داده
#فاطمه_مصلحی
#Apache_Sqoop

@BigData_BusinessAnalytics
http://www.bdbanalytics.ir
📖 کتاب بخوانیم؛

📌 "Big Data for Big Decisions: Building a Data-Driven Organization"


🔹 فصل ششم کتاب "داده‌های عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور،" عوامل موثر و شرایط بالقوه‌ای که منجر به شکست پروژه‌های تحلیل‌گری می‌شود را مورد بررسی قرار می‌دهد.

📍در سال 2019، گارتنر پیش‌بینی کرد که بیش از 80 درصد از پروژه‌های تحلیل‌گری احتمالاً با شکست مواجه خواهند شد و تا سال 2022 نتایج تجاری مورد نظر را به دست نمی‌آورند. بنابراین قبل از ایجاد یک نقشه راه برای یک سازمان داده محور، درک محدودیت‌های حل نشده و شرایط بالقوه منجر به شکست حائز اهمیت است.

📍در واقع هدف ما موفقیت یک یا دو پروژه تحلیل‌گری جداگانه نیست، بلکه در واقع ایجاد یک سازمان داده‌محور است که نیازمند آن است که تمام تصمیمات کلیدی (اگر نگوییم تمام تصمیمات) بر مبنای داده‌ها اتخاذ شود، و در جایی که ممکن است در ادامه مورد حسابرسی قرار گیرد.

🔹نقشه راه تحلیل‌گری اساساً مجموعه‌ای از پروژه‌ها است که به ترتیب نزولی بر اساس ارزش نسبی خالص برنامه‌ریزی‌ برای آنها صورت می‌گیرد. به این معنی که پروژه ای که بالاترین ارزش نسبی را در برخواهد داشت اولویت بالاتری را به خود اختصاص می‌دهد و پس از آن به همین ترتیب سایر پروژه‌ها اولویت بندی می‌شوند. ارزش نسبی مورد بحث در اینجا به ارزش دلاری نتایج تجاری اشاره دارد که بهبود کیفیت تصمیم‌گیری منجر به آن می‌شود. از آنجایی که ما فقط پروژه‌هایی را انتخاب می‌کنیم که بالاترین پتانسیل را برای تحویل ارزش دارند، انتظار می‌رود ریسک شکست پروژه‌ها حداقل باشد.

اما آیا این برای تضمین موفقیت پروژه‌های تحلیل‌گری کافی است؟ چه عوامل دیگری اولویت نسبی تصمیمات «بزرگ» را در شرکت تعیین می‌کند؟ چه زمانی می‌توانیم بگوییم یک پروژه تحلیل‌گری را به انجام رسانده‌ایم که در واقع ارزشی را ارائه می‌دهد؟ دقیقا چه چیزی باعث موفقیت پروژه‌های تحلیل‌گری می‌شود؟ مهم‌تر از آن چه چیزی می‌تواند به طور بالقوه مانع از ارائه ارزش مورد نظر پروژه‌های تحلیل‌گری شود؟ برای شناسایی تصمیمات «بزرگ» و ایجاد یک نقشه راه اولویت‌بندی، چه نوع بررسی لازم است؟ ارزش در معرض خطر را چگونه برآورد می‌کنید؟ چگونه می‌توان یک مورد تجاری برای تحلیل‌گری ایجاد کرد؟

📍جهت پاسخگویی به سوالات مطرح شده موضوعاتی که در بخش ششم کتاب به آن پرداخته شده است عبارتند از:

ایجاد نقشه راه برای تصمیمات بزرگ شامل شناسایی و اولویت بندی تصمیمات و همچنین نقشه راهی برای سازمان داده محور: یک چارچوب فرآیندی با جزئیات برای شناسایی و اولویت‌بندی تصمیمات بزرگ جهت ایجاد نقشه راه سازمان داده محور

رمزگشایی از داده‌هایی که در پشت تصمیمات قرار دارند، مدلسازی و تحلیل تصمیمات: نیاز به مدلسازی و تحلیل تصمیمات پیش از تلاش جهت تبدیل نقشه راه تصمیمات بزرگ به یک طرح پروژه تمام عیار، با رویدادهای «راه‌حل‌های تحلیلی» به عنوان نقاط عطف پروژه

ایجاد یک مورد کسب و کاری با تحلیل‌گری و منابع ارزش (پیشران‌های ارزش)، تخمین بازده و مقایسه شاخص‌های کلیدی عملکرد با معیارهای صنعت و برآورد سرمایه‌گذاری‌ها: از هر CDO (یا CIO) خواسته می‌شود که یک مورد کسب و کاری برای سرمایه‌گذاری‌های تحلیلی پیشرفته ایجاد نماید. ارزش افزایشی تولید شده از طریق تحلیل‌گری لزوماً باید بیش از سرمایه‌گذاری انجام شده باشد.

از داده تا تصمیم: خلاصه سازی گام‌های دخیل در ایجاد نقشه راه و مورد کسب و کاری برای یک سازمان داده محور

داده‌ها، اعتماد و تصمیم گیرنده: در اینجا موردی بررسی می‌شود که همه چیز به طور صحیح انجام شده است؛ تصمیم درست، مدل تحلیل‌گری صحیح، و داده‌های درست، با این حال مدیران در مقابل استفاده از تحلیل‌گری مقاومت می‌کنند. درک این موضوع که دقیقا چه چیزی بر روی چنین رفتاری تاثیر می‌گذارد حائز اهمیت است چرا که برای پاسخگویی به این سوال کمک می‌کند که چه چیز دیگری به طور بالقوه می‌تواند منجر به شکست پروژه‌های تحلیل‌گری و عدم تحویل ارزش‌های مورد نظر شود؟


#کتاب_بخوانیم
#فصل_ششم
#فاطمه_مظفری
#تصمیم_گیری
#سازمان_داده_محور

www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌معرفی ابزار: Apache Accumulo

🖌ابزار Apache Accumulo یک ابزار ذخیره‌سازی کلید/مقدار توزیع شده و مرتب شده است که ذخیره‌سازی و بازیابی داده‌ها به صورت پایدار و مقیاس‌پذیر را فراهم می‌کند. با استفاده از این ابزار، کاربران می‌توانند مجموعه‌ داده‌های عظیم را در یک خوشه ذخیره و مدیریت کنند. Accumulo از HDFS آپاچی هدوپ برای ذخیره داده‌ها و از آپاچی زوکیپر برای هماهنگی استفاده می‌کند. بنابراین Accumulo به اجرای زوکیپر و HDFS نیاز دارد که باید قبل از پیکربندی Accumulo تنظیم شوند. در حالی که بسیاری از کاربران مستقیماً با Accumulo تعامل دارند، پروژه‌های منبع باز مختلفی از Accumulo به عنوان ابزار ذخیره‌سازی اصلی خود استفاده می‌کنند.
✳️ ویژگی‌های اصلی:
♦️برنامه‌نویسی سمت سرور: Accumulo دارای یک مکانیسم برنامه‌نویسی به نام Iterators است که می‌تواند زوج‌های کلید/مقدار را در نقاط مختلف فرآیند مدیریت داده تغییر دهد.
♦️ کنترل دسترسی مبتنی بر سلول: هر زوج کلید/مقدار دارای برچسب امنیتی خاص خود است که نتایج کوئری را بر اساس مجوزهای کاربر محدود می‌کند.
♦️برای مقیاس‌پذیری طراحی شده است: Accumulo روی یک خوشه با استفاده از یک یا چند نمونه HDFS اجرا می‌شود. گره‌ها را می‌توان با تغییر مقدار داده‌های ذخیره شده در Accumulo اضافه یا حذف کرد.
♦️ پایدار: دارای یک کلاینت API پایدار است. هر نسخه Accumulo تست‌های گسترده‌ای را پشت سر می‌گذارد.

✳️ طراحی Apache Accumulo از BigTable گوگل الهام گرفته شده است. Accumulo یک دیتامدل غنی‌تر از ذخیره‌سازی ساده کلید/مقدار ارائه می‌کند، اما یک پایگاه داده کاملاً رابطه‌ای نیست. داده‌ها به صورت زوج کلید/مقدار نمایش داده می‌شوند که در آن کلید و مقدار از عناصر مختلفی تشکیل می‌شوند. همه عناصر کلید و مقدار، به جز Timestamp که به صورت long است، به‌عنوان آرایه‌های بایتی نشان داده می‌شوند.
📍یک نمونه از Accumulo شامل تعداد زیادی TabletServer، یک فرآیند زباله‌روبی، یک سرور مدیر و تعداد زیادی کلاینت است.
♦️ تبلت سرور: زیرمجموعه‌ای از تمام تبلت‌ها (پارتیشن‌هایی از جداول) را مدیریت می‌کند.
♦️زباله روب (garbage collector): فرآیندهای Accumulo فایل‌های ذخیره شده در HDFS را به اشتراک خواهند گذاشت. در فرآیند زباله‌روبی، به صورت دوره‌ای، فایل‌هایی که دیگر توسط هیچ فرآیندی مورد نیاز نمی‌باشند، شناسایی و حذف می‌شوند.
♦️سرور مدیر: مدیریت Accumulo مسئول تشخیص و پاسخگویی در صورت خرابی تبلت سرور است. با اختصاص دقیق تبلت‌ها و دستور دادن به تبلت سرورها برای کاهش بار تبلت‌ها در صورت لزوم، این سرور سعی می‌کند بار را در سراسر تبلت سرور متعادل کند.
♦️ردیاب: فرآیند Accumulo Tracer از API توزیع شده ارائه شده توسط Accumulo پشتیبانی می‌کند. به طور مثال اطلاعات زمان‌بندی را در جدول Accumulo مشخص برای ارجاعات بعدی می‌نویسد.
♦️پایش: پایش در Accumulo یک برنامه تحت وب است که اطلاعات زیادی در مورد وضعیت یک نمونه ارائه می‌دهد. این برنامه نمودارها و جداولی را نشان می‌دهد که حاوی اطلاعاتی در مورد نرخ خواندن/نوشتن، نرخ عدم دسترسی به حافظه و غیره است.
♦️کلاینت: Accumulo دارای یک کتابخانه کلاینت است که می‌تواند برای نوشتن اپلیکیشن‌هایی که داده‌ها را در/از Accumulo می‌نویسند و می‌خوانند استفاده شود.

✳️از نقطه نظر مدیریت داده‌ها، Accumulo داده‌ها را در جداول ذخیره می‌کند که این جداول به تبلت‌ها تقسیم می‌شوند. تبلت‌ها بر روی مرزهای ردیف تقسیم‌بندی می‌شوند به طوری که تمام ستون‌ها و مقادیر یک ردیف خاص با هم در یک تبلت قرار می‌گیرند. سرور مدیر هر بار تبلت‌ها را به یک تبلت سرور اختصاص می‌دهد. این کار تراکنش‌های سطح ردیف را قادر می‌سازد بدون استفاده از قفل توزیع شده یا مکانیزم‌های سنکرون‌سازی پیچیده دیگر انجام شوند. هنگامی که کلاینت‌ها داده‌ها را وارد می‌کنند و کوئری می‌زنند و همچنین هنگامی که ماشین‌ها به خوشه اضافه و یا از آن حذف می‌شوند، این سرور، تبلت‌ها را انتقال می‌دهد تا از در دسترس بودن آن‌ها و تعادل بار در کل خوشه اطمینان حاصل شود.

📍این ابزار را می‌توانید از لینک زیر دانلود فرمایید:

🔗 https://accumulo.apache.org/downloads/

#معرفی_ابزار
#Apache_Accumulo
#داده‌های_عظیم
#فاطمه_مظفری


@BigData_BusinessAnalytics
www.bdbanalytics.ir
📌📌تحلیلگری داده در مقابل تحلیلگری کسب و کار
تحلیلگری داده (Data Analytics) و تحلیلگری کسب و کار (Business Analytics) دو فرآیند متفاوت هستند، اما هر دو اهمیت زیادی در جهان کسب و کار دارند. در زیر به تفاوت‌های اصلی بین تحلیل داده و تحلیل کسب و کار اشاره می‌شود:

۱- محتوا و موضوع
تحلیل داده: این فرآیند به تجزیه و تحلیل داده‌های عددی، متنی و آماری و تصاویر اختصاص دارد. معمولاً داده‌ها از منابع مختلفی مانند پایگاه‌های داده، سنسورها، فرم‌های آنلاین، شبکه های اجتماعی و غیره به دست می‌آیند.

تحلیل کسب و کار: این فرآیند به تجزیه و تحلیل عناصری مانند استراتژی‌ها، عملکرد مالی، مدل کسب و کار، مشتریان، رقبا، و محصولات و خدمات اختصاص دارد. این تحلیل برای ارتقاء تصمیم‌گیری‌های استراتژیک و مدیریت کسب و کار استفاده می‌شود.


۲- دامنه و هدف
تحلیل داده: هدف اصلی تحلیل داده به دست آوردن دانش، قواعد الگوها، روابط و اطلاعات مخفی در داده‌ها است. این فرآیند معمولاً برای پیش‌بینی، دسته بندی، خوشه بندی، کاوش داده‌ها، و به دست آوردن اطلاعات مفهومی استفاده می‌شود.

تحلیل کسب و کار: تحلیل کسب و کار به ارزیابی عملکرد کسب و کار، بهبود استراتژی‌ها و راهکارها، و افزایش بهره‌وری و سودآوری کسب و کار اختصاص دارد. هدف آن ارتقاء عملکرد و کارایی کسب و کار است.


۳- روش‌ها و ابزارها
تحلیل داده: ابزارهای تحلیل داده شامل زبان‌های برنامه‌نویسی مانند Python و R، نرم‌افزارهای مخصوص تحلیل داده مانند SAS، RapidMiner و ابزارهای مدرن یادگیری ماشین و داشبوردها مانند Power BI و Tableau می‌شوند.

تحلیل کسب و کار: ابزارهای تحلیل کسب و کار شامل ابزارهای حل مساله، شبیه سازی، مدل سازی عملیانی و پویا و مدل‌های مالی، نرم‌افزارهای جامع مانند ERP ها ، و ابزارهای گزارش‌دهی می‌شوند.


۴- مراحل و فرآیند
تحلیل داده: مراحل تحلیل داده شامل تجزیه و تحلیل داده‌ها، تجزیه و تحلیل آماری، تصمیم‌گیری بر اساس داده‌ها و پیش‌بینی می‌شود (مانند متدولوژی CRISP-DM).
تحلیل کسب و کار: مراحل تحلیل کسب و کار شامل تعیین اهداف کسب و کار، تجزیه و تحلیل محیط کسب و کار، تعیین استراتژی‌ها، ارزیابی عملکرد و بهینه‌سازی می‌شود.


۵- مخاطبان اصلی
تحلیل داده: محققان داده، دانشمندان داده، و تحلیل‌گران داده و تحلیل گران کسب و کار، و مشتریان
تحلیل کسب و کار: مدیران عالی، تصمیم‌گیران استراتژیک، تیم‌های مدیریت کسب و کار، و مشاوران مدیریت


در مجموع، تحلیلگری داده مرتبط با تجزیه و تحلیل داده ها (ساختیافته یا ساخت نیافته) است، در حالی که تحلیل کسب و کار به تجزیه و تحلیل کلانتر و استراتژیک موارد متنوعی مانند استراتژی‌های بازاریابی، عملکرد مالی، و منابع انسانی اختصاص دارد. هر دو ابزار مهمی برای بهبود کسب و کارها هستند و ممکن است در کنار یکدیگر مورد استفاده قرار گیرند تا تصمیم‌گیری‌های بهتری در سازمان ها و کسب و کار انجام شود.

سعید روحانی
دانشیار دانشگاه تهران
۱۱ مهرماه ۱۴۰۲


#دکتر_سعید_روحانی
#تحلیلگری_داده
#تحلیلگری_کسب_و_کار
@BigData_BusinessAnalytics
www.bdbanalytics.ir
📖 کتاب بخوانیم؛

📌 "Big Data for Big Decisions: Building a Data-Driven Organization"


🔹در فصل هفتم کتاب "داده‌های عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور" مختصر تاریخچه ای از داده و چگونگی رشد آن در یک سازمان ارائه می‌شود.

رشد اصلی داده‌ها در یک سازمان را می‌توان نتیجه رشد در پایگاه داده سازمان که در ابتدا در دپارتمان‌های مختلف توزیع شده بودند، دانست. بر اساس کارکردهای مختلف هر یک از بخش‌های سازمان و فرآیندهای از پیش تعریف شده و همچنین نیاز به ثبت و استفاده مجدد از داده‌ها، اهمیت وجود پایگاه داده های منسجم در یک سازمان پر رنگ تر شد. شکل‌گیری پایگاه داده‌ها در یک دسته‌بندی کلی می‌توان در شش طبقه قرار داد:

1. سیستم‌های مبتنی بر فلت فایل

2. سیستم‌های سلسله مراتبی

3. پایگاه داده‌های رابطه‌ای

4. پایگاه داده‌های مبتنی بر تراکنش برخط

5. پایگاه داده‌های مبتنی بر XML

6. پایگاه داده‌های غیر رابطه‌ای

در کنار رشد پایگاه داده ،ظهور و رشد سیستم‌های یکپارچه برنامه‌ریزی منابع سازمانی نیز تاثیر زیادی در رشد داده‌ها در یک سازمان داشتند. به دلیل یکپارچگی فرآیندهای دپارتمان‌های مختلف در پشت این سیستم، داده‌های بیشتری تولید شده و تحلیل این داده از منظر فرآیندی کمک شایانی به یک سازمان می‌کند. این یکپارچگی در سطح برنامه‌ها و فرآیندها در نقاط زیادی داده تولید خواهند کرد که در مقایسه با حالت سنتی برنامه‌های یک سازمان که به صورت جزیره‌ای شکل گرفتند منجر به تولید داده بیشتری خواهند شد.
علاوه بر این دو روند، رشد و توسعه اینترنت به عنوان یکی دیگر از عوامل مهم در رشد داده‌ها محسوب می‌شود. این رشد هم در بحث سرعت و حجم داده‌ها و همچنین در بحث داده‌های غیر ساختار یافته که از ویژگی‌های عظیم داده می‌باشند خود را نشان داده‌ است.
همچنین نیاز به ذکر است که رشد داده‌ها منجر به ایجاد وظایفی همچون حاکمیت و مدیریت داده در یک سازمان شده است که تا پیش از این وجود نداشتند. علاوه بر این، آنچه که در عصر کنونی به عنوان داده تلقی می‌شود تنها در مرزهای یک سازمان و درون آن تولید نمی‌شوند، بلکه در بیرون سازمان همچون شبکه‌های اجتماعی نیز وجود دارند که از این منظر تحلیل شبکه‌های اجتماعی در مقیاس عظیم داده به عنوان یکی دیگر از نتایج رشد داده محسوب می‌شوند.

#کتاب_بخوانیم
#فصل_هفتم
#علی_محمدی
#تصمیم_گیری
#سازمان_داده_محور

www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔎 معرفی کسب و کار داده محور

🔹 شرکت اسپاتیفای (Spotify) یکی از بزرگترین و پرآوازه‌ترین شرکت‌ها در حوزه موسیقی آنلاین و پخش موسیقی است. این شرکت در سال 2006 توسط دو کارآفرین سوئدی، دانیل اک (Daniel Ek) و مارتین لورنتسون (Martin Lorentzon) تأسیس شد. اسپاتیفای به عنوان یکی از نخستین سرویس‌های پخش موسیقی آنلاین با مدل کسب‌وکار اشتراکی به موفقیت رسید.

🔸 استفاده از داده‌ها در شرکت‌های موسیقی نظیر اسپاتیفای (Spotify) یکی از مهمترین عناصر برای بهبود تجربه کاربری و توسعه کسب‌وکار است. اسپاتیفای به عنوان یکی از بزرگ‌ترین سرویس‌های پخش موزیک آنلاین در جهان، دارای مقدار عظیمی از داده‌ها است که در تمام جوانب عملکرد خود مورد استفاده قرار می‌دهد. در این مطلب، به بررسی نمونه واقعی کاربرد داده‌ها در اسپاتیفای خواهیم پرداخت.

🔹 یکی از کاربردهای اصلی داده در اسپاتیفای، تجزیه و تحلیل عادات گوش دادن کاربران و توصیه‌های شخصی‌سازی موسیقی به آنها است. این سرویس توانسته است با استفاده از داده‌های جمع‌آوری شده از عادات گوش دادن کاربران، سیستم‌های پیشنهادی قدرتمندی را ایجاد کند. به عبارت دیگر، اسپاتیفای از داده‌ها برای فهم بهتر موزیک مورد علاقه کاربران، سلیقه‌های آنها، و حتی میزان انرژی و احساساتی که از آهنگ‌ها دریافت می‌کنند، استفاده می‌کند. این اطلاعات به تولید لیست‌های پخش شخصی‌سازی شده برای هر کاربر کمک می‌کند. بنابراین، هر کاربر تجربه گوش دادن منحصر به فردی دارد و برخوردها با موزیک مطابق با سلیقه شخصی او انجام می‌شود.
در ادامه به بررسی چندین نمونه کاربرد داده در اسپاتیفای خواهیم پرداخت:

1️⃣ پیشنهاد موزیک: اسپاتیفای با استفاده از داده‌های تاریخچه گوش دادن و مورد علاقه‌های کاربران، می‌تواند موزیک‌های پیشنهادی را به هر کاربر ارائه دهد. این پیشنهادها ممکن است بر اساس ژانر، هنرمند، آلبوم‌های مشابه یا حتی فصل سال تنظیم شوند. این پیشنهادات به کاربران اجازه می‌دهند تا موسیقی جدید کشف کنند و تجربه موزیک آنلاین بهتری داشته باشند.

2️⃣ تحلیل موسیقی: اسپاتیفای دارای اطلاعات زیادی در مورد ویژگی‌های موسیقی مانند سرعت، انرژی، ریتم و آکورد‌های مورد استفاده در هر آهنگ است. این داده‌ها به تیم‌های موسیقی اسپاتیفای کمک می‌کنند تا موزیک‌ها را دسته‌بندی کنند و ارتباطات موسیقی را درک کنند. این اطلاعات می‌توانند به تولید پیشنهادات دقیق‌تر و تجربه بهتری برای کاربران منتجب شوند.

3️⃣ کاهش سوءاستفاده و پایش کیفیت: اسپاتیفای با تجزیه و تحلیل داده‌ها می‌تواند سعی در شناسایی هرگونه سوءاستفاده از سرویس را داشته باشد. این ممکن است شامل شناسایی حساب‌های تقلبی، دسترسی غیرمجاز و یا مشکلاتی در کیفیت پخش موزیک باشد. از این طریق، اسپاتیفای تضمین می‌کند که کاربران تجربه پخش بهتری داشته باشند و همچنین متداول‌ترین تخلفات را کنترل کند.

4️⃣ بهبود تبلیغات: اسپاتیفای از داده‌ها برای بهینه‌سازی تبلیغات نیز استفاده می‌کند. این شامل ارائه تبلیغات مرتبط با سلیقه موسیقی کاربران و تحلیل عملکرد تبلیغات بر اساس اطلاعات کلیک و تبدیلی است. این کاربرد داده‌ها به تأثیرگذاری تبلیغات و افزایش درآمد شرکت کمک می‌کند.

5️⃣ مدیریت حقوق نشر: اسپاتیفای نیاز به پیگیری و مدیریت حقوق نشر دارد. از داده‌ها برای ردیابی استفاده از آهنگ‌ها و پرداخت حقوق به هنرمندان و صاحبان موسیقی استفاده می‌شود. این مدیریت دقیق اطلاعات حقوق نشر باعث می‌شود که هنرمندان و صاحبان موسیقی اعتماد به سرویس اسپاتیفای داشته باشند و موسیقی خود را در این پلتفرم منتشر کنند.

🔸 در نهایت، داده‌ها یکی از باارزش‌ترین دارایی‌های شرکت‌های موسیقی مانند اسپاتیفای هستند. این داده‌ها به شرکت این امکان را می‌دهند تا بهبود‌های مستمر در تجربه کاربری ایجاد کنند، موسیقی‌های جدید را با کاربران به اشتراک بگذارند و به شکل موثرتری با هنرمندان و صاحبان موسیقی همکاری کنند. از این رو، اسپاتیفای به عنوان یکی از بزرگترین و موفق‌ترین شرکت‌های موسیقی آنلاین به بهره‌گیری حداکثری از داده‌ها برای بهبود کیفیت خدمات خود متعهد است.

#محمدرضا_مرادی
#اسپاتیفای
#Spotify
#کسب_و_کار_داده_محور



@BigData_BusinessAnalytics
www.bdbanalytics.ir
📚معرفی کتاب

📌محاسبات شناختی برای سیستم‌های عظیم‌داده از طریق اینترنت اشیا

"Cognitive Computing for Big Data Systems Over IoT"

📌نویسندگان:
Arun kumar Sangaiah, Arunkumar Thangavelu, Venkatesan Meenakshi Sundaram

📌این کتاب در سال 2018 توسط Springer انتشار یافته است.


📍 این کتاب جامع به عنوان یک منبع ارزشمند برای کسانی که به دنبال درک عمیق‌تری از تقاطع بین محاسبات شناختی، عظیم‌داده و اینترنت اشیا هستند، عمل می‌کند. همگرایی عظیم‌داده و اینترنت اشیا حجم زیادی از داده را تولید و مبادله کرده و استخراج اطلاعات معتبر را چالش برانگیز می‌سازد. در این کتاب، تکنیک‌های یادگیری ماشینی برای تجزیه و تحلیل حجم زیاد داده‌ها و بهبود فرایند تصمیم‌گیری پیشنهاد شده‌ است. محاسبات شناختی روشی است که رویکردهای فعلی علم داده را با بینش متخصصان و همچنین مفهوم هوش مصنوعی و استنتاج بر دانش ترکیب کرده و گسترش می‌دهد؛ همچنین در بسیاری از برنامه‌های کاربردی هوش مصنوعی از جمله سیستم‌های خبره، پردازش زبان طبیعی، شبکه‌های عصبی، روباتیک و واقعیت مجازی استفاده می‌شود.


📍نویسندگان در این کتاب دانش زمینه‌ای، استدلال علم داده و روش‌های شناختی را بر روی اینترنت اشیا بررسی کرده و تمرکز اصلی کتاب را بر طراحی بهترین فناوری‌های تعبیه‌شده شناختی برای پردازش و تجزیه و تحلیل عظیم‌داده‌ جمع‌آوری‌شده توسط اینترنت اشیا و همچنین بهبود فرآيند تصمیم‌گیری قرار داده‌اند.

📍این کتاب به طیف گسترده‌ای از پارادایم‌های محاسبات شناختی و تصمیم‌گیری در یک صنعت یا سازمان، در تمام سطوح چالش‌های علم داده می‌پردازد. این کتاب برای دانشمندان علم داده، متخصصان، محققان و دانشگاهیان در نظر گرفته شده که با چالش‌ها و پیشرفت‌های جدید در زمینه‌های خاص محاسبات شناختی و علم داده در زمینه اینترنت اشیا سر و کار دارند. در این کتاب همچنین، چارچوب‌ها و ابزارهای عملی طراحی و برای مقابله با چالش‌های پیچیده مرتبط با تجزیه و تحلیل عظیم‌داده در محیط اینترنت اشیا ارائه شده است.

📍هدف این کتاب ارائه چارچوب نظری و آخرین یافته‌های تحقیقات تجربی در این زمینه است. راه‌حل‌های عظیم‌داده در مورد مشکلات اینترنت اشیا از طریق طیف گسترده‌ای از چارچوب‌های محاسباتی الگوریتمی و شناختی مانند بهینه‌سازی، یادگیری ماشین و سیستم‌های پشتیبان تصمیم‌ به طور مؤثری مدیریت شده‌اند. نویسندگان فراتر از مرزهای نظری پیش رفته و برنامه‌های کاربردی دنیای واقعی را در حوزه‌های مختلف مانند مراقبت‌های بهداشتی، تولید و انرژی ارائه می‌دهند.


این کتاب را می‌توانید در پست بعد دریافت نمایید.


#معرفی_کتاب
#عظیم_داده
#زهرا_رفیعی‌پور


@BigData_BusinessAnalytics
http://www.bdbanalytics.ir
📌📌معرفی ابزار: Alluxio

🖌ابزار Alluxio یک پلتفرم هماهنگ‌سازی داده‌های منبع باز و توزیع شده است که نقش مهمی در بهینه‌سازی و تسریع دسترسی به داده‌ها برای داده‌های عظیم و حجم کاری تجزیه و تحلیل دارد. این ابزار به عنوان یک لایه ذخیره‌سازی توزیع شده مجازی عمل می‌کند و به سازمان‌ها کمک می‌کند شکاف بین منابع داده و چارچوب‌های محاسباتی را پر کنند. Alluxio برای رسیدگی به چالش‌های رایج مرتبط با پردازش داده‌های توزیع شده، مانند موقعیت مکانی داده، مدیریت داده‌ها و سرعت دسترسی به داده طراحی شده است.

✳️ویژگی‌ها و عملکردهای کلیدی:

📍انتزاع داده‌ها: Alluxio یک فضای نام یکپارچه فراهم می‌کند که داده‌ها را از چندین سیستم ذخیره‌سازی زیربنایی، مانند HDFS، ذخیره‌سازی اشیاء ابری، یا سیستم‌های فایل توزیع شده انتزاع می‌کند. این انتزاع دسترسی و مدیریت داده‌ها را برای کاربران و برنامه‌ها ساده می‌کند.

📍ذخیره داده‌ها: Alluxio داده‌ها را در حافظه پنهان می‌کند، دسترسی سریع‌تر به داده‌ها را امکان‌پذیر می‌کند و نیاز به واکشی مکرر داده‌ها از سیستم‌های ذخیره سازی راه دور را کاهش می‌دهد. این عملکرد پرس و جو و کار را بهبود می‌بخشد، به خصوص برای بارهای کاری که نیاز به خواندن مکرر داده دارند.

📍 اشتراک گذاری داده‌ها: Alluxio اجازه می‌دهد تا داده‌ها به طور موثر در چندین چارچوب محاسباتی به اشتراک گذاشته شوند و نیاز به تکرار داده‌ها را کاهش دهد. این به سازمان‌ها کمک می‌کند تا از سیلوهای داده‌ای که ممکن است در زمانی که ابزارها و چارچوب‌های مختلف نیاز به نسخه‌های خود از همان داده‌ها دارند، ایجاد شوند، اجتناب کنند.

📍 محل سکونت داده‌ها: Alluxio با حفظ آگاهی از محل ذخیره داده‌ها و محل انجام محاسبات، موقعیت داده‌ها را بهینه می‌کند. این می‌تواند به طور هوشمند داده‌ها را در نزدیکی منابع محاسباتی قرار دهد و زمان انتقال داده‌ها را کاهش دهد و عملکرد کلی سیستم را افزایش دهد.

📍 سازگاری داده‌ها: Alluxio تضمین‌های قوی برای سازگاری داده‌ها ارائه می‌دهد و اطمینان می‌دهد که داده‌های مورد دسترسی برنامه‌ها و چارچوب‌های مختلف دقیق و به روز هستند. این برای حفظ یکپارچگی داده‌ها در محیط‌های پیچیده و توزیع شده ضروری است.

📍 مقیاس پذیری: Alluxio بسیار مقیاس پذیر است و می‌تواند بر روی دسته‌هایی از ماشین‌ها مستقر شود. در صورت نیاز می‌تواند رشد کند تا حجم زیادی از داده‌ها و بارهای کاری بالا را در خود جای دهد.

📍سازگاری با API : Alluxio با سیستم‌های ذخیره سازی مختلف و چارچوب‌های تجزیه و تحلیل، مانند Apache Hadoop، Apache Spark و Apache Flink سازگار است. این سازگاری به سازمان‌ها اجازه می‌دهد تا Alluxio را به صورت یکپارچه در خطوط لوله پردازش داده‌های موجود خود ادغام کنند.

📍 تحمل خطا: Alluxio به گونه ای طراحی شده است که در مقابل خطا مقاوم باشد. می تواند از خرابی گره‌ها بازیابی شود و حتی در صورت وجود مشکلات سخت افزاری یا شبکه از در دسترس بودن داده‌ها اطمینان حاصل کند.

📍متن باز: Alluxio یک نرم افزار منبع باز است، به این معنی که به طور رایگان در دسترس سازمان‌ها است تا از آن استفاده کنند و مطابق با نیازهای خود تغییر دهند.

ابزار Alluxio اغلب در محیط‌های عظیم داده استفاده می‌شود که در آن داده‌ها در سیستم‌های فایل توزیع‌شده، ذخیره‌سازی اشیاء ابری یا سایر سیستم‌های ذخیره‌سازی راه دور ذخیره می‌شوند. با ارائه یک لایه دسترسی سریع و کارآمد به داده ها، به سازمان ها کمک می کند تا به عملکرد بهتر و تاخیر کمتری برای تجزیه و تحلیل داده ها و حجم کاری پردازشی خود دست یابند. در سناریوهایی که بهبود سرعت دسترسی به داده‌ها، مدیریت محلی بودن داده‌ها و دستیابی به ثبات داده‌ها از عوامل حیاتی در دستیابی به موفقیت با پروژه های عظیم داده هستند، محبوبیت پیدا کرده است.

#معرفی_ابزار
#داده‌های_عظیم
#فاطمه_مصلحی
#Alluxio

@BigData_BusinessAnalytics
www.bdbanalytics.ir
📖 کتاب بخوانیم؛

📌 "Big Data for Big Decisions: Building a Data-Driven Organization"


🔹 فصل هشتم: ایجاد یک استراتژی فناوری اطلاعات داده محور

📍تا سال‌های اخیر، استراتژی داده، اگر اصولاً چنین چیزی در یک سازمان وجود داشت، همواره به عنوان جزئی از استراتژی فناوری اطلاعات به شمار می‌رفت. گفته شده است که اگر داده ها را مانند خون بدانیم، زیرساخت فناوری اطلاعات، سیستم گردش خونی است که سازمان ها را توانمند می‌سازد. طراحی ضعیف استراتژی IT می‌تواند به معنای داده‌های با کیفیت پایین و پراکنده باشد که با تاخیر زمانی بیشتر از عمر مفید داده‌ها تحویل می‌شود. از این رو، ایجاد یک استراتژی فناوری اطلاعات منسجم و همسو با کسب و کار، به اندازه ساختن یک استراتژی اثربخش داده‌ای در سازمان حیاتی است.

سوال اساسی که در اینجا مطرح است این است که آیا سازمان باید استراتژی IT خود را پیش از استراتژی داده تعریف کند یا بالعکس؟ به عبارت دیگر، آیا ظرف باید محتویات آن را تعریف نماید یا محتویات باید ظرف را تعریف نماید؟

📍یک استراتژی اساساً مجموعه‌ای از تصمیمات بلندمدت است. استراتژی فناوری اطلاعات یک جزء از استراتژی کسب و کار است - مجموعه ای از تصمیمات بلند مدت در مورد چگونگی شکل دادن به فناوری اطلاعات به گونه‌ای که از سازمان در تحقق اهداف بلندمدت کسب و کاری خود حمایت کند. بنابراین، یک استراتژی فناوری اطلاعات، در هسته، مجموعه ای از تصمیمات استراتژیک مهم است. سوال این است: چگونه می توان اطمینان حاصل کرد که این تصمیمات مبتنی بر داده هستند؟ در فصل هشتم کتاب داده‌های عظیم برای تصمیمات بزرگ با نگاهی انتقادی به آنچه که یک استراتژی فناوری اطلاعات مبتنی بر داده را تشکیل می دهد پرداخته می‌شود.

🔹با توجه به اینکه هدف اصلی استراتژی فناوری اطلاعات داده محور، ارائه ارزش کسب و کاری و افزایش عملکرد کسب و کاری شرکت است، کشف پیشران کلیدی ارزش ضروری می‌باشد و در این راستا سوالاتی مطرح است:
1️⃣ پیشران‌های کلیدی ارزش برای استراتژی فناوری اطلاعات چیست؟ آیا آنها تصمیمات "بزرگ" استراتژی فناوری اطلاعات را تعریف می‌کنند؟
2️⃣ چه نوع داده‌ای برای حمایت از تصمیمات بزرگ استراتژی فناوری اطلاعات مورد نیاز است؟
3️⃣ منابع چنین داده‌هایی چیست؟


📍پیشران‌های کلیدی باید با استراتژی کسب و کار همراستا باشند. ابتکارات فناوری اطلاعات باید سازمان را برای دستیابی به اهداف استراتژیک کسب و کار توانمند سازند و منابع کلیدی داده برای طرح‌ریزی و ابداع استراتژی فناوری اطلاعات به کار ‌روند.
در واقع استراتژی فناوری اطلاعات داده محور بر پایه‌های زیر قرار می‌گیرد:

همراستایی با استراتژی کسب و کار

بهینه کاوی با صنعت، رقابت و داخل سازمان

جریان کاری و زنجیره ارزش اطلاعات

پوشش زنجیره ارزش سازمان

بهینه سازی منابع

ارزش کسب و کاری

معماری سازمانی از دید سازمان، داده، کنترل، کارکرد و محصول یا خدمت

📍این پایه‌ها بر ممیزی امنیت اطلاعات و زیرساخت، تحلیل پورتفولیوی کاربردها و استراتژی داده‌ای سازمانی همراستا با استراتژی کسب و کار قرار می‌گیرند که به نوبه خود بر منابع داده‌ای مختلف سازمان شامل اپلیکیشن‌های سازمانی محوری قرار گرفته بر روی ابر یا مراکز داده سازمان، داده‌های اینترنت اشیا، موبایل، دستگاه‌های متصل، داده‌های عظیم، هوش مصنوعی، روباتیک، شبکه‌های اجتماعی، تجارت الکترونیک و ... بنا شده است.
بنابراین فصل هشتم کتاب به بررسی اجزای شکل دهنده استراتژی فناوری اطلاعات داده محور و پاسخ به سوالاتی پیرامون آنها می‌پردازد.


#کتاب_بخوانیم
#فصل_هشتم
#فاطمه_مظفری
#استراتژی_فناوری_اطلاعات_داده_محور
#داده‌های_عظیم_برای_تصمیمات_بزرگ


www.bdbanalytics.ir
@BigData_BusinessAnalytics
تحلیلگری عظیم‌داده و کسب‌وکار
Video
"🔬 بررسی تأثیر عظیم داده در صنعت بهداشت و درمان 🔬

این ویدیو به بررسی دقیق و علمی چگونگی تحول بهداشت و درمان توسط آنالیز عظیم داده می‌پردازد.

📘 چالش‌های مرتبط با داده‌های پزشکی: این ویدیو با بررسی ناهمگونی و پراکندگی داده‌های بهداشتی آغاز می‌شود و بر ضرورت اتخاذ رویکردی سیستماتیک در جمع‌آوری و ذخیره‌سازی داده‌ها تأکید دارد.

📈 اهداف آنالیز در صنعت بهداشت و درمان: این صنعت با استفاده از آنالیز به دنبال دستیابی به اهدافی از قبیل پیش‌بینی و پیشگیری از اپیدمی‌ها، کمک به درمان بیماری‌های دشوار، کاهش هزینه‌های بهداشتی و ارتقای کیفیت زندگی است.

🔍 آنالیز پیش‌بینی‌کننده: این ویدیو به پتانسیل بالای آنالیز پیش‌بینی‌کننده در حوزه بهداشت برای تشخیص بیماری‌ها قبل از بروز نشانه‌های بالینی می‌پردازد.

🗃 مشکلات مربوط به سیلوهای داده: یکی از چالش‌های اصلی، ناهماهنگی و پراکندگی داده‌های بهداشتی است که مانع از استفاده مؤثر از داده‌ها می‌شود.

📋 تهیه پروفایل‌های جامع بیمار: هدف اصلی این است که پروفایل‌های کاملی از بیماران شامل تمامی مراقبت‌های پزشکی در طول حیات فرد تهیه شود.

🚀 مزایای آنالیز در بهداشت و درمان:
- سوابق بهداشت الکترونیکی (EHRs)
- بهبود پیش‌بینی‌های بیمار
- پشتیبانی تصمیم‌گیری‌های بالینی
- افزایش مشارکت بیماران
- برنامه‌ریزی استراتژیک
- تله‌مدیسین
- آنالیز پیش‌بینی‌کننده
- تشخیص تقلب
- تصویربرداری پزشکی
- پیشگیری از خودآسیب‌رسانی

🏥 معرفی نمونه‌هایی از شرکت‌های فعال در زمینه آنالیز بهداشتی: ویدیو به معرفی شرکت‌هایی نظیر Tempus، Pisces Technology، Hera Health و Innoplexis می‌پردازد که هر کدام به نوعی در حوزه آنالیز بهداشتی فعالیت دارند.

🚧 چالش‌های پیش روی این شرکت‌ها:
- یکپارچه‌سازی داده‌ها
- پذیرش آهسته فناوری‌های نوین
- تفاوت در استانداردهای داده
- رعایت مقررات مرتبط
- حفظ حریم خصوصی
- مالکیت و سودآوری داده‌ها

📚 برای کسب اطلاعات بیشتر، ویدیو را مشاهده کنید:

https://www.youtube.com/watch?v=-TE_CD3vG90

#معرفی_ویدئو
#عظیم_داده
#صنعت_بهداشت_و_درمان
#حمید_جمالی

www.bdbanalytics.ir
@BigData_BusinessAnalytics
📖 کتاب بخوانیم؛

📌 "Big Data for Big Decisions: Building a Data-Driven Organization"

🔹فصل ۹: ساختن استراتژی داده

❗️چرایی استراتژی داده

این بخش از کتاب با مقدمه‌ای از مسائل مرسوم سازمان‌ها اهمیت استراتژی داده را مرکز توجه قرار می‌دهد؛‌ مسائلی همچون ذخیره‌سازی جزیره‌ای داده‌ها، وجود نداشتن استانداردهایی مشخص مربوط به داده‌ها، اپلیکیشن‌هایی مختلفی که هرکدام داده‌های مربوط به خود را ذخیره‌سازی می‌کنند، کیفیت نامطلوب داده‌ها و حکمرانی ضعیف در این حوزه. مسئله‌ی دیگر، داده‌های تاریخی موجود در سازمان است که ممکن‌ است از منابع متفاوتی باقی‌مانده باشند و تشخیص داده‌های مفید و تمیزسازی آن‌ها برای تحلیل‌های آتی دردسر بزرگی برای سازمان‌ها خواهد بود. منابع متفاوتی از داده‌هایی که داخل و خارج از سازمان وجود دارند برای تحلیل‌های مهم مورد نیاز هستند و دستیابی به آن‌ها نیازمند پیش‌بینی‌های زیرساختی و استراتژیک است.

📌 چیستی استراتژی داده

تعریف استراتژی داده با توجه به منابع متفاوت را می‌توان به این صورت بیان کرد که راهنمایی مشخص برای دریافت، ذخیره‌سازی، مدیریت، اشتراک و استفاده‌ی داده است به صورتی که داده‌ی مناسب، در زمان مناسب، در اختیار فرد مناسب قرار گرفته و تحلیل‌های مورد نیاز برای تصمیم‌های مهم را ممکن می‌سازد.
استراتژی داده می‌تواند راه را برای استفاده‌ی تجاری شرکت‌ها از ارزش بالقوه‌ی داده‌های خود باز کند به صورتی که محصولاتی ارزان‌تر، سریع‌تر و بهتر را با شناخت مناسب از سلایق متغیر مشتریان خود تولید و با توجه به نیاز شخصی هر مشتری، ارزش خود را ارائه کند.

مسئول استراتژی داده

نکته‌ای که کتاب بر آن تاکید دارد تفاوت استراتژی داده از استراتژی فناوری اطلاعات سازمان است که همین امر نیاز مسئولی متفاوت با سبد مهارتی متفاوتی از مدیر ارشد فناوری اطلاعات سازمان (که معمولا مسئول استراتژی فناوری اطلاعات است) را به وجود می‌آورد. به همین دلیل وجود مدیر ارشد داده را در سازمان پیشنهاد می‌دهد که همزمان با زیرساخت‌های فناوری و تحلیلی مورد نیاز سازمان آشنایی دارد. مهارت اصلی او آنجایی است که تشخیص دهد کدام تصمیم‌های مهم در سازمان نیازمند چه تحلیل‌هایی و چه داده‌هایی هستند تا بتواند داده‌های مناسب را در زمان مناسب برای استفاده‌کننده‌ی مناسب فراهم کند.

📐 چهارچوب و ویژگی‌های استراتژی داده‌ی مناسب

چهارچوب استراتژی داده شامل بخش‌های متفاوتی از جمله دیدگاه‌های کنترلی، لجستیک داده، رقابت، تصمیم‌های بزرگ، تکنولوژی، اهداف کسب‌وکار، منابع و پخش و … است. نکته‌ی حائز اهمیت این است که استراتژی داده باید بر اساس نیازهای هر سازمان، صنعتی که سازمان در آن فعالیت دارد، سیستم‌های کنترلی داخل شرکت و توانمندی‌های افراد سازمان، برای آن سازمان شخصی‌سازی شود.
در صورتی که سازمان با حجم زیادی از داده‌ای که از منابع مختلف با سرعت بالا تولید می‌شود و از طرفی برای تحلیل انتخاب نمونه کار راحتی نبوده و یا خود نمونه حجم بالایی را به خود اختصاص می‌دهد در استراتژی داده باید برنامه‌ای مشخص برای عظیم‌داده داشته باشد.
استراتژی داده‌ی مناسب برای انواع داده ساختار یافته، ساختار نیافته(همانند شبکه‌های اجتماعی)، عظیم داده و انواع منابع داخل و بیرون سازمان را پوشش می‌دهد. از طرف دیگر استراتژی داده‌ی مناسب باید به این نکته توجه داشته باشد که داده‌ی درست در زمان صحیح تولید شده و به کارکرد مناسب یا استفاده‌کننده‌ی مناسب خود می‌رسد. همچنان در استراتژی داده باید تمامی کاربردهای تحلیلی داده که می‌تواند به تصمیم‌سازی‌های متفاوت کمک کند دیده شود.

✏️ توسعه و پیاده‌سازی استراتژی داده

با توجه به ویژگی‌های ذکر شده، استراتژی داده را می‌توان در توسعه به بخش‌هایی همچون زیرساخت، حکمرانی، سرویس‌های اشتراکی، مراکز بهینه‌سازی، اتوماسیون سازی و هوش مصنوعی و در نهایت تحلیلگری تقسیم نمود که هرکدام به ترتیب پیش‌نیاز زیرساختی بخش بعدی به حساب می‌آیند.
برای توسعه‌ی یک استراتژی داده‌ی مناسب می‌توان مراحل زیر را برشمرد:
۱. شناخت منابع داده در سازمان و داده‌هایی که برای تصمیم‌های بزرگ و تحلیل‌ها مورد نیاز هستند
۲. آماده کردن لیستی از تمامی دارایی‌های داده‌ی سازمان
۳. شناخت نیازهای سازمان و شکاف موجود بین وضعیت موجود و وضعیت مطلوب
۴. بهبود و اصلاح اهداف کسب‌وکار با هدف یک استراتژی داده‌ی یکپارچه
۵. ایجاد یک ساختار کامل سازمانی داده
۶. به کارگیری و فراگیر سازی ساختارهای داده‌ی جدید، فرایندها، سیاست‌‌ها و مدل‌های حكمراني ایجاد شده


#کتاب_بخوانیم
#فصل_نهم
#احسان_نگهدار
#استراتژی_داده
#داده‌های_عظیم_برای_تصمیمات_بزرگ


www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌معرفی مقالات حوزه عظیم داده‌ها

❇️نام مقاله:
Big data analytics capabilities: Patchwork or progress? A systematic review of the status quo and implications for future research

🖋نویسندگان:
Minh-Tay Huynh, Michael Nippa, Thomas Aichner

🗓سال انتشار : 2023
📔ژورنال:
Technological Forecasting & Social Change

🔸این مقاله یک مرور سیستماتیک ادبیات از زمینه تحقیقات در مورد قابلیت های تجزیه و تحلیل داده های عظیم (BDAC) ارائه می دهد.

🔸با ظهور داده های عظیم و تحول دیجیتال، تعداد زیادی از محققین به نیاز سازمان ها به توسعه BDAC اشاره کرده­ اند. با این حال علیرغم تلاش‌های ارزشمند برای بررسی عوامل تعیین‌کننده و کمک به معیارهای عملکرد، زمینه تحقیقاتی در مورد BDACها نسبتا ناشناخته باقی مانده است.

🔸 در حالی که تحلیل داده های عظیم (BDA) برای تبدیل آنها به اطلاعات ضروری است، با این حال برای تولید دانش ارزشمند، راهنمایی و بهبود تصمیم گیری استراتژیک کافی نیست. محققان تاکید کرده‌اند که علاوه بر تخصص فنی و تحلیلی مورد نیاز برای BDA، شرکت‌ها باید مهارت‌های مدیریتی را پرورش داده ، رویکرد کسب‌وکار و فرهنگ سازمانی بیشتر داده‌محور را اتخاذ کرده، یادگیری سازمانی را ارتقا داده و قابلیت‌های سازمانی را تقویت کنند تا بینش‌های ارزشمندی را از تحلیل داده های عظیم به دست آورند.

🔸در همین راستا تعداد مطالعات بر روی قابلیت های تجزیه و تحلیل داده های عظیم (BDAC) در حوزه های مختلف، به ویژه مدیریت عمومی، مدیریت زنجیره تامین و مراقبت های بهداشتی، به طور قابل توجهی افزایش یافته است. در نتیجه، محققان ممکن است به طور مستقل تحقیقات قبلی را برای مطالعه BDAC به کار برده باشند که منجر به تناقضات آشکار در مفهوم‌سازی، ابعاد، نظریه‌ها و روش‌های اعمال شده آن می‌شود. لذا مشارکت‌های نظری و پیامدهای عملی جزئی بوده ، درک پیشرفت در این زمینه را دشوار کرده و فقدان راهنمایی برای تحقیقات بعدی فراهم می‌کند.

🔸 علی‌رغم وجود مقالات بررسی ادبیات اولیه در مورد BDAC، یک چارچوب جامع برای سازماندهی اجزای کلیدی BDAC هنوز وجود ندارد. بنابراین، برای برجسته کردن وضعیت موجود و ادغام تحقیقات موجود، یک مرور سیستماتیک ادبیات شامل چارچوب سازماندهی جامع برای هدایت تحقیقات آینده انجام می‌شود. بر این اساس، در این مقاله یک مرور ادبیات تفسیری BDAC با سه هدف اصلی انجام می گردد. در مرحله اول، هدف کاوش ادبیات موجود در مورد بلوک های ساختمانی اساسی BDAC، مانند پیشنیازها، ابعاد، و نتایج است. در مرحله دوم، بحث خواهد شد که تا چه اندازه تحقیقات در این حوزه با توجه به تکامل تعاریف، مفروضات نظری، زمینه‌ها و صنایع تحقیقاتی، سطوح تحلیل و لنزهای نظری اتخاذ شده پیشرفت کرده است. برای ادامه این امر، در گام سوم بر نیاز به مقایسه BDAC با قابلیت‌های سازمانی قبلی، مانند فناوری اطلاعات، دیجیتالی‌سازی و قابلیت‌های پویا، به منظور شناسایی شکاف‌های مهم، مسائل رسیدگی‌نشده، و جهت‌دهی‌های تحقیقاتی امیدوارکننده تاکید می‌گردد.

🔸برای این منظور یک بررسی ادبیات از مقالات علمی منتشر شده در 25 سال گذشته در پایگاه مقالات Scopus و Web of Science انجام گرفته است. در ابتدا 218 مقاله بازیابی شده و پس از اعمال معیارهای مرتبط، 103 مقاله به طور کامل مورد تجزیه و تحلیل قرار گرفته است. یافته‌ها نشان می‌دهد که علی‌رغم افزایش تحقیقات BDAC، موضوعات مختلف مربوط به مبانی مفهومی و نظری و همچنین قابلیت اطمینان و اعتبار سنجی نتایج تجربی بر ارزش کلی نتایج تأثیر می‌گذارد.

🔸این پژوهش از طریق ارائه بینشی در مورد ادبیات موجود BDACها، بررسی طیف وسیعی از جنبه‌های شامل این مفهوم و اجزای اصلی آن، به توسعه بیشتر این زمینه تحقیقاتی کمک می‌کند. علاوه بر این، به ادبیات عمومی‌ مدیریت سازمانی کمک کرده و شباهت‌ها و تفاوت‌های رویکرد BDAC را با مفاهیم رایج‌تر قابلیت‌های سازمانی برجسته می‌سازد. همچنین این مطالعه به ادبیات رو به رشد در مورد دیجیتالی شدن و تحول دیجیتال افزوده و در نهایت، به شکل‌گیری یک دستور کار تحقیقاتی آینده‌نگر کمک کرده که محققان می‌توانند بر اساس آن رویکردهای نظری و روش‌شناختی را برای رسیدگی به شکاف‌ها و کاستی‌های پژوهشی به شیوه‌ای انباشته به دست آورند و در عین حال دانش بیشتری را به مجموعه ادبیات موجود برای پیشرفت این رشته اضافه کنند.

👈درصورت تمایل، می‌توانید فایل مقاله را در ادامه دانلود نمایید

#معرفی_مقاله
#تحلیل_عظیم_داده
#صبا_بزرگی
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📖 کتاب بخوانیم؛

📌 "Big Data for Big Decisions: Building a Data-Driven Organization"


📍بخش دهم: استراتژی بازاریابی داده محور

در فصل دهم کتاب "داده‌های عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور" به ضرورت تحلیل عظیم‌داده در بخش بازاریابی در یک سازمان پرداخته می‌شود.
بسیاری از شرکت‌ها در پیاده سازی بازاریابی داده محور با مشکلات زیادی مواجه می‌شوند که می‌توان در چهار طبقه دسته بندی کرد:
1️⃣ عدم آگاهی به چگونگی پیاده سازی
2️⃣ وجود داده‌های فراوان
3️⃣ زمان و منابع محدود
4️⃣ عدم وجود زیرساخت تحلیلی
یکی از پیش نیازهای اصلی در پیاده سازی درست استراتژی‌های بازاریابی داده محور، تشخیص و شناسایی تفاوت بین داده‌های در دسترس و داده‌های مورد نیاز می‌باشد. درک درست این دو مفهوم یک ضرورت می‌باشد چرا که لزوما تمام داده‌هایی که برای بازاریابی داده محور مورد نیاز است برابر با داده‌هایی که در حال حاضر در دسترس می‌باشد، نیست. در بیشتر مواقع داده‌هایی که در یک سازمان در حال حاضر وجود دارد زیر مجموعه ای از داده‌های مورد نیاز برای پیاده سازی بازاریابی داده محور می‌باشد، به این معنا که این داده‌ها کافی نیستند و طی مراحلی نیاز است تا جمع آوری شوند.

📍منابع داده مورنیاز برای بازاریابی داده محور
یکی از بخش‌های اصلی بازاریابی داده محور فروش داده محور می‌باشد به این معنا که نمی‌توان ادعای بازاریابی داده محور داشت، اما در فروش محصولات و خدمات مجموعه داده‌ها تحلیل نشوند. داده‌های مربوط به فروش از کانال‌های مختلفی می‌توانند جمع‌آوری شوند که تحلیل توامان آنها می‌تواند بینش‌های ارزشمندی در اختیار سازمان قرار دهد.
🔹 یکی از منابع داده‌ای ارزشمند، مجموعه تعاملات واحد فروش با مشتریان می‌باشد که تحلیل آنها به ارائه هدفمند محصولات و خدمات کمک شایانی خواهد کرد.
🔸پروفایل مشتریان که شامل اطلاعات جمعیت شناختی، علایق و ترجیحات می‌باشد و به مرور زمان اطلاعات رفتاری شامل نوع خرید و میزان خرید ثبت می‌شود به عنوان یکی دیگر از منابع داده‌ای غنی جهت پیاده سازی بازاریابی داده محور می‌باشد.
🔹 یکی دیگر از منابع داده که باید در کنار سایر داده‌های کمی قرار بگیرد، استراتژی‌های بازاریابی کلان یک سازمان می‌باشد از این جهت که بتوانند در کنار منابع داده‌ای بازاریابی قرار گیرند تا همراستا شوند.

📍اجرا و مدیریت کورکورانه بازاریابی:
اگر بحث داده از بازاریابی حذف شود و یا از منظر زمانی تاخیرهای معناداری بین داده‌های تولید شده و تحلیل آن وجود داشته باشد، عملا مدیر بازاریابی نمی‌تواند بر مبنای داده عمل کند و تصمیمات کاملا شهودی خواهد شد. این داده‌ها تنها مربوط به مشتریان نمی‌باشد، بلکه تحلیل داده‌ها در سطح محصولات هم به عنوان یک پیشنیاز اصلی جهت دور شدن از تصمیمات کورکورانه در زمینه بازاریابی می‌باشد. از آنجاییکه ارتباط بین مدیر عامل و مدیر بازاریابی بسیار نزدیک و حیاتی می‌باشد، اگر مدیر بازاریابی بر مبنای داده فکر و تصمیم‌گیری نکند، این تصمیم گیری کورکورانه به سطح عالی مدیریت انتقال می‌یابد. بر همین مبنا است که طراحی استراتژی در بازاریابی داده محور نقش اساسی در کل سازمان را دارد که مبنای آن همان جمع آوری و تحلیل داده های مورد نیاز می‌باشد و کلید حل این تصمیم کورکورانه داده می‌باشد.
📍سازماندهی تیم بازاریابی داده محور
از آنجاییکه پیاده سازی موفق استراتژی نیازمند یک تیم سازمان یافته می‌باشد، طبیعتا جهت اجرا و پیاده سازی استراتژی‌هایی بازارایابی که در سطح کلان سازمان طراحی شدند، نیازمند جذب و به کارگیری افرادی است که تخصص‌های لازم در زمینه داده و تحلیل آن در حوزه بازاریابی را دارند. چگونگی سازماندهی این تیم از کسب و کار به کسب و کار متفاوت می‌باشد که نیازمند همراستا شدن با سایر بخش ها می‌باشد تا حداکثر راندمان را داشته باشد. به طور کلی چهار قدم ذیل در طراحی موفق این تیم باید مدنظر باشد:
1️⃣ نیازسنجی و جمع آوری تمام داده‌های مورد نیاز بازاریابی
2️⃣ در نظر گرفتن تمامی داده‌های تولید شده در داخل سازمان
3️⃣ تحلیل و پیاده سازی الگوریتم‌های شخصی سازی شده متناسب با سازمان
4️⃣ استفاده از بینش کسب شده جهت تصمیمات بازاریابی داده محور

#کتاب_بخوانیم
#داده‌های_عظیم_برای_تصمیمات_بزرگ
#فصل_دهم
#استراتژی_بازاریابی_داده_محور
#علی_محمدی


www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌معرفی ابزار: Databricks Lakehouse Platform

🖌نوع جدیدی از معماری داده تحت عنوان "data lakehouse" دریاچه داده و انبارداده را ترکیب می‌نماید تا نقاط ضعفی را که هر یک از آنها به طور مستقل می‌توانند داشته باشند، برطرف نماید. پلتفرم lakehouse، مانند دریاچه‌های داده از ذخیره‌سازی کم هزینه برای نگهداری حجم عظیمی از داده‌ها در فرمت اصلی خود بهره می‌برد و افزودن یک لایه متادیتا بر روی محل ذخیره‌سازی نیز ساختار داده را فراهم نموده و ابزارهای مدیریت داده را مشابه آنچه در انبارداده وجود دارد امکان پذیر می‌سازد.

🔹این معماری شامل حجم از عظیمی از داده‌های ساختیافته، نیمه ساختیافته و بدون ساختار است که از اپلیکیشن‌ها، سیستم‌ها و دستگاه‌های مختلفی که در سراسر سازمان مورد استفاده قرار می‌گیرند، به دست می‌آیند.
بر خلاف دریاچه داده، پلتفرم‌های lakehouse می‌توانند داده‌ها را برای عملکرد SQL مدیریت و بهینه‌سازی نمایند. همچنین این قابلیت را دارند تا حجم بزرگی از داده‌های متنوع را با هزینه‌ای پایین‌تر از انبارهای داده ذخیره‌سازی و پردازش نمایند. این پلتفرم‌ها هنگامی که نیاز به اجرای هر گونه دسترسی به داده‌ها یا تحلیل‌گری داریم اما در خصوص داده‌ها یا تحلیل مورد نظر اطمینان نداریم می‌توانند بسیار مفید باشند.
❇️ ویژگی‌های data lakehouse عبارتند از:
خواندن و نوشتن همزمان داده‌ها
سازگاری و مقیاس پذیری
اسکیماهای مورد نیاز توسط ابزارهای حکمرانی داده
ذخیره سازی مقرون به صرفه
پشتیبانی از همه انواع داده‌ها و فرمت‌های فایل
امکان دسترسی ابزارهای علم داده و یادگیری ماشین
دسترسی سریع‌تر و دقیق‌تر تیم‌های داده به تنها یک سیستم برای انتقال بارهای کاری
قابلیت‌های بلادرنگ برای ابتکارات در علم داده، یادگیری ماشین و تحلیل‌گری

🔹دیتابریکس (Databricks) یک سرویس آپاچی اسپارک مدیریت شده را ارائه می‌دهد که به عنوان پلتفرمی برای دریاچه‌های داده قرار داده می‌شود. دریاچه داده، delta lake و موتور delta، اجزای معماری databricks lakehouse هستند که کاربردهای هوش کسب و کار، علم داده و یادگیری ماشین و از جمله تکنیک‌های هوش مصنوعی مولد مانند LLM را توانمند می‌سازند.
🔸دریاچه داده یک مخزن ذخیره‌سازی ابری عمومی است که از پشتیبانی از مدیریت متادیتا، پردازش داده دسته‌ای و جریانی برای مجموعه داده‌های چندساختاری، اکتشاف داده، کنترل دسترسی ایمن و تجزیه و تحلیل SQL بهره‌‌مند می‌باشد.
🔹دیتابریکس بیشتر کارکردهای انبارداده که از یک پلتفرم lakehouse انتظار می‌رود را ارائه می‌دهد. همچنین اخیراً از یک بارگذاری خودکار (auto loader) رونمایی کرده است که ETL و ورود داده را خودکار نموده است و از نمونه‌گیری از داده‌ها برای استنتاج اسکیمای انواع مختلف داده‌ها جهت ارائه اجزای اساسی استراتژی ذخیره‌سازی دریاچه داده استفاده می‌نماید. همچنین کاربران می‌توانند پایپ‌لاین‌های ETL را میان ساختار ابری دریاچه داده و Delta lake با استفاده از جداول لایو دلتا ایجاد کنند.
❗️هر چند به نظر می‌رسد این ابزار تمام مزیت‌های انبارداده و دریاچه داده را دارد، اما پیاده‌سازی این راهکار و ایجاد پایپ‌لاین‌ها، نیازمند نیروی انسانی و توسعه دهندگان ماهر است که به ویژه در مقیاس بالاتر پیچیدگی‌های بیشتری پیدا می‌نماید.


#معرفی_ابزار
#داده‌های_عظیم
#فاطمه_مظفری
#Data_Lakehouse
#Databricks_Lakehouse_platform

@BigData_BusinessAnalytics
www.bdbanalytics.ir