🔹آب قطره قطره می چکد، با پایداری و سماجت
🔹سنگ بزرگ را سوراخ می کند.... موش با پشتکار و استقامت ، موفق به پاره کردن
رشته ی محکمی از سیم می شود....
.
🔹و ضربه های پی در پی تبری کوچک، درخت کهن
را از پای در می آورد.....
با درود فراوان به همراهان عزیز
ضمن تبریک روز دانشجو به امیدان آینده کشور
سومین روز از این هفته پاییزی با یاد خداوند شروع می کنیم.
امروز با مطالبی پیرامون ظهور استاندارد در حوزه کلان داده ها و طبقه بندی فناوری حوزه کلان داده در یک نگاه در خدمت شما سروران هستم.
گلناز اردشیری
@BigDataTechnology
🔹سنگ بزرگ را سوراخ می کند.... موش با پشتکار و استقامت ، موفق به پاره کردن
رشته ی محکمی از سیم می شود....
.
🔹و ضربه های پی در پی تبری کوچک، درخت کهن
را از پای در می آورد.....
با درود فراوان به همراهان عزیز
ضمن تبریک روز دانشجو به امیدان آینده کشور
سومین روز از این هفته پاییزی با یاد خداوند شروع می کنیم.
امروز با مطالبی پیرامون ظهور استاندارد در حوزه کلان داده ها و طبقه بندی فناوری حوزه کلان داده در یک نگاه در خدمت شما سروران هستم.
گلناز اردشیری
@BigDataTechnology
ظهور استاندارد در حوزه کلان داده:
مرکز ملی استاندارد آمریکا ، اخیرا استاندارد سازی در حوزه مهندسی داده و بویژه کلان داده را شروع کرده است و رسما در هفت حوزه زیر از فعالان و صاحبنظران درخواست کرده است که مطالب و نقطه نظرات خود را برای آنها ارسال کنند.
این هفت حوزه عبارتند از :
1- تعاریف و مفاهیم کلان داده
2- طبقه بندی کلان داده
3- نیازمندیهای کلان داده
4- امنیت و محرمانگی در حوزه کلان داده
5- معماری امنیت کلان داده
6- معماری اطلاعات کلان داده
7- راهنما و مسیر حرکت در حوزه کلان داده
البته نسخه اولیه هر کدام از این هفت حوزه آماده شده که میتوانید جزییات آنها را در آدرس زیر مشاهده و دانلود کنید .
http://bigdatawg.nist.gov/V1_output_docs.php
در هر صورت بعد از سالها، یکی از حوزه های داغ فناوری اطلاعات یعنی کلان داده در حال استاندارد شدن است . امری که می تواند به جهت دهی شرکتها و افراد بسیار کمک کند.
امیدواریم نسخه اولیه و نهایی آن زودتر وارد بازار شود .
منبع : bigdata.ir
مرکز ملی استاندارد آمریکا ، اخیرا استاندارد سازی در حوزه مهندسی داده و بویژه کلان داده را شروع کرده است و رسما در هفت حوزه زیر از فعالان و صاحبنظران درخواست کرده است که مطالب و نقطه نظرات خود را برای آنها ارسال کنند.
این هفت حوزه عبارتند از :
1- تعاریف و مفاهیم کلان داده
2- طبقه بندی کلان داده
3- نیازمندیهای کلان داده
4- امنیت و محرمانگی در حوزه کلان داده
5- معماری امنیت کلان داده
6- معماری اطلاعات کلان داده
7- راهنما و مسیر حرکت در حوزه کلان داده
البته نسخه اولیه هر کدام از این هفت حوزه آماده شده که میتوانید جزییات آنها را در آدرس زیر مشاهده و دانلود کنید .
http://bigdatawg.nist.gov/V1_output_docs.php
در هر صورت بعد از سالها، یکی از حوزه های داغ فناوری اطلاعات یعنی کلان داده در حال استاندارد شدن است . امری که می تواند به جهت دهی شرکتها و افراد بسیار کمک کند.
امیدواریم نسخه اولیه و نهایی آن زودتر وارد بازار شود .
منبع : bigdata.ir
فناوریهای حوزه کلان داده در یک نگاه:
سایت InsightDataEngineering یک نمودار تعاملی ساده و جمع و جور برای آشنایی با فناوریهای حوزه کلان داده منتشر کرده است که در نه گروه مختلف این فناوری ها را طبقه بندی کرده است :
این طبقه بندی به صورت فهرست وار طبق این نمودار از قرار زیر است:
🔵ابزار تزریق داده :
ابزار و فناوریهای که به کمک آنها می توان داده ها را وارد سامانه های کلان داده نمود .
Kafka
RabbitMQ
Fluentd
Sqoop
AWS Kinesis
🔵قالب های فایلی ذخیره و بازیابی اطلاعات :
گاهی اوقات نیاز داریم بعضی اطلاعات را که در قالب های مختلف هستند درون فایل ذخیره کنیم .
Avro
Parquet
Thrift
ProtoBuf
SequenceFiles
🔵سیستم های فایلی ذخیره و بازیابی اطلاعات :
HDFS
AWS S3
Tachyon
🔵پردازش دسته ای :
Hadoop Map/Reduce
Spark
AWS EMR
TEZ
یادگیری ماشین
H2O
Mahout
Spark MLib
پردازش گراف
GraphLab
Giraph
Spark GraphX
اجرای SQL
Hive
Presto
Drill
🔵پردازش جریانهای داده
Storm
Spark Streaming
Samza
NiFi
🔵بانکهای اطلاعاتی
بانکهای اطلاعاتی رابطه ای
بانکهای سندگرا
بانکهای سطر گسترده
بانکهای کلید مقدار
بانکهای گراف محور
🔵ابزارهای مدیریت شبکه وکلاستر
YARN
Mesos
Zookeeper
Oozie
🔵ابزارهای نظارت و مانیتورینگ
Hue
Ambari
Lipstick
Ganglia
🔵داشبوردهای تحلیلی و تولید برنامه های کاربر
Flask
D3
AngularJS
Django
Highcharts
جزییات کامل این گروه بندی و نمودار را در آدرس زیر می توانید مشاهده کنید .
http://insightdataengineering.com/blog/pipeline_map.html
سایت InsightDataEngineering یک نمودار تعاملی ساده و جمع و جور برای آشنایی با فناوریهای حوزه کلان داده منتشر کرده است که در نه گروه مختلف این فناوری ها را طبقه بندی کرده است :
این طبقه بندی به صورت فهرست وار طبق این نمودار از قرار زیر است:
🔵ابزار تزریق داده :
ابزار و فناوریهای که به کمک آنها می توان داده ها را وارد سامانه های کلان داده نمود .
Kafka
RabbitMQ
Fluentd
Sqoop
AWS Kinesis
🔵قالب های فایلی ذخیره و بازیابی اطلاعات :
گاهی اوقات نیاز داریم بعضی اطلاعات را که در قالب های مختلف هستند درون فایل ذخیره کنیم .
Avro
Parquet
Thrift
ProtoBuf
SequenceFiles
🔵سیستم های فایلی ذخیره و بازیابی اطلاعات :
HDFS
AWS S3
Tachyon
🔵پردازش دسته ای :
Hadoop Map/Reduce
Spark
AWS EMR
TEZ
یادگیری ماشین
H2O
Mahout
Spark MLib
پردازش گراف
GraphLab
Giraph
Spark GraphX
اجرای SQL
Hive
Presto
Drill
🔵پردازش جریانهای داده
Storm
Spark Streaming
Samza
NiFi
🔵بانکهای اطلاعاتی
بانکهای اطلاعاتی رابطه ای
بانکهای سندگرا
بانکهای سطر گسترده
بانکهای کلید مقدار
بانکهای گراف محور
🔵ابزارهای مدیریت شبکه وکلاستر
YARN
Mesos
Zookeeper
Oozie
🔵ابزارهای نظارت و مانیتورینگ
Hue
Ambari
Lipstick
Ganglia
🔵داشبوردهای تحلیلی و تولید برنامه های کاربر
Flask
D3
AngularJS
Django
Highcharts
جزییات کامل این گروه بندی و نمودار را در آدرس زیر می توانید مشاهده کنید .
http://insightdataengineering.com/blog/pipeline_map.html
مقالاتی که دنیای کلان داده را تغییر داد:
در حوزه کلان داده در سالهای اخیر مقالات بسیار زیادی منتشر شده است و با توجه به گرایشات جهانی به این حوزه ، سال به سال نیز در حال افزایش است اما در این بین ، بعضی مقالات نقش پایه ای و اساسی در این حوزه ایفا کرده اند مانند مقاله ای که گوگل در سال ۲۰۰۶ با موضوع کلان جدول یا BigTable منتشر کرد و پایه ای شد برای طراحی بانکهای سطر گسترده ای مانند آمازون داینامو و کاساندرا .
در این مقاله این مقالات که نقطه عطفی در حوزه کلان داده بوده اند به صورت زیر فهرست شده اند که برای دانشجویان و محققین این حوزه توصیه میشود برای شروع کار ، از این مقالات پایه ای استفاده کنند :
🔵MapReduce: Simplified Data Processing on Large Clusters
🔵The Google File System
🔵Bigtable: A Distributed Storage System for Structured Data
🔵Dynamo: Amazon’s Highly Available Key-value Store
🔵The Chubby lock service for loosely-coupled distributed systems
🔵Chukwa: A large-scale monitoring system
🔵Cassandra – A Decentralized Structured Storage System
🔵HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads
🔵S4: Distributed Stream Computing Platform.
🔵Dremel: Interactive Analysis of Web-Scale Datasets
🔵Large-scale Incremental Processing Using Distributed Transactions and Notifications
🔵Pregel: A System for Large-Scale Graph Processing
🔵Spanner: Google’s Globally-Distributed Database
🔵Shark: Fast Data Analysis Using Coarse-grained Distributed Memory
🔵The PageRank Citation Ranking: Bringing Order to the Web
🔵A Few Useful Things to Know about Machine Learning
🔵Random Forests
🔵A Relational Model of Data for Large Shared Data Banks
🔵Map-Reduce for Machine Learning on Multicore
🔵Megastore: Providing Scalable, Highly Available Storage for Interactive Services
🔵Finding a needle in Haystack: Facebook’s photo storage
🔵Spark: Cluster Computing with Working Sets
🔵The Unified Logging Infrastructure for Data Analytics at Twitter
🔵F1: A Distributed SQL Database That Scales
🔵MLbase: A Distributed Machine-learning System
🔵Scalable Progressive Analytics on Big Data in the Cloud
🔵Big data: The next frontier for innovation, competition, and productivity
🔵The Promise and Peril of Big Data
🔵TDWI Checklist Report: Big Data Analytics
منبع: bigdata.ir
در حوزه کلان داده در سالهای اخیر مقالات بسیار زیادی منتشر شده است و با توجه به گرایشات جهانی به این حوزه ، سال به سال نیز در حال افزایش است اما در این بین ، بعضی مقالات نقش پایه ای و اساسی در این حوزه ایفا کرده اند مانند مقاله ای که گوگل در سال ۲۰۰۶ با موضوع کلان جدول یا BigTable منتشر کرد و پایه ای شد برای طراحی بانکهای سطر گسترده ای مانند آمازون داینامو و کاساندرا .
در این مقاله این مقالات که نقطه عطفی در حوزه کلان داده بوده اند به صورت زیر فهرست شده اند که برای دانشجویان و محققین این حوزه توصیه میشود برای شروع کار ، از این مقالات پایه ای استفاده کنند :
🔵MapReduce: Simplified Data Processing on Large Clusters
🔵The Google File System
🔵Bigtable: A Distributed Storage System for Structured Data
🔵Dynamo: Amazon’s Highly Available Key-value Store
🔵The Chubby lock service for loosely-coupled distributed systems
🔵Chukwa: A large-scale monitoring system
🔵Cassandra – A Decentralized Structured Storage System
🔵HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads
🔵S4: Distributed Stream Computing Platform.
🔵Dremel: Interactive Analysis of Web-Scale Datasets
🔵Large-scale Incremental Processing Using Distributed Transactions and Notifications
🔵Pregel: A System for Large-Scale Graph Processing
🔵Spanner: Google’s Globally-Distributed Database
🔵Shark: Fast Data Analysis Using Coarse-grained Distributed Memory
🔵The PageRank Citation Ranking: Bringing Order to the Web
🔵A Few Useful Things to Know about Machine Learning
🔵Random Forests
🔵A Relational Model of Data for Large Shared Data Banks
🔵Map-Reduce for Machine Learning on Multicore
🔵Megastore: Providing Scalable, Highly Available Storage for Interactive Services
🔵Finding a needle in Haystack: Facebook’s photo storage
🔵Spark: Cluster Computing with Working Sets
🔵The Unified Logging Infrastructure for Data Analytics at Twitter
🔵F1: A Distributed SQL Database That Scales
🔵MLbase: A Distributed Machine-learning System
🔵Scalable Progressive Analytics on Big Data in the Cloud
🔵Big data: The next frontier for innovation, competition, and productivity
🔵The Promise and Peril of Big Data
🔵TDWI Checklist Report: Big Data Analytics
منبع: bigdata.ir
دوستانی که مایل به دریافت هر کدام از مقاله های فوق هستند ، نام مقاله و آدرس ایمیل خود را به 👇👇👇
@golnazardeshiri
ارسال کنند.
@golnazardeshiri
ارسال کنند.
زندگی تاس خوب آوردن نیست
تاس بد را خوب بازی کردن است.
سلام و عرض ادب خدمت همراهان عزیز.
سه شنبه پاییزی با یاد ایزد شروع می کنیم.
امروز با آشنایی IOT اشیای اینترنت در خدمت شما سروران هستم.
شروع پر نشاطی برایتان آرزومندم.
در صورت تمایل به دعوت دوستان خود به این مجموعه، این پیام را خدمت آن بزرگواران ارسال نمایید .
با تشکر
گلناز اردشیری
@BigdataTechnology
تاس بد را خوب بازی کردن است.
سلام و عرض ادب خدمت همراهان عزیز.
سه شنبه پاییزی با یاد ایزد شروع می کنیم.
امروز با آشنایی IOT اشیای اینترنت در خدمت شما سروران هستم.
شروع پر نشاطی برایتان آرزومندم.
در صورت تمایل به دعوت دوستان خود به این مجموعه، این پیام را خدمت آن بزرگواران ارسال نمایید .
با تشکر
گلناز اردشیری
@BigdataTechnology
اینترنت اشیا
IOT-- Internet Of Thing
عبارت اینترنت اشیا، برای اولین بار در سال ۱۹۹۹ توسط «کوین اشتون» (Kevin Ashton) مورد استفاده قرار گرفت. او جهانی را توصیف کرد که در آن هر چیزی، ازجمله اشیای بیجان، برای خود هویت دیجیتال داشته باشند و به کامپیوترها اجازه دهند آنها را سازماندهی و مدیریت کنند. در آن ابتدا که «کوین اشتون» عبارت اینترنت اشیا را پایه نهاد، احتمالا تنها استفاده از چیپهای شناسایی مبتنی بر فرکانسهای رادیویی، موسوم به RFID را در ذهن داشت.
پس از گذشت حدود ۱۵ سال، ایدهی بنیادین «کیوین اشتون» جنبههای عملیتر و گستردهتری به خود گرفته است. اساس داستان این است که دستگاهها (اشیا) در یک پلتفرم عظیم با کمک حسگرهای مختلف به جمعآوری اطلاعات پرداخته و از طریق ترکیبی از تکنولوژیهای ارتباطی زمان خود (بهطور مثال زمانی RFID و زمانی Wi-Fi) با یکدیگر به تبادل داده بپردازند.
اینترنت اشیا بخشی جداییناپذیر از آیندهی اینترنت است. پروتکلهای ارتباطی جدید هم بهعنوان بنیاد این شبکهی پیچدرپیچ ایفای نقش میکنند. وظیفهی این پروتکلها این است که تعامل و یکپارچگی کامل اشیای مجازی و فیزیکی جهان پیرامونمان را تضمین کنند. کامپیوترها، گوشیها، تلویزیونها، حسگرها، خودروها، یخچالها، حتی بستههای غذا و دارو، در این شبکهی متشکل از اشیا قرار میگیرند.
از سوی دیگر، موضوع رایانش ابری مطرح است. این مفهوم دست در دست اینترنت اشیا دارد؛ زیرا بخش عظیمی از دادههای شبکه عظیم مورد نظر ما، بر روی سیستمهای ذخیرهسازی ابری (Cloud Storage) قرار دارد. پردازش این دادهها هم عمدتا بر روی سرورهایی پرقدرت، خارج از دستگاههای ما (اشیای پیرامونمان) صورت میگیرد. به همین خاطر، آیندهی اینترنت اشیا در گروی پیشرفتهای هر چه بیشتر در حوزهی رایانش ابری است.
بد نیست چند سناریوی احتمالی در مورد اینترنت اشیا را با هم مرور کنیم. فروشگاهی را تصور کنید که دیگر بههیچوجه نگران تمام شدن محصولاتش نیست، چون سیستم کنترل هوشمند انبار در هر لحظه از موجودی تمام محصولات باخبر است و حتی کار سفارش را هم خودش انجام میدهد. دنیایی را تصور کنید که در آن بتوان یخچالتان را طوری تنظیم کنید که وقتی تعداد تخممرغهای داخلش به دو عدد رسید، بهصورت خودکار سفارش خرید تخممرغ به فروشگاه نزدیک خانهتان ارسال شود؛ یا اینکه بتوانید روشن یا خاموش بودن اتو یا اجاق گازتان را بهوسیلهی تلفن هوشمندتان از محل کار چک کنید.
حالا بیایید کمی از کلمات پیچیده و آیندهی نیامده فاصله گرفته و بهطور خلاصه دستاوردهای حال حاضر دنیا در این زمینه را مرور کنیم. از مهمترین شرکتهایی که جاهطلبانه به این حوزه وارد شدهاند میتوان به گوگل، اپل، مایکروسافت، سامسونگ و اینتل اشاره کنیم. بهطور مثال دو شرکت گوگل و اپل بیش از هر چیزی به فکر آماده کردن پلتفرم خود هستند؛ شرایطی که در آن محصولات و سرویسهایشان به شکلی بهینه با اشیای محیط پیرامون تعامل داشته باشد.
IOT-- Internet Of Thing
عبارت اینترنت اشیا، برای اولین بار در سال ۱۹۹۹ توسط «کوین اشتون» (Kevin Ashton) مورد استفاده قرار گرفت. او جهانی را توصیف کرد که در آن هر چیزی، ازجمله اشیای بیجان، برای خود هویت دیجیتال داشته باشند و به کامپیوترها اجازه دهند آنها را سازماندهی و مدیریت کنند. در آن ابتدا که «کوین اشتون» عبارت اینترنت اشیا را پایه نهاد، احتمالا تنها استفاده از چیپهای شناسایی مبتنی بر فرکانسهای رادیویی، موسوم به RFID را در ذهن داشت.
پس از گذشت حدود ۱۵ سال، ایدهی بنیادین «کیوین اشتون» جنبههای عملیتر و گستردهتری به خود گرفته است. اساس داستان این است که دستگاهها (اشیا) در یک پلتفرم عظیم با کمک حسگرهای مختلف به جمعآوری اطلاعات پرداخته و از طریق ترکیبی از تکنولوژیهای ارتباطی زمان خود (بهطور مثال زمانی RFID و زمانی Wi-Fi) با یکدیگر به تبادل داده بپردازند.
اینترنت اشیا بخشی جداییناپذیر از آیندهی اینترنت است. پروتکلهای ارتباطی جدید هم بهعنوان بنیاد این شبکهی پیچدرپیچ ایفای نقش میکنند. وظیفهی این پروتکلها این است که تعامل و یکپارچگی کامل اشیای مجازی و فیزیکی جهان پیرامونمان را تضمین کنند. کامپیوترها، گوشیها، تلویزیونها، حسگرها، خودروها، یخچالها، حتی بستههای غذا و دارو، در این شبکهی متشکل از اشیا قرار میگیرند.
از سوی دیگر، موضوع رایانش ابری مطرح است. این مفهوم دست در دست اینترنت اشیا دارد؛ زیرا بخش عظیمی از دادههای شبکه عظیم مورد نظر ما، بر روی سیستمهای ذخیرهسازی ابری (Cloud Storage) قرار دارد. پردازش این دادهها هم عمدتا بر روی سرورهایی پرقدرت، خارج از دستگاههای ما (اشیای پیرامونمان) صورت میگیرد. به همین خاطر، آیندهی اینترنت اشیا در گروی پیشرفتهای هر چه بیشتر در حوزهی رایانش ابری است.
بد نیست چند سناریوی احتمالی در مورد اینترنت اشیا را با هم مرور کنیم. فروشگاهی را تصور کنید که دیگر بههیچوجه نگران تمام شدن محصولاتش نیست، چون سیستم کنترل هوشمند انبار در هر لحظه از موجودی تمام محصولات باخبر است و حتی کار سفارش را هم خودش انجام میدهد. دنیایی را تصور کنید که در آن بتوان یخچالتان را طوری تنظیم کنید که وقتی تعداد تخممرغهای داخلش به دو عدد رسید، بهصورت خودکار سفارش خرید تخممرغ به فروشگاه نزدیک خانهتان ارسال شود؛ یا اینکه بتوانید روشن یا خاموش بودن اتو یا اجاق گازتان را بهوسیلهی تلفن هوشمندتان از محل کار چک کنید.
حالا بیایید کمی از کلمات پیچیده و آیندهی نیامده فاصله گرفته و بهطور خلاصه دستاوردهای حال حاضر دنیا در این زمینه را مرور کنیم. از مهمترین شرکتهایی که جاهطلبانه به این حوزه وارد شدهاند میتوان به گوگل، اپل، مایکروسافت، سامسونگ و اینتل اشاره کنیم. بهطور مثال دو شرکت گوگل و اپل بیش از هر چیزی به فکر آماده کردن پلتفرم خود هستند؛ شرایطی که در آن محصولات و سرویسهایشان به شکلی بهینه با اشیای محیط پیرامون تعامل داشته باشد.
ارتباط بين اينترنت اشيا و كلان داده ها:
↔️↔️↔️↔️↔️↔️↔️↔️↔️
در الگوي IOT تعداد بسياري از حسگرهاي شبكه در وسايل دنياي واقعي جاسازي شده است.
اين حسگرها كه در زمينه هاي مختلف توسعه يافته اند ممكن است انواع مختلف داده ها را از جمله داده هاي محيطي، جغرافيايي، نجومي و منطقي جمع آوري كنند.
تجهيزات سيار، وسايل حمل و نقل ، امكانات عمومي و وسايل خانگي همه ميتوانند تجهيزات اكتساب داده در IOT باشند.
در مقايسه با كلان داده هاي معمولي، كلان داده هاي توليد شده توسط IOT ويژگي هاي متفاوتي دارند.
به دليل وجود انواع گوناگون داده هاي جمع آوري شده ، آن ها اغلب داراي مشخصات كلاسيكي نظير ناهمگني،تنوع،تركيبي غير ساخت يافته،نويزي و رشد هستند.
اكر چه داده هاي IOT فعلي بخش غالب كلان داده ها نيستند اما طبق پيش بيني تا سال ٢٠٣٠ تعداد حسگرهاي در دسترس به تريليون خواهد رسيد.
بنابراين داده هاي IoT حاصل از آنها ميتوانند مهم ترين بخش از كلان داده ها باشد.
بسياري از متخصصان وقتي به اهميت كلان داده ها پي بردند كه IOT با هم پيوستن موثر كلان داده ها و رايانش ابري به موفقيت رسيده بود.
همه جانبه ي IoT بسياري از شهرها را به محدوده ي كلان داده ها وارد خواهد كرد.
منبع: كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
↔️↔️↔️↔️↔️↔️↔️↔️↔️
در الگوي IOT تعداد بسياري از حسگرهاي شبكه در وسايل دنياي واقعي جاسازي شده است.
اين حسگرها كه در زمينه هاي مختلف توسعه يافته اند ممكن است انواع مختلف داده ها را از جمله داده هاي محيطي، جغرافيايي، نجومي و منطقي جمع آوري كنند.
تجهيزات سيار، وسايل حمل و نقل ، امكانات عمومي و وسايل خانگي همه ميتوانند تجهيزات اكتساب داده در IOT باشند.
در مقايسه با كلان داده هاي معمولي، كلان داده هاي توليد شده توسط IOT ويژگي هاي متفاوتي دارند.
به دليل وجود انواع گوناگون داده هاي جمع آوري شده ، آن ها اغلب داراي مشخصات كلاسيكي نظير ناهمگني،تنوع،تركيبي غير ساخت يافته،نويزي و رشد هستند.
اكر چه داده هاي IOT فعلي بخش غالب كلان داده ها نيستند اما طبق پيش بيني تا سال ٢٠٣٠ تعداد حسگرهاي در دسترس به تريليون خواهد رسيد.
بنابراين داده هاي IoT حاصل از آنها ميتوانند مهم ترين بخش از كلان داده ها باشد.
بسياري از متخصصان وقتي به اهميت كلان داده ها پي بردند كه IOT با هم پيوستن موثر كلان داده ها و رايانش ابري به موفقيت رسيده بود.
همه جانبه ي IoT بسياري از شهرها را به محدوده ي كلان داده ها وارد خواهد كرد.
منبع: كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
هر آدم بزرگ و موفقی ابتدا فقط یک نوزاد بوده،
هر ساختمان ابتدا فقط یک طرح روی کاغذ بوده،
مهم نیست امروز کجایی،مهم اینه فردا کجا خواهی بود.
با عرض سلام و ادب خدمت سروران عزیز.
چهارشنبه پاییزی را با یاد ایزد شروع می کنیم.
امروز با مطالبی پیرامون دیتا سنترها و ارتباط بین هدوپ و کلان داده ها در خدمت شما عزیزان هستم.
با تشکر
گلناز اردشیری
@BigDataTechnology
هر ساختمان ابتدا فقط یک طرح روی کاغذ بوده،
مهم نیست امروز کجایی،مهم اینه فردا کجا خواهی بود.
با عرض سلام و ادب خدمت سروران عزیز.
چهارشنبه پاییزی را با یاد ایزد شروع می کنیم.
امروز با مطالبی پیرامون دیتا سنترها و ارتباط بین هدوپ و کلان داده ها در خدمت شما عزیزان هستم.
با تشکر
گلناز اردشیری
@BigDataTechnology
مرکز داده ها
در الگوی کلان داده ها فقط به عنوان سازمانی برای انباره ی ما مرکز داده ها نیست بلکه عهده دار وظایف دیگری مانند اکتساب داده ها،مدیریت داده ها،سازمان دهی داده ها و به کارگیری ارزش و عملکرد داده ها است.
کلان داده ها برای پشتیبانی قدرتمند در پشت صحنه به مرکز داده ها نیاز دارند.
الگوی کلان داده ها علاوه بر نیازمندی های دقیقی برای توانایی ذخیره سازی و توانایی پردازش به توانایی ارتباط شبکه نیز نیاز دارد.
شرکت ها باید مراکز داده ها را توسعه دهند تا ظرفیت پردازش سریع و کارایی کلان داد ها با نرخ محدود را به نسبت هزینه بر کارایی بهبود بخشند.
رشد کاربردهای کلان داده ها، انقلاب و نوآوری را در مراکز داد ها سرعت بخشیده است.
کاربرد های کلان داده ها بسیاری از معماری های منحصر به فرد مراکز داده ها را توسعه داده است و باعث پیشرفت مستقیم فناوری های ذخیره سازی،شبکه و محاسبات مربوط به مراکز داده ها شده است.
با رشد مداوم داده های ساخت یافته و غیر ساخت یافته و تنوع منابع تحلیل داده ها ،ظرفیت های محاسباتی و پردازس مراکز داده ها باید به میزان خیلی زیاد افزایش یابد.
کلان داده ها کارکردهای بیشتری به مراکز داده ها بخشیده اند.
در الگوی کلان داده ها،مرکز داده ها فقط مربوط به امکانات سخت افزاری نیست بلکه با توانایی های نرم مانند اکتساب،پردازش،سازمان دهی،تحلیل و برنامه های کاربردی کلان داده تقویت شده است.
مرکز داده ها ممکن است به کارمندان کسب و کار کمک کند تا داده های موجود را تحلیل کنند،مشکلات عملیات کسب و کار را پیدا کند و راه کارهایی با استفاده از کلان داده ها ارائه دهد.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
@BigDataTechnology
در الگوی کلان داده ها فقط به عنوان سازمانی برای انباره ی ما مرکز داده ها نیست بلکه عهده دار وظایف دیگری مانند اکتساب داده ها،مدیریت داده ها،سازمان دهی داده ها و به کارگیری ارزش و عملکرد داده ها است.
کلان داده ها برای پشتیبانی قدرتمند در پشت صحنه به مرکز داده ها نیاز دارند.
الگوی کلان داده ها علاوه بر نیازمندی های دقیقی برای توانایی ذخیره سازی و توانایی پردازش به توانایی ارتباط شبکه نیز نیاز دارد.
شرکت ها باید مراکز داده ها را توسعه دهند تا ظرفیت پردازش سریع و کارایی کلان داد ها با نرخ محدود را به نسبت هزینه بر کارایی بهبود بخشند.
رشد کاربردهای کلان داده ها، انقلاب و نوآوری را در مراکز داد ها سرعت بخشیده است.
کاربرد های کلان داده ها بسیاری از معماری های منحصر به فرد مراکز داده ها را توسعه داده است و باعث پیشرفت مستقیم فناوری های ذخیره سازی،شبکه و محاسبات مربوط به مراکز داده ها شده است.
با رشد مداوم داده های ساخت یافته و غیر ساخت یافته و تنوع منابع تحلیل داده ها ،ظرفیت های محاسباتی و پردازس مراکز داده ها باید به میزان خیلی زیاد افزایش یابد.
کلان داده ها کارکردهای بیشتری به مراکز داده ها بخشیده اند.
در الگوی کلان داده ها،مرکز داده ها فقط مربوط به امکانات سخت افزاری نیست بلکه با توانایی های نرم مانند اکتساب،پردازش،سازمان دهی،تحلیل و برنامه های کاربردی کلان داده تقویت شده است.
مرکز داده ها ممکن است به کارمندان کسب و کار کمک کند تا داده های موجود را تحلیل کنند،مشکلات عملیات کسب و کار را پیدا کند و راه کارهایی با استفاده از کلان داده ها ارائه دهد.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
@BigDataTechnology
آن دسته از دوستانی که هنوز با مفهوم هدوپ آشنا نشدن مطلب زیر را مطالعه کنند.
در ادامه بیشتر با هدوپ و کاربردهای آن آشنا خواهیم شد.
در ادامه بیشتر با هدوپ و کاربردهای آن آشنا خواهیم شد.
هدوپ چیست؟
در ابتدا بهتر است که بدانیم هدوپ چه چیزی نیست:
هدوپ پایگاه داده نیست.
هدوپ یک نرم افزار نیست.
هدوپ توسط Doug Cutting سازنده Apache Lucene که بصورت گسترده برای عمیات جستجوی متن ها استفاده می شود ، تولید شد. در حقیقت به وجود آمدن هدوپ از کار بر روی Nutch شروع شد.
Apache Nutch یک فریم ورک متن باز برای ایجاد موتور جستجو است که بصورت گسترده ، عملیات جستجوی متن ها را به روشی که خزیدن یا Crawling نام گرفت انجام می دهد.
در خصوص نامگذاری نام هدوپ(HADOOP) باید گفت که مخفف عبارت خاصی نیست، این نامی است که پسرDoug برروی عروسک فیل خود که زرد رنگ بود گذاشته بود.
برای شروع ، Doug و همکارش Mike ایده ساختن یک موتور جستجوگر وب را در سر داشتند اما این تنها چالش آنها نبود ، قیمت سخت افزار یک موتور جستجوگر که 1 میلیون صفحه وب را جستجو و ایندکس می کند در حدود 500000 دلار بود با این وجود آنها باور داشتند که این پروژه یک هدف ارزشمند است.
Nutch در سال 2002 شروع به کار کرد و در همان زمان عملیات و روشهای جستجوی صفحات وب به سرعت رشد کرد. طی زمانی معماران پروژه دریافتند که این پروژه قابلیت و توانایی کار کردن با میلیونها صفحه وب را ندارد ، در همان برهه در سال 2003 مقاله ای از شرکت گوگل منتشر شد که توانست راهگشای مشکل آنها باشد و معماری
(Google File system) GFS
را توصیف می کرد.
اGFS توانست مشکل ذخیره سازی داده های عظیم را حل کند علاوه بر آن مدیریت ذخیره سازی نودها دیگر چالشی بود که در معماریهای قبلی بود و با استفاده از این روش آن مشکل نیز برطرف شد.
در سال 2004 تیم Nutch توانست نسخه متن باز خود را با نام Nutch Distributed filesystem(NDFS) منتشر کنند.
در سال 2004 گوگل با مقاله ای MapReduce را به جهان معرفی کرد، خیلی زود در سال 2005 برنامه نویسان Nutch شروع به کار با (MR)MapReduce کردند و تا اواسط همان سال Nutch نسخه جدید خود را که با NDFS و MR کار می کرد به جهان معرفی کرد.
بعد از چندی معماران Nutch دریافتند که عملکرد آن فراتر از فقط یک موتور جستجوگر است و در فوریه 2006 آنها از پروژه Nutch که خود زیر پروژه Lucine به حساب می آمد به سمت پروژه ای آمدند که آن را Hadoop (هدوپ) نامیدند.
در تقریبا همان سال Doug به Yahoo پیوست تا با استفاده از یک تیم مستقل هدوپ را آزمایش و پیاده سازی کند.
در سال 2008 شرکت یاهو ، موتور جستجویی را معرفی کرد که توسط 10000 کلاستر هدوپ عملیات جستجو را انجام می داد.
در همان سال و در ماه ژانویه هدوپ در بالاترین سطح پروژه های Apache قرار گرفت در آن زمان دیگر تنها Yahoo تنها استفاده کننده این محصول نبود، شرکتهایی نظیر Last. fm ، Facebook و نیویورک تایمز نیز شروع به فعالیت در این حوزه کرده بودند.
در همان سال New York Times تعداد زیادی از روزنامه های خود را که در قسمت آرشیو وجود داشت اسکن کرد که حجم آن نزدیک به 4 ترابایت داده می شد و سپس با استفاده از پردازش ابری EC2 آمازون و با استفاده از 100 ماشین در کمتر از 24 ساعت پردازش خود را به پایان برساند.
در April سال 2008 هدوپ رکورد جهان را شکست و سریعترین سیستمی شد که توانست 1 ترابایت داده را ظرف 202 ثانیه و با استفاده از 910 نود کلاستر پردازش کند. این رکورد در سال قبل با 297 ثانیه ثبت شده بود. در November همان سال گوگل طی گزارشی اعلام کرد که این رکورد را به 68 ثانیه ارتقاء داده است.
در April 2009 یاهو اعلام کرد با استفاده از هدوپ توانسته 1 ترابایت داده را ظرف 62 ثانیه پردازش کند. و بالاخره در سال 2014 یک تیم از شرکت DataBricks اعلام کرد که توانسته با استفاده از 207 نود کلاستر اسپارک حدود 100 ترابایت داده را ظرف 1406 ثانیه که تقریبا 4.27 ترابایت در دقیقه می شود پردازش کند.
امروزه هدوپ بصورت وسیعی و در زمینه های بسیاری از فعالیتهای دانشگاهی تا تجارت ، از علوم تا نجوم مورد استفاده قرار می گیرد . هدوپ مکانی امن برای ذخیره و تحلیل داده های کلان بشمار می رود ، مقیاس پذیر، توسعه پذیر و متن باز است . هدوپ هدف اصلی کمپانی های بزرگ تولید و ذخیره داده هاست از جملهFacebook ، IBM ، EMC ، Oracle و Microsoftاست.
از کمپانیهای متخصص در زمینه سرویس های هدوپ می توان به MapR ، Cloudera و HortonWorksاشاره کرد.
به طور خلاصه ، هدوپ یک فریم ورک یا مجموعه ای از نرم افزارها و کتابخانه هایی است که ساز و کار پردازش حجم عظیمی از داده های توزیع شده را فراهم میکند.
در واقع Hadoop را می توان به یک سیستم عامل تشبیه کرد که طراحی شده تا بتواند حجم زیادی از داده ها را بر روی ماشین های مختلف پردازش و مدیریت کند. فریم ورک هدوپ شامل زیر پروژه های مختلفی می شود که در زیر لیست کامل آنها آمده است:
HDFS
YARN
MapReduce
Ambari
Avro
Cassandra
Chukwa
HBase
Hive
Mahout
Pig
Spark
منبع : مرجع هدوپ ایران
در ابتدا بهتر است که بدانیم هدوپ چه چیزی نیست:
هدوپ پایگاه داده نیست.
هدوپ یک نرم افزار نیست.
هدوپ توسط Doug Cutting سازنده Apache Lucene که بصورت گسترده برای عمیات جستجوی متن ها استفاده می شود ، تولید شد. در حقیقت به وجود آمدن هدوپ از کار بر روی Nutch شروع شد.
Apache Nutch یک فریم ورک متن باز برای ایجاد موتور جستجو است که بصورت گسترده ، عملیات جستجوی متن ها را به روشی که خزیدن یا Crawling نام گرفت انجام می دهد.
در خصوص نامگذاری نام هدوپ(HADOOP) باید گفت که مخفف عبارت خاصی نیست، این نامی است که پسرDoug برروی عروسک فیل خود که زرد رنگ بود گذاشته بود.
برای شروع ، Doug و همکارش Mike ایده ساختن یک موتور جستجوگر وب را در سر داشتند اما این تنها چالش آنها نبود ، قیمت سخت افزار یک موتور جستجوگر که 1 میلیون صفحه وب را جستجو و ایندکس می کند در حدود 500000 دلار بود با این وجود آنها باور داشتند که این پروژه یک هدف ارزشمند است.
Nutch در سال 2002 شروع به کار کرد و در همان زمان عملیات و روشهای جستجوی صفحات وب به سرعت رشد کرد. طی زمانی معماران پروژه دریافتند که این پروژه قابلیت و توانایی کار کردن با میلیونها صفحه وب را ندارد ، در همان برهه در سال 2003 مقاله ای از شرکت گوگل منتشر شد که توانست راهگشای مشکل آنها باشد و معماری
(Google File system) GFS
را توصیف می کرد.
اGFS توانست مشکل ذخیره سازی داده های عظیم را حل کند علاوه بر آن مدیریت ذخیره سازی نودها دیگر چالشی بود که در معماریهای قبلی بود و با استفاده از این روش آن مشکل نیز برطرف شد.
در سال 2004 تیم Nutch توانست نسخه متن باز خود را با نام Nutch Distributed filesystem(NDFS) منتشر کنند.
در سال 2004 گوگل با مقاله ای MapReduce را به جهان معرفی کرد، خیلی زود در سال 2005 برنامه نویسان Nutch شروع به کار با (MR)MapReduce کردند و تا اواسط همان سال Nutch نسخه جدید خود را که با NDFS و MR کار می کرد به جهان معرفی کرد.
بعد از چندی معماران Nutch دریافتند که عملکرد آن فراتر از فقط یک موتور جستجوگر است و در فوریه 2006 آنها از پروژه Nutch که خود زیر پروژه Lucine به حساب می آمد به سمت پروژه ای آمدند که آن را Hadoop (هدوپ) نامیدند.
در تقریبا همان سال Doug به Yahoo پیوست تا با استفاده از یک تیم مستقل هدوپ را آزمایش و پیاده سازی کند.
در سال 2008 شرکت یاهو ، موتور جستجویی را معرفی کرد که توسط 10000 کلاستر هدوپ عملیات جستجو را انجام می داد.
در همان سال و در ماه ژانویه هدوپ در بالاترین سطح پروژه های Apache قرار گرفت در آن زمان دیگر تنها Yahoo تنها استفاده کننده این محصول نبود، شرکتهایی نظیر Last. fm ، Facebook و نیویورک تایمز نیز شروع به فعالیت در این حوزه کرده بودند.
در همان سال New York Times تعداد زیادی از روزنامه های خود را که در قسمت آرشیو وجود داشت اسکن کرد که حجم آن نزدیک به 4 ترابایت داده می شد و سپس با استفاده از پردازش ابری EC2 آمازون و با استفاده از 100 ماشین در کمتر از 24 ساعت پردازش خود را به پایان برساند.
در April سال 2008 هدوپ رکورد جهان را شکست و سریعترین سیستمی شد که توانست 1 ترابایت داده را ظرف 202 ثانیه و با استفاده از 910 نود کلاستر پردازش کند. این رکورد در سال قبل با 297 ثانیه ثبت شده بود. در November همان سال گوگل طی گزارشی اعلام کرد که این رکورد را به 68 ثانیه ارتقاء داده است.
در April 2009 یاهو اعلام کرد با استفاده از هدوپ توانسته 1 ترابایت داده را ظرف 62 ثانیه پردازش کند. و بالاخره در سال 2014 یک تیم از شرکت DataBricks اعلام کرد که توانسته با استفاده از 207 نود کلاستر اسپارک حدود 100 ترابایت داده را ظرف 1406 ثانیه که تقریبا 4.27 ترابایت در دقیقه می شود پردازش کند.
امروزه هدوپ بصورت وسیعی و در زمینه های بسیاری از فعالیتهای دانشگاهی تا تجارت ، از علوم تا نجوم مورد استفاده قرار می گیرد . هدوپ مکانی امن برای ذخیره و تحلیل داده های کلان بشمار می رود ، مقیاس پذیر، توسعه پذیر و متن باز است . هدوپ هدف اصلی کمپانی های بزرگ تولید و ذخیره داده هاست از جملهFacebook ، IBM ، EMC ، Oracle و Microsoftاست.
از کمپانیهای متخصص در زمینه سرویس های هدوپ می توان به MapR ، Cloudera و HortonWorksاشاره کرد.
به طور خلاصه ، هدوپ یک فریم ورک یا مجموعه ای از نرم افزارها و کتابخانه هایی است که ساز و کار پردازش حجم عظیمی از داده های توزیع شده را فراهم میکند.
در واقع Hadoop را می توان به یک سیستم عامل تشبیه کرد که طراحی شده تا بتواند حجم زیادی از داده ها را بر روی ماشین های مختلف پردازش و مدیریت کند. فریم ورک هدوپ شامل زیر پروژه های مختلفی می شود که در زیر لیست کامل آنها آمده است:
HDFS
YARN
MapReduce
Ambari
Avro
Cassandra
Chukwa
HBase
Hive
Mahout
Pig
Spark
منبع : مرجع هدوپ ایران
ارتباط بين هدوپ و كلان داده ها:
در حال حاظر در كاربردهاي كلان داده ها در صنعت به طور مثال فيلتر كردن spam، جست وجوي شبكه، تحليل جريان كليك click stream analysis و توصيه گرهاي اجتماعي social recommendation از هدوپ به طور گسترده استفاده مي شود.
علاوه بر آن، هم اكنون تحقيقات دانشگاهي قابل توجهي نيز مبتني بر هدوپ است.
فيس بوك اعلام كرد كه خوشه هدوپ او مي تواند صد پتابايت داده را پردازش كند.
بعضي از سازمان هاي معروف از هدوپ براي انجام رايانش توزيع شده استفاده مي كنند.
همچنين ،براي جمع اوري اطلاعات به منظور نظارت محيطي و پيش بيني خطا سيستم ها و دستگاه هاي صنعتي جديد و حسگرها توسعه ي بيشتري يافتند.
منبع:كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
در حال حاظر در كاربردهاي كلان داده ها در صنعت به طور مثال فيلتر كردن spam، جست وجوي شبكه، تحليل جريان كليك click stream analysis و توصيه گرهاي اجتماعي social recommendation از هدوپ به طور گسترده استفاده مي شود.
علاوه بر آن، هم اكنون تحقيقات دانشگاهي قابل توجهي نيز مبتني بر هدوپ است.
فيس بوك اعلام كرد كه خوشه هدوپ او مي تواند صد پتابايت داده را پردازش كند.
بعضي از سازمان هاي معروف از هدوپ براي انجام رايانش توزيع شده استفاده مي كنند.
همچنين ،براي جمع اوري اطلاعات به منظور نظارت محيطي و پيش بيني خطا سيستم ها و دستگاه هاي صنعتي جديد و حسگرها توسعه ي بيشتري يافتند.
منبع:كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني