BigData – Telegram
427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
Forwarded from مفتا - ناشنیده‌های تکنولوژی
۱۰ فناوری داغ بیگ دیتا
در لینک زیر، ۱۰ تا از داغ ترین فناوری های بیگ دیتا براساس تجزیه و تحلیل فورستر آمده است:👇👇👇

۱- تجزیه و تحلیل پیش بینانه: راه حل های نرم افزاری و یا سخت افزاری اجازه می دهد به شرکت ها برای کشف، ارزیابی، بهینه سازی، و استفاده از مدل های پیش بینانه با تجزیه و تحلیل منابع بیگ دیتا به منظور بهبود عملکرد کسب و کار و یا کاهش ریسک.
۲- پایگاه داده های NoSQL: کلید-مقدار، سند، و پایگاه داده نمودارها...

با مفتا همراه شوید...

🌎: http://mfta.ir/data-science/id=13876

🆔: @mfta_ir
خداوندا ، در این آخرین روزهای سال
دل مردمان این سرزمین را چنان در جویبار زلال رحمتت شستشو ده
که هر کجا تردیدی هست ایمان
هر کجا زخمی هست مرهم
هر کجا نومیدی هست امید
و هر کجا نفرتی هست عشق جای آنرا فرا گیرد.

@BigDataTechnology

با عرض سلام و احترام به اعضای کانال بیگ.
دوستان عزیز افتخاری برای بنده در سال 94 در خدمت شما سروران بودم و امیدوارم مطالب مفید قرار گرفته شده باشد.
امید است در سال جدید با انرژی و مطالب کاربردی بیشتر در خدمتتان باشم.

با توجه به فرارسیدن ایام تعطیل نوروز، پاسخ گویی به سوالات ، درخواست مقالات و فایل های تصویری آموزشی شما بزرگواران فقط تا امروز مورخ 26 اسفند 94 امکان پذیر می باشد و در سال 95 بعد از تعطیلات نوروزی در خدمت شما هستم.

لازم به ذکر است ، تمامی درخواست های ارسال فیلم آموزشی و مقالات شما عزیزان تا پایان سال جاری انجام می شود.

با تشکر از توجه شما.

گلناز اردشیری

@BigDataTechnology
#Hadoop

چند شرکت و مراکز تحقیقاتی که از Hadoop استفاده میکنند:

@BigDataTechnology

روزنامه New York Times برای ذخیره سازی تمام مقالات

فیسبوک روزانه برای آنالیز 135 ترابایت از مجموعه داده ها

در ژاپن Yahoo Japan برای آنالیز access log

همچنین DeNa از هدوپ برای آنالیز رفتاری همه ی کاربران که تعدادشان بیش از 2 میلیارد در روز است استفاده می کند.

@BigDataTechnology
دوستان عزیز بیگ دیتا با درخواست شما دوستان آموزش تصویری صفر تا صد دیتابیس NoSQL و MongoDB از طریق لینک زیر قابل دانلود می باشد :
@BigDataTechnology

Section 1: Course Intro
Section 2: The NoSQL Database
Section 3: Getting Started With MongoDB
Section 4: Working With Documents Part -1
Section 5: Working With Documents Part - 2
Section 5: Working With Documents Part - 2
Section 6: Node.js & MongoDB
Section 7: Course Summary


http://www.tahlildadeh.com/%d9%81%db%8c%d9%84%d9%85%20%d9%87%d8%a7%db%8c%20%d8%a2%d9%85%d9%88%d8%b2%d8%b4%db%8c/%d9%81%db%8c%d9%84%d9%85%20%d9%87%d8%a7%db%8c%20%d8%a2%d9%85%d9%88%d8%b2%d8%b4%db%8c%d9%81%db%8c%d9%84%d9%85-%d8%a2%d9%85%d9%88%d8%b2%d8%b4-NoSQL/%d9%81%db%8c%d9%84%d9%85-%d8%a2%d9%85%d9%88%d8%b2%d8%b4%db%8c-%d8%b5%d9%81%d8%b1-%d8%aa%d8%a7-%d8%b5%d8%af-%d8%af%db%8c%d8%aa%d8%a7%d8%a8%db%8c%d8%b3-NoSQL-%d9%88-MongoDB
آموزش اجرای Query بر روی مجموعه داده های بزرگ با سرویس Google BigQuery :

همان طور که می دانید شرکت گوگل یک سرویس Cloud برای اجرای Query بر روی مجموعه های بزرگ داده فراهم کرده است، این سرویس Google BigQuery می باشد.


مقدمه ای بر Google BigQuery
آموزش کار با Google BigQuery
آموزش استفاده از Google BigQuery API موجود برای زبان جاوا
مروری بر مسیر پیش روی Google BigQuery

@BigDataTechnology

جهت دریافت فایل آموزشی به لینک زیر مراجعه کنید.
http://www.tahlildadeh.com/%d9%81%db%8c%d9%84%d9%85%20%d9%87%d8%a7%db%8c%20%d8%a2%d9%85%d9%88%d8%b2%d8%b4%db%8c/%d9%81%db%8c%d9%84%d9%85%20%d9%87%d8%a7%db%8c%20%d8%a2%d9%85%d9%88%d8%b2%d8%b4%db%8c%d9%81%db%8c%d9%84%d9%85-%d8%a2%d9%85%d9%88%d8%b2%d8%b4-Oracle/%d9%81%db%8c%d9%84%d9%85-%d8%a2%d9%85%d9%88%d8%b2%d8%b4%db%8c-%d8%a7%d8%ac%d8%b1%d8%a7%db%8c-Query-%d8%a8%d8%b1-%d8%b1%d9%88%db%8c-%d9%85%d8%ac%d9%85%d9%88%d8%b9%d9%87-%d8%af%d8%a7%d8%af%d9%87-%d9%87%d8%a7%db%8c-%d8%a8%d8%b2%d8%b1%da%af-%d8%a8%d8%a7-%d8%b3%d8%b1%d9%88%db%8c%d8%b3-Google-BigQuery
Forwarded from Internet of Things
 آموزش گام به گام مبانی اینترنت اشیا و برنامه نویسی برای این گونه وسایل بوسیله ‏iOS به زودی در کانال اینترنت اشیا....

@IoTTechnology

 ‌‎با مشاهده این دوره آموزشی با مبانی اینترنت اشیا آشنا شده ، سپس برنامه نویسی‎ iOS ‎برای کنترل برخی از این اشیا به عنوان ‏مثال رنگ یک چراغ مطالعه در طول روز در بستر اینترنت اشیا را خواهید آموخت‎. برخی از مطالب این مجموعه عبارتند از‎ : آشنایی با اینترنت اشیا‎ آشنایی با حس گرها و عملگرها‎ آموزش اتصال ورودی / خروجی‎ اتصال به دستگاه ها بوسیله‎ Wi-Fi ‎و یا بلوتوث‎ آموزش استفاده از‎ Apple iBeacon ساخت موارد دلخواه بوسیله سخت افزارهای قابل برنامه ریزی‎ مروری بر کاربردهای اینترنت اشیا ‌‎ این مجموعه آموزش ویدیویی محصول موسسه آموزشی‎ Lynda ‎است.‏

به دوستان خود اطلاع دهید.

با تشکر از توجه شما
گلناز اردشیری

منبع :دریافت فایل ها از وب سایت تحلیل داده ها

@IoTTechnology
Forwarded from مفتا - ناشنیده‌های تکنولوژی
سریال ‘House of Cards’ و بیگ دیتا
سریال House of Cards که در سال ۲۰۱۳ در سرویس پخش فیلم نتفلیکس شروع به پخش کرده است توانست در کمتر از ۲ سال به رتبه ۹ از ۱۰ از ۲۷۵ هزار بیننده دست پیدا کند. این رتبه همان رتبه ایست که فیلم آواتار و Sopranos در گذشته بدست آورده بودند اما مهم این است که این رتبه قبل از بدست آمدن از سوی دانشمندان داده تضمین شده بود. اما چگونه؟ نتفلیکس برای این سریال از تمام بیگ دیتای بدست آمده از همه بازدید کننده هایش استفاده کرده است تا بتواند سلایق آنها را درک و از آن استفاده کند. به معنای دیگر نتفلیکس از بیگ دیتا استفاده کرده است تا سریالی مطابق سلیقه بیننده هایش بسازد.

🌍: http://thenextweb.com/insider/2016/03/20/data-inspires-creativity/

🆔: @mfta_ir
Forwarded from Data Science
معرفی Flink Stack نسل چهارم بسترهای تحلیل کلان داده

http://tinyurl.com/heelhus
پلتفرم متن باز Flink
برای
distributed stream,
batch data processing
Forwarded from مفتا - ناشنیده‌های تکنولوژی
درصد رواج ساختارهای زیربنایی در حوزه بیگ دیتا

🆔: @mfta_ir
Forwarded from DataScience.Media
رویکردهای جدید برای پشتیبانی از Big-Data با استفاده از Hadoop در Microsoft
@SQL_DataMining
Forwarded from DataScience.Media
Predixtion Insight Big-Data Architecture
معماری مفهومی ارتباط ابزارها و سرویس های متنوع در مایکروسافت برای پشتیبانی از Big_data و تحلیل های پیشگویانه در زیرساخت اَبری
#DataMining_BigData
Forwarded from DataScience.Media
#DataMining_BigData
In-Place creation of predictive models in Hadoop using Mahout
@SQL_DataMining
Forwarded from DataScience.Media
هر آنچه که برای مدیریت پروژه های Big Data مورد نیاز است با استفاده از Hadoop در Microsoft Azure مهیّا است.
#DataMining_BigData
@SQL_DataMining
مقدمه ای بر پیکان (Apache Arrow) :

تحلیل درون حافظه داده های ستونی

#apache
#arrow
#bigData

پروژه متن باز پیکان ، علیرغم نوپا بودنش در اکو سیستم آپاچی، در حال تبدیل شدن به یک استاندارد در حوزه پردازش داده و ایجاد یک بستر مناسب برای تعامل بین فناوریهای مختلف کلان داده است.


توسعه گران ارشد ۱۳ پروژه متن باز اصلی دنیای کلان داده، یک تیم مشترک برای ایجاد و توسعه پیکان ، شکل داده اند و سایر شرکتها و پروژه ها هم در حال تطبیق دادن خود با آن هستند. این ۱۳ تا شرکت عبارتند از :

Calcite
Cassandra
Drill
Hadoop
HBase
Ibis
Impala
Kudu
Pandas
Parquet
Phoenix
Spark
Storm

تحلیل درون حافظه ای داده های ستونی :

پروژه پیکان، برآمده از چهار گرایش و نیاز جدید مهندسی داده امروز دنیاست :

داده های ستونی :
قبلاً در مقاله Kudu درباره مفهوم داده های ستونی توضیح داده شد اما به طور خلاصه ،امروزه فناوریهای کلان داده، ستونی شده اند. یعنی به جای ذخیره سطری داده ها ، آنها را به صورت ستونی ذخیره می کنند. با اینکار ، فیلترگذاری و جستجوی داده ها بسیار سریعتر و بهینه تر صورت میگیرد. مثال زیر گویای این مطلب است.البته پروژه Apache Parquet که مخصوص این نوع از ذخیره سازی ، ابداع شده است به رشد این گرایش کمک بزرگی کرد.

پردازش درون حافظه ای :
 اسپارک محبوبیت و رواج امروز خود را مدیون پردازش های درون حافظه ایست که باعث افزایش کارآیی قابل ملاحظه سیستم های نوین اطلاعاتی امروزی شده است .

داده های پیچیده و ساختارهای پویا :
داده های دنیای واقعی با ساختار سلسله مراتبی و تودرتو راحت نمایش داده می شوند که رشد قالب JSON و بانکهای اطلاعاتی سندگرا مانند مانگو دی بی، نشانگر این نیاز کسب و کار امروزی است . سیستم های مدرن تحلیلی معاصر باید بتواند این نوع از داده ها را به صورت پیش فرض پشتیبانی کند.

نیاز به تعامل و برقراری ارتباط بین فناوریهای مختلف حوزه کلان داده  :
در حال حاضر، فناوریها و کتابخانه های مختلف حوزه کلان داده، هر کدام روشی را برای ذخیره و پردازش داده ها ابداع کرده اند و برای برقراری ارتباط بین آنها و استفاده از داده ها به صورت مشترک، نیاز به فرآیندهای مختلف تبدیل داده داریم که هم زمان بر است و هم توسعه سامانه ها را با مشکل مواجه می کند. Apache Parquet ، Apache Avro تلاشهایی برای رفع این مشکل و استاندارد سازی تبادل داده هاست .

اغلب سیستم های پردازش داده معاصر، یک یا حداکثر دو مورد از موارد سه گانه فوق را دارا هستندو پیکان ، تلاشی است برای ساخت سامانه هایی با پشتیبانی از تمام نیازهای نوین مورد اشاره به صورت استاندارد و متن باز.

این مطلب ادامه دارد....

نویسنده :
استاد گران قدر جناب آقای سید مجتبی بنائی

www.bigdata.ir
مولفه های تشکیل دهنده پیکان

Apache Arrow

#apache

پیکان، مجموعه ای مولفه ها و فناوریهاییست که موتورهای اجرایی کلان داده (مانند اسپارک، توزیع و تجمیع) و کتابخانه های ذخیره ساز داده ها (مانند HDFS) از آنها به عنوان لایه های میانی خود استفاده خواهند کرد . این فناوریها و الگوریتم ها عبارتند از :

- مجموعه ای از نوع داده های استاندارد شامل نوع داده های SQL و JSON مانند
 Decimal,Int,BigInt

- ساختار داده ستونی برای نمایش درون حافظه رکوردهای اطلاعاتی که بر روی نوع داده های استاندارد بنا نهاده شده است.

- ساختمان داده های رایج مورد نیاز برای کار با داده های ستونی مانند صفها و جداول درهم سازی به صورت بهینه و موثر با سی پی یو های امروزی.

- اIPC از طریق حافظه مشترک ، TCP/IP و RDMA

- کتابخانه هایی برای خواندن و نوشتن داده های ستونی به زبانهای مختلفالگوریتم های SIMD (یک دستور، چندین منبع داده) و مطابق با رهیافت خط تولید (PipeLine) برای عملیاتی مانند مرتب سازی ، جستجو ، تطبیق الگو و … که به صورت موثر از حافظه و سی پی یو استفاده کند .

- تکنیکهای فشرده سازی داده های ستونی برای بهینه سازی حافظه .

- ابزارهایی برای ذخیره موقت داده ها در حافظه های پایدار مانند HDD و SSD

مطلب ادامه دارد....
Apache Arrow

#BigData

البته نکته مهمی که باید مد نظر داشت این است که پیکان، به تنهایی نه یک موتور پردازش داده مانند اسپارک است و نه یک کتابخانه ذخیره و توزیع داده مانند HDFS بلکه طراحی شده است که به عنوان یک بستر مشترک و استاندارد برای موارد زیر به کار رود :

1. موتورهای اجرای SQL مانند SparkSQL ، Drill و Impala

2. سیستم های تحلیل و پردازش داده مانند Pandas و اسپارک
3. سیستم های پردازش جریان و مدیریت صف مانند کافکا و استرم .
4.سیستم های ذخیره ساز کلان داده مانند کاساندرا ، HBASE ، Kudu و Parquet

بنابراین پروژه پیکان ، در تقابل و رقابت با هیچ کدام از این سیستم های فوق نیست بلکه سرویس دهنده ای به آنهاست تا کارآیی و اشتراک داده به صورت استاندارد را برای آنها ممکن کند .


منبع :
Bigdata.ir