BI & Big Data – Telegram
BI & Big Data
265 subscribers
23 photos
2 files
133 links
Канал компании CoreWin. Бизнес-аналитика и Big Data: новости, тенденции и инструменты.

@BBDfeedback_bot - напишите нам.
Download Telegram
​​Статистика BigData 2019

Сьогодні наведу декілька цікавих статичних фактів про BigData (станом на літо 2019 року). І так, поїхали 🚘

▪️ До 2020 року буде близько 40 трлн гігабайт даних (40 зеттабайт)

▫️90% усіх даних було створено за останні два роки

▪️Сьогодні людині знадобиться приблизно 181 мільйон років, щоб завантажити всі дані з Інтернету

▫️У 2012 році було проаналізовано лише 0,5% усіх даних

▪️Користувачі Інтернету щодня генерують близько 2,5 квінтільйона байт даних

▫️У 2018 році користувачі Інтернету провели в Інтернеті 2,8 мільйона років

▪️Соціальні мережі складають 33% від загального часу, проведеного в Інтернеті

▫️97,2% компаній з Fortune інвестують у великі дані та штучний інтелект

▪️Який об'єм ринку Big Data та аналітики у 2019 році? 49 мільярдів доларів, за даними Wikibon

▫️У 2019 році очікується, що ринок великих даних зросте на 20%

▪️До 2020 року кожна людина генеруватиме 1,7 мегабайт в секунду

▫️Використовуючи Big Data, Netflix заощаджує 1 мільярд доларів на рік на утриманні клієнтів

▪️Користувачі Twitter щохвилини надсилають майже півмільйона твітів

▫️У 2019 році Facebook налічує 2,3 мільярда активних користувачів

Джерела:
EMC
IBM
Physics.org
The Guardian
Data Never Sleeps 5.0
Global Web Index
Domo
New Vantage
Inside Big Data
Wikibon
Statista
Forbes
Flat World Solutions
Data Science - це не просто числа

Про це говорить Ovetta Sampson з IDEO. Він говорить: "Перестаньте думати про спеціалістів Data Science як про заучок та гіків". Він наводить такі поради:

▪️Долучайте їх протягом всього процесу проектування, запрошуйте їх на свої наради та робочі групи.

▪️ Управляйте ними так само, як дизайнерами. Допомагайте їм робити прототипи моделей, які вони пропонують.

▪️Плануйте та організовуйте "комунікаційні зустрічі", де спеціалісти data science зможуть поділитись своїми досягеннями і планами з дизайнерами, та навпаки.

▪️Знайдіть цікаві проекти, над якими попрацюйте разом і доведіть спеціалістам data science цінність дизайну. для них
​​Фінансові та виробничі дані на службі машинного навчання

На зміну епохи великих даних прийшов час розумної аналітики. Завдяки новим джерелам інформації компанії почали накопичувати величезні обсяги даних, зберігання яких поступово переміщається в хмару. Розвиток алгоритмів машинного навчання (machine learning, ML) дало можливість інакше поглянути на ці масиви інформації, а головне дозволило використовувати їх для інтелектуального аналізу і прогнозування.

Недавнє дослідження Crisp Research, в рамках якого було опитано компанії в Німеччині, показало, що 59% респондентів для аналізу за допомогою машинного навчання використовують фінансові дані, завантажені з ERP-систем.

Також наголошується, що 43% опитаних компаній вже піддають обробці дані, зібрані в процесі виробництва. Як правило, робиться це для підвищення ефективності випуску продукції і поліпшення її якостей. При цьому 66% всіх виробничих даних доводиться на трафік, отриманий від датчиків IoT.

Для навчання алгоритмів і створення точних рішень в системах ML необхідні великі набори даних, це в свою чергу вимагає систем зберігання з швидким відгуком та простим «необмеженим» масштабуванням, оскільки вихідні датасета будуть розширюватися в процесі використання.

Хоча багато даних для ML зберігаються в хмарі, деяка їх частина як і раніше залишається в локальних ЦОД. Тут може бути і бажання заощадити, і вимога норм локального законодавства. Однак де б не перебували дані, максимальна гнучкість процесу обробки досягається при використанні хмарних ML-інструментів. При цьому локальне розміщення повинно спрощувати потік між різними середовищами, а не обмежувати його.

На закінчення необхідно відзначити, що згідно з дослідженням Crisp Research німецькі компанії для задач машинного навчання в основному використовують фінансові та виробничі дані, і, як правило, більшу їх частину за краще розміщувати в хмарних сховищах.
​​@BBDfeedback_bot - бот для спілкування.

Якщо у вас є побажання по темах, що ви хотіли б почитати на каналі, питання до нашого аналітика або просто бажання написати нам - бот до ваших послуг.
BI & Big Data pinned «​​@BBDfeedback_bot - бот для спілкування. Якщо у вас є побажання по темах, що ви хотіли б почитати на каналі, питання до нашого аналітика або просто бажання написати нам - бот до ваших послуг.»
Теорії змови та Big Data 👻

Вітаю, друзі аналітики! 👋🏻

Сьогодні визначна подія, адже саме сьогодні вся інтернет-спільнота слідкує за тим чи відбудуться славнозвісний штурм Зони 51 👽

Продовжуючи тему іншопланетян на НЛО, ось декілька цікавих візуалізацій про спостереження літаючих тарілок в США 🇺🇸

▪️Statista, YouGov, TheAtalntic, USA Today
▪️Kaggle UFO Sightings
▪️National UFO Reporting Center

Давайте ж зануримось трохи у явище теорії змов, та методом моделювання визначми хто вони - люителі теорій змов? 🕵🏻️‍♂️

Людей що вірять в теорії змови часто вважають ірраціональними. Як правило, їх уявляють як людей, які постійно моніторять інтернет, протягують ниточки на спеціальній дошці між подіями та знаходять зв'язок між зовсім не пов'язаними подіями. Інтуїтивно зрозуміло, що за такою діяльністю повинна стояти якась фундаментальна логічна чи психологічна помилка.

У досліженні Коліна Клейна, Пітера Клатона та Вінса Політо були використані технології Big Data. Були використані онлайн коментарі на форумі про змови на Reddit щоб спробувати дізнатися щось про людей, які цікавляться подібними типами ідей. Набір даних містив 2,2 мільйона коментарів від приблизно 130 000 користувачів за 7 років.

Було використана техніка тематичного моделювання.

Було виявлено, що частина коментаторів страждать від монологічного мислення. Відхилення, за яким людина пояснює всі явища використовуючи один імпертаив, в цьому випадку якусь конкретну теорію змови.

Однак це були лише вершини айсберга: більшість коментаторів не підпадали під це описання. Наприклад, були знайдені підгрупи, які обговорювали розчарування владою і системою авторитетів загалом. Як доказ вони посилалсь на раніше розкриті змови.

Хтось використовував теорії змови щоб обговорювати расистські ідеї чи інші ідеї, які вважаються неприйнятними.

Більше того, як виявилось для багатьох - це просто хоббі, тісне переплетіння літаючих тарілок з котиками 😺 та мемами.
Переможці Open Data Challenge 2019 розділили 2,5 млн гривень.

Open Data Challenge – це міжнародний формат конкурсу для розвитку інноваційних проєктів на основі відкритих даних, який в Україні виріс до масштабу найбільшого національного конкурсу в цій сфері. Мета конкурсу – залучення активістів, дослідників, дизайнерів та розробників для розвитку інноваційних сервісів та продуктів open data та big data, які сприятимуть вирішенню проблем українського суспільства та матимуть значний бізнес-потенціал.

Судді обрали 5 переможців, серед яких:

▪️Назар CityBot – муніципальний чат-бот, який інформує про роботу комунальних служб міста, попереджає про аварії та відключення, збирає дані лічильників та повідомляє про тарифи та їх зміни тощо.
▪️ Inspect.in.ua – вебсервіс, який, базуючись на результатах уже проведених перевірок компаній, формує перелік розповсюджених порушень, генерує персоналізовані рекомендації щодо усунення недоліків та виконує підбір зовнішніх спеціалістів.
▪️ Відкрита Влада – аналітичний вебсервіс для моніторингу роботи та виявлення корупційних зв’язків серед політиків, чиновників, державних, комунальних підприємств та організацій.
▪️ Мапа Реновації – інтерактивна мапа, що надає інформацію про стан закинутих будівель і просторів міста, пов’язані з ними виконавчі провадження; цільове призначення землі, актуальну діяльність активістів і забудовників.
▪️ Знай свого чиновника (Запарканом) – вебсервіс, який надає аналітичну інформацію для оцінювання чиновника на основі задекларованих статків, зв’язків із компаніями чи особами та генерує загальний рейтинг чиновників за ризик-факторами.
​​BigData вже активно використовується в спортивній аналітиці. Любителям хокею присвячується.

У цьому сезоні НХЛ дебютує із системою відстеження шайб і спортсменів, та обіцяє поділитися даними про швидкість і ефективність гравців.

Система слідкує за двома компонентами: бездротові та радіочастотні датчики, вбудовані в шайби та пришиті до форми фігуриста; і пристрої обробки, встановлені в стропілах та на верхньому ярусі спортивної арени, які реєструють координати x, y, z кожним датчиком на льоду сотні раз у секунду.

Програмне забезпечення штучного інтелекту збирає мільйони даних, координатні точки і видає статистику, таку, наприклад, як максимальна швидкість гравця або загальний час володіння шайбою.

НХЛ обіцяє, що система буде готова до використання вже в сезоні 2019-20.
Business Intelligent для інформаційної безпеки

Питання надійного забезпечення інформаційної безпеки в разі із середнім і великим бізнесом часто впирається в оперативність виявлення ризиків і загроз. Однак контролювати величезну кількість різнорідних систем безпеки, що розрізняються за своїм функціоналом і формату надання звітної інформації, практично неможливо без серйозних втрат часу, які можуть виявитися критичними для діяльності компанії.

Кардинально змінити ситуацію в багатьох компаніях ситуацію допомагає практика впровадження систем бізнес-аналітики, заснованих на принципах Business Intelligence (BI). BI-системи бізнес-аналізу і контролю над інформаційною безпекою забезпечують упорядкування колосальних обсягів інформації з різнорідних джерел, подальшу очистку, агрегацію і аналіз кореляцій. Кінцеві результати надаються у вигляді наочних призначених для користувача звітів, які дозволяють оперативно виявити проблему, визначити першоджерела, а потім прийняти рішення. Саме тому ми рекомендуємо підходи, які традиційно використовуються в бізнес-аналізі, на вирішення завдань щодо забезпечення інформаційної безпеки.

Як правило, BI-системи, які використовуються для забезпечення інформаційної безпеки, характеризуються чіткою ієрархією показників ефективності, заснованої на взаємозв'язках між бізнес-орієнтованими і технічними показниками. Оцінка метрик і збір аналітичної інформації виробляються в автоматичному режимі, так що ключовим завданням стає коректна оцінка значень метрик. А звітність організована таким чином, що дозволяє робити різнорідні зрізи даних в залежності від роду аналітичних задач.

Впровадження систем бізнес-аналітики для вирішення завдань інформаційної безпеки, як правило, має переваги для прийняття управлінських рішень завдяки по над оперативному і коректному відбору ключових даних. Консолідовані дані візуалізації можуть бути представлені в зручному для управлінського аналізу форматі. В результаті процеси забезпечення інформаційної безпеки стають більш прозорими, легко коректованими і вимагають істотно меншого часу для виявлення загроз і прийняття рішення по їх локалізації.

Тим же, хто дочитав до цього рядка - хочу порадити гру Tech Support: Error Unknown. В ній ви зможете відчути себе в ролі звичайного інженера служби підтримки та матимете змогу перейти на темну сторону. 🌚
Cеврер BI на Ubuntu 18.04

Якщо служба IT виє від вимог сервера BI, ваші звіти грузяться по декілька хвилин, то можливо вам варто розглянути встановлення серверу BI на Linux ОС.

Tableau надає таку можливість, а сьогодні ще й з'явилась детальна відео-інструкція по встановленню. Зверніть увагу, можливо це саме те, чого не вистачало вам чи вашим айтішникам :)
​​Очікувані тренди 2020

▪️ Темпи росту кількості даних тільки збільшаться

▪️Аналіз даних стане більш автоматизованим та менш залежним від кваліфікації спеціалістів

▪️Зростання вбудованої аналітики, тобто аналітики, використання якої не потребує спеціальних знань

▪️Розпізнавання звичайних запитів (Natural language processing) стане стандартом

▪️Аналітика нового рівня, завдяки IoT та новому потоку даних з датчиків і сенсорів

▪️Збільшення долі даних-як-послуги та аналітики-як-послуги

▪️Рух в напрямі не тільки прогнозування, але і рекомендації оптимальних рішень

▪️Більший тиск держави в питанні управління даними

▪️Графічна аналітика продовжить витісняти табличні методи аналізу
​​Переможець Student Viz Contest

Минулий 2019 рік закінчився визначенням переможця конкурсу Student Viz Contest для студентів.

Призові місця зайняли дійсно достойні роботи, тому ділимось ними з вами.

🏆 Переможець - Ryan Soares, студент університету Уілфордв Лоріє (Торонто).

Дешборд - візцалізація піраміди портеб Маслоу та застосування цього принципу до 7 міст Канади.

Дешборд - тут.

2️⃣ місце - Maria Brock, студентка університету Джорджа Мейсона (США).

Дешборд - візцалізація чемпіонів з тенісу. Суддям сподобалося використання кольорів Марії та тенісного м'яча для підтримки теми.

Дешборд - тут.

3️⃣ місце - Seoyan Jun, студентка жіночого університет Соокмюн.

Дешборд - візцалізація музичнго доробку та творчого шляху корейського гурту BTS.

Дешборд - тут.
​​Публічні дані

Сьогодні зверну вашу увагу на джерело публічних даних.

Корисними вони можуть бути для:

1️⃣ Тих, хто цікавиться інформацією про державні кошти.
2️⃣ Тих, хто шукає набори даних для тренування.

До вашої уваги - OpenBudget, частина системи edata, яка надає публічний доступ до інформації про доходи та видатки бюджетних установ.

В розділі BOOST-аналіз ви можете сформувати ты метрики, які для вас необхідні та завантажити собі на ПК в форматах: xlsx, csv, json.

Або отримати дані через API. Дтеальне налаштування тут.
​​Міжнарожні конференції по візуалізації даних

▪️IEEE Visualization: Щорічна міжнародна конференція з наукової візуалізації, візуалізації інформації і візуального аналізу. Конференція проводиться в жовтні.
▪️ACM SIGGRAPH: Щорічна міжнародна конференція з комп'ютерної графіки, що проводиться ACM SIGGRAPH. Дата конференції не постійна.
▪️EuroVis: Щорічна загальноєвропейська конференція з візуалізації даних, яку проводить Робоча Група Єврографік по візуалізації Даних (англ. Eurographics Working Group on Data Visualization) і підтримується IEEE Комітетом по візуалізації і Технічної Графіку (англ. IEEE Visualization and Graphics Technical Committee, IEEE VGTC). Конференція зазвичай проводиться в червні.
▪️Конференція по Людським Факторам в обчислювальних системах (англ. Conference on Human Factors in Computing Systems): Щорічна міжнародна конференція по людино-комп'ютерній взаємодії, організована ACM SIGCHI. Конференція зазвичай проводиться в квітні або травні.
▪️Eurographics: Щорічна загальноєвропейська конференція з комп'ютерної графіки, організована Європейською асоціацією з Комп'ютерної Графіку (англ. European Association for Computer Graphics). Конференція зазвичай проводиться в квітні або травні.
▪️PacificVis: Щорічний симпозіум по візуалізації, що проводиться в Азіатсько-тихоокеанському регіоні. Симпозіум спонсорується IEEE Комітетом по візуалізації і Технічної Графіку. Конференція зазвичай проводиться в березні або квітні.
Коронавірус - актуальний дешборд

Сьогодні увага всього світу прикута до теми коронавірусу, котрий шириться з Китаю по всьому світу. Всі ми знаємо, що кількість аналітичної і не тільки інформації з цієї теми зашкалює. Існують такі неймовірні гіпотези, як біологічна зброя, та те, що вірус передається через пакунки чи банани.

Щодо гіпотез, які дійсно розглядаються вченими - зараження відбувається через кажанів чи змій. Тобто, хоча у людства є фотографія вірусу, достеменно не відомі деталі його поширення.

Нагадаємо, що останнім настільки резонансним захворюванням був H1N1, яким в 2009 році захворіли до 200 міліонів людей по всьому світу.

Занепокоєння виклика швидкість зараження - спостерігається закономірна геометрична прогресія кількості заражених.

Хочемо вам порадити актуальну візуальну аналітику по цьому вірусу, яка (переконані) дозволить робити виважені висновки про цей недуг. Посилання на дешборд нижче.
​​Міфи про SQL

Ми зібрали топ міфів про SQL:

десь в глибинах серверу є магічний параметр "fast", якому можна задати значення "true"

швидкість роботи запиту можна оцінити по тому, як швидко вивелись перші 20 рядків

можна взяти і оптимізувати окремий запит (або навіть його частину) не рухаючи більше нічого

зрозуміти як працює запит можна лише глянувши на його код

швидкість запиту напряму залежить від кількості таблиць, які в ньому фігурують
Віртуальні машини Hadoop

Це дуже короткий пост, але можливо вам варто додати його собі в закладки.

Ось посилання на готову до використання віртуальну машину Hadoop.

Віртуальна машина Bitnami містить операційну систему Linux із встановленим та налаштованим Hadoop. Для використання Bitnami Virtual Machine потрібен гіпервізор, наприклад VMware Player або VirtualBox. Обидва ці гіпервізори доступні безкоштовно.
Аналітка Covid19 по Україні

Використовуючи Tableau Public, Директорат з питань регіональної політики та децентралізації Офісу президента запустив сервіс для відстеження поширення коронавірусу в Україні. У ньому відображаються лабораторно підтверджені випадки захворювання (червоним) та підозри щодо ймовірного інфікування (жовтим). Зеленим позначені основні медичні заклади, які можуть приймати інфікованих, і де немає підозр та підтверджених випадків.
Вебінар Tableau - нові рішення

2 квітня пройде вебінар по BI рішенню Tableau. Будуть розглянуті нові функції платформи.

Долучайтесь! Потрібна попередня реєстрація.

Деталі тут - https://corewin.com.ua/webinar_tableau-new/
Відео уроки по економетриці та R

Якщо ти, так саме ти, на карантині вдома. І тобі нічим себе зайняти. Ось тобі цікаві і корисні ☝🏼 відео про економетрику та R

Тому тисни ось сюди:

➡️ https://www.youtube.com/playlist?list=PLu5flfwrnSD5d02G9YJcDv30Fp5_70-sI ⬅️

Будемо разом підвищувати кваліфікацію.