Чувак, который создавал Apache SuperSet (open source BI) и Apache Airflow (open-source ELT) создал новую компанию это коммерческая версия SuperSet. Должно быть, что-то дельное.
preset.io
Modern BI Powered by Open Source Apache Superset™
Powerful, easy to use data exploration and visualization platform, powered by open-source Apache Superset™. Modern business intelligence for your entire organization.
Завтра в Ванкувере выступаю на Табло Юзер группе. В Ванкувере есть офис Табло, но там разработка продукта именно. На картине одна из фич Snowflake - возможность писать запросы прям поверх semi structured файлов (Avro, Parquet, XML, JSON). Обычно, чтобы писать запросы к таким данным, нам нужно распарсить это все дело ETL/ELT и сохранить результат в DW или же мы будем использовать Hadoop+(SparkHive/Presto и тп) чтобы все это дело преобразовать, то есть целое решение Big Data надо построить. А у Snowflake есть тип данных Variant, он хранит такие файлы и можно писать запросы, как на картинке. Еще в Snowflake есть sample погоды, ну как sample 240 млн строк и 400Gb. В общем им я покажу Ванкувер. Ради интереса выбрал Россию, это Лето 2019 года, максимальная температура по городам. Кстати есть очень крутые кейсы когда открытые данные погоды используют для бизнес аналитики. Я о таком мечтал в 2011 году в Сбербанке на проекте Терадаты. Ну в общем там всем было на погоду ***😇
Подкаст про дата инжиниринг https://www.dataengineeringpodcast.com/kedro-data-pipeline-episode-100/
Data Engineering Podcast
Ship Faster With An Opinionated Data Pipeline Framework - Episode 100
Building an end-to-end pipeline for your machine learning projects is a complex task, made more difficult by the variety of ways that you can structure it. Kedro is a framework that provides an opinionated workflow that lets you focus on the parts that matter…
Табло выпустил Tableau Hyper API, как известно хайпер это поколоначная база данных и теперь у нас есть возможность писать к ней запросы и меня содержимое использую SQL.
Tableau
Tableau Hyper API
Documentation for the Tableau Hyper API
Вчера прошла в Ванкувере Tableau User Group, где я рассказал и показал как использовать Snowflake и Tableau. В целом не очень круто все прошло, так как у меня было не достаточно время подготовиться. Ну что есть, то есть. Презентацию не буду шарить, там ничего особенного, зато поделюсь насколько сложно добираться до Ванкувера одним днем. Я вышел из дома в 10 утра, а был дома в 1 ночи, чтобы провести 2 часа в Ванкувере. Вот как выглядит маршрут. Денег пока не заработал на самолет/вертолет (тут есть такая опция, стоит 150-200 долларов в один конец). А Автобусы и паром получается гдето до 45 за день. Но самое ужасное это время и кол-во автобусов.
Visual-vocabulary.pdf
3.9 MB
Если вы еще не распечатали А3 формат эту картинку, еще не все потеряно! Украшайте ваше помещение правильными картинами😏
Кстати смешно но факт! Главный инструмент для BI это калькулятор - все время нужно считать цифры и мтерики. А вот главные инструмент для Data Engineer это календарь! Все время ищу дау начала и конец нужной недели, проверяю кол-во дней в месяце и многое другое. Мой секрет data engineering, я все стараюсь делить на дни, потому что так удобней забирать данные из источника по дням, проверять кол-во дней, кол-во строк за день и тп. Можно дальше агрегировать по месяцам и неделям.
— Ма-аам! Можно я из операционки выйду?
⠀
— Не поняла.
⠀
— Ну, буду управленческие функции делегировать, бизнес масштабировать и пассивный доход получать.
⠀
— Какой интересный набор звуков. А скажи мне, будь добр, ты аналитику внедрил?
⠀
— Ну, да.
⠀
— Что «да», сынок?! Что «да»?! Табличка в экселе «сколько потратили, сколько продали» — это не аналитика. Метрики сквозные чтоб были мне через неделю! Отчётность финансовая! Не умеешь сам — найми людей! Если процессы не измеряются — процессов нет!!! Как можно делегировать то, чего нет? Ты мне не скажешь?
⠀
— Ну, а вот стартапы же...
⠀
— Какие стартапы?! При чём тут стартапы?! Там люди чужими деньгами сорят, а ты тут — семейными! У тебя готовая бизнес-модель. То, что в ней бардак управленческий, не делает из тебя стартап!
⠀
— Ла-адно...
⠀
— Во рту прохладно! Так. Позиционирование расскажи своё.
⠀
— У меня хорошее качество по честной цене.
⠀
— Не смей травмировать мать!!! Отличие уникальное в чём? Чего вдруг именно у тебя покупать надо?
⠀
— У нас команда профессионалов...
⠀
— Ох, не жалеешь ты меня... А кому она упёрлась твоя команда? Ты у людей спрашивал вообще, что им нужно? Аналитику предпроектную делал? Конкурентов и аналоги изучал? Инсайты, барьеры, драйверы покупательские выявил? Нет! А ведь мы об этом говорили! Говорили ведь?
⠀
— Ну, говорили...
⠀
— Конечно. Но зачем маму слушать? Мама же всего-то всю жизнь в консалтинге проработала. Вряд ли она в бизнесе волочёт. Мы без маминых советов обойдёмся... Я тебе так скажу. Чтобы из операционки выйти, нужно сначала в неё зайти. А я тебя там пока что не обнаруживаю.
(с) Андрей Саламатов (Andrey Salamatov)
⠀
— Не поняла.
⠀
— Ну, буду управленческие функции делегировать, бизнес масштабировать и пассивный доход получать.
⠀
— Какой интересный набор звуков. А скажи мне, будь добр, ты аналитику внедрил?
⠀
— Ну, да.
⠀
— Что «да», сынок?! Что «да»?! Табличка в экселе «сколько потратили, сколько продали» — это не аналитика. Метрики сквозные чтоб были мне через неделю! Отчётность финансовая! Не умеешь сам — найми людей! Если процессы не измеряются — процессов нет!!! Как можно делегировать то, чего нет? Ты мне не скажешь?
⠀
— Ну, а вот стартапы же...
⠀
— Какие стартапы?! При чём тут стартапы?! Там люди чужими деньгами сорят, а ты тут — семейными! У тебя готовая бизнес-модель. То, что в ней бардак управленческий, не делает из тебя стартап!
⠀
— Ла-адно...
⠀
— Во рту прохладно! Так. Позиционирование расскажи своё.
⠀
— У меня хорошее качество по честной цене.
⠀
— Не смей травмировать мать!!! Отличие уникальное в чём? Чего вдруг именно у тебя покупать надо?
⠀
— У нас команда профессионалов...
⠀
— Ох, не жалеешь ты меня... А кому она упёрлась твоя команда? Ты у людей спрашивал вообще, что им нужно? Аналитику предпроектную делал? Конкурентов и аналоги изучал? Инсайты, барьеры, драйверы покупательские выявил? Нет! А ведь мы об этом говорили! Говорили ведь?
⠀
— Ну, говорили...
⠀
— Конечно. Но зачем маму слушать? Мама же всего-то всю жизнь в консалтинге проработала. Вряд ли она в бизнесе волочёт. Мы без маминых советов обойдёмся... Я тебе так скажу. Чтобы из операционки выйти, нужно сначала в неё зайти. А я тебя там пока что не обнаруживаю.
(с) Андрей Саламатов (Andrey Salamatov)
Это Ричард Феймэн, известный физик. Он был прородителем AI. Его известная цитата "Если я не могу это воссоздать, значит я этого не понимаю". Он использовал алгоритмы, чтобы лучше понимать окружайщий мир и сознание. У него была простая техника изучения материала: 1)Выбрать предмет/топик 2)Объяснить этот предмет кому-нибудь, кто совершенно этого не понимает, как ребенку 3)Выявить проблемы в своем понимании 4)Изучить их и дальше упростить обучение. Вывод: В общем, если вы хотите что-то новое изучать, начните учить этому других. Я с этим полностью согласен, я учил других SAP BusinessObjects, Tableau, Microstrategy и многое другое, и впроцессе обучения сам разбирался в предмете. Так же когда мы учим других, это очень помогает карьере, так как всегда приветствуется и поощряется!
Компания Alteryx купила компания по data science, которая помогает автоматически выбирать features для моделей. Сам по себе Alteryx довольно популярен, изначально это был настольный ETL tool, которые был нацелен на бизнес пользователей и умел создавать Tableau extracts. Потом появилась серверная версия и много примочек для data science. Очень популярный продукт среди аналитиков. Часто используется вместе с Tableau, хотя у Tableau есть Tableau Prep (вообще голяк). Вывод простой, сейчас тренд на упрощение data science/machine learning. Уровень входа в профессию будет понижаться за счёт упрощения ПО. Так было много лет назад с BI. Чтобы создать отчёт нужно было много водить, а теперь мы просто пару кликов мышкой.
Нашел прикольный сайт агрегатор ивентов. И в нем вот есть всреча аналитиков (бесплатно) в яндекс https://events.yandex.ru/events/data-driven-2019