23 января, бесплатная онлайн конференция по Data Goverance - это про управление данными внутри организации
Forwarded from Вастрик.Пынь
💌 Вастрик.Инсайд 39
По заявкам решил сделать выпуск о «войти вайти». Разобрал пять самых популярных вопросов.
— Недостаток айтишников — миф или правда?
— Нужен ли диплом и универ?
— Как легко изучать новые вещи?
— Карьерная лестница разработчика?
— Как оставаться востребованным?
https://vas3k.ru/inside/39/
По заявкам решил сделать выпуск о «войти вайти». Разобрал пять самых популярных вопросов.
— Недостаток айтишников — миф или правда?
— Нужен ли диплом и универ?
— Как легко изучать новые вещи?
— Карьерная лестница разработчика?
— Как оставаться востребованным?
https://vas3k.ru/inside/39/
#dataengineering
ETL vs ELT от Matillion. Если уж совсем по простому, то ETL это когда мы подключаемся к источнику данных, забираем данные(Extract), и начинаем их пропускать через наш тул(ETL), то есть трансформировать(Transform), например, менять формат данных, создавать новые поля и тп., а потом мы готовый результат загружаем(Load) в нашу базу данных (Data Warehouse). Обычно это удобно, так как ETL тул, имеем можноство встроенных трансформаций, и мы мышкой можем создавать и траснформировать данные. Но нам нужно достаточно мощный сервер, чтобы все это дело работало. Примеры - Informatica Power Center, SAP BODI, IBM DataStage и тп. И все эти друзья очень медленно загружают данные в облачные базы данных (Redshift, BigQuery). Но есть возможность сделать ELT (только не понятно зачем тогда переплачивать).
А есть другой подход, мы извлекаем данные (Extract), загружаем в базу данных (Load), и дальше используем ресурс аналитической базы данных и SQL делаем все необходимые операции. Как результат, работает быстро и не нужен дорогой сервер и лицензии дешевле или вообще платим только за то, что используем. Пример - Matillion, Amazon Glue, Azure Data Factories. При этом мы можем воспользовать преимуществом облачного хранения данных (Amazon S3, Azure Blob Storage).
Я работаю с Matillion сейчас, и мне нравиться, что это ELT, но при этом выглядит как ETL.
ETL vs ELT от Matillion. Если уж совсем по простому, то ETL это когда мы подключаемся к источнику данных, забираем данные(Extract), и начинаем их пропускать через наш тул(ETL), то есть трансформировать(Transform), например, менять формат данных, создавать новые поля и тп., а потом мы готовый результат загружаем(Load) в нашу базу данных (Data Warehouse). Обычно это удобно, так как ETL тул, имеем можноство встроенных трансформаций, и мы мышкой можем создавать и траснформировать данные. Но нам нужно достаточно мощный сервер, чтобы все это дело работало. Примеры - Informatica Power Center, SAP BODI, IBM DataStage и тп. И все эти друзья очень медленно загружают данные в облачные базы данных (Redshift, BigQuery). Но есть возможность сделать ELT (только не понятно зачем тогда переплачивать).
А есть другой подход, мы извлекаем данные (Extract), загружаем в базу данных (Load), и дальше используем ресурс аналитической базы данных и SQL делаем все необходимые операции. Как результат, работает быстро и не нужен дорогой сервер и лицензии дешевле или вообще платим только за то, что используем. Пример - Matillion, Amazon Glue, Azure Data Factories. При этом мы можем воспользовать преимуществом облачного хранения данных (Amazon S3, Azure Blob Storage).
Я работаю с Matillion сейчас, и мне нравиться, что это ELT, но при этом выглядит как ETL.
Matillion прям сыпит сегодня интересными white papers. Еще одна - Data Analytics Platform. В терминологии можно совсем запутаться. Это теже яйца, только в профиль🙈. Интересно, что лучше покупают, Data Platform или Data Warehouse.
Каждый год Gartner публикует Magic Quadrant для различных технологий. Например, есть для BI, есть про ETL, есть про Data Platforms и тп. Раньше это было больше про Хранилища Данных, теперь сместилось к платформам, так как под разные задачи существуют разные решения (Например Redshift + Elastic Map Reduce - разные технологии и решают разные задачи, но служат для аналитики и доступны в AWS)
Каждый год с начала моей аналитической карьеры я всегда с удовольствием рассматриваю их картинки. И вот сейчас они опубликовали за 2019, где можно найти все топовые аналитические платформы (Leaders Quadrant): Snowflake, BigQuery, Dataproc, Bigtable и другие (Google), Teradata, Redshift, EMR (AWS), Azure SQL DW (Microsoft) или свежые продукты (Niche Players) - Alibab cloud (может есть чего у них, чтобы бесплатно использовать?)
Для меня это самый лучший способ посмотреть на тренды рынка и основные фичи продуктов.
Каждый год с начала моей аналитической карьеры я всегда с удовольствием рассматриваю их картинки. И вот сейчас они опубликовали за 2019, где можно найти все топовые аналитические платформы (Leaders Quadrant): Snowflake, BigQuery, Dataproc, Bigtable и другие (Google), Teradata, Redshift, EMR (AWS), Azure SQL DW (Microsoft) или свежые продукты (Niche Players) - Alibab cloud (может есть чего у них, чтобы бесплатно использовать?)
Для меня это самый лучший способ посмотреть на тренды рынка и основные фичи продуктов.
Если бы Тони Роббинс выступил на айтишной конференции...(попалось на FB)
Berkeley STAT-157 (Introduction to Deep Learning)
YouTube
Deep Learning UC Berkeley STAT-157 2019
Share your videos with friends, family, and the world
Все привет! Если вы любите смотреть как кто-нибудь сравнивает вендоров аналитического софта, то вот вам еще один отчет - Analytical Data Infrastructure Market Study 2019, причем очень свежий. От Dresner Advisory Services. В нем сравниваю так называемые Инфраструктуры для Аналитики Данных (Analytical Data Infrastructure), надеюсь я правильно перевел. Все больше и больше терминов, которые по сути про одно и тоже.
Инфраструктуры для Аналитики Данных - набор технологических компонентов для интеграция, моделирования, управления, хранения и доступа к данным, которые служат для аналитических нужд (пользователей, приложений, инструментов).
Они опросили 5000 человек из разных организация и разных стран, построили много графиков в экселе во всех возможных разрезах. И потом продали вендорам, у меня вот копия Snowflake. Мне это напоминает учет вальдшнепа в Московской Области, я помогал отцу, мне нужно было в деревне вечером 2 час стоять и слушать/смотреть вальдшнепов и заносить информацию о птицах в анкету. На основе этой выборки можно было сказать о миграции вальдшнепа. Отец даже диссертацию по этой теме написал. А тут вместо вальдшнепов у нас вендоры с их решениями для Хранилищ данных. Интересно, пользователей тоже в лесу ловили, или как Gartner предлагали в замен 20$ карточку Амазон (я уже наверно на 200 долларов поотвечал, не могу сказать что честно, времени не было в вопросы вчитываться), вот так и работает индустрия.
По результатам:
💋83% ответили, что им необходимы такие штуки для Отчетности, 43% за data science и 35% просто попробовать хотять и посмотреть как работает.
💋Цена решения не очень важна, как и корпоративные стандарты
💋60% считают, что лучше иметь одно решения (впринципе очевидно, но вот, например, HootSuite использует Snowflake и BigQuery, то есть просто каждый департамент пилит, что-то свое, а компания теряет деньги)
💋Большинство предпочитают облачное решение
💋30% хотят гибридное решение (cloud and on-premise)
💋Из-за большого разнообразия решений и возможностей, которые они предоставляют, очень сложно выбрать стратегию для руководителей
Инфраструктуры для Аналитики Данных - набор технологических компонентов для интеграция, моделирования, управления, хранения и доступа к данным, которые служат для аналитических нужд (пользователей, приложений, инструментов).
Они опросили 5000 человек из разных организация и разных стран, построили много графиков в экселе во всех возможных разрезах. И потом продали вендорам, у меня вот копия Snowflake. Мне это напоминает учет вальдшнепа в Московской Области, я помогал отцу, мне нужно было в деревне вечером 2 час стоять и слушать/смотреть вальдшнепов и заносить информацию о птицах в анкету. На основе этой выборки можно было сказать о миграции вальдшнепа. Отец даже диссертацию по этой теме написал. А тут вместо вальдшнепов у нас вендоры с их решениями для Хранилищ данных. Интересно, пользователей тоже в лесу ловили, или как Gartner предлагали в замен 20$ карточку Амазон (я уже наверно на 200 долларов поотвечал, не могу сказать что честно, времени не было в вопросы вчитываться), вот так и работает индустрия.
По результатам:
💋83% ответили, что им необходимы такие штуки для Отчетности, 43% за data science и 35% просто попробовать хотять и посмотреть как работает.
💋Цена решения не очень важна, как и корпоративные стандарты
💋60% считают, что лучше иметь одно решения (впринципе очевидно, но вот, например, HootSuite использует Snowflake и BigQuery, то есть просто каждый департамент пилит, что-то свое, а компания теряет деньги)
💋Большинство предпочитают облачное решение
💋30% хотят гибридное решение (cloud and on-premise)
💋Из-за большого разнообразия решений и возможностей, которые они предоставляют, очень сложно выбрать стратегию для руководителей
Еще одна бесплатная онлайн конференция по аналитике - Analytics Best Practices, не понятно что там будет конкретно, но упоминают: Strategy, Culture, Tactics, Results.