Если бы Тони Роббинс выступил на айтишной конференции...(попалось на FB)
Berkeley STAT-157 (Introduction to Deep Learning)
YouTube
Deep Learning UC Berkeley STAT-157 2019
Share your videos with friends, family, and the world
Все привет! Если вы любите смотреть как кто-нибудь сравнивает вендоров аналитического софта, то вот вам еще один отчет - Analytical Data Infrastructure Market Study 2019, причем очень свежий. От Dresner Advisory Services. В нем сравниваю так называемые Инфраструктуры для Аналитики Данных (Analytical Data Infrastructure), надеюсь я правильно перевел. Все больше и больше терминов, которые по сути про одно и тоже.
Инфраструктуры для Аналитики Данных - набор технологических компонентов для интеграция, моделирования, управления, хранения и доступа к данным, которые служат для аналитических нужд (пользователей, приложений, инструментов).
Они опросили 5000 человек из разных организация и разных стран, построили много графиков в экселе во всех возможных разрезах. И потом продали вендорам, у меня вот копия Snowflake. Мне это напоминает учет вальдшнепа в Московской Области, я помогал отцу, мне нужно было в деревне вечером 2 час стоять и слушать/смотреть вальдшнепов и заносить информацию о птицах в анкету. На основе этой выборки можно было сказать о миграции вальдшнепа. Отец даже диссертацию по этой теме написал. А тут вместо вальдшнепов у нас вендоры с их решениями для Хранилищ данных. Интересно, пользователей тоже в лесу ловили, или как Gartner предлагали в замен 20$ карточку Амазон (я уже наверно на 200 долларов поотвечал, не могу сказать что честно, времени не было в вопросы вчитываться), вот так и работает индустрия.
По результатам:
💋83% ответили, что им необходимы такие штуки для Отчетности, 43% за data science и 35% просто попробовать хотять и посмотреть как работает.
💋Цена решения не очень важна, как и корпоративные стандарты
💋60% считают, что лучше иметь одно решения (впринципе очевидно, но вот, например, HootSuite использует Snowflake и BigQuery, то есть просто каждый департамент пилит, что-то свое, а компания теряет деньги)
💋Большинство предпочитают облачное решение
💋30% хотят гибридное решение (cloud and on-premise)
💋Из-за большого разнообразия решений и возможностей, которые они предоставляют, очень сложно выбрать стратегию для руководителей
Инфраструктуры для Аналитики Данных - набор технологических компонентов для интеграция, моделирования, управления, хранения и доступа к данным, которые служат для аналитических нужд (пользователей, приложений, инструментов).
Они опросили 5000 человек из разных организация и разных стран, построили много графиков в экселе во всех возможных разрезах. И потом продали вендорам, у меня вот копия Snowflake. Мне это напоминает учет вальдшнепа в Московской Области, я помогал отцу, мне нужно было в деревне вечером 2 час стоять и слушать/смотреть вальдшнепов и заносить информацию о птицах в анкету. На основе этой выборки можно было сказать о миграции вальдшнепа. Отец даже диссертацию по этой теме написал. А тут вместо вальдшнепов у нас вендоры с их решениями для Хранилищ данных. Интересно, пользователей тоже в лесу ловили, или как Gartner предлагали в замен 20$ карточку Амазон (я уже наверно на 200 долларов поотвечал, не могу сказать что честно, времени не было в вопросы вчитываться), вот так и работает индустрия.
По результатам:
💋83% ответили, что им необходимы такие штуки для Отчетности, 43% за data science и 35% просто попробовать хотять и посмотреть как работает.
💋Цена решения не очень важна, как и корпоративные стандарты
💋60% считают, что лучше иметь одно решения (впринципе очевидно, но вот, например, HootSuite использует Snowflake и BigQuery, то есть просто каждый департамент пилит, что-то свое, а компания теряет деньги)
💋Большинство предпочитают облачное решение
💋30% хотят гибридное решение (cloud and on-premise)
💋Из-за большого разнообразия решений и возможностей, которые они предоставляют, очень сложно выбрать стратегию для руководителей
Еще одна бесплатная онлайн конференция по аналитике - Analytics Best Practices, не понятно что там будет конкретно, но упоминают: Strategy, Culture, Tactics, Results.
#dataengineering
Еще парочку интересных постов от компании UPSIDE. Первый про миграцию из Redshift на Snowflake. Пока мы тут обсуждаем преимущетсва облака, ребята уже наигрались в Redshift, и мигрировали на Snowflake в качестве Хранилища Данных и Matillion как основной ETL. При этом они сэкономили 70% от стоимсти Redshift за счета распределенный архитектуры (хранение данных и вычисления). Если вы строити хранилище в облаке, стоит задуматься. Если есть вопросы по облачным аналитическим решениям, могу подсказать.
Другой пост от CTO, о том, как они немного устали от AWS. Несмотря на то, что AWS лидеры, не все так хорошо и не всегда работает для конкретных случаем.
Еще парочку интересных постов от компании UPSIDE. Первый про миграцию из Redshift на Snowflake. Пока мы тут обсуждаем преимущетсва облака, ребята уже наигрались в Redshift, и мигрировали на Snowflake в качестве Хранилища Данных и Matillion как основной ETL. При этом они сэкономили 70% от стоимсти Redshift за счета распределенный архитектуры (хранение данных и вычисления). Если вы строити хранилище в облаке, стоит задуматься. Если есть вопросы по облачным аналитическим решениям, могу подсказать.
Другой пост от CTO, о том, как они немного устали от AWS. Несмотря на то, что AWS лидеры, не все так хорошо и не всегда работает для конкретных случаем.
#dataengineering
Еще интерсный пост из этой же серии. Ребята из Fivetran (ETL продукт), проверили производительнось Redshift, Snowflake, Azure DW, Presto, BigQuery и сравнили скорость и цены.
Я вот недавно узнал, про becnhmark для аналитических решений, оказывается есть стандартизированные базы данных разных размеров под разные кейсы. Существуют не комеерческая организация TPC, которая появилась в 80х и они начинали с ATM машин и транзакционных систем. Если вам интересно, можете почитать больше по ссылке.
Для аналитических решений используется база TPC-DS. Например, в Snowflake она уже доступно по умолчанию, в Redshift я не видел, но мне кажется, вам придется загружать самим. В TPC есть уже эти базы под различные БД (Oracle, Teradata, ..)
В нашем примере ипользовали данные 2х размеров: 100Гб(400 млн строк) и 1ТБ(4 млр строк). Так жы использовали сложные запросы от TPC (без кеширования).
В принципе у них получось все почти одинаково, так как они хотели просто пропиариться. Мне бы было интересно такой тест провести, но это требует времени на подготовку и будет стоить денег за ресурсы.
Еще интерсный пост из этой же серии. Ребята из Fivetran (ETL продукт), проверили производительнось Redshift, Snowflake, Azure DW, Presto, BigQuery и сравнили скорость и цены.
Я вот недавно узнал, про becnhmark для аналитических решений, оказывается есть стандартизированные базы данных разных размеров под разные кейсы. Существуют не комеерческая организация TPC, которая появилась в 80х и они начинали с ATM машин и транзакционных систем. Если вам интересно, можете почитать больше по ссылке.
Для аналитических решений используется база TPC-DS. Например, в Snowflake она уже доступно по умолчанию, в Redshift я не видел, но мне кажется, вам придется загружать самим. В TPC есть уже эти базы под различные БД (Oracle, Teradata, ..)
В нашем примере ипользовали данные 2х размеров: 100Гб(400 млн строк) и 1ТБ(4 млр строк). Так жы использовали сложные запросы от TPC (без кеширования).
В принципе у них получось все почти одинаково, так как они хотели просто пропиариться. Мне бы было интересно такой тест провести, но это требует времени на подготовку и будет стоить денег за ресурсы.
#aws
Если вы собираетесь работь с AWS или уже работаете, то вот несколько полезных whitepapers:
Architecting for the Cloud - отличный документ, даже если вы будет работать с отечественными облачными решениями.
Overview ofAmazon Web Services - основные сервисы AWS.
How AWS Pricing Works - про цены.
Если вы собираетесь работь с AWS или уже работаете, то вот несколько полезных whitepapers:
Architecting for the Cloud - отличный документ, даже если вы будет работать с отечественными облачными решениями.
Overview ofAmazon Web Services - основные сервисы AWS.
How AWS Pricing Works - про цены.
Еще одна книжка наконец написана (Здесь не только Tableau Desktop, но и Snowflake, EMR, Redsdhift, Matillion, Tableau Server on Linux, Tableau Prep, Tableau API) https://www.packtpub.com/big-data-and-business-intelligence/tableau-2019x-cookbook
Packt
Search | Packt Subnoscription
Search over 7,500 Programming & Development eBooks and videos to advance your IT skills, including Web Development, Application Development and Networking
Лучшая книге на рынкe про ML: https://www.amazon.ca/Hundred-Page-Machine-Learning-Book/dp/199957950X/ref=sr_1_fkmrnull_1
#dataengineering
Попался действительно хороший отчет по сравнению аналитических платформ Snowflake, BigQuery, Azure SQL DW, Redshift. Очень подробная информация про +/- каждой из систем с ценами и производительностью при работе с benchmark DB TCP-H (я рассказывал ранее про нее). https://gigaom.com/report/data-warehouse-cloud-benchmark/
Попался действительно хороший отчет по сравнению аналитических платформ Snowflake, BigQuery, Azure SQL DW, Redshift. Очень подробная информация про +/- каждой из систем с ценами и производительностью при работе с benchmark DB TCP-H (я рассказывал ранее про нее). https://gigaom.com/report/data-warehouse-cloud-benchmark/
Gigaom
Data Warehouse in the Cloud Benchmark