Пока Илон Маск вложил 1,5 млрд от имени Теслы в Биткоин, автор черного лебедя избавляется от них. https://www.forbes.ru/newsroom/finansy-i-investicii/421127-eto-proval-avtor-chernogo-lebedya-nachal-izbavlyatsya-ot
Forbes.ru
«Это провал»: автор «Черного лебедя» начал избавляться от биткоинов
Автор книги «Черный лебедь» Нассим Талеб разочаровался в биткоинах и пообещал избавиться от них. Он считает, что из-за своей волатильности криптовалюта не сможет стать ни платежным средством, ни активом, защищающим от рисков, а проблем биткоина сейча
Я люблю статья, где есть отсылки к истории технологий и мы можем видеть “было-стало”. Вот пример - The Evolution of Precomputation Technology and its Role in Data Analytics
- Precomputation is a common technique used in information retrieval and analysis, including index, materialized view, cube and more.
-It’s a trade-off between time and space, query speed and update flexibility, online processing and offline processing.
-A few megatrends that make precomputation essential to the big data era.
-A real example of 200x acceleration of an OLAP query using different types of precomputation.
-In the near future, how AI and automation will improve precomputation and how that impacts the TCO of big data systems.
- Precomputation is a common technique used in information retrieval and analysis, including index, materialized view, cube and more.
-It’s a trade-off between time and space, query speed and update flexibility, online processing and offline processing.
-A few megatrends that make precomputation essential to the big data era.
-A real example of 200x acceleration of an OLAP query using different types of precomputation.
-In the near future, how AI and automation will improve precomputation and how that impacts the TCO of big data systems.
InfoQ
The Evolution of Precomputation Technology and its Role in Data Analytics
In this article, author Yang Li discusses the importance of precomputation techniques in databases, OLAP and data cubes, and some of the trends in using precomputation in big data analytics.
Forwarded from L̶u̵m̶i̵n̷o̴u̶s̶m̶e̵n̵B̶l̵o̵g̵
Data engineering in 2020-2021
Another view on the Data Management landscape. There 9 mentions of SQL and 5 mentions of BI in the article. SQL is required knowledge for data engineer by it's not in any way the only requirement nowadays.
The author sees the future of Data Management as a way towards SQL-engines and outsource the complexity to the platforms. Unfortunately that's probably true.
Although:
▪️In practice, engineers spend most of the time on letter "T" in ETL(and not only using SQL). For example, the most popular framework for data processing Spark is much more than just RDDs today
▪️Those emerging platforms cost a pile of money now. For example AWS was born because of Oracle platform huge maintanance cost.
▪️I’m very sceptical of tools that clams “everyone can build a data product in several easy steps”.
Article
Another view on the Data Management landscape. There 9 mentions of SQL and 5 mentions of BI in the article. SQL is required knowledge for data engineer by it's not in any way the only requirement nowadays.
The author sees the future of Data Management as a way towards SQL-engines and outsource the complexity to the platforms. Unfortunately that's probably true.
Although:
▪️In practice, engineers spend most of the time on letter "T" in ETL(and not only using SQL). For example, the most popular framework for data processing Spark is much more than just RDDs today
▪️Those emerging platforms cost a pile of money now. For example AWS was born because of Oracle platform huge maintanance cost.
▪️I’m very sceptical of tools that clams “everyone can build a data product in several easy steps”.
Article
Medium
Data engineering in 2020
It is incredible how fast data processing tools are evolving. And with it, the nature of the data engineering discipline is changing as…
Я часто говорю про инженеров из Индии в негативном свете. Недавно я посмотрел фильм The White Tiger и фильм помог мне посмотреть на Индию с другой стороны и постараться понять их уклад и спроецировать его на конкурентную борьбу за место под солнцем.
Forbes
‘The White Tiger’ On Netflix Is A Compelling Adaptation Of Aravind Adiga’s Bestseller
Starring amazing performances from Adarsh Gourav, Rajkummar Rao and Priyanka Chopra Jonas, 'The White Tiger' takes a raw and bitter look at India’s caste system.
Вот и подходит модуль 4 про ETL к концу. Я записал 2 последних видео:
4.7 Fancy ETL инструменты
Моя любимая категория инструментов "Fancy", то есть чем-то не обычные, но очень популярные. В нашем уроке я упомяну 4 самых популярных инструмента, к тому же open source. Я с ними плотно не работал, поэтому я лишь слегка их коснусь, чтобы вы знали об их существовании и по возможности попробовали. Ну а если вы уже про них знаете, то приходите к нам поделиться опытом!
В этом видео вы узнаете про:
📌 Apache Airflow
📌 DBT tool
📌 Luigi
📌 Apache NiFi
📌 Clickhouse (+ fancy база данных)
Так же я добавил в git много ссылку на материалы по инструментам на русском и английском + ссылки на официальные tutorials. То есть вам этого будет достаточно, чтобы начать и поиграться -> отличная история для следующего собеседования, как вы изучаете и пробуете новые технологии.
4.8 Требования к ETL разработчику и отличия от Data Engineer
Практически в описание к любой data вакансии мы можем встретить термин ETL. ETL роль очень важная, так как эти процессы отвечают за консолидацию данных в едином хранилище данных, а в некоторых случаях это может быть озеро данных. Концептуально вакансия ETL разработчик/инженер Data Engineer очень похоже, разница лишь в скилах и названии позиции. В этом видео мы:
📌 Рассмотрим историю data профессий по интеграции данных
📌 Узнаем топ 11 навыков инженера данных
📌 Поговорим о сходствах и различиях двух вакансий
📌 Рассмотрим главные скилы ETL разработчика (ETL) и Инженера данных (DE)
📌 Вакансии ETL и DE Amazon, Facebook, Google
📌 Вакансии ETL и DE Российских компаний
📌 Вакансии ETL и DE в мире
Pavel Novichkov (@eXtr1Mo) еще добавит финальный проект по модулю 4 и лабораторные работы по Pentaho DI, на которых будем строить dimensional model и работать с хранилищем данных на postgres. Если есть вопросы по ETL, Павел ваш эксперт. Кстати, он открыт к предложения по работе на позиции ETL разработчик/BI разработчик. Он себя уже очень хорошо зарекомендовал💪
Ну и настраиваемся на модуль 5 про облачные вычисления на основе AWS и Azure. Я работал и с тем и с другим, проходил все их курсы и предавал в University of Victoria курс по Cloud Computing. Это будет первая ступенька в мир современных аналитических решений. Жду вдохновения из космоса😜
4.7 Fancy ETL инструменты
Моя любимая категория инструментов "Fancy", то есть чем-то не обычные, но очень популярные. В нашем уроке я упомяну 4 самых популярных инструмента, к тому же open source. Я с ними плотно не работал, поэтому я лишь слегка их коснусь, чтобы вы знали об их существовании и по возможности попробовали. Ну а если вы уже про них знаете, то приходите к нам поделиться опытом!
В этом видео вы узнаете про:
📌 Apache Airflow
📌 DBT tool
📌 Luigi
📌 Apache NiFi
📌 Clickhouse (+ fancy база данных)
Так же я добавил в git много ссылку на материалы по инструментам на русском и английском + ссылки на официальные tutorials. То есть вам этого будет достаточно, чтобы начать и поиграться -> отличная история для следующего собеседования, как вы изучаете и пробуете новые технологии.
4.8 Требования к ETL разработчику и отличия от Data Engineer
Практически в описание к любой data вакансии мы можем встретить термин ETL. ETL роль очень важная, так как эти процессы отвечают за консолидацию данных в едином хранилище данных, а в некоторых случаях это может быть озеро данных. Концептуально вакансия ETL разработчик/инженер Data Engineer очень похоже, разница лишь в скилах и названии позиции. В этом видео мы:
📌 Рассмотрим историю data профессий по интеграции данных
📌 Узнаем топ 11 навыков инженера данных
📌 Поговорим о сходствах и различиях двух вакансий
📌 Рассмотрим главные скилы ETL разработчика (ETL) и Инженера данных (DE)
📌 Вакансии ETL и DE Amazon, Facebook, Google
📌 Вакансии ETL и DE Российских компаний
📌 Вакансии ETL и DE в мире
Pavel Novichkov (@eXtr1Mo) еще добавит финальный проект по модулю 4 и лабораторные работы по Pentaho DI, на которых будем строить dimensional model и работать с хранилищем данных на postgres. Если есть вопросы по ETL, Павел ваш эксперт. Кстати, он открыт к предложения по работе на позиции ETL разработчик/BI разработчик. Он себя уже очень хорошо зарекомендовал💪
Ну и настраиваемся на модуль 5 про облачные вычисления на основе AWS и Azure. Я работал и с тем и с другим, проходил все их курсы и предавал в University of Victoria курс по Cloud Computing. Это будет первая ступенька в мир современных аналитических решений. Жду вдохновения из космоса😜
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 4-7 | Fancy ETL инструменты
Моя любимая категория иснтрументов "Fancy", то есть чем-то не обычные, но очень популярные. В нашем уроке я упомяну 4 самых популярных иснтрумента, к тому open source. Я с ними плотно не работал, поэтому я лишь слегка их коснюсь, чтобы вы знали об их существовании…
Forwarded from Denis Sexy IT 🤖
Я всегда относился к себе как к части каких-то интернет сообществ рунета, и всегда мне было любопытно, насколько в показателях русскоязычный сегмент «токсичнее» западного: если много сидеть в рунете то это чувствуется — иногда по злому, иногда по веселому, но в среднем рунет токсичнее какого-нибудь Reddit / FB / Twitter где общаются на английском языке, оно, наверное, и понятно, жизнь у нас не сахар по сравнению с многими странами, есть отчего озлобиться.
Вчера, совершенно случайно, наткнулся на исследование от Microsoft – оказывается они уже 5 лет исследуют эту тему и выпускают отчеты на эту же тему называя ее «Digital Civility» где пытаются подсчитать какой уровень «Цифровой Культуры» в каждой из стран, отчет про 2020 год, в нем приняло участие 16 000 человек из 32 стран, пара интересных моментов:
🔹 Миллениалы за 2020 год стали злобнее в целом по миру;
🔹 Вся надежда на зеточек, они няши как всегда и лучше себя ведут в интернете, у них рейтинг токсичности падает;
🔹 Россия находится на 31 месте... из 32, ниже нас Южная Африка, а выше Мексика. На первом месте Нидерланды. Никогда бы не подумал что буду чувствовать себя в мексиканском интернете как дома ✨
Я перезалил сам отчет от 2021 года на Google Slides, вот ссылка (он на английском), а тут короткая версия на русском. Рекомендую всем кто любит интернет и исследования про него.
В отчете упомянуто, что многие не знают, что делать если вы столкнулись с онлайн-токсичностью, я немного покапитаню, но добавлю: если столкнетесь буллингом, троллингом, любой другой токсичностью (и при этом вы не на работе в интернете, где в ваши задачи входит работа с такими явлениями), то лучший способ это закрыть профиль, внести в ЧС и пойти дальше, потому что вы не торт и все не обязаны вас любить. Главное помнить, что в своем социальном пространстве вы главный, удаляйте что хотите и держите его комфортным для себя. Потому что слова это не просто буковки на экране, они могут правда вредить — на слайде 39 написано какие психологические последствия это все может вызвать. Любвиобильного онлайна вам и берегите себя 💖
P.S. Слово «токсичность» относительно новое у нас, вкладывает туда пока каждый что хочет: я им называю просто грубое общение, оскорбления, буллинг, троллинг и тп.
Вчера, совершенно случайно, наткнулся на исследование от Microsoft – оказывается они уже 5 лет исследуют эту тему и выпускают отчеты на эту же тему называя ее «Digital Civility» где пытаются подсчитать какой уровень «Цифровой Культуры» в каждой из стран, отчет про 2020 год, в нем приняло участие 16 000 человек из 32 стран, пара интересных моментов:
🔹 Миллениалы за 2020 год стали злобнее в целом по миру;
🔹 Вся надежда на зеточек, они няши как всегда и лучше себя ведут в интернете, у них рейтинг токсичности падает;
🔹 Россия находится на 31 месте... из 32, ниже нас Южная Африка, а выше Мексика. На первом месте Нидерланды. Никогда бы не подумал что буду чувствовать себя в мексиканском интернете как дома ✨
Я перезалил сам отчет от 2021 года на Google Slides, вот ссылка (он на английском), а тут короткая версия на русском. Рекомендую всем кто любит интернет и исследования про него.
В отчете упомянуто, что многие не знают, что делать если вы столкнулись с онлайн-токсичностью, я немного покапитаню, но добавлю: если столкнетесь буллингом, троллингом, любой другой токсичностью (и при этом вы не на работе в интернете, где в ваши задачи входит работа с такими явлениями), то лучший способ это закрыть профиль, внести в ЧС и пойти дальше, потому что вы не торт и все не обязаны вас любить. Главное помнить, что в своем социальном пространстве вы главный, удаляйте что хотите и держите его комфортным для себя. Потому что слова это не просто буковки на экране, они могут правда вредить — на слайде 39 написано какие психологические последствия это все может вызвать. Любвиобильного онлайна вам и берегите себя 💖
P.S. Слово «токсичность» относительно новое у нас, вкладывает туда пока каждый что хочет: я им называю просто грубое общение, оскорбления, буллинг, троллинг и тп.
Matillion ETL ещё получил 100млн. Я думаю и Fivetran тоже получил или скоро получит.
Matillion
Matillion Announces $100 Million Funding to Deliver on Growing Enterprise Demand for Cloud Data Integration | Matillion
Latest Funding Led by Lightspeed Venture Partners Accelerates Global Adoption of Leading Platform, Empowering Modern Data Teams to Deliver Analytics-Ready Data Denver and Manchester, England – February 16, 2021 – Matillion, the leading cloud data
Свежая книга про подход Амазон https://www.amazon.com/dp/1250267595/ref=cm_sw_r_tw_dp_J39QYBR29N9K19DV64S5?pldnSite=1
Павел Новичков записал супер подробное видео (уже 2ое) по инструменту Pentaho DI, чтобы вы смогли овладеть принципами ETL.
В этом видео вы:
📌 Познакомимся с графическим интерфейсом Spoon
📌 Рассмотрим строительные блоки любого проекта: Steps и Hops
📌 Узнаем про виды проектов в Pentaho: Jobs и Transformations. В чем их отличия и когда что использовать.
📌 Познакомимся с наиболее распространенными форматами данных в ETL
📌 Потренируемся работе с форматами txt, csv, xls, json, xml
📌 Построим несколько джобов и трансформаций
📌 Научимся запускать проекты по расписанию
В этом видео вы:
📌 Познакомимся с графическим интерфейсом Spoon
📌 Рассмотрим строительные блоки любого проекта: Steps и Hops
📌 Узнаем про виды проектов в Pentaho: Jobs и Transformations. В чем их отличия и когда что использовать.
📌 Познакомимся с наиболее распространенными форматами данных в ETL
📌 Потренируемся работе с форматами txt, csv, xls, json, xml
📌 Построим несколько джобов и трансформаций
📌 Научимся запускать проекты по расписанию
Unified Data Architecture - еще один термин, обозначающий примерно то же самое - консолидация данных для принятия бизнес решений и с недавних пор для использования данных в машинном обучении. Другими словами синоним слова “хранилище данных”. Но в данном контексте это уже может быть что угодно - реляционная база данных, озеро данных на Hadoop или микс хранилища и озера данных, как например Snowflake или Redshift + Redshift Spectrum. Очень хорошая диаграмма, на которой по слоям все расписано от источника до отчета.
Databricks готовится к IPO, и вот уже объявили о поддержке Google Cloud. https://databricks.com/blog/2021/02/17/announcing-the-launch-of-databricks-on-google-cloud.html
Databricks
Announcing the Launch of Databricks on Google Cloud
Learn more about the launch of Databricks on Google Cloud and how the new collaboration will help organizations and their data teams maximize the analytics capabilities of their Google Cloud Storage infrastructure.
Спросили: Что такое Databricks?
Ответ: Это managed spark. То есть compute engines, которых можно создать сколько хочешь и любого размера. Подключить к озеру данных на AWS/Azure и делать processing на Python/Scala/SQL. Можно хранить результат в parquet и использовать delta log = delta lake, озеро данных с функцией ACID. Можно и без databcricks все построить на Hadoop+Spark и хранить все тоже самое в HDFS, но уже надо все ручками настраивать.
Другими словами мы создаем Lakehouse. Когда данные в виде файлов в репозитории, а сверху виртуальные машины, которые умеют читать файлы с помощью SQL (в случае Snowflake, Redshift Spectrum, Athena, Synapse). А вот в случае Databricks вы можете использовать Python/Scala/SQL, получаете преимущества cloud computing и заодно можете использовать docker, делать ML&DS и стримить данные и обрабатывать в реальном времени. В общем вещь!
В СНГ все это конечно не так популярно, так как мы отстаем с облаками. На курсах datalearn я хочу восполнить этот проблем. Это моя любимая тема облака+аналитика и всякие платформы. Даже на западном рынке нет таких курсов, которые включает в себя столько, сколько мы засунули в datalearn и самое главное есть контекст, а не просто учим кнопки нажимать, мы учим вас выбирать подходящее решение самостоятельно и самостоятельно достигать поставленных целей.
Ответ: Это managed spark. То есть compute engines, которых можно создать сколько хочешь и любого размера. Подключить к озеру данных на AWS/Azure и делать processing на Python/Scala/SQL. Можно хранить результат в parquet и использовать delta log = delta lake, озеро данных с функцией ACID. Можно и без databcricks все построить на Hadoop+Spark и хранить все тоже самое в HDFS, но уже надо все ручками настраивать.
Другими словами мы создаем Lakehouse. Когда данные в виде файлов в репозитории, а сверху виртуальные машины, которые умеют читать файлы с помощью SQL (в случае Snowflake, Redshift Spectrum, Athena, Synapse). А вот в случае Databricks вы можете использовать Python/Scala/SQL, получаете преимущества cloud computing и заодно можете использовать docker, делать ML&DS и стримить данные и обрабатывать в реальном времени. В общем вещь!
В СНГ все это конечно не так популярно, так как мы отстаем с облаками. На курсах datalearn я хочу восполнить этот проблем. Это моя любимая тема облака+аналитика и всякие платформы. Даже на западном рынке нет таких курсов, которые включает в себя столько, сколько мы засунули в datalearn и самое главное есть контекст, а не просто учим кнопки нажимать, мы учим вас выбирать подходящее решение самостоятельно и самостоятельно достигать поставленных целей.
Привет!
Новые публикации по Data Studio
1️⃣ Как преобразовать и упростить анализ эффективности рекламы при помощи Data Studio
https://clc.am/4kf9aw
2️⃣ [Видео] Аналитика воронки продаж онлайн школы в Google Data Studio - Дэшборды, отчеты по трафику, конверсиям
https://clc.am/XCYfwg
3️⃣ Наши любимые Ассоциированные конверсии (зачем нужны, как отследить в Google Analytics, Google Ads и добавить в отчеты GDS)
https://clc.am/-EIQ9w
4️⃣ [Видео] Простой отчет по контекстной рекламе в Google Data Studio
https://clc.am/r54b_Q
Новые публикации по Data Studio
1️⃣ Как преобразовать и упростить анализ эффективности рекламы при помощи Data Studio
https://clc.am/4kf9aw
2️⃣ [Видео] Аналитика воронки продаж онлайн школы в Google Data Studio - Дэшборды, отчеты по трафику, конверсиям
https://clc.am/XCYfwg
3️⃣ Наши любимые Ассоциированные конверсии (зачем нужны, как отследить в Google Analytics, Google Ads и добавить в отчеты GDS)
https://clc.am/-EIQ9w
4️⃣ [Видео] Простой отчет по контекстной рекламе в Google Data Studio
https://clc.am/r54b_Q
ppc.world | ppc.world – все о работе с платным трафиком
Статьи о ppc-маркетинге, веб-аналитике, контекстной и таргетированной рекламе – ppc.world
Актуальные статьи о ppc-маркетинге. Материалы об аналитике, настройке и работе в системах контекстной и таргетированной рекламы.
Всем привет! Мы уже провели немало интересных вебинаров от профессионалов со всего мира! И это только начало. Мы хотим собрать все самые крутые материалы по аналитике в одном месте и структурировать их за счет курсов data learn.
Мы создали форму для подачи заявки на вебинары. Интересные темы для вебинары:
- Обзор аналитики облачный решений AWS, Azure, GCP, Alibaba
- Обзор решений для BI/DW/ETL/BigData и тп (теория + демонстрация продукта)
- Информация про управление и развитие дата команд и дата продуктов
- Аналитические кейсы (внедрение решений аналитики и результаты)
- Ваши истории про иммиграция в любую страну и обзор рынка труда и процесс иммиграции
- Истории про смену проф ориентации
- Да все что угодно, лишь бы это было нам на пользу!
Мы создали форму для подачи заявки на вебинары. Интересные темы для вебинары:
- Обзор аналитики облачный решений AWS, Azure, GCP, Alibaba
- Обзор решений для BI/DW/ETL/BigData и тп (теория + демонстрация продукта)
- Информация про управление и развитие дата команд и дата продуктов
- Аналитические кейсы (внедрение решений аналитики и результаты)
- Ваши истории про иммиграция в любую страну и обзор рынка труда и процесс иммиграции
- Истории про смену проф ориентации
- Да все что угодно, лишь бы это было нам на пользу!
Google Docs
Заявка на Вебина для Data Learn.
Привет! Data Learn себя зарекомендовала в рунете и мы всегда рады провести вебинар или воркшоп с экспертами в области аналитики (BI, DW, ETL, Big Data, Cloud, DS, ML и многое другое).
Вебинар проходит через youtube stream. Запись останется навсегда и мы…
Вебинар проходит через youtube stream. Запись останется навсегда и мы…