В своем докладе про 5 лет в Амазон я рассказывал про один из ключевых моментов для ML и Data Engineering проектов - data quality. Так как мы использовали Spark (поверх Elastic Map Reduce aka Hadoop) для feature engineering, то для качества данных и unit tests использовали (и продолжают использовать в Амазоне) библиотеку Deequ, которая была написана на Scala. А сейчас вышла версия для Python - PyDeequ. Если у вас ETL на Spark, то для вас это самое главное решение по качеству данных. Ну для DataBricks и Delta Lake подойдет.
Пока мы в свои 20-30+ думаем, чем бы нам заниматься и где развиваться, некоторым удается в 10 лет сделать больше😜 Я в 10 лет мог из лего замок построить, кстати он еще со мной в Канаде, мое приданное. И он стоит на Ebay 500US$ (собранный). Лего еще та инвестиция! Вообще с лего интересно получилось, все свое лего так бережно берег для своих детей, а оно у них повсюду валяется, все перемешано и сломано… Но замок лежит в гараже до лучших времен.☺️
В последнем видео про ETL я рассказывал про ETL подсистемы и одна из них называлась Late Arriving Dimensions. Скрывать не буду, особо никогда не пользовался этим подходом. Вот довольно простое видео от Matillion на примере Snowflake.
А если у вас не хранилище данных, а озеро, в нашем примере delta lake, то там тоже можно реализовать этот подход.
А если у вас не хранилище данных, а озеро, в нашем примере delta lake, то там тоже можно реализовать этот подход.
Сравнение Delta Lake и Apache Hudi (заодно и расскажут, что это такое).
Medium
The ACID table storage layer- thorough conceptual comparisons between Delta Lake and Apache Hudi (part 1)
While I was doing my data engineer internship at Cathay Financial Holdings, I spent most of my time researching the difference between…
Новый вебинар от Романа:
Друзья, приветствую всех!
Вот и польза подоспела сразу после праздников.
В среду (13 января) в 20:00 по мск вебинар!
Тема: Data команда. Цели, структура и управление
Спикер: Владимир Лагутинский, профессионал с 10-ти летним опытом в данной теме
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник не пропустить
📌 Отложить все дела на понедельник
📌 В среду в 20:00 быть на вебинаре
Всех обнял, до встречи в эфире 🤗
И ПОДПИШИТЕСЬ НА НАШ ЮТУБ
https://youtu.be/NLOq7GC7zA8
Друзья, приветствую всех!
Вот и польза подоспела сразу после праздников.
В среду (13 января) в 20:00 по мск вебинар!
Тема: Data команда. Цели, структура и управление
Спикер: Владимир Лагутинский, профессионал с 10-ти летним опытом в данной теме
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник не пропустить
📌 Отложить все дела на понедельник
📌 В среду в 20:00 быть на вебинаре
Всех обнял, до встречи в эфире 🤗
И ПОДПИШИТЕСЬ НА НАШ ЮТУБ
https://youtu.be/NLOq7GC7zA8
YouTube
ДАТА КОМАНДА: ЦЕЛИ, СТРУКТУРА И УПРАВЛЕНИЕ / ВЛАДИМИР ЛАГУТИНСКИЙ
Лагутинский Владимир - Руководит проектами и командами в Данных более 10 лет как с основном фокусом на практической пользе Аналитики и продуктовом подходе. Убежден, что правильная организационная структура и процессы дают больше пользы для бизнеса, чем инструменты…
Родители у меня орнитологи и работают в Московском Зоопарке, в принципе я там и вырос, и водил свою будущую жену на свидание покормить пеликанов. Они несколько раз посещали Канаду и отец кандидат наук по птицам и хорошо в них разбирается и у него много научных статей по этой теме. Я ему помог освоить medium, где он написал мини рассказ про животный мир Британской Колумбии, если кому интересно, можете прочитать.
Medium
Введение
Итак, аэропорт Ванкувер, город Ванкувер, остров Ванкувер: самый юго-запад страны Канады, тихоокеанское побережье и западная часть
Илон задонейтил 5млн $ в бесплатную онлайн школу (кстати одну из лучших) - Khan Academy.
TESMANIAN
Elon Musk Donated $5 Million to Khan Academy Via Musk Foundation
Elon Musk donated $5 million to the Khan Academy through his Musk Foundation, which provides philanthropy in several areas, including education.
Искал информацию про Alteryx на хабре и нашел хороший перевод статьи “Каково это было — изучать Data Science в 2019 году” (перевод статьи Томаса Нильда How It Feels to Learn Data Science in 2019). Статья - ржака))
Хабр
Каково это было — изучать Data Science в 2019 году
Эта статья — перевод статьи Томаса Нильда How It Feels to Learn Data Science in 2019 Видение (случайного) леса через деревья (решений) Thomas Nield Follow Feb 4 Время чтения: 16...
Интересное решение - google big query позволяет читать данные в другом облаке. Это уже тренд на multicloud и пример как вендоры адаптируются, ну и со снежинкой конкуренция. Раньше bigquery умел читать только данные из своего google storage.
Google Cloud Blog
BigQuery Omni for multi-cloud data analytics | Google Cloud Blog
BigQuery Omni, powered by Anthos, lets you analyze data in Google Cloud, as well as AWS and Azure (coming soon). It’s multi-cloud data analytics for the modern age.
Мы начали наш вебинар про руководство Data проектов https://youtu.be/NLOq7GC7zA8
Из очень старого (2014 -2015) - прародитель курса datalearn https://smartia.me/profession/bintelligent/
smartia.me
Разработчик Business Intelligence
Крупному бизнесу всё сложнее: чтобы принимать важные решения, приходится обрабатывать всё больше и больше информации. Для этого созданы целые классы специальных компьютерных программ и даже отдельные языки работы с данными.
BI-разработчик — тот, кто помогает…
BI-разработчик — тот, кто помогает…
Майкл Сейлор - создатель MicroStrategy. Сейчас они ещё на плаву за счёт больших клиентов, я даже про них написал книгу в 2015, когда работал с продуктом. И в Москве было большое разочарование, когда прошел собеседование на sales engineer по MicroStrategy и в итоге они решили закрыть офис в Москве. Интересный факт, что в прошлом году или в 2019, компания инвестировала 120млн баксов своих денег, + сам Майкл вложил кучу своих денег в Bitcoin. Неожиданное решение от совета директоров, но теперь это дело стоит 500млн. Интересно как дальше пойдет. Я вот без единого биткоина, но зато есть серебряные и золотые монеты, акции snow, Tesla, amazon и Microsoft. И на том хорошо, что хоть немного денег удалось не проесть🤗 а у вас как?
Для девочек 12-19 лет отличная возможность изучить технологии и профессии в tech.
DigiGirlz at Microsoft
Microsoft is proud to offer free technology programs specifically for youth. Our Microsoft DigiGirlz programs give middle and high school girls* opportunities to learn about careers in technology, connect with Microsoft employees, and participate in hands-on computer and technology workshops.
DigiGirlz at Microsoft
Microsoft is proud to offer free technology programs specifically for youth. Our Microsoft DigiGirlz programs give middle and high school girls* opportunities to learn about careers in technology, connect with Microsoft employees, and participate in hands-on computer and technology workshops.
Microsoft
Microsoft Global Diversity and Inclusion
In over 20 years of committed diversity and inclusion efforts, we’ve learned that diversity is not a finite goal; it is a journey that requires constant self-assessment and recommitment.
Новое видео https://youtu.be/KfuY2J9h5B0
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 4-6 Data Prep на примере Tableau Prep и Alteryx
С ETL/ELT мы более-менее разобрались. К счастью или к сожалению, на сегодняшний день существует огромное количество программ для интеграции и трансформации данных. Некоторые программы относятся к классу Data Prep. Я их называю настольными ETL инструментами…
Analytics Engineer vs Data Engineer vs Data Analyst. dbt в своем посте рассказывает про особенности каждой роли. Я на своем опыте понял, что гнаться за классными названиями не всегда удобно. Например, в Linkedin я сделал Analytics Engineering, но есть проблема - рекрутеры, руководители компаний и другие люди, кому я мог бы “продать” свой профайл, не очень понимают. Сейчас вроде как для большинства, что есть BI, Data Engineering и Data Science. Поэтому, несмотря на то, что Analytics Engineering более подходит к тому, что я делаю - end to end analytics solution, приходится играть по правилам рынка.
Кстати, чем больше узнаю про dbt, тем больше вижу преимущество SQL ETL vs того же Apache Airflow с питоном.
Кстати, чем больше узнаю про dbt, тем больше вижу преимущество SQL ETL vs того же Apache Airflow с питоном.
Про #datalearn
Мы используем GitHub как учебник, для конечного пользователя это просто страничка с текстом и гиперссылками на YouTube видео, дополнительные материалы или файлы для домашнего задания.
На текущий момент 2 основных страницы в нашем учебнике:
1. readme.md - Про курс “Введение в Аналитику и Инжиниринг данных”, информация про каналы Slack и пару ссылок на YouTube про курс.
2. DE-101.md - Следующая страница непосредственно про сам курс. Тут введение к курсу, оглавление, требования к курсу (больше как рекомендации), информация про значки и сертификат и ссылки на главы (модули) курса.
Мы используем GitHub как учебник, для конечного пользователя это просто страничка с текстом и гиперссылками на YouTube видео, дополнительные материалы или файлы для домашнего задания.
На текущий момент 2 основных страницы в нашем учебнике:
1. readme.md - Про курс “Введение в Аналитику и Инжиниринг данных”, информация про каналы Slack и пару ссылок на YouTube про курс.
2. DE-101.md - Следующая страница непосредственно про сам курс. Тут введение к курсу, оглавление, требования к курсу (больше как рекомендации), информация про значки и сертификат и ссылки на главы (модули) курса.
Trino - еще одна технология open source SQL engine. Я лично никогда не использовал. Из ближайшего я пользовался Amazon Athena (presto).Trino как раз и есть presto, они его переименовали и добавили новые фичи.
Update от Евгения из комментария: Есть два разных Presto - один это PrestoDB, это то что сделали в фб и эта версия поддерживается их сообществом. Есть prestoSql(теперь trino) - это часть разрабов ушедшая с фб организовали свою компанию и форкнулись от prestoDB и теперь пилят свою версию. А ещё есть https://www.starburstdata.com/ - они делают интерпрайз версию presto))
Update от Евгения из комментария: Есть два разных Presto - один это PrestoDB, это то что сделали в фб и эта версия поддерживается их сообществом. Есть prestoSql(теперь trino) - это часть разрабов ушедшая с фб организовали свою компанию и форкнулись от prestoDB и теперь пилят свою версию. А ещё есть https://www.starburstdata.com/ - они делают интерпрайз версию presto))