NEW BOT Телеграм, страница

Инжиниринг Данных

Как написали в комментарие к предыдущему посту - решение в multicloud. Но тут бы с одним облаком разобраться. Можно как вариант в Alibaba дублировать. А в России будет колаб Mail и Yandex или Yandex и Mail, если их Сбер не купит раньше или просто не выкатит свой Sber cloud😜

Gizmodo

It's Not Just You, AWS Is Down Right Now

Amazon Web Services—or just AWS, for short—suffered a massive outage on Wednesday that left a ton of apps, sites, and connected devices relying on the hosting giant completely in the dark.

2.44K viewsDmitry Anoshin, 05:05

Инжиниринг Данных

Re:invent 2020 для GameDev. Я теперь такие ивенты не пропускаю.

Amazon

AWS GameDay

GameDay is a team learning exercise that tests skills in implementing AWS solutions to solve real-world problems in a gamified, risk-free environment. This is a completely hands-on opportunity to explore AWS services, architecture patterns, best practices…

2.36K viewsDmitry Anoshin, 05:11

Инжиниринг Данных

С чего начинается (маркетинговая) аналитика…

2.48K viewsDmitry Anoshin, 05:18

Инжиниринг Данных

Пример аналитического решения в статье - Picnic’s Lakeless Data Warehouse

👍1

2.52K viewsDmitry Anoshin, 06:01

Инжиниринг Данных

Engineering best practices for Machine Learning

2.66K viewsDmitry Anoshin, edited 19:28

Инжиниринг Данных

DevOps для решения аналитики это не просто. Требует время, чтобы привыкнуть. Я рад, что сейчас есть возможность использовать Azure DevOps и все data pipelines, таблицы и тп, все в git. Но пока ещё не привык как это все работает. Но это важно и это best practices. Храните ваши SQL и код в git. Сделайте это частью рутины.

А MLOps это ещё сложней. Вот будет вебинарчик с экспертами.

TWIML

Feature Stores for Accelerating AI Development with Kevin Stumpf, Willem Pienaar, Maxime Beauchenim | The TWIML AI Podcast

2.73K viewsDmitry Anoshin, edited 19:52

Инжиниринг Данных

Для datalearn хотим сделать вебинар для новичков про git. Чтобы люди поняли как им пользоваться. На примере простых сценариев, SQL/Python, и объяснить очень простым языком, почему это удобней, чем хранить файлы с v1,v2,v2.1 и тп. Чтобы люди смогли начать использовать это каждый день. Есть желающие?! Напишите @rspon

2.5K viewsDmitry Anoshin, 20:27

Инжиниринг Данных

Так, понятно всем нужен вводный урок по git. Есть ли инструктор, кто сможет рассказать? Пишите @rspon

2.43K viewsDmitry Anoshin, 05:28

Инжиниринг Данных

Про внедрение BI.

2.43K viewsDmitry Anoshin, 07:04

Инжиниринг Данных

Про мировые проблемы и как данные помогают с ними бороться.

Our World in Data

Research and data to make progress against the world’s largest problems

2.52K viewsDmitry Anoshin, 07:05

Инжиниринг Данных

Посмотрел доклад по DS от Riot, они делают League of Legends.

Выступает их Principal DS и рассказывает про Churn.

Они создали решение на Databricks. Он сказал “If you layout your data properly - solving questions is very easy”, то есть успех мероприятий по DS зависит напрямую от работы DE. Так же он привел новый для меня термин - Feature Store. Эта область специально для DS, чтобы они могла иметь доступ ко всем features, создавать новые и двигаться быстрей.

2.65K viewsDmitry Anoshin, 07:59

Инжиниринг Данных

Публикация про решения для clinical data analytics, полностью на open-source 💪 https://ascopubs.org/doi/10.1200/CCI.20.00045

2.6K viewsDmitry Anoshin, 17:52

Инжиниринг Данных

Сегодня Black Friday, а значит, все бегут покупать подарки на праздники. Хороший пример, что бывает, если ваша инфраструктура еще не перешла на облачные сервисы и вы не можете воспользоваться преимуществом elasticity и auto scaling. Lego хоть нашли workaround.

2.62K viewsDmitry Anoshin, 19:18

Инжиниринг Данных

Крутой видос про Microsoft Flight Simulator, как технологии позволяют создавать новый игровой опыт для пользователей.

YouTube

How Microsoft Flight Simulator Recreated Our Entire Planet | Noclip Documentary

SUBSCRIBE for More Free Game Docs ► http://bit.ly/noclipsubscribe
Become a PATRON to unlock more videos ► https://www.patreon.com/noclip

We talk to Jorg Neumann (Microsoft) and Sebastian Wloch (Asobo) about the bleeding-edge technology that enabled them…

2.68K viewsDmitry Anoshin, 01:24

Инжиниринг Данных

Введение в SQL для пользователей Excel. YouTube канал, и мужик знает в этом толк.

2.88K viewsDmitry Anoshin, edited 19:45

Инжиниринг Данных

Крутецкий слайд!

2.85K viewsDmitry Anoshin, edited 01:09

Инжиниринг Данных

А это наоборот фигня какая-то)

2.49K viewsDmitry Anoshin, 01:10

Инжиниринг Данных

Сейчас делаю следующий урок по ETL, где нашел много теории по ETL. И эта картинка пришлась кстати. Сейчас столько модных инструментов и слов в индустрии, где в каждой компании есть уже свой data engineer, и все дружно извлекают пользу из данных и строят датапроводы. При этому чуть ли не каждый, включая меня, изобретают “колесо”, как бы сделать data pipelines лучше, быстрей и качественней. Хотя уже умные люди лет 10-20 назад все придумали про ETL дизайн и необходимые требования к ETL системе.

2.57K viewsDmitry Anoshin, 02:01

Инжиниринг Данных

Forwarded from LEFT JOIN

Прошел этот курс, делюсь своими впечатлениями.
Курс классный, в нем много практики. Я использовал Google BigQuery и публичные датасеты от dbt для решения описанных примеров, а в обучающих материалах все построено на Snowflake.

В целом, узнал много нового и полезного о dbt, кратко summary:
* Во введении ребята объясняют роль Analytics Engineer, о котором так много разговоров и ссылаются на их пост блога
* Дается исчерпывающая информация о том, как подключить dbt к вашему хранилищу и .git
* В dbt довольно тривиальными запросами реализовано тестирование данных на предмет уникальности, соответстия значениям (это реально базовые SQL-запросы, которые проверяют наличие / отсутствия поля или значений)
И тут интересно следующее: когда пишешь самостоятельно похожие запросы иногда думаешь, что во всем остальном мире так никто не делает, ну, к примеру:

SELECT sum(amount) FROM ... HAVING sum(amount)>0

А оказывается еще как делают, вот даже публично внутри dbt все эти тесты так и реализованы.
И, кстати, крайне удобно, что SQL-код каждого теста можно изучить (скомпилировать)
* Круто и удобно формируется документация и DAG (directed acyclic graph), который показывает все шаги преобразований модели
* Поскольку dbt построен на Liquid и использовании Jinja (движок шаблонов в python), то можно делать всякие невероятные вещи вроде написания внутреннего макроса (читай, условный операторы, циклы или создание функций) и применять этот макрос для автоматизации однотипных частей запроса.
Это прям вау 🙂
* Многие вещи уже придуманы и разработаны коммьюнити, поэтому существует dbt hub, через который можно подключить интересующие пакеты и не изобретать велосипед.
* Отдельного упоминания достойны алгоритмы формирования инкрементального наполнения таблиц и создания снэпшотов. Для одного из проектов абсолютно такой же алгоритм по созданию снэпшотов с date_form / date_to мне доводилось проектировать самостоятельно.
Было приятно увидеть, что у ребят из dbt это работает абсолютно аналогичным образом.
* Разумеется, используя Jinja и dbt, можно автоматизировать построение аналитических запросов, это так и называется Analyses. Скомпилированный код запроса, можно имплементировать в любимую BI-систему и наслаждаться результатами.

Общие впечатления очень положительные: dbt ждет большое будущее и развитие, т.к. коммьюнити растет вместе с возможностями и ресурсами компании.
Ждем коннекторов к другим СУБД помимо PostgreSQL, BigQuery, Snowflake, Redshift.

2.58K viewsDmitry Anoshin, 16:43

Инжиниринг Данных

2.78K viewsDmitry Anoshin, 20:52

Инжиниринг Данных

Мы уже должны понимать основные компоненты любого аналитического решения для больших и маленьких данных - это BI/DW/ETL. Понимать концептуально. В этом уроки мы поговорим про ETL решения и про требования и рекомендации, которые неплохо продумать перед началом создания data pipelines или data integration. Так же мы узнаем основные элементы open-source решения - Pentaho DI и потренируемся выполнять упражнения 2го модуля с помощью UI ETL инструмента.

В этом видео вы узнаете:
📌 История Pentaho DI
📌 Основные компоненты Pentaho DI
📌 Требования к ETL приложению
📌 Data Profiling
📌 Change Data Capture
📌 Design for Failure
📌 Logging and Auditing ETL решения
📌 Testing и Debugging ETL решения
📌 На практике увидите, кам можно загружать данные в базу данных и трансформировать их

https://youtu.be/-oCBttnefMQ

YouTube

DATALEARN | DE - 101 | МОДУЛЬ 4-4 ETL Компоненты

👍1

2.68K viewsDmitry Anoshin, 16:19

About

Blog

Apps

Platform