Как написали в комментарие к предыдущему посту - решение в multicloud. Но тут бы с одним облаком разобраться. Можно как вариант в Alibaba дублировать. А в России будет колаб Mail и Yandex или Yandex и Mail, если их Сбер не купит раньше или просто не выкатит свой Sber cloud😜
Gizmodo
It's Not Just You, AWS Is Down Right Now
Amazon Web Services—or just AWS, for short—suffered a massive outage on Wednesday that left a ton of apps, sites, and connected devices relying on the hosting giant completely in the dark.
Re:invent 2020 для GameDev. Я теперь такие ивенты не пропускаю.
Amazon
AWS GameDay
GameDay is a team learning exercise that tests skills in implementing AWS solutions to solve real-world problems in a gamified, risk-free environment. This is a completely hands-on opportunity to explore AWS services, architecture patterns, best practices…
DevOps для решения аналитики это не просто. Требует время, чтобы привыкнуть. Я рад, что сейчас есть возможность использовать Azure DevOps и все data pipelines, таблицы и тп, все в git. Но пока ещё не привык как это все работает. Но это важно и это best practices. Храните ваши SQL и код в git. Сделайте это частью рутины.
А MLOps это ещё сложней. Вот будет вебинарчик с экспертами.
А MLOps это ещё сложней. Вот будет вебинарчик с экспертами.
TWIML
Feature Stores for Accelerating AI Development with Kevin Stumpf, Willem Pienaar, Maxime Beauchenim | The TWIML AI Podcast
Для datalearn хотим сделать вебинар для новичков про git. Чтобы люди поняли как им пользоваться. На примере простых сценариев, SQL/Python, и объяснить очень простым языком, почему это удобней, чем хранить файлы с v1,v2,v2.1 и тп. Чтобы люди смогли начать использовать это каждый день. Есть желающие?! Напишите @rspon
Так, понятно всем нужен вводный урок по git. Есть ли инструктор, кто сможет рассказать? Пишите @rspon
Про мировые проблемы и как данные помогают с ними бороться.
Our World in Data
Research and data to make progress against the world’s largest problems
Посмотрел доклад по DS от Riot, они делают League of Legends.
Выступает их Principal DS и рассказывает про Churn.
Они создали решение на Databricks. Он сказал “If you layout your data properly - solving questions is very easy”, то есть успех мероприятий по DS зависит напрямую от работы DE. Так же он привел новый для меня термин - Feature Store. Эта область специально для DS, чтобы они могла иметь доступ ко всем features, создавать новые и двигаться быстрей.
Выступает их Principal DS и рассказывает про Churn.
Они создали решение на Databricks. Он сказал “If you layout your data properly - solving questions is very easy”, то есть успех мероприятий по DS зависит напрямую от работы DE. Так же он привел новый для меня термин - Feature Store. Эта область специально для DS, чтобы они могла иметь доступ ко всем features, создавать новые и двигаться быстрей.
Публикация про решения для clinical data analytics, полностью на open-source 💪 https://ascopubs.org/doi/10.1200/CCI.20.00045
Крутой видос про Microsoft Flight Simulator, как технологии позволяют создавать новый игровой опыт для пользователей.
YouTube
How Microsoft Flight Simulator Recreated Our Entire Planet | Noclip Documentary
SUBSCRIBE for More Free Game Docs ► http://bit.ly/noclipsubscribe
Become a PATRON to unlock more videos ► https://www.patreon.com/noclip
We talk to Jorg Neumann (Microsoft) and Sebastian Wloch (Asobo) about the bleeding-edge technology that enabled them…
Become a PATRON to unlock more videos ► https://www.patreon.com/noclip
We talk to Jorg Neumann (Microsoft) and Sebastian Wloch (Asobo) about the bleeding-edge technology that enabled them…
Введение в SQL для пользователей Excel. YouTube канал, и мужик знает в этом толк.
Сейчас делаю следующий урок по ETL, где нашел много теории по ETL. И эта картинка пришлась кстати. Сейчас столько модных инструментов и слов в индустрии, где в каждой компании есть уже свой data engineer, и все дружно извлекают пользу из данных и строят датапроводы. При этому чуть ли не каждый, включая меня, изобретают “колесо”, как бы сделать data pipelines лучше, быстрей и качественней. Хотя уже умные люди лет 10-20 назад все придумали про ETL дизайн и необходимые требования к ETL системе.
Forwarded from LEFT JOIN
Прошел этот курс, делюсь своими впечатлениями.
Курс классный, в нем много практики. Я использовал Google BigQuery и публичные датасеты от dbt для решения описанных примеров, а в обучающих материалах все построено на Snowflake.
В целом, узнал много нового и полезного о dbt, кратко summary:
* Во введении ребята объясняют роль Analytics Engineer, о котором так много разговоров и ссылаются на их пост блога
* Дается исчерпывающая информация о том, как подключить dbt к вашему хранилищу и .git
* В dbt довольно тривиальными запросами реализовано тестирование данных на предмет уникальности, соответстия значениям (это реально базовые SQL-запросы, которые проверяют наличие / отсутствия поля или значений)
И тут интересно следующее: когда пишешь самостоятельно похожие запросы иногда думаешь, что во всем остальном мире так никто не делает, ну, к примеру:
А оказывается еще как делают, вот даже публично внутри dbt все эти тесты так и реализованы.
И, кстати, крайне удобно, что SQL-код каждого теста можно изучить (скомпилировать)
* Круто и удобно формируется документация и DAG (directed acyclic graph), который показывает все шаги преобразований модели
* Поскольку dbt построен на Liquid и использовании Jinja (движок шаблонов в python), то можно делать всякие невероятные вещи вроде написания внутреннего макроса (читай, условный операторы, циклы или создание функций) и применять этот макрос для автоматизации однотипных частей запроса.
Это прям вау 🙂
* Многие вещи уже придуманы и разработаны коммьюнити, поэтому существует dbt hub, через который можно подключить интересующие пакеты и не изобретать велосипед.
* Отдельного упоминания достойны алгоритмы формирования инкрементального наполнения таблиц и создания снэпшотов. Для одного из проектов абсолютно такой же алгоритм по созданию снэпшотов с date_form / date_to мне доводилось проектировать самостоятельно.
Было приятно увидеть, что у ребят из dbt это работает абсолютно аналогичным образом.
* Разумеется, используя Jinja и dbt, можно автоматизировать построение аналитических запросов, это так и называется Analyses. Скомпилированный код запроса, можно имплементировать в любимую BI-систему и наслаждаться результатами.
Общие впечатления очень положительные: dbt ждет большое будущее и развитие, т.к. коммьюнити растет вместе с возможностями и ресурсами компании.
Ждем коннекторов к другим СУБД помимо PostgreSQL, BigQuery, Snowflake, Redshift.
Курс классный, в нем много практики. Я использовал Google BigQuery и публичные датасеты от dbt для решения описанных примеров, а в обучающих материалах все построено на Snowflake.
В целом, узнал много нового и полезного о dbt, кратко summary:
* Во введении ребята объясняют роль Analytics Engineer, о котором так много разговоров и ссылаются на их пост блога
* Дается исчерпывающая информация о том, как подключить dbt к вашему хранилищу и .git
* В dbt довольно тривиальными запросами реализовано тестирование данных на предмет уникальности, соответстия значениям (это реально базовые SQL-запросы, которые проверяют наличие / отсутствия поля или значений)
И тут интересно следующее: когда пишешь самостоятельно похожие запросы иногда думаешь, что во всем остальном мире так никто не делает, ну, к примеру:
SELECT sum(amount) FROM ... HAVING sum(amount)>0
А оказывается еще как делают, вот даже публично внутри dbt все эти тесты так и реализованы.
И, кстати, крайне удобно, что SQL-код каждого теста можно изучить (скомпилировать)
* Круто и удобно формируется документация и DAG (directed acyclic graph), который показывает все шаги преобразований модели
* Поскольку dbt построен на Liquid и использовании Jinja (движок шаблонов в python), то можно делать всякие невероятные вещи вроде написания внутреннего макроса (читай, условный операторы, циклы или создание функций) и применять этот макрос для автоматизации однотипных частей запроса.
Это прям вау 🙂
* Многие вещи уже придуманы и разработаны коммьюнити, поэтому существует dbt hub, через который можно подключить интересующие пакеты и не изобретать велосипед.
* Отдельного упоминания достойны алгоритмы формирования инкрементального наполнения таблиц и создания снэпшотов. Для одного из проектов абсолютно такой же алгоритм по созданию снэпшотов с date_form / date_to мне доводилось проектировать самостоятельно.
Было приятно увидеть, что у ребят из dbt это работает абсолютно аналогичным образом.
* Разумеется, используя Jinja и dbt, можно автоматизировать построение аналитических запросов, это так и называется Analyses. Скомпилированный код запроса, можно имплементировать в любимую BI-систему и наслаждаться результатами.
Общие впечатления очень положительные: dbt ждет большое будущее и развитие, т.к. коммьюнити растет вместе с возможностями и ресурсами компании.
Ждем коннекторов к другим СУБД помимо PostgreSQL, BigQuery, Snowflake, Redshift.
Мы уже должны понимать основные компоненты любого аналитического решения для больших и маленьких данных - это BI/DW/ETL. Понимать концептуально. В этом уроки мы поговорим про ETL решения и про требования и рекомендации, которые неплохо продумать перед началом создания data pipelines или data integration. Так же мы узнаем основные элементы open-source решения - Pentaho DI и потренируемся выполнять упражнения 2го модуля с помощью UI ETL инструмента.
В этом видео вы узнаете:
📌 История Pentaho DI
📌 Основные компоненты Pentaho DI
📌 Требования к ETL приложению
📌 Data Profiling
📌 Change Data Capture
📌 Design for Failure
📌 Logging and Auditing ETL решения
📌 Testing и Debugging ETL решения
📌 На практике увидите, кам можно загружать данные в базу данных и трансформировать их
https://youtu.be/-oCBttnefMQ
В этом видео вы узнаете:
📌 История Pentaho DI
📌 Основные компоненты Pentaho DI
📌 Требования к ETL приложению
📌 Data Profiling
📌 Change Data Capture
📌 Design for Failure
📌 Logging and Auditing ETL решения
📌 Testing и Debugging ETL решения
📌 На практике увидите, кам можно загружать данные в базу данных и трансформировать их
https://youtu.be/-oCBttnefMQ
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 4-4 ETL Компоненты
Мы уже должны понимать основные компоненты любого аналитического решения для больших и маленьких данных - это BI/DW/ETL. Понимать концептуально. В этом уроки мы поговорим про ETL решения и про требования и рекомендации, которые неплохо продумать перед началом…
👍1