NEW BOT Телеграм, страница

Инжиниринг Данных

Так, понятно всем нужен вводный урок по git. Есть ли инструктор, кто сможет рассказать? Пишите @rspon

2.43K viewsDmitry Anoshin, 05:28

Инжиниринг Данных

Про внедрение BI.

2.43K viewsDmitry Anoshin, 07:04

Инжиниринг Данных

Про мировые проблемы и как данные помогают с ними бороться.

Our World in Data

Research and data to make progress against the world’s largest problems

2.52K viewsDmitry Anoshin, 07:05

Инжиниринг Данных

Посмотрел доклад по DS от Riot, они делают League of Legends.

Выступает их Principal DS и рассказывает про Churn.

Они создали решение на Databricks. Он сказал “If you layout your data properly - solving questions is very easy”, то есть успех мероприятий по DS зависит напрямую от работы DE. Так же он привел новый для меня термин - Feature Store. Эта область специально для DS, чтобы они могла иметь доступ ко всем features, создавать новые и двигаться быстрей.

2.65K viewsDmitry Anoshin, 07:59

Инжиниринг Данных

Публикация про решения для clinical data analytics, полностью на open-source 💪 https://ascopubs.org/doi/10.1200/CCI.20.00045

2.6K viewsDmitry Anoshin, 17:52

Инжиниринг Данных

Сегодня Black Friday, а значит, все бегут покупать подарки на праздники. Хороший пример, что бывает, если ваша инфраструктура еще не перешла на облачные сервисы и вы не можете воспользоваться преимуществом elasticity и auto scaling. Lego хоть нашли workaround.

2.62K viewsDmitry Anoshin, 19:18

Инжиниринг Данных

Крутой видос про Microsoft Flight Simulator, как технологии позволяют создавать новый игровой опыт для пользователей.

YouTube

How Microsoft Flight Simulator Recreated Our Entire Planet | Noclip Documentary

SUBSCRIBE for More Free Game Docs ► http://bit.ly/noclipsubscribe
Become a PATRON to unlock more videos ► https://www.patreon.com/noclip

We talk to Jorg Neumann (Microsoft) and Sebastian Wloch (Asobo) about the bleeding-edge technology that enabled them…

2.68K viewsDmitry Anoshin, 01:24

Инжиниринг Данных

Введение в SQL для пользователей Excel. YouTube канал, и мужик знает в этом толк.

2.88K viewsDmitry Anoshin, edited 19:45

Инжиниринг Данных

Крутецкий слайд!

2.85K viewsDmitry Anoshin, edited 01:09

Инжиниринг Данных

А это наоборот фигня какая-то)

2.49K viewsDmitry Anoshin, 01:10

Инжиниринг Данных

Сейчас делаю следующий урок по ETL, где нашел много теории по ETL. И эта картинка пришлась кстати. Сейчас столько модных инструментов и слов в индустрии, где в каждой компании есть уже свой data engineer, и все дружно извлекают пользу из данных и строят датапроводы. При этому чуть ли не каждый, включая меня, изобретают “колесо”, как бы сделать data pipelines лучше, быстрей и качественней. Хотя уже умные люди лет 10-20 назад все придумали про ETL дизайн и необходимые требования к ETL системе.

2.57K viewsDmitry Anoshin, 02:01

Инжиниринг Данных

Forwarded from LEFT JOIN

Прошел этот курс, делюсь своими впечатлениями.
Курс классный, в нем много практики. Я использовал Google BigQuery и публичные датасеты от dbt для решения описанных примеров, а в обучающих материалах все построено на Snowflake.

В целом, узнал много нового и полезного о dbt, кратко summary:
* Во введении ребята объясняют роль Analytics Engineer, о котором так много разговоров и ссылаются на их пост блога
* Дается исчерпывающая информация о том, как подключить dbt к вашему хранилищу и .git
* В dbt довольно тривиальными запросами реализовано тестирование данных на предмет уникальности, соответстия значениям (это реально базовые SQL-запросы, которые проверяют наличие / отсутствия поля или значений)
И тут интересно следующее: когда пишешь самостоятельно похожие запросы иногда думаешь, что во всем остальном мире так никто не делает, ну, к примеру:

SELECT sum(amount) FROM ... HAVING sum(amount)>0

А оказывается еще как делают, вот даже публично внутри dbt все эти тесты так и реализованы.
И, кстати, крайне удобно, что SQL-код каждого теста можно изучить (скомпилировать)
* Круто и удобно формируется документация и DAG (directed acyclic graph), который показывает все шаги преобразований модели
* Поскольку dbt построен на Liquid и использовании Jinja (движок шаблонов в python), то можно делать всякие невероятные вещи вроде написания внутреннего макроса (читай, условный операторы, циклы или создание функций) и применять этот макрос для автоматизации однотипных частей запроса.
Это прям вау 🙂
* Многие вещи уже придуманы и разработаны коммьюнити, поэтому существует dbt hub, через который можно подключить интересующие пакеты и не изобретать велосипед.
* Отдельного упоминания достойны алгоритмы формирования инкрементального наполнения таблиц и создания снэпшотов. Для одного из проектов абсолютно такой же алгоритм по созданию снэпшотов с date_form / date_to мне доводилось проектировать самостоятельно.
Было приятно увидеть, что у ребят из dbt это работает абсолютно аналогичным образом.
* Разумеется, используя Jinja и dbt, можно автоматизировать построение аналитических запросов, это так и называется Analyses. Скомпилированный код запроса, можно имплементировать в любимую BI-систему и наслаждаться результатами.

Общие впечатления очень положительные: dbt ждет большое будущее и развитие, т.к. коммьюнити растет вместе с возможностями и ресурсами компании.
Ждем коннекторов к другим СУБД помимо PostgreSQL, BigQuery, Snowflake, Redshift.

2.58K viewsDmitry Anoshin, 16:43

Инжиниринг Данных

2.78K viewsDmitry Anoshin, 20:52

Инжиниринг Данных

Мы уже должны понимать основные компоненты любого аналитического решения для больших и маленьких данных - это BI/DW/ETL. Понимать концептуально. В этом уроки мы поговорим про ETL решения и про требования и рекомендации, которые неплохо продумать перед началом создания data pipelines или data integration. Так же мы узнаем основные элементы open-source решения - Pentaho DI и потренируемся выполнять упражнения 2го модуля с помощью UI ETL инструмента.

В этом видео вы узнаете:
📌 История Pentaho DI
📌 Основные компоненты Pentaho DI
📌 Требования к ETL приложению
📌 Data Profiling
📌 Change Data Capture
📌 Design for Failure
📌 Logging and Auditing ETL решения
📌 Testing и Debugging ETL решения
📌 На практике увидите, кам можно загружать данные в базу данных и трансформировать их

https://youtu.be/-oCBttnefMQ

YouTube

DATALEARN | DE - 101 | МОДУЛЬ 4-4 ETL Компоненты

👍1

2.68K viewsDmitry Anoshin, 16:19

Инжиниринг Данных

Еще одна крутая новость. Юрий Грачев, COO в компании CreditKasa, сделал доброе дело, перевел 3000 гривен в благотворительную организацию "В ДОБРІ РУКИ”. В следующем посте я опубликую его объявление про отрытую вакансию. Они будут строить крутое аналитическое решение. Обязательно ознакомьтесь и расшарьте по возможности. 🙏

2.47K viewsDmitry Anoshin, edited 20:55

Инжиниринг Данных

#vacancy #вакансия #DBA #Kyiv #Киев #fulltime #dataengineer #analyticsengineering
Всем привет!

Мы – инновационная финансовая компания, и входим в ТОП 20 лидеров в нашем сегменте!

Нам нужен прогрессивный архитектор-координатор-администратор, который усилит нашу команду.

Одно из направлений работы нашего будущего коллеги - миграция данных из Хранилища подрядчика (Postgres SQL) в нашу систему в облаке Amazon.
Перечень необходимых скилов:
· Опыт работы от 5 лет в должности DBA;
· Навык архитектора DWH;
· Технические знания в области проектирования и разработки продуктов в облачных сервисах (Postgres SQL, DWH, Amazon, python, other);
· Опыт создания надежных и масштабируемых решений;
· Аналитические навыки.
Мы предлагаем:
· Гибкий рабочий график;
· Достойный уровень заработной платы;
· Удобная доступность, офис рядом с метро;
· возможность карьерного роста;
· Поддержку и помощь на всех этапах работы;
· Активная офисная жизнь: множество конкурсов, ярких ивентов;

· Возможность стать частью команды в период ее динамичного развития.

И самое важное - вы не будете ограничены в выборе путей и средств реализации!
Если вы готовы стать частью нашей дружной команды и готовы к новым вызовам, свяжитесь с нами, будем рады новым друзьям!
Telegram: @Ismaylovan
Phone: +380(50) 447 27 36

2.56K viewsDmitry Anoshin, edited 05:35

Инжиниринг Данных

Интересное обсуждение современных технологий.

Lakes v. warehouses, analytics v. AI/ML, SQL v. everything else… As the technical capabilities of data lakes and data warehouses converge, are the separate tools and teams that run AI/ML and analytics converging as well?

Future

The Great Data Debate

The future of data lakes, the new use cases for the modern data stack, and whether decentralization of teams and tools is the future.

2.48K viewsDmitry Anoshin, 17:31

Инжиниринг Данных

https://www.python.org/dev/peps/pep-0020/

Python Enhancement Proposals (PEPs)

PEP 20 – The Zen of Python | peps.python.org

Long time Pythoneer Tim Peters succinctly channels the BDFL’s guiding principles for Python’s design into 20 aphorisms, only 19 of which have been written down.

2.4K viewsDmitry Anoshin, 17:33

Инжиниринг Данных

3 декабря, СЕО Microsoft (это уже не Билл Гейтс☺️), будет рассказывать про аналитику на Azure.