Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Так, понятно всем нужен вводный урок по git. Есть ли инструктор, кто сможет рассказать? Пишите @rspon
Про внедрение BI.
Про мировые проблемы и как данные помогают с ними бороться.
Посмотрел доклад по DS от Riot, они делают League of Legends.

Выступает их Principal DS и рассказывает про Churn.

Они создали решение на Databricks. Он сказал “If you layout your data properly - solving questions is very easy”, то есть успех мероприятий по DS зависит напрямую от работы DE. Так же он привел новый для меня термин - Feature Store. Эта область специально для DS, чтобы они могла иметь доступ ко всем features, создавать новые и двигаться быстрей.
Публикация про решения для clinical data analytics, полностью на open-source 💪 https://ascopubs.org/doi/10.1200/CCI.20.00045
Сегодня Black Friday, а значит, все бегут покупать подарки на праздники. Хороший пример, что бывает, если ваша инфраструктура еще не перешла на облачные сервисы и вы не можете воспользоваться преимуществом elasticity и auto scaling. Lego хоть нашли workaround.
Введение в SQL для пользователей Excel. YouTube канал, и мужик знает в этом толк.
Крутецкий слайд!
А это наоборот фигня какая-то)
Сейчас делаю следующий урок по ETL, где нашел много теории по ETL. И эта картинка пришлась кстати. Сейчас столько модных инструментов и слов в индустрии, где в каждой компании есть уже свой data engineer, и все дружно извлекают пользу из данных и строят датапроводы. При этому чуть ли не каждый, включая меня, изобретают “колесо”, как бы сделать data pipelines лучше, быстрей и качественней. Хотя уже умные люди лет 10-20 назад все придумали про ETL дизайн и необходимые требования к ETL системе.
Forwarded from LEFT JOIN
Прошел этот курс, делюсь своими впечатлениями.
Курс классный, в нем много практики. Я использовал Google BigQuery и публичные датасеты от dbt для решения описанных примеров, а в обучающих материалах все построено на Snowflake.

В целом, узнал много нового и полезного о dbt, кратко summary:
* Во введении ребята объясняют роль Analytics Engineer, о котором так много разговоров и ссылаются на их пост блога
* Дается исчерпывающая информация о том, как подключить dbt к вашему хранилищу и .git
* В dbt довольно тривиальными запросами реализовано тестирование данных на предмет уникальности, соответстия значениям (это реально базовые SQL-запросы, которые проверяют наличие / отсутствия поля или значений)
И тут интересно следующее: когда пишешь самостоятельно похожие запросы иногда думаешь, что во всем остальном мире так никто не делает, ну, к примеру:
SELECT sum(amount) FROM ... HAVING sum(amount)>0

А оказывается еще как делают, вот даже публично внутри dbt все эти тесты так и реализованы.
И, кстати, крайне удобно, что SQL-код каждого теста можно изучить (скомпилировать)
* Круто и удобно формируется документация и DAG (directed acyclic graph), который показывает все шаги преобразований модели
* Поскольку dbt построен на Liquid и использовании Jinja (движок шаблонов в python), то можно делать всякие невероятные вещи вроде написания внутреннего макроса (читай, условный операторы, циклы или создание функций) и применять этот макрос для автоматизации однотипных частей запроса.
Это прям вау 🙂
* Многие вещи уже придуманы и разработаны коммьюнити, поэтому существует dbt hub, через который можно подключить интересующие пакеты и не изобретать велосипед.
* Отдельного упоминания достойны алгоритмы формирования инкрементального наполнения таблиц и создания снэпшотов. Для одного из проектов абсолютно такой же алгоритм по созданию снэпшотов с date_form / date_to мне доводилось проектировать самостоятельно.
Было приятно увидеть, что у ребят из dbt это работает абсолютно аналогичным образом.
* Разумеется, используя Jinja и dbt, можно автоматизировать построение аналитических запросов, это так и называется Analyses. Скомпилированный код запроса, можно имплементировать в любимую BI-систему и наслаждаться результатами.

Общие впечатления очень положительные: dbt ждет большое будущее и развитие, т.к. коммьюнити растет вместе с возможностями и ресурсами компании.
Ждем коннекторов к другим СУБД помимо PostgreSQL, BigQuery, Snowflake, Redshift.
Мы уже должны понимать основные компоненты любого аналитического решения для больших и маленьких данных - это BI/DW/ETL. Понимать концептуально. В этом уроки мы поговорим про ETL решения и про требования и рекомендации, которые неплохо продумать перед началом создания data pipelines или data integration. Так же мы узнаем основные элементы open-source решения - Pentaho DI и потренируемся выполнять упражнения 2го модуля с помощью UI ETL инструмента.

В этом видео вы узнаете:
📌 История Pentaho DI
📌 Основные компоненты Pentaho DI
📌 Требования к ETL приложению
📌 Data Profiling
📌 Change Data Capture
📌 Design for Failure
📌 Logging and Auditing ETL решения
📌 Testing и Debugging ETL решения
📌 На практике увидите, кам можно загружать данные в базу данных и трансформировать их

https://youtu.be/-oCBttnefMQ
👍1
Еще одна крутая новость. Юрий Грачев, COO в компании CreditKasa, сделал доброе дело, перевел 3000 гривен в благотворительную организацию "В ДОБРІ РУКИ”. В следующем посте я опубликую его объявление про отрытую вакансию. Они будут строить крутое аналитическое решение. Обязательно ознакомьтесь и расшарьте по возможности. 🙏
#vacancy #вакансия #DBA #Kyiv #Киев #fulltime #dataengineer #analyticsengineering
Всем привет!

Мы – инновационная финансовая компания, и входим в ТОП 20 лидеров в нашем сегменте!

Нам нужен прогрессивный архитектор-координатор-администратор, который усилит нашу команду.

Одно из направлений работы нашего будущего коллеги - миграция данных из Хранилища подрядчика (Postgres SQL) в нашу систему в облаке Amazon.
Перечень необходимых скилов:
· Опыт работы от 5 лет в должности DBA;
· Навык архитектора DWH;
· Технические знания в области проектирования и разработки продуктов в облачных сервисах (Postgres SQL, DWH, Amazon, python, other);
· Опыт создания надежных и масштабируемых решений;
· Аналитические навыки.
Мы предлагаем:
· Гибкий рабочий график;
· Достойный уровень заработной платы;
· Удобная доступность, офис рядом с метро;
· возможность карьерного роста;
· Поддержку и помощь на всех этапах работы;
· Активная офисная жизнь: множество конкурсов, ярких ивентов;

· Возможность стать частью команды в период ее динамичного развития.

И самое важное - вы не будете ограничены в выборе путей и средств реализации!
Если вы готовы стать частью нашей дружной команды и готовы к новым вызовам, свяжитесь с нами, будем рады новым друзьям!
Telegram: @Ismaylovan
Phone: +380(50) 447 27 36
Интересное обсуждение современных технологий.

Lakes v. warehouses, analytics v. AI/ML, SQL v. everything else… As the technical capabilities of data lakes and data warehouses converge, are the separate tools and teams that run AI/ML and analytics converging as well?
3 декабря, СЕО Microsoft (это уже не Билл Гейтс☺️), будет рассказывать про аналитику на Azure.