Какие дата инженеры бывают и чего от них все хотят?
Запись доклада Николая Маркова с митапа DE or DIE
Кого могут называть дата инженером в разных компаниях:
⁃ ETL разработчика (pandas, PostgreSQL etc.)
⁃ «оператора» Hadoop на Java
⁃ архитектора хранилищ (Data Warehouse, Data Lake)
⁃ DevOps (Jenkins, Agile etc.)
Определение Николая:
«Data Engineer — это человек, который умеет правильно использовать компьютеры»
Наскриншотил несколько слайдов. Есть даже про игры)
https://youtu.be/GfBWzXxF5M8
#data_engineer #data_video
Запись доклада Николая Маркова с митапа DE or DIE
Кого могут называть дата инженером в разных компаниях:
⁃ ETL разработчика (pandas, PostgreSQL etc.)
⁃ «оператора» Hadoop на Java
⁃ архитектора хранилищ (Data Warehouse, Data Lake)
⁃ DevOps (Jenkins, Agile etc.)
Определение Николая:
«Data Engineer — это человек, который умеет правильно использовать компьютеры»
Наскриншотил несколько слайдов. Есть даже про игры)
https://youtu.be/GfBWzXxF5M8
#data_engineer #data_video
data будни
Какие дата инженеры бывают и чего от них все хотят? Запись доклада Николая Маркова с митапа DE or DIE Кого могут называть дата инженером в разных компаниях: ⁃ ETL разработчика (pandas, PostgreSQL etc.) ⁃ «оператора» Hadoop на Java ⁃ архитектора хранилищ…
был удивлён, когда увидел логотип Додо пиццы на техническом митапе. Задался вопросом и кроличья нора привела меня на интересный сайт dodo.dev
Так я узнал про Dodo Engineering.
Так я узнал про Dodo Engineering.
data будни
Какие дата инженеры бывают и чего от них все хотят? Запись доклада Николая Маркова с митапа DE or DIE Кого могут называть дата инженером в разных компаниях: ⁃ ETL разработчика (pandas, PostgreSQL etc.) ⁃ «оператора» Hadoop на Java ⁃ архитектора хранилищ…
Чо погамать?
отдельный слайд доклада Николая Маркова был посвещён играм для дата инженеров для прокачки системного мышления. Вот ссылки в Стим:
Factorio
https://store.steampowered.com/app/427520/Factorio/
TIS-100
https://store.steampowered.com/app/370360/TIS100/
MHRD
https://store.steampowered.com/app/576030/MHRD/
Human Resource Machine
https://store.steampowered.com/app/375820/Human_Resource_Machine/
Baba Is You
https://store.steampowered.com/app/736260/Baba_Is_You/
#data_engineering #games #friday
отдельный слайд доклада Николая Маркова был посвещён играм для дата инженеров для прокачки системного мышления. Вот ссылки в Стим:
Factorio
https://store.steampowered.com/app/427520/Factorio/
TIS-100
https://store.steampowered.com/app/370360/TIS100/
MHRD
https://store.steampowered.com/app/576030/MHRD/
Human Resource Machine
https://store.steampowered.com/app/375820/Human_Resource_Machine/
Baba Is You
https://store.steampowered.com/app/736260/Baba_Is_You/
#data_engineering #games #friday
Методы управления разработкой
В крупной компании команда несколько лет работала над продуктом. Когда его в итоге показали конечному заказчику, оказалось, что проект уже не нужен и его просто выбросили. Получается, много человек потратили много лет своей жизни впустую.
Так работает метод управления разработкой «водопад» (waterfall). Задачи идут последовательно одна за другой: два месяца на исследование, несколько лет на разработку, ещё сколько-то на внедрение. До самого конца заказчик ничего не видит — ему нужен только конечный результат.
Другой метод — аджайл. В Спотифай применяют как раз его: короткие итерации с ощутимым итогом после каждой — Spotify Model, развившееся в Spotify Rhythm.
из подкаста «Запуск завтра»
https://news.1rj.ru/str/ctodaily/1157
#data_podcast
В крупной компании команда несколько лет работала над продуктом. Когда его в итоге показали конечному заказчику, оказалось, что проект уже не нужен и его просто выбросили. Получается, много человек потратили много лет своей жизни впустую.
Так работает метод управления разработкой «водопад» (waterfall). Задачи идут последовательно одна за другой: два месяца на исследование, несколько лет на разработку, ещё сколько-то на внедрение. До самого конца заказчик ничего не видит — ему нужен только конечный результат.
Другой метод — аджайл. В Спотифай применяют как раз его: короткие итерации с ощутимым итогом после каждой — Spotify Model, развившееся в Spotify Rhythm.
из подкаста «Запуск завтра»
https://news.1rj.ru/str/ctodaily/1157
#data_podcast
Telegram
запуск завтра
Как управляют разработкой в самом популярном музыкальном сервисе в мире?
5 лет назад Spotify рассказали о своей системе управления разработкой, Spotify model. Сегодня о ней знает любой менеджер в IT, а многие положения из этой системы стали стандартами де…
5 лет назад Spotify рассказали о своей системе управления разработкой, Spotify model. Сегодня о ней знает любой менеджер в IT, а многие положения из этой системы стали стандартами де…
методы доступа к данным
задача: собрать данные из сервиса почтовых рассылок
вводные: вот личный кабинет, вот данные для доступа по API
сказано — сделано: написал скрипт, получил всех подписчиков и их данные. Ок.
Второй шаг — получить действия этих подписчиков (открытия, переходы по ссылкам, отписки).
С самими контактами всё просто: они подписываются не часто и только один раз; достаточно просто каждый день забирать из сервиса список новых.
А вот с активностями уже сложнее: тысячи подписывавшихся каждую неделю могут открыть, шернуть или отписаться. Получаются тысячи регулярных активностей.
Дальше — больше. Логика API не предусматривает отдельный фид для всех активностей: активности можно получить только по конкретному подписчику.
И вот я пыхчу и пишу скрипт с обходом всех айдишников, чтобы по каждому получить активности. Идёт не быстро, переодически упирается в какие-то ошибки, дописываю краевые условия для скрипта — код каждый раз усложняется. За день такого мурыжения я получаю 10к активностей.
В очередном помидорном перерыве пришла в голову идея спросить совета у старшего товарища. Он дал контакт в сервисе — пишу туда, объясняю ситуацию. Думаю, вдруг я просто не знаю как правильно использовать АПИ. Но там кивают, подтверждают что активности отдельно через АПИ не достать — так уж работает.
Угу. Понятно.
Но!
Могут прислать тупо выгрузку из своей базы по всем активностям. И потом каждый день присылать за прошлый. Вот вам доступ к папке на ФТП, там каждое утро будут появляться отчёты в .csv
Та-дам!
Итого: доступ в лоб «как сказали» — один день и 10К активностей. Проявил инициативу, зашёл сбоку — два часа и все активности с начала времён.
Зарубка себе на будущее:
1. задавать вопросы.
2. оценивать адекватность усилий к полученному результату.
3. делать паузы в работе (в них особенно удобно делать п.1 и п.2).
задача: собрать данные из сервиса почтовых рассылок
вводные: вот личный кабинет, вот данные для доступа по API
сказано — сделано: написал скрипт, получил всех подписчиков и их данные. Ок.
Второй шаг — получить действия этих подписчиков (открытия, переходы по ссылкам, отписки).
С самими контактами всё просто: они подписываются не часто и только один раз; достаточно просто каждый день забирать из сервиса список новых.
А вот с активностями уже сложнее: тысячи подписывавшихся каждую неделю могут открыть, шернуть или отписаться. Получаются тысячи регулярных активностей.
Дальше — больше. Логика API не предусматривает отдельный фид для всех активностей: активности можно получить только по конкретному подписчику.
И вот я пыхчу и пишу скрипт с обходом всех айдишников, чтобы по каждому получить активности. Идёт не быстро, переодически упирается в какие-то ошибки, дописываю краевые условия для скрипта — код каждый раз усложняется. За день такого мурыжения я получаю 10к активностей.
В очередном помидорном перерыве пришла в голову идея спросить совета у старшего товарища. Он дал контакт в сервисе — пишу туда, объясняю ситуацию. Думаю, вдруг я просто не знаю как правильно использовать АПИ. Но там кивают, подтверждают что активности отдельно через АПИ не достать — так уж работает.
Угу. Понятно.
Но!
Могут прислать тупо выгрузку из своей базы по всем активностям. И потом каждый день присылать за прошлый. Вот вам доступ к папке на ФТП, там каждое утро будут появляться отчёты в .csv
Та-дам!
Итого: доступ в лоб «как сказали» — один день и 10К активностей. Проявил инициативу, зашёл сбоку — два часа и все активности с начала времён.
Зарубка себе на будущее:
1. задавать вопросы.
2. оценивать адекватность усилий к полученному результату.
3. делать паузы в работе (в них особенно удобно делать п.1 и п.2).
АйТи в строительной компании ПИК
послушал выпуск подкаста «запуск завтра» с главным айтишником из ПИКа.
Дом проектируется как цифровой объект, где каждая дверь и труба описана как сущность с кучей параметров. В 3Д это можно визуализировать как угодно по «слоям».
Проектирование дома — процесс на несколько лет.
Строительный процесс поставлен на поток: параллельно ищутся участки под стройку, происходит анализ доступных участков, на своих участках строятся дома, построенные дома продаются, а уже проданные — обслуживаются.
Отдельная тема выпуска — про введение подобных трансформаций в компании. Как исчезают рабочие места «операторов ввода информации в ЭВМ» и автоматизируется рутинная работа с подрядчиками. С кем-то договориться, других взять большинством, к иным «зайти сверху», с остальными — расстаться.
https://news.1rj.ru/str/ctodaily/1158
#data_podcast
послушал выпуск подкаста «запуск завтра» с главным айтишником из ПИКа.
Дом проектируется как цифровой объект, где каждая дверь и труба описана как сущность с кучей параметров. В 3Д это можно визуализировать как угодно по «слоям».
Проектирование дома — процесс на несколько лет.
Строительный процесс поставлен на поток: параллельно ищутся участки под стройку, происходит анализ доступных участков, на своих участках строятся дома, построенные дома продаются, а уже проданные — обслуживаются.
Отдельная тема выпуска — про введение подобных трансформаций в компании. Как исчезают рабочие места «операторов ввода информации в ЭВМ» и автоматизируется рутинная работа с подрядчиками. С кем-то договориться, других взять большинством, к иным «зайти сверху», с остальными — расстаться.
https://news.1rj.ru/str/ctodaily/1158
#data_podcast
Telegram
запуск завтра
Банки, такси и доставка продуктов давно живут в интернете, в этом нет ничего странного. Но то, сколько IT в современной стройке я не знал, пока не познакомился с Сережей Фуксманом.
Серёжа — вице-президент по информационным технологиям в группе компаний…
Серёжа — вице-президент по информационным технологиям в группе компаний…
Data Engineering в Яндекс Такси
посмотрел запись доклада Евгения Ермакова —архитектора Data Management Platform Яндекс. Делюсь заметками и слайдами.
Ссылка на видео и презентацию на сайте митапа
https://deordie.com/meetups/01/
#data_video
посмотрел запись доклада Евгения Ермакова —архитектора Data Management Platform Яндекс. Делюсь заметками и слайдами.
Ссылка на видео и презентацию на сайте митапа
https://deordie.com/meetups/01/
#data_video
DE or DIE
DE or DIE #1
DE or DIE – митап, сделанный дата инженерами для дата инженеров.