data будни
Какие дата инженеры бывают и чего от них все хотят? Запись доклада Николая Маркова с митапа DE or DIE Кого могут называть дата инженером в разных компаниях: ⁃ ETL разработчика (pandas, PostgreSQL etc.) ⁃ «оператора» Hadoop на Java ⁃ архитектора хранилищ…
Чо погамать?
отдельный слайд доклада Николая Маркова был посвещён играм для дата инженеров для прокачки системного мышления. Вот ссылки в Стим:
Factorio
https://store.steampowered.com/app/427520/Factorio/
TIS-100
https://store.steampowered.com/app/370360/TIS100/
MHRD
https://store.steampowered.com/app/576030/MHRD/
Human Resource Machine
https://store.steampowered.com/app/375820/Human_Resource_Machine/
Baba Is You
https://store.steampowered.com/app/736260/Baba_Is_You/
#data_engineering #games #friday
отдельный слайд доклада Николая Маркова был посвещён играм для дата инженеров для прокачки системного мышления. Вот ссылки в Стим:
Factorio
https://store.steampowered.com/app/427520/Factorio/
TIS-100
https://store.steampowered.com/app/370360/TIS100/
MHRD
https://store.steampowered.com/app/576030/MHRD/
Human Resource Machine
https://store.steampowered.com/app/375820/Human_Resource_Machine/
Baba Is You
https://store.steampowered.com/app/736260/Baba_Is_You/
#data_engineering #games #friday
Методы управления разработкой
В крупной компании команда несколько лет работала над продуктом. Когда его в итоге показали конечному заказчику, оказалось, что проект уже не нужен и его просто выбросили. Получается, много человек потратили много лет своей жизни впустую.
Так работает метод управления разработкой «водопад» (waterfall). Задачи идут последовательно одна за другой: два месяца на исследование, несколько лет на разработку, ещё сколько-то на внедрение. До самого конца заказчик ничего не видит — ему нужен только конечный результат.
Другой метод — аджайл. В Спотифай применяют как раз его: короткие итерации с ощутимым итогом после каждой — Spotify Model, развившееся в Spotify Rhythm.
из подкаста «Запуск завтра»
https://news.1rj.ru/str/ctodaily/1157
#data_podcast
В крупной компании команда несколько лет работала над продуктом. Когда его в итоге показали конечному заказчику, оказалось, что проект уже не нужен и его просто выбросили. Получается, много человек потратили много лет своей жизни впустую.
Так работает метод управления разработкой «водопад» (waterfall). Задачи идут последовательно одна за другой: два месяца на исследование, несколько лет на разработку, ещё сколько-то на внедрение. До самого конца заказчик ничего не видит — ему нужен только конечный результат.
Другой метод — аджайл. В Спотифай применяют как раз его: короткие итерации с ощутимым итогом после каждой — Spotify Model, развившееся в Spotify Rhythm.
из подкаста «Запуск завтра»
https://news.1rj.ru/str/ctodaily/1157
#data_podcast
Telegram
запуск завтра
Как управляют разработкой в самом популярном музыкальном сервисе в мире?
5 лет назад Spotify рассказали о своей системе управления разработкой, Spotify model. Сегодня о ней знает любой менеджер в IT, а многие положения из этой системы стали стандартами де…
5 лет назад Spotify рассказали о своей системе управления разработкой, Spotify model. Сегодня о ней знает любой менеджер в IT, а многие положения из этой системы стали стандартами де…
методы доступа к данным
задача: собрать данные из сервиса почтовых рассылок
вводные: вот личный кабинет, вот данные для доступа по API
сказано — сделано: написал скрипт, получил всех подписчиков и их данные. Ок.
Второй шаг — получить действия этих подписчиков (открытия, переходы по ссылкам, отписки).
С самими контактами всё просто: они подписываются не часто и только один раз; достаточно просто каждый день забирать из сервиса список новых.
А вот с активностями уже сложнее: тысячи подписывавшихся каждую неделю могут открыть, шернуть или отписаться. Получаются тысячи регулярных активностей.
Дальше — больше. Логика API не предусматривает отдельный фид для всех активностей: активности можно получить только по конкретному подписчику.
И вот я пыхчу и пишу скрипт с обходом всех айдишников, чтобы по каждому получить активности. Идёт не быстро, переодически упирается в какие-то ошибки, дописываю краевые условия для скрипта — код каждый раз усложняется. За день такого мурыжения я получаю 10к активностей.
В очередном помидорном перерыве пришла в голову идея спросить совета у старшего товарища. Он дал контакт в сервисе — пишу туда, объясняю ситуацию. Думаю, вдруг я просто не знаю как правильно использовать АПИ. Но там кивают, подтверждают что активности отдельно через АПИ не достать — так уж работает.
Угу. Понятно.
Но!
Могут прислать тупо выгрузку из своей базы по всем активностям. И потом каждый день присылать за прошлый. Вот вам доступ к папке на ФТП, там каждое утро будут появляться отчёты в .csv
Та-дам!
Итого: доступ в лоб «как сказали» — один день и 10К активностей. Проявил инициативу, зашёл сбоку — два часа и все активности с начала времён.
Зарубка себе на будущее:
1. задавать вопросы.
2. оценивать адекватность усилий к полученному результату.
3. делать паузы в работе (в них особенно удобно делать п.1 и п.2).
задача: собрать данные из сервиса почтовых рассылок
вводные: вот личный кабинет, вот данные для доступа по API
сказано — сделано: написал скрипт, получил всех подписчиков и их данные. Ок.
Второй шаг — получить действия этих подписчиков (открытия, переходы по ссылкам, отписки).
С самими контактами всё просто: они подписываются не часто и только один раз; достаточно просто каждый день забирать из сервиса список новых.
А вот с активностями уже сложнее: тысячи подписывавшихся каждую неделю могут открыть, шернуть или отписаться. Получаются тысячи регулярных активностей.
Дальше — больше. Логика API не предусматривает отдельный фид для всех активностей: активности можно получить только по конкретному подписчику.
И вот я пыхчу и пишу скрипт с обходом всех айдишников, чтобы по каждому получить активности. Идёт не быстро, переодически упирается в какие-то ошибки, дописываю краевые условия для скрипта — код каждый раз усложняется. За день такого мурыжения я получаю 10к активностей.
В очередном помидорном перерыве пришла в голову идея спросить совета у старшего товарища. Он дал контакт в сервисе — пишу туда, объясняю ситуацию. Думаю, вдруг я просто не знаю как правильно использовать АПИ. Но там кивают, подтверждают что активности отдельно через АПИ не достать — так уж работает.
Угу. Понятно.
Но!
Могут прислать тупо выгрузку из своей базы по всем активностям. И потом каждый день присылать за прошлый. Вот вам доступ к папке на ФТП, там каждое утро будут появляться отчёты в .csv
Та-дам!
Итого: доступ в лоб «как сказали» — один день и 10К активностей. Проявил инициативу, зашёл сбоку — два часа и все активности с начала времён.
Зарубка себе на будущее:
1. задавать вопросы.
2. оценивать адекватность усилий к полученному результату.
3. делать паузы в работе (в них особенно удобно делать п.1 и п.2).
АйТи в строительной компании ПИК
послушал выпуск подкаста «запуск завтра» с главным айтишником из ПИКа.
Дом проектируется как цифровой объект, где каждая дверь и труба описана как сущность с кучей параметров. В 3Д это можно визуализировать как угодно по «слоям».
Проектирование дома — процесс на несколько лет.
Строительный процесс поставлен на поток: параллельно ищутся участки под стройку, происходит анализ доступных участков, на своих участках строятся дома, построенные дома продаются, а уже проданные — обслуживаются.
Отдельная тема выпуска — про введение подобных трансформаций в компании. Как исчезают рабочие места «операторов ввода информации в ЭВМ» и автоматизируется рутинная работа с подрядчиками. С кем-то договориться, других взять большинством, к иным «зайти сверху», с остальными — расстаться.
https://news.1rj.ru/str/ctodaily/1158
#data_podcast
послушал выпуск подкаста «запуск завтра» с главным айтишником из ПИКа.
Дом проектируется как цифровой объект, где каждая дверь и труба описана как сущность с кучей параметров. В 3Д это можно визуализировать как угодно по «слоям».
Проектирование дома — процесс на несколько лет.
Строительный процесс поставлен на поток: параллельно ищутся участки под стройку, происходит анализ доступных участков, на своих участках строятся дома, построенные дома продаются, а уже проданные — обслуживаются.
Отдельная тема выпуска — про введение подобных трансформаций в компании. Как исчезают рабочие места «операторов ввода информации в ЭВМ» и автоматизируется рутинная работа с подрядчиками. С кем-то договориться, других взять большинством, к иным «зайти сверху», с остальными — расстаться.
https://news.1rj.ru/str/ctodaily/1158
#data_podcast
Telegram
запуск завтра
Банки, такси и доставка продуктов давно живут в интернете, в этом нет ничего странного. Но то, сколько IT в современной стройке я не знал, пока не познакомился с Сережей Фуксманом.
Серёжа — вице-президент по информационным технологиям в группе компаний…
Серёжа — вице-президент по информационным технологиям в группе компаний…
Data Engineering в Яндекс Такси
посмотрел запись доклада Евгения Ермакова —архитектора Data Management Platform Яндекс. Делюсь заметками и слайдами.
Ссылка на видео и презентацию на сайте митапа
https://deordie.com/meetups/01/
#data_video
посмотрел запись доклада Евгения Ермакова —архитектора Data Management Platform Яндекс. Делюсь заметками и слайдами.
Ссылка на видео и презентацию на сайте митапа
https://deordie.com/meetups/01/
#data_video
DE or DIE
DE or DIE #1
DE or DIE – митап, сделанный дата инженерами для дата инженеров.
Хранилище данных разделено на слои:
1. RAW — собрать всё, что даёт источник. Система сбора автоматизирована и нечувствительная к изменению доступных полей (кроме первичных ключей)
2. ODS — стандартизировать, привести к единому формату
3. DDS — сохранить и версионировать данные
4. CDM — предоставить доступы, витрины данных, оптимизация доступа (вход в данные для аналитиков)
5. REP — проанализировать; отчётные срезы.
1. RAW — собрать всё, что даёт источник. Система сбора автоматизирована и нечувствительная к изменению доступных полей (кроме первичных ключей)
2. ODS — стандартизировать, привести к единому формату
3. DDS — сохранить и версионировать данные
4. CDM — предоставить доступы, витрины данных, оптимизация доступа (вход в данные для аналитиков)
5. REP — проанализировать; отчётные срезы.
Подходы к проектированию:
1. Никакого — полная денормализация; неустойчиво к изменению.
2. Звезда и снежинка — нормализация; неудобно перестраивать
3. Data Vault — строгая нормализация
4. Anchor modeling — ультра нормализация (прим. как в Авито — https://news.1rj.ru/str/rockyourdata/1604)
1. Никакого — полная денормализация; неустойчиво к изменению.
2. Звезда и снежинка — нормализация; неудобно перестраивать
3. Data Vault — строгая нормализация
4. Anchor modeling — ультра нормализация (прим. как в Авито — https://news.1rj.ru/str/rockyourdata/1604)
люди и роли
между «бизнесом» и дата инженером есть «партнёр по данным» — по сути это проджект менеджер, который переводит с языка бизнеса на язык даных. А «под» дата инженером (ближе к ядру данных) есть разработчик платформы. Над всем этим стоит Архитектор — в данном случае это Евгений Ермаков.
между «бизнесом» и дата инженером есть «партнёр по данным» — по сути это проджект менеджер, который переводит с языка бизнеса на язык даных. А «под» дата инженером (ближе к ядру данных) есть разработчик платформы. Над всем этим стоит Архитектор — в данном случае это Евгений Ермаков.
Всё автоматизируется.
(Особенно мне сложно представить сбор данных, нечувствительный к изменению полей и последующий разбор этих [нестабильных] полей по объектам внутреннего хранилища)
Любой менеджер в Яндексе должен уметь «программировать» — при необходимости залезьть под капот и понять что там происходит.
(Особенно мне сложно представить сбор данных, нечувствительный к изменению полей и последующий разбор этих [нестабильных] полей по объектам внутреннего хранилища)
Любой менеджер в Яндексе должен уметь «программировать» — при необходимости залезьть под капот и понять что там происходит.
джуниор аналитик адаптируется в Авиасейлз практически в прямом эфире
https://news.1rj.ru/str/junioranalyst/23
Пишет про учёбу, поиск работы и теперь вот новую работу аналитиком в известной компании. А ещё интересные профильные ссылки.
https://news.1rj.ru/str/junioranalyst/23
Пишет про учёбу, поиск работы и теперь вот новую работу аналитиком в известной компании. А ещё интересные профильные ссылки.
Telegram
Главный инженер
Работа учит смирению.
С утра (ну как с утра, мой рабочий день сегодня начался почти в 12) пришёл запрос - посчитать сколько наших аффилиатов (пользователи ТП) зарегистрированы в экскурсионных офферах (компании, чьи услуги продвигают аффилиаты), и сколько…
С утра (ну как с утра, мой рабочий день сегодня начался почти в 12) пришёл запрос - посчитать сколько наших аффилиатов (пользователи ТП) зарегистрированы в экскурсионных офферах (компании, чьи услуги продвигают аффилиаты), и сколько…
Отличия ML и DS
Глеб Синяков — аналитик-разработчик в Тинькофф — обсудил с ребятами из Moscow Python разницу в названиях профессий.
⁃ почему специалистов по машинному обучению называют дата саентистами?
пошло от того, что 5 лет назад «дата саентист» умел только в математику. К нему приставляли отдельного разработчика — «переводчика на питон». Плюс к этому бэкэндера, который пытается из моделей делать продукт.
Постепенно всё пришло к тому, что весь спектр задач работы с данными надо уметь самому. Разделение ролей идёт на больших проектах и больших данных.
→ то есть не Data Scientist, а ML Engineer ←
- код в Jupyter notebooks — боль разработчика: сама среда располагает к беспорядочному коду, где даже думать не хочется о модульности и правильном коде.
Как бороться? Писать законченные изолированные модули в PyCharm и импортировать их в ноутбуки. И уже там открывать файлы и тестировать работу.
⁃ Как потом хранить эти ноутбуки в Git? Складывать всё в отдельную ветку и потом пушить одним жирным коммитом.
⁃ Минимальный продукт от ML инженера — это pip-install-ируемый модуль, чтобы любой другой человек мог его включить и запустить на своей машине.
Подкаст в iTunes и Overcast
#data_podcast
Глеб Синяков — аналитик-разработчик в Тинькофф — обсудил с ребятами из Moscow Python разницу в названиях профессий.
⁃ почему специалистов по машинному обучению называют дата саентистами?
пошло от того, что 5 лет назад «дата саентист» умел только в математику. К нему приставляли отдельного разработчика — «переводчика на питон». Плюс к этому бэкэндера, который пытается из моделей делать продукт.
Постепенно всё пришло к тому, что весь спектр задач работы с данными надо уметь самому. Разделение ролей идёт на больших проектах и больших данных.
→ то есть не Data Scientist, а ML Engineer ←
- код в Jupyter notebooks — боль разработчика: сама среда располагает к беспорядочному коду, где даже думать не хочется о модульности и правильном коде.
Как бороться? Писать законченные изолированные модули в PyCharm и импортировать их в ноутбуки. И уже там открывать файлы и тестировать работу.
⁃ Как потом хранить эти ноутбуки в Git? Складывать всё в отдельную ветку и потом пушить одним жирным коммитом.
⁃ Минимальный продукт от ML инженера — это pip-install-ируемый модуль, чтобы любой другой человек мог его включить и запустить на своей машине.
Подкаст в iTunes и Overcast
#data_podcast
Apple Podcasts
Moscow Python Podcast. Профессии в ML и DS (level: All)
Выпуск подкаста · Moscow Python: подкаст о Python на русском · 26.09.2020 · 40 мин.
Configuring Google Colab Like A Pro
Статья с говорящим за себя названием. Написали как сохранять файлы на свой Гугл Драйв, законнектить GitHub, запускать локальный Jupyter на ядрах Colab и даже настроить Телеграм-бот.
Полное содержание статьи:
- Make sure you don’t get disconnected
- Mount your drive for fast, responsible access to your datasets
- Use wget to download datasets to your drive
- Use Gdown to grab publicly available Google Drive files
- The best way to connect your Github
- Remote in through VSCode using SSH and ngrok
- How to Forward Ports from Colab to your computer
- Run Tensorboard in Colab or in the browser
- Run a Jupyter Notebook server on Colab and access it locally
- Use fastprogress when your code will take a while
- Setup a telegram bot to update you during setup and training
- Some paid addons worth considering
- Addendum and Extras
https://medium.com/@robertbracco1/configuring-google-colab-like-a-pro-d61c253f7573
Статья с говорящим за себя названием. Написали как сохранять файлы на свой Гугл Драйв, законнектить GitHub, запускать локальный Jupyter на ядрах Colab и даже настроить Телеграм-бот.
Полное содержание статьи:
- Make sure you don’t get disconnected
- Mount your drive for fast, responsible access to your datasets
- Use wget to download datasets to your drive
- Use Gdown to grab publicly available Google Drive files
- The best way to connect your Github
- Remote in through VSCode using SSH and ngrok
- How to Forward Ports from Colab to your computer
- Run Tensorboard in Colab or in the browser
- Run a Jupyter Notebook server on Colab and access it locally
- Use fastprogress when your code will take a while
- Setup a telegram bot to update you during setup and training
- Some paid addons worth considering
- Addendum and Extras
https://medium.com/@robertbracco1/configuring-google-colab-like-a-pro-d61c253f7573
Medium
Configuring Google Colab Like A Pro
How to Do Research Quality Machine Learning on a Budget
#data_podcast
⁃ Запуск Завтра с Давидом Яном (ABBY, Yva)
от создания словаря для перевода в 1989 году до создания автономного дома со своим сознанием. Где-то между этим был Fine Reader, ABBY и сервис для прогнозирования выгорания сотрудников по переписке
⁃ Habr Special с Виктором Кантор, МТС
что такое биг дата, кто её может применять и что она умеет
⁃ Data Alone Is Not Enough: The Evolution of Data Architectures — a16z венчурные инвесторы из долины обсуждают в общих чертах историю и подходы работы с данными
⁃ The Rise of the Analytics Engineer with Claire Carroll
сложно быть «просто» аналитиком, когда постоянно очищать данные и приводить их к единому формату. Так появляется профессия Analytics Engineer (это не ещё одно название Data Engineer — это другое)
⁃ Запуск Завтра с Давидом Яном (ABBY, Yva)
от создания словаря для перевода в 1989 году до создания автономного дома со своим сознанием. Где-то между этим был Fine Reader, ABBY и сервис для прогнозирования выгорания сотрудников по переписке
⁃ Habr Special с Виктором Кантор, МТС
что такое биг дата, кто её может применять и что она умеет
⁃ Data Alone Is Not Enough: The Evolution of Data Architectures — a16z венчурные инвесторы из долины обсуждают в общих чертах историю и подходы работы с данными
⁃ The Rise of the Analytics Engineer with Claire Carroll
сложно быть «просто» аналитиком, когда постоянно очищать данные и приводить их к единому формату. Так появляется профессия Analytics Engineer (это не ещё одно название Data Engineer — это другое)
Apple Podcasts
Как искусственный интеллект предсказывает поведение людей, экономит бизнесу миллионы долларов и заменяет нам домашних животных
Выпуск подкаста · Запуск завтра · 22.10.2020 · 56 мин.
Матемаркетинг 2020 — главная конференция по аналитике и данным
в 2019 году я учился на аналитика и посмотрел, наверное, все релевантные записи с Матемаркетинга 2018.
Хотел в том году пойти вживую, даже почти купил билет, но потом как-то постеснялся заявляться туда простым студентом без опыта :-)
Тогда придумал себе «бонус» — с первой зарплаты по новой профессии аналитика обязательно куплю себе билет на следующий Матемаркетинг. Таким образом, в марте 2020 года я оказался обладателем билета на конференцию в ноябре.
С тех пор много что поменялось: конференция теперь в онлайне и растянулась на всю неделю; а главное — в программе появился целый день по Data Engineering. Осталось понять, как смотреть 4 потока лекций одновременно)
Ребята сделали свою платформу с лекциями внутри — все лекции прошлых годов уже там.
Присоединяйтесь.
https://matemarketing.ru/
в 2019 году я учился на аналитика и посмотрел, наверное, все релевантные записи с Матемаркетинга 2018.
Хотел в том году пойти вживую, даже почти купил билет, но потом как-то постеснялся заявляться туда простым студентом без опыта :-)
Тогда придумал себе «бонус» — с первой зарплаты по новой профессии аналитика обязательно куплю себе билет на следующий Матемаркетинг. Таким образом, в марте 2020 года я оказался обладателем билета на конференцию в ноябре.
С тех пор много что поменялось: конференция теперь в онлайне и растянулась на всю неделю; а главное — в программе появился целый день по Data Engineering. Осталось понять, как смотреть 4 потока лекций одновременно)
Ребята сделали свою платформу с лекциями внутри — все лекции прошлых годов уже там.
Присоединяйтесь.
https://matemarketing.ru/
matemarketing.ru
MM’25 — Конференция для аналитиков, performance-маркетологов и product-менеджеров
Крупнейшая конференция по маркетинговой и продуктовой аналитике в России, СНГ и Восточной Европе. Даты: 20–21 ноября 2025, онлайн-день — 11 ноября.