методы доступа к данным
задача: собрать данные из сервиса почтовых рассылок
вводные: вот личный кабинет, вот данные для доступа по API
сказано — сделано: написал скрипт, получил всех подписчиков и их данные. Ок.
Второй шаг — получить действия этих подписчиков (открытия, переходы по ссылкам, отписки).
С самими контактами всё просто: они подписываются не часто и только один раз; достаточно просто каждый день забирать из сервиса список новых.
А вот с активностями уже сложнее: тысячи подписывавшихся каждую неделю могут открыть, шернуть или отписаться. Получаются тысячи регулярных активностей.
Дальше — больше. Логика API не предусматривает отдельный фид для всех активностей: активности можно получить только по конкретному подписчику.
И вот я пыхчу и пишу скрипт с обходом всех айдишников, чтобы по каждому получить активности. Идёт не быстро, переодически упирается в какие-то ошибки, дописываю краевые условия для скрипта — код каждый раз усложняется. За день такого мурыжения я получаю 10к активностей.
В очередном помидорном перерыве пришла в голову идея спросить совета у старшего товарища. Он дал контакт в сервисе — пишу туда, объясняю ситуацию. Думаю, вдруг я просто не знаю как правильно использовать АПИ. Но там кивают, подтверждают что активности отдельно через АПИ не достать — так уж работает.
Угу. Понятно.
Но!
Могут прислать тупо выгрузку из своей базы по всем активностям. И потом каждый день присылать за прошлый. Вот вам доступ к папке на ФТП, там каждое утро будут появляться отчёты в .csv
Та-дам!
Итого: доступ в лоб «как сказали» — один день и 10К активностей. Проявил инициативу, зашёл сбоку — два часа и все активности с начала времён.
Зарубка себе на будущее:
1. задавать вопросы.
2. оценивать адекватность усилий к полученному результату.
3. делать паузы в работе (в них особенно удобно делать п.1 и п.2).
задача: собрать данные из сервиса почтовых рассылок
вводные: вот личный кабинет, вот данные для доступа по API
сказано — сделано: написал скрипт, получил всех подписчиков и их данные. Ок.
Второй шаг — получить действия этих подписчиков (открытия, переходы по ссылкам, отписки).
С самими контактами всё просто: они подписываются не часто и только один раз; достаточно просто каждый день забирать из сервиса список новых.
А вот с активностями уже сложнее: тысячи подписывавшихся каждую неделю могут открыть, шернуть или отписаться. Получаются тысячи регулярных активностей.
Дальше — больше. Логика API не предусматривает отдельный фид для всех активностей: активности можно получить только по конкретному подписчику.
И вот я пыхчу и пишу скрипт с обходом всех айдишников, чтобы по каждому получить активности. Идёт не быстро, переодически упирается в какие-то ошибки, дописываю краевые условия для скрипта — код каждый раз усложняется. За день такого мурыжения я получаю 10к активностей.
В очередном помидорном перерыве пришла в голову идея спросить совета у старшего товарища. Он дал контакт в сервисе — пишу туда, объясняю ситуацию. Думаю, вдруг я просто не знаю как правильно использовать АПИ. Но там кивают, подтверждают что активности отдельно через АПИ не достать — так уж работает.
Угу. Понятно.
Но!
Могут прислать тупо выгрузку из своей базы по всем активностям. И потом каждый день присылать за прошлый. Вот вам доступ к папке на ФТП, там каждое утро будут появляться отчёты в .csv
Та-дам!
Итого: доступ в лоб «как сказали» — один день и 10К активностей. Проявил инициативу, зашёл сбоку — два часа и все активности с начала времён.
Зарубка себе на будущее:
1. задавать вопросы.
2. оценивать адекватность усилий к полученному результату.
3. делать паузы в работе (в них особенно удобно делать п.1 и п.2).
АйТи в строительной компании ПИК
послушал выпуск подкаста «запуск завтра» с главным айтишником из ПИКа.
Дом проектируется как цифровой объект, где каждая дверь и труба описана как сущность с кучей параметров. В 3Д это можно визуализировать как угодно по «слоям».
Проектирование дома — процесс на несколько лет.
Строительный процесс поставлен на поток: параллельно ищутся участки под стройку, происходит анализ доступных участков, на своих участках строятся дома, построенные дома продаются, а уже проданные — обслуживаются.
Отдельная тема выпуска — про введение подобных трансформаций в компании. Как исчезают рабочие места «операторов ввода информации в ЭВМ» и автоматизируется рутинная работа с подрядчиками. С кем-то договориться, других взять большинством, к иным «зайти сверху», с остальными — расстаться.
https://news.1rj.ru/str/ctodaily/1158
#data_podcast
послушал выпуск подкаста «запуск завтра» с главным айтишником из ПИКа.
Дом проектируется как цифровой объект, где каждая дверь и труба описана как сущность с кучей параметров. В 3Д это можно визуализировать как угодно по «слоям».
Проектирование дома — процесс на несколько лет.
Строительный процесс поставлен на поток: параллельно ищутся участки под стройку, происходит анализ доступных участков, на своих участках строятся дома, построенные дома продаются, а уже проданные — обслуживаются.
Отдельная тема выпуска — про введение подобных трансформаций в компании. Как исчезают рабочие места «операторов ввода информации в ЭВМ» и автоматизируется рутинная работа с подрядчиками. С кем-то договориться, других взять большинством, к иным «зайти сверху», с остальными — расстаться.
https://news.1rj.ru/str/ctodaily/1158
#data_podcast
Telegram
запуск завтра
Банки, такси и доставка продуктов давно живут в интернете, в этом нет ничего странного. Но то, сколько IT в современной стройке я не знал, пока не познакомился с Сережей Фуксманом.
Серёжа — вице-президент по информационным технологиям в группе компаний…
Серёжа — вице-президент по информационным технологиям в группе компаний…
Data Engineering в Яндекс Такси
посмотрел запись доклада Евгения Ермакова —архитектора Data Management Platform Яндекс. Делюсь заметками и слайдами.
Ссылка на видео и презентацию на сайте митапа
https://deordie.com/meetups/01/
#data_video
посмотрел запись доклада Евгения Ермакова —архитектора Data Management Platform Яндекс. Делюсь заметками и слайдами.
Ссылка на видео и презентацию на сайте митапа
https://deordie.com/meetups/01/
#data_video
DE or DIE
DE or DIE #1
DE or DIE – митап, сделанный дата инженерами для дата инженеров.
Хранилище данных разделено на слои:
1. RAW — собрать всё, что даёт источник. Система сбора автоматизирована и нечувствительная к изменению доступных полей (кроме первичных ключей)
2. ODS — стандартизировать, привести к единому формату
3. DDS — сохранить и версионировать данные
4. CDM — предоставить доступы, витрины данных, оптимизация доступа (вход в данные для аналитиков)
5. REP — проанализировать; отчётные срезы.
1. RAW — собрать всё, что даёт источник. Система сбора автоматизирована и нечувствительная к изменению доступных полей (кроме первичных ключей)
2. ODS — стандартизировать, привести к единому формату
3. DDS — сохранить и версионировать данные
4. CDM — предоставить доступы, витрины данных, оптимизация доступа (вход в данные для аналитиков)
5. REP — проанализировать; отчётные срезы.
Подходы к проектированию:
1. Никакого — полная денормализация; неустойчиво к изменению.
2. Звезда и снежинка — нормализация; неудобно перестраивать
3. Data Vault — строгая нормализация
4. Anchor modeling — ультра нормализация (прим. как в Авито — https://news.1rj.ru/str/rockyourdata/1604)
1. Никакого — полная денормализация; неустойчиво к изменению.
2. Звезда и снежинка — нормализация; неудобно перестраивать
3. Data Vault — строгая нормализация
4. Anchor modeling — ультра нормализация (прим. как в Авито — https://news.1rj.ru/str/rockyourdata/1604)
люди и роли
между «бизнесом» и дата инженером есть «партнёр по данным» — по сути это проджект менеджер, который переводит с языка бизнеса на язык даных. А «под» дата инженером (ближе к ядру данных) есть разработчик платформы. Над всем этим стоит Архитектор — в данном случае это Евгений Ермаков.
между «бизнесом» и дата инженером есть «партнёр по данным» — по сути это проджект менеджер, который переводит с языка бизнеса на язык даных. А «под» дата инженером (ближе к ядру данных) есть разработчик платформы. Над всем этим стоит Архитектор — в данном случае это Евгений Ермаков.
Всё автоматизируется.
(Особенно мне сложно представить сбор данных, нечувствительный к изменению полей и последующий разбор этих [нестабильных] полей по объектам внутреннего хранилища)
Любой менеджер в Яндексе должен уметь «программировать» — при необходимости залезьть под капот и понять что там происходит.
(Особенно мне сложно представить сбор данных, нечувствительный к изменению полей и последующий разбор этих [нестабильных] полей по объектам внутреннего хранилища)
Любой менеджер в Яндексе должен уметь «программировать» — при необходимости залезьть под капот и понять что там происходит.
джуниор аналитик адаптируется в Авиасейлз практически в прямом эфире
https://news.1rj.ru/str/junioranalyst/23
Пишет про учёбу, поиск работы и теперь вот новую работу аналитиком в известной компании. А ещё интересные профильные ссылки.
https://news.1rj.ru/str/junioranalyst/23
Пишет про учёбу, поиск работы и теперь вот новую работу аналитиком в известной компании. А ещё интересные профильные ссылки.
Telegram
Главный инженер
Работа учит смирению.
С утра (ну как с утра, мой рабочий день сегодня начался почти в 12) пришёл запрос - посчитать сколько наших аффилиатов (пользователи ТП) зарегистрированы в экскурсионных офферах (компании, чьи услуги продвигают аффилиаты), и сколько…
С утра (ну как с утра, мой рабочий день сегодня начался почти в 12) пришёл запрос - посчитать сколько наших аффилиатов (пользователи ТП) зарегистрированы в экскурсионных офферах (компании, чьи услуги продвигают аффилиаты), и сколько…
Отличия ML и DS
Глеб Синяков — аналитик-разработчик в Тинькофф — обсудил с ребятами из Moscow Python разницу в названиях профессий.
⁃ почему специалистов по машинному обучению называют дата саентистами?
пошло от того, что 5 лет назад «дата саентист» умел только в математику. К нему приставляли отдельного разработчика — «переводчика на питон». Плюс к этому бэкэндера, который пытается из моделей делать продукт.
Постепенно всё пришло к тому, что весь спектр задач работы с данными надо уметь самому. Разделение ролей идёт на больших проектах и больших данных.
→ то есть не Data Scientist, а ML Engineer ←
- код в Jupyter notebooks — боль разработчика: сама среда располагает к беспорядочному коду, где даже думать не хочется о модульности и правильном коде.
Как бороться? Писать законченные изолированные модули в PyCharm и импортировать их в ноутбуки. И уже там открывать файлы и тестировать работу.
⁃ Как потом хранить эти ноутбуки в Git? Складывать всё в отдельную ветку и потом пушить одним жирным коммитом.
⁃ Минимальный продукт от ML инженера — это pip-install-ируемый модуль, чтобы любой другой человек мог его включить и запустить на своей машине.
Подкаст в iTunes и Overcast
#data_podcast
Глеб Синяков — аналитик-разработчик в Тинькофф — обсудил с ребятами из Moscow Python разницу в названиях профессий.
⁃ почему специалистов по машинному обучению называют дата саентистами?
пошло от того, что 5 лет назад «дата саентист» умел только в математику. К нему приставляли отдельного разработчика — «переводчика на питон». Плюс к этому бэкэндера, который пытается из моделей делать продукт.
Постепенно всё пришло к тому, что весь спектр задач работы с данными надо уметь самому. Разделение ролей идёт на больших проектах и больших данных.
→ то есть не Data Scientist, а ML Engineer ←
- код в Jupyter notebooks — боль разработчика: сама среда располагает к беспорядочному коду, где даже думать не хочется о модульности и правильном коде.
Как бороться? Писать законченные изолированные модули в PyCharm и импортировать их в ноутбуки. И уже там открывать файлы и тестировать работу.
⁃ Как потом хранить эти ноутбуки в Git? Складывать всё в отдельную ветку и потом пушить одним жирным коммитом.
⁃ Минимальный продукт от ML инженера — это pip-install-ируемый модуль, чтобы любой другой человек мог его включить и запустить на своей машине.
Подкаст в iTunes и Overcast
#data_podcast
Apple Podcasts
Moscow Python Podcast. Профессии в ML и DS (level: All)
Выпуск подкаста · Moscow Python: подкаст о Python на русском · 26.09.2020 · 40 мин.
Configuring Google Colab Like A Pro
Статья с говорящим за себя названием. Написали как сохранять файлы на свой Гугл Драйв, законнектить GitHub, запускать локальный Jupyter на ядрах Colab и даже настроить Телеграм-бот.
Полное содержание статьи:
- Make sure you don’t get disconnected
- Mount your drive for fast, responsible access to your datasets
- Use wget to download datasets to your drive
- Use Gdown to grab publicly available Google Drive files
- The best way to connect your Github
- Remote in through VSCode using SSH and ngrok
- How to Forward Ports from Colab to your computer
- Run Tensorboard in Colab or in the browser
- Run a Jupyter Notebook server on Colab and access it locally
- Use fastprogress when your code will take a while
- Setup a telegram bot to update you during setup and training
- Some paid addons worth considering
- Addendum and Extras
https://medium.com/@robertbracco1/configuring-google-colab-like-a-pro-d61c253f7573
Статья с говорящим за себя названием. Написали как сохранять файлы на свой Гугл Драйв, законнектить GitHub, запускать локальный Jupyter на ядрах Colab и даже настроить Телеграм-бот.
Полное содержание статьи:
- Make sure you don’t get disconnected
- Mount your drive for fast, responsible access to your datasets
- Use wget to download datasets to your drive
- Use Gdown to grab publicly available Google Drive files
- The best way to connect your Github
- Remote in through VSCode using SSH and ngrok
- How to Forward Ports from Colab to your computer
- Run Tensorboard in Colab or in the browser
- Run a Jupyter Notebook server on Colab and access it locally
- Use fastprogress when your code will take a while
- Setup a telegram bot to update you during setup and training
- Some paid addons worth considering
- Addendum and Extras
https://medium.com/@robertbracco1/configuring-google-colab-like-a-pro-d61c253f7573
Medium
Configuring Google Colab Like A Pro
How to Do Research Quality Machine Learning on a Budget
#data_podcast
⁃ Запуск Завтра с Давидом Яном (ABBY, Yva)
от создания словаря для перевода в 1989 году до создания автономного дома со своим сознанием. Где-то между этим был Fine Reader, ABBY и сервис для прогнозирования выгорания сотрудников по переписке
⁃ Habr Special с Виктором Кантор, МТС
что такое биг дата, кто её может применять и что она умеет
⁃ Data Alone Is Not Enough: The Evolution of Data Architectures — a16z венчурные инвесторы из долины обсуждают в общих чертах историю и подходы работы с данными
⁃ The Rise of the Analytics Engineer with Claire Carroll
сложно быть «просто» аналитиком, когда постоянно очищать данные и приводить их к единому формату. Так появляется профессия Analytics Engineer (это не ещё одно название Data Engineer — это другое)
⁃ Запуск Завтра с Давидом Яном (ABBY, Yva)
от создания словаря для перевода в 1989 году до создания автономного дома со своим сознанием. Где-то между этим был Fine Reader, ABBY и сервис для прогнозирования выгорания сотрудников по переписке
⁃ Habr Special с Виктором Кантор, МТС
что такое биг дата, кто её может применять и что она умеет
⁃ Data Alone Is Not Enough: The Evolution of Data Architectures — a16z венчурные инвесторы из долины обсуждают в общих чертах историю и подходы работы с данными
⁃ The Rise of the Analytics Engineer with Claire Carroll
сложно быть «просто» аналитиком, когда постоянно очищать данные и приводить их к единому формату. Так появляется профессия Analytics Engineer (это не ещё одно название Data Engineer — это другое)
Apple Podcasts
Как искусственный интеллект предсказывает поведение людей, экономит бизнесу миллионы долларов и заменяет нам домашних животных
Выпуск подкаста · Запуск завтра · 22.10.2020 · 56 мин.
Матемаркетинг 2020 — главная конференция по аналитике и данным
в 2019 году я учился на аналитика и посмотрел, наверное, все релевантные записи с Матемаркетинга 2018.
Хотел в том году пойти вживую, даже почти купил билет, но потом как-то постеснялся заявляться туда простым студентом без опыта :-)
Тогда придумал себе «бонус» — с первой зарплаты по новой профессии аналитика обязательно куплю себе билет на следующий Матемаркетинг. Таким образом, в марте 2020 года я оказался обладателем билета на конференцию в ноябре.
С тех пор много что поменялось: конференция теперь в онлайне и растянулась на всю неделю; а главное — в программе появился целый день по Data Engineering. Осталось понять, как смотреть 4 потока лекций одновременно)
Ребята сделали свою платформу с лекциями внутри — все лекции прошлых годов уже там.
Присоединяйтесь.
https://matemarketing.ru/
в 2019 году я учился на аналитика и посмотрел, наверное, все релевантные записи с Матемаркетинга 2018.
Хотел в том году пойти вживую, даже почти купил билет, но потом как-то постеснялся заявляться туда простым студентом без опыта :-)
Тогда придумал себе «бонус» — с первой зарплаты по новой профессии аналитика обязательно куплю себе билет на следующий Матемаркетинг. Таким образом, в марте 2020 года я оказался обладателем билета на конференцию в ноябре.
С тех пор много что поменялось: конференция теперь в онлайне и растянулась на всю неделю; а главное — в программе появился целый день по Data Engineering. Осталось понять, как смотреть 4 потока лекций одновременно)
Ребята сделали свою платформу с лекциями внутри — все лекции прошлых годов уже там.
Присоединяйтесь.
https://matemarketing.ru/
matemarketing.ru
MM’25 — Конференция для аналитиков, performance-маркетологов и product-менеджеров
Крупнейшая конференция по маркетинговой и продуктовой аналитике в России, СНГ и Восточной Европе. Даты: 20–21 ноября 2025, онлайн-день — 11 ноября.
Х5 запустили школу аналитиков
… или «13 коллег Валерия Бабушкина»
13 — количество преподавателей из числа сотрудников Х5.
Продолжительность 8-9 месяцев.
Школа будет «бутиковая» — один поток за раз, без паралельных потоков с запуском каждый месяц.
В таком формате смогут обучаться 40 студентов.
Для поступления нужной пройти тест и собеседование. Лучших возьмут работать в Х5.
Программа курса:
- пайтон вводный и продвинутый
- SQL
- EDA
- статистика, А/В тесты
- машин лернинг
- математика (1.5 месяца)
- визуализация
- DevOps
- Git
- Контенеризация
- бенчамаркинг архитектуры
Весёлая непринуждённая беседа преподавателей в честь запуска
https://www.youtube.com/watch?v=hK6lXL52Qpo&feature=share
… или «13 коллег Валерия Бабушкина»
13 — количество преподавателей из числа сотрудников Х5.
Продолжительность 8-9 месяцев.
Школа будет «бутиковая» — один поток за раз, без паралельных потоков с запуском каждый месяц.
В таком формате смогут обучаться 40 студентов.
Для поступления нужной пройти тест и собеседование. Лучших возьмут работать в Х5.
Программа курса:
- пайтон вводный и продвинутый
- SQL
- EDA
- статистика, А/В тесты
- машин лернинг
- математика (1.5 месяца)
- визуализация
- DevOps
- Git
- Контенеризация
- бенчамаркинг архитектуры
Весёлая непринуждённая беседа преподавателей в честь запуска
https://www.youtube.com/watch?v=hK6lXL52Qpo&feature=share
YouTube
Зачем мы запустили Школу аналитиков данных и как проходит обучение
Школа аналитиков — это восьмимесячная программа подготовки специалиста, готового работать как у нас, так и в любой другой компании на рынке: от Python и SQL через математику и статистику к машинному обучению и технологиям работы с большими данными.
Подробности:…
Подробности:…
Forwarded from Интернет-аналитика // Алексей Никушин (Veronica Gardash)
📌Ключевые темы сегодняшнего дня:
Алексей Чернобровов - Как архитектура DWH влияет на Data Quality
Петр Ермаков, Lamoda - Open Source BI: почему стоит выбрать Apache Superset
Сергей Галактионов, JetStat - Как маркетологу настроить и автоматизировать отчетность когда нет аналитика
Николай Валиотти, Valiotti Analytics - Современный облачный Data Stack
Роман Бунин, Яндекс.Go - Развитие BI-системы компании с помощью продуктовых подходов
Екатерина Колпакова, Head of DWH Ситимобил - Хочешь построить DWH? Спроси меня как!
Яна Манухина и Алексей Ростоцкий, Bookmate - Как устроить архитектуру DWH и контролировать изменения в ней
Начало в 11:00⏰
FREE: matemarketing.ru
FULL: https://lms.matemarketing.ru
@internetanalytics
Алексей Чернобровов - Как архитектура DWH влияет на Data Quality
Петр Ермаков, Lamoda - Open Source BI: почему стоит выбрать Apache Superset
Сергей Галактионов, JetStat - Как маркетологу настроить и автоматизировать отчетность когда нет аналитика
Николай Валиотти, Valiotti Analytics - Современный облачный Data Stack
Роман Бунин, Яндекс.Go - Развитие BI-системы компании с помощью продуктовых подходов
Екатерина Колпакова, Head of DWH Ситимобил - Хочешь построить DWH? Спроси меня как!
Яна Манухина и Алексей Ростоцкий, Bookmate - Как устроить архитектуру DWH и контролировать изменения в ней
Начало в 11:00⏰
FREE: matemarketing.ru
FULL: https://lms.matemarketing.ru
@internetanalytics
бесплатная трансляция на ютубе
https://www.youtube.com/watch?v=BPgcKYzgFEQ
https://www.youtube.com/watch?v=BPgcKYzgFEQ
YouTube
Матемаркетинг - День 4
data будни
бесплатная трансляция на ютубе https://www.youtube.com/watch?v=BPgcKYzgFEQ
через 3 минуты там будет лекция Ромы Бунина
Роман Бунин, Яндекс.Go - Развитие BI-системы компании с помощью продуктовых подходов
Роман Бунин, Яндекс.Go - Развитие BI-системы компании с помощью продуктовых подходов