🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Хехе, я прошляпил тут. Уже сегодня в 18-30.

У ребят уже 6 митап будет. Очень хочу послушать про Greate Expectations ибо пайплайны строить все научились и DQ сейчас - одна из основных проблем.
Forwarded from Citymobil Tech
🚨25 января в 18:30 у нас пройдет онлайн Citymobil Data Meetup #6.

Олег Стрельников из Ситимобил расскажет, как выбирали фреймворк для DataQuality, что от него ждали и почему остановились на GreatExpectations. Покажет, как встроили его в архитектуру DWH, с какими проблемами столкнулись и как их побороли.
Максим Шевченко из MTS BigData расскажет про интересный и одновременно простой способ проверки некоторых гипотез валидности таргетинга в наружной рекламе и о том, как его можно использовать в других реальных задачах.

🗓Расписание:
👉18:30 - 18:40 – Вступительное слово
Алексей Чернобровов | Head of Data Science | Ситимобил
👉18:40 - 19:10 – Как мы качество данных проверяем
Олег Стрельников | Руководитель команды Data Quality | Ситимобил
👉19:10 – 19:40 – Проверка гипотезы валидности таргетинга в наружной рекламе
👉Максим Шевченко | Ведущий ML разработчик | MTS BigData
19:40 – 20:10 – Дискуссия со спикерами.

Участие бесплатное.

РЕГИСТРАЦИЯ.

Ждем вас!
Ребята, привет!
Тут понял, что хочется написать большой, качественный материал в виде обзора и гайда на какой-нибудь фреймворк / тулзу из мира инженерии данных. 👷

Ибо качественных материалов на русском мало, мне хочется нанести пользу и причинить добро, а вот фигачить контент ради контента не хочется. Не делать же очередное видео на тему: «Junior / Middle / Senior. В чем разница?» (😆 pun intended).

Поэтому нужна ваша помощь! У меня есть наброски для пары тем, но вы можете посоветовать что-нибудь в комментариях)
Какая тема вам более интересна?
anonymous poll

dbt – 90
👍👍👍👍👍👍👍 57%

Trino (оно же Presto) – 38
👍👍👍 24%

Prefect – 23
👍👍 15%

Другое (напишите в комментариях) – 7
👍 4%

👥 158 people voted so far.
В прошлых сериях: я написал заметку о том, что в современном потоке контента, который генерирует интернет становится очень сложно понимать, где что-то новое, полезное и интересное, а где - набор булшита и баззвордов. К сожалению, автор удалил статью и нам не удалось подискутировать.

Но ничего, я принес новое)
https://techcrunch.com/2022/02/09/census-confirms-it-has-raised-a-60m-series-b-on-630m-valuation

Итак, из заголовка видно, что очередной data стартап поднял 60 миллионов на раунде при оценке в 630 миллионов. Что можно прочитать про этот стартап?
“А startup building a data layer between business operations and a company’s data warehouse”

Ничего не понятно, но очень интересно. Почитаем дальше..

CEO Boris Jabes said that from the start he wanted to build something that would allow mostly nontechnical users to build queries that made sense to them and get back data that would help them do their jobs without a middleman driving that access.
Мне казалось, что все кто хоть как-то касается данных, знает SQL, а если нет (какой-нибудь CEO), то все отчеты и данные сделают для него.


Business operations people can pull data from various sources based on data types and build a kind of application to deliver that data to them.
Еще одна тулза в итак набитом до отказа modern data stack? Сколько уже таких, подключашек?


The company reports it has now raised over $80 million, including a $4.3 million seed in 2020 and a $16 million A round in 2021.
80 миллионов, за 2 года, команда в 40 человек и интерес от инвесторов из A-list (ну типа крутых и умных).


Что я не понимаю, чего понимают они?
Это ведь очередная тулза, которая призвана remove the middleman, но на самом деле она становится им. Неужели эти все инвестиции ради игры “вдруг выйдем на IPO и акции выростут или кто-нибудь купит, мы окешимся”?
Это и так красный океан уже (модное слово из биздева), куда еще то?
Вот и сидишь, как с NFT (я не могу отпустить эту шутку, да😁): понимаешь, что вроде бы это бред и истерия с обезьянами, но надо бы потрогать, вдруг за этим будущее, которое оставит тебя без работы?

Сам стартап - https://www.getcensus.com/
Искренне не понимаю, поясните в комментариях, чем это будет полезно пользователю и компании. Как среди этого всего не упустить следующий dbt? Или просто не переживать, хорошие инструменты набирают популярность и ты узнаешь про них естественным путем?
👍1
Ребята из Тинькофф на своем недавнем митапе IT's Tinkoff Data Meetup говорили про устройство и процессы Data warehouse, а так же про инструменты в Data Governance.
Две темы:
- Data Governance в Тинькофф
- Подходы к внедрению платформы управления данными в крупной компании

https://meetup.tinkoff.ru/event/tinkoff-data-meetup/
Записи презентаций и слайды по ссылке выше.
Да, трудное и очень дурацкое время, мы все все понимаем. Но все же…

Ребята из CityMobil проводят очередной Data Meetup.

Темы снова две:

- Сбор и валидация субъективных данных на примере заказов по пути домой

- Антифрод на рынке такси. Определение мошеннических действий через анализ связности графа поездок

Регистрация доступна по ссылке тут
Так, среди всех новостных подписок и ресурсов мне очень нравится The Pragmatic Engineer. Это тот самый, который про 3-modal компании (tier 1, tier 2, tier 3) популярный пост писал и видео снимал.
У него очень много полезного материала в его рассылке, и часть из них платная. Подписка стоит $15 в месяц (12, если платить за год сразу), но если ему написать на почту hello at pragmaticengineer dot com, чесно признаться, что вы из России, то можно получить скидку в 55%.
Вот такой вот хороший оффер! Подписку честно советую!

Можете в письме мягко упомянуть “Hello from Simon” =)
Всем привет!
С 28 числа в этом канале не было сообщений. Сами знаете почему.
Тут недавно в твиттере проскакивало две фразы, которые мне сильно зацепились.

“Ребята, если хотите сохранить кукуху - найдите для себя свой, личный способ выхода энергии. Нестерпимая ситуация рождает боль, боль рождает желание её уменьшить.“

и

"Может ли булочник печь булки во время войны?".

Так вот, у меня есть продолжить желание писать сюда в канал. Мне нужен этот выход энергии.
Странно, конечно, спрашивать “А вы не против, если я продолжу писать сюда?”, ведь это мой канал 😁

Но я понимаю, что есть люди, которые могут не разделить мою позицию, мол “Почему ты продолжаешь писать про айтишку, когда идет специальная военная операция война?”
Наша жизнь продолжается, в каком-то новом измерении, и в этом измерении я все еще хочу быть дата инженером и заниматься своими любимыми вещами. Поэтому я хочу продолжить писать про DE и вокруг.

Поэтому если вы не разделяет мою позицию по прекращению тишины в канале, сейчас самое время отписаться. Я буду скучать по вам, я люблю каждого своего подписчика.

Если вам есть что сказать, приходите в комментарии, там можно меня даже послать куда подальше за такое, никаких репрессий за это не будет =)
Страшные ужасы вендор-лока.
Например, Vertica запретила скачивать драйверы со своего сайта всем, кто заходит с Российского IP.
Конечно, VPN решает проблему, но кто знает, что будет дальше…
🔥1
https://drecon.org/

Открылась регистрация (бесплатная) на очередной Дрекон, кхе-кхе)

Темы, правда, пока не известны…
👍1
Стабильно, несколько раз в неделю мне пишут с запросом на рекламу и денег предлагают.
Но нет, в этом канале платной рекламы не будет никогда, а если я закидываю какую-то ссылку, то это потому, что у меня у самого возник к этому интерес и мне захотелось с вами этим поделиться.

Рубрика #НамБыДжуна давно себя изжила, и мне бы не хотелось превращать свой канал в джоб борд (у нас для этого есть (@datajobs чат и @datajobschannel фид). Но, в виде исключения, хочу запостить две вакансии.
Первая от Ивана, просто потому что это очень классное описание вакансии, без всякого булшита корпоративного, честно и прямо. Стек, что делать, с кем и как работать - такое описание читать приятно и сразу понимаешь, что и куда. Контакты, собственно, в сообщении. Ну и на канал советую подписаться 🤪
Всё ещё го дата-инжинирить

Оказывается, прошло уже почти три месяца после моего поста, где я ищу дата инженера в команду в fishbrain.com 🇸🇪. Тяжко идёт найм: перспективные кандидаты чаще всего хорошо умеют либо в дата моделлинг, либо в ETL/ELT/платформу; но не то и другое вместе. А хочется, чтобы умели, чтобы было чему поучиться, да ещё и чтобы произошло культурное совпадение!

В общем, я всё ещё ищу DE, который согласится работать с таким фриком как я. Будем клепать ELT, дорабатывать дата модели в обожаемом мной dbt, покрывать тестами, запилим гугловский стриминг, а в перерывах будем ходить на фику по гугл митс и рассказывать друг другу восхитительные истории.

По технологиям: Python, SQL, облако преимущественно GCP, но есть немного AWS; BigQuery, Airflow, dbt. В компании английский язык и полный интернационал: шведы (в меньшинстве, хех), славяне, турки, филиппинцы, американцы и другие. Работа удалённая, платят валютой.

Ништяки
Кайфовая культура. Бирюза, Servant Leadership, взаимоуважение и поддержка безо всякого унылого корпо-буллшита. Слово пацана даю. Собственно, это даже на найм влияет — много кандидатов с улицы отсеиваются именно по культуре — так что всё это не случайность.
Кайфовый стек. Последние/предпоследнии версии питона/эйрфлоу/дибити и всего, до чего мои руки уже дотянулись. Модели данных жирно обмазаны тестами. Для страждущих говнокод найдётся, но его реально мало.

Пишите уже короч в личку мне @skatromb. Описание вакансии тут.
Вторая вакансия: от Semrush😃
Ребята все еще ищут человечка в свою команду и готовы релоцировать в Амстердам.
Писать можно Сереже @Lomdjaria или Софико @sofiko_mh, скажите, что от меня.
Для тех, кто любит dbt, там регистрация на Coalesce открылась.
И Call for Papers тоже.
Тут AirBnB ввел интересную политику про одинаковые зарплаты:

https://news.airbnb.com/airbnbs-design-to-live-and-work-anywhere/

Вот основные пункты:
1. You can work from home or the office
А значит, можно продолжать работать удаленно, а не как Apple всех гонит обратно в офис на 3 дня в неделю.

2. You can move anywhere in the country you work in and your compensation won’t change
This means you can move from San Francisco to Nashville, or from Paris to Lyon. If you move, your compensation won’t change. Starting in June, we’ll have single pay tiers by country for both salary and equity. If your pay was set using a lower location-based pay tier, you’ll receive an increase in June.

То есть если вы жили в Bay Area, а потом переехали к бабушке Элли в Канзас, зарплата у вас останется старая.

3. You have the flexibility to travel and work around the world
Starting in September, you can live and work in over 170 countries for up to 90 days a year in each location.

Ну это с Сбербанка слизали, они тоже разрешали месяц в году работать откуда-то не из домашней локации. 😁

4. We’ll meet up regularly for team gatherings, off-sites, and social events
Ну оффсайты всегда прекрасно!

5. We’ll continue to work in a highly coordinated way
А это классика про core hours вокруг часовых поясов.


В AirBnB работает прикольный чел по имени Zach Wilson, дата инженер (ex-Netflix), который ведет интересный блог на LinkedIn, советую подписаться!
Так, мне тут рассылка от DataTalks.Club (Это те ребята, которые делали Zoomcamp DE - https://news.1rj.ru/str/ohmydataengineer/172) принесла еще одну конференцию про DE - The ML Data Engineering Conference


Ссылка на регистрацию и темы на два дня - тут
А давайте поговорим еще разок про блоги и паблики?

Я для чтения и слежения за всякими блогами пользуюсь древней как Греция технологией под названием RSS. И очередной раз просматривая ленту Medium и Reddit по теме Data Engineering, бегло читая заголовки в поисках хорошей статьи или новости, я натыкаюсь на 856 статью про то, как начать пользоваться DBT, с десяток вопросов в стиле “Чем отличается Data Engineer от Big Data Engineer?” и т.д. И мне становится от этого грустно.

Потому что количество материала растет, а его качество - падает. Причем очень стремительно. Поэтому я решил, что нужно немножко почистить ленту, уменьшить количество источников, откуда приходит контент.

И в рамках этой очистки данных (оценили шутку, да? 😋) я понял, что в моей ленте есть несколько блогов и рассылок, которые действительно качественные и крутые. Именно знания и информация, которую я подчерпнул оттуда, больше всего меня продвинула вперед по моему развитию, карьерной лестнице и вот это все.

Все эти блоги про то, как быть хорошим инженером, просто классным специалистом. Не web developer, не software developer, не DE и не QA. А именно специалистом, то есть инженером с высоким уровнем технической подкованности, умеющим видеть проблему, предлагать решения, искать компромиссы, умеющим в софт скиллы и продукт.

Первая партия блогов выглядит вот так (потом будет еще):


The Pragmatic Engineer
Автор (в чатиках именуемый как *Венгр*) был EM в Uber, а сейчас полностью сосредоточен на своем блоге, который приносит ему денег больше, чем работа в Uber. Не зря эта рассылка № 1 в категории Tech на Substack.
Автор хорошо известен, например, по вот этому видео https://www.youtube.com/watch?v=h8Xpapy6I9E или вот этой https://newsletter.pragmaticengineer.com/p/perfect-storm-causing-a-hot-tech-hiring-market статье про рыночек.
https://blog.pragmaticengineer.com/ - это сам блог, но он там не очень часто пишет.
https://newsletter.pragmaticengineer.com - вот эта рассылка, несколько бесплатных статей, но много платного контента. Если автору написать в твиттер, даст 50% скидку. Вот только с оплатой из РФ будут проблемы, сами знаете.


The Senior Engineer Mindset
Вообще это книга https://swizec.com/senior-mindset, но если побродить по сайту, то можно подписаться на рассылку, а там уже приходят очень клевые и классные тексты.


From Junior to Senior
Это тоже книга https://www.learninpublic.org, но есть опция купить книгу с доступом в сообщество инженеров, оно средней активности, но довольно мотивирующее тебя развиваться и даже писать о том, что ты изучаешь. Кстати, вот тут еще видел подобное: https://education.borshev.com/relocate курс + доступ в сообщество. Кажется, что сообщество будет сильных специалистов, раз они задумываются о релокации и т.п., но я не уверен. Не реклама, никто не платил за нее, курс не смотрел и не покупал (только первое видео видел, потому что подписан на Senior Software Vlogger), какое сообщество на самом деле там будет - не знаю.


No Idea Blog
Тоже прекрасный блог, хоть и не очень активный. Этого автора я узнал давно, когда попал в похожую ситуацию, которую она описывает в одном из своих выступлений (я смотрел вот это https://www.youtube.com/watch?v=5cr2Yn_MrKg, но у нее вроде вышло более развернутое на эту же тему https://www.youtube.com/watch?v=KClAPipnKqw.



Кстати, в комменты можно присылать ссылки на блоги, которые вам нравятся!
Ну а в следующих подборках будут еще ютубчики!