🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Вас 2000 человек! Спасибо большое, что вы читаете меня!

Для меня это оч большое достижение. Когда я только начинал свой канал, это была просто копилка каких-то идей и интересных статей.
А теперь нас 2000 человек и это уже большоя группа людей, с очень разносторонними мнениями и взглядами на технологии, с которыми прикольно общаться и оч мотивирует, когда вы присылаете 💩, мотивирует искать материал лучше)

В ближайшие дни буду подводить итоги года и писать планы на будущий. Stay tuned, как говориться 🤪

@ohmydataengineer
👍25💩19🔥14
Итоги года.

Если вас еще не достали итоги года во всех остальных социальных сетях, то вот чуток от меня, самые заметные события в моей жизни за этот год.

- Канал “Труба Данных” активно растет и развивается. Для меня это огромная радость и удовольствие, делиться всяким полезным с вами. Много раз в комментах были клевые обсуждения, которые расширяли картину мира. Немного статистики на скриншоте выше. И да, никакой рекламы и канал остается независимым до сих пор, хотя приходят каждый день с запросом на платное размещение 😄 Даже кнопка вверху “На развитие канала" больше для успокоения моей совести (но я всегда рад донатам, конечно же😁).
- Мне досталась новая роль, на этот раз официально - я теперь тимлид. Ага, целая команда из нескольких человек и много стейкхолдеров, которым что-то очень срочно надо всегда. Если раньше мне удавалось “лидить”, но при этом официально у меня не было ответственности, то теперь она есть и приходится отвечать. Очень новый опыт, очень интересный и необычный.
- Релокация. Новое место (я никогда не был на Кипре до релокации), новый удивительный мир (и левостороннее движение). Теперь мой айти-пузырь побольше, картина мира пошире. Очень жду митапов и встреч с коллегами по цеху.
- Конференции, подкасты, митапы. Очень скучал по движухам и очень рад, что в 2022 удалось по конфам походить и повыступать. Не все удалось сделать, что задумывалось, поэтому на следующий год цели еще более амбициозные!

За все неисполненные обещания (например, за Iceberg или DBT) можно напихать автору в комментах!

@ohmydataengineer
👍17🔥3
Цели 2023 года

Ага-ага, строили мы планы на 2022, но все крякнулось. Поэтому с одной стороны планировать что-то теперь в этом ну оч быстро меняющемся мире стало сильно сложней. С другой стороны - “If you fail to plan, you plan to fail”. Поэтому немного о том, что я хочу сделать в этом году:

- Продолжить развивать “Трубу данных”, писать куда более стабильно в канал и более информативно, а не просто швыряться ссылками.
- Начать писать на английском языке. Это не заменит этот канал, тут все будет так и в том формате, как есть сейчас. Я скорее про профессиональный блог на каком-нибудь Medium, Dev.to или еще лучше, Substack. При этом оч не хочется превращать это все в LinkedIn Influencer (ох уж у меня такого контента в ленте)
- Митапы, конференции и подкасты. В этом году поставил сразу две цели по конференциям: main stage на русскоговорящей и в целом податься (авось пройдет) на англоговорящую конференцию. Ну и дежурно сходить пообщаться в 1-2 подкаста 🤦

И маленький мини-анонс side-project. Большую часть года я занимался карьерным консультированием. Помогал знакомым и не очень людям скорректировать свою траекторию карьеры, как собеседоваться (и нет, это не про верчение деревьев), а главное - получить хороший оффер и даже поторговаться за него. Но я нигде про это не рассказывал и работало просто сарафанное радио. В этом году я решил, что можно открыть свой проект наружу немножко. Про проект “🚜Ведутся Карьерные Работы” я расскажу попозже.

Желаю все хорошего и продуктивного года!

@ohmydataengineer
👍42🔥9
Как вы могли заметить, я не размещаю на канале ни рекламу курсов, и всякие weekend offer events, ни вакансии. Но у последнего бывают исключения, и сегодня ровно такой день) 🤪

Если кто-то ищет для себя новый вызов в интересной компании, с очень клевыми людьми (лично знаком и с CEO, и с CTO), с прикольным продуктом (local purchasing power) - присылайте Кириллу свои CV.

Писать @KirillGugaev
👍3
Forwarded from Kirill Gugaev
Привет всем! Я - CTO в американском YC-стартапе Corrily, ищу хорошего data-инженера!
#вакансия #data_engineer #senior

Компания: Corrily Inc
Занятость: проектная / парт-тайм
Формат работы: удаленка, контракт с оплатой по-часам (пишите свой рейт)

Описание проекта:
Corrily - это ML-сервис для динамического прайсинга SaaS сервисов.
Мы помогаем крупным интернет-сервисам по всему миру проводить эксперименты с ценами и поднимать выручку на 10-20% за счет изменения цен в разных странах и для разных сегментов на более справедливые.

Кого ищем:
Мы ищем опытного data-инженера, кто бы совместно с нашими разработчиками помогал бы расширять SaaS-аналитику (разбираться в данных, добавлять новые метрики, оптимизировать структуры данных / таблиц, добавлять дата-тесты, строить пайплайны). Работы не хватит на фуллтайм-вакансию, поэтому я думаю начать на контрактной основе, а потом уже посмотреть как пойдет. Общаемся на английском

Стек: Google Cloud BigQuery, DBT, Postgres, Airflow, Python
Будет плюсом, если вы уже работали с платежными данными (считали MRR / Revenue / Cashflow) или имеете интерес в области финтеха.

Можем платить официально в $ или официально в крипте )))

Писать можно мне в телегу, созвонимся и расскажу подробности
👍11
shorturl.at/fxEQ0

Вот тут попалась в одном из телеграм каналов реклама одной релевантной конференции. Российская конференция про качество данных.
Все бы ничего, но у меня есть вопросики к формулировкам:

<…решениям обеспечения гарантированного качества данных в условиях динамичных изменений и экономической неопределенности…>

Оч канцелярно. Ну и создается ощущение, что с приходом санкций у нас нет доступа к инструментам по качеству данных.
А потом посмотрел фотографии и сложилось впечатление, что DQ это какая-то старперская дисциплина, стало грустно.

Вы уж простите, немножко эйджизмом попахивает, но никого обидеть не хотел.

Автора можно закидать 💩 или написать свое мнение в комментариях к посту.

@ohymydataengineer
👍3
Дима из «Инжиниринг Данных» еще летом постил ссылку, только сейчас дошли руки прочитать и очень срезонировало. Я даже в пост вынесу ровно тот же вывод:

The core problem with working longer hours is that time is a finite resource. Energy is a different story.

(Сама статья тут https://hbr.org/2007/10/manage-your-energy-not-your-time. Она за пейволом, но две статьи в месяц бесплатно. Так что если вы не заходили на Harvard Business Review в этом месяце, то можно почитать в оригинале)

Идея в том, чтобы за основной ресурс и метрику брать не время, которое вы работаете, а сколько энергии вы расходуете И как ее эффективно восполняете. Можно целый день прокрастинировать и устать.

Источников энергии 4: тело, эмоции, мозг и дух. Поэтому занимаемся спортом, меньше фокусируемся на негативе, развиваемся и обучаемся, а также думаем о своей кукухе.
Очевидный бабаян, но хочется про него еще раз напомнить: ваша работа это не ваша жизнь, а с головой на плечах обеспечить себя достаточно для комфортной жизни вы всегда сможете. Херачить по 16 часов - оно того не стоит.
По себе заметил, насколько я стал продуктивней, когда стал думать об этом, чем тупо “ща еще пару часиков посижу” 💩

В коменты жду людей которые фигачат на 2 работах, подискутировать на тему денег)

@ohmydataengineer
🔥15👍9💩1
На LinkedIn попался пост, который хорошо лег в душеньку:

Every layoff of 2023 has been a fraction of new headcount added in 2022 alone.
It's not that 2H and 1H 2023 is weird, it's that 2020,2021 were deeply atypical
One of the questions we should be asking companies that hired so aggressively in 2022 is what were you thinking?
What data did you have that suggested Pandemic life was the new normal.


Есть такое выражение “Too big to fail”, которое значит что-то в стиле “Ну Сбербанк никуда не денется!”, то есть “Ну Гугл / Амазон / Мета не могут ошибаться, они очень большие и умные”.
Но, как мы видим, даже топы могут ошибаться. Ну и большие компании делали ошибки, которые приводили к их краху. Например, Nokia, Kodak. Где, например, гарантия того, что Metaverse от Меты выстрелит?

Ну и последнее: хорошие инженеры нужны всегда. Оверфитнутые на собесы в FAANG - останутся на обочине.
https://twitter.com/abstract_artem/status/1618207308919767041


Приходите в комменты сраться за лейофы!

@ohmydataengineer
👍12👎4
Минутка болезненной рефлексии..

В общем, когда в очередной раз я обнаружил, что мой календарь забит встречами с 8 утра до 6 вечера, я погрустнел. При этом я сознательно отдаю команде возможности полидировать какие-то направления и целые фичи, пытаюсь не быть узким горлышком, но все равно выходит какая-то ерунда.

Где-то что-то поломалось и пока я не понял, как починить. В попытках и поисках ответа на этот вопрос я зашел на сервис… ахаха думали тут реклама … я залез в интернет и накопал парочку интересных статей для рефлексии. Статьи интересные, но я все равно не понял про себя, правильно ли я делаю или нет. Вот такие вот пироги, сижу туплю в тупике 🤪

https://erik.wiffin.com/posts/limiting-work-in-progress-as-a-manager/

https://medium.com/illumination/back-to-back-meetings-create-an-illusion-of-productivity-why-the-best-leaders-keep-an-empty-adbb02abdc0f


@ohmydataengineer
👍14💩4
Немного пятничного юмора 🤪


@ohmydataengineer
🔥24👍8
https://betterprogramming.pub/data-engineering-is-not-software-engineering-af81eb8d3949

А давайте посремся немножко?
Вот такой заголовок промелькнул в ленте у меня, глаза зацепились:

Data Engineering is Not Software Engineering
Pretending like data and software are the same is counterproductive to the success of your data engineers


Итак, какие аргументы приводит автор статьи?

- A Pipeline Is Either Completed or Worthless
Ну мы или поставили данные, или нихрена. Наполовину работающее приложение хоть как-то что-то делает пользователю, а вот наполовину отработанный пайплайн - нет. Если мы отправили 9 из 10 нужных колонок в базенку, это все равно бесполезно для DS, например.

- Feedback loops in pipeline development are glacial
Все просто. Если юнит тестов нет, жди пока закончится пайплайн и смотри глазами, что там с данными. В разработке без тестов очень больно, а в “датке” все привыкли писать пайплайны без них, потом разберемся!

- Pipeline Development Can Not Be Parallelized
Вы можете работать параллельно с кем-то над фичей в приложении, а вот над пайплайном - очень редкая практика.


Отсюда мой вопрос к вам (приходите в комменты): как вы считаете, data engineering != sowftware development или нет? Вы называете себя девелопером/разработчиком/инженером?
Или это все просто семантика, называйте меня как хотите, лишь бы $160k base salary?


@ohmydataengineer
👍10🔥4💩4👎21
Очередной пятничный юмор 🤪

@ohmydataengineer
👍27🔥3💩2
https://motherduck.com/blog/big-data-is-dead/

За последнюю неделю эту статью обсудили везде где только можно: во всех чатах, линкединах и пабликах. Если что, автор - один из founding engineers BigQuery, поэтому его слова, как минимум, не стоит игнорировать. Решил перечитать ее пару раз, вот на какие мысли наткнулся в своей головушке, в целом соглашаясь с автором:

Бигдата на самом деле не такая большая
Тут я с автором согласен. Подавляющее большинство компаний и команд, с которыми я общался, считают, что у них очень много данных и они обрабатывают петагигамегабайты, но на деле все сильно меньше. В погоне за хайпом и “у нас хранилище 400 Террабайт!” мы потеряли главный смысл - данные должны приносить пользу, а не лежать в json-гробах.

Compute нужно сильно меньше, даже когда растет Storage
Тут все тоже довольно просто: с легкой барской руки мы накидываем ворверов и экзекьюторов, потому что у нас хранилище увеличилось в 2 раза, но на деле нет прямой пропорциональной зависимости compute (вычислительные мощности) от storage (наших объемов хранилищ).

Данных много, а анализируем всего лишь небольшую часть
Тут можно разделить на две части:
- Базы данных умеют в оптимизацию достаточно хорошо, поэтому даже при плохом запросе умудряются уменьшать объем обрабатываемых данных
- Большинство данных очень важны за вчера, меньше за неделю, за месяц еще реже, за год данные нам нужны чаще всего только для больших корпоративных презентаций. Ну и сезонность / праздники иногда посчитать.

Очень порадовало определение “Big Data is when the cost of keeping data around is less than the cost of figuring out what to throw away”, проще хранить, чем тратить время и выяснять, а что можно удалить, а что по закону надо хранить 7 лет.
Ну и еще из классического: “if the date is older than 2019 use the revenue field, between 2019 and 2021 use the revenue_usd field, and after 2022 use the revenue_usd_audited field”.

В конце статьи есть прекрасный список вопросов, очень рациональный, по поводу внедрения бигдаты и всего этого красивого.

@ohmydataengineer
👍20🔥2
Пятничный юмор 😜

@ohmydataengineer
🔥38👍21
https://dropbox.tech/infrastructure/balancing-quality-and-coverage-with-our-data-validation-framework

Любимая шутка в @datajobs это “Ходуб умер”. Вот история от Dropbox, который использует Hadoop в своей аналитике, про что у них происходит в рамках качества данных.
Как обычно, мои мысли после прочтения:

>In the past, different teams at Dropbox had different approaches to validating data, with different standards and different pipelines.
>Dropbox created a dedicated data engineering team to oversee the validation of data in our data lake and to try and catch these problems before they occurred.
Помните шутку про 14 стандартов? Кажется, такая же ситуация. Я считаю, что те, кто данные генерирует, должен быть ответственен за качество генерируемых данных, а не создавать отдельную команду для Data Quality (модная тенденция в энтерпрайзах, появление выделенных Data Stewards, которых, фактически, заставляют быть QA в мире данных, писать тесты, вот это все…)

>When we couldn’t find anything that quite met our needs, we decided to build a solution from scratch
Ребята пишут “Смотрели Great Expectations и dbt, но там для комплексной логики пришлось бы писать SQL”. Поэтому мы решили написать полностью свое! Хороший пример карго-культа. Для любой сложной логики всегда придется что-то допиливать руками, вне зависимости от инструмента. Зачем тогда еще тратить время для создания и поддержки своего собственного тула?

>Our data engineers had experience in SQL, Java, Scala, SchemaPLT, Python, and C, among others, and each had pros and cons. But after much discussion, we chose SQL.
ААААААААААААА. Вы только что выше писали что вам не хочется писать SQL для дополнительной логики!


Справедливости ради, есть одна здравая мысль: последовательность проверок. Очень часто видел ситуацию, когда мы сначала все данные загрузим в прод, потом выполним проверки, и если все хреново - уведомляем пользователей. Тут же, проверки идут поверх стейджа, поэтому в прод говяные данные не попадают.


@ohmydataengineer
👍7🔥1
Картинка из рассылки The Pragmatic Engineer (платная).

В этом выпуске разбиралась недавняя новость: Цукерберг объявил что “Год эффективности” и что надо-бы немножко структуру схлопнуть, предложив middle management вернуться к IC (individual contributer).

Цитата звучит примерно так: “Meta managers and directors targeted in the initiative will be told to transition to an “individual contributor” role at the company — such as coding, design or research — or exit altogether”.

Хотя… когда у тебя столько директоров и VP, так еще и друг над другом. Хотел побухтеть, но на деле выводы делать вам самим =)

@ohmydataengineer
👍8
Сегодня хочу задать вопрос аудитории. Звучит он примерно следующим образом:

Нужны ли вам анонсы митапов / конференций / вебинаров / воркшопов?

С заядлой периодичностью в личку приходят просьбы прорекламировать за деньги что-либо из выше перечисленного. Чаще всего мой ответ такой: “Если мне понравятся темы - я размещу это бесплатно”. Но я понимаю, что то, что может показаться мне не очень релевантным, может быть инетерсно вам. Тем более, что по ощущениям, мы уже вышли за рамки “только дата-инженеры энтузиасты”.
И если вы заметили, я никогда не делал анонсов шаблонным текстом, всегда это было что-то личное и от себя. Но я не всегда могу написать личное и от себя, если меня тема не зажигает. Но вас может заинтересовать. А я тут сфальшивил…. Ну вы поняли суки мовести муки совести…

Поэтому из этой ситуации есть несколько выходов:
- поставь 🔥 если считаешь, что размещать рекламные анонсы с шаблонным текстом будет ок для тебя и полезно (все такие посты будут помечены отдельно). Можем даже придумать, куда отправлять деньги с таких рекламных постов, благотворительность, приюты, фонды, вот это все. Готов прям отчитываться в комментах за каждый такой пост. Можем даже вместе цену таких постов назначить, например, 10 000 рублей.
- поставь ❤️ если считаешь, что нужно продолжать текущую практику “Размещай только то, что считаешь релевантным и бесплатно”
- поставь 💩 если считаешь, что вообще размещать анонсы митапов и всего остального не надо. Ибо вам хватает каналов @DE_events и @data_events

На фото митап в Х5, который я организовывал и должен был выступать, но в последний момент уронил прод и никуда не поехал =)

@ohmydataengineer
🔥6357💩41👍1
Лошпед Сема забыл включить сердечки в реакциях.
Так что кто выше хотел поставить сердечки ❤️ - приходите поменять свое мнение =)
19💩3👍1
Пятничный юмор 😜

@ohmydataengineer
18🔥10💩1
https://www.linkedin.com/business/talent/blog/talent-strategy/linkedin-most-in-demand-hard-and-soft-skills

Смотрите, что тут LinkedIn выкатил несколько дней назад - “Most in-demand hard and soft skills”. Как всегда, в чатиках успели это уже обсосать, но не спамить же вас контентом тыщу раз на дню?) Пара забавных наблюдений:

Global talent shortages have reached a 16-year high, as 75% of employers can’t find the talent they need with the right blend of technical and soft skills
Сокращения сокращениями, но вот нехватка кадров достигла 16-летнего максимума. Бигтехи сокращают, а людей все равно не хватает.

Второй забавный факт - вторым по популярности hard-скиллом является SQL. Мы все в пыль космическую превратимся, а SQL и Excel будут держать на руках половину анализа данных в мире.

Методика оценки довольно простая - посмотрели на свои данные, благо у LinkedIn этого достаточно:
The most in-demand skills were determined by looking at skills that are most sought after based on six months of data (April to October 2022) from employers, hirers, and job-posters on LinkedIn. Demand is measured by identifying skills possessed by members who were hired or InMailed, as well as the skills listed in paid job postings. In-demand hard skills were identified using the same methodology with an additional filter to exclude some of the most common nonspecialized skills.

@ohmydataengineer
👍12