🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Не по сценарию…

Обычно по пятницам тут “Пятничный юмор”, но сегодня решил сделать исключение. Меня откровенно заколебало количества дико посредственного контента про LLM и ChatGPT, поэтому я решил написать свой курс, всего $9.99… Да оно просто заколебало =) Особенно миллиард одинаковых тредов в твиттере “Если вы не используете ChatGPT, вы умрете от голода. Вот как люди зарабатывают $150k в нано-секунду благодаря AI…”

Но, при всем при этом, ChatGPT, Copilot и немного Midjourney - осело в моей привычной рабочей рутине. Copilot помогает писать код, особенно бойлерплейт и тесты (главное, понимать, что он предлагает), а ChatGPT очень быстро помогает находить ответы на замороченные проблемы и дебажить. Тут, кстати, GitHub делал исследование по AI / LLM тулзам, которые разрабы используют в своей работе, а Венгр - обзор этого исследования.

В то, что LLM в ближайшее время заменит разрабов и SQL - не верю, до этого еще очень и очень далеко, но убежден на своем опыте, что эти штуки надо встраивать в рабочий процесс. Если вы еще пробовали - очень советую. А у Andrew Ng, основателя DeepLearning.AI и автора самого крутого и популярного курса по ML/DL, совместно с OpenAI (создателями ChatGPT) есть прекрасный и короткий курс (и бесплатный) про Prompt Engineering for Software Developers. Без серебрянных пуль и мега-секретов, базово, но полезно, особенно если с этим вы вообще не работали и не знаете, как это работает и как это использовать.


P.S. Вангую комментарий с болот про то, как чатгопота упрощает написание емейлов 🤪

@ohmydataengineer
🔥193
Про оценку времени и Story Points

Я видел много разных Agile, но на текущем месте он очень удивительный:
- Дико криво настроенная Jira, которой каждый пользуется как хочет.
- Кто-то занимается Planning Poker и Sprint Sign Off, а кто-то оценивает в Story Points как - 1 рабочий день / 1 SP
- Команды работают в совершенно разном стиле, а эффективные менеджеры с удивительными тайтлами пытаются сделать Agile

Отчасти, конечно, это бубнеж старого деда 🤪, но я всегда пытаюсь делать в командах следующее: “Мы работаем по тому подходу, который нам удобен и дает максимальный комфорт и результат. Мы не проводим ритуалов ради ритуалов. Весь булшит каргокультный - на помойку!”
Иногда приходится активно спорить с менеджерами. И вот в рамках подготовки к очередному учению “как надо вести проекты по Agile“, посмотрел прекрасное видео #NoEstimates. Очень полезный взгляд со стороны на любые виды оценок по срокам исполнения.

Если оценка в разработке софта - уже сложно. То что можно говорить о работе с данными, где все еще более непредсказуемо?

https://www.youtube.com/watch?v=QVBlnCTu9Ms

@ohmydataengineer
🔥8👍3
Снова не по плану

Да-да, я знаю, что вы ждете пятницы ради мемосов (только для этого канал и создавал), но сегодня снова не они. Какое-то время назад писал про ребят с платной подпиской про архитектуру (https://news.1rj.ru/str/ohmydataengineer/349). Сегодня хочу порекомендовать вам этот уникальный пылесос Kirby… рассылку от Alex Xu и ByteByteGo. Книжка от Alex Xu - System Design Interview - очень крутая для расширения кругозора по дизайну систем и, в целом, для подготовки к этой секции интервью. Применима не только к Data Engineering, а в целом про Software Development.

Так вот у них есть рассылка платная, 100 евро в год, но очень хорошо поддерживает кругозор и дает базовые знания про дизайн приложений. Буквально последняя статья - про то, как работают индексы в базах данных. Не прям супер глубоко, но достаточно на хорошем уровне.

https://blog.bytebytego.com?r=rduua

(наглая реферальная ссылка выше, если вы оч жадный, можете скопировать и вставить без реф кода🤪)

@ohmydataengineer
👍12💩3
Пятничный юмор 😂

@ohmydataengineer
33👍2👎2
Ходуб умер.

https://www.youtube.com/watch?v=dDaQCNFaYvI

Громкий заголовок про то, что “YTsaurus — это будущее DWH”, конечно, но куда без этого.
Про сам доклад мнение не могу сформировать: то ли ребята перегнули и изобрели свой велосипед ради велосипеда, то ли офигеть от масштабности проекта и уровня проработки и детализации как инструмента, так и хранилища и SLA в нем и поплакать надо сложностью своих проектов 🤪

@ohmydataengineer
💩13🔥3👍2
SmartData, билеты, купончики, вот это все.

Конечно, как обычно, накидаете мне какашек, но я продолжу сотрудничать с ребятами из SmartDatahttps://jugru.org/) потому что на данный момент они единственные, кто делает профессиональную конференцию в нашей области в РФ. 1-2 доклада про хранилища на Хайлоаде не считаются. Да и уровень организации всегда там очень хорош.

Список докладов очень даже хорош, будет оффлайн в Москве, приходите, это того стоит.

Программа конференции— на сайте.

P.S. как и договаривались про прозрачность всех постов в канале, за этот пост мной получено 0 рублей.

@ohmydataengineer
👍18💩5🥱41
Пятничный тематичный юмор

@ohmydataengineer
👍33🥱1
Гигачад или Лысый из Браззерс

Вот иногда смотришь доклад и думаешь: “Не, ну это какой-то космолет, чет тут очень много фантастики”. Такое ощущение возникает, когда разрыв между тобой, твоим проектом и проектом того презентующего слишком большой.
Но иногда ты смотришь и каждые 40 секунд останавливаешь запись с криком: “Да бля, у нас тоже самое!”. И ты понимаешь, что на деле у многих похожие проблемы и ты знаешь, что они решаются и в видосике тебе даже подсказывают что и как.

Сегодня как раз такой доклад Чада Сандерсона, очень клевый чел, промоутит Data Contracts подходы.

https://www.youtube.com/watch?v=qT-Atu9mfvM

@ohmydataengineer
🔥10👍7
Пятничный юмор

@ohmydataengineer
🔥41
Хайп пройдет, фундаментальные знания останутся

https://blog.devgenius.io/elt-is-dead-and-etlt-will-be-the-end-of-modern-data-processing-architecture-154b87c1cce0

После очередной "прорывной и хайповой" статьи (по ссылке выше) о том, что ETL умер и теперь у нас будет EtLT захотелось немножко блевануть. Очень утомительно среди всего этого посредственного контента находить что-то полезное. В очередной раз кто-то придумал новую концепцию загрузки данных (спойлер, ничего нового, все тоже самое. Даже ETL / ELT это одно и то же в целом) и теперь задвигает про то, что в современных архитектурах будет вот так.
Ах, да, насыпали баззвордов "New Generation Big Data Federation Proliferation of AI Applications", удобрив сверху типичным карго-культом и, конечно же, джоб сесурити.
Появление Snowflake / Databriсks привело к тому, что народ решил снова забрасывать проблемы деньгами и мощностями, следовать концепции OBT (one big table) и не заморачиваться. А смысл? Это ведь потом не наши проблемы =)
Как видно уже сейчас, технологии цикличны и постепенно всего громче и громче слышны голоса про то, что вообще-то data modelling это важно. Особенно забавно это слышать от главных ифлюенсеров линкедина, которые сегодня говорят про то, что давайте все грузить в одну таблицу, а завтра - про то, как моделирование важно.

Короч, что я этим бубнежом хотел сказать: не гонитесь за хайпом, за очередным убийцей питона в Data Engineering, следующим Airflow и вот это все. Фундаментальные знания о передаче и хранении данных, системный дизайн на адекватном уровне - эти навыки вас прокормят до конца жизни.

P.S. В копилку к этому дерьму есть еще одно - Analytics Engineer. Смешали коня и носорога, получился фантастический единорог. Еще и нанимают на такие позиции, где требования, в целом те же, что и к Data Engineer. Название ради названия.🤢
Помните, какое-то время назад я делал презентацию про то, какие бывают data engineers. Я за базовый класс (Data Engineer, куда все эти DWH-разрабы, ETL-девелоперы и dbt-инженеры) входят и некий гибрид, вышедший из DE и DS под названием ML-engineer. Все остальное - от лукавого.

@ohmydataengineer
👍39🔥2💩21
Контент одной картинкой!

Если вам придется когда-нибудь пояснять менеджерам и всяким CTO, почему Data Quality это важно, сохраните эту картинку на случай важных переговоров.


@ohmydataengineer
14🥱9👍7
Forwarded from LEFT JOIN
This media is not supported in your browser
VIEW IN TELEGRAM
👀 Наверное, и мы, и вы уже пересмотрели все рилсы с Тиньковым…

Но версии про аналитику нам пока не встретились, а когда мы не видим какого-то безумия, то обязательно должны его возглавить!

@leftjoin
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥47👍6💩21👎1
Если вы в Израиле 🇮🇱 - приходите на митапчик, будет интересно!
Тем более, что он будет на английском =)

https://lnkd.in/d9chf623

@ohmydataengineer
11💩5
Опросы, опросы, опросы!

Я их читаю, чтобы вам не надо было тратить на это время! У Monte Carlo (это такая софтина для Data Quality и Data Observability) есть опрос по State of the Data за 2023 год.

Что они там нанаблюдали?

- Что DQ приносит больше всего пользы
(очевидно, мы же DQ решение продаем). Справедливости ради, у нас внутри по личным ощущениям те же лидеры топа: качество, коммуникация и документация.

- Денег на дата решения за последнее время стали тратить побольше.
А вот тут у нас наоборот, мы как продолжали не покупать SaaS для этого, так и не покупаем.

- Мое любимое - все команды считают свой ROI и только один герой опроса нет.
Удивительно, при этом, что один из самых главных жалобных аспектов это "Как нам донести ценность нашей команды?". Чет несовпадение какое-то...

Отчет можно найти у них на сайте за рабочий емейл, но, если честно, оно того не стоит. Инсайтов там нет.

@ohmydataengineer
👍7💩4
Отдельный канал про карьеру

Я понял, что пришло время все-таки немного разделить каналы, ибо мне интересны две сферы, а смешивать их в одном канале не очень удобно для вас. В конце концов, вы приходите сюда почитать про data engineering и поставить 💩 под постами, про карьеру это не релевантно для вас.

Да и мне нужно отдельное место, чтобы продолжить рассказывать про свои консультации по карьере. Там парочка прикольных кейсов, в том числе один мой фейл: очень и очень долгий клиент, с которым пока не получается провернуть и достигнуть результата.

Встречайте: «Осторожно, ведутся карьерные работы!» или @career_works.
В канале буду постить про все, что связано с карьерой в IT: поиск, переговоры, зарплаты, софт-скиллы, вот это все.

Пара постов на скриншотах выше, подписываться вот тут —> @career_works
💩26👍3🔥2
Че там у инфлуенсеров

В комментах мне скажут, что у меня подгорает или что я завидую, что я использую тактики "зарубиться с кем-то публично, чтобы все шерили это! Накинь говна на вентиллятор!"

Я лишь нахожу это забавным, что ты можешь рассказывать своей аудитории, какой ты классный инженер, как твои курсы по DE тебе приносят денег больше, чем твой доход в FAANG и всякое такое, а потом просить JetBrains то ли о спонсорстве, то ли о бесплатных лицензиях ("Я бы снял видео...").

В общем, голая правда об инфлуенсерах. В большинстве случаев контент там на уровне "10 самых используемых выражений в SQL" или "15 AI инструментов, которые ускорят ваш пайплайн". Я уже как-то жаловался на это, что в потоке такого низкосортного контента все тяжелей и тяжелей находить интересные статьи, видео и инструменты.

P.S. ах, да, второй скриншот это ChatGPT коммент, очень популярная фигня сейчас в LinkedIn, все друг другу накручивают engagement rate и раскручивают свою "инфлуенсность". Это еще плюс-минус большой коммент, иногда просто без ChatGPT пишут всякие "I like your post!" и таких комментов 3-4 сотни!
👍13🥱4💩2
Залип в этот Miro-борд, очень структурированный подход к потреблению и усвоению знаний. В этом случае хорошее пояснение про Data Mesh
не удивлен, что автор канала @datanature занимается визуализацией данных 😄

За эту "интеграцию" полученое 0 деняк, автор даже не знает, что я сделал этот пост.