🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
ChatGPT прям в IDE

На деле, конечно, было уже пару десятков плагинов, которые встраивали функциональность ChatGPT в IDE, но я решил не пользоваться ими, довольствуясь лишь GitHub Copilot. Очень хорошо ускоряет разработку, особенно если ты понимаешь, что ты делаешь 🤪

Относительно недавно Github аннонсировали Copilot X с функцией подключения и общения с ChatGPT прямо в IDE. Прям в IDE тыкаешь в строчки кода и говоришь “Помоги мне поправить это дерьмо” и тебе рефактор предложат, сверху тестов накатят…

Осталось только ChatGPT для коммандной строки и все будет шикардос… oh, wait! Это уже тоже есть тут!

Короче, залезть в бету продвинутой версии - вот тут https://github.com/features/preview/copilot-x

P.S. Не пихайте никакую чувствительную информацию в чат-гопоту и гигачад. Только обезличенные кусочки кода. И в копайлоте можете поставить галочку что ваш код не должен учавствовать в улучшении модели, если пока внутри компании не решили, что с этим делать. Следуйте здравому смыслу.

@ohmydataengineer
🔥17👍21
Ох, сколько интересных вещей я через git blame нашел. И еще в эксельке 😂

@ohmydataengineer
🔥20
Alerts Fatigue в качестве данных

https://www.youtube.com/watch?v=hxvVhmhWRJA&

Неплохое видео с последнего(?) Coalece: про то, что тестируют в данных. Assumption (предположение что мы ожидаем увидеть) или Assertion (что мы зафорсили в коде). Неплохой рассказ про то, как у людей устроено DQ и как они задолбались получать уведомления о плохом качестве данных.

Для себя подсмотрел интересную штуку, которая называется Elementary - OOS Data Observability поверх dbt.

@ohmydataengineer
👍4🔥1
Еще немного бубнежа про Modern Data Stack

https://www.rudderstack.com/assets/the-data-maturity-guide.pdf

Продолжая разговор про modern data stack, у ребят из Rudderstack (rudderstack.com, cloud data platrofm) на своем сайте рассказывают, насколько этот ваш MDS сложная концептуальная штука, ничего не понятно и очень много всяких иконок, в том числе их самих. Ключевая цитата там звучит вот так:

Let’s be honest. The modern data stack is an ambiguous concept. It’s confusing and impractical. What we need is a real-world roadmap to help us progressively build more mature data functions. So we developed a practical four-stage framework to guide you along your journey to data maturity.

Поэтому за емейл они предлагают свой гайд по тому, как оценивать свои хотелки и что вам действительно нужно в текущей ситуации из DE инструментов. Сам гайд на 80 страниц, если вам предстоит самим строить какое-то хранилище или вы на пороге того, что надо все нафиг переписать - довольно неплохо описаны всякие подходы и концепции. Ссылок на конкретные инструменты не заметил, а вот примеры типичных проблем и pain points описания - мне понравилось.

Вообще, Data Maturity - головная боль последних моих недель, ибо нужно решить вопросики по всяким стратегиям, подходам и инструментам, а это непросто дается.

@ohmydataengineer
👍13
Сокращения, что, опять?

https://www.getdbt.com/blog/dbt-labs-update-a-message-from-ceo-tristan-handy/

Я почти и не писал про сокращения, но это произошло в релевантной компании: в этот раз 15% сокращает dbt, задело всех, и инженеров тоже.
Из примечательного, в 2020 году компания была 20 человек, в 2021 - 50, а в 2023 - почти 400.


@ohmydataengineer
👍32👎1
Про дальнейшее развитие

https://www.youtube.com/watch?v=wB0ulHmvU7E

Классический вопрос, который мне задавали нескольких последних карьерных консультациях: а что дальше то делать? Куда дальше идти? Куда движется индустрия?
Типичная проблема: IC (расти в техлиды, стаффы, принципалы) или менеджеры (тимлиды, ЕМ и вот это все).

На деле, конечно, выбор между “индивидуал контрибутер” и “личинкой манагера” это огромная отдельная тема, требующая индивидуально проработки и все, что в общих фразах я могу сказать это “Делайте то, что хотите, а что хотите - не делайте”.

Но вот касательно конкретно IC мне очень понравился доклад и статья с Coalesce “Excel at nothing”. Личное ощущение, что в целом, у generalist больше возможностей, влияния и $$$, чем у “специалистов”. В золотые времена компании могли себе позволить нанимать узкоспециализированных профессионалов для “fine-tuning JVM model at deminishig return levels”, а сейчас бОльшая часть компаний смотрит на финансы и на кадры, которые нанимает, поэтому если человек может больше и может это за пределами своего стека технологий (а это еще и софт-скиллы сюда), приоритет будет ему.

По крайней мере, по личному опыту вижу, что именно так и происходит.

(Самое забавное, что я помню как сам задавал этот же вопрос на консультации, правда она была за банкой пива и ребрышками 🤪)

@ohmydataengineer
👍11🔥2
А ты шо, теперь деврел?

Расходился я тут по подкастам, это второй за последний год и, скорее всего, не последний, но ребята из Подлодки пока реагируют как типичный работодатель: мое отклик, прочитали, но не ответили 🤪

С Евгением из @general_it_talks “Тимлид Очевидность” мы знакомы давно, поэтому когда он предложил пообщаться за интересную тему - с удовольствием пришел. Евгений и Виктор ведут подкаст “Кода кода” и мы говорили про “Плохой Код VS Чистая Архитектура”. Вышло очень хорошо.

Кстати, в эту же тему дров подкинул Кирил Мокенвин (создатель Hexlet.io) - https://habr.com/ru/articles/508876/ - Вероятно, хватит рекомендовать «Чистый код». Да, на Хабре, но большей РФ площадки для IT статей нет.

🎧 Слушайте подкаст «Кода кода» в Яндекс музыке, Apple podcasts, VK и много ещё где по ссылке https://kodakoda.mave.digital/ep-49


@ohmydataengineer
👍11💩4
Передаю привет Viz команде, которую очень люблю 😂

@ohmydataengineer
🔥26👍32
https://github.com/modularml/mojo

Говорят, тут у Rust и Python случился ребенок в виде нового, хайпового языка программирования под названием Mojo. То есть там концепции и скорость Rust, а еще можно спокойно притаскивать модули Python:

You can import and write normal Python modules/packages and code.
It looks and feels like Python.
Mojo wants to bring “systems programming” to Python.
Mojo adds `let` and `var` function declarations to give immutability, or not.
Mojo adds those famous `structs`.
The ability to have static typing/checks at compile is available.
Addition of `fn`s instead of `def`s for more immutable, static, and generally stricter methods.
Mojo brings the concepts of borrowing and ownership to immutable `fn`s, in a Rustacian sort of twist into Python.


Мгновенно ютуб начал подсовывать видосы про то, что это будущее DE, сразу вспомнил Хрыча, который всех хотел на Rust пересадить. Но посмотрев на документацию и на примеры - не, не судьба. Все очень жиденько, все так себе, а проблемы, которые пытается решить язык - в Python решаются сторонними модулями и культурой программирования.
Ну а про “Python” медленный уже столько копий сломано….

Короче, не стоит тратить свое время, обычный hype train

@ohmydataengineer
👍74
Все очень любят опросы и обзоры

https://state-of-data.com/

Почему? Потому что это собирает больше всего просмотров.
Сначала я хотел написать свои наблюдения по поводу этого State of Data 2023 отчета, но потом увидел, что Дима уже сделал это, а дублировать контент ради контента мне не особо хочется.
Ничего нового, ничего необычного, “ходуб умер”.
Если очень хочется потратить время, то результаты можно посмотреть.

Ладно, одно наблюдение. Ты можешь быть класным инженером, но сделать так, чтобы графики были читаемыми и с них можно было считать легко информацию - это отдельный навык.
Тут у ребят такая мешанина с осями и цветами, что становится очень больно.

@ohmydataengineer
👍5💩4🔥1
Пятничный юмор 😝

@ohmydataengineer
🔥33👎4💩4👍2
Пятничный юмор ☺️

@ohmydataengineer
🔥13
Пятничный юмор

@ohmydataengineer
18👍7
Отпуск кончился, я прекрасно отдохнул, за эту неделю канал пробил 2500 подписчиков, с чем я вас и себя поздравляю!
Спасибо за доверие! 🔥

Активность в канале возвращается с поста про Youtube, а именно…

У Слерма очень большое количество публично открытых плейлистов со всякими лекциями и обучениями. Например, все свои знания про “Кубернетис” (ага,. тот самый мем), я подчерпнул именно из “Открытая Вечерняя Школа: Kubernetes для разработчиков”. Так вот среди этих плейлистов оказалось, что ребята ведут батл-подкаст “Заходят два архитектора в бар…” (а в списке он называется “Архитектура по средам”, неконсистентно!), где обсуждают всякие архитектурные вопросики.

Я напросился к ним в один из выпусков (авторитетом же давить надо🤪), поспорить о чем-нибудь, поэтому предлагайте темы балтлов в комментарии.

А пока завтра в 19-00 можно будет посмотреть близкое к нам - про построение аналитики с инженерной точки зрения, что делать с CRM, какую бд для аналитки выбирать и причем тут Эйрплов и Спарк 🤪

Чат куда можно слать комменты: https://news.1rj.ru/str/+neMcdZ660V81ZWJi
Трансляция будет тут: https://www.youtube.com/watch?v=EShVMRevFk0 (и запись конечно будет)


Из личных глобальных целей на текущий год осталось выступить на англо-говорящем митапе, и, кажется, в сентябре эта цель закроется…


@ohmydataengineer
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍6💩2
Пятничный юмор 🤪

@ohmydataengineer
🔥20
Не по сценарию…

Обычно по пятницам тут “Пятничный юмор”, но сегодня решил сделать исключение. Меня откровенно заколебало количества дико посредственного контента про LLM и ChatGPT, поэтому я решил написать свой курс, всего $9.99… Да оно просто заколебало =) Особенно миллиард одинаковых тредов в твиттере “Если вы не используете ChatGPT, вы умрете от голода. Вот как люди зарабатывают $150k в нано-секунду благодаря AI…”

Но, при всем при этом, ChatGPT, Copilot и немного Midjourney - осело в моей привычной рабочей рутине. Copilot помогает писать код, особенно бойлерплейт и тесты (главное, понимать, что он предлагает), а ChatGPT очень быстро помогает находить ответы на замороченные проблемы и дебажить. Тут, кстати, GitHub делал исследование по AI / LLM тулзам, которые разрабы используют в своей работе, а Венгр - обзор этого исследования.

В то, что LLM в ближайшее время заменит разрабов и SQL - не верю, до этого еще очень и очень далеко, но убежден на своем опыте, что эти штуки надо встраивать в рабочий процесс. Если вы еще пробовали - очень советую. А у Andrew Ng, основателя DeepLearning.AI и автора самого крутого и популярного курса по ML/DL, совместно с OpenAI (создателями ChatGPT) есть прекрасный и короткий курс (и бесплатный) про Prompt Engineering for Software Developers. Без серебрянных пуль и мега-секретов, базово, но полезно, особенно если с этим вы вообще не работали и не знаете, как это работает и как это использовать.


P.S. Вангую комментарий с болот про то, как чатгопота упрощает написание емейлов 🤪

@ohmydataengineer
🔥193
Про оценку времени и Story Points

Я видел много разных Agile, но на текущем месте он очень удивительный:
- Дико криво настроенная Jira, которой каждый пользуется как хочет.
- Кто-то занимается Planning Poker и Sprint Sign Off, а кто-то оценивает в Story Points как - 1 рабочий день / 1 SP
- Команды работают в совершенно разном стиле, а эффективные менеджеры с удивительными тайтлами пытаются сделать Agile

Отчасти, конечно, это бубнеж старого деда 🤪, но я всегда пытаюсь делать в командах следующее: “Мы работаем по тому подходу, который нам удобен и дает максимальный комфорт и результат. Мы не проводим ритуалов ради ритуалов. Весь булшит каргокультный - на помойку!”
Иногда приходится активно спорить с менеджерами. И вот в рамках подготовки к очередному учению “как надо вести проекты по Agile“, посмотрел прекрасное видео #NoEstimates. Очень полезный взгляд со стороны на любые виды оценок по срокам исполнения.

Если оценка в разработке софта - уже сложно. То что можно говорить о работе с данными, где все еще более непредсказуемо?

https://www.youtube.com/watch?v=QVBlnCTu9Ms

@ohmydataengineer
🔥8👍3
Снова не по плану

Да-да, я знаю, что вы ждете пятницы ради мемосов (только для этого канал и создавал), но сегодня снова не они. Какое-то время назад писал про ребят с платной подпиской про архитектуру (https://news.1rj.ru/str/ohmydataengineer/349). Сегодня хочу порекомендовать вам этот уникальный пылесос Kirby… рассылку от Alex Xu и ByteByteGo. Книжка от Alex Xu - System Design Interview - очень крутая для расширения кругозора по дизайну систем и, в целом, для подготовки к этой секции интервью. Применима не только к Data Engineering, а в целом про Software Development.

Так вот у них есть рассылка платная, 100 евро в год, но очень хорошо поддерживает кругозор и дает базовые знания про дизайн приложений. Буквально последняя статья - про то, как работают индексы в базах данных. Не прям супер глубоко, но достаточно на хорошем уровне.

https://blog.bytebytego.com?r=rduua

(наглая реферальная ссылка выше, если вы оч жадный, можете скопировать и вставить без реф кода🤪)

@ohmydataengineer
👍12💩3
Пятничный юмор 😂

@ohmydataengineer
33👍2👎2
Ходуб умер.

https://www.youtube.com/watch?v=dDaQCNFaYvI

Громкий заголовок про то, что “YTsaurus — это будущее DWH”, конечно, но куда без этого.
Про сам доклад мнение не могу сформировать: то ли ребята перегнули и изобрели свой велосипед ради велосипеда, то ли офигеть от масштабности проекта и уровня проработки и детализации как инструмента, так и хранилища и SLA в нем и поплакать надо сложностью своих проектов 🤪

@ohmydataengineer
💩13🔥3👍2