🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Forwarded from Осторожно, карьерные работы! (Simon Osipov)
Пришло мне тут такое письмо от автора самой популярной платной новостной рассылки для айтишников:

Hi - this is Gergely, author of The Pragmatic Engineer Newsletter.

Last year, in April 2023, you shared details in the Tech Leader Compensation survey, conducted by The Pragmatic Engineer and VC firm Creandum. Creandum has since published their report, and today I'm publishing an in-depth look at these numbers. You can view details of this report here.

Делюсь c вами зарплатой лидов в этих ваших Европах.

@career_works
💩13👍7🔥21
Нас скоро всех заменят 😄

https://twitter.com/raunakdoesdev/status/1769066769786757375

Если вы не поняли из скриншотов, Steven дал доступ к своему аккаунту софтинке по имени Devin (отсюда игра слов Steven + Devin -> Deven) и та успешна пофиксила баг, при этом после прочтения документации задала дополнительный вопрос поддержке =)

Про Devin интернет трещит уже неделю - https://www.cognition-labs.com/introducing-devin

@ohmydataengineer

(p.s. напомнило последний сезон The Silicon Valley и бота Гилфойла)
(p.s. 2: советую посмотреть вот это видео если вы вдруг начали переживать https://www.youtube.com/watch?v=80MPXoRHvK8 по этому поводу)
💩7👍21🔥1
Пятничный юмор или как совет директоров попросил AI внедрить 😂 (true story)

@ohmydataengineer
😢19👍13💩42🔥1
https://boehs.org/node/everything-i-know-about-the-xz-backdoor

Всю прошлую неделю (и скорее всего, текущую тоже), Tech часть интернета будет бухтеть про XZ уязвимость, или, как ее прозвали "Бекдор для всего интернета". 2 года подготовки и ребятам почти удалось, но один из специалистов заметил проблемки с перформансом ssh (работал на 500 ms дольше), пошел разбираться и наткнулся на очень много интересного.

@ohmydataengineer
💩7👍64🔥1
https://mattturck.com/landscape/mad2024.pdf

Стабильный гость этого канала - MAD 2024 - Machine Learning, AI & Data Landscape.

@ohmydataengineer
💩19👍7🔥51
https://www.astronomer.io/state-of-airflow/

Астрономер выкатил репорт про текущее состояние Airflow. Если кратко - все хорошо у него, по скорость развития и контрибьюшенов опережает Spark и Kafka.

Ссылку сначала увидел у @dataexplorers, а потом у себя в почте.

@ohmydataengineer
12💩9👍3🔥3
Очень долго смеялся и плакал 😳

(ибо это все до боли знакомо)
2💩2
Forwarded from В IT чудес не бывает (Maxim Shulga)
Тема недели в #it_memes
🔥15💩4👍32
https://medium.com/intuit-engineering/how-intuit-data-analysts-write-sql-2x-faster-with-internal-genai-tool-c3b9d482208a

В продолжении прошлого пятничного мема, количество платформ и сервисов, которые за денюжку, подключиться к DWH и делать там запросики - увеличилось в 10 раз. И стоит это много, а вот поднять простенький https://huggingface.co/tsdocode/text-to-sql и натравить на мету - не, спасибо.

В статье, кстати, описан второй подход и оч даже хорошие результаты.

@ohmydataengineer
👍6💩3
https://github.com/airbnb/chronon

Airbnb выложил в открытый доступ то ли фичастор, то ли аггрегатор семантического слоя, то ли что то для AI 😂

Chronon is a platform that abstracts away the complexity of data computation and serving for AI/ML applications. Users define features as transformation of raw data, then Chronon can perform batch and streaming computation, scalable backfills, low-latency serving, guaranteed correctness and consistency, as well as a host of observability and monitoring tools.

It allows you to utilize all of the data within your organization, from batch tables, event streams or services to power your AI/ML projects, without needing to worry about all the complex orchestration that this would usually entail.

More information about Chronon can be found at chronon.ai.

@ohmydataengineer
💩82🔥2👍1
Коллеги делятся прекрасным из IL рынка бихдаты!


@ohmydataengineer
💩14😢111🔥1
Пятничный юмор!

Не постил ничего почти месяц. А вас стало только больше 😱
Пора возвращаться в ритм.

@ohmydataengineer
🔥20😢11👍64💩3
https://blog.picnic.nl/7-antifragile-principles-for-a-successful-data-warehouse-574b655f0bc6

В последнее время приходится много делать архитектурных задач, поэтому вытаскиваю из списка "Прочитать позже" всякие статейки про архитектуру и подходы в проектировании.

@ohmydataengineer
👍6🔥43💩3
https://mattermost.com/blog/making-a-postgres-query-1000-times-faster/

Обычно мне кидают какашонков на то, что статьи оч поверхностные или, еще хуже, не релевантные.
Сегодня, надеюсь, не такая 😂

На деле, конечно, ничего необычного и без серебрянных пуль, просто было приятно и полезно читать ход чужих мыслей, когда люди дебажат долгие запросы.

@ohmydataengineer
👍15💩15
https://habr.com/ru/companies/lamoda/articles/810705/

К сожалению, в России инженерные блоги компаний ведутся на Хабре, а не на stand-alone ресурсах.
Однако это не мешает появлению там интересных статей с деталями и разборами.

Например, у Lamoda про Spark & Airflow.

@ohmydataengineer
👍9🔥4💩4👎1🥱1
https://www.thdpth.com/p/whats-wrong-with-bi

Достаточно простой, но очень верный текст про текущее состояние BI. Главные пункты из статьи:

- Self-serve это красивая идея с очень фиговой реализацией
- BI используется теми, кто умеет им пользоваться, а не теми, кто должен (привет, эксельки для C-level)
- BI это дашборды и репорты, а должно быть support in decision making. Дашборды ради дашбордов, минимальное понимание зачем появляется на экране та или иная метрика и что с ней делать, если она изменяется.

@ohmydataengineer
👍12🔥52💩2😢1
https://tech.instacart.com/real-time-fraud-detection-with-yoda-and-clickhouse-bd08e9dbe3f4

Чем больше я смотрю и читаю про Clickhouse, тем больше я впечатляюсь его скоростью и работоспособностью прожевывать все и вся на гигантских объемах.

@ohmydataengineer
💩12👍5🔥1