DE – Telegram
522 subscribers
312 photos
81 videos
15 files
405 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Надпись на аверсе ордена:
Код плести - не мудями трясти!
😁121
🤖 gpt-4o объясняет мем:

Этот мем иллюстрирует различные паттерны создания и управления объектами в программировании, используя метафору напитков. В каждой сцене персонаж хочет получить "красный напиток" (объект), но отклоняет различные способы его получения, пока не доходит до правильного варианта — Dependency Injection (внедрение зависимостей). Давайте разберем каждую часть:

1. New Local Instance — создаётся новый экземпляр прямо на месте. Персонаж отказывается, потому что этот подход ведет к множественному созданию объектов, что может нарушить контроль над зависимостями.

2. Static / Global Instance — создаётся глобальная или статическая переменная, которая доступна в любом месте. Персонаж также отклоняет этот вариант, так как глобальные объекты могут вызывать трудности с тестированием и управлением состоянием.

3. Service Locator — объекты получаются через сервис, который выступает в роли "портала" для доступа к зависимостям. Персонаж снова говорит «нет», так как это может скрыть реальные зависимости и усложнить код.

4. Dependency Injection — персонаж наконец соглашается. Этот паттерн решает все проблемы предыдущих методов, так как зависимости передаются через конструкторы или методы, что облегчает тестирование, модульность и управление зависимостями.

Шутка в том, что персонаж, возможно, сталкивался с этими решениями в ходе работы и теперь понимает, что внедрение зависимостей — лучший способ управления объектами в современных приложениях.


#dev #arch #meme #ai #gpt #gpt4 #gpt4o
Please open Telegram to view this post
VIEW IN TELEGRAM
😁73
Выкатили релиз Python 3.13.0, и он приносит несколько важных обновлений, которые могут улучшить производительность и удобство разработки.

▶️Экспериментальная поддержка JIT-компиляции, которая обещает значительное ускорение работы кода.

▶️Появилась возможность редактирования многострочного кода в интерактивном интерпретаторе, что облегчает работу с длинными выражениями.

▶️Добавлены новые возможности для работы с типами, такие как typing.TypeIs.

▶️Для мобильных разрабов теперь доступны поддержка Android и iOS на уровне Tier 3.

Детали релиза тут: Python 3.13.0.

#dev #python #release #3.13
Please open Telegram to view this post
VIEW IN TELEGRAM
11
Ни стыда ни совести 🙂

ref
Please open Telegram to view this post
VIEW IN TELEGRAM
😁114
Forwarded from Клуб CDO (Denis Afanasev)
Как говориться - "как корабль назовешь" (не на правах рекламы, за название - пятерка)

Закрома – передовое российское ПО для хранения и управления корпоративными данными

Гибридное хранилище, предназначенное для безопасного и экономичного хранения и управления корпоративными данными произвольного формата в крупных организациях.
ЗАКРОМА обеспечивает быстрый поиск, предоставляет API для удобного взаимодействия и обладает мощным контролем доступа. В основе ЗАКРОМА лежит современный стандарт S3, который позволяет создавать высоконадежное хранилище для эффективного хранения больших объемов данных.

https://zakroma.ru/
7😁4❤‍🔥2
Если вам кажется, что поиск Google за последние лет 5 испортился, то так оно и есть. В этой истории прекрасно всё 🤦‍♂️

- найм менеджера, который уже облажался в подобном проекте
- перекладывание вины с низкопробного менеджера на высококвалифицированного технаря
- индийские касты в сердце Калифорнии
- слом миссии инструмента с естественным ухудшением качества
- зацикленность на некорректных метриках

Эта история хорошо показывает, что у каждого инструмента должна быть миссия. У молотка - забивать; у холодильника - поддерживать определённую температуру (а не хранить продукты, ха-ха); у трансформатора - преобразовывать напряжение. А для оценки их эффективности мы должны использовать корректные метрики. Будет ли такой у молотка количество забитых гвоздей (MAU)? Или как часто мы его достаём (retention)? Скорее нет, чем да.

И что будет, если мы будем развивать продукт в альтернативном направлении в ущерб основному? Например, пытаться сделать трансформатор тише за счёт качества? В итоге мы потеряем как продукт, так и пользователей. Так что для каждой новой фичи стоит задаваться вопросом "а это действительно то, что должно делать приложение?". Feature creep ближе, чем вы думаете :)

P.S. А тем временем наш герой пошёл дальше https://www.interfax.ru/world/987355

https://habr.com/ru/companies/ruvds/articles/851280/ #менеджмент
1❤‍🔥3😁1
Процесс разработки в команде DE

#meme #dev
😁11
😁10
😁171
Forwarded from DE
or
Anonymous Poll
50%
macos
50%
linux
😁6
17😁2❤‍🔥1
Forwarded from Хитрый Питон
Мигель Гринберг, известный своим мега-туториалом по Flask написал большой пост про обработку ошибок в python. Вопросы "когда и какие эксепшены обрабатывать" и "откуда мне узнать, какие эксепшены тут могут возникнуть" особенно актуальны у новичков, я даже у мидлов видел с этим затруднения. Статья довольно длинная, но я очень рекомендую потратить время и почитать https://blog.miguelgrinberg.com/post/the-ultimate-guide-to-error-handling-in-python

Оказывается, на хабре опубликовали перевод статьи https://habr.com/ru/articles/853056/
8
Блогпост про Apache Datafusion Comet.

🟣почему все так хотят ускорить Apache Spark на DWH-нагрузках
🟣что хорошо в Spark, а что хотелось бы видеть чуть иначе.
🟣обзор Databricks Photon и Apache Gluten (incubating), которые предлагают плагины для Spark для замены JVM-рантайм на нативный
🟣обзор Datafusion Comet, как оно работает под капотом, что уже умеет и в чём уникальные фишки, если сравнивать с Gluten или Photon
🟣история личного контрибьюта автора поста:
🟡как писать PhysicalExpr для Datafusion
🟡generic листы в Apache Arrow
🟡удобства rust-gdb

#datafusioncomet #datafusion #spark
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8
Forwarded from Data is data
На 2025 год нам обещают волну компьютерных атак класса data poison. Отравление данных — это когда кто-то специально изменяет датасеты, которые используются для обучения систем искусственного интеллекта (ИИ), ML, чтобы заставить эти системы работать неправильно или выдавать неверные результаты.

Что может быть:
1. Неправильная маркировка. Атакующий может изменить метки данных.
2. Добавление вредоносных данных: В обучающие данные можно добавить специально созданные примеры, которые заставят систему принимать неверные решения.

Т.е. не DROP DATABASE, а добавляем в датасет несколько тысяч строчек, меняем чуток классы и опа, на наш паспорт бомжа выдают кредит в несколько миллионов рублей. Ну или прогнозные модели по погоде, транспорту начнут давать неверные результаты. Или ПО для автоматического выявления угроз в сети компании начнёт не замечать наш троянчик. Или копилот в IDE будет выдавать заведомо дырявый код. Чем дальше пойдёт внедрение AI/ML, тем больше будет таких атак.

Как защититься ? Хранить статистики, контрольные суммы, сличать, смотреть выбросы. Думать.
❤‍🔥10😁3
Как с помощью grep, cut, awk, sort сделать базу данных. Но зачем? 😂

Но я утащил эту статью в закладки, т.к. здесь собраны самые популярные комнды для работы с текстом. Надеюсь, никогда не понадобится 😰

https://habr.com/ru/articles/857756/ #linux
8❤‍🔥3😁1
📝 Данные и их разметка в 2024 году: развивающиеся тенденции и требования будущего

Интересная статья о разметке данных. Ключевые моменты:

🤔 Текущие тенденции:

👍 Увеличение сложности наборов данных
👍 Переход на разметку в реальном времени
👍 Масштабное развитие автоматизированных инструментов в дополнение к ручной обработке

🤔 Прогнозы рынка:

👍 Ожидается рост до 8,22$ млрд к 2028 году при CAGR 26,6%
👍 Требования к качеству и скорости разметки растут и будут расти по экспоненте

😎 Технологические тенденции:

👍 Адаптивный ИИ
👍 Метавселенная
👍 Индустриальные облачные платформы
👍 Усовершенствование беспроводных технологий

Автор указывает, что индустрия разделения данных будет стремительно развиваться из-за растущего спроса на точные и надёжные данные для ИИ и машинного обучения.

Автоматизация, адаптивный ИИ и новые технологические решения повысят качество и скорость разделения данных.

#data #de #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6