DE – Telegram
522 subscribers
312 photos
81 videos
15 files
405 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Forwarded from Клуб CDO (Denis Afanasev)
Как говориться - "как корабль назовешь" (не на правах рекламы, за название - пятерка)

Закрома – передовое российское ПО для хранения и управления корпоративными данными

Гибридное хранилище, предназначенное для безопасного и экономичного хранения и управления корпоративными данными произвольного формата в крупных организациях.
ЗАКРОМА обеспечивает быстрый поиск, предоставляет API для удобного взаимодействия и обладает мощным контролем доступа. В основе ЗАКРОМА лежит современный стандарт S3, который позволяет создавать высоконадежное хранилище для эффективного хранения больших объемов данных.

https://zakroma.ru/
7😁4❤‍🔥2
Если вам кажется, что поиск Google за последние лет 5 испортился, то так оно и есть. В этой истории прекрасно всё 🤦‍♂️

- найм менеджера, который уже облажался в подобном проекте
- перекладывание вины с низкопробного менеджера на высококвалифицированного технаря
- индийские касты в сердце Калифорнии
- слом миссии инструмента с естественным ухудшением качества
- зацикленность на некорректных метриках

Эта история хорошо показывает, что у каждого инструмента должна быть миссия. У молотка - забивать; у холодильника - поддерживать определённую температуру (а не хранить продукты, ха-ха); у трансформатора - преобразовывать напряжение. А для оценки их эффективности мы должны использовать корректные метрики. Будет ли такой у молотка количество забитых гвоздей (MAU)? Или как часто мы его достаём (retention)? Скорее нет, чем да.

И что будет, если мы будем развивать продукт в альтернативном направлении в ущерб основному? Например, пытаться сделать трансформатор тише за счёт качества? В итоге мы потеряем как продукт, так и пользователей. Так что для каждой новой фичи стоит задаваться вопросом "а это действительно то, что должно делать приложение?". Feature creep ближе, чем вы думаете :)

P.S. А тем временем наш герой пошёл дальше https://www.interfax.ru/world/987355

https://habr.com/ru/companies/ruvds/articles/851280/ #менеджмент
1❤‍🔥3😁1
Процесс разработки в команде DE

#meme #dev
😁11
😁10
😁171
Forwarded from DE
or
Anonymous Poll
50%
macos
50%
linux
😁6
17😁2❤‍🔥1
Forwarded from Хитрый Питон
Мигель Гринберг, известный своим мега-туториалом по Flask написал большой пост про обработку ошибок в python. Вопросы "когда и какие эксепшены обрабатывать" и "откуда мне узнать, какие эксепшены тут могут возникнуть" особенно актуальны у новичков, я даже у мидлов видел с этим затруднения. Статья довольно длинная, но я очень рекомендую потратить время и почитать https://blog.miguelgrinberg.com/post/the-ultimate-guide-to-error-handling-in-python

Оказывается, на хабре опубликовали перевод статьи https://habr.com/ru/articles/853056/
8
Блогпост про Apache Datafusion Comet.

🟣почему все так хотят ускорить Apache Spark на DWH-нагрузках
🟣что хорошо в Spark, а что хотелось бы видеть чуть иначе.
🟣обзор Databricks Photon и Apache Gluten (incubating), которые предлагают плагины для Spark для замены JVM-рантайм на нативный
🟣обзор Datafusion Comet, как оно работает под капотом, что уже умеет и в чём уникальные фишки, если сравнивать с Gluten или Photon
🟣история личного контрибьюта автора поста:
🟡как писать PhysicalExpr для Datafusion
🟡generic листы в Apache Arrow
🟡удобства rust-gdb

#datafusioncomet #datafusion #spark
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8
Forwarded from Data is data
На 2025 год нам обещают волну компьютерных атак класса data poison. Отравление данных — это когда кто-то специально изменяет датасеты, которые используются для обучения систем искусственного интеллекта (ИИ), ML, чтобы заставить эти системы работать неправильно или выдавать неверные результаты.

Что может быть:
1. Неправильная маркировка. Атакующий может изменить метки данных.
2. Добавление вредоносных данных: В обучающие данные можно добавить специально созданные примеры, которые заставят систему принимать неверные решения.

Т.е. не DROP DATABASE, а добавляем в датасет несколько тысяч строчек, меняем чуток классы и опа, на наш паспорт бомжа выдают кредит в несколько миллионов рублей. Ну или прогнозные модели по погоде, транспорту начнут давать неверные результаты. Или ПО для автоматического выявления угроз в сети компании начнёт не замечать наш троянчик. Или копилот в IDE будет выдавать заведомо дырявый код. Чем дальше пойдёт внедрение AI/ML, тем больше будет таких атак.

Как защититься ? Хранить статистики, контрольные суммы, сличать, смотреть выбросы. Думать.
❤‍🔥10😁3
Как с помощью grep, cut, awk, sort сделать базу данных. Но зачем? 😂

Но я утащил эту статью в закладки, т.к. здесь собраны самые популярные комнды для работы с текстом. Надеюсь, никогда не понадобится 😰

https://habr.com/ru/articles/857756/ #linux
8❤‍🔥3😁1
📝 Данные и их разметка в 2024 году: развивающиеся тенденции и требования будущего

Интересная статья о разметке данных. Ключевые моменты:

🤔 Текущие тенденции:

👍 Увеличение сложности наборов данных
👍 Переход на разметку в реальном времени
👍 Масштабное развитие автоматизированных инструментов в дополнение к ручной обработке

🤔 Прогнозы рынка:

👍 Ожидается рост до 8,22$ млрд к 2028 году при CAGR 26,6%
👍 Требования к качеству и скорости разметки растут и будут расти по экспоненте

😎 Технологические тенденции:

👍 Адаптивный ИИ
👍 Метавселенная
👍 Индустриальные облачные платформы
👍 Усовершенствование беспроводных технологий

Автор указывает, что индустрия разделения данных будет стремительно развиваться из-за растущего спроса на точные и надёжные данные для ИИ и машинного обучения.

Автоматизация, адаптивный ИИ и новые технологические решения повысят качество и скорость разделения данных.

#data #de #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6
GitHub Copilot is now available for free

Но есть нюанс, только VS Code и есть лимиты.

ref

👩‍💻

#github #copilot #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5
9 законов (принципов) программирования — это база.

0⃣ Закон Брукса — если ты посадишь трёх разрабов за одну задачу, они не сделают её в три раза быстрее. Чем больше твоя команда, тем сложнее становится координация и планирование.

1️⃣ Закон Гудхарта — чем жёстче твои KPI и метрики для измерения эффективности, тем сильнее они отвлекают от выполнения самих задач. В самых запущенных случаях люди забивают на задачи и переключаются только на KPI.

2️⃣ Закон Хайрама — чем больше юзеров у API, тем сильнее они полагаются на незадокументированные особенности, превращая их в «обязательные» функции. Из-за этого любые изменения становятся сложными, ведь легко сломать что-то для тех, кто уже привык к старым фишкам.

3️⃣ Закон Конвея — структура программ часто повторяет организационную структуру команды, которая её создала. Если слепо следовать границам в команде, софт получится неоптимизированным.

4️⃣ Закон Линуса — база опенсора. Чем больше людей проверяют код, тем больше шансов найти ошибку.

5️⃣ Закон Хофтшадтера — дедлайн всегда нужно ставить с запасом. Мы склонны занижать количество времени, необходимое для выполнения задачи.

6️⃣ Закон Кернигана — код всегда должен быть простым и понятным. Сложный код всегда становится неподъёмным в отладке и сопровождении — это только вопрос времени.

7️⃣ Закон Питера — софт- и хард-скиллы, это разные навыки. Так, топовый разраб не обязательно обладает такими же способностями к управлению людьми, руководству командами или выполнению стратегических требований лидерства.

8️⃣ Закон Парето — усилия должны быть избирательными. Чтобы 20% усилий приносили 80% результатов, сначала нужно понять, куда прикладывать эти усилия. Качество всегда перевешивает количество, а результат важнее времени затраченного на задачу.


#dev #baza #pareto #laws #programming #engineering
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥10
Forwarded from partially unsupervised
Наткнулся на пост Top Python libraries of 2024, и набор библиотек в очередной раз затрагивает давно наболевшие топики:

1) несовершенство языка и пакетного менеджера (uv вместо pip, Whenever как лучший datetime, streamable как альтернатива встроенным коллекциям, очередной генератор/валидатор типов...);
2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталоась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.

Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.
❤‍🔥8
😮 Turso представили Limbo — переписанный на Rust вариант SQLite, обещают +20% к скорости, векторный поиск, асинхронность и сборку в WebAssembly.

1️⃣ Почему интересно: Rust даёт безопасность и асинхронность, векторные индексы полезны для ML/AI, а WASM-версия запускается прямо в браузере.

2️⃣ Главные фишки:
🟢+20% производительности
🟢Векторные индексы для поиска
🟢Асинхронная обработка запросов
🟢Сборка в WebAssembly

3️⃣ Где пригодится: Локальные проекты (edge computing, микросервисы), задачи ML (embeddings), лёгкие веб-приложения без серверов.

4️⃣ Итог: Limbo — свежий взгляд на SQLite с упором на скорость, лёгкость и современные сценарии (ML, браузеры, edge).

#turso #limbo #sqlite #dev #de #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
6😁3❤‍🔥11
PGlite — это революционная WASM-сборка PostgreSQL, которая позволяет запускать базу данных прямо в браузере без необходимости использования виртуальной машины Linux.

Теперь PostgreSQL компилируется в WebAssembly, что открывает возможность работы с эфемерными БД в памяти или на диске через IndexedDB.

В сочетании с Electric, PGLite становится идеальным инструментом для создания реактивных local-first приложений, где основой служит Postgres.

#WASM #FrontendMagic #pg #pglite #db #postgres #databases
9❤‍🔥11