DE – Telegram
522 subscribers
313 photos
81 videos
15 files
406 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Forwarded from DataEng
The Annual Airflow Survey

Если вы пользуетесь Apache Airflow, то давайте поможем сообществу собрать больше информации об использовании Airflow. До 20 ноября необходимо заполнить опросник на сайте взамен вы получите возможность пройти сертификацию по Airflow от Astronomer бесплатно (я сдавал их экзамен и он хороший). Опросник небольшой, замёт не более 10 минут вашего времени.
10
😁11
Время Валеры
На днях в open source выпустили распределённую файловую систему, которая рассчитана на эксабайты (тысячи петабайт). Сделали это чуваки из XTX, мощные трейдеры, которые известны двумя вещами: тем, что у них (по крайней мере недавно) был топ-3 кластер по количеству…
Новая ФС от алготрейдеров? Почему бы и нет. Говорят, каждый большой техно-бизнес рано или поздно пишет свою файловую систему - вот и XTX Markets не стали исключением. Они выкатили в open source собственную распределённую FS под названием TernFS. Эта система способна переваривать эксабайты данных и рассчитана на миллионы файлов и высокопараллельные нагрузки - то, что надо для их ML-ферм, где обычные NFS/Ceph уже не вывозят.

▶️ Конечно, чудес не бывает. TernFS не любит совсем мелкие файлы (<2 МБ) и не рассчитана на бесконечное создание миллионов отдельных каталогов. Файлы в ней только дописываются, но не изменяются после факта (immutable-дизайн). Своей системы разрешений/аутентификации нет - этим должен заниматься внешний уровень. Проще говоря, TernFS хороша для больших объёмов статичных данных (логов, моделей, бэкапов, результатов расчётов и пр.), но не годится как замена обычной FS в сценариях с частыми правками и мелочью.

▶️▶️ Вывод: XTX проделали тот же трюк, что и Google с Facebook - создали свою распределённую ФС под специфичные задачи, но внезапно поделились ею с миром. Репозиторий открыт (GPLv2) на GitHub - xtxmarkets/ternfs. Так что если однажды придётся укрощать эксабайты данных или просто хочешь разобраться, как устроена современная файловая система такого масштаба 6 почему бы не заглянуть? Всё-таки не каждый день финансисты выкатывают в open source технологии на уровне топовых IT-грандов 😉.

#fs #algotrading #trading #de
Please open Telegram to view this post
VIEW IN TELEGRAM
7😁1
Forwarded from DataEng
Ребята из Qdrant запустили бесплатный семидневный курс про свою векторную базу данных: Qdrant Essentials

Меня в последнее время интересует тема векторного поиска и векторных БД, и Qdrant как раз неплохой кандидат на изучение и реализацию какого-нибудь проекта (спойлер: домашнего векторного поисковика). Курс прям как по заказу!
❤‍🔥6😁1
Lakehouse 1.0 vs 2.0

🚀 Lakehouse 1.0 - попытка починить склад

Первая версия Lakehouse решала боль Data Warehouse, но делала это по-старому:

💾 Закрытая логика: Метрики и схемы жили в силосах BI-систем. Любая миграция - боль.

🔄 Одна сущность - три версии правды: Отчёт маркетинга ≠ отчёт продаж ≠ отчёт ops.

⚙️ Тесно связанные компоненты: compute + storage = монолит.

🔒 Vendor lock: Форматы, метаданные, даже governance принадлежали платформе-вендору.

🧩 Нет нативной семантики: Каждый инструмент крутил свои метрики вручную.

Результат - дорого, фрагментированно и очень трудно масштабировать без потери доверия к данным.

〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️

🏄‍♂️ Lakehouse 2.0 - построить систему, как работают команды

Второе поколение решает ключевую проблему - делает данные живыми, гибкими и нативными для разных стеков:

🧠 Semantic / Metrics Layer: Единый слой правды. Метрики, онтологии и контракты данных живут вместе.

🌐 Децентрализованные операции: Каждая команда (Sales, Mkt, Ops) может обновлять общую истину через свои доменные API.

🧩 Composable Compute: Можно выбирать движок: Spark, Trino, Dremio - без зависимости от формата.

🪶 Open Formats & Metadata: Никаких "запертых" схем. Метаданные - общие, интероперабельные.

🗂️ Catalog beyond data: Каталог объединяет логику, политику, lineage и ресурсы - мультиинструментальная, не моновендорная экосистема.

Lakehouse 1.0 - это инфраструктура.
Lakehouse 2.0 - это культура данных.

#de #dwh #lakehouse
Please open Telegram to view this post
VIEW IN TELEGRAM
6❤‍🔥2👏1
🤖 Робот по цене смартфона 🙂

Китайский стартап Noetix Robotics показал гуманоида Bumi за ¥9 998 (~$1.4k).

Детский рост 94 см, вес ~12 кг. Умеет ходить/бегать/танцевать, понимает голос и поддерживает блочное программирование для учебы и игр.

Предзаказ уже открыт в Китае (JD и оф. каналы) в окне 23.10 🔜 12.12.
Цена смартфона за домашнего гуманоида - потребительский сегмент реально стартовал.

#Bumi #Noetix #robotics #гуманоиды #роботы
Please open Telegram to view this post
VIEW IN TELEGRAM
17
Если вы вдруг не знаете, как оплатить подписку на OpenAI из РФ, то хочу вам прорекламировать отличный сервис - поисковик Github!🚀

Пара тысяч совершенно бесплатных ключей от вайбкодеров ждет вас🌚

https://github.com/search?q=OPENAI_API_KEY%3D%22&type=code
Please open Telegram to view this post
VIEW IN TELEGRAM
😁19❤‍🔥2
🤔 Почему у агентов текут секреты и как это остановить

Самая частая уязвимость в AI-агентах - не хакинг, а обычный лог.
Промпт, трейсбек, tool-вызов - всё это может случайно засветить токен или пароль.

Обычно утечка выглядит так:
➡️ агент пишет всё подряд в debug-лог;
➡️ system-prompt с ключами сохраняется в истории;
➡️ при ошибке фреймворк выводит traceback с параметрами;
➡️ кто-то забывает выключить print() в проде.

🧱 Как держать секреты в секрете

1️⃣ Не вставляй ключи в промпт - агенту они не нужны.
2️⃣ Передавай токены только внутри tool, а не через LLM-контекст.
3️⃣ Маскируй логи - sk-1234****abcd.
4️⃣ Отключай DEBUG в продакшене.
5️⃣ Не сохраняй историю диалога с system-prompt.
6️⃣ Ротируй ключи регулярно и автоматически.

🔐 Принцип минимального доверия

🔘Агент должен знать ровно столько, сколько нужно для задачи.
Ни больше, ни меньше.
🔘Каждый print() - потенциальный инцидент.
🔘Каждый лишний токен в prompt - потенциальная утечка.


#AI #AgentSecurity #AIAgents #CyberSecurity #DevSecOps #PromptEngineering #DataLeak #AIDev #Security #MLOps #LLM #OpenSource #TechSafety #AIпрактика #Инфобез #AIутечки #БЯМ
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥7😁2
DE
🤔 Почему у агентов текут секреты и как это остановить Самая частая уязвимость в AI-агентах - не хакинг, а обычный лог. Промпт, трейсбек, tool-вызов - всё это может случайно засветить токен или пароль. Обычно утечка выглядит так: ➡️ агент пишет всё подряд…
Санитайзер для гигиены секретов:

import logging, os, re

SECRET_PATTERNS = [re.compile(r'(sk-[A-Za-z0-9]{10,})'),
re.compile(r'(?i)api[_-]?key\s*=\s*([A-Za-z0-9\-_.]+)')]


def sanitize(s: str) -> str:
if not s:
return s
for p in SECRET_PATTERNS:
s = p.sub(lambda m: m.group(0)[:4] + '****' + m.group(0)[-4:], s)
return s


class RedactingFormatter(logging.Formatter):
def format(self, record):
record.msg = sanitize(str(record.msg))
if record.args:
record.args = tuple(sanitize(str(a)) for a in record.args)
return super().format(record)


logger = logging.getLogger("agent")
logger.setLevel(logging.INFO) # не DEBUG
h = logging.StreamHandler()
h.setFormatter(RedactingFormatter("%(levelname)s %(message)s"))
logger.addHandler(h)


#code #py #helper #AIsecurity
3👏63❤‍🔥1😁1
*️⃣OpenAI 21 октября 2025 года представила свой новый веб‑браузер под названием ChatGPT Atlas - браузер, построенный вокруг интерфейса ChatGPT.

Что умеет Atlas

🔜 Atlas встроил чат‑панель (sidebar), где ты можешь задавать вопросы прямо по содержимому текущей страницы - например:
🔘"Напиши саммари этого текста"
🔘"Сравни два товара"
🔘"Проанализируй данные"

🔜 Есть опциональный режим "Agent mode" (для подписчиков Plus/Pro) - браузер позволяет ИИ выполнять задачи вместо тебя:
🔘бронировать
🔘искать
🔘анализировать
🔘переходить между вкладками
🔘делать пулл-реквесты и т.д.

🔜 Контроль приватности и данных, или как минимум обещания - ты можешь управлять тем, что месси­нор браузера "запоминает". Atlas предлагает "browser memories"‑функцию, которая позволит ИИ хранить инсайты и факты о прошлых действиях, если ты разрешил.

⚡️ Почему это важно

🔜 Браузер - одна из ключевых точек взаимодействия с интернетом, и OpenAI явно стремится не только предложить чат, но изменить способ навигации.

🔜 Это сигнал: конкуренция с такими гигантами, как Google Chrome, выходит на новый уровень, когда ИИ‑интеграция становится не добавкой, а фундаментом браузера.

🔜 Но есть и вопросы: приватность, безопасность данных, сколько доверия стоит давать агентам, которые могут "действовать за тебя".

#Atlas #OpenAI #ChatGPT #AI #LLM #AIAgent #agents #ИИ #БЯМ #агенты
Please open Telegram to view this post
VIEW IN TELEGRAM
6😁1
Уже начал использовать Atlas? 👀
Anonymous Poll
13%
Да
87%
Нет
❤‍🔥5😁5
Внезапная новость: по результатам обсуждений разработчиков Apache Airflow решено отменить выпуск версии 3.1.1 RC1 и вместо него подготовить RC2.

Что произошло

🟢 23 октября 2025 года в рассылке разработчиков проекта был опубликован заголовок "[CANCELLED][VOTE] Release Airflow 3.1.1 from RC1".
🟢 Причина: связанная с выпуском ошибка зарегистрирована в GitHub‑issue #57145.
🟢 В письме указано, что голосование отменяется до устранения проблемы - после чего будет подготовлен релиз‑кандидат RC2.

Почему важно

🟡 Если ты планировал переход на Airflow 3.1.1 - стоит отложить обновление до выхода стабильного варианта после RC2.
🟡 Это демонстрирует, что команда проекта работает ответственно: пока ключевой баг не закрыт - релиз не будет утверждён.

#airflow #bug #release #de #dev
Please open Telegram to view this post
VIEW IN TELEGRAM
10😁1
DE pinned a photo
DE
Внезапная новость: по результатам обсуждений разработчиков Apache Airflow решено отменить выпуск версии 3.1.1 RC1 и вместо него подготовить RC2. Что произошло 🟢 23 октября 2025 года в рассылке разработчиков проекта был опубликован заголовок "[CANCELLED][VOTE]…
👍 Выкатили Airflow 3.1.1

Maintenance‑релиз поверх 3.1: "Significant changes" нет, зато много стабильности и UX‑правок. Если ты уже на 3.1.0 - апдейт пройдёт без сюрпризов.

😎 Что почувствуешь в проде:

✔️ Execution API: появился конфигурируемый таймаут запросов - проще управлять зависаниями/ретраями интеграций.
✔️ API × mapped tasks: можно очищать TI с указанием map‑индексов - точечно дёргать нужные ретраи, а не чистить все подряд.
✔️ UI/observability:
🔘 viewer логов теперь понимает ANSI‑форматирование;
🔘 гриды быстрее и аккуратнее рендерят большие DAG’и;
🔘 на странице Task Instances видны executor/hostname/queue - дебаг меньше ныряет в базы/логи.
✔️ Стабильность и багфиксы, которые закрывают острые кейсы:
🔘 Починили крэши scheduler’а (email‑нотификации; миграция 3.0 🔜 3.1 с retry_delay=None).
🔘 Починили падения DAG‑процессора при оптимизациях pre‑import.
🔘 Фикс утечки памяти в remote logging cache. ⚡️⚡️⚡️
🔘 Ряд точечных фиксов ретраев/deferred и контекста (mapped операторы, max_retry_delay, dag_run.conf=None, пр.). Полный список в релиз‑ноутах.
✔️ Интернационализация и UX‑детали: добавлены новые переводы (греческий, тайский и др.), fallback‑локаль на английский, улучшены подсветка логов, алерты в UI, авто‑refresh, мелкие визуальные правки.

И да, рядом поехал и Task SDK 1.1.1 - если выносишь таски за пределы core‑рантайма, это тоже к обновлению.

#airflow #de #data #dataengineering
Please open Telegram to view this post
VIEW IN TELEGRAM
8❤‍🔥1👏11
🚀 Новости воздушной мобильности

✈️ Korean Air и Archer Aviation подписали соглашение о совместном выводе eVTOL-самолётов Midnight в Южную Корею.

Авиакомпания планирует закупить до 100 машин, начиная с гос-применений (экстренные службы, инфраструктура) и далее - пассажирские перевозки.
Midnight рассчитан на пилота + 4 пассажиров, полёт 10–20 мин заменяет часовую поездку по земле.

🇰🇷 Это серьёзный шаг к реальной воздушной мобильности в Азии - с флотом eVTOL у национального перевозчика и подготовкой инфраструктуры под вертикальные площадки.

📦 Параллельно в США стартап DEXA (Drone Express) получил полный набор сертификатов FAA — Part 135 Air Carrier и BVLOS-разрешение на полёты за пределами видимости по всей стране. Теперь компания готова к масштабным коммерческим доставкам.

🤔 Тренд: воздушные технологии из стадии "демо" переходят в режим реальной эксплуатации - от дронов-курьеров до городских аэротакси.

#future #cars #drones #drone #aerotaxi #аэротакси #дроны
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥52👏1
😐 Nike запускает робо-кроссовки 😳

Nike представила технологию Project Amplify - первую в своём роде моторизованную систему для обуви, где лёгкий мотор, ременная передача и аккумулятор на голени помогают обычному человеку ходить и бегать легче.

Что интересно:
🔘Обувь оснащена углеродной пластиной и интегрированной моторной системой - экзоскелет для ног.
🔘Тестировщики сообщили: "подъёмы стали ощущаться как ровная поверхность, а темп бега улучшился с ~12 мин/милю до ~10 мин/милю".
🔘Nike акцентирует: эта история про каждодневное движение - время коммьютов, прогулок, лёгкого бега.
🔘Релиз пока не назначен - проект ещё в стадии разработки, но направление налицо: обувь становится технологическим устройством.

⭐️ Если идея захватит рынок - обувь перестанет быть просто модным аксессуаром и станет частью системы движения.

А ты бы надел такие кроссы? 🤔

#технологии #носимаятехника #Nike #robotics #спорт #sport #sneackers #кроссовки
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥4😁11
😁10
🙄 Албанский ИИ‑министр "беременна" - 83 "детей" для депутатов

Премьер Эди Рама в Берлине объявил: виртуальный министр Diella ждёт 83 цифровых помощников - по одному на каждого депутата правящей партии.
"Дети" будут участвовать в заседаниях, вести запись всего, что происходит, и подсказывать, как реагировать - даже если вы ушли на кофе


Что это значит: каждому депутату выдадут ИИ‑ассистента, который будет фиксировать повестку, присылать конспекты и уведомления о пропущенных обсуждениях и событиях.

Контекст: в сентябре 2025 Албания стала первой страной, где ИИ получил кабинетный пост. Diella курирует госзакупки - заявленная цель: сделать тендеры на 100% прозрачными и свободными от коррупции. Diella выросла из помощника на портале e‑Albania (с января 2025).

Не все в восторге: первое выступление Diella в парламенте сорвалось криком оппозиции- скандал и бойкот заседания.

Сроки: пилот идёт; полная готовность - конец 2026.

Как тебе такой govtech? 😵‍💫

🇦🇱 #ИИ #Албания #AI #LLM #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6❤‍🔥1👏1