DE – Telegram
516 subscribers
311 photos
80 videos
15 files
404 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Forwarded from Rings & Moons
Аппаратов Starlink стало так много, что они уже фотобомбят снимки других спутников. Наглядный пример от компании Maxar перед вами. Вся эта совокупность цветвых и черно-белых пятен — попавший в кадр Starlink-33828. В момент съемки он находился на расстоянии 71 километра от спутника Maxar, двигаясь относительно него со скоростью 1,4 км/с.

Что касается цели съемки, то в Maxar фоткали китайскую авиабазу Динсинь, которую также иногда называют китайской Зоной 51. Она расположена в пустыне Гоби и используется в качестве полигона для испытаний различной техники и тренировок пилотов.
8
🛸🇦🇪🇨🇳 Пятый элемент подлетел ближе.

Помнишь, как такси Корбена Далласа лавировало между небоскрёбами? Кажется, дубайское небо готовится к своей версии - XPENG AeroHT получила специальное разрешение на полёты своего модульного летающего автомобиля.

#future #cars #drones
5❤‍🔥1
Codex CLI от OpenAI – скаковая лошадь без седла.

Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.

Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!

Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.

Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.

У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.

Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.

Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.

Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.

Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.

Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.

Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.
❤‍🔥5👏2😁11
По ссылке бесплатно раздают электрическую версию книжули "Data Engineering Design Patterns"

🔘Руководство от Bartosz Konieczny, посвящённое шаблонам проектирования в инженерии данных - т.е. проверенным решениям общих задач при построении надёжных и масштабируемых пайплайнов данных.

🔘Темы, которые покрываются: ingestion (сбор), качество данных, идемпотентность (чтобы операции можно было повторять без побочных эффектов), наблюдаемость данных (observability), обработка ошибок, оптимизация хранения и др.

🔘Подход технично-агностичный: не завязан на конкретную технологию, скорее принципиальные шаблоны и примеры из open source.

#de #book
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥113👏1
DE patterns.pdf
6.9 MB
❤‍🔥12
🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
1👏9❤‍🔥22
42❤‍🔥1
😁13
Forwarded from Data Secrets
Из xAI за одну ночь уволили 500 человек

Все они работали разметчиками данных. 500 специалистов – это, если что, примерно треть всего подразделения аннотаций данных. А подразделение аннотаций, в свою очередь, является самым большим в xAI.

Увольнения прошли не слишком гладко и красиво: сотрудникам отправили внезапные письма по электронной почте с уведомлением об увольнении и в тот же день отозвали все доступы. На xAI уже сыпятся жалобы, но в это мы углубляться не будем.

Интересно другое: в тот же день (это была пятница) xAI со своего аккаунта в X выложили пост такого содержания:

ИИ-тренеры в xAI приносят огромную пользу. Мы увеличиваем нашу команду ИИ-тренеров в 10 раз!

Мы нанимаем специалистов в таких областях, как STEM, финансы, медицина, безопасность и др. Присоединяйтесь к нам и помогите нам создать искусственный интеллект, ищущий истину!


Да, мы ничего не перепутали. Они уволили 500 ИИ-тренеров и тут же объявили, что хотят набрать несколько тысяч человек в эту же команду.

Видимо, увольнения не были вопросом низкой эффективности сотрудников, скорее – это стратегия. Судя по всему, уволили только аннотаторов «общего назначения», то есть тех, кто не является большим специалистом в какой-то области, а скорее занимался универсальной более тривиальной разметкой.

Такую разметку явно хотят автоматизировать, а человеческие ресурсы использовать только для нетривиальных задач в сложных областях. И в этом есть смысл.

Интересно, эта новость к какой категории относится, «ИИ забирает нашу работу» или «ИИ создает новые рабочие места»?
8
Forwarded from Oleg K
Гайз, привет!
Уже совсем скоро Smartdata'25, а это значит что там будут свежие результаты опроса State-of-Data, ну а это значит что я призываю всех и каждого не просто принять участие самим, но и распространять информацию об этом.

➡️ Сам опрос тут
пройди сам, приведи троих коллег из соседних компаний :)

зы результаты прошлого года в презентации тут, видос тут
зыы лендос с результатами '24 + сырье в виде arrow(хехе) уже вот-вот на подлете
зыыы доклад с результатами '25 откроем для всех сразу же после конфы
❤‍🔥6
Forwarded from Сиолошная
OpenAI выпустили новую GPT-5 😑

...заточенную на программистов, GPT-5 Codex. Эта модель заменит o3 в Codex в веб-клиенте (наконец-то) и уже доступна в локальном Codex CLI / плагине для вашей IDE. Если вы ещё не пробовали — обязательно попробуйте! Это бесплатно, если вы подписаны на любой тир ChatGPT. В комментариях многие отмечали, что им нравится больше, чем Claude Code, и модель работает лучше.

GPT-5 Codex дотренировали на новых сложных реальных задач, создании проектов с нуля, добавлении функций и тестов, отладке, проведении масштабных рефакторингов и ревью кода.

По стандартному бенчмарку SWE-bench Verified разница не особо заметна, 74.5% против старых 72.8%. Однако на внутреннем бенчмарке OpenAI на задачах рефакторинга модель стала гораздо лучше: прыжок с 33.9% до 51.3%!

Но и это не всё: модель стала писать меньше бесполезных или ошибочных комментариев, лучше ловить баги в коде, и... думать меньше, когда это не надо. OpenAI взяли запросы от сотрудников внутри компании и сравнили количество токенов в ответах двух моделей.

Там, где ответы были короткими, они стали ещё короче, а там, где цепочки рассуждений и сгенерированный код были длиннее — стало больше. Со слов OpenAI, во время они наблюдали, как GPT‑5-Codex работал автономно более 7 часов подряд над большими и сложными задачами, выполняя итерации по внедрению, исправляя ошибки тестирования и в конечном итоге обеспечивая успешное решение задачи.

Codex CLI и Codex Web получили кучу обновлений за последний месяц, но про них писать не буду.

В API модель появится скоро, очень ждём, пока замеряют качество и на других бенчмарках. В системной карточке модели указали лишь один — по решению многоступенчатых задачек по кибер-взлому (с соревнований CTF). Модель наконец-то статистически значимо обгоняет o3! Жаль, не замерили другие бенчмарки (вроде PaperBench).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5😁1
⭐️ Django vs Flask vs FastAPI - что выбрать в 2025?
JetBrains подвели итоги по трём лидерам Python-бэкенда:

▶️ Django - батарейки в комплекте: ORM, аутентификация, защита из коробки. Подходит для классических веб-приложений на реляционных БД, но тяжелее и медленнее конкурентов.

▶️ Flask - минимализм и свобода: выбираешь компоненты сам. Хорош для MVP и кастомных решений, но безопасность/фичи - через расширения и ручную сборку.

▶️ FastAPI - скорость и DX: async/ASGI, Pydantic/типизация, OpenAPI-доки из коробки. Идеален для API-первых и data/ML-сервисов, но экосистема моложе и уже.

#dev #api #django #flask #fastapi
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5😁11