Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Само решение достаточно не сложное, данные все хранятся в AWS S3 в Parquet. Другая команда использует kinesis и пишет в S3. Данные каждый час обрабатываются с помощью Athena и запускается в Glue Python Shell (даже не PySpark). Результат складывается в другой S3 bucket и дальше он проверяется с помощью другого Glue Job. Все метрики публикуются в Cloud Watch.

Cloud Watch подключен через SNS topic к Pager Duty, и в случае отклонения получаем alert в Slack. Сейчас решение мигрируется в Databricks, таблицы переходят с Parquet на managed delta tables (Parquet + Delta log). Для проверки качества данных используем DBX библиотеку. Самое забавное, цена в Databricks получается значительно дороже, чем в Glue Athena. В качестве оркестратора AWS Managed Airflow.
❤‍🔥16🤷31
Тут не только LinkedIn, даже все телеграмм каналы про ИТ👀
Please open Telegram to view this post
VIEW IN TELEGRAM
78😭28❤‍🔥9🦄6🐳2🤷‍♀1🍌1
MWS Cloud запустила платформу для внедрения и работы ИИ, выйдя на рынок объемом более 15 млрд рублей.

Платформа Inference Valve помогает вывести в продакшн обученные ML-модели, большие языковые модели и модели компьютерного зрения. С помощью платформы их можно разворачивать на инфраструктуре, подключать к ИТ-системам компаний через стандартные API, масштабировать, а также обновлять и мониторить.

После запуска кластера специалисты заказчика загружают артефакты модели (например, ONNX, TorchScript) в платформу, после чего она автоматически формирует контейнер сервиса и публикует эндпоинт. Платформа поддерживает одновременную работу сразу с несколькими моделями с выделением квот вычислительных ресурсов, управление версиями, маршрутизацию трафика между версиями и масштабирование под нагрузку как на GPU, так и на CPU.

Inference Valve также предоставляет метрики задержек и пропускной способности, мониторинг доступности, алёрты и дашборды; доступна телеметрия качества, включая отслеживание дрейфа данных и моделей, контроль целевых метрик и уведомления при деградации. Интеграция с системами наблюдаемости (Prometheus/Grafana) и журналированием запросов упрощает аудит и разбор инцидентов.


По словам CEO MWS Cloud, исполнительного директора МТС Web Services Игоря Зарубинского, платформа позволяет:

- В десятки раз быстрее интегрировать LLM и CV-модели с ИТ-системами компаний;

- На 70% снизить операционную нагрузку на ML-команды при эксплуатации моделей;

- Повысить автоматизацию CI/CD более чем на треть;

- Уменьшить затраты на GPU более чем на 15%;
🌚843
Пример data stack в компании Clair. Взял у них в Linkedin.

Очень стандартный и понятный кейс. Если сравнить с РФ кейсом, то на российском рынке нет 3rd party managed продуктов для ETL, BI, DW. Ну как нет, они-то есть, но всегда возникает вопрос, а где хостить? А где хранить данные? Вроде бы облаком можно отечественным, но вот много всяких НО.

Поэтому по опыту общения с коллегами вижу два основных направления:

1) полностью on-premise так, где может быть Hadoop+HDFS+Spark, Greenplum или Clickhouse.
Все остальное для слоя хранения редко и не обычно. Есть еще множество старых и надежных решений на SQL Server.

Для загрузки данных используют Python и запускают его в Airflow, иди стрим через Kafka.

2) компании по смелей или по меньше уже могут идти в облака и строить там аналитические решения на VK, Ya облаках. Причем у них есть отличная возможность хостить все на Managed Kubernetes, чтобы развернуть Airbyte, Metabase, Trino и тп. Такой кейс будет очень похож на западный, но выбор инструментов будет достаточно скуден и устоявшийся

На западе наоборот все, мы сначала выбираем public cloud - AWS, Azure, GCP. Затем выбираем слой хранения (Snowflake, Databricks, Trino, Athena, Synapse, BigQuery) и потом уже решаем как туда загружать данных и как их визуализоровать. Как правило все инструменты отлично поддерживают кейсы для ML, Streaming, Reverse ETL.

Еще кардинальная разница будет в DevOps и Data Observability. На западе очень много решений на любой вкус и цвет и все они стандартизированы и работают с любым из публичных облаков.

Поэтому в зависимости от ваших карьерных целей, ваш road map может отличаться.
💯17👨‍💻98🫡5🐳3❤‍🔥2
Гендиректор GitHub Томас Думке уходит, чтобы вернуться к работе над стартапами.

- Microsoft не будет назначать нового CEO и полностью интегрирует GitHub в свою AI-команду CoreAI.

- Теперь GitHub станет ещё теснее связан с развитием инструментов на базе искусственного интеллекта, таких как Copilot.

https://www.theverge.com/news/757461/microsoft-github-thomas-dohmke-resignation-coreai-team-transition

https://news.ycombinator.com/item?id=44865560
20🐳3🙈3🙊3🙉2
Для всех кто делает курсы - пример отличного pivot, как залететь в топ и создавать учебный контент, собирать лайки и просмотры😃
🌚3731🫡22🙈42
996 - новая норма для AI стартапов и BigTech.

Это значит с 9 утра до 9 вечера 6 дней в неделю. Говорят, что в Китайских компаниях это норма. Хотят недавно казалось, что все единогласно были против crazy work hours в западном мире. Так же, как и кто-то говорил, что 4х дневная рабочая неделя это круто и эффективно. Некоторые СЕО вообще говорят, что 6 дней это хорошо, но лучше 7 дней. Короче grinding in the office day and night это новая норма.

Время прошло, и теперь компании с самыми высокими зарплатами хотят, чтобы люди работали в офисе, 80+ часов в неделю. Чтобы себя заставить так много работать, надо от этого балдеть. Чтобы кайфовать от того, что ты делаешь, должен быть хороший incentive.

Я вообще верю, что в основе любой мотивации лежит incentive, он может быть материальный и нематериальный. В случае с AI компаниями, им удается сразу платить намного выше рынка, даже рядовым инженерам. И все они работают над крутой миссией, ощущая себя причастным к великому. Часто в ущерб здоровью и семье. Но каждый волен делать, что ему нравится.

Возможно когда вам 20-30, самое время фигачить по 80+ часов и зарабатывать как CEO. Хотя реальность такова, что вы можете работать столько же много и получать низкую зарплату, и даже не работать на созданием AGI, а просто ковырять кривые отчетики в токсичной компании с токсичным руководством.

С другой стороны, чтобы создать что-то великое, нужно пахать, пахать и гореть тем, что ты делаешь - get rich or die trying?:)

Я уверен у каждого должен быть период в жизни 996, но это не должно становится нормой. Тут как в анекдоте про профессионалов и любителей.

Вызывают на заводе двух инженеров чинить сломавшийся станок.

Любитель:
Приходит с чемоданом инструментов, раскручивает половину станка, меняет кучу деталей, возится весь день. В итоге станок кое-как заработал, но с грохотом и искрами.

Профессионал:
Приходит, слушает станок пять секунд, достаёт маленький молоточек, тук — и всё заработало идеально.

Директор удивлён:
— И за что вы хотите 500 долларов? За один удар?


Профессионал:
— Нет. Один доллар — за удар.
499 — за то, что знал, куда ударить.


Мораль, чтобы иметь хорошую карьеру, зарабатывать выше рынка, вам не обязательно работать в AI стратапе 996. Даже работаю в AI стартапе, вы все еще должны думать о job security. Совсем недавно, Cognition купил остатки Windsurf. Сразу уволили 30 человек. Остальным 200 предложили buyout, чтобы они ушли. Их СЕО сказал - «Мы не верим в work-life balance — миссия настолько важна, что разделить её с жизнью нельзя»

Поэтому каждый сам выбирает, что его делает счастливым🤝
🫡3923🙉16💯11🤷6🙈4🍌3
Вот были времена, когда люди делали code review и могли проявлять чудеса смекалки, а теперь все бездушный AI.
63😈7🙈1
А у нас кстати в Ванкувере ходят туры на Аляску🛥, не бывали еще на Аляске? Хорошее направление, может кто порекомендует?
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳24🌚14❤‍🔥77😈2🍌1
Сегодня я поймал себя на мысли, что через неделю начинается новый проект в новом стартапе, с кем я общался где-то месяц назад, но я не могу вспомнить их название.

Что это - Опыт? Старость? Пофигизм? 🦯 Наверно просто каникулы и work life balance, а не эти вот ваши 996🗽
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥42🙈5🫡3😈1
Media is too big
VIEW IN TELEGRAM
Записал видео для вас в августе 2024, но что-то не опубликовал, зато в августе 2025 можно вернуться в прошлое:)
❤‍🔥24💯16🐳6🫡31🌚1🙊1
В статье The Inconvenient Truths of Self-Service Analytics автор (Seattle DataGuy), рассуждает про Self-Service. Тот самый, которые еще появился во времена взрывного роста Tableau, Power BI и других вендоров, которые обещали самостоятельную аналитику для бизнес пользователей или как обычно бывают лили в уши клиентам, про их замечательные продукты, упуская из вида действительно важные составляющие такой аналитики.

Основные тезисы статьи:

Сформулируйте бизнес‑вопрос до создания
Не начинайте с данных и дашбордов. Сначала определите, для каких решений нужна аналитика. Без конкретной цели создаются многочисленные отчёты, которые никто не использует

Создайте управляемые и качественные потоки данных
Даже самый красивый дашборд бесполезен, если данные нельзя доверять. Необходимо обеспечить стандартизацию метрик, чёткие определения и автоматический контроль качества данных

Дизайн решений под конкретные роли
Разные роли (руководители, операционные команды) нуждаются в разных форматах аналитических данных. Универсальные дашборды часто не эффективны — нужен индивидуальный подход

Внедрение и обучение — это обязательная часть решения
Даже самый продуманный инструмент аналитики требует обучения пользователей и комфортного процесса внедрения. Без этого дашборды останутся невостребованными

Контекст отрасли важнее общего инструментария
Общие бизнес‑метрики могут не отражать конкретных реалий вашего бизнеса. Отраслевой контекст, особенности и знание процесса намного важнее красивых визуализаций

Иногда стоит привлечь внешних экспертов
Консультанты могут ускорить создание аналитической платформы — они обладают опытом и шаблонами, которые можно адаптировать под ваш бизнес, а затем передать команде

Переосмыслить "self‑service" — сделать это "action‑service"
Дашборд — лишь средство, а не цель. Настоящая ценность аналитики в том, чтобы она приводила к действиям: рекомендовать следующий шаг, автоматически реагировать на тренды и т.п.


То есть получается, что ни один вендор вам не сделает правильную self-аналитику. Это больше про настройку процессов, мониторинг качества данных, адаптацию пользователей через обучение и онбординг, принятие правильных и эффективных бизнес решений.

Вообще вендоры они такие, им бы лишь бы впарить свой продукт, и их маркетинговый отдел, который, как правило не сильно понимает разницу между BI и DW, готов на все, лишь бы привлечь ваше внимание💰 А иногда бывают, что и руководители в погоне за модными вендорами, готовы устроить очередную миграцию или внедрение shiny tech, лишь бы не заниматься действительно важной и полезной работой.
3💯20❤‍🔥8🐳61
На этой неделе буду в Денвере, Колорадо, а в выходные в Сиэтле. Можно как обычно на data&drinks🗽
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥135💯4😭1
Признавайтесь у кого сколько мониторов))
❤‍🔥5544🌚26
This media is not supported in your browser
VIEW IN TELEGRAM
1❤‍🔥47🐳15💯72
Forwarded from topdatalab (Roman Zykov)
Data Engineer в мою команду в Лондоне!

Начал искать инженера данных в свою команду в Лондоне.
Уровень ближе к Senior. Предпочтительно в Лондоне.
У нас нестандартый open-source стeк: https://news.1rj.ru/str/topdatalab/426

Ссылка на вакансию: https://newfts.bamboohr.com/careers/180?source=aWQ9MTE%3D
❤‍🔥18🌚8🙈3
Все выступления конференции MCP Dev Days (29–30 июля 2025 г.) теперь доступны онлайн в свободном доступе.
👉 Полный плейлист MCP Dev Days на YouTube

День 1 — DevTools и Сообщество
- Ключевая сессия: «Строим будущее AI-разработки вместе» — спикеры Jay Parikh (EVP Core AI, Microsoft), James Montemagno, Linda Li, Drew Hodun, Burke Holland и Donald Thompson.
- MCP Power-User Mode: обзор всех возможностей MCP в VS Code (демо от Liam Hampton).
- Discoverability Unlocked: публикация и поиск MCP-серверов в Community Registry (Toby Padilla, Tadas Antanavicius).
- Chat with the Web: проект NLWeb о диалоговом взаимодействии с интернетом (Ramanathan Guha, Jennifer Marsman, Chelsea Carter, James …).

День 2 — Построение серверов и безопасность
- Использование MCP в продакшене
- MCP с AI-агентами
- Безопасность и практики защиты
- Инструменты поддержки экосистемы

В канале уже много раз обсуждался MCP, один из новых трендов в AI, который важно знать и понимать для инженеров и руководителей. Я пока только использую MCP для подключения к базе данных (Snowflake), чтобы было легче в Cursor получать контекст для генерации кода (Terraform, dbt SQL/YML, Python).

В Surfalytics у нас появился специальный канал dev-boost-with-ai, в которым мы делимся подходами к работе с AI и материалами. Пользователи разделились на Cursor и Claude Code.
7❤‍🔥6💯1
Навык объяснять, почему модель предсказывает именно так, сегодня ценится не меньше, чем умение её обучить.

Нашли занятный материал на Хабе о том, как визуализация с помощью SHAP (от summary_plot до PDP и ICE) помогает не просто анализировать, а понимать, какие фичи реально влияют на отток клиентов. Эксперт ВТБ Андрей Бояренков делится эффективными приёмами: от выбора признаков до цветовой кодировки и примеров кода.

Это тот случай, когда объяснимый ML = сильное резюме и больше доверия к вашей модели.

👉 Читайте разбор с примерами и лайфхаками: https://habr.com/ru/companies/vtb/articles/938988/
💯14🦄5🙊5
Forwarded from Грокс
Американские рынки падают и Financial Times заявляет, что Уолл-стрит напугал отчёт из именитого MIT. Согласно ему, на внедрение искусственного интеллекта бизнес в США потратил около 40 миллиардов долларов, однако лишь 5% компаний смогли интегрировать ИИ в свои производственные процессы и зафиксировать увеличение прибыльности. 95% организаций не получают никакой отдачи («are getting zero return»). Галя, у нас отмена!

https://www.ft.com/content/33914f25-093c-4069-bb16-8626cfc15a51
31🦄7💯1
Forwarded from TechSparks
Помните классику?
Ученый на интервью: «Все мои суждения бессмысленны, если они вырваны из контекста». Заголовок в газете на следующий день: «Знаменитый ученый признался, что все его суждения бессмысленны!»

Вот буквально это проделали журналисты и эксперты с недавним отчетом MIT о «полном провале ИИ-инициатив в корпорациях». Велик шанс, что вам на днях попадались заголовки про «всего 5% ИИ-инициатив успешны» и «ИИ провален в 95% случаев». Внимательно прочитать 26 страниц текста с картинками, похоже, мало кто смог.
Поэтому порадовала редкая статья, где автор с некоторым недоумением замечает, что отчет-то совсем о другом — если его прочитать. Он о том, что сотрудники массово и добровольно используют публично доступный ИИ в своей повседневной работе (и не пользуются корпоративными решениями в силу их очевидно более низкого качества).
a closer reading tells a starkly different story — one of unprecedented grassroots technology adoption that has quietly revolutionized work while corporate initiatives stumble. Это не проблемы ИИ, а полная некомпетентность руководителей, поэтому — уникальный случай! — происходит «революция снизу»: researchers found that 90% of employees regularly use personal AI tools for work. И вот про эти 90% не написал никто. Поразительно, но сформировалась «теневая экономика ИИ», не попадающая в корпоративные отчеты: Far from showing AI failure, the shadow economy reveals massive productivity gains that don’t appear in corporate metrics.
Почитайте материал по ссылке, если уж не сам отчет, там много интересных примеров:)
https://venturebeat.com/ai/mit-report-misunderstood-shadow-ai-economy-booms-while-headlines-cry-failure/
❤‍🔥23🦄125👨‍💻21💯1