Nik в мире данных – Telegram
Nik в мире данных
931 subscribers
8 photos
1 video
1 file
42 links
Автор канала - @nikbeesti
Download Telegram
Forwarded from New Yorko Times (Yury Kashnitsky)
Кремниевые читеры кругом
#genai #coolstorybob

В контексте двух постов выше: встал я в 6:30, рулю себе в Утрехт, поля, солнышко, красота. Демка готова, все потестил. Часть демки – агент NL2SQL, спрашиваешь у него что-нибудь, он идет в BigQuery, сиквелом тащит данные и отвечает. Локально все работало, вечером тестил и в нашей агентской системе, на паре запросов сработало, на полноценные тесты с ковырянием продакшн-логов времени не было (ну вы поняли, к чему я).

Утром перед воркшопом смотрю, чет агент ругается на аутентификацию в BigQuery. Хотя ровно с теми же запросами (типа "покажи 5 самых популярных стран в таблице") накануне вечером все было норм. Убедился, что auth и правда не работает. Как же агент до этого отвечал?

И что же наш кремниевый пиздабол придумал?

Не сумев залогиниться в BigQuery, агент написал очень правдоподобный неработающий SQL (все по синтаксису норм, только селект из датасета, а не таблицы), на щщях заявил, что исполнил SQL, в деталях пояснил за синтаксис и выдал ответ: самые популярные – США, Китай, Германия, Япония и Франция. И ведь 4 из 5 угадал, упырь, только с Францией промахнулся.

Благо, это всего первая демка, а не закрытие проекта и пофиксим, конечно (хотя жду коменты про skill issue), но наподобие артефактам с оптимизируемой функцией в RL, интересно следить за тем, как агенты выкручиваются. В целом мы зачастую так же домашки и зачеты сдавали на физтехе, так что если не пхд, то student-level intelligence уже виднеется.

И удачи нам всем с агентами в проде 😳 (VibeOps, как это окрестил мой неназванный друг Вадим). К дискуссии выше о том, когда оно нас всех заменит
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3😁3❤‍🔥2
Data Engineering Design Patterns 📚

Пока все читают DDIA и Fundamentals of Data Engineering, есть один must-have для дата инженеров, про который не все знают.

Книга Data Engineering Design Patterns от Bartosz Konieczny -🏆 абсолютный топ для подготовки к Data System Design Interview и просто отличное дополнение к базе.

Я всё ещё в процессе чтения, но уже точно в список рекоммендаций у меня

⚡️ Какие data patterns обсуждаются внутри:

- Data Ingestion (event-driven, incremental, data readiness…)
- Error Management (Late Data, Filtering, Fault tolerance…)
- Idempotency (immutable dataset, transactional writer…)
- Data Value (Enrichment, Aggregation, Decoration…)
- Data Flow (Fan-In, Fan-Out)
- Data Security
- Data Storage (Partitioning, Performance Optimizer)
- Data Quality (и куда уж без WAP-паттерна ❤️)
- Data Observability (Skew, Lag detector…)

Иногда паттерн расписан так, что хочется взять и повайбкодить прямо сейчас 😂

📘 Было бы круто собрать книжный клуб по ней. Если кто-то уже делает или хочет - пинганите.

К чему же этот пост - тут раздают бесплатную электронную версию.

🔥 Спасибо за наводку каналу @data_engi
Please open Telegram to view this post
VIEW IN TELEGRAM
👍199❤‍🔥6🔥42🐳1
Как Nik в AI-стартап собесился 🔼

Возвращаем любимую рубрику читателей!

Работу я, конечно, не ищу (ага, посмотрим на февральские деньки aka перф ревью 👨‍🦳). Но тут внезапно написал стартап - делают диффузионки и Image Gen для профи (дизайнеры, иллюстраторы и все такое). Название думаю сами распарсили 😄

Роль звучала оч забавно - Data Analyst with Engineering focus. На деле - Foundational Data/Analytics Engineer: с нуля строить дата-ландшафт, чтобы у аналитика были не только бекэндеры для датки 😂.

Этапы

HR interview ☎️
Стандартный скрининг. Но у стартапов HR - это уже pitch deck, так что можно сразу узнать инсайды на уровне развития компании

Live Coding 👨‍💻
SQL + Python с аналитиком. Около LeetCode но, с подумать над парсингом задаче в структуре данных. В питоне дали задачку уровня medium, но с условием на матожидание (которую я благополучно забыл с универа). Честно сказал: «ребят, я тут не с вшэ, так что хз 😃». В итоге дали подсказку и не минуснули за это. SQL был плюс-минус стандарт.

Из забавного, самое сложное для меня было писать код на питоне, я за полгода реально забыл как писать бойлерплейт из-за кодогенерации 😡

Data System Design 🌺
С техлидом бэка. Не классическое «рисуем квадратики», а кейс «как из Analytics Platform A переехать в B, если ты стартап но делаем все на open source.. Получилось в стиле: я рассказываю, как я бы делал, получилось интересно, много про стриминг поболтали

Experience interview 👉
С тем же аналитиком и Chief of Staff. Разговор про демократизацию аналитики и «как не быть узким горлышком» (спойлер: AI + обвязочки всего). Половина behavioural, половина про задачи

Final interview 🧑‍💼
CEO + analyst. Тут внезапно выяснилось, что скоуп задач уже поменялся 😺: вместо DWH для аналитики идем в сбор метрик и улучшение моделей, что в целом имело смысл. Ну, классика стартапа - пока ты общаешься с ними, компания успела pivotнуть три раза (но правда в корпоратах можно и реоргнуться раза три за год 🫡)

Итог 🏁
Оффер дали (по локал UK рынку я бы сказал очень хорошо, >= t2 точно). Но кек тоже был: роль назвали analyst developer, а при 30+ людях у них было 6+ грейдов (вайбы какой компании почувствовали? 🙂).

Компания похоже огонь, задачи топ, процесс тоже не вызвал бугурта, но работать надо было бы реально много (ну GenAI все-таки, у нас тут по индустрии 996). В итоге отказался. Но будь это полгода назад - залетел бы без вопросов, а потом писал бы тут посты "я опять безработный, но зато опыт 😅".
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍3😁2🆒2
Forwarded from Nik B
Всем привет! А у нас снова онлайн митап!

Осенняя серия dbt & modern data stack talks начинается 25 сентября в 19:00 (+3 GMT)

Подробные детали по спикерам и темам - https://inzhenerka.tech/dbt_meetup

Можно регаться в бот по ссылке, если предпочитаете подписку через бота - https://news.1rj.ru/str/dbtmeetup_bot?start=211128

Как обычно, прямая трансляция будет в ютуб и других платформах
🔥202
Access Agents + метаданные: как разрулить доступ в огромном Lakehouse

TL;DR

В статье и докладе Meta описывает мультиагентную систему:

- Data User Agents 🧑 - ускоряют получение доступа пользователями (вплоть до «частичного» предпросмотра для чувствительных данных).
- Data Owner Agents 🤖 - автоматизируют управление доступом от лица владельцев сущностей и соблюдают политики доступа.
- Orchestrator Agent 🌺 - управление переговорами между агентами и обработка принятого решения

В видео говорится, что система настроена консервативно: при сомнительных кейсах доступ не выдаётся автоматически. При этом более 70% запросов обрабатывается без вовлечения владельцев данных.

Где посмотреть? 🎦

Видео - https://www.youtube.com/watch?v=qT1Il-pzQGQ

Статья - https://engineering.fb.com/2025/08/13/data-infrastructure/agentic-solution-for-warehouse-data-access/

Зачем? 👍

Цель - демократизировать доступ к данным. Если в стартапах/scale-up ручные аппрувы и простые эвристики (а-ля «дай данные по каталогу сотрудников») ещё работают, то на масштабе бигтеха нужно риск-ориентированное принятие решений.

Идея такая: с обеих сторон работают агенты, и они принимают решение на основе набора сигналов и их весов.

Со стороны датасета: тип и назначение данных, политика изменений, критичность и конфиденциальность, частота обновлений, примеры запросов.

Со стороны пользователя/ИИ-агента: детали юзкейса, информация о сотруднике/роли, требуемая скорость и критичность доступа, плюс анализ шаблонов запросов.Дополнительно ведётся постоянный мониторинг актуальности метаданных и самих решений.

Как проверять 🙆(near real-time/microbatch), оценивать качество и держать деградации под контролем?
- Risk-score модель для принятия решения.
- Валидация решения: прогон на эталонном наборе. Одного раза недостаточно - нужна защита от деградаций агента во времени.
- Контроль качества: ведутся trace-логи; по ним можно выборочно перепроверять решения, разбирать corner cases и повышать долю автоматизации.
- Human-in-the-loop: быстрые апелляции и фидбек владельцев данных возвращаются в evals и обучающую петлю (data flywheel).

Выводы 🔼
Как по мне (да, я слегка biased 😅), это неплохой пример успешного применения агентов для внутренних процессов. Система существенно ускоряет доступ в большинстве кейсов и при этом не превращает on-call в хаос.

А как выдают доступ в ваших компаниях?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9🤝1
Nik B
Всем привет! А у нас снова онлайн митап! Осенняя серия dbt & modern data stack talks начинается 25 сентября в 19:00 (+3 GMT) Подробные детали по спикерам и темам - https://inzhenerka.tech/dbt_meetup Можно регаться в бот по ссылке, если предпочитаете подписку…
Митап провели! 🙂

Нас немного подставил zoom, поэтому начали с задержкой =)

Записи митапа доступны - https://www.youtube.com/playlist?list=PLC92034l7MRzKV-M0lmVQMbKwmFPLth39

⚡️ По спикерам:

1. Павел Рословец — Почему мы перешли на микробатчи dbt

Интересный рассказ про использование микробатчей, их недостатки в текущей версии и как боролись с overlapping windows 🔼

2. Никита Юрасов — Жизнь после dbt: как строить DWH с SQLMesh

Очень кртой обзор sqlmesh с платформенной точки зрения, захотелось поставить и постресстестить после доклада 😃

3. Александр Клейн — Как построить данные, которым доверяют?

Продолжение серий рассказов про метаданные от Александра. От cбора метрик до ИИ интерфейса. Посмотрим, как их ИИ агент будет работать через полгода 👍

4. Nik B — Архитектор хаоса: роль Data Engineer в GenAI реальности

Я, как оказалось, выпал из 40 минут и час рассказывал про мой опыт работы с GenAI последнее время и наблюдения, как это поменяет дата инженерные задачи. Получилось сумбурно, но надеюсь интересно 😺
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍12
Ничто не тешит самолюбие так, как линкедин 😂

Что ж, будем готовиться покорять новый олимп 👍

Berkeley начали новую версию курса по Agentic MOOC - https://www.youtube.com/watch?v=r1qZpYAmqmg&list=PLS01nW3RtgoqGkm4UeqNeZLccW-OGc1fJ

Тут, можно еще посмотреть предыдущие потоки -

https://www.youtube.com/watch?v=QAgR4uQ15rc&list=PLS01nW3RtgopsNLeM936V4TNSsvvVglLc

https://www.youtube.com/watch?v=ti6yPE2VPZc&list=PLS01nW3RtgorL3AW8REU9nGkzhvtn6Egn


А у CMU DB в разгаре осенний курс по DB с Andy Pavlo - https://youtube.com/playlist?list=PLSE8ODhjZXjYMAgsGH-GtY5rJYZ6zjsd5&si=ilVJXTIiYEtZJvC4

и Future Data Systems Seminar Series - https://youtube.com/playlist?list=PLSE8ODhjZXjbEeW_bOCZ8c_nx_Jhoz-GW&si=6IJ8GvZx3yqBYhQN

Кто-нибудь сделал все домашки по Bustub DB в прошлые разы ? 🙆
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7😁72👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Контент и ИИ 😡

А у вас тоже есть недоверие к новому контенту, особенно если он длится от 8 до 12 секунд 👨‍🦳?

Уровень цифрового шума увеличился в разы. И это только начало. Недавно на ods london бранче была идея, что в среднем информации, созданной раньше 2021 года, веришь гораздо сильнее.

Однако, с точки зрения (само-) образования я вижу много плюсов 🔼

1. Deep Research, как изначальный обзор по тематике. Deep Research не является панацеей или каким-то доверительным источником, но при грамотных ограничениях и контексте, он предоставляет неплохую суммаризацию вширь

2. Поиск по X(твиттер) / reddit / arxiv. Связка Grok и GPT 5 Pro/reasoning позволяет находить релевантные вещи в 1-3 промпта.

3. Study & Learn режим. Продолжаю экспериментировать со Study & Learn. Feedback loop и наводящие вопросы для разбора тематики вглубь. Буду работать с ним более детально в ноябре, на 3-5 неделю моей подготовки к январским интервью.

4. Coding Agents. Многие используют claude code, copilot, codex только для кодогенерации, но еще более полезно разбирать / уходить в глубь вторым ассистентом или отдельной сессией. Так же вариации вопросов “а что если” или “определи слабые стороны / улучшения” помогут найти ранее неизвестные подходы / решения.

5. NotebookLM. Его киллер фича для меня - генерация аудио подкастов. Я, в основном, скармливаю статьи из arxiv туда (потому что я слишком тупой для них), и сделать подкаст (На русском языке тоже работает, но иногда ловишь кеки, когда они придумывают свои абревиатуры)

6. Fun. Уровень пет-проектов стал более сложным. Особенно для побочных вещей, например, front-end или sre (ci/cd) больше не нужно полное погружение =)

В планах посмотреть на какие-то готовые решения по AI интервью для кодинга, системного дизайна и behavioural. Если кто-то уже пробовал, поделитесь в комментах

P.S. Видео создано за счет метапромтинга в Grok и передано на Sora 2
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Channel name was changed to «Nik в мире данных»
Nik в мире данных

Давно уже хотел сделать reorg переименовать канал, и кажется, что пора 🧐 =)

Изначально канал начинался в 2021 в эпоху становления Analytics Engineer и моего активного участия в @dbt_users (что все еще актуально, я даже митапы начал организовывать 🍷).

Много воды утекло с того момента, я, переехав в одну страну, поменял потом еще две, вернулся в тимлидство и обратно на IC роль. И не сказать, чтобы я много писал именно про Analytics Engineering. 👍

Новое название больше указывает на авторский контент и что он не чисто про дата инженерию.

Хочу в дальнейшем поговорить более широко про дата инженерию / архитектуру, карьерное развитие, engineering management, ownership, дизайн систем, AI и конечно персональные апдейты / прохождения собесов. Если интересно, stay tuned.

Если вам интересен именно дата инженерный контент, то вот далеко не полный список каналов (пришедший в голову за первые 5 минут и о которых я знаю), которые я читаю на постоянной основе:

- @data_whisperer
- @data_apps
- @dataeng
- @data_engi
- @ohmydataengineer

В этом списке нет авторских каналов, в которых последнее время большое число рекламных интеграций и самых больших дата авторов, их вы все равно все знаете, а кто-то еще и почти писать перестал
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥154👍1
Forwarded from Nik B
Привет! Книжного Клуба анонс!

У нас с коллегами дата инженерами появилась идея по/перечитать книги, связанные с дата инженерией!

Первая книгу, которую мы хотели бы обсудить - Data Engineering Desing Patterns.

Планируем делать созвоны на еженедельной основе - вторник 19:30 MSK (17:30 CET).

Первый созвон - следующий вторник 25 ноября, разберем первые паттерны по полной и инкрементальным загрузкам.

Все детали книжного клуба будут в @de_zoomcamp, если вам интересно, залетайте в канал
🔥26👍124
Пока в Европе празднуется Рождество, у нас продолжается Книжный клуб по DE Design Patterns (ближайшая встреча - 30 декабря, настолько мы любим дата-паттерны!)
Залетайте в @de_zoomcamp, если еще не там и хотите поучаствовать по вторникам.

Уже подошли к идемпотентным дизайн-паттернам.

Краткий конспект по слайдам можно найти по ссылке - https://link.excalidraw.com/p/readonly/8AfH8VHzWYZElevpfjtG

По личным активностям начинаю подготовку к собесам на январь / март для плана Б по перф ревью 🙂, напишу скоро пару постов о роадмапе и использовании ИИ для этого (как же ты надоел с этим 👨‍⚕️)

А пока закину сайт, о котором я ранее не знал - https://faang.watch/?, агрегатор FAANG вакансий (+ парочка компаний около)

Ну и традиционный старт DE Zoomcap - https://github.com/DataTalksClub/data-engineering-zoomcamp 12 января
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥2