NEW BOT Телеграм, страница

Nik в мире данных

Репостну дружественное сообщество ( хоть меня и недавно забанили там просто так ненадолго 😂)
Должно быть интересно и спикеры очень сильные

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2😱1

1.67K viewsedited 05:57

Nik в мире данных

Forwarded from FaangTalk Channel (Dima V)

Стрим завтра, 8 мая 20:00 мск

Разбираемся в разнице систем дизайн интервью в корпорации и стартапе

В гостях Макс C и Дима К

https://youtube.com/live/pZBve6IJ3WI?feature=share

YouTube

#FaangTalk 81 - Систем Дизайн в БигТехе vs в Стартапе

Канал с анонсами https://news.1rj.ru/str/faangtalk_news

Чат по подготовке к интервью: https://news.1rj.ru/str/faangtalk

В выпуске разбираем Систем Дизайн Интервью в FAANG и в Стартапе

В гостях
Max Strakhov https://news.1rj.ru/str/faang_career
Dima Korolev https://www.youtube.com/@UC…

🔥5

1.76K views05:57

Nik в мире данных

AI + Data Engineering 👍 (да-да и я про то же)

В последнее время я всё активнее использую Generative AI в работе.
Если раньше это был просто Copilot или ChatGPT окно, то теперь — полноценные AI-ассистенты с reasoning-моделями прямо в VSCode, заточенные под твой сетап.

95% кода я теперь пишу через промпт-инжиниринг 👩‍💻: описываю дизайн, блоки, ограничения — и итеративно уточняю. Обычно хватает 4–10 циклов, даже если внутри — нетривиальный SQL и кастомная логика пайплайнов. Отлично работает с few-shot подходами.

По сути, я стал оркестратором 👩‍💻, а не руками. Такой подход отлично сочетается с ролью дата-инженера — мы и так оперируем модулями, коммуникациями и абстракциями. Думаю, в горизонте 6–12 месяцев работа дата-инженера будет всё больше походить на продуктовую: формулируешь скоуп, дизайн и сам себе менеджер, сам себе код-ревьюер (ну или ревью делает отдельный агент 😂).

Ещё один юз кейс — работа с незнакомыми языками. Я впервые попробовал Hack и спокойно (переключившись на правильную модель 😅) на нём писал, потому что LLM закрывает синтаксис, а я — архитектуру и дизайн кода (еще лучше работает с TDD).

На выходных попробовал Claude Code Max 🤯. Раньше юзал Cursor — не зашло. Но с Claude я за два дня собрал прототип из C++, TypeScript, Thrift и Python (NLP). При том, что по большинству из этих технологий я скорее "нулевой", чем "миддл". У меня есть ряд идей для pet-проектов, и, кажется, AI-инжиниринг (с RAG или fine-tuning) сможет реально ускорить их реализацию.

Почти дочитал 📚 Co-Intelligence от Ethan Mollick (Wharton). Он пишет, что ИИ — это не замена, а партнёр. И учит работать с ним эффективно: усиливая, а не заменяя.

P.S. Ну и не забываем: мы, как податели данных, — первые в цепочке. И если Garbage in, то Garbage out 👨‍🦳, и никто, включая LLM, не спасёт

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20👌9🥱6🌚3💩2💯2❤1👎1🤡1👾1

1.78K viewsedited 13:56

Nik в мире данных

Ultimate гайд: 11 способов гарантированно не дать ИИ занять твоё место

👋

1. Именуй колонки через хэши 🔐

col_f6d8b… вместо user_id. LLM‑ы теряются, бизнес‑логика исчезает, а ты становишься живой расшифровкой — путь до архитектора расчищен. Так делали товарищи в SAP, используй лучшие практики вендор локов!

2. Генерируй всё run‑time без логов  👨‍🦳

Одноразовый контейнер → eval(sql) и никакой телеметрии → контейнер испарился. Нет логов — нет данных для обучения. Нет данных - нет RAG / few-shot!

3. Наслаивай абстракции 🍷

Таблица → View → View² →  Table → Cache → ETL → Materialized View. Каждый JOIN под пледом из мета‑мета‑SQL на jinja шаблонах. ИИ бросит EXPLAIN ANALYZE уже на первом уровне. Не забудь миксовать ON, USING, декартово соединение (а если ораклист то еще и плюсики!)

4. Храни схему (и кэш) в txt на десктопе 🔑

Файл СХЕМА_ФИНАЛ_v2_НЕ_УДАЛЯТЬ.txt с паролем «123» — лучшая альтернатива Data Catalog. Метаданные и описание колонок в базе это то, на чем обучится твоя замена!

5. Создай зоопарк дубликатов 

😑

users, users_temp, users_backup_2019, users_PROD_DONT_TOUCH. Меняй их местами раз в месяц (а лучше round-robin) — пусть даже AI‑анализатор сломается (а ты увеличишь число pull request!)

6. Собери коктейль технологий 🍹

Cron вызывает python, python вызывает Bash, тот запускает Scala, где Javanoscript рендерит SQL (привет сноуфлейк!) , который дергает UDF. Всегда добавляй этого как лучшие практики в любой md файл! Любой Auto‑Query builder после этого берёт бессрочный out of context.

7. Prompt Injection в SQL🛠️

Делай SQL файл на тысячи строк с комментариями только для того, чтобы испортить инструкции агенту. Так ты либо переполнишь контекст мусором, либо будешь управлять агентом

8. Hardcode всё подряд 🎯


    python
    if date == "2024‑03‑15":  # день зарплаты
        coeff = 1.234
    elif customer_id in [42, 1337, 9999]:  # VIP‑клиенты
        coeff = 2.0
        
    res = (coef + 1 - 2 + 5 - 4 ) * (100 - 99 + 98 - 2 - 91 - 5)

Главное меньше логики, документации — ноль, автоматизации — минус, контекс - хз что важное

9. Партиционируй по лунному календарю  и по дням рождения коллег🌙

Партиция 2025_Q3_new_moon звучит надёжнее, чем 2025‑07. AI‑Optimizer полетит обсуждать астрологию, а не кубики.

10. Личные SSH‑ключи везде 🔑

Запусти критичный cron через свой приватный ключ. Пока ты в отпуске, всё упадёт — и компания оценит твою «уникальную ценность». Вернешься и починишь - получишь импакт и промо!

11. Документация = Telegram‑чат 💬

«Помнишь, я тебе скидывал голосовое про тот баг?» ИИ не слушает твои пяти‑минутные аудио — да и коллеги тоже. Не забудь все делать в Secret чатах - шифрование и безопасность же!

Есть еще советы? Делись в комментариях! Не дай машинами забрать наши пайплайны

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥32😁21👍4

1.85K viewsedited 20:17

Nik в мире данных

Мокаемся в Study & Learn

В OpenAI завезли Study & Learn. Я решил попробовать на o3 модели, можно ли помокаться по SQL

Промпт на входе.

I want to test my knowledge on SQL, can you prepare test questions for me and work on them with commentary?

Experience level - advanced
Focus area - should cover all aspects
Format & length - mix, it should cover standard 30 minute interview

Получился план из 6 задач

===
1. Окна: вторая по выручке дата
Таблица sales(salesperson_id, sale_date, amount). Для каждого продавца вернуть дату второй по сумме выручки за день.

Классическая задача на оконки с агрегатными функциям. GROUP BY, SUM(amount), ROW_NUMBER(), фильтр rown = 2, исключить продавцов с одной датой.

Диалог

Я специально забыл GROUP BY → бот подсказал.

Потом бот спросил, как исключить продавцов с одной датой → добавил COUNT(*) OVER (...) >= 2 Что на самом деле было избыточно, так как rownum покрывал этот юз кейс, на что я указал агенту =)

===
2. Индекс под ORDER BY … LIMIT

Какой индекс стоит использовать

SELECT order_id, total_amount
FROM orders
WHERE customer_id = $1
AND status = 'shipped'
ORDER BY order_date DESC
LIMIT 10;

Варианты индексов

A. (status)
B. (customer_id, status, order_date DESC, order_id)
C. (order_date)
D. (status, customer_id)

Диалог

- Сначала выбрал D.
- Бот уточнил про сортировку и LIMIT и задал наводящий вопрос по high/low cardinality.
- Перешёл на B — бот подтвердил, что это оптимально, и задал вопрос, надо ли что-то изменять если мы хотим поменять сортировку по order_date по нарастающей и ухудшится ли план, если убрать order_id из индекса

===
3. Теория: write-skew

Формулировка

Пояснить, что такое write-skew на уровне REPEATABLE READ и почему SERIALIZABLE это ловит.

Диалог

Я совершенно не помнил про write-skew и описал lost-update проблему, но затем бот зафоллоапил пример, и уточнил про отличие от lost-update

В рамках SERIALIZABLE обсуждение было про predicate locking

===
4. Рекурсивный CTE: зарплата команды

Таблица employees(emp_id, manager_id, salary), у CEO manager_id is null

Для каждого менеджера посчитать кол-во и сумму зарплат всех подчинённых (прямых и косвенных).

Диалог

Всеми любимые задачи на рекурсию =) Причем эта была не классический top down, а down to top, что было более интересное
Я несколько раз косячил в SQL, и бот поправлял и делал follow-up примерно, как бы это было бы на интервью

===
5. Когда нужен PL/pgSQL

Выбрать, где процедурное расширение уместнее чистого SQL.

Варианты

A. Обновить все строки сложной формулой.
B. Пройти курсором, вызвать веб-API для каждой строки, сохранить ответ.
C. Джойнить три большие таблицы, агрегировать и вернуть отчёт.
D. Ночью обновлять материализованное представление.

Диалог

Выбрал B. Бот согласился. Follow up question:
What precaution would you take to avoid bogging down the DB while that PL/pgSQL loop waits on each API call?

===
6. JOIN + агрегаты: завышенная сумма

Формулировка

Дебаг запроса - Problem: Finance says some “total_spent” figures are *too large*.


SELECT
    c.customer_id,
    c.name,
    SUM(o.total_amount)           AS total_spent,
    SUM(oi.quantity)              AS total_items
FROM customers         c
LEFT JOIN orders       o  
   ON o.customer_id = c.customer_id
LEFT JOIN order_items  oi 
   ON oi.order_id    = o.order_id
WHERE o.status = 'shipped'
GROUP BY c.customer_id, c.name;

Тут бот ожидал 4 изменения и переписанный запрос. Бот указаывал опечатки, проверял наличие alias

===
Итог

- Бот ведёт сценарий, даёт ровно столько подсказок, сколько нужно, иногда ожидает избыточного ответа
- После сессии остаётся готовый «черновик» диалога со всеми вариантами и решениями
- Стоит попробовать помокать с чатгпт, особенно если у вас есть готовый список вопросов и / или тематика, которую вы хотите проработать. Однако я думаю, есть и более подходящие агенты (Если кто-то знает какие-нибудь, посоветуйте в комментариях)

👍9✍7❤5👏1

4.12K viewsedited 10:52

Nik в мире данных

Планы на вторую половину 2025

Борьба с внутренней прокрастинацией требует какого-то публичного коммитмента (~~выполнять который я~~, ~~конечно~~, ~~в итоге не буду, но все равно попробуем~~)

Планы рабочие

💼

Во-первых, я пережил performance-review и закрыл испыталку (не с outstanding, конечно, но уже неплохо с учетом моей проблемы с концетрацией максимум на 15 минут после работы менеджером).
Скоуп задач на второе полугодие довольно большой, и многие задачи будут требовать полноценный ownership, а значит буду расчехлять свои техлидские навыки, для того, что мы тут называем alignment 😄
Команда, в которой я работаю, фактически в стадии вывода в полноценный управляемый прод, и как единственный ДЕ на 20+ SWE у меня будут веселые времена переноса кучи ноутбучиков на пайплайны =)

Развитие внутренних инструментов (особенно в области AI) происходит довольно быстро и кажется, что у меня теперь есть как внутренний, так и внешний FOMO.

Также в рамках второго полугодия я планирую определить свой карьерный путь, и кажется, что рост в Staff DE мне на данный момент не очень интересен ввиду горизонтальности направления. Буду смотреть на потенциальный перекат в SWE/ ML SWE после февраля следующего года (а может и нет :D).

Планы учебные и тематические 👨‍💻

Я активно погружаюсь в тематику AI Engineering и LLMOps/MLOps, особенно интересна сторона evaluation и оптимизации продуктивности.

Летом прохожу два курса по AI Product Engineering + Evals, попробую применить это на работе. Более подробно расскажу о них по мере прохождения (попробую наложить это на наши дата будни).

Также в планах попробовать собрать базу для ML (моя попытка номер 5 😂 ).

Планы pet проектные

🙆

Чтобы научиться кодить с AI, лучше всего сделать полноценные pet-проекты =) (лучше конечно стартап, но это в 2026 🙂)

У меня есть один, над которым я уже работаю. Это разворачиваемая дата платформа с синтетической генерацией данных на источнике. Как только будет готов PoC, расскажу более подробно.

Второй проект пока на уровне идеи, посмотрим будет ли время им заняться.

Планы социальные 🎤

~~Как обычно пропасть на полгода~~. В планах побольше контента для телеграма, есть желание попробовать поделать публичные моки, возможно стримы / разборы (если хотите поучаствовать, пинганите).

Планирую повыступать на конференциях/митапах как онлайн (скорее всего, на русском языке), так и оффлайн (на английском)

P.S. если вы подкастер и вам не хватает приглашенных гостей, позовите меня, мне надо кейс для global talent начать собирать 👨‍🦳

Планы по менторингу

В целом, у меня появились слоты на менторинг / консалтинг. Если у вас есть какой-то demand, приходите, обсудим, могу ли я как помочь (P.S. Я никак не смогу помочь с накруткой опыта и как войти в де за 300к, обращайтесь к проверенным специалистам 😅 ).

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21🔥13❤1

1.86K viewsedited 18:00

Nik в мире данных

Chat Control в EU

Не технический пост (скоро будет!), но из мира privacy. ЕС планирует вводить отмену сквозного шифрования и начать автоматическое сканирование перс данных. Интересно, на чем планируют обучать модели для контроля 👨‍🦳

Сайт с отслеживанием ситуации https://fightchatcontrol.eu/

Более интересный детальный анализ - https://www.patrick-breyer.de/en/posts/chat-control/

Please open Telegram to view this post

VIEW IN TELEGRAM

fightchatcontrol.eu

Fight Chat Control - Protect Digital Privacy in the EU

Learn about the EU Chat Control proposal and contact your representatives to protect digital privacy and encryption.

👀7😱3😁2🔥1

5.02K viewsedited 07:59

Nik в мире данных

Уже не раз ловил агентов на том, что когда они не могу получить данные, они их придумывают и генерят сверху какую-то около правдоподобную статистику

Ждем кул стори, как CEO/CPO принимали решения на чистой синтетике

🔥5

1.19K viewsedited 09:56

Nik в мире данных

Forwarded from New Yorko Times (Yury Kashnitsky)

Кремниевые читеры кругом
#genai #coolstorybob

В контексте двух постов выше: встал я в 6:30, рулю себе в Утрехт, поля, солнышко, красота. Демка готова, все потестил. Часть демки – агент NL2SQL, спрашиваешь у него что-нибудь, он идет в BigQuery, сиквелом тащит данные и отвечает. Локально все работало, вечером тестил и в нашей агентской системе, на паре запросов сработало, на полноценные тесты с ковырянием продакшн-логов времени не было (ну вы поняли, к чему я).

Утром перед воркшопом смотрю, чет агент ругается на аутентификацию в BigQuery. Хотя ровно с теми же запросами (типа "покажи 5 самых популярных стран в таблице") накануне вечером все было норм. Убедился, что auth и правда не работает. Как же агент до этого отвечал?

И что же наш кремниевый пиздабол придумал?

Не сумев залогиниться в BigQuery, агент написал очень правдоподобный неработающий SQL (все по синтаксису норм, только селект из датасета, а не таблицы), на щщях заявил, что исполнил SQL, в деталях пояснил за синтаксис и выдал ответ: самые популярные – США, Китай, Германия, Япония и Франция. И ведь 4 из 5 угадал, упырь, только с Францией промахнулся.

Благо, это всего первая демка, а не закрытие проекта и пофиксим, конечно (хотя жду коменты про skill issue), но наподобие артефактам с оптимизируемой функцией в RL, интересно следить за тем, как агенты выкручиваются. В целом мы зачастую так же домашки и зачеты сдавали на физтехе, так что если не пхд, то student-level intelligence уже виднеется.

И удачи нам всем с агентами в проде 😳 (VibeOps, как это окрестил мой неназванный друг Вадим). К дискуссии выше о том, когда оно нас всех заменит

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍4😁3❤‍🔥2

1.34K views09:56

Nik в мире данных

Data Engineering Design Patterns 📚

Пока все читают DDIA и Fundamentals of Data Engineering, есть один must-have для дата инженеров, про который не все знают.

Книга Data Engineering Design Patterns от Bartosz Konieczny -🏆 абсолютный топ для подготовки к Data System Design Interview и просто отличное дополнение к базе.

Я всё ещё в процессе чтения, но уже точно в список рекоммендаций у меня

⚡️ Какие data patterns обсуждаются внутри:

- Data Ingestion (event-driven, incremental, data readiness…)
- Error Management (Late Data, Filtering, Fault tolerance…)
- Idempotency (immutable dataset, transactional writer…)
- Data Value (Enrichment, Aggregation, Decoration…)
- Data Flow (Fan-In, Fan-Out)
- Data Security
- Data Storage (Partitioning, Performance Optimizer)
- Data Quality (и куда уж без WAP-паттерна ❤️)
- Data Observability (Skew, Lag detector…)

Иногда паттерн расписан так, что хочется взять и повайбкодить прямо сейчас 😂

📘 Было бы круто собрать книжный клуб по ней. Если кто-то уже делает или хочет - пинганите.

К чему же этот пост - тут раздают бесплатную электронную версию.

🔥 Спасибо за наводку каналу @data_engi

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19✍9❤‍🔥6🔥4❤2🐳1

1.66K viewsedited 05:17

Nik в мире данных

Как Nik в AI-стартап собесился 🔼

Возвращаем любимую рубрику читателей!

Работу я, конечно, не ищу (ага, посмотрим на февральские деньки aka перф ревью 👨‍🦳). Но тут внезапно написал стартап - делают диффузионки и Image Gen для профи (дизайнеры, иллюстраторы и все такое). Название думаю сами распарсили 😄

Роль звучала оч забавно - Data Analyst with Engineering focus. На деле - Foundational Data/Analytics Engineer: с нуля строить дата-ландшафт, чтобы у аналитика были не только бекэндеры для датки 😂.

Этапы

HR interview ☎️
Стандартный скрининг. Но у стартапов HR - это уже pitch deck, так что можно сразу узнать инсайды на уровне развития компании

Live Coding 👨‍💻
SQL + Python с аналитиком. Около LeetCode но, с подумать над парсингом задаче в структуре данных. В питоне дали задачку уровня medium, но с условием на матожидание (которую я благополучно забыл с универа). Честно сказал: «ребят, я тут не с вшэ, так что хз 😃». В итоге дали подсказку и не минуснули за это. SQL был плюс-минус стандарт.

Из забавного, самое сложное для меня было писать код на питоне, я за полгода реально забыл как писать бойлерплейт из-за кодогенерации 😡

Data System Design

🌺

С техлидом бэка. Не классическое «рисуем квадратики», а кейс «как из Analytics Platform A переехать в B, если ты стартап но делаем все на open source.. Получилось в стиле: я рассказываю, как я бы делал, получилось интересно, много про стриминг поболтали

Experience interview

👉

С тем же аналитиком и Chief of Staff. Разговор про демократизацию аналитики и «как не быть узким горлышком» (спойлер: AI + обвязочки всего). Половина behavioural, половина про задачи

Final interview 🧑‍💼
CEO + analyst. Тут внезапно выяснилось, что скоуп задач уже поменялся 😺: вместо DWH для аналитики идем в сбор метрик и улучшение моделей, что в целом имело смысл. Ну, классика стартапа - пока ты общаешься с ними, компания успела pivotнуть три раза (но правда в корпоратах можно и реоргнуться раза три за год 🫡)

Итог 🏁
Оффер дали (по локал UK рынку я бы сказал очень хорошо, >= t2 точно). Но кек тоже был: роль назвали analyst developer, а при 30+ людях у них было 6+ грейдов (вайбы какой компании почувствовали? 🙂).

Компания похоже огонь, задачи топ, процесс тоже не вызвал бугурта, но работать надо было бы реально много (ну GenAI все-таки, у нас тут по индустрии 996). В итоге отказался. Но будь это полгода назад - залетел бы без вопросов, а потом писал бы тут посты "я опять безработный, но зато опыт 😅".

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18👍3😁3🆒2

1.92K viewsedited 20:04

Nik в мире данных

Forwarded from Nik B

Всем привет! А у нас снова онлайн митап!

Осенняя серия dbt & modern data stack talks начинается 25 сентября в 19:00 (+3 GMT)

Подробные детали по спикерам и темам - https://inzhenerka.tech/dbt_meetup

Можно регаться в бот по ссылке, если предпочитаете подписку через бота - https://news.1rj.ru/str/dbtmeetup_bot?start=211128

Как обычно, прямая трансляция будет в ютуб и других платформах

inzhenerka.tech

dbt & modern data stack Meetup 25 сентября в 19:00 (+3GMT)

25 сентября в 19:00 (+3 GMT) приглашаем на митап, где опытные data-инженеры поделятся инсайтами, реальными кейсами и лучшими практиками работы с dbt и современным data stack.

🔥20❤2

1.54K views13:19

Nik в мире данных

Access Agents + метаданные: как разрулить доступ в огромном Lakehouse

TL;DR

В статье и докладе Meta описывает мультиагентную систему:

- Data User Agents 🧑 - ускоряют получение доступа пользователями (вплоть до «частичного» предпросмотра для чувствительных данных).
- Data Owner Agents 🤖 - автоматизируют управление доступом от лица владельцев сущностей и соблюдают политики доступа.
- Orchestrator Agent 🌺 - управление переговорами между агентами и обработка принятого решения

В видео говорится, что система настроена консервативно: при сомнительных кейсах доступ не выдаётся автоматически. При этом более 70% запросов обрабатывается без вовлечения владельцев данных.

Где посмотреть? 🎦

Видео - https://www.youtube.com/watch?v=qT1Il-pzQGQ

Статья - https://engineering.fb.com/2025/08/13/data-infrastructure/agentic-solution-for-warehouse-data-access/

Зачем? 👍

Цель - демократизировать доступ к данным. Если в стартапах/scale-up ручные аппрувы и простые эвристики (а-ля «дай данные по каталогу сотрудников») ещё работают, то на масштабе бигтеха нужно риск-ориентированное принятие решений.

Идея такая: с обеих сторон работают агенты, и они принимают решение на основе набора сигналов и их весов.

Со стороны датасета: тип и назначение данных, политика изменений, критичность и конфиденциальность, частота обновлений, примеры запросов.

Со стороны пользователя/ИИ-агента: детали юзкейса, информация о сотруднике/роли, требуемая скорость и критичность доступа, плюс анализ шаблонов запросов.Дополнительно ведётся постоянный мониторинг актуальности метаданных и самих решений.

Как проверять 🙆(near real-time/microbatch), оценивать качество и держать деградации под контролем?
- Risk-score модель для принятия решения.
- Валидация решения: прогон на эталонном наборе. Одного раза недостаточно - нужна защита от деградаций агента во времени.
- Контроль качества: ведутся trace-логи; по ним можно выборочно перепроверять решения, разбирать corner cases и повышать долю автоматизации.
- Human-in-the-loop: быстрые апелляции и фидбек владельцев данных возвращаются в evals и обучающую петлю (data flywheel).

Выводы

🔼

Как по мне (да, я слегка biased 😅), это неплохой пример успешного применения агентов для внутренних процессов. Система существенно ускоряет доступ в большинстве кейсов и при этом не превращает on-call в хаос.

А как выдают доступ в ваших компаниях?

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9🤝1

1.82K viewsedited 09:24

Nik в мире данных

Nik B

Митап провели! 🙂

Нас немного подставил zoom, поэтому начали с задержкой =)

Записи митапа доступны - https://www.youtube.com/playlist?list=PLC92034l7MRzKV-M0lmVQMbKwmFPLth39

⚡️ По спикерам:

1. Павел Рословец — Почему мы перешли на микробатчи dbt

Интересный рассказ про использование микробатчей, их недостатки в текущей версии и как боролись с overlapping windows 🔼

2. Никита Юрасов — Жизнь после dbt: как строить DWH с SQLMesh

Очень кртой обзор sqlmesh с платформенной точки зрения, захотелось поставить и постресстестить после доклада 😃

3. Александр Клейн — Как построить данные, которым доверяют?

Продолжение серий рассказов про метаданные от Александра. От cбора метрик до ИИ интерфейса. Посмотрим, как их ИИ агент будет работать через полгода 👍

4. Nik B — Архитектор хаоса: роль Data Engineer в GenAI реальности

Я, как оказалось, выпал из 40 минут и час рассказывал про мой опыт работы с GenAI последнее время и наблюдения, как это поменяет дата инженерные задачи. Получилось сумбурно, но надеюсь интересно 😺

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍12

1.74K views21:03

Nik в мире данных

Ничто не тешит самолюбие так, как линкедин 😂

Что ж, будем готовиться покорять новый олимп 👍

Berkeley начали новую версию курса по Agentic MOOC - https://www.youtube.com/watch?v=r1qZpYAmqmg&list=PLS01nW3RtgoqGkm4UeqNeZLccW-OGc1fJ

Тут, можно еще посмотреть предыдущие потоки -

https://www.youtube.com/watch?v=QAgR4uQ15rc&list=PLS01nW3RtgopsNLeM936V4TNSsvvVglLc

https://www.youtube.com/watch?v=ti6yPE2VPZc&list=PLS01nW3RtgorL3AW8REU9nGkzhvtn6Egn

А у CMU DB в разгаре осенний курс по DB с Andy Pavlo - https://youtube.com/playlist?list=PLSE8ODhjZXjYMAgsGH-GtY5rJYZ6zjsd5&si=ilVJXTIiYEtZJvC4

и Future Data Systems Seminar Series - https://youtube.com/playlist?list=PLSE8ODhjZXjbEeW_bOCZ8c_nx_Jhoz-GW&si=6IJ8GvZx3yqBYhQN

Кто-нибудь сделал все домашки по Bustub DB в прошлые разы ? 🙆

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7😁7❤3👍1

1.6K viewsedited 07:38

Nik в мире данных

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Контент и ИИ

😡

А у вас тоже есть недоверие к новому контенту, особенно если он длится от 8 до 12 секунд 👨‍🦳?

Уровень цифрового шума увеличился в разы. И это только начало. Недавно на ods london бранче была идея, что в среднем информации, созданной раньше 2021 года, веришь гораздо сильнее.

Однако, с точки зрения (само-) образования я вижу много плюсов 🔼

1. Deep Research, как изначальный обзор по тематике. Deep Research не является панацеей или каким-то доверительным источником, но при грамотных ограничениях и контексте, он предоставляет неплохую суммаризацию вширь

2. Поиск по X(твиттер) / reddit / arxiv. Связка Grok и GPT 5 Pro/reasoning позволяет находить релевантные вещи в 1-3 промпта.

3. Study & Learn режим. Продолжаю экспериментировать со Study & Learn. Feedback loop и наводящие вопросы для разбора тематики вглубь. Буду работать с ним более детально в ноябре, на 3-5 неделю моей подготовки к январским интервью.

4. Coding Agents. Многие используют claude code, copilot, codex только для кодогенерации, но еще более полезно разбирать / уходить в глубь вторым ассистентом или отдельной сессией. Так же вариации вопросов “а что если” или “определи слабые стороны / улучшения” помогут найти ранее неизвестные подходы / решения.

5. NotebookLM. Его киллер фича для меня - генерация аудио подкастов. Я, в основном, скармливаю статьи из arxiv туда ~~(потому что я слишком тупой для них),~~ и сделать подкаст (На русском языке тоже работает, но иногда ловишь кеки, когда они придумывают свои абревиатуры)

6. Fun. Уровень пет-проектов стал более сложным. Особенно для побочных вещей, например, front-end или sre (ci/cd) больше не нужно полное погружение =)

В планах посмотреть на какие-то готовые решения по AI интервью для кодинга, системного дизайна и behavioural. Если кто-то уже пробовал, поделитесь в комментах

P.S. Видео создано за счет метапромтинга в Grok и передано на Sora 2

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9

1.87K views07:17

Nik в мире данных

Channel name was changed to «Nik в мире данных»

08:51

Nik в мире данных

Nik в мире данных

Давно уже хотел с~~делать reorg~~ переименовать канал, и кажется, что пора 🧐 =)

Изначально канал начинался в 2021 в эпоху становления Analytics Engineer и моего активного участия в @dbt_users (что все еще актуально, я даже митапы начал организовывать 🍷).

Много воды утекло с того момента, я, переехав в одну страну, поменял потом еще две, вернулся в тимлидство и обратно на IC роль. И не сказать, чтобы я много писал именно про Analytics Engineering. 👍

Новое название больше указывает на авторский контент и что он не чисто про дата инженерию.

Хочу в дальнейшем поговорить более широко про дата инженерию / архитектуру, карьерное развитие, engineering management, ownership, дизайн систем, AI и конечно персональные апдейты / прохождения собесов. Если интересно, stay tuned.

Если вам интересен именно дата инженерный контент, то вот далеко не полный список каналов (пришедший в голову за первые 5 минут и о которых я знаю), которые я читаю на постоянной основе:

- @data_whisperer
- @data_apps
- @dataeng
- @data_engi
- @ohmydataengineer

В этом списке нет авторских каналов, в которых последнее время большое число рекламных интеграций и самых больших дата авторов, их вы все равно все знаете~~, а кто-то еще и почти писать перестал~~

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥15❤4👍2

2.17K viewsedited 08:51

Nik в мире данных

Forwarded from Nik B

Привет! Книжного Клуба анонс!

У нас с коллегами дата инженерами появилась идея по/перечитать книги, связанные с дата инженерией!

Первая книгу, которую мы хотели бы обсудить - Data Engineering Desing Patterns.

Планируем делать созвоны на еженедельной основе - вторник 19:30 MSK (17:30 CET).

Первый созвон - следующий вторник 25 ноября, разберем первые паттерны по полной и инкрементальным загрузкам.

Все детали книжного клуба будут в @de_zoomcamp, если вам интересно, залетайте в канал

🔥27👍12❤5

5.74K views11:56

Nik в мире данных

Пока в Европе празднуется Рождество, у нас продолжается Книжный клуб по DE Design Patterns (ближайшая встреча - 30 декабря, настолько мы любим дата-паттерны!)
Залетайте в @de_zoomcamp, если еще не там и хотите поучаствовать по вторникам.

Уже подошли к идемпотентным дизайн-паттернам.

Краткий конспект по слайдам можно найти по ссылке - https://link.excalidraw.com/p/readonly/8AfH8VHzWYZElevpfjtG

По личным активностям начинаю подготовку к собесам на январь / март для плана Б по перф ревью 🙂, напишу скоро пару постов о роадмапе и использовании ИИ для этого (как же ты надоел с этим

👨‍⚕️

)

А пока закину сайт, о котором я ранее не знал - https://faang.watch/?, агрегатор FAANG вакансий (+ парочка компаний около)

Ну и традиционный старт DE Zoomcap - https://github.com/DataTalksClub/data-engineering-zoomcamp 12 января

Please open Telegram to view this post

VIEW IN TELEGRAM

Excalidraw+

Первый созвон presentation - Excalidraw+

Check out shared "Первый созвон" presentation on Excalidraw+

👍17🔥3❤2

2.07K viewsedited 16:20

Nik в мире данных

Готовим CV для выхода на рынок

🙆

Как AI гик, не мог не сделать прогрев своего еще старого резюме через LLM.

Я собрал вот такой метапромт для CV review

https://gist.github.com/nikb-de/5e6669601c7e4d742b76e56ba2c4b770

Старое CV совершенно не переписано под метрики 😅, но The Roast, Red Flags detected, The Missing Evidence, Kill-Shot Questions дают прям огромную пищу для размышлений и добавлений

Оставлю только Verdict часть для кеков 🙂

Grok


HIRE at Staff (L6) with caution; the candidate demonstrates ascending trajectory through consistent platform ownership and recent LLM/anonymization work at Meta, but unfalsifiable claims like "redesigned ETL framework" miss scale metrics and failure modes, with the lowest pillar in FinOps_Unit_Economics exposing a credibility gap in cost-aware engineering. Calibrated to 10-15 YoE band in Tier 1 Tech context, where L6 expects multi-system direction-setting, this profile signals force-multiplier potential via leadership but requires interview validation on absent SLOs and AI ops maturity to avoid overplacement.

Gemini


HIRE (Strong L5 / Potential L6)

Nik demonstrates a rare and valuable "Full-Stack Data" profile: deep legacy warehousing roots (Data Vault, Oracle) successfully modernized into the cloud-native stack (Snowflake, dbt, Iceberg), and now transitioning into AI infrastructure at Meta. While some metrics are standard "resume padding" (e.g., "40% efficiency"), the trajectory from heavy lifting in banking to agile startups and finally Big Tech is coherent. The primary risk is role ambiguity—his recent past leans heavily into Engineering Management (hiring, managing 10+ reports), but he is assessed here as an IC. If he wants to code, he is a hire; if he wants to manage, he needs a different loop.

ChatGpt


DOWN-LEVEL TO L5 (Senior Data Platform Engineer) — not L6 yet.

You’ve got credible scope signals (managed teams of 7 and 10, roadmap ownership, platform building, large-cycle-time reduction for anonymization workflows), but many bullets are unfalsifiable (“overseeing function,” “near real-time data products”) with no mechanism, scale, or operational detail. The FinOps pillar is the weakest (almost no cost/unit metrics), and the AI readiness pillar reads like “worked near LLMs” rather than “built the infra that keeps LLM systems honest, cheap, and observable.”

Claude


DOWN-LEVEL TO L5 (Senior) | CONDITIONAL PASS
Twelve years of experience with demonstrated team leadership (7-10 reports) and platform-building at banking institutions, but the CV fails the 2026 AI-infrastructure bar for L6. The Meta role—ostensibly the most relevant—has the weakest evidence: "Overseeing" is not ownership, and the incomplete bullet ("providing...") suggests rushed preparation. The strongest falsifiable claims (3hr→10min load times, 3mo→2wk deployments) are from 2019-2021 Sberbank work, now heavily discounted. No SLOs, no cost-per-unit metrics, no failure modes documented anywhere. Trajectory signal is ambiguous: noscript progression was ascending (BI Dev → Senior → Lead) then contracted to IC at Meta—possibly Meta's flat structure, possibly scope reduction.

С ваc 100$ за карьерный коучинг 🍷

И накиньте идей, что еще добавить в метапромпт 😃

Please open Telegram to view this post

VIEW IN TELEGRAM

Gist

Metaprompt for DE Eval

Metaprompt for DE Eval. GitHub Gist: instantly share code, notes, and snippets.

🔥25👍11✍1❤1

2.48K viewsedited 14:32

About

Blog

Apps

Platform