Nik в мире данных – Telegram
Nik в мире данных
1.15K subscribers
8 photos
1 video
1 file
45 links
Автор канала - @nikbeesti
Download Telegram
Ничто не тешит самолюбие так, как линкедин 😂

Что ж, будем готовиться покорять новый олимп 👍

Berkeley начали новую версию курса по Agentic MOOC - https://www.youtube.com/watch?v=r1qZpYAmqmg&list=PLS01nW3RtgoqGkm4UeqNeZLccW-OGc1fJ

Тут, можно еще посмотреть предыдущие потоки -

https://www.youtube.com/watch?v=QAgR4uQ15rc&list=PLS01nW3RtgopsNLeM936V4TNSsvvVglLc

https://www.youtube.com/watch?v=ti6yPE2VPZc&list=PLS01nW3RtgorL3AW8REU9nGkzhvtn6Egn


А у CMU DB в разгаре осенний курс по DB с Andy Pavlo - https://youtube.com/playlist?list=PLSE8ODhjZXjYMAgsGH-GtY5rJYZ6zjsd5&si=ilVJXTIiYEtZJvC4

и Future Data Systems Seminar Series - https://youtube.com/playlist?list=PLSE8ODhjZXjbEeW_bOCZ8c_nx_Jhoz-GW&si=6IJ8GvZx3yqBYhQN

Кто-нибудь сделал все домашки по Bustub DB в прошлые разы ? 🙆
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7😁73👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Контент и ИИ 😡

А у вас тоже есть недоверие к новому контенту, особенно если он длится от 8 до 12 секунд 👨‍🦳?

Уровень цифрового шума увеличился в разы. И это только начало. Недавно на ods london бранче была идея, что в среднем информации, созданной раньше 2021 года, веришь гораздо сильнее.

Однако, с точки зрения (само-) образования я вижу много плюсов 🔼

1. Deep Research, как изначальный обзор по тематике. Deep Research не является панацеей или каким-то доверительным источником, но при грамотных ограничениях и контексте, он предоставляет неплохую суммаризацию вширь

2. Поиск по X(твиттер) / reddit / arxiv. Связка Grok и GPT 5 Pro/reasoning позволяет находить релевантные вещи в 1-3 промпта.

3. Study & Learn режим. Продолжаю экспериментировать со Study & Learn. Feedback loop и наводящие вопросы для разбора тематики вглубь. Буду работать с ним более детально в ноябре, на 3-5 неделю моей подготовки к январским интервью.

4. Coding Agents. Многие используют claude code, copilot, codex только для кодогенерации, но еще более полезно разбирать / уходить в глубь вторым ассистентом или отдельной сессией. Так же вариации вопросов “а что если” или “определи слабые стороны / улучшения” помогут найти ранее неизвестные подходы / решения.

5. NotebookLM. Его киллер фича для меня - генерация аудио подкастов. Я, в основном, скармливаю статьи из arxiv туда (потому что я слишком тупой для них), и сделать подкаст (На русском языке тоже работает, но иногда ловишь кеки, когда они придумывают свои абревиатуры)

6. Fun. Уровень пет-проектов стал более сложным. Особенно для побочных вещей, например, front-end или sre (ci/cd) больше не нужно полное погружение =)

В планах посмотреть на какие-то готовые решения по AI интервью для кодинга, системного дизайна и behavioural. Если кто-то уже пробовал, поделитесь в комментах

P.S. Видео создано за счет метапромтинга в Grok и передано на Sora 2
Please open Telegram to view this post
VIEW IN TELEGRAM
10
Channel name was changed to «Nik в мире данных»
Nik в мире данных

Давно уже хотел сделать reorg переименовать канал, и кажется, что пора 🧐 =)

Изначально канал начинался в 2021 в эпоху становления Analytics Engineer и моего активного участия в @dbt_users (что все еще актуально, я даже митапы начал организовывать 🍷).

Много воды утекло с того момента, я, переехав в одну страну, поменял потом еще две, вернулся в тимлидство и обратно на IC роль. И не сказать, чтобы я много писал именно про Analytics Engineering. 👍

Новое название больше указывает на авторский контент и что он не чисто про дата инженерию.

Хочу в дальнейшем поговорить более широко про дата инженерию / архитектуру, карьерное развитие, engineering management, ownership, дизайн систем, AI и конечно персональные апдейты / прохождения собесов. Если интересно, stay tuned.

Если вам интересен именно дата инженерный контент, то вот далеко не полный список каналов (пришедший в голову за первые 5 минут и о которых я знаю), которые я читаю на постоянной основе:

- @data_whisperer
- @data_apps
- @dataeng
- @data_engi
- @ohmydataengineer

В этом списке нет авторских каналов, в которых последнее время большое число рекламных интеграций и самых больших дата авторов, их вы все равно все знаете, а кто-то еще и почти писать перестал
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥154👍2
Forwarded from Nik B
Привет! Книжного Клуба анонс!

У нас с коллегами дата инженерами появилась идея по/перечитать книги, связанные с дата инженерией!

Первая книгу, которую мы хотели бы обсудить - Data Engineering Desing Patterns.

Планируем делать созвоны на еженедельной основе - вторник 19:30 MSK (17:30 CET).

Первый созвон - следующий вторник 25 ноября, разберем первые паттерны по полной и инкрементальным загрузкам.

Все детали книжного клуба будут в @de_zoomcamp, если вам интересно, залетайте в канал
🔥27👍125
Пока в Европе празднуется Рождество, у нас продолжается Книжный клуб по DE Design Patterns (ближайшая встреча - 30 декабря, настолько мы любим дата-паттерны!)
Залетайте в @de_zoomcamp, если еще не там и хотите поучаствовать по вторникам.

Уже подошли к идемпотентным дизайн-паттернам.

Краткий конспект по слайдам можно найти по ссылке - https://link.excalidraw.com/p/readonly/8AfH8VHzWYZElevpfjtG

По личным активностям начинаю подготовку к собесам на январь / март для плана Б по перф ревью 🙂, напишу скоро пару постов о роадмапе и использовании ИИ для этого (как же ты надоел с этим 👨‍⚕️)

А пока закину сайт, о котором я ранее не знал - https://faang.watch/?, агрегатор FAANG вакансий (+ парочка компаний около)

Ну и традиционный старт DE Zoomcap - https://github.com/DataTalksClub/data-engineering-zoomcamp 12 января
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥32
Готовим CV для выхода на рынок 🙆

Как AI гик, не мог не сделать прогрев своего еще старого резюме через LLM.

Я собрал вот такой метапромт для CV review

https://gist.github.com/nikb-de/5e6669601c7e4d742b76e56ba2c4b770

Старое CV совершенно не переписано под метрики 😅, но The Roast, Red Flags detected, The Missing Evidence, Kill-Shot Questions дают прям огромную пищу для размышлений и добавлений

Оставлю только Verdict часть для кеков 🙂

Grok

HIRE at Staff (L6) with caution; the candidate demonstrates ascending trajectory through consistent platform ownership and recent LLM/anonymization work at Meta, but unfalsifiable claims like "redesigned ETL framework" miss scale metrics and failure modes, with the lowest pillar in FinOps_Unit_Economics exposing a credibility gap in cost-aware engineering. Calibrated to 10-15 YoE band in Tier 1 Tech context, where L6 expects multi-system direction-setting, this profile signals force-multiplier potential via leadership but requires interview validation on absent SLOs and AI ops maturity to avoid overplacement.


Gemini

HIRE (Strong L5 / Potential L6)

Nik demonstrates a rare and valuable "Full-Stack Data" profile: deep legacy warehousing roots (Data Vault, Oracle) successfully modernized into the cloud-native stack (Snowflake, dbt, Iceberg), and now transitioning into AI infrastructure at Meta. While some metrics are standard "resume padding" (e.g., "40% efficiency"), the trajectory from heavy lifting in banking to agile startups and finally Big Tech is coherent. The primary risk is role ambiguity—his recent past leans heavily into Engineering Management (hiring, managing 10+ reports), but he is assessed here as an IC. If he wants to code, he is a hire; if he wants to manage, he needs a different loop.


ChatGpt

DOWN-LEVEL TO L5 (Senior Data Platform Engineer) — not L6 yet.

You’ve got credible scope signals (managed teams of 7 and 10, roadmap ownership, platform building, large-cycle-time reduction for anonymization workflows), but many bullets are unfalsifiable (“overseeing function,” “near real-time data products”) with no mechanism, scale, or operational detail. The FinOps pillar is the weakest (almost no cost/unit metrics), and the AI readiness pillar reads like “worked near LLMs” rather than “built the infra that keeps LLM systems honest, cheap, and observable.”


Claude

DOWN-LEVEL TO L5 (Senior) | CONDITIONAL PASS
Twelve years of experience with demonstrated team leadership (7-10 reports) and platform-building at banking institutions, but the CV fails the 2026 AI-infrastructure bar for L6. The Meta role—ostensibly the most relevant—has the weakest evidence: "Overseeing" is not ownership, and the incomplete bullet ("providing...") suggests rushed preparation. The strongest falsifiable claims (3hr→10min load times, 3mo→2wk deployments) are from 2019-2021 Sberbank work, now heavily discounted. No SLOs, no cost-per-unit metrics, no failure modes documented anywhere. Trajectory signal is ambiguous: noscript progression was ascending (BI Dev → Senior → Lead) then contracted to IC at Meta—possibly Meta's flat structure, possibly scope reduction.


С ваc 100$ за карьерный коучинг 🍷

И накиньте идей, что еще добавить в метапромпт 😃
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👍1111😁1
AI Safety триггеры 🤨

Словил нынче отказ Gemini и NanoBanana Pro генерить архитектурные диаграммы на данном промпте 😺


{
"subject": "2D Data Flow: 'The Static Lookup'. \nTop: A 'Static Reference Table' (Blue, solid, labeled 'Users/Devices'). \nCenter: Fast-moving 'Event Stream' (Red data packets flowing right). \nBottom: Events passing through a 'JOIN' operator, emerging combined (Purple = Red + Blue). \nAnnotation: 'Reference updates: Daily/Weekly'. \nStyle: Stream processing diagram.",
"environment": "White Vector Canvas, Dot Grid Pattern",
"style": "Flat Vector Illustration, Clean Lines, Vibrant Data Accents",
"technical": "Info-graphic Quality, High Contrast, Purple/Blue/Coral Palette",
"boosters": "Adobe Illustrator, HashiCorp Style, Technical Blog Header, 4k"
}


Видимо, слишком двусмысленно описан был JOIN 🍺, что аж NSFW стал
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7👍1
Дружественная рекомендация по вакансии

ML Data Engineer в Recraft - 90-130k £ base + options, London, visa support

https://hrlunapark.notion.site/ML-Data-Engineer-2df39c37e87b809a8b74c348ff935797

Писать вопросы и кидать CV Феде из Luna Park - @owlkov

Я уже рассказывал про свой собес в рекрафт https://news.1rj.ru/str/analytics_engineer/78, а тут у ребят появилась еще более сочная позиция🍿

MLщики из рекрафта активны в лондонском ml коммьюнити, делают книжные клубы и разборы.

Сначала думал не постить, вдруг до апреля не закроют😂,а там бонус получил в бигтехе, и можно и в стартап🔼, но сомневаюсь, что будет столько времени закрываться.
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍2
Агенты в дата-платформах 🤖

Я уже полгода вожусь с разными дата агентами и другими GenAI решениями для данных. Кодинг / контекст ассистенты уже поменяли индустрию кардинально, а с внутренними агентами ситуация еще интереснее 😘.

Допустим, у вас в проде крутится дата агент-оркестратор. Он рулит десятком других агентов, те дёргают ещё по 10 тулов каждый.

Сценарий успеха: автоматизировали дата-платформу на 95%, радикально порезали косты, оставили 4 инженеров на on-call и одного визионера-архитектора минимум людей. Звучит топ (для менеджмента 🍷).

Какие подводные камни могут быть на этом пути? (Список не полон и нужны посты для раскрытия каждого)

1. Garbage in — garbage out во всем, начиная со спеки 🗑️

Как удостовериться, что требования на систему (написанные, конечно же, тоже с помощью GenAI) были полными и учитывало весь контекст? Claude генерит тонны кода, решающие неверную задачу. Раньше garbage in давал вам один кривой пайплайн (с фиксом на PR), а теперь - двадцать, и кривую дата платформу в придачу.

2. Недетерминированность и «а сколько процентов вас устроит?» 🎲

Какой процент корректности ок для полностью автоматизированных задач? Автозапуск backfilling, пропуск DQ-тестов при низком риске — 93%? 97%? 99%? Любая из этих цифр (часто взятая с потолка) нуждается в риск-менеджменте и готовности тушить прод, когда агент решит что-то оптимизировать сломать.

Context mismatch: агент просто решил не запускать tooling и начинает принимать решения хорошо, если только на неполном контексте, а иногда еще и нагаллюцинированном.

3. Инфраструктурные косты 💸

Если вы на on-prem - готовьтесь к x5-10 росту нагрузки (консервативно, если у вас еще нет ральф луперов в 5-10 окнах claude). Если в клауде - 👋 вашим бюджетам на compute (кек, особенно если у вас ещё и мультиклауд). Из интересного: скорее всего увидим активное улучшение дата-каталогов и меты. Агенты, пытаясь «понять» незнакомую таблицу, часто делают SELECT-ы прям в базу, а если дата профайлинг уже сделан, то метаданные превращают все это в one write - multiple reads на кешах.

4. On-call 🚨

Техническая сторона: галлюцинации + шквал false-positive алертов. Нужны десятки итераций для калибровки guardrails и eval-метрик вашего агента, и доработки corner cases.

Еще веселее человеческая сторона. GenAI решает простые алерты (пока 😂). А онбординг человека это понять паттерны на пуле таких базовых задач для набивки руки и контекста. Что будет делать джун, когда его первым инцидентом станет сложнейший нетипичный сбой? Спокойно закопается в код для дебага Пойдёт в панике промптить, надеясь на то, что он по устаревшему runbook что-то да соберет.

5. Демократизация разработки с GenAI 🧟

С развитием coding-агентов и text-to-pipeline генерация пайплайнов / etl frameworks уходит в массы. Если вы боттлнек, то бизнес вас обойдёт. Либо технически - нагенерив SQL на 5000 строк для своей витрины, либо политически - через эскалацию до VP с фразами «дата-команда тормозит time-to-market».

6. Security / prompt injection 🔓

Если агент смотрит на данные (таблицы, логи, тикеты, конфиги) любой текст может стать инструкцией.

Банальный пример: поле comment в таблице. До 2025 -> ну лежит там мусор, ок, 2026 -> Агент залогирует перс данные, выдаст доступы, выполнит "полезную" команду, подсунутую через контент. В DQ внезапно стал еще и security, и вашему DQ фреймворку нужны совсем другие тесты (Вы еще не делаете LLM-as-a-Judge? Тогда мы идем к вам :D)

7. Accountability: кто виноват? ⚖️
Генерация документации / постов / емейлов - первое, что делегируют LLM и даже уже не читают. Как ты тестировал? Ну запустил агента, вот output, а то что там явным текстом прописано, что есть проблемы, уже не важно, главное заполнить тест план =).

Так же появляется размытость accountability между командой, которая делала дата агента, и продуктовой командой, которая его использует.

---

В общем, добро пожаловать в эру data janitors and debuggers по GenAI-инцидентам, будет хуже весело 🙂

P.S. А есть русскоязычные коммьюнити по дата агентам, или есть смысл сделать тг чат для брейншторминга?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍65💊4🎉1🙊1
Как там ДЕ в 2026? 👋

Ну раз все обсуждают, то ворвусь и я. 🫡

«I am so excited, what a time to live, data industry is changing a lot», - сказал мне дата директор моей орги, рассказывая, как он начал делать коммиты и пушить код в прод, вайбкодя презентации и отчеты в параллель.

«I was excited a year ago, now I am anxious», - ответил я (как человек, закрывавший задачи кодогенерацией на 90% еще год назад). И пояснил, что он-то, если что, просто будет чиллить в своем доме в США в ретрите, а я, скорее всего, слечу с визы и поеду хер знает куда, буду надеяться, что на рынке хоть что-то останется 😂

Чем больше погружаюсь в AI Adoption, тем больше видна инсекьюрность как минимум обычных ДЕ. 👨‍🦳

К чему это я, спросит читатель.

Перепродумайте свою риск-модель жизни на 2026 год. Особенно, если вы не на ПМЖ / паспорте. Штормить будет. Не факт, что везде (по локации) и во всех тирах, но high earners это почувствуют. 🫡

Многие говорят, что DE в тренде и demand только увеличится. Смотря на вакансии в ЮК, так и есть. Будет ли также через 3-4 месяца, вопрос интересный и открытый.

Сделайте критический анализ для себя: если все перестали писать код, а tooling стал good enough для того, чтобы автоматически находить проблемы в пайплайнах и фиксить их - в чем ваша рыночность? 🔼

Разбираться в 200+ моделях в репозитории ИИ уже может лучше вас. Доменная область закроется семантической моделью. Что важно, это скилл брать ответственность за неопределенность или решение (C) Дороничев

Пока вы закрывали декомпозированные таски, кто-то закрыл таску на ваш выход. 😘

Зима однажды пройдёт, как чудо, наступит весна. Только, походу, без нас 😂. А весной расскажу, как я развиваюсь с точки зрения подстройки и развитие AI Native Data Platforms / Data Functions.

Joe Reis сделал хорошую публикацию на этот счет:
https://joereis.substack.com/p/2028-the-great-data-reckoning

Ну и подкаст Дороничева прям в тему

https://www.youtube.com/watch?v=QFTq22wZxNo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21😱85🔥4💩3🤝2