Архитектор Данных – Telegram
Архитектор Данных
1.45K subscribers
202 photos
13 videos
2 files
160 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
О вайбкодинге

Сегодня впервые показывали навайбкоженное демо бизнес-заказчику.

Как было раньше: технически продуктовая часть работает, задача решается. Но показать это сложно, нужно залезать в «черные экраны» или в лучшем случае, Джупитер-ноутбуки. Бизнес-заказчик не понимает этих инструментов, ему нужен перевод с технического на бизнес-язык.

Сейчас: функциональная часть быстро оборачивается в интерфейс и заказчик видит билзко к тому, что будет в конечном продукте. Он видит свой UX, понимает его, доверие к показанному растет, а доверие это важно. В финале заказчик может попробовать демо сам, со своей мыши, для этого не нужно знать консольные команды или питон.

Стал лучше понимать, почему мой хороший знакомый Влад Каменский ушел с позиции фаундера и CEO компании в области данных и стал 100% вайб-кодером. Внимательно слежу за его экспериментом.

Как говорится, и я был скептик.
🔥101👍1
Домашний ИИ-бот, который заказывает продукты из ВкусВилл

С нового года хотел попробовать MCP-сервер ВкусВилл и OpenClaw — open-source фреймворк (181k+ звёзд на GitHub), который превращает LLM в Telegram-бота с навыками.

Вчера Даша сказала: нужен бот в чат с диетологом. Давай уже сделаем?
Быстро смотреть продукты, КБЖУ, собирать корзину. Основной поставщик у нашей семьи — ВкусВилл. Засел на вечер.

🧠 Opus — дорого даже для домашнего бота

Начал с Claude Opus 4.6. За 2 часа настройки и тестов с диетологом — $30. Для бота, который ищет творог — перебор. Подключать подписку Max — боюсь, может нарушать ToS.

Переехал на Kimi K2.5 от Moonshot AI. Спасибо за наводку @nobilix

Триллион параметров, MoE-архитектура. На бенчмарках рядом с Opus, подписка за 20 долларов и я не боюсь за ToS.

💡 OpenClaw имеет встроенную поддержку Kimi Coding — не нужно возиться с эндпоинтами. Указал модель, прописал ключ — работает.


🛒 MCP ВкусВилл: ищет, но не проверяет наличие

MCP-сервер умеет искать товары, показывать КБЖУ и собирать корзину. Но не проверяет наличие по адресу доставки. Без этого бот собирает корзину из товаров, от которых нет пользы.

Сайт отдаёт блок наличия только настоящему браузеру — curl не проходит, сервер проверяет TLS-fingerprint.

🔧 Решение: Puppeteer рядом с Docker

Развернул headless Chrome через Puppeteer. Один раз авторизовался через chrome://inspect, прописал адрес доставки — куки сохранились. Keepalive раз в сутки, чтобы сессия не протухала.

Теперь бот перед сборкой корзины проверяет каждый товар: есть — добавляет, нет — предлагает замену. Единственная ручная работа — авторизация через DevTools.

💰 Стоимость: ~$33 в месяц

🔸 Kimi K2.5 API — $20
🔸 VPS (1 ядро, 2 ГБ) — $12
🔸 Perplexity API (веб-поиск) — ~$1
🔸 OpenAI API (голосовые) — копейки

Семейный ассистент с голосовыми, веб-поиском и интеграцией с продуктовым магазином. Настройку делал через Claude Code — следил за лимитами, хватило бы стандартной подписки.

🔒 Безопасность

Docker, allowlist по Telegram ID, изоляция сессий между пользователями. В интернет — только через проверенные эндпоинты.

📦 Гайд со всеми граблями

Конфигурация провайдера, heartbeat, Puppeteer, безопасность, cron-задачи:
🔗 GitHub: openclaw-homebot-guide

Если пост увидят во ВкусВилл — ребята, MCP крутой, но сделайте авторизацию для ИИ-агентов. Одна таблица в базе, связь с учёткой, SMS — и можно отдать ключ агенту без костылей с безголовым Chrome.

----

Поляков считает — AI, код и кейсы
🔥12
Forwarded from Ai molodca (Dobrokotov)
This media is not supported in your browser
VIEW IN TELEGRAM
Из комментов, тест Seedance 2.0 подписчика, промт (!): A spectacular fight between a Tajik and an Uzbek over pilaf. They use pilaf to fight each other in spectacular hand-to-hand combat.

ЭТО ЧТО ТАКОЕ ВООБЩЕ?! 😮
Please open Telegram to view this post
VIEW IN TELEGRAM
Два хороших примера использования нейронки
😁11
Снаряд два раза в одну воронку не падает

Интересно, что у архитектора данных вышел цикл постов о том, почему стоит ехать в облако. А тем временем в нашей вселенной идет все ускоряющийся цикл ухода от облачной инфраструктуры во внутреннюю платформу данных чисто на реализовавшихся рисках (деньги смысла считать даже нет, стоимость рисков с лихвой покрывает всё).

Про что речь? В своем докладе что на смартдате, что в остальных местах я рассказывал про блокировку аккаунта в Google BigQuery в прошлом году на время уточнения данных, и заняло это 3 недели. Что случилось 2 недели назад? Да, аккаунт опять заблокировали, опять уточнение, ну а работа - потерпите, чай не сахарные. И следом уже вчера заблокировали целый пул ip адресов европейских цодов из стран вокруг РФ - запрет на использование api своих сервисов (BQ, GCP). То есть ты находишься не в РФ, платишь не с РФ, но никого не волнует.

Итого последние 3 недели мы перевозим проекты в StarRocks днем и ночью. Но почему-то получилось, что вместо расчета их там все заехало в Spark. Причина достаточно простая - наши эксперименты с бигквери проходили на проектах малого размера, почти все модели в dbt считались на table материализации. Spark такие штуки раскладывает примерно за 10-15 секунд на витринку, нагружать же mpp бд такого рода нагрузкой кажется напрасной затеей. Ведь в чем всегда была притензия к данным в хадупе - медленное чтение, а вот витринки собираются порой быстрее вертики (да что там, кликхауз у меня тоже получалось когда-то в телекоме обогнать). В итоге пользователи, биай и сервисы читают и делают эдхоки через StarRocks, а счет идет в кластере хадупа - все по заветам современных историй лейкхаузов, правда без перекладывания данных в слой доступа.

Ну а какие выводы можно сделать за эти 2 недели? А вот такие:
* перевозить витрины можно очень быстро
* сверять результаты между системами - чудовищная по трудоемкости операция
* витрины начинают разбегаться между системами буквально на следующей недели после переноса - надо или следить, или очень быстро ехать

Даже если функции выглядят в двух системах похоже (именуются одинаково), то совсем не факт что их аргументы или возвращаемые результаты будут идентичными. И поверх накладывается проблема вскрывания ошибок во время написания витрин в исходной системе, когда мы вынуждены или переносить расчет данных и найденную ошибку, либо мы теряем возможность построчной сверки :(

Вообщем печаль, беда и разорение. Если кто знает уже готовый тулсет для сверки таблиц построчно-поколоночно на спарке - напишите в комментарии, пожалуйста. Написать свой вроде несложно, но вдруг древние уже учли все проблемы. Почему spark? Потому что можно в нем внутри сравнивать разные системы без материализации и копирования данных, а еще легко сделать select sha1(*) from...
8👍3🔥1
О далеких доброжелателях

На днях подписчик прислал ссылку на пост в жанре площадной филиппики в мой адрес.

В целом мне приятно, что малознакомые люди, собравшись в кружок вечером в субботу, обсуждают меня. Пусть даже предметом являются мой кошелек, мои бонусы и сильно искаженная версия трудовой биографии. Видимо, так и приходит «известность».

На пару тезисов, тем не менее, отвечу.

Первое. Я не являюсь энтерпрайз архитектором в жанре «рисую стрелочки, дорого». Я не имею отношения к архитектуре ВК, где соцсети, почта, реклама. Я работаю с заказчиками ВК Облака, типичный мой заказчик - медиум и крупный российский бизнес. Те, кто размещают инфрастуктуру данных в облаке на IaaS, SaaS, PaaS или думают об этом. В реалиях рынка мне открыто сильно больше, чем типовому дата инженеру просто потому что перед глазами не 1 проект в котором я устроен, а 15-20 проектов заказчиков облака, с которыми я взаимодействую.

Второе. Бонусы у меня и правда есть, они и правда неплохие. Но привязаны они к перформансу моего продукта на рынке. Я кровно завишу от того, насколько интересно людям то что я говорю и насколько работают технологии, которые я предлагаю. Работают и приносят пользу - см. п.1 - в рядовом российском энтерпрайзе.

Третье - про обвинение в «воровстве» чье-то кода. Накатик в том, что я сделал демонстрационный репозиторий не с нуля, а на основе другого открытого. И если бы я скопипастил код без указания на авторский, это было бы воровство. Если бы я взял без спроса платный лицензируемый продукт, это было бы воровство. А когда ты берешь открытое произведение, указываешь автора, дополняешь своими соображениями и также выкладываешь в общий доступ - это нормальные опен-сорсные практики. Если поверх любого моего репо кто-то сделает что-то себе полезное, я только порадуюсь, и уверен, что автор оригинала тоже.

Расшифрую: если видишь кроме надписи forked рядышком также надпись This branch is N commit ahead of, это означает, что предлагаемое содержит дополнения по сравнению с. К примеру, в оригинале сборка не устанавливается на чистую систему и требует пререквизитов, в моей сборке - ставится. Есть расхардкоженные пароли, унесенные в зону вне репо и тд. Это все не инженерный мастерпис, но это экономит время и понижает порог входа в сборку. Если мы с командой сэкономили 30 минут каждому, кто попытается использовать сборку по назначению, считаю, что дополнения сделаны и выложены не зря. По факту уже сейчас воспользовались 50+ человек, те, о которых знаю.

Авторам пасквилей рекомендую обсудить что-то более духовное, чем чужой кошелек, когда в следующий раз они «соберутся на яхте». И заняться чем-то более полезным, чем распространение клеветы в адрес малознакомых людей.

Ссылка на филиппику - в первом комменте

P.S. Картинку в посте я тоже у Ильи Репина украл.
👍15😁156👏3
Peace

Что ж, рад что мы во всем разобрались. Явную клевету убрали (хотя интернет помнит все), с Димой (@rockyourdata) мы объяснились. Что ж, кто не устранял последствия разгульных вечеринок, тот не жил и не дышал 🫢

Спасибо всем, кто оказал поддержку! Очень приятно знать, что вокруг люди, готовые помочь и словом и делом. Неимоверно вас ценю.

Теперь peace и архитектура
16👍87
Forwarded from Mikhail Tokovinin
Предприниматель в 2026-ом

Логично в последний рабочий день 25-го подумать о том, как мы будем жить в грядущем 26-ом. Жить будем сложно, но весело. Гарантировано.

Степень неопределенности зашкаливает. Что будет с СВО? Что с санкциями? Как малый бизнес переживет новые налоги (и переживет ли)? Какая будет инфляция? Какая будет ставка? Что будет с авторынком при такой ставке и утиле? Добьют ли карго? А курс? Какой будет курс? А тут еще и WhatsApp забанили, и непонятно, где будет трафик и в какой канал инвестировать? А тут еще ИИ и ИИ-пузырь.

Всё это превращает бизнес в 26-ом немного в лотерею.

И что делать? Кто-то начнет рассказывать байки про некую «антихрупкость», а я скажу проще: маржа! У кого будет маржа, тот и выживет. В 26-ом нужно быть максимально маржинальными.

Режьте косты «не дожидаясь перитонита». Все эти прожекты, т.н. инвестиции и прочие фантазии - всё надо резать - сокращать расходы, ради сокращения расходов. Да, это порождает порочную спираль, ведь ваши расходы - это чьи-то доходы, а значит, если все начнут резать расходы, то у всех упадут и доходы. Но в бизнесе иногда не проблема «умереть», главное - «умереть последним».

Но как же будущее? А что потом? А вдруг мы пропустим рост?

Братцы, в России выживают пессимисты. Так что готовимся к худшему, надеемся на лучшее.
👍1
Mikhail Tokovinin
Предприниматель в 2026-ом Логично в последний рабочий день 25-го подумать о том, как мы будем жить в грядущем 26-ом. Жить будем сложно, но весело. Гарантировано. Степень неопределенности зашкаливает. Что будет с СВО? Что с санкциями? Как малый бизнес переживет…
Давно хотел запостить.

Это взгляд крупного бизнеса на 2026-й. Режем, откладываем, ужимаемся. Прожить год, потом инвестиции. В России выживают пессимисты.

Если вы торгуете любым инвестиционным товаром - поздравляю, у вас трудности. Привет платформам данных и ИИ.

Учитесь операционализировать свои предложения, говорить про пользу здесь и прямо сейчас, а не когда-то через год.

Ну и начинайте с малого, растите доверие у заказчика, пока все сидят на заборе со своими огромными капексными коробками и ждут хороших лет.
Так выглядит снапшот Айсберга. И какой это кладезь метаданных!

Тут есть
• когда изменились данные
• что именно произошло в этом изменении: аппенд 9 дата-паркетов.
• Какое состояние таблицы: записей, число дата-файлов всех видов
• через какой движок: Трино версия 468, библиотека Айсберг 1.7
• какой юзер это сделал
• какой айди запроса в точности

Через 2 дня это будет зачищено, но до того доступно для любых DG / Sec Audit тулов!
10👍55
Современные проблемы требуют современных решений
😁21🤮1😭1
Худшие фейлы в DE

Наткнулась на тред в реддите, где обсуждались фейлы на работе. Мне больше всего зашли 2 истории, они такие смешные и страшные одновременно🤯

1️⃣Стриминг писал в то же самое место, откуда и читал. Это все длилось год, поэтому накопилось сотни триллионов миллиардов версий документов. Проблема обнаружилась, только когда к ним пришел AWS и пожаловался на проблемы в своих системах

Неужели за этот год они не заметили, как эти пайплайны работают все медленнее и медленнее, почему такая высокая нагрузка и что в таблицах кучи дублей?

2️⃣DE понизил уровень логирования до DEBUG, и это привело к расходам в 100к долларов за неделю

Кажется, теперь я знаю способ, как можно уменьшить расходы компании. Ничего не логировать 😁

💰 Мы сейчас тоже переходим в эру FinOps. Будем пугать аналитиков, чтобы писали оптимальные запросы 😁

А у вас было что-то супер серьезное?

Ссылка на тред

@data_engineerette
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8😭44
Абсолютно так

Хорошая годная хабростатья от коллег.

https://habr.com/ru/articles/1000506/
🔥13👍641
Архитектурные кейсы

Коллеги поделились успешным внедрением.

Была поставлена задача проноса спиртного в закрытый контур с настроенными политиками безопасности.

Попытки изменить по месту политики безопасности и донастроить ролевую модель успеха не дали, все упиралось в согласования с СБ.

Быстро посовещавшись, было принято прикладное решение в виде фанфуриков, запрятанных в носки.

Перформанс тесты показали производительность около 1 литра, что было на тот момент посчитали неидеально, но удовлетворительно.

Результат - внедрение прошло успешно, целевые результаты проекта оказались успешно достигнуты. Несмотря на все препоны и в кратчайшие сроки
🤣17👏5😁52
Цена Platform-as-a-Service

Я часто слышу критику, что облака берут инфру с ценой ок. 300р за ядро и перепродают за 1200р / ядро, наживаясь в 3 конца. Еще и переподписку сверху накручивают. Кровопийцы на теле трудового ИТ-народа, ррря, расстрелять!

А на самом деле - смотрим скрин письма.

Вот кусок инфры облака попал под топоры и утащил за собой часть кластера кликхауса. Но в процессе вся система нашла способ грейсфул-приостановить себя, решить проблему, перезапуститься на других виртуалках и разрешить всю ситуацию за 4 минуты (!). А пользователь (я) был честно предупрежден, что вот тут будут проблемки на какое-то время.

Это же еще надо было спланировать заранее развертывание кластера таким образом, чтобы при отказе одного из гиперов, он не ложился фатально. И надо выстроить систему, которая решает проблему проактивно, не когда она по факту возникла, а когда есть риск, что вот-вот возникнет.

Наверное, команда, которая организует все вот так, и будет стоить примерно 3х от цены инфраструктуры. Может, немного меньше, а может и сильно больше.

На выходе - не думаешь о том, а что будет с твоим сервисом и с тобой, если (когда) твоему кликхаусу (постгре, куберу, S3 etc) поплохеет.

Потому и ценность, потому и цена. Не думать, опереться на чью-то надежность (а еще и чернила на бумаге что будет работать почти всегда) - стоит за такое заплатить.

🔥 - Даешь пост про расчет облака глазами экономиста - или как обосновать бюджет

😎- Ну эту экономику, давай больше тех мяса и архитектуры!
🔥32😎13😭2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Правда жизни на все времена и для всех профессий :)
😁13👏21