NEW BOT Телеграм, страница

Forwarded from Ai molodca (Dobrokotov)

This media is not supported in your browser

Из комментов, тест Seedance 2.0 подписчика, промт (!): A spectacular fight between a Tajik and an Uzbek over pilaf. They use pilaf to fight each other in spectacular hand-to-hand combat.

ЭТО ЧТО ТАКОЕ ВООБЩЕ?! 😮

Please open Telegram to view this post

VIEW IN TELEGRAM

958 views12:32

Архитектор Данных

Два хороших примера использования нейронки

😁11

951 views12:32

Архитектор Данных

Forwarded from StarRocks and modern data stack

Снаряд два раза в одну воронку не падает

Интересно, что у архитектора данных вышел цикл постов о том, почему стоит ехать в облако. А тем временем в нашей вселенной идет все ускоряющийся цикл ухода от облачной инфраструктуры во внутреннюю платформу данных чисто на реализовавшихся рисках (деньги смысла считать даже нет, стоимость рисков с лихвой покрывает всё).

Про что речь? В своем докладе что на смартдате, что в остальных местах я рассказывал про блокировку аккаунта в Google BigQuery в прошлом году на время уточнения данных, и заняло это 3 недели. Что случилось 2 недели назад? Да, аккаунт опять заблокировали, опять уточнение, ну а работа - потерпите, чай не сахарные. И следом уже вчера заблокировали целый пул ip адресов европейских цодов из стран вокруг РФ - запрет на использование api своих сервисов (BQ, GCP). То есть ты находишься не в РФ, платишь не с РФ, но никого не волнует.

Итого последние 3 недели мы перевозим проекты в StarRocks днем и ночью. Но почему-то получилось, что вместо расчета их там все заехало в Spark. Причина достаточно простая - наши эксперименты с бигквери проходили на проектах малого размера, почти все модели в dbt считались на table материализации. Spark такие штуки раскладывает примерно за 10-15 секунд на витринку, нагружать же mpp бд такого рода нагрузкой кажется напрасной затеей. Ведь в чем всегда была притензия к данным в хадупе - медленное чтение, а вот витринки собираются порой быстрее вертики (да что там, кликхауз у меня тоже получалось когда-то в телекоме обогнать). В итоге пользователи, биай и сервисы читают и делают эдхоки через StarRocks, а счет идет в кластере хадупа - все по заветам современных историй лейкхаузов, правда без перекладывания данных в слой доступа.

Ну а какие выводы можно сделать за эти 2 недели? А вот такие:
* перевозить витрины можно очень быстро
* сверять результаты между системами - чудовищная по трудоемкости операция
* витрины начинают разбегаться между системами буквально на следующей недели после переноса - надо или следить, или очень быстро ехать

Даже если функции выглядят в двух системах похоже (именуются одинаково), то совсем не факт что их аргументы или возвращаемые результаты будут идентичными. И поверх накладывается проблема вскрывания ошибок во время написания витрин в исходной системе, когда мы вынуждены или переносить расчет данных и найденную ошибку, либо мы теряем возможность построчной сверки :(

Вообщем печаль, беда и разорение. Если кто знает уже готовый тулсет для сверки таблиц построчно-поколоночно на спарке - напишите в комментарии, пожалуйста. Написать свой вроде несложно, но вдруг древние уже учли все проблемы. Почему spark? Потому что можно в нем внутри сравнивать разные системы без материализации и копирования данных, а еще легко сделать select sha1(*) from...

❤8👍3🔥1

1.08K views21:20

Архитектор Данных

На нас надвигается великий и ужасный 117-й приказ ФСТЭК.

Нашел хорошее почти трехчасовое (!) видео с объяснением и обсуждением его деталей. В видео прекрасные тайм-коды, можно быстро почерпнуть нужные именно вам темы.

VK Видео

Новая редакция Приказа ФСТЭК № 117: что теперь обязательно при защите ГИС

Приказ № 117 ФСТЭК России — один из ключевых документов для всех, кто отвечает за безопасность государственных информационных систем. Осенью 2025 года документ обновился: добавлены требования к взаимодействию с подрядчиками, защите сетевой инфраструктуры…

👍6🥱31

1.75K views06:43

Архитектор Данных

Команда Кликхауса опенсорснула Кубернетис оператор

https://clickhouse.com/blog/clickhouse-kubernetes-operator

ClickHouse

Introducing the Official ClickHouse Kubernetes Operator: Seamless Analytics at Scale

Introducing the Official ClickHouse Kubernetes Operator, open source under Apache 2.0 and free. Deploy production ClickHouse clusters on Kubernetes with sharding, replication, and ClickHouse Keeper. Scale up or out, update configuration and versions safel

✍55🔥4

1.31K views03:57

Архитектор Данных

О далеких доброжелателях

На днях подписчик прислал ссылку на пост в жанре площадной филиппики в мой адрес.

В целом мне приятно, что малознакомые люди, собравшись в кружок вечером в субботу, обсуждают меня. Пусть даже предметом являются мой кошелек, мои бонусы и сильно искаженная версия трудовой биографии. Видимо, так и приходит «известность».

На пару тезисов, тем не менее, отвечу.

Первое. Я не являюсь энтерпрайз архитектором в жанре «рисую стрелочки, дорого». Я не имею отношения к архитектуре ВК, где соцсети, почта, реклама. Я работаю с заказчиками ВК Облака, типичный мой заказчик - медиум и крупный российский бизнес. Те, кто размещают инфрастуктуру данных в облаке на IaaS, SaaS, PaaS или думают об этом. В реалиях рынка мне открыто сильно больше, чем типовому дата инженеру просто потому что перед глазами не 1 проект в котором я устроен, а 15-20 проектов заказчиков облака, с которыми я взаимодействую.

Второе. Бонусы у меня и правда есть, они и правда неплохие. Но привязаны они к перформансу моего продукта на рынке. Я кровно завишу от того, насколько интересно людям то что я говорю и насколько работают технологии, которые я предлагаю. Работают и приносят пользу - см. п.1 - в рядовом российском энтерпрайзе.

Третье - про обвинение в «воровстве» чье-то кода. Накатик в том, что я сделал демонстрационный репозиторий не с нуля, а на основе другого открытого. И если бы я скопипастил код без указания на авторский, это было бы воровство. Если бы я взял без спроса платный лицензируемый продукт, это было бы воровство. А когда ты берешь открытое произведение, указываешь автора, дополняешь своими соображениями и также выкладываешь в общий доступ - это нормальные опен-сорсные практики. Если поверх любого моего репо кто-то сделает что-то себе полезное, я только порадуюсь, и уверен, что автор оригинала тоже.

Расшифрую: если видишь кроме надписи forked рядышком также надпись This branch is N commit ahead of, это означает, что предлагаемое содержит дополнения по сравнению с. К примеру, в оригинале сборка не устанавливается на чистую систему и требует пререквизитов, в моей сборке - ставится. Есть расхардкоженные пароли, унесенные в зону вне репо и тд. Это все не инженерный мастерпис, но это экономит время и понижает порог входа в сборку. Если мы с командой сэкономили 30 минут каждому, кто попытается использовать сборку по назначению, считаю, что дополнения сделаны и выложены не зря. По факту уже сейчас воспользовались 50+ человек, те, о которых знаю.

Авторам пасквилей рекомендую обсудить что-то более духовное, чем чужой кошелек, когда в следующий раз они «соберутся на яхте». И заняться чем-то более полезным, чем распространение клеветы в адрес малознакомых людей.

Ссылка на филиппику - в первом комменте

P.S. Картинку в посте я тоже у Ильи Репина украл.

👍15😁15❤6👏3

976 viewsedited 09:31

Архитектор Данных

Peace

Что ж, рад что мы во всем разобрались. Явную клевету убрали (хотя интернет помнит все), с Димой (@rockyourdata) мы объяснились. Что ж, кто не устранял последствия разгульных вечеринок, тот не жил и не дышал 🫢

Спасибо всем, кто оказал поддержку! Очень приятно знать, что вокруг люди, готовые помочь и словом и делом. Неимоверно вас ценю.

Теперь peace и архитектура

❤16👍87

970 views07:25

Архитектор Данных

Forwarded from Mikhail Tokovinin

Предприниматель в 2026-ом

Логично в последний рабочий день 25-го подумать о том, как мы будем жить в грядущем 26-ом. Жить будем сложно, но весело. Гарантировано.

Степень неопределенности зашкаливает. Что будет с СВО? Что с санкциями? Как малый бизнес переживет новые налоги (и переживет ли)? Какая будет инфляция? Какая будет ставка? Что будет с авторынком при такой ставке и утиле? Добьют ли карго? А курс? Какой будет курс? А тут еще и WhatsApp забанили, и непонятно, где будет трафик и в какой канал инвестировать? А тут еще ИИ и ИИ-пузырь.

Всё это превращает бизнес в 26-ом немного в лотерею.

И что делать? Кто-то начнет рассказывать байки про некую «антихрупкость», а я скажу проще: маржа! У кого будет маржа, тот и выживет. В 26-ом нужно быть максимально маржинальными.

Режьте косты «не дожидаясь перитонита». Все эти прожекты, т.н. инвестиции и прочие фантазии - всё надо резать - сокращать расходы, ради сокращения расходов. Да, это порождает порочную спираль, ведь ваши расходы - это чьи-то доходы, а значит, если все начнут резать расходы, то у всех упадут и доходы. Но в бизнесе иногда не проблема «умереть», главное - «умереть последним».

Но как же будущее? А что потом? А вдруг мы пропустим рост?

Братцы, в России выживают пессимисты. Так что готовимся к худшему, надеемся на лучшее.

👍1

867 views10:07

Архитектор Данных

Mikhail Tokovinin

Давно хотел запостить.

Это взгляд крупного бизнеса на 2026-й. Режем, откладываем, ужимаемся. Прожить год, потом инвестиции. В России выживают пессимисты.

Если вы торгуете любым инвестиционным товаром - поздравляю, у вас трудности. Привет платформам данных и ИИ.

Учитесь операционализировать свои предложения, говорить про пользу здесь и прямо сейчас, а не когда-то через год.

Ну и начинайте с малого, растите доверие у заказчика, пока все сидят на заборе со своими огромными капексными коробками и ждут хороших лет.

Архитектор Данных

Философское - облако и разделение труда (4)

В начало цикла - Части 1-3

Как добиться роста кооперации.

Рост выгоден всем. Компаниям, государству, специалистам.

Если вы владелец или топ-менеджер платформы или сервиса, подумайте, как сделать, чтобы ваши…

1K views10:08

Архитектор Данных

Так выглядит снапшот Айсберга. И какой это кладезь метаданных!

Тут есть
• когда изменились данные
• что именно произошло в этом изменении: аппенд 9 дата-паркетов.
• Какое состояние таблицы: записей, число дата-файлов всех видов
• через какой движок: Трино версия 468, библиотека Айсберг 1.7
• какой юзер это сделал
• какой айди запроса в точности

Через 2 дня это будет зачищено, но до того доступно для любых DG / Sec Audit тулов!

❤10👍55

940 views08:59

Архитектор Данных

Forwarded from Архитектор Трэша - daily

Современные проблемы требуют современных решений

😁21🤮1😭1

930 views05:05

Архитектор Данных

Forwarded from дата инженеретта

Худшие фейлы в DE

Наткнулась на тред в реддите, где обсуждались фейлы на работе. Мне больше всего зашли 2 истории, они такие смешные и страшные одновременно🤯

1️⃣Стриминг писал в то же самое место, откуда и читал. Это все длилось год, поэтому накопилось сотни триллионов миллиардов версий документов. Проблема обнаружилась, только когда к ним пришел AWS и пожаловался на проблемы в своих системах

Неужели за этот год они не заметили, как эти пайплайны работают все медленнее и медленнее, почему такая высокая нагрузка и что в таблицах кучи дублей?

2️⃣DE понизил уровень логирования до DEBUG, и это привело к расходам в 100к долларов за неделю

Кажется, теперь я знаю способ, как можно уменьшить расходы компании. Ничего не логировать 😁

💰 Мы сейчас тоже переходим в эру FinOps. Будем пугать аналитиков, чтобы писали оптимальные запросы 😁

А у вас было что-то супер серьезное?

Ссылка на тред

@data_engineerette

Please open Telegram to view this post

VIEW IN TELEGRAM

From the dataengineering community on Reddit

Explore this post and more from the dataengineering community

👍8😭44

879 views15:18

Архитектор Данных

дата инженеретта

Худшие фейлы в DE Наткнулась на тред в реддите, где обсуждались фейлы на работе. Мне больше всего зашли 2 истории, они такие смешные и страшные одновременно🤯 1️⃣Стриминг писал в то же самое место, откуда и читал. Это все длилось год, поэтому накопилось сотни…

Поставить на автоскейл нечто, что самопроизвольно грузится от скейла.

Ммм, классика

👌7😁4❤2

931 views15:20

Архитектор Данных

Абсолютно так

Хорошая годная хабростатья от коллег.

https://habr.com/ru/articles/1000506/

🔥13👍64❤1

1.2K views08:22

Архитектор Данных

Архитектурные кейсы

Коллеги поделились успешным внедрением.

Была поставлена задача проноса спиртного в закрытый контур с настроенными политиками безопасности.

Попытки изменить по месту политики безопасности и донастроить ролевую модель успеха не дали, все упиралось в согласования с СБ.

Быстро посовещавшись, было принято прикладное решение в виде фанфуриков, запрятанных в носки.

Перформанс тесты показали производительность около 1 литра, что было на тот момент посчитали неидеально, но удовлетворительно.

Результат - внедрение прошло успешно, целевые результаты проекта оказались успешно достигнуты. Несмотря на все препоны и в кратчайшие сроки

🤣17👏5😁5❤2

1.14K viewsedited 15:08

Архитектор Данных

Цена Platform-as-a-Service

Я часто слышу критику, что облака берут инфру с ценой ок. 300р за ядро и перепродают за 1200р / ядро, наживаясь в 3 конца. Еще и переподписку сверху накручивают. Кровопийцы на теле трудового ИТ-народа, ррря, расстрелять!

А на самом деле - смотрим скрин письма.

Вот кусок инфры облака попал под топоры и утащил за собой часть кластера кликхауса. Но в процессе вся система нашла способ грейсфул-приостановить себя, решить проблему, перезапуститься на других виртуалках и разрешить всю ситуацию за 4 минуты (!). А пользователь (я) был честно предупрежден, что вот тут будут проблемки на какое-то время.

Это же еще надо было спланировать заранее развертывание кластера таким образом, чтобы при отказе одного из гиперов, он не ложился фатально. И надо выстроить систему, которая решает проблему проактивно, не когда она по факту возникла, а когда есть риск, что вот-вот возникнет.

Наверное, команда, которая организует все вот так, и будет стоить примерно 3х от цены инфраструктуры. Может, немного меньше, а может и сильно больше.

На выходе - не думаешь о том, а что будет с твоим сервисом и с тобой, если (когда) твоему кликхаусу (постгре, куберу, S3 etc) поплохеет.

Потому и ценность, потому и цена. Не думать, опереться на чью-то надежность (а еще и чернила на бумаге что будет работать почти всегда) - стоит за такое заплатить.

🔥 - Даешь пост про расчет облака глазами экономиста - или как обосновать бюджет

😎- Ну эту экономику, давай больше тех мяса и архитектуры!

🔥32😎13😭2👎1

882 views09:49

Архитектор Данных

Forwarded from Рекрутинг, котики и апокалипсис (Кира Кузьменко)

This media is not supported in your browser

VIEW IN TELEGRAM

Правда жизни на все времена и для всех профессий :)

😁13👏2❤1

871 views11:27

Архитектор Данных

СМИ: 99% телеграм-каналов перешли в Мах

ТЫ: 1%-er

👍13🙏5😁4❤1

904 views09:12

Архитектор Данных

Forwarded from Инжиниринг Данных

Databricks is no longer about tuning knobs - отличную тему поднял Zach. Это тот Зак, который уже млн 3$ заработал на курсах по Data Engineering. Его bootcamp стоит 1500$ с носа + подписка и онлайн курсы. Вот что значит есть аудитория.

Зак утверждает, что Databricks постепенно отходит от дата-инженеров в сторону аналитиков и менее технических пользователей. Три ключевых аргумента:

Физическое моделирование данных больше не нужно — Databricks заменил ручное партиционирование, сортировку и бакетирование автоматическими инструментами (Liquid Clustering, Predictive Optimization), лишив инженеров контроля.

Покупка Tabular за $1B+ замедлила развитие Iceberg — управляемые Iceberg-таблицы в Databricks урезаны: нет скрытого партиционирования, ручной компактификации файлов, управления снапшотами. Всё подталкивает к «магии Databricks» вместо явного контроля.

Бизнесу не нужны дата-инженеры — ему нужен результат — компании хотят быстрые дашборды, работающие модели и дешёвые пайплайны, а не споры о стратегиях партиционирования. AI + платформа заменяют дорогих специалистов.

Вывод: рынок вознаграждает абстракцию, а не контроль. Маятник качнулся в сторону аналитиков, близких к бизнесу, а экспертам по распределённым системам становится всё сложнее найти своё место.

Про iceberg и Tabular реально обидно. Вообще, все используют Delta на Databricks и не сильно заморачиваются про Iceberg.

Я тоже считаю, что учиться надо на реальных вещах - партиции, компрессия и тп. Это классно, когда вендор может сделать magic, но лучше понимать, что происходит под капотом.

На собеседовании вас это именно и спросят.

11❤1👍1

723 views08:42

Архитектор Данных

Инжиниринг Данных

Data Engineer не нужен

А вот правда. Он не приносит видимого результата, единственная его ценность в том что 10 аналитикам комфортнее, если у них есть 1 инженер.

И если раньше это соотношение было 3-5 к 1, то уже сейчас стремится к 10 аналитиков на одного инженера данных.

Появление фреймворков вроде dbt, sql mesh и такого скила как analytics engineer этому способствует. Следующий шаг - распространение класса решений для быстрой GUI-AI наладке ETL и модели данных.

И если до Low-Code пока что далековато, то Low-DE аналитика уже вполне реальность.

💯134❤3🤡1

2.02K views08:51

Архитектор Данных

Forwarded from Это разве аналитика?

Функции de по сути находятся на стыке аналитика, который не умеет готовить себе БД, и администратора БД, который хочет повелевать кластерами, бэкапами и т.д. и не хочет погружаться в предметные области аналитиков.
Поэтому логично, когда аналитики приобретают нужные компетенции + в больших компаниях создаются инструменты no или low code для быстрого создания витрин для эдхоков, то работы для de становится все меньше.
Но российская специфика заключается в универсальности работника - нужен и швец, и жнец, и на дуде игрец) поэтому de будут жить, но, как обычно, заниматься много чем еще)

❤15💯5👍2😁1

875 views17:59

About

Blog

Apps

Platform