Хокку про DE
Когда я заводила канал, нужно было придумать к нему описание. И я почти сразу подумала про хокку - короткое и лаконичное
А сейчас мне захотелось погенерить хокку на тему де, и вот что получилось) По-моему, очень поэтично📒
Когда я заводила канал, нужно было придумать к нему описание. И я почти сразу подумала про хокку - короткое и лаконичное
А сейчас мне захотелось погенерить хокку на тему де, и вот что получилось) По-моему, очень поэтично
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥47❤10👍2😁2 1
Я еду на смартдату!!!
На днях приснилось, что смартдата будет во Франции, в Париже🇫🇷 И я во сне думаю: "Она же уже через две недели, а у меня нет визы. Дадут мне так быстро и вообще дадут ли?? 😱 😱 Надо поставить напоминание на завтра, чтобы не забыть прямо с утра разобраться с этим"
И через мгновение я уже вижу себя в Париже. Вспоминаю, что надо быть аккуратным со своими вещами. Я вешаю сумку через плечо, крепко держу телефон в руках, солнечный день, навстречу много людей. Я иду к трамвайной остановке…
🧳 Вообще путешествия мне часто снятся. Я даже начала в какой-то момент все детали записывать в заметках)
Так я путешествовала уже 32 раза, из самого прикольного:
⏺ пешком перешла границу Москва - Испания
⏺ пожала руку Байдену
⏺ бежала с партизанами из польской деревни
⏺ посетила вымышленную страну на территории Буркина-Фасо и Ганы
⏺ из-за надвигающейся катастрофы в Африке переплыла на другой остров
⏺ искала в Париже сестру подруги, которую в детстве отдали в другую семью (у нее нет сестры)
🕰 А по смартдате уже выбрала и добавила себе в календарь по одному докладу. Закину в комменты те, которые мне больше других приглянулись, довыбираю уже на месте
На днях приснилось, что смартдата будет во Франции, в Париже
И через мгновение я уже вижу себя в Париже. Вспоминаю, что надо быть аккуратным со своими вещами. Я вешаю сумку через плечо, крепко держу телефон в руках, солнечный день, навстречу много людей. Я иду к трамвайной остановке…
Так я путешествовала уже 32 раза, из самого прикольного:
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23❤6 3🔥2🤷1
Data Internals
Я сходила на конфу "Data Internals", где потусовалась еще с парочкой де админов🕺 Как здорово, когда есть люди, которые могут выбить тебе проходку🙂 Мы послушали про дата каталоги, self-service инструменты, про clickhouse, lakehouse, сходили на два круглых стола и покушали)
Активности вне докладов были прикольными: кроссворд и ребусы на английском(!), головоломки из металла, соревнование на реакцию, разбрасывание типов файлов по ведрам (в прямом смысле!) и даже гадание на таро🙂
С таро был прикольный момент. Я задала вопрос на тему перспектив развития в компании. Мне выпала карта "The Data Priestess" - главная по данным, порекомендовали идти в лиды)) Предположительно в течение года. Не знаю как насчет года, но в плане обучения я двигаюсь в правильном направлении)
Через несколько часов я решила снова туда подойти и задать вопрос по поводу развития личной жизни. Мне снова говорят сдвинуть карты и вытащить одну. Я четко понимаю, что мне хочется вытащить вторую сверху. Я ее выстаскиваю - и там снова жрица!😂 В общем, надо все брать в свои руки, тогда будет четенько)
По итогу активностей я обменяла баллы на термокружку, бутылочки, походную розетку, парковочную визитку (хотя у меня нет тачки😁 ) и светильник-облачко)
Народу было немного, около 400 человек. Конфа как таковая не очень интересная: были как лайтовые доклады, так и очень низкоуровневые, круглые столы тоже нас не всколыхнули( Только задала парочку вопросов на докладе про self-service оркестрацию в лемана тех - единственное, что более-менее заинтересовало, потому что у нас нечто очень похожее (картинку архитектуры решения докину в комменты)
Я сходила на конфу "Data Internals", где потусовалась еще с парочкой де админов
Активности вне докладов были прикольными: кроссворд и ребусы на английском(!), головоломки из металла, соревнование на реакцию, разбрасывание типов файлов по ведрам (в прямом смысле!) и даже гадание на таро
С таро был прикольный момент. Я задала вопрос на тему перспектив развития в компании. Мне выпала карта "The Data Priestess" - главная по данным, порекомендовали идти в лиды)) Предположительно в течение года. Не знаю как насчет года, но в плане обучения я двигаюсь в правильном направлении)
Через несколько часов я решила снова туда подойти и задать вопрос по поводу развития личной жизни. Мне снова говорят сдвинуть карты и вытащить одну. Я четко понимаю, что мне хочется вытащить вторую сверху. Я ее выстаскиваю - и там снова жрица!
По итогу активностей я обменяла баллы на термокружку, бутылочки, походную розетку, парковочную визитку (хотя у меня нет тачки
Народу было немного, около 400 человек. Конфа как таковая не очень интересная: были как лайтовые доклады, так и очень низкоуровневые, круглые столы тоже нас не всколыхнули( Только задала парочку вопросов на докладе про self-service оркестрацию в лемана тех - единственное, что более-менее заинтересовало, потому что у нас нечто очень похожее (картинку архитектуры решения докину в комменты)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18🔥4😁3💅2
Как я чуть не попалась на мошенников
Предыстория
👢 В конце августа в Казани проходил «Сенной базар», где локальные бренды выставляют свою продукцию. Мне очень понравился один бренд из Тюмени, одежда ручной работы, и я некоторое время общалась с его владелицей. Потом она не прочитала мой вопрос, я написала еще раз через пару недель - снова не прочитала. Но я уже запланировала покупку, поэтому решила написать в чат тг канала
Краткое продолжение
Мне пишут с аккаунта «<Название бренда> Chat». Акк создан в апреле 2025, сам бренд тоже относительно новый, около 1,5 лет. Общение очень вежливое, со скобочками и сердечками в меру. Ниже просто тезисно:
Что я хотела заказать? Не видели мое сообщение, продублируйте
❓ Первый звоночек - можно же найти переписку со мной? ну ок, далеко листать или пишет ассистенка
Какой размер нужен?
❓ Второй звоночек - размер для платья, которое шьется под заказ? сомнительно, но окей, вдруг есть какие-то заготовки, замеры все равно нужны
Пришлите данные для доставки. Я в ответ спрашиваю про сроки - до недели
❓ Третий звоночек - сшить под меня и доставить до недели? ну…. по-до-зри-тель-но. пока допустим, учитывая предыдущий вопрос про размер
Соориентировать ли по стоимости? Оплата сразу
❓ Четвертый звоночек - я смотрю на цены и понимаю, что они раза в 2-3 дешевле, чем я видела в инсте и на оф сайте. "Реальная себестоимость должна быть еще ниже тогда? Они больше, чем в 4 раза что ли делают надбавки? Или это персональная скидка за личное знакомство и большое количество вещей?"
Тут мне пишет владелица и говорит, что чат со мной случайно оказался в архиве
❓ Финальный колокол - я смотрю на список чатов и вижу, как параллельно пишут в два из них
〰️ 〰️ 〰️ 〰️ 〰️
Выяснилось, что к бренду этот акк никакого отношения не имеет. Я их довела до ссылки на оплату, по СБП, в течение 10 минут. Мне прислали длинную ссылку, я перепроверила на фишинг и вирусы раз 5 на разных сайтах)) Открыла в инкогнито, увидела огромный куар с инструкцией отсканировать с телефона - и заблочила акк
Еще я вспомнила, что тестила функцию с чатом канала один раз, и там была плашка DIRECT рядом с названием, но это было еще в начале лета. К слову, в профиле мошеннического акка не было никаких ссылочек. Я вот теперь сомневаюсь, а можно ли вообще писать от имени чата, а не канала?
В общем, я не слышала про такую схему и уже готова была подтверждать после выяснения моих вопросов, если бы владелица не написала в тот самый момент
Я что-то упустила?
Берегите себя🧡
Предыстория
Краткое продолжение
Мне пишут с аккаунта «<Название бренда> Chat». Акк создан в апреле 2025, сам бренд тоже относительно новый, около 1,5 лет. Общение очень вежливое, со скобочками и сердечками в меру. Ниже просто тезисно:
Что я хотела заказать? Не видели мое сообщение, продублируйте
Какой размер нужен?
Пришлите данные для доставки. Я в ответ спрашиваю про сроки - до недели
Соориентировать ли по стоимости? Оплата сразу
Тут мне пишет владелица и говорит, что чат со мной случайно оказался в архиве
Выяснилось, что к бренду этот акк никакого отношения не имеет. Я их довела до ссылки на оплату, по СБП, в течение 10 минут. Мне прислали длинную ссылку, я перепроверила на фишинг и вирусы раз 5 на разных сайтах)) Открыла в инкогнито, увидела огромный куар с инструкцией отсканировать с телефона - и заблочила акк
Еще я вспомнила, что тестила функцию с чатом канала один раз, и там была плашка DIRECT рядом с названием, но это было еще в начале лета. К слову, в профиле мошеннического акка не было никаких ссылочек. Я вот теперь сомневаюсь, а можно ли вообще писать от имени чата, а не канала?
В общем, я не слышала про такую схему и уже готова была подтверждать после выяснения моих вопросов, если бы владелица не написала в тот самый момент
Я что-то упустила?
Берегите себя
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍15❤8💅1🤷1
Как мониторить подвисшие сенсоры?
Начнем с того, что в Airflow есть несколько состояний для таски:
⭐️ none - пока отдыхает
⭐️ scheduled - должна быть запущена, все зависимости выполнены
⭐️ queued - ждет свободный воркер
⭐️ running - работает
⭐️ success - успешно завершилась
⭐️ restarting - перезапустили
⭐️ failed - упала
⭐️ skipped - пропущена
⭐️ upstream_failed - упала предыдущая таска, которая нам нужна
⭐️ up_for_retry - упала, но будет перезапущена
⭐️ up_for_reschedule - сенсор будет перезапущен
⭐️ deferred - отложена и ждет триггер
⭐️ removed - удалена из дага после запуска
Подвисшие сенсоры уходят в статус deferred. У нас они имеют такой нейминг - mytask_awaiting_somedag. Я написала себе запрос, который выводит:
⭕️ название дага, на который смотрит сенсор
⭕️ количество сенсоров, которые ждут этот даг
⭕️ общее количество подвисших сенсоров
И так можно сразу понять, на какой даг смотрит наибольшее количество сенсоров, и посмотреть причину
Начнем с того, что в Airflow есть несколько состояний для таски:
Подвисшие сенсоры уходят в статус deferred. У нас они имеют такой нейминг - mytask_awaiting_somedag. Я написала себе запрос, который выводит:
И так можно сразу понять, на какой даг смотрит наибольшее количество сенсоров, и посмотреть причину
with sensored as (
SELECT
substr(
task_id,
strpos(task_id, 'awaiting_') + length('awaiting_')
) as sensor,
dag_id
FROM airflow.public.task_instance
WHERE state = 'deferred'
)
select
sensor,
count(1) over(partition by sensor) as sensor_cnt,
count(1) over() as total_cnt,
dag_id
from sensored
order by 2 desc, sensor, dag_id;
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍22🔥6❤5
Я сделала стикеры😎
Версия 1.0
Давно была мысль придумать свой стикерпак, и вот я ее реализовала🙌 Если бы я знала, сколько знаний и умений это потребует, то не стала бы так возиться))
Пару дней накидывала в заметках кучу идей. А потом пришлось осваиваться в графическом дизайне. Это просто нечто🤯 🤯 Я сидела все выходные и выясняла:
🤩 как работать со слоями?
🤩 как выровнять картинки с текстом?
🤩 как поправить кривые, чтобы они выглядели норм?
🤩 что такое тип узла?
🤩 как сделать изогнутый текст?
🤩 как нарисовать форму вокруг всего текста, а не отдельных буковок?
🤩 как перевести текст в кривые?
🤩 как объединить элементы?
🤩 как сделать обводку?
🤩 как сделать поля наклеек?
🤩 как нарисовать контур реза и какого цвета?
🤩 в каком масштабе сохранять?
🤩 как соотносятся пункты и мм?
🤩 какими делать поля документа?
🤩 Хотелось несколько раз бросить это дело, потому что я никак не могла найти инфу и функционал в проге. Но что-то двигало меня вперед🤩
А еще приходилось гуглить “что такое плоттерная резка”, внимательно читать требования к стикерпаку, вымерять расстояния линеечкой, переделывать готовый стикерпак под нужный масштаб и кучу раз менять расположение, чтобы все поместилось и не порезалось. В итоге 80% идей остались за бортом, некоторые уже реализованные элементы пришлось вырезать на этапе аппрува от типографии😭
Потом забрать цветопробу, заплатить денежку (20 штук - 6к, тоже как бы недешево), забрать финалочку в день отъезда на конфу и вуаля🙌
Версия 1.0
Давно была мысль придумать свой стикерпак, и вот я ее реализовала
Пару дней накидывала в заметках кучу идей. А потом пришлось осваиваться в графическом дизайне. Это просто нечто
А еще приходилось гуглить “что такое плоттерная резка”, внимательно читать требования к стикерпаку, вымерять расстояния линеечкой, переделывать готовый стикерпак под нужный масштаб и кучу раз менять расположение, чтобы все поместилось и не порезалось. В итоге 80% идей остались за бортом, некоторые уже реализованные элементы пришлось вырезать на этапе аппрува от типографии
Потом забрать цветопробу, заплатить денежку (20 штук - 6к, тоже как бы недешево), забрать финалочку в день отъезда на конфу и вуаля
Please open Telegram to view this post
VIEW IN TELEGRAM
❤24 9🔥6👍3
Как прошла SmartData 2025?
Это были 2 дня конфы в Питере - доклады, тусовка крутых ребят, активности и обсуждения. Ниже будут инсайты от оргов, команд и почему я просто обязана поехать в следующем году!
📚 Доклады
В одно время идут сразу 3 доклада, поэтому большинство осталось за кадром. Тут топ из тех, которые я посетила:
1️⃣ Текущее состояние рынка даты
Presto/Trino + K8s + S3, Iceberg, StarRocks, Polars - движется сюда
2️⃣ Куда развивается айсберг
Из продвинутого - мат вьюшки, UDF, интероперабельность вьюшек и т.д.
Поясняю про вьюшки:
Spark создает - Spark читает - ок🤩
Trino создает - Trino читает - ок🤩
Trino создает - Spark читает - не ок🤩 , а должно быть ок (наоборот тоже)
Также есть глобальная проблема: в айсберге фичу могут внедрить, но пройдет много времени, пока движок научится это поддерживать
3️⃣ Про датасеты в Airflow
Все супер понятно, с несколькими кейсами, проблемами и решениями. Я взяла контакт, нам может пригодиться
4️⃣ Spark Connect
Как раз недавно коллега вкидывал идею использовать Spark Connect для одной задачи, надо будет пересмотреть
5️⃣ Self-service для деплоя витрин в Авито
Тут вообще приколдесная штука, они в битбакете в комментах пишут команды dwh test, dwh merge, это проверяют кучи тест-кейсов, есть автоопределение зависимостей, циклических зависимостей. С точки зрения идеи и реализации мне кажется безумно крутым, но вопрос - оно действительно нужно было?
6️⃣ DQ as a Service
Интересные фичи:
⁃ проверки группируются, чтобы не спамить каждую
⁃ проверки на месяц могут ссылаться на проверки по дню, чтобы не пересчитывать заново
⁃ ETL-процесс отправляет свой результат, чтобы проверка его переиспользовала
⁃ некоторые проверки на сэмплах данных могут не отличаться от всего объема
Уходя в первый день, я услышала мнение:
🐱 Нетворкинг
Тут самое прикольное!
Я пообщалась с представителем программного комитета, с ребятами из компаний по поводу их подходов, вживую познакомилась с нашими коллегами, с еще одним автором де канала и его очень крутыми коллегами. Меня даже узнали несколько человек, сказали, что один из адекватных каналов🙂
Чел из программного комитета поделился, что докладов изначально в 3 раза больше, они ценят уникальность (без написанных статей с хабра и повторов с других конф). Если определенных технологий нет - были слабенькие доклады. Иногда программный комитет хочет сходить на несколько докладов и расставляет так, чтобы они не пересекались))
✨ Активности и инсайты
Активности были на стендах партнеров конфы. Я там познакомилась с организатором мероприятий - вы в курсе, что самый базовый стенд без особых наворотов, подиумов и подсветки уже стоит 1 млн??
Игрулек было достаточно, я набрала себе столько мерча, что уже можно продавать)) Из полезного:
🤩 Бросала магнитные дротики. Куда попадешь - такая сложность вопроса, берите на заметку)
Junior:
SQL-запрос для дубликатов?
Зачем нужны индексы в бд?
Middle:
Как вы настроите мониторинг для пайплайна, чтобы знать, если данные не пришли вовремя?
Как обеспечить идемпотентность в пайплайне?
Senior:
Как вы оцените, когда пора переходить от batch-обработки к streaming-архитектуре?
🤩 Собирала архитектуру
Это было самое прикольное! Мы клали в реальную корзину реальные технологии и шли сканировать на кассу. Представьте: я купила айсберг. А если вы не знали, то Магнит выкупил Азбуку вкуса
Пока собирала архитектуру в Х5, ребята рассказали про крутую собственную разработку. У них много инстансов Airflow, и они синкуются через Redis - там хранятся статусы о состояниях дагов, на которых строятся зависимости. Это просто🔥
🍓 На сладенькое
В конце был глобальный розыгрыш сумки с мерчом от партнеров и билета на следующий год. Представляете, это выиграла я!!!!
Это были 2 дня конфы в Питере - доклады, тусовка крутых ребят, активности и обсуждения. Ниже будут инсайты от оргов, команд и почему я просто обязана поехать в следующем году!
В одно время идут сразу 3 доклада, поэтому большинство осталось за кадром. Тут топ из тех, которые я посетила:
Presto/Trino + K8s + S3, Iceberg, StarRocks, Polars - движется сюда
Из продвинутого - мат вьюшки, UDF, интероперабельность вьюшек и т.д.
Поясняю про вьюшки:
Spark создает - Spark читает - ок
Trino создает - Trino читает - ок
Trino создает - Spark читает - не ок
Также есть глобальная проблема: в айсберге фичу могут внедрить, но пройдет много времени, пока движок научится это поддерживать
Все супер понятно, с несколькими кейсами, проблемами и решениями. Я взяла контакт, нам может пригодиться
Как раз недавно коллега вкидывал идею использовать Spark Connect для одной задачи, надо будет пересмотреть
Тут вообще приколдесная штука, они в битбакете в комментах пишут команды dwh test, dwh merge, это проверяют кучи тест-кейсов, есть автоопределение зависимостей, циклических зависимостей. С точки зрения идеи и реализации мне кажется безумно крутым, но вопрос - оно действительно нужно было?
Интересные фичи:
⁃ проверки группируются, чтобы не спамить каждую
⁃ проверки на месяц могут ссылаться на проверки по дню, чтобы не пересчитывать заново
⁃ ETL-процесс отправляет свой результат, чтобы проверка его переиспользовала
⁃ некоторые проверки на сэмплах данных могут не отличаться от всего объема
Уходя в первый день, я услышала мнение:
SmartData - это, значит, очень клевое место, если народ в начале докладов разбегается по залам. Это говорит об уровне конфы
Тут самое прикольное!
Я пообщалась с представителем программного комитета, с ребятами из компаний по поводу их подходов, вживую познакомилась с нашими коллегами, с еще одним автором де канала и его очень крутыми коллегами. Меня даже узнали несколько человек, сказали, что один из адекватных каналов
Чел из программного комитета поделился, что докладов изначально в 3 раза больше, они ценят уникальность (без написанных статей с хабра и повторов с других конф). Если определенных технологий нет - были слабенькие доклады. Иногда программный комитет хочет сходить на несколько докладов и расставляет так, чтобы они не пересекались))
Активности были на стендах партнеров конфы. Я там познакомилась с организатором мероприятий - вы в курсе, что самый базовый стенд без особых наворотов, подиумов и подсветки уже стоит 1 млн??
Игрулек было достаточно, я набрала себе столько мерча, что уже можно продавать)) Из полезного:
Junior:
SQL-запрос для дубликатов?
Зачем нужны индексы в бд?
Middle:
Как вы настроите мониторинг для пайплайна, чтобы знать, если данные не пришли вовремя?
Как обеспечить идемпотентность в пайплайне?
Senior:
Как вы оцените, когда пора переходить от batch-обработки к streaming-архитектуре?
Это было самое прикольное! Мы клали в реальную корзину реальные технологии и шли сканировать на кассу. Представьте: я купила айсберг. А если вы не знали, то Магнит выкупил Азбуку вкуса
Пока собирала архитектуру в Х5, ребята рассказали про крутую собственную разработку. У них много инстансов Airflow, и они синкуются через Redis - там хранятся статусы о состояниях дагов, на которых строятся зависимости. Это просто
В конце был глобальный розыгрыш сумки с мерчом от партнеров и билета на следующий год. Представляете, это выиграла я!!!!
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥22❤13 11