NEW BOT Телеграм, страница

дата инженеретта

✨

Новогоднее чудо

✨

Мы тут релизились за 5 дней до нг (потому что можем себе позволить), и я испытала настоящие эмоциональные качели👌

😭

👌

😭

👌

Нужно было раскатать один сервис, но ситуация осложнилась тем, что:
🌌до релиза 3 дня
🌌еще нужны доработки
🌌я заболела и ушла на удаленку, а, кроме меня, никто глобально не знал, что нужно доделать и кто с чем может помочь (и минус доступы)

✍️ Я насчитала 10 созвонов за эти 3 дня, и в голове сразу провелась аналогия с докладом от сдека на хайлоаде. Они рассказали, как во время сбоя созванивались сначала раз в полчаса, потом раз в 3 часа…

У нас было еще одно бонусное усложнение - у разных людей разный набор доступов. Поэтому на созвонах было ~ по 3 человека, где:
🌌один мог ковыряться в технических сервисах
🌌второй мог потыкать в UI
🌌третий мог сказать, что делать в технике и когда тыкать на кнопочку (это я)

Так вот, хроники с полей:

🔵- да, все раскатили!
🔸- а нет, только трубу настроили
🔵- ну теперь точно все готово!
🔸- не совсем, надо править конфиги
🔵- все поправили!
🔸- ммм, доступов к UI не хватает
🔵- доступы получили!
🔸- ой, только из офиса можно
🔵- получили офисные доступы!
🔸- ошибка при входе( а джоба-то упала
🔵- удалили лишние версии и все перераскатили!
🔸- сетевые запросы от наших урлов блокируются, до нг точно не успеют добавить
🔵- все-таки успели!
🔸- но на нашей стороне пути тоже некорректны
🔵- пофиксили конфиги и еще раз перераскатили!
🔸- опять с сетью проблемы, но уже внутри наших микросервисов
🔵- ставим встречку со знающими людьми!
🔸- блин, для отладки нужны привилегированные доступы
🔵- поменяли еще конфиги, еще раз раскатили - все завелось!
🔸- но отчеты по безопасности не проходят
🔵- отключили лишние конфиги, перераскатили - отчеты прошли, ну теперь-то все ок??
🔸- опять коннекшн к бд протух
here we go again…

➖

Но новый год не был бы таким волшебным, если бы не исполнение ✨чудес

✨

Поэтому эта история с счастливым концом (и парой задач на доработку уже на следующий год)
Но не стоит забывать, что за каждым чудом могут стоять люди, которые материализовали это чудо🙂

🙂

Please open Telegram to view this post

VIEW IN TELEGRAM

🎄35🔥4👍2

3.25K views07:40

дата инженеретта

Сгенерила себе открытку, пусть тут полежит

🔥33👍6

2.91K views18:40

дата инженеретта

Как дела?) Отдохнули?

С пн 13.01 стартует de zoomcamp!

Кто еще ждет особого знака судьбы - он здесь🔶

🔮 Зумкемп - это бесплатная штука на пару месяцев, которую я сама проходила 2 года назад. Но не сделала финальный проект и не получила серт, потому что уже нашла работу и выходила на неё.

Из стека у нас был GCP, BigQuery, Terraform, Spark, Kafka, Prefect, Postgres, Docker, dbt, Looker

Некоторые штуки у меня не удалось применить, и я по итогу заменила гугл бакеты на yandex cloud + google drive

🎄 В этом году оркестратор с Prefect меняется на Kestra, parquet на avro, и вроде все

⚠️ Видосы, стримы, задания и общение с участниками - total english
В общем, штука стоящая - тык

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤6🔥4

3.01K views09:26

дата инженеретта

Мы с вами чем-то не тем занимаемся

https://music.yandex.com/album/33934790/track/132728259?utm_medium=copy_link

Yandex Music

Язык для славян

Научно-технический рэп • Track • 2024

😁8❤2🔥22

2.42K views10:22

дата инженеретта

Про генераторы и итераторы

Мне когда-то советовали прочитать книжку Лутца по питону, но я ее забросила. Теперь мне нечего было делать, и я снова решила к ней вернуться) И тут я как осознала!

📝 Сделаем одно упражнение. Возьмем список, отберем только четные числа двумя способами:

lst = [1, 2, 3, 4]
l1 = [x for x in lst if x % 2 == 0]
l2 = (x for x in lst if x % 2 == 0)

print(type(l1))
# <class 'list'>

print(type(l2))
# <class 'generator'>

А теперь дважды материализуем:

print(list(l1))
print(list(l1))
# [2, 4]
# [2, 4]

print(list(l2))
print(list(l2))
# [2, 4]
# []

Список хранит все в памяти, занимает оперативку, и мы можем его вызывать сколько угодно раз.
А генератор закончился и всегда будет пустым🔲

➖

Если мы попробуем сделать то же самое ручками, то есть еще интересный нюанс.
Сделаем два итератора - для функции range и нашего генератора l2. Сначала вызовем первый, потом второй:

r = range(2)
i1 = iter(r)
i2 = iter(r)
print(next(i1))
# 0
print(next(i2))
# 0 - заново

l2 = (x for x in lst if x % 2 == 0)
i1 = iter(l2)
i2 = iter(l2)
print(next(i1))
# 2
print(next(i2))
# 4 - продолжили

🌀 Прикол в том, что у range итераторов может быть много, как будто они передаются по значению. А в остальных случаях как будто по ссылке - когда изменяется одна, изменяется и другая.

По сути в тех случаях, когда нам не нужно несколько раз обращаться к одним данным, мы спокойно можем использовать генератор✅

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26❤8🔥8

2.59K views16:48

дата инженеретта

Какой способ/ы выполнятся быстрее?

Anonymous Poll

23%

for line in f.read():

42%

for line in f.readlines():

41%

for line in f:

👍2

299 voters2.34K views09:43

дата инженеретта

Forwarded from Алексей

for line in f:

Использует итерацию по файлу построчно, без загрузки всего файла в память.
Самый быстрый и экономичный способ по памяти, особенно для больших файлов.

for line in f.read()::

Читает весь файл целиком в память как одну строку, а затем проходит по символам, а не по строкам. Это значительно замедляет работу и требует больше памяти.

for line in f.readlines()::

Читает весь файл в память как список строк. Это быстрее, чем f.read(), но всё ещё требует загрузки всего файла в память.

верно рассуждаю?

👍14❤3

2.77K views05:51

дата инженеретта

Спасибо Алексею за полное и лаконичное пояснение 🧡, а я добавлю еще пояснялку с замерами по памяти

➖

Я взяла тестовый файлик с 1 млн строк и протестила все функции на нем по типу такого:

import sys

with open('1000000 Sales Records.csv') as f:
    f_list = f.readlines()

print(type(f_list))
print(len(f_list))
print(sys.getsizeof(f_list))  # in bytes

🔶

Результаты🔶

🟣

read()

<class 'str'>
123 793 263 - длина строки
123 793 312 - размер в байтах

🟣

readlines()

<class 'list'>
1 000 001 - количество строк (+заголовок)
8 448 728 - размер в байтах

🟣

файловый итератор

<class '_io.TextIOWrapper'>
208 - размер в байтах

➡️ Получилось, что на выборке в 1 млн строк c длиной ~ 200 символов выигрыш по памяти между списком и итератором составил в 40k раз

➖

Если мы попробуем сделать такую же штуку с list(range(1000000)) vs range(1000000), то получим нечто похожее:

🟣

list(range(1000000))
<class 'list'>
1 000 000 - количество чисел
8 000 056 - размер в байтах

🟣

range(1000000)
<class 'range'>
1000000 - количество чисел
48 - размер в байтах

➡️ Тут с чиселками выигрыш в 166k раз

Вот и думайте

#python_tips

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍218🔥3

3.38K views05:52

дата инженеретта

Никто еще не попробовал эту штуку в dbt?

https://www.getdbt.com/blog/dbt-labs-acquires-sdf-labs

https://www.sdf.com/

dbt Labs

dbt Labs acquires SDF Labs to advance analytics engineering | dbt Labs

dbt Labs has acquired SDF Labs to enhance analytics engineering solutions. Learn how this partnership strengthens the modern data stack.

👍5

3.34K views13:41

дата инженеретта

я популярити

мой первый доклад по де в таком масштабе💺
уже нагенерила идеи, данные и скрипт, сегодня доделываю презу и потом пойду репать спич 😥
даже на почту эта рассылка пришла!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19🔥5

2.89K views12:54

дата инженеретта

Forwarded from Simulative

🧑‍💻 Вебинар: Собираем витрину данных, как в бигтехе, от описания до результата

Представьте, что вы тренер футбольной команды. И у вас есть витрина данных, которая собирает информацию о каждом игроке, включая количество забитых голов, ассистов, время на поле и количество проведенных матчей. Такая витрина помогает выявить слабые места в команде и сфокусироваться на их улучшении.

О том, как аналитику строить витрину данных, разберём в прямом эфире на примере реальной задачи 28 января в 19:00 по МСК. Спикер вебинара — Айгуль Сибгатуллина, Data Engineer в Сбер, автор телеграм-канала @data_engineerette.

Вебинар пройдёт в нашем любимом режиме «решение тестового задания» — представим, что мы владельцы бизнеса, и на практическом примере покажем, зачем и почему мы это делаем.

Что будет:
🟠 Построение воркфлоу от этапа получения ТЗ до создания полноценной витрины;
🟠 Какие инструменты нужны для дата-инженера;
🟠 Как разобраться с методологией на разных диалектах;
🟠 Как объединить данные из нескольких источников;
🟠 Spark в работе дата-инженера: преобразования и оптимизации;
🟠 Как AI может ускорить процессы.

➡️ Зарегистрироваться

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥51👍13❤12🦄2

3.66K views12:54

дата инженеретта

🔶

Запись готова🔶

Выложила запись на ютуб

Но у меня ни таймкоды не подтянулись, ни ссылки не работают 😁 Так что придется ручками потыкаться в описании или смотреть все 🥰

Спасибо всем, кто пришел! Меня ваши сердечки и огонечки очень подбадривали❤️

Немного статистики: 400 человек в пике, 600 в тотале!

Ссылка на материалы: https://github.com/Aigul9/spark-webinar

Please open Telegram to view this post

VIEW IN TELEGRAM

❤53🔥25👍10

5.12K views09:38

дата инженеретта

А есть тут такие же ненормальные люди, как я, которые пишут код с телефона? 🤣

Please open Telegram to view this post

VIEW IN TELEGRAM

🤷25😁22🌚10🤔9👍8❤2

2.95K views15:56

дата инженеретта

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

Решения всех ваших проблем

🙌

Вчера на ретро с командой накидали решения проблем, перетасовали, а потом выбирали подходящие стикеры, как в игре с мемами. И вот что у нас получилось⬆️

Можете в комментах поделиться, что вам советует судьба на этот раз

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14🔥10👍2

3.27K views08:03

дата инженеретта

Посмотрела вчерашний митап, вот еще картиночки архитектур

По сути это классическое двх, data lake и data lakehouse

Но вам не кажется, что кх поверх гринплам - немножко многовато, тем более в lakehouse?

#system_design

👍14🔥5

3.27K views11:05

About

Blog

Apps

Platform