дата инженеретта – Telegram
дата инженеретта
2.98K subscribers
242 photos
28 videos
4 files
102 links
мелкое — крупно,
в глубоком разговоре
мудрость приходит

по вопросам сюда: @aigul_sea
Download Telegram
Посещение офиса Тинька

🗝 Как попала?
Зарегалась и пришла на митап тимлидов

🐾 Где?
Офис на Белорусской, размеры оцените по фоторепортажу) Я была совсем с краешка и прошлась только по 2му этажу.

🎤 Что было?
Три спикера, которые рассказывали что-то про эффективность, процессы, ревью, ресурсы, работу команд. Также узнала, что в точке холакратия - власть в руках команд, а не управления. И тебя выгонит сама команда, когда она поймет, что пора очиститься. Так-то.

Вообще показалось скучновато 😐 Но вот несколько мыслей, которые я записала:

💬 Мы не можем все бежать, как стартап, если мы не стартап.

💬 Быстро - это медленно, но без остановок.

💬 Поощрить вклад в сиюминутный результат.

💬 Хоть перформанс ревью и порождает конкуренцию, но цель у всех одна.

💬 Если любишь - отпусти (чел не будет хорошо работать без заинтересованности, пусть лучше приносит выгоду где-то ещё).

💬 С изменениями не надо бороться, надо работать с ними.

💬 Достигнуть целей, которые даже не ставил.

🎙Что думаете?
🎙А сколько у вас уходит времени в неделю на созвоны?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍3
Вопросы подписчиков

Мне недавно задали вопросы по DE в Варшаве, и я решила привлечь своего знакомого дата человека, чтобы узнать зарубежную точку зрения.
Его зовут Aaron, лет 35, из Канады, PhD, пилит ПО в DS для стартапов.

🌸- это моё мнение
🍊- это его мнение
Решила не переводить, так что качайте аглицкий in action.

1️⃣Дата инженеры ближе к backend или аналитике?

🌸 Мне попадались совершенно противоположные мнения: на одних собесах складывалось впечатление, что де - это недопитонист, на других - что полноценный разработчик. От компании может сильно отличаться, как повезет.

🍊Data engineers share some programming skill with backend engineers, and data engineers share some data skills with analysts.

2️⃣Как Вы считаете, они являются разработчиками, только с другой специализацией?

🌸 Я думаю, что нужно постараться, чтобы стать норм разработчиком, т.к. ЯП используются не до такой глубины.

🍊Yes: software engineers that specialize in data tools.

3️⃣Возможен переход на более технические позиции в тот же бекэнд и/или внедрение практик разработчиков для более качественной работы?

🌸 Думаю, что возможен. Кстати, вчера сходила на внутренний менторинг по питону, и мы накидали темы, которые нужно качать.

🍊Most web service backend development really just demands general computer science and programming background with only a small amount of specialized knowledge in individual languages or frameworks. Really much more drastic changes are also possible if you’re sufficiently motivated and capable.

4️⃣С какими командами внутри компании чаще всего взаимодействуют?

🌸 Основное - DA. DS могут, но сильно меньше. Если бизнес - это уже не DE-шные эдхоки. Поставщики данных (внутренние, внешние).

🍊Probably the data consumers and the engineers who maintain the APIs/data sources.

5️⃣Обязанности под одним и тем же титулом не всегда одинаковые в разных компаниях (т.е на позиции data engineer могут быть требования как к аналитику). Насколько ок/не ок?

🌸 Мне такое вообще не нравится :/ Время идет, а навыки не прогрессируют.

🍊Yeah, this is a red flag. I have seen it happen with a «data scientist» position that had an analyst job denoscription.

6️⃣Насколько это даёт мобильность в будущем при переходе на другие должности? Или стоит работать на условно первой работе дата инженером ради титула и опыта, даже если это аналитик под титулом инженера, параллельно изучать новые технологии и идти дальше?

🌸 Строчка DE определенно открывает много дверей) Но нужно быть готовым, что потом ты все равно попадешь на джуна, если не сможешь доказать обратное. А не имея практического опыта, это сделать будет тяжело. А еще можно попробовать проявить инициативу и внедрять дата инженерские штуки на своем месте.

🍊I would take this option. Stay in your job and keep getting paid while studying. When you interview for real data engineering jobs, you can be honest, but emphasize what parts of actual data engineering you got exposure to, and what parts you have studied for.

7️⃣И немного про стек:

🌸 У нас это Hadoop, Yandex/VK Cloud, Spark, SQL, Greenplum, Clickhouse, Postgres, Python/Scala, Airflow/Dagster, Kafka, Docker - самые основные.

🍊I think most DE work would not be in Python, FWIW, from what I've seen.
Python will still be important, but also SQL, Java, and a bunch of DSLs (e.g. Hashicorp Config Language)
Also you'll probably need to know cloud tools which you'll configure either through a web console or APIs
Some overlap with devops, basically

🌸: Is Hadoop dead?
🍊: I think so. I haven't seen it since 6 years ago.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍332
Кто на ит-пикнике - давайте знакомиться!

Коллеги, всем привет!
Я уже на ИТ-пикнике, кто тоже тут - приходите познакомиться!🤍
Уже нафармила три пачки наклеек, пряник, мини-колонку и смузи)
Please open Telegram to view this post
VIEW IN TELEGRAM
156🔥6👍1
Yet Another Teamlead Meetup

Снова захотелось понетворкаться, и я пошла на митап тимлидов в озон)
там лейтмотивом было:

🔵как погружаться в предметную область
🔵как должен действовать тимлид
🔵как расти в тимлида
🔵как растить тимлидов
🔵зачем расти в тимлида
🔵тимлид vs инженер

📘Посоветовали почитать книжку Елены Резановой "Это норм" - если что-то не получается.

А вот основные мысли, которые мне запомнились:

Лид хочет решить проблему, а инженер - задачу (может даже без понимания цели)

И это действительно важно: зачем вы делаете задачу, почему, какое вэлью. У меня понимание начало приходить спустя 6 месяцев, и это коррелирует с опытом других людей: 3-6 месяцев в зависимости от сложности предметной области.

Точка зрения лида понятна всем, а инженера - только ему

Лид ищет альтернативные решения дешевле/лучше первого попавшегося

Сеньор отличается от тимлида масштабом задач

Тимлид должен научить команду делать столько же задач, сколько делает сам (и даже быстрее)

🔷Немного математики

+1 тимлид = -1 сеньор (если внутри команды)
Если стал плохим тимлидом, -1 сеньор и -1 тимлид (ни того, ни другого). И потенциально -команда

🎈Вот такие инсайты)
Познакомилась с коллегой из Сбера, DA из Додо, ML-инженером из НСПК (карты мир и все такое). Покушала. Задала спикерам пару вопросов: они сказали, что 4 собеса в день не очень и что правильный тайминг для вопросов по ходу встречи - когда говорящий берет дыхание🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥6👍52
🔍Расширяем датафреймы

Придумала себе на днях, как облегчить ресерч новой витрины данных с кучей таблиц.

🍺Контекст
У нас в Сбере при загрузке данных в таблички дописываются тех. столбцы с префиксом ctl. CTL - это штука по управлению потоками. Она может запускать разные оркестраторы: airflow, oozie итд итп

В тех. столбцах есть:
тип операции (update, insert)
id загрузки (чтобы можно было легко откатить)
дата загрузки строки
дата, по которую строка актуальна

И на экране это занимает достаточно много места.

💻Я набросала класс, чтобы удобно работать с пулом датафреймов - на картинке.

Тут еще интересен момент с chaining - мне очень нравится, когда функции вот так красиво друг за дружкой идут. Для этого нужно, чтобы каждый элемент в цепочке возвращал тот объект, который забрал.
Получили датафрейм - что-то поделали - вернули измененный, но все же датафрейм.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥831
Топ-подборка

🕒 Полгода назад мы с коллегами практически друг за другом завели тг-каналы, обсуждали пути их развития, соревновались. (Кстати, скрипт в Airflow до сих пор присылает на почту ежедневные отчетики по инкременту подписчиков.)

🔝 А потом уже сами прошли путь до амбассадоров Сбера и вошли в топ крутышей (я надеюсь!)

И вот мы с нашими коллегами-амбассадорами собрали папку на тему IT. Возможно, откроете новые в себе новые грани, возможно, нет, но заглянуть определенно стоит 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1786👍3🤔1
Кринж вопросы

Бывало ли у вас такое, что на собесе спрашивали абсолютную кринжатину?

В мой топ пока входят эти вопросы:

😒 Что такое json?
😒 Что такое html?
😒 А расскажите что-нибудь про ди ви эйч

В этих случаях обычно спрашивал человек возле IT, которого попросили по бумажке проверить ответы. У меня почему-то от них возникает ощущение неуважения))

И тут я подумала, что уровень вопросов на собесе тоже сильно важен. Потому что ты можешь понять, с какими людьми и задачами будешь имеешь дело. Если они задают жесть какие вопросы - значит, сами шарят за это и можно у них набраться крутого опыта👓👏 (лично моё мнение)

🎧 А вам задавали похожие вопросы?
Ориентируетесь ли вы на уровень вопросов?
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍1
1️⃣2️⃣🟰3️⃣

Недавно столкнулась с необычным кейсом, связанный с несоответствием типов данных в КХ.

У нас есть таблица-источник, поверх вьюшка:

CREATE TABLE t (id String)
ENGINE = MergeTree()
ORDER BY id;

INSERT INTO t VALUES
('187'),
('2298'),
('9');

CREATE VIEW v (id Int32) AS
SELECT id
FROM t;


Обратите внимание, что в табличке лежит String, а во вьюшке Int.

Потом ищем минимумы:

SELECT min(id) FROM t;
--187
SELECT min(id) FROM v;
--9


Тут вопросиков нет: в таблице сортировка строк (поэтому с 1 будет минимальным), во вьюшке - как обычно.

А потом мы пытаем разделить на 2 диапазона по минимуму, и тут происходит какая-то дичь:

SELECT count() FROM v WHERE id >= '187';
--2
SELECT count() FROM v WHERE id < '187';
--0 ??? (должно быть 1)

SELECT count() FROM v WHERE id >= '9';
--1 ??? (должно быть 3)
SELECT count() FROM v WHERE id < '9';
--0


Причем если сравнивать без кавычек, то вываливается ошибка:

There is no supertype for types String, Int32


То есть в этих сравнениях какие-то значения сравниваются как строки, а какие-то как числа, и я не вижу никакого паттерна😭

Зато в плейграунде все работает как надо😑
Т.е. напрашивается, что особенности могут быть связаны именно с настройкой кластера
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🤔4