Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
🐳14❤‍🔥6😈2
Умеют люди в бухгалтерии настроение поднимать. Ездил в Сиэтл на недельку, как обычно все чеки в кучку и claim expenses. Набралось на 2.5 тысячи. У меня опыт большой работы в корпорации и мне всегда интересно "на авось" чеки подсовывать на разные суммы, так как в 99% работает.

В Амазоне, я покупал каждую неделю по книге O'Reilly, в течение нескольких месяцев и собрал хорошую коллекцию. Когда жил в Бостоне несколько месяцев, в день на еду тратил 250$ вместо 50$, и оказывается Амазон внедрил AI для проверки expenses и ему было вообще все равно. Так что не все AI плохие, есть и хорошие🍍

Но сегодня, я встретил самого внимательного бухгалтера, который написал мне:

Kindly amend the amount on this and deduct all the personal items (lotion). Please resubmit once done.

Причем шампунь и кондиционер оставили как есть. Да и 8 банок шампанского тоже не смутило.

Пришлось просить chat gpt писать ответ:

Dear [Accountant's Name],

I hope this email finds you well. I am writing to address your request regarding the removal of body lotion from the company expenses.

I understand your concerns about keeping company expenses within reasonable limits and I appreciate your efforts to maintain financial responsibility. However, I would like to clarify that body lotion is a necessary item for our employees who may have skin sensitivities or require it for health reasons.

Providing body lotion as part of our employee benefits package helps to demonstrate our commitment to their overall well-being and helps to improve morale and job satisfaction. Additionally, it is a relatively small expense compared to other benefits, and its removal could be perceived negatively by employees.

I appreciate your attention to this matter and I would like to propose that we find ways to reduce expenses in other areas instead of removing this employee benefit.

Thank you for your time and consideration. I look forward to hearing your thoughts on this matter.

Best regards,

[Your Name]

Отправил ответ.
🍾71👻12😈4💯1
Даниил поблагодарил за datalearn и community да и вообще поделился с вами как чего и почему нужно учить SQL:

В колледже учился по специальности администратор БД. Так случайно получилось) По факту администрированию не учили, но учили писать код на SQL. Был очень хороший преподаватель, с которым до сих пор общаюсь. Да и тема данных мне понравилась, так как она универсальна и очень интересна: может пригодиться как в бизнесе, так и в научной среде. Был еще веселый преподаватель, который говорил что дата саенс это самая лучшая профессия 21 века) Но меня не очень в математику тянуло, больше нравилось что-то инженерное делать.

Увлекался звукорежиссурой, записывал друзей, сводил, мастерил + кастомизировал программу для аудио, рипер называется. Потрясающая вещь. Вот и как-то это совпало, что наткнулся на твой канал примерно в это время. Узнал что есть дата инженеры. Так как инженерная тема мне нравится, данные тоже, то я подумал что это должно быть интересно, к тому же название роли круто звучит. Прикинул, что за год смогу нормально подучиться, устроиться на работу. Так и получилось.
Делал задания в колледже + смотрел твои видосы. Потом мне преподаватель сказал попробовать работу найти. Я создал совершенно дурацкое резюме, отправил его на несколько вакансий. Из банка пришло приглашение пройти собеседование, хотя я туда свое резюме не отправлял. Успешно прошел собеседования. Меня пригласили. В итоге, в конце 3 курса мне удалось найти работу, в 19 лет, без высшего образования) В банке был очень крутой человек, который тоже обучением занимался. Вот так мне повезло. Основная моя роль - поддержка хранилища данных (MS SQL Server), если задач поддержки нет, то занимаюсь доработкой хранилища. Если продолжу свой путь в банке, то скорее всего буду с Greenplum работать. Ещё занимаюсь практикой студентов, так как у меня был негативный опыт в колледже, поэтому пытаюсь хоть каким-то образом сделать практику полезной для других. Работаю уже почти 2 года) Даталерн на самом деле очень ценный ресурс, и я очень тебе благодарен за то что ты его сделал! Уверен, что еще не раз буду смотреть ваши видео. Ну и твой Телеграм канал тоже читаю, помогаешь быть в курсе событий, понимать в каком направлении можно двигаться и развиваться)
❤‍🔥100🐳19👻2👨‍💻2
Лично знаком с товарищем, в 2016 году он бы BI инженером и я всегда следил за его карьерой и часто примерял его успехи на себе из разряда "А что если бы я сразу конвертнулся бы в менеджера и уже был бы Sr Manager", но решил не лезть в менеджеры и сейчас пожинаю плоды своего инженерного пути. Получается таже история, когда ехал в Канаду, знал, что надо быть инженером и никогда не хотел быть менеджером в Москве, чтобы быстро найти работу за границей. И сейчас думаю, инженерам проще найти работу.

Но возможно у менеджеров есть один +, им разрешат купить лосьен и сделать claim expenses😎

Кстати в Сиэтле была моя команда из Барселоны, какой же это кайф работать с Европейцами, после Канадцев и скоро мы сними в Канкуне бахнем текилы как следует, научу их отдыхать🙈
🐳30❤‍🔥12👻2
В понедельник уволили моего хорошего китайского товарища (кто в чате datalearn, то это он на английском поздравлял вас с новым годом и говорил I love Russia), которого я привел, к сожалению он был data scientist, но ему пришлось работать инженером данных, и понятно дело он не очень понимал как это все происходит, в декабре его посадили на performance improvement и в понедельник уволили. Конечно это косяк менеджера в первую очередь, потому что он взял чувака с Phd по экономике и давал ему задачки ковыряться в чужом SQL (technical debt💩). Когда товарища взяли к нам на работу он мне подарил norinco 97🫣

А вчера Sr. Analytics Engineer, сам уволился, сказал - ВСЕ С МЕНЯ ХВАТИТ. Сказал вечером, и утром уволился. Вот такие нежные ребята во Флориде. Если был русский, было понятно, что у него оффер горит и выходить на новую работу, а тут вроде тяжелый случай, мне кажется он мог расплакаться по зуму😥 потому что dbt логика для финансов это реальный ☠️.

У компании 2 продукта B2C и B2B. Проблема в аналитики для финансов, что sales все время меняет исходные данные руками в системе источника, и поэтому каждый день цифры не сходятся, а там 50-60 dbt моделей из гавна и палок только для финансов.

Он кстати бы единственным сертифицированным по dbt. В числе причин увольнения он написал, что все слишком хаотично, 2 раза менялось руководство, работать сложно (а почему? а потому что technical debt, который не в приоритете). Неопределенность его доконала и он решил уйти, так же он сказал, что одна из причин, что "Дима пропустил kick off митинг во вторник"😂 Я просто забыл сказать команде, что в это время буду в Сиэтле покупать лосьон и играть в гольф с испанцами.

Отсюда следующие выводы:
1. Не надо нервничать на работе, потому что пользы от стресса никакого, а только а вреда очень много, и чем мы старше тем опасней для здоровья.
2. Везде будет свой technical debt и хаос, нужно находить положительные моменты и развлекать себя, чтобы не скучать.
3. Даже если у вас хорошая работа, не забудьте хотя бы раз в квартал просматривать вакансии и может даже пройти собес. Я кстати сегодня пообщался разок со стартапом из YC, чтобы навыки не растерять, ищут DE, кто положит жизнь ради них и построит с нуля инфру и аналитику. Ага, слыхали про стартап культуры и золотые горы😅
4. Постарайтесь отложить хотя бы 3 месяца запас денег. В ИТ платят хорошо, если вы отложите, то вам будет не так страшно попасть под увольнения.
5. С финансами лучше избегать работать, будьте преактивными с Маркетингом и Продуктовыми отделами.
🫡102❤‍🔥36🐳8🌚2🗿2👻1👨‍💻1
Вот поэтому я всегда говорю - забудьте про джуна и будет вам счастье! В начале data learn один в один советы!
🐳9🍓2🍌1
Forwarded from Data Coffee
🐳39🍾20🍌7❤‍🔥5🌚3👻2🗿2👨‍💻1🤷1
Forwarded from Rumyantsev Feed
ETL vs. ELT

Интересный момент касательно ETL/ELT процесса, который с одной стороны очевиден, а с другой стороны - не задумываешься о разнице до поры до времени. Так вот, чем отличается ETL от ELT? Самый очевидный ответ - порядком выполнения степов Extract, Transform, Load. Да, но когда применять ETL, а когда - ELT?

Исторически ETL использовался в концепциях обработки данных для DWH. Была и до сих пор остаётся куча тулов, таких, как Informatica, Talend, Pentaho и т.д., которые являются ETL инструментами: загружаем данные из сорсов на машину/сервер с тулом, применяем трансформации, выгружаем в наше хранилище данных. Да, такой подход работает, когда мы говорим об обработке небольшого объёма данных. А что, если данных десятки и сотни гигабайт? А если они ещё и полу-структурированные? Какой бы мощный сервер с ETL тулом не был, в какой-то момент и он перестанет справляться с такими объёмами данных или будет делать это медленнее, тем самым задерживая доставку необходимых данных конечным пользователям.

И вот тут появляется Data Lake с возможностью хранить терабайты разных данных (structured, semi-structured, unstructured). Да ещё и с оптимизированными на чтение схемами. И что же имеем сейчас: забрали данные из сорсов, сложили в DL, сделали трансформации с помощью BigData тулов.

Да, здесь много частных случаем и можно долго спорить. Но если абстрагироваться от частного и посмотреть на общее - получаем, что ETL - это про DWH, а ELT - про Data Lake.

Неплохой повод включить в качестве вопроса со ⭐️кой для собеседований кандидатов.
🍾44❤‍🔥8👻6👨‍💻3💅3🌚2🌭1
Сегодня был вопрос в команда, кто будет делать screen share, чтобы пройтись по Scrum board, issues and so on.

Все тупо молчали. Обычно я всегда сам это делаю. Потому что, всегда вспоминаю фразу из 1984 - ""Соблюдая маленькие правила, можно нарушать большие"🦥

Но сегодня был небольшой собес с СТО и СОО в стартапчике, поэтому надо было отлучиться. И я нашел решение - https://wheelofnames.us/ - веселый сервис с колесом фортуны. Ну как нашел, подсмотрел в другой команде)) Так что после объявления победителя нашего казино, я спокойно свалил с митинга.

По собесу СТО меня спросил:
1) Что нового было в Python и Spark? Что в Snowflake?
2) Минусы Python
3) Что такое Index в БД и как работает
4) Как объяснить СЕО зачем нужен ETL
5) Как решать проблемы с производительность
6) Что я знаю про privacy/compliance и как использую в работе
7) git rebase/merge процесс

СОО спросил:
1) Про проекты где я брал инициативу и сам все делал
2) Как решать конфликтные ситуации в команде (классический вопрос)

Я спросил их про cashflow, financial plan, invest rounds и перспективах.

Обещали прислать coding. Тотал комп 170к САД + 15к signup + опцион. Думаю завалю след раунд. Но у меня нет задачи найти работу, так бекап если где сократят.
🐳32💅12❤‍🔥5👻4
Вот так выглядит мой выходной. Пока дети в Русской школе, где учиться писать, читать, математику, история, танцуют, поют и играют на балалайке, я могу в библиотеке:
- почитать про Linux, очень хорошая книга, добавлю потом видео урок про shell и командную строку
- поделать учебный проект на django
- закончить углубленные тренинги по Azure Synapse
- пофиксить косяки в Glue/Spark
- Начать изучать kinesis stream для snowplow/posthog
- создать новый pipeline из Stripe в озеро Athena
- переделать логику расчета показателей в dbt/snowflake
- написать документацию по метрикам в Alation

У меня еще есть термос с Аргентинским чаем мате, я же готовлюсь к Аргентине 🧉

А мог бы просто на велосипеде покататься, у нас +10 и дождя нет. Конечно за один день все не успеть, но я работаю на марафоном Джедайских Техник и уже понимаю как можно меньше отвлекаться и больше успевать. Всем крайне рекомендую.

А как у вас выходные?
❤‍🔥67🍾10👨‍💻7🗿7🐳5🍌51👻1
📌 Онлайн-дискуссия «Вместе в облако. Мониторинг облачных приложений». Присоединяйтесь к экспертам VK Cloud

Когда: 7 февраля, 17:00 MSK
📍Регистрация

В процессе мониторинга не всегда получается отследить, что происходит с локальным монолитом, и вовремя среагировать. Стандартная микросервисная архитектура частично работает на PaaS, частично на партнерских инструментах. И главная сложность – определить, как все составляющие влияют друг на друга и где реально возникла проблема.


В программе:
🔸 Философия мониторинга и Observability.
🔸 Что сейчас модно, а что действительно работает.
🔸 Роль машинного обучения сегодня и попробуем заглянуть в будущее.
🔸 Q&A-сессия со спикерами.

Спикеры:
▪️ Илья Петропавловский, продуктовый менеджер платформы данных VK Cloud.
▪️ Василий Городянский, руководитель команды разработки Data Platform в VK Cloud.

Модератор:
▪️ Александр Белоцерковский, евангелист-архитектор VK Cloud и Tarantool.

Зарегистрироваться

#реклама
🐳4💅3🗿2👨‍💻1
🌚41❤‍🔥20👨‍💻5👻3🗿3🐳2🍌1
Google тоже торопится выпустить свой умный сервис под названием Bard

Google is finally waking up. After weeks of excitement coursing through tech about OpenAI’s ChatGPT chatbot, paired with news coverage of how Microsoft plans to incorporate it into products like Bing and Word, Google has made a move. The tech company once seen as a leader in artificial intelligence on Monday unveiled its version of a conversational AI service, which it calls Bard. Google said it was opening Bard “to trusted testers ahead of making it more widely available to the public in the coming weeks.” It’s about time.

Как мы раньше жили без ChatGPT, и что с нами будет🫣 совсем обленимся🦥
🐳10
Всем привет, завтра (8 февраля) в 20:00 по мск вебинар.
Тема: Дата инжиниринг для ML глазами продакта.
Спикер: Андрей Менде
Андрей уже не первый раз у нас в гостях так что приходите послушать
Ссылка навебинар: https://youtube.com/live/YDy6LWr8GOo?feature=share
Время может поменяться следите за обновлением.
#вебинар #datalearn
🫡26🐳6👨‍💻4🌚2🍾1
Заметили, как постепенно растет популярность алгоритма Raft? Описание понятное, реализации мелькают, и вроде как все хорошо. Но так ли это на самом деле? Или на практике всё же не все обещания Raft можно реализовать без дополнительных решений?

Об этом написал целую статью архитектор репликации в проекте Tarantool, где поделился опытом реализации Raft, рассказал о поддержке работоспособности кластера Tarantool в условиях частичной связности и даже привел реальные примеры того, как чистый Raft не справился с задачей.

Способы решения всех возникших проблем там тоже есть. Подробности раскрывать не буду, читайте вот тут

#реклама
🍌3🫡2
Всем привет, завтра (9го февраля) в 20:00 по МСК вебинар.
Тема: FineBI
Спикер: Ruslan Sharifullin из BI Consult.
Ссылка: https://youtube.com/live/OMtI9CpPSug?feature=share
Вкратце: Покажем обработку данных на датасете, как из грязных данных получить чистую витрину.

Примечание: Время может немного изменится, следите за обновлениями, ах да, это все от Сергея Громова, очень классно что на DataLearn приходят знаменитые компании и личности)))

Ссылки на ресурсы ребят:
https://finebi.datafinder.ru/ - онлайн спринт-обучение по FineBI
https://www.youtube.com/@bifinebiqliksensetableaupo6294/featured - ютуб канал про FineBI
https://datafinder.ru/products/uchebnyy-kurs-po-finebi-obuchenie-finebi-prakticheskie-zadachi - бесплатный учебный курс по FineBI.

#вебинар #datalearn
❤‍🔥19🗿2👨‍💻1
Как построить систему геоаналитики с применением ML?

Когда: 20 февраля, 17:00 (мск)

📍 Регистрация
Эксперты расскажут про особенности создания ML-решений на примере построения системы предиктивной аналитики на основе геопространственных данных.
В программе:
🔹 Разбор кейсов и специфики построения ML-моделей и подходов к разработке проектов.
🔹Обсуждение выбора технологического стека для работы с Machine Learning: какие инструменты пригодятся, как их выбрать и применять.
🔹 QA-сессия со экспертами вебинара.
Спикеры:
🔹 Александр Мамаев, руководитель отдела машинного обучения и анализа данных, PREDICT, VK
🔹Артем Агафонов, руководитель группы геоаналитики, PREDICT, VK
🔹Александр Волынский, PM сервиса Cloud ML Platform, VK Cloud

Зарегистрироваться

#реклама
🫡3🍌2🍾1
Metaverse еще не все. Диалог A New Reality: Building the Metaverse, в котором CPO meta рассказывает, почему они верят в свою идею. Мне понравилось сравнение, в котором современный интернет - "плоский", это просто страница на экране. Идея мета вселенный по его словам, это возможность уйти от "плоского" интернета.

Хотя с другой стороны, сегоня Microsoft уволил команду, которая занимался метаверсом у них - In a surprising reversal, Microsoft has killed a team it formed four months ago to help customers use the metaverse in industrial settings, according to a person with direct knowledge of the matter.

Возможно еще не время.

По другим большим новостям:
1. Знакомый скинул интересные ссылки про увольнения 7% в GitLab, 10% в Github.

2. Disney тоже уволил 7000 человек

3. Starship не летит на марс, потому что внутри двигателя выросли грибы. И вообще в SpaceX проблемы с бюрократией.

4. Я уже писал ранее несколько раз про paswordless и все больше информации о компаниях, которые активно двигаются в эту сторону и развивают passkey. Это вам не metaverse, а вполне конкретный и полезный случай применения технологий и ИТ для решения проблем удобства и безопасности. "Go Passwordless Whenever You Can, Wherever You Can", Ant Allan, VP Analyst, Gartner.

5. Zoom тоже уволил 15%. Их CEO урезал себе зп и бонусы н 98 процентов и вся верхушка, урезала себе все на 20%. Все верно - чем выше, тем больнее падать.

Недавно слушал другого CEO, которому задали вопрос, про урезание зп верхушки, на что он сказал, что это все маркетинг, никому не будут урезать зп, так как у компании большие планы, и чтобы их достичь нужен достойный reward. Мне кажется так честней. Так же эта компания решила сделать off site в Мексике на недельку затусить и пообщаться перед большими делами, чему я очень рад, так что скоро вывезу еще одну книжку в Мексику, но теперь 1м классом🌴

Что мы еще пропустили?
🍌9🐳4💅2🍓1🫡1
Теперь я знаю, что должен уметь крутой power bi разработчик.
🌚26🫡18👻6🗿3🍓2