Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Вастрик.Пынь
🤖 ChatGPT. Когда уже нейросети наконец-то заменят кожаных ублюдков?

Много меня просили написать свои мысли по поводу ChatGPT. Написал пока три.

1. ChatGPT заменит людей, но только тех, которые не осилят сам ChatGPT. А для остальных он станет просто ежедневным компаньоном (уже стал)

2. «Большие дядьки» обосрутся и побегут скорее запрещать и ограничивать нейросети. А у простых людей просто прокачается новый скилл: детектор, что перед тобой нейросеть

3. Да, поисковики умрут, но не потому что ChatGPT их заменит

Развернул тут: https://vas3k.blog/notes/chatgpt/
❤‍🔥4🫡4
Как можно уволить разработчика хранилищ данных с такой фамилией?! Я с ним даже знаком был, когда Xbox купил Zenimax я вызвался добровольцем помогать им понять как в Xbox мы делали инжиниринг данных. А у них был AWS Databricks на Scala, и в отличие от. Xbox центральная команда, которая делает единое решение для всех игр, а у Xbox каждая игра содержит свою команду (кто в лес, кто по дрова).
🐳28🌚6
https://motherduck.com/blog/big-data-is-dead/

За последнюю неделю эту статью обсудили везде где только можно: во всех чатах, линкединах и пабликах. Если что, автор - один из founding engineers BigQuery, поэтому его слова, как минимум, не стоит игнорировать. Решил перечитать ее пару раз, вот на какие мысли наткнулся в своей головушке, в целом соглашаясь с автором:

Бигдата на самом деле не такая большая
Тут я с автором согласен. Подавляющее большинство компаний и команд, с которыми я общался, считают, что у них очень много данных и они обрабатывают петагигамегабайты, но на деле все сильно меньше. В погоне за хайпом и “у нас хранилище 400 Террабайт!” мы потеряли главный смысл - данные должны приносить пользу, а не лежать в json-гробах.

Compute нужно сильно меньше, даже когда растет Storage
Тут все тоже довольно просто: с легкой барской руки мы накидываем ворверов и экзекьюторов, потому что у нас хранилище увеличилось в 2 раза, но на деле нет прямой пропорциональной зависимости compute (вычислительные мощности) от storage (наших объемов хранилищ).

Данных много, а анализируем всего лишь небольшую часть
Тут можно разделить на две части:
- Базы данных умеют в оптимизацию достаточно хорошо, поэтому даже при плохом запросе умудряются уменьшать объем обрабатываемых данных
- Большинство данных очень важны за вчера, меньше за неделю, за месяц еще реже, за год данные нам нужны чаще всего только для больших корпоративных презентаций. Ну и сезонность / праздники иногда посчитать.

Очень порадовало определение “Big Data is when the cost of keeping data around is less than the cost of figuring out what to throw away”, проще хранить, чем тратить время и выяснять, а что можно удалить, а что по закону надо хранить 7 лет.
Ну и еще из классического: “if the date is older than 2019 use the revenue field, between 2019 and 2021 use the revenue_usd field, and after 2022 use the revenue_usd_audited field”.

В конце статьи есть прекрасный список вопросов, очень рациональный, по поводу внедрения бигдаты и всего этого красивого.

@ohmydataengineer
🐳17❤‍🔥8🫡4👨‍💻2🗿2🍾1👻1
Знакомо?🤪
🫡81👻14💅11🌚7🐳3👨‍💻3
Знакомы слова SQL, ETL, DWH?
Тогда у вас есть возможность получить оффер за выходные в команду Тинькофф!

За прошлый год экосистема Тинькофф выросла в два раза — продуктами компании пользуются уже 28 млн клиентов. В связи с этим расширяется дата-команда: нужны дата-инженеры, системные аналитики DWH и разработчики ETL с опытом работы больше двух лет.

Пройти собеседование можно онлайн за выходные — на Data Weekend Offer. Если все хорошо, вы получите оффер уже в понедельник.

Ближайшее мероприятие 11-12 марта. Успейте подать заявку до 7 марта.

#реклама
❤‍🔥11🌚8🌭3🍌1
Автор поста описывает распространенную ситуацию, когда кто-то топит за новые «инсайты» но только одобряет те, которые подтверждают его/ее собственные гипотезы, даже если они неверные. И тогда вопрос, зачем на этот цирк тратить время. У вас было такое?
🗿14🫡4🌚3👻3
Автор написал почему лучше быть дата аналитиком, чем "sexy" data scientist. В целом я согласен, если у вас не мат бэкграунд, зачем себя мучать алгеброй и статистикой, если можно быстрей вкатиться в профессию и зарабатывать столько же. Процесс должен приносить удовольствие и результат. Не знаю ни одного дата саентиста в Канаде, кто зарабатывает больше меня😂 Но к сожалению математические беседы я не смогу поддержать😒

Но в любом случае, ифоцыгане зарабатывают больше! Никто не хочет себе личного ментора по инжинирингу данных и карьере за 500$ в час?! Предложение актуально до конца недели, при покупке 20ч скидка 10%!👌
🍌19🫡17❤‍🔥8🌚6👻4
8 papers about Ai.pdf
4.2 MB
Вот все ругались что у всех Pay Wall, но нашел статью в PDF (не айс), про 8 главных papers про AI. Enjoy! PS если что за 500$ в час на сессии менторства могу и в слух почитать их😎
👻15🫡5
Так вот женам айтишников, нужно еще SQL подтягивать и Excel изучать❤️ (картинку у жены взял в иснтаграме, если вдруг не понятно😜) А я в окошке поехал в gym, надеюсь завтра закрою тикет по data mapping😝 Теперь вы знаете секрет продуктивности🤗
❤‍🔥73💅32🫡12👨‍💻5🍾4🐳2🗿2🍌1👻1
Cloud Analytics with Microsoft Azure.pdf
8.8 MB
Книга - Cloud Analytics on Microsoft Azure.

Будет очень в тему если предстоит работать на Azure.
❤‍🔥42
Forwarded from Data Nature 🕊 (Alex Barakov)
Новый год и новый заход на тему компетенций BI команды

Мы прошли очередной "операционный круг" и созрели для обновления BI Team Upgrade Guide - нашего внутреннего тула для оценки BI аналитиков и гайда для осмысленного саморазвития. Наша старая версия сильно уступала прекрасной Матрице Ромы Бунина, что очевидно недопустимо 😎

Воруют бездарности, гении заимствуют). В итоге мы:
🔹позаимствовали эксель-шаблон с отличным графиком итоговой синьорности
🔹доработали подход с self-assessment идеей - сделали шаблон более компактным за счет выпадающих списков при выборе вариантов ответа
🔹Обновили список скилов, их группировку на актуальные для нашей команды
🔹Ссылки на полезные материалы по скилам обновили и вывели в отдельную секцию "How to develop the skill". Тут удобнее кликать
🔹Добавилась менеджерская вкладка "BI Team overview" (используется отдельно), где сводится общая картина по команде: доменная экспертиза, оценка синьорности по компетенциям, оценка рисков и ценности
🔹ну и да, наш тул на английском

Делюсь этой историей как примером получения реальной пользы от opensource-подхода к инструментам в комьюнити.
Свою версию также шарим на всех. Может кто подхватит и продолжит апгрейд, фидбек-welcomed
Копирайты и слава остаются - revealthedata

👌 Еще полезные решения по теме компетенций в data/BI/Product сфере, которые стоит обозрить если вы делаете подход в вопросу:
🔗 Миро борд компетенций для ролей управления продуктом от Сергея Тихомирова
🔗
Навыки и требования к аналитикам данных на разных уровнях в «Яндексе»
🔗 Карта компетенций РМ от Дмитрия Зиновкина
❤‍🔥26🐳1
Опа, модная полиция подъехала😎 Как в песне, гоп стоп мы подошли из-за угла😝
💅41🌚10🗿10😈9🍌6🐳3🍾3🌭1👻1
❤‍🔥67🌚15🌭4🍓3🗿3
Forwarded from АйТишечка на Стиле
Если бы Шерлок Холмс был бы в ИТишечке, он бы насил бы такой кепарь от Gucci и Adidas за 520 фунтов!

Отличный вариант для fully remote (ZOOM), 2 в 1! спортик и лухари, под настроение!

Предзаказы принимаются!
🐳13👻8💅6🌚1
Наконец-то я закончил замечательную книгу, наверно лучшую в своем роде - Python Crash Course (3rd edition).

Книга состоит из 2х частей:
1) теория + упражнения про обычные питоновские вещи, но все объяснено очень понятным языком (наверно за это очень любят эту книгу). Я давным-давно закончил часть1.
2) а вот 2ю часть все откладывалась. Это набор разных проектов на питоне.

Я загрузил свой код к себе в репо. Так же там есть популярные cheetsheets от автора.

Проекты:
- сделать игру на PyGame, используется много файлов и классов
- визуализация данных с помощью Matplotlib, Plotly, генерация данных
- работа с API на примере GitHub, HackerRank
- достаточно большой проект на Django, в котором будет много HTML.

PyGame и Django мне вряд ли понадобятся, но моя задача просто чаще использовать питон, и эти проекты отлично подошли. Даже промелькнула мысль сделать английскую версию datalearn на django, но быстро ее отбросил.

Следующая книгу по Python - Fluent Python. В ней много базовых вещей, но это как вода, которая должна заполнить пустоты в стакане с песком:)

Что вам еще по питону нравится?
❤‍🔥57🐳5
Визуализировал 12+ лет карьеры, основные технологии, которые учил (не использовал), а именно учил по книжкам, курсам и тп.

Оказалось 2020 +/- вообще был на дне морально.

Обе попытка делать "бизнес" дали многогранный опыт, особенно в части soft skills.
❤‍🔥77🍾15🐳9🫡3👨‍💻1
Моя самая любимая картинка - The 2023 MAD (Machine Learning, Artificial Intelligence & Data) Landscape

Почему любимая? Ну потому что очевидно же, чем дальше, тем больше новых инструментов, больше хаоса.

Новичку даже с "пол литра" не въехать в это дело, столько всего надо знать?!

This year, we have a total of 1,416 logos appearing on the landscape. For comparison, there were 139 in our first version in 2012.

С чего начать, как поступить и тп. Именно поэтому такой ресурс как datalearn решает такую проблему, в этом и есть моя сильная сторона, я могу абстрагироваться от этой кучи ярких лого, и рассказывать про суть.

Ссылка на статью https://mattturck.com/mad2023/
🌚9🐳6