Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Сегодня опытный человек лет 40 поделился со мной интересной идеей. В современной корпоративной культуре, человек подобен виртуальной машине. Так как мы с ним в амазоне, соответственно это EC2 instance, который работает, а когда что-то не так, его просто отключают и удаляют на всегда, или он сам сдувается и отваливается. Мне понравилось такое сравнение. Другой комментарий про отсутствие empathy (эмпатия - осознанное сопереживание текущему эмоциональному состоянию другого человека без потери ощущения происхождения этого переживания). Люди настолько заняты и перегружены работой, что не остается места эмпатии. Как у вас с эмпатией на рабочем месте?

Кстати в библиографической книге про Стив Джобса, говориться что Бил Гейтс совершенно не обладает эмпатией, а вот его предшественние новый CEO наоборот. Сейчас большой тренд на эмпатия в западных компаниях, новые CEO Uber и ряда других крупных компаний.
Forwarded from LEFT JOIN
Altinity выпустили обзор сравнения перфоманса Clickhouse и Redshift, несколько ключевых выводов:
+ В Clickhouse появилась возможность загружать данные из S3 табличной функцией s3()
+ Clickhouse на одной ноде несколько проигрывает Redshift по скорости выполнения запросов, но выигрывает на сопоставивом количестве нод
+ Стоимость операционного использования Clickhouse ощутимо ниже, чем Redshift (однако в статье не указан необходимый ресурс на поддержку того и иного решения)
+ В Clickhouse по-прежнему остаются ряд особенностей, которые следует учитывать при построении запроса.
Например, использование конструкции с JOIN до сих пор неэффективно, а замена JOIN на подзапросы дает значительный прирост в скорости.
Forwarded from Reveal the Data
Написал заметку о том как быть, когда заказчик просит «таблицу как в Эксель» и никаких графиков. Показал для каких задач и как работают таблицы. Описал семь кейсов, которые обычно прячутся за такими запросами, и какие решения я использую.

https://revealthedata.com/blog/all/tablica-ili-grafik-kak-ubedit-zakazchika/

#статья
Будем считать, что на канале и на datalearn мы сажаем семена знаний😜
Forwarded from data будни
нужны ли алгоритмы программистам?

холиварный выпуск Moscow Python подкаста: Григорий Петров и Злата Обуховская накидывали на вентилятор, направленный на Асю Воронцову из Яндекса.

Тезис №1: знание алгоритмов нужны только тем, кто работает с высоконагруженными сервисами, где важна эффективности. Типа ядра Линукса или поисковика Яндекса. (важно отметить: даже в самом Яндексе не все работают с хайлоадом)

Тезис №2: внедрение алгоритмов в код ухудшает его читаемость. Это важно, т.к. код больше читается, чем пишется.

Тезис №3: времязатраты на написание эффективного кода не всегда окупается. Можно потратить две недели на код, который даёт всего 5% в сравнении с уже готовой библиотекой.

Тезис №4: профилировщик — лучший друг программиста. Это снимает большинство вопросов с эффективностью. Например, он подскажет, если вдруг код зайдёт в цикл.

Тезис №5: в больших компаниях спрашивают знание алгоритмов (и умение их писать на бумажке) не только ради самого знания, но и просто как ещё один фильтр, чтобы отсеять людей, которые уже приложили усилия и вызубрили редко используемую информацию.


Подкаст в iTunes и overcast
Самая главная книга про Spark от его создателей. Теория + практика на Scala и Python. Я себе купил такую книга, где-то за 50$, но мне амазон вернет, а вам нет. Но оказывается есть и в PDF -> https://www.pdfdrive.com/spark-the-definitive-guide-big-data-processing-made-simple-e184791342.html
А это уже advanced уровень, для серьезного использования приложения. Я тоже купил. Я где-то покупаю по 2 книги в месяц, лучше бы я столько читал в месяц. 🤔 PDF -> https://www.pdfdrive.com/high-performance-spark-best-practices-for-scaling-and-optimizing-apache-spark-e158286073.html
В обще это 2 топ книги по spark. Но нужно еще знать Python или Scala для Spark. И не забывать, что есть 2 типа инженера данных - hardcore и gentle. В зависимости от задач и целей, можно двигаться от одного к другому. Я вот ощущаю себя gentle, и теперь хочу развиваться в hardcore, поэтому и фокусируюсь на python, spark. Даже не смотря на то, что на работе могу решать все задачи без Spark/Python.
У Амазон есть конференция - re:Mars. Это конференция, на которой рассказывают про самые современных технологии, роботов, искусственный интелект, космос и тп. Если вы хотите заглянуть в будущее, то это отличный способ сделать это.

re:MARS is Amazon's global AI event on Machine learning, Automation, Robotics, and Space. Amazon re:MARS combines the latest in forward-looking science with practical applications that will inspire you to initiate change and accelerate AI innovation within your organization.

https://www.youtube.com/channel/UCgkkeHebGYy7udnkNAeBv0w
Супер крутые новости - Tableau Conference в этом году полностью бесплатна и онлайн! 7-9 Октября, регистрация здесь: https://www.tableau.com/community/events/conference

Кому будет полезно?
1. Tableau разработчикам и просто BI разработчикам - вы узнаете много нового и увидите примеры внедрений аналитических решений и лучшие практики со всего мира
2. Руководителям аналитики - вы будете лучше понимать, как можно строить эффективные аналитические решения (причем не только на Tableau, а в целом)
3. Руководители бизнес подразделений - вы увидете насколько аналитика и визуализация может быть эффективна и полезна для бизнеса
4. Новичкам - не важно на кого вы учитесь - программист, инженер данных, саентист,аналитик - вы сможете понять почему столько много шума вокруг данных, и почему Tableau лидер в этой области.
5. Рекрутерам - вы поймете каких людей искать и о чем с ними говорить на собеседовании
6. Учите английский? - Идеальная замена сериалам, netflix, Ted talks и тп.
Рома Бунин делает сегодня презентацию для дата сообществ Амазон (5т+ человек)🥳
Analytics & Data Engineering Manager.pdf
177 KB
Вчера меня попросили поделиться свежим резюме, расшарю здесь тоже. Из популярных трендов:
- коллаборация с prodcut managers
- коллаборация c science teams
- privacy (GDPR and so on)
- analytics modernization
Ещё одна бесплатная книга про ML
https://dafriedman97.github.io/mlbook/content/introduction.html
Вот это я понимаю правильный подход!) - "Глава Netflix объяснил, почему нельзя платить сотрудникам премии по KPI"