Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Сегодня смотрел, что выходило в последнее время про корпоративную культуру в разных компаниях. С интересом послушал подкаст о том, зачем инженеру вникать в эту лирику огромных корпораций. Обычно принято считать, что тема культуры компании максимально далека от кодеров и системных аналитиков. Однако, она помогает лучше понимать профессиональную среду, коллег и даже самих себя.

Рекомендую ознакомиться всем, кому эта тема также интересна. То, что зацепило меня, так это кейсы, из которых ясно, что оценка performance review не решает долгосрочные задачи и почему важно думать про рост сотрудников на любой позиции — от рядового инженера до тимлида.

Подкаст интересный. По данной теме таких докладов мало, а здесь подробно разобраны кейсы из практики.
❤‍🔥12🗿7👾5🌭2🍌2
Известный в data engineering кругах товарищ - Zach Wilson, делает свой bootcamp по Data Engineering:
Week 1: Data Modeling
Week 2: Data efficiency and privacy
Week 3: Batch Pipelines with Apache Spark
Week 4: Streaming Pipelines with Apache Flink
Week 5: Data Quality
Week 6: Data storytelling

И даже цены есть:
For 30 students, there's the $987 tier.
For 5 students, there's the $1487 tier.

Скажу вас свое экспертное мнение, можете конечно не согласиться, но придется протест выражать emoji😂

Чувак бесспорно шарит и цена вроде демократичная для мерок Северной Америки, но реально программка меня совсем не воодушевляет. Я уверен, он будет вас учить "нажимать кнопки", но вряд ли будет понимание зачем это делается. Хотите разобраться? Купите на 200 долларов несколько книг O'Reilly где все это подробно расписано.

Я лично подписался на него, думал он такой "душка" будет бесплатно людей учить.

PS Ну как не упомянуть datalearn, там контент намного солидней (просто я еще не доделал Spark/Streaming), не добавил dbt, aiflow, prefect, docker. Но для начала вам это и не нужно, а если вы решили уже докер крутить и запускать там Airflow или Spark, то у вас уже достаточно опыта, чтобы прочитать правильную книгу и выбрать ее среди сотен неправильных🍩

И datalearn бесплатный! Почему бесплатный было в подкасте. Но Зак не верит в карму, он живет в Калифорнии, там все дорого😝

PPS я могу ошибаться, если кто-то пройдет курс его, приходите с вебинаром к @rspon (вообще с любим вебинаром) у нас 15к почти на ютубе, аудитория большая, расскажите о себе и своем проекте.
❤‍🔥78🫡18🦄11🐳5🎄3🌚2🙈2🌭1🍌1🗿1
Когда в в 2018 году я присоединился к Science команде в Кембридже (который в Бостоне), наш офис был между Harvard и MIT, мне казалось, что это «будущее», это казалось огромной команде Алексы, где было больше 50т человек, и все это мероприятие работало в убыток, создавай новый рынок. И действительно рынок создали, возможно это рынок умных кухонных таймеров и будильников. Это самые популярные фичи девайса.

Поэтом картинка мужичка (он кстати был каким-то директором в Амазоне) очень прекрасно описывает возможности столько дорогого продукта, которые стали мягко говоря бесполезны.

Зато теперь, если OpenAI прикрутить куда-нибудь, сразу будет солидное решение.

Microsoft выпустили Azure OpenAI, сервис, где можно создать новый workspace, так же как хранилище данных, но теперь можно использовать полный спектр продуктов OpenAI и интегрировать в свои решения, уверен уже скоро Power BI будет графики рисовать для нас и писать пояснительную записку про insights.
🦄24🍌12❤‍🔥4👨‍💻3🙈3🎄2
Forwarded from Data & IT Career
Обзор книги “The Manager’s Path” — Part IV (Senior Leader)

Этой статьей я заканчиваю обзор книги “Путь менеджера” и в ней пойдет речь про роль топ-менеджеров. Кстати, в прошлых выпусках мы обсуждали как инженеры растут до менеджеров, а также как они исполняют роли engineering managers и engineering directors. В финальной статье рассматриваются главы
- The Big Leagues - как выглядит роль technical senior managers, какие названия бывают у должностей и в чем состоит работа VP of Engineering и CTO
- Bootstrapping Culture - как влияет культура и структура на организацию, когда стоит начинать работать над ними и что именно стоит делать
- Conclusion - здесь автор делиться своими мыслями о том, как стать хорошим менеджером

https://news.1rj.ru/str/book_cube/980
#book #career #management
❤‍🔥12🫡4🌚2
Так как я работаю по воскресеньям в офисе (единственный день неделю, так как в этот день я один в целом здании и могу приводить детей на работу, где они могу развлекаться по-своему) и сама поездка на метро в центр это уже целое приключение.

Так же мне удобно встречаться с новыми людьми. Последняя встреча был с Маркусом, я познакомился с его отцом в Канкуне, он меня подвозил до аэропорта, оказалось Маркус учится в Ванкувере на Business Administration.

Я снова убедился, как это сложно найти себе будущую профессию и выбрать дело, которым захочется заниматься. Он мне рассказала как она работал доставщиком еды, как хочет начать делать контент на chatgpt и расти аудиторию. В общем идей у молодого человека много, но чтобы достичь профита от своих идей, нужно будет несколько лет заниматься примерно одним и тем же. Такая вот нелегкая жизнь приезжего студента.

Но я ему рассказал про datalearn, по 4 месяца обучения, разубедил его становится джуном, в общем продал ему идею работать с данными на Северную Америку у себя из дома в Канкуне. Посмотрим как дальше пойдет.

Раньше я практиковал "английский в обмен на опыт", когда пару человек помогали прокачивать канадца, его звали Мишель, (который стал Power BI разработчиком, после повара), а он помогал им практиковать английский. Я всегда говорю, ваш успех = мой успех! Возможно и здесь получится сделать win-win для кого-нибудь, если Маркус реально захочет этим заниматься, говорит SQL даже проходил. И я ему уже 1й модуль рассказал за 15 минут и все нариосова=)

Пока я рассказывал, как круто быть инженером и работать, я думал о том, что на самом деле плохо быть наемным сотрудником и быть предпринимателем. В целом тут у меня нет ответа. У каждого свое мнения, я лишь могу рассказать про свою точку зрения.

Еще в университете, я уже понимал что быть предпринимателем это круто, но своих мозгов не хватало. В одном время я был даже настоящим директором фирмы Global Polymers, с офигенным сайтом и дизайном, где вокруг планеты летит космический грузовик и доставляет полимеры (Кирилл, привет!). У меня была фирма прослойка, которая поставляла сырье на предприятие. Есть продавец сырья (завод производитель сырья), есть покупатель (завод, которые использует сырье). Так как им сложно друг с другом договориться, приходится быть посредником за комиссию. Вся моя работа сводилась к обналичиванию крупных сумм денег и раздавать их в конвертах. Очень быстро я понял, что это не мое, и мамин знакомый бухгалтер порекомендовала не играть с огнем. Да мне и н еочень было интересно. Вот такой вот он мир бизнеса=)

Соответственно, ничего другого не остается, как пойти на работу. Если идти на работу, то точно идти в хорошую, большую и международную компания. Именно об этом я думал, когда собирал ракеты Протон М.

И так вот 10 лет я работал работу на работе. Менялись компании, страны и города, но одно оставалось неизменно, зарплата 2 раза в месяц, отпуск 1-2 раза в год. Такой вот день сурка. Таков путь. (мы же в 21 веке)

Что-то, я уже много тут "воды налил". Скажу финальную мысль. Она заключается в том, что это неплохо быть наемным сотрудником. Важно овладеть ремеслом, делать, что-то одно хорошо, разбираться в это. Это обязательно должно быть востребовано (с этим сложней). Через какое-то время, если вы захотите вы сможете перейти на ступень предпринимательства.

Недавно узнал, что предпринимательство и бизнес это совсем разные вещи. Предпринимательство - это операционка, вечно надо что-то делать, куда-то бежать. А вот бизнес это про принятие решения за кружечкой чая, связи и тп. Предпринимательство это просто. Даже доставка еды - это тоже такой вид предпринимательства, только вот сложней с пассивным доходом здесь.
❤‍🔥57🗿5🐳3🙈2🌭1
Поэтому мой совет новичкам от "бывалого" зарплатника:
1. выберите профессию, пусть она будет простой и понятной. Я всегда привожу в пример сантехника и электрика. Но я не имею в виду, что вам надо становиться таким (хотя они больше ИТшников получают в Северной Америке и увольнений нет)
2. найдите хорошую и большую компанию, где вы наберетесь навыков вашей профессии, так же вы научитесь общаться с людьм разных должностей, с разным опытом и разными точками зрения.
3. как вы "встанете на ноги", можете уже строить "космические грузовики" и решать, что вам делать дальше, работать за зарплату или же искать варианты как вырваться из порочного круга и "крысиных бегов" (если не читали Богатый, Бедный папа еще, то никогда не поздно). И самое главное ваша зарплата в месяц (2 раза) вам совершенно не будет мешать.

Конечно это мое мнение, кторое искажено моим опытом, но примерно так я обрисовал дела Маркусу. Он и сам понимает, что лажа какая-то доставлять еду на велосипеде в дождь за 40 долларово в день.
🐳38❤‍🔥23🗿10🍓4🌚1🍌1🙈1🫡1
Google users in America have searched for Python more often than for Kim Kardashian.

Так что да, Python популярен😅

Но Python не самый быстрый язык, поэтому в MIT сделали новый компилятор codon - Python-based compiler achieves orders-of-magnitude speedups
🍓19🐳6🌚3❤‍🔥2🫡2🦄2🍾1
Forwarded from Книжный куб (Alexander Polomodov)
Monolith to Microservices (От монолита к микросервисам)

Эта книга "Monolith to Microservices" написана Сэмом Ньюманом, который поспособствовал росту популярности микросервисов, написав книгу "Building Microservices". Эта книга определенно хороша, но она является не продолжением книги про создание микросервисов, а скорее приквелом для выпущенной изначально книги. Об этом говорит автор во вступлении, посыпая голову пеплом относительно того, что он открыл ящик Пандоры с микросервисами, что привело к массовому adoption их всеми подряд без глубокого понимания границ применимости этого подхода:)
В новой книге автор рассматривает такие темы как:
- что такое микросервис и какого размера он может быть - по bounded context'у
- какой логикой пользоваться для декомпозиции вашего монолита на микросервисы - внезапно тут активно упоминается очередной трехбуквенный акроним DDD
- всегда ли вам нужны микросервисы - логично, что нет:)
- как не обложаться с миграцией с монолита на микросервисы
- как распиливать монолитный код
- как быть с источниками данных - аля пилим базу данных
- какие боли у вас возникнут когда вместо одного монолита у вас появится коллекция микросервисов, в которой сложность эксплуатации возрастает на порядки, если использовать те же подходы, что для эксплуатации монолита

Мне нравятся заключительные слова автора о двух идеях, которыми он хотел поделяться в своей книге:
"First, give yourself enough space and gather the right information to make rational decisions. Don’t just copy others; think instead about your problem and your context, assess the options, and move forward, while being open to change if you need to later. Second, remember that incremental adoption of microservices, and many of the associated technologies and practices, is key"
Очень логичные и понятные мысли, которые заставляют трезво смотреть на любые подходы к решению задач. И да, на микросервисы тоже:)

#SystemDesign #DistributedSystems #SoftwareArchitecture #Architecture #Software #SoftwareDevelopment
❤‍🔥17👨‍💻5🙈2👾2🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Альфа-Банк открывает набор на второй поток магистратуры по Data science в МФТИ🔥

Если у вас есть диплом бакалавра или специалиста, вы умеете программировать, знаете основы для подготовки данных для машинного обучения и хотите научиться:

📌 Управлять циклом создания модели: от сбора данных до оценки эффективности

📌 Работать с большими объёмами данных, используя современный стек технологий

📌 Анализировать и моделировать данные с помощью алгоритмов Python

📌 Решать прикладные задачи Machine Learning и Deep Learning

📌 Защищать идеи, эффективно работать в команде

Обучение проходит очно, всем студентам во время обучения выплачивается стипендия и по окончании магистратуры выпускники получат диплом государственного образца от МФТИ, а лучшие - оффер в Альфа-Банк🅰️

Как поступить?

Подайте онлайн-заявку до 31 марта, решите одну из двух задач
по машинному обучению и пройдите интервью.

Больше информации — на сайте магистратуры и в ТG @alfabankmipt

#реклама
🍌9🦄7🌚3👨‍💻2🙈2
Поаккуратней там со средним!
🫡57👻20🙈8🌚5🤷‍♀3🍌3👨‍💻3❤‍🔥1🤷‍♂1🍓1
Forwarded from Data Nature 🕊 (Alexander Barakov)
🔮 Есть идея доехать до Gartner Data & Analytics summit - как будто главная тусовка отрасли в году сейчас, проходящая весной в нескольких городах мира. Отличие от вендорских сабантуев:
тут нет атмосферы религиозности. Позиция Gartner относительно равноудаленная. Озвучиваются тренды из практики Gartner, что возникает - что уходит, поднимаются более сложные "неприятные" вопросы, которых вендоры избегают.
Из минусов - большая часть спикеров престарелые эксперты-аналитики Gartner - грузят обобщенными речами без иллюстраций из жизни реальных компаний и не особо вдохновляют.

Только что закончился первый саммит в Орландо США и можно посмотреть что пишут и говорят про него:
Видео 1 - Час обзора конференции на канале SuperDataBrothers
Видео 2 - GartnerDA: Top Data and Analytics Predictions, 2023

👀 За что зацепился глаз:
1) 💰Компании почти перестали пытаться показывать ROI data проектов через краткосрочную прямую фин ценность (сокращение затрат и рост выручки) и фокусируются на обосновании через инновационные продукты, дата активы, бренд и стратегическую экспертизу. Нормально для западных компаний живущих на длинных трендах. Хотя может и в пи...цовые времена всем нужно думать стратегично
2) ☕️Аналогия отношений D&A CoE с юнитами как "Модели франчайзинга". Смысл прежний - но термин свежий и доступный. Типа Data Self-Service в линейке бизнеса - как открыть кофейню в регионе: помочь проанализировать рынок, продать оборудование, обучить персонал, мониторить перфоманс, надеяться что не загнется)
3) 🤖Все метнулись пилотировать ChatGPT-like for Enterprise проекты - в этом году все продукты резко впихнут в релиз планы и выпустят что-то конкретное. Отличие этого хайпа от других похожих, что он реально работает и вопрос по сути в "опромышливании" решений и подборе UI. Риски все обсуждают походу дела
4)💡Semantic layer / Headless BI - был бы главным трендом если бы не влез ChatGPT. Проблема Analytics Governance как одна из центральных для BI решений. Тут все понятно, надо пробовать.
5) 🤔Якобы есть тренд от идеи микросервисов снова к новым большим платформенным 'all in one' BI системам, построенным при этом с гибкой архитектурой (Gooddata, Tellius). Спорно, возможно тренд ради тренда. Хотя что-то в этом есть, типа есть усталость постоянно "женить решения" не имея в моменте счастливой семейной жизни.
6) к 2026 году половина организаций начнет рассматривать ABI (Analytics&BI) and DSML (Data Science & Machine Learning) тулы как одну скомпонованную систему, на фоне сближений сегментов

В целом, многие слайды выглядят интересно, но без комментариев сложно до конца понять их замыслы.
Возможно подъедут еще хорошие анализы саммита, глядишь и ехать в Мумбай/Лондон не придется.
❤‍🔥11🤷7🐳4💅2🌭1🗿1
DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API

В этом модуле мы познакомимся еще ближе с Apache Spark.

В этом видео вы узнаете про:

📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌 колонки (colums) и вычисляемы (expressions) поля dataframe
📌 основные операции при работе с dataframe (Reader, Wrtiter)
📌 примеры чтения разных источников и файлов (API, база данных, JSON, Parquet, CSV, TXT)
📌 различные операции для трансформации, фильтрации и агрегации данных в Spark DataFrame (прям как в SQL)
📌 Spark SQL, Catalyst Optimizer
📌 план запроса Spark
📌 примеры advance Spark функций и ноутбуков в Databticks

В качестве лабораторной работы мы будем анализировать данные по пожарной службы Сан-Франциско. Я покажу, как можно прочитать файл и выполнить простые запросы на PySpark.

Так же мы посмотрим на курс от Databricks про Apache Spark Developer. Мы посмотрим лишь, часть, которая относится к этой лекции:

📌 Reader & Writer
📌 DataFrame & Column
📌 Aggregations
📌 Datetime functions
📌 Complex Types
📌 Additional Spark Functions

PS В репозиторий я добавил следующие доп материалы:

🌴Есть целый курс Apache Spark Programming в 2х вариантах:
- HTML - вы можете посмотреть на пример кода
- Databricks Notebooks - вы можете загрузить ноутбуки в Databricks Community Edition

🌴Так же я создал небольшой docker-compose.yml (chatGPT4 создал 🤖) - как шаблон для запуска:
- Spark 3.2.0
- Jupyter notebooks

Что нужно сделать (помочь):
1. Взять курс Databricks, и скопировать демо данные (там монтируется папка с Parquet) в наш репозиторий.
2. Проверить, что docker-compose работает, и добавить файлы из лаб (PySpark) и демо данные в контейнер по Jupyter.

Таким образом, Databricks нам больше вообще не нужен будет, чтобы пройти курс Apache Spark Developer. Кто в теме, сделайте pull request. Вы можете обсудить этот вопрос в Datalearn чате (модуль 7).
❤‍🔥105🐳19🫡8🦄3🍾2
Друзья всем привет!
В среду (29 марта) в 20:00 по мск вебинар.
Спикер: Алена Артемьева
Расскажет про мифы и реальность в профессии, кому не нужна аналитика и про выгорание.

Ссылка на вебинар:
https://youtube.com/live/VfiXqncbp4U?feature=share

Для понимания уровня спикера:
Директор по аналитике, Data Science и исследованиям в Работа.ру
Более 20 лет в аналитике и более 10 лет в управлении командами
Работала в компаниях: Работа.ру, Biglion, Утконос, Альфа капитал.
Преподаватель во многих известных онлайн школах, а также спикер профильных конферененций:
Go Analytics, MateMarketing, Marketing One

Контакты спикера:
https://ru.linkedin.com/in/alenaartemeva
vk.com/alena_artemeva

От себя скажу что было очень сложно договорится о вебинаре, так что приходите послушайте очень умного человека.

#вебинар #datalearn
❤‍🔥67🐳10👨‍💻5🌭3🫡2
Пока одни радуются успехам AI, другие задаются вопросом насколько это полезно и хорошо для будущего человечества Pause Giant AI Experiments: An Open Letter
🤷‍♂9❤‍🔥7👻5
“I have no technical ability. And I know nothing about music.” https://twitter.com/i/status/1614785392456105985

Music producer Rick Rubin says he can barely play any instruments, but says artists come to him because of “the confidence I have in my taste and my ability to express what I feel.

Чувака спросили, он вообще что-то шарит в музыке? Он ответил, что ничего не шарит ни в музыке, ни в музыкальных инструментах. Ему просто платят за его уверенность, что он в теме.
Поэтому хватит переживать, что вы знаете или не знаете, это все фигня. Вон я больше половины не знаю, и платят за the confidence I have in my taste and my ability to express what I feel только в дате.
Каждый раз как пронесется мысль, что вы что-то не знаете, просто вспомните, что вам платят за то что вы есть, за ваше умение читать слак и выбирать креативные эмоджи, за то какой (ая) вы. А кнопки пусть в Индии нажимают🤭
❤‍🔥48🍌12🫡9🗿9🌚5💅3🤷1