Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Через 20 дней будет Databricks Summit - Data + AI 2022, онлайн участие бесплатное.
👍12🔥7
Изучение алгоритмов полным ходом!
👍41🥰3👏2
Code Screen из Shopify🧑‍💻👩‍💻

# Canadian postal codes are in the form "A1A 1A1", where "A" is an upper case letter
# and "1" is a digit. Here is a subset of provinces and territories along with their
# unique set of postal code prefixes:

# Province Code | Prefixes | Province/Territory Name
# ------------- | ------------- | -----------------------
# ON | K, L, M, N, P | Ontario
# MB | R | Manitoba
# NU | X0A, X0B, X0C | Nunavut
# NT | X0E, X0G, X1A | Northwest Territories

# Using that subset:
# 1) Write a `province_for` method which, given a postal code, returns the
# province code that corresponds, or null if none is found to match
# e.g. province_for("K1P 1K9") => "ON"
# province_for("R3L 0T9") => "MB"
# province_for("Q1Q 1Q1") => null # no postal codes start with "Q"
# province_for("X0C 0E0") => "NU"

# 2) Write a------------ method which, given a postal code and a province code,
# returns true if the postal code is valid for the province, or false otherwise
# e.g. valid_for("M5W 1E6", "ON") => true
# valid_for("Z0M 1G2", "ON") => false # no province matches the postal code
# valid_for("X0E 0T0", "NT") => true
# valid_for("X0A 0H0", "MB") => false # X0A 0H0 is in NU

PS можете свое решение добавлять в комменты.
👍8🤔1
Apache Flink Chapter 1.pdf
8.6 MB
Первая глава книги Stream Processing with Apache Flink.

Кто работал с Flink, как вы его используете? Какие аналоги? Кейсы?
Если смотрели лекции даталерн, то вы поймете😇
😁116🔥94👍4🤔2
Николай Голов, который рассказал очень просто и понятно про Snowflake и Data Vault (записи на нашем youtube), написал новый блог пост Do we really need data modeling in the world of the modern data stack?
🔥13👍5👏1
Задачка из epic games interview👩‍💻🧑‍💻

# Output all binary strings of length N such that there are no repeating "1"s
# e.g. `generateBinaryStrings(2) -> 00, 01, 10` and `generateBinaryStrings(3)` -> [000, 001, 010, 100, 101]
👍13
Недавно увидел картинку рабочего место в одном из телеграмм каналов, в котором пока всего 100 подписчиков.

Сидя на стуле Herman Miller за 1к$, автоматизированном столе за 1к$, обложен 2мя mac book pro (15" и 16"), ipad Pro, ipad mini, несколько ноутов на Windows, вид на горы и океан за окном, имея доступ ко всем возможным подпискам, курсам, книгам и талантам, у меня нет, того, что есть на этой картинке - целеустремленность, желание учиться и развиваться, и карабкаться на верх к новым победам и вершинам.

Поэтому если вы в такой же ситуации, то я вам даже завидую, потому что у вас еще много сил на достижение поставленных целей. не останавливайтесь и все у вас будет круто!

А мне просто хочется почилить на пляже с банчкой сидра🦧
🔥103👍34😁9🤔76🤬1😢1
По моим свежим постам я этого не заметил😛 А вы как считаете, должны быть coding/white boarding?

Мне лично нравятся реальные задачи, например взять BigQury, загрузить данные и визуализировать результат, или еще чего, ближе к реальному опыту, чем задачи про бинарную строку и выведение матрицы по часовой стрелке.
🔥32👍12
This media is not supported in your browser
VIEW IN TELEGRAM
Примерно так это и выглядит🏌️‍♀️
😁34👍7
2 картинки. На 1й кофундер Airbyte (open source EL продукт), публикует обычный маркетинговый продающий пост.

Airbyte хотели (хотят) повторить успех Airflow/dbt в плане создания community, но что-то пошло не по плану и даже VC деньги не помогли. Поэтому им задали очень хороший вопрос на 2й картинке.

Мне лично Airbyte показался перегруженным, и я использую meltano.

Сам пост.
👍5
👍5
👍10
Товарищ поднял интересную тему - мы часто слышим в компании, что “мы семья” и бла бла бла, а по факту это как рост цены акций или криптовалюты, все классно, пока везде и у всех все хорошо, а чуть, что не так, так сразу “давай, досвидания”.

Поэтому возникает вопрос, почем сотрудниками дают испытательный срок, это сотрудники должны давать испытательный срок компании.

у вас как на работе - “мы семья?”, кофе с печеньками и корпаративчики?

Еще было много постов на тему крутецких пати в западных компаниях с модным мерчем, где-нибудь на Гаваях, а потом давай, досвидания”, так как нечем платить зарплату. Но до уровня Xsolla и их успешного применения анализа Big Data еще даже Tesla не дошла🌚
👍44👏31
Я писал давно про свой неуспешный опыт создания аналитического консалтинга. Всегда интересно читать, как похожая идея у кого-то получилась. Ребята из Монтреаля выросли за 2 года с 4х до 32 консультантов продавая услуги Looker, Snowflake, Dbt, Fivetran с годовым revenue 3mln+, молодцы! Уверен что это было не просто, но они справились, да и сайт у них креативный.

PS А это про неудачный опыт похожей идеи (статья на хабре). Так же был партнером Snowflake, Looker, Matillion, Tableau, но слишком был размыт фокус, пытался объять необъятное.
👍43
МОДУЛЬ 7-2 ЧТО ТАКОЕ APACHE SPARK

Apache Spark является самым популярным инструментом среди инженеров данных, аналитиков и инженеров машинного обучения. Его главная задача это обработка данных. С помощью Spark можно подключаться к любому источнику данных, читать большие данные и обрабатывать их в оперативной памяти с использованием распределенного вычисления (distributed computing).

В этом видео:
📌 Узнаем история Apache Spark
📌 Посмотрим примеры архитектур с использованием Spark
📌 Разберемся когда его можно использовать
📌 Узнаем про основные компоненты
📌 Узнаем, обозначает термин Unified Analytics
🔥82👍283👏1🤩1
МОДУЛЬ 7-2-1 САМЫЙ МИНИМУМ PYTHON ДЛЯ SPARK (JUST ENOUGH PYTHON FOR SPARK)

Вдруг вы плохо знаете Python? Тогда для вас есть express course:)

Прежде, чем начать работать с Apache Spark, мы должны иметь необходимый минимум работы хотя бы одного из поддерживаемых языков программирования. Один из самых популярных языков - Python. Поэтому в этом уроке мы посмотрим, какие команды нам необходимо знать на примере Databricks notebooks. У вас будет замечательная возможность попрактиковаться, и если вдруг вы мало используете Python, то самое время попробовать его, так как дальше нам очень понадобится.

В этом видео:
📌 Что такое Databricks
📌 Как запустить Community Edition Databricks и какие есть еще варианты для бесплатного Spark
📌 Переменные и типы данных в Python
📌 Условия и циклы
📌 Методы, функции и библиотеки
📌 Коллекции и классы
👍54🔥303👏1
Не знаю насколько вы далеки от Депп/Эмбер разбирательств, но это была тема №1 в Северной Америке в прошлом месяце. Маркетинг уровня БОГ))
🔥67😁55👏4👍3