Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from KD
FREE UDEMY Course - Snowflake SnowPro Core Certification Practice Exam
(For the first 1000 enrollments only)

Grab the highest rated UDEMY Course on Snowflake Core Certification!

Enrollment Link :

https://www.udemy.com/course/snowflake-snowpro-certification-practice-questions/?couponCode=24EFD9D9E223CEA84BDE

Happy Learning !
Online Snowflake Training 
8👍6
Forwarded from Sergey Gromov
Коллеги, радостная новость - несмотря на турбулентность наша команда выпустила ETL-круг Громова 2022 &Connectors - исследование русских ETL-инструментов, API и коннекторов, российское ПО бизнес-аналитики (включая open-source инструменты)
Его уже получили все, кто зарегистрировался на https://russianbi.ru/ и теперь мы его отправляем стандартно при регистрации.
В скором времени выйдет СУБД-круг. Остаемся на связи и всем успешных внедрений!
👍14😁11🤔3😢2💩2🔥1🤩1🤮1
Forwarded from Data & IT Career
😁8👍7😢1💩1
🔥37😁16👍31🤔1
Мы слышали про lake house подход много раз, где существует 3 основных решения - Delta Lake, Hudi, Iceberg.

Я работал 2 года с Delta Lake, так как использовал Databricks (Spark), именно они и contribute into delta lake.

А вот интересная статья про работу и использование Apache Iceberg https://medium.com/insiderengineering/apache-iceberg-reduced-our-amazon-s3-cost-by-90-997cde5ce931
🔥11👍7
🔥32👍17
Кстати в продолжения темы про продажу стоков. Очень не хотелось продавать в тот день, так как все росло.
Напомню, Microsoft стоил - 247US$, Amazon - 120US$. Но я решил продать и не ждать уже ничего, хотя здравый смысл говорил об обратном. И даже на след день все подорожало на 2$ после продажи. А еще через день все компании объявили о своих доходах за квартал, все недобрали и все упало, теперь Microsoft - 226US$, Amazon - 110US$. Все логично, либо продавайте как есть, либо ждите несколько лет.
🔥11😢6👍3
Накопилось несколько полезных ссылок по dbt:
Data Engineering with Snowpark Python and dbt - это, как я понимаю, новинка😁

Complexity: the new analytics frontier - dbt уже 6 лет +, обзор того, как это было и как сейчас

How we structure our dbt projects - классика, как нужно все организовывать в dbt проекте

dbt(Data Build Tool) Tutorial - tutorial по dbt. Я уже год с dbt работаю, уже могу и сам учить😊 но вы же знаете что это будет дорого и долго🙈

The Most Efficient Way to Organize Dbt Models - еще одна статья про то, как нужно делать правильно. А то они не знают - "Нормально делай, нормально будет"!😚

dbt Style Guide - ну а если вы на стиле, как я🕺🏻, то тут можно посмотреть стильные гайды.
👍23😁3🎉31
Forwarded from Nikita Baburov
😢31😁15🤔53👍2
Forwarded from nonamevc
Венчурный капиталист Томаш Тунгуз (Tomasz Tunguz) поделился прекрасным постом по итогам конференции Monte Carlo
про будущее дата-индсутрии на 2023 год.

Томаш как-то объявил, что в 2020 году мы вошли в декаду дату-стартапов и последовательно развивает этот тезис в своем блоге. За последние пару лет его работодатель, VC фонд, Redpoint Ventures проинвестировал в HEX, ClickHouse, Materialize, Monte Carlo, Omni. Большинство этих сделок лидидровал Томаш, так что прислушаться к его советам стоит.

Главные тезисы:

1. В 2021 году стартапы в области данных привлекли в общей сложности более $60 млрд, что составляет более 20% от всех венчурных долларов в мире.

2. Облачные хранилища данных (DWH) будут отвечать за 75% рабочих нагрузок (workloads) к 2024 году. За последние пять лет облачные DWH выросли с обработки 20% workloads до 50%. Оставшуюся часть составляют локальные базы данных. За это время объем отрасли вырос с $36 млрд до $80 млрд.

3. Workloads, связанные с данными, разделяются на три группы. In-memory бд, такие как DuckDB, будут доминировать в локальном анализе даже весьма массивных файлов. DWH сохранят классическое применение в BI и аналитике. Data lakes данных будут обслуживать таски, работающие с обработкой массивных данных, но которым не требуется высокая latency - и делать это за половину стоимости хранения.

4. Metrics layers объединит стек данных. Сегодня существует два разных направления в работе с данными – BI и машинное обучение. В первом случае мы используем ETL для перекачки данных в DWH, затем в BI или инструмент исследования данных. Отличие процессов машинного обучения том, что на выходе – обслуживание модели и обучение модели. Metrics layers станет единым местом определения метрик и характеристик, объединяя стек и потенциально перемещая обслуживание и обучение моделей в базу данных.

5. Большие языковые модели изменят роль инженеров по обработке данных. Здесь Томаш восхищается Copilot и верит, что подобные технологии, продвинут работу по проектированию данных на более высокий уровень абстракции.

6. WebAssembly (WASM) станет неотъемлемой частью приложений для работы с данными для конечных пользователей. WASM - это технология, которая ускоряет работу по браузера. Страницы загружаются быстрее, обработка данных происходит быстрее, а пользователи становятся счастливее.

7. Ноутбуки завоюют 20% пользователей Excel. Из 1 млрд. пользователей Excel в мире 20% станут пользователями, пишущими на Python/SQL для анализа данных. Эти блокноты станут приложениями для работы с данными, используемыми конечными пользователями внутри компаний, заменив хрупкие Excel и Google Sheets.

8. SaaS-приложения будут использовать облачные DWH в качестве бэкенда для чтения и записи (см.статью выше). Сегодня данные о продажах, маркетинге и финансах хранятся в разрозненных системах. Системы ETL используют API для передачи этих данных в DWH для анализа. В будущем программные продукты будут создавать свои приложения на базе DWH, чтобы воспользоваться преимуществами централизованной безопасности, ускорения процессов закупок и смежных данных. Эти системы также будут записывать данные в DWH.

9. Data Observability становится обязательным условием. Команды по работе с данными будут согласовывать показатели времени безотказной работы/точности данных. Сегодня команды по работе с данными сталкиваются с 70 инцидентами на 1000 таблиц.


@mobilefirstasia
👍46🔥2
Всем привет, завтра (2022-10-31) в 20:00 по мск Вебинар.
Спикер - почетный гость Datalearn - Николай Голов.
Тема: Activity Schema - новая методология? Одна таблица вместо хранилища данных.

Николай уже не первый раз радует нас выступлением
Ссылка на трансляцию: https://youtu.be/JXdz7-hCJyI
Как всегда рекомендация - "Кому интересно быть" :)

Спойлер: Я видел презентацию, там очень круто, впрочем как и всегда :)

Контакты спикера:
- azathot.mail@gmail.com
- linkedin.com/in/golov-nikolay-data
👍22🔥12👏2🤔1
Forwarded from Data Nature 🕊 (Alex Barakov)
.. ненароком сделал саммари текущей реальности на российском рынке BI решений в рамках подготовки сессии курса по BI стратегии. Получилась такое. Классификация решений не претендует на строгость и полноту, не было такой цели, но картинка независимая, без рекламы, содержит все сущностное и вероятно поможет кому-то сориентироваться. Будут дополнения - велком в комменты

отдельное спасибо @Ascenor @asdavtyan @sgromych @rbunin за подгрузку дополнительного экспертного контекста
👍57😁81👎1😢1
🚨Всем привет завтра (2022-11-02) в 21:00 по мск вебинар.

Тема:Базовые принципы заметковедения или как сделать так, чтобы записи приносили пользу, а не страдания.

Ведущий: Рустам Агамалиев
Рустам уже приходил к нам с выступлением про инструменты мышления. Кто смотрел тому выступление понравилось и вы просили Рустама рассказать подробней - вот пожалуйста.

Ссылка на завтрашний эфир:
https://youtu.be/wTQ2wwPsvlc


📕 Ссылки на ресурсы спикера:
🔗 Канал в телеге: https://news.1rj.ru/str/Zettelkasten_ru
🔗 Цифровой сад: rustamagamaliev.ru
🔗 Форум: zttl.space
👍21🤡6🔥2🌭2🐳1
Forwarded from Grisha Skobelev
🗓 2 ноября, среда, 18:00 (мск) “Шина данных”

Разберемся какие задачи решает шина данных, поговорим о такие моменты: шина данных как канал обмена сообщениями для Event Driven  архитектуры, средство сбора и доставки данных для аналитики, инструмент batch - упаковки, инструмент потокового реагирования - Streaming analytics, streaming logic. Так же обсудим какие современные требования к шине данных и что от нее ожидаем (Persistence (Durability), High RPS, Many-to-many data deliver).

Встречаемся 02.11 в 18:00 по мск в Zoom.

@backend_megdu_skobkah
👍6
В комментах спросили с чего начать изучение DE с нуля:

1) Найти курсы по DE, посмотреть какие инструменты и технологии указаны там в программе курса. Выписать их себе (инструменты, не курсы) в план на изучение, и искать статьи, видео уроки, курсы по этим инструментам\технологиям.
2) Найти людей, которые работают в этом направлении, и спросить у них, что они чаще всего используют в работе, как вообще выглядят задачи, и что стоит изучить. Выписать тоже в список.
3) Изучать и отрабатывать на практике (искать тестовые задания выложенные в сети, придумать себе пет-проект), на тренажёрах.

Готово, вы великолепны.

Первым шагом — идём на бесплатный курс от Data Learn https://datalearn.ru/ от Дмитрия Аношина https://news.1rj.ru/str/rockyourdata (которому лично я очень благодарен за его курс, т.к. я не чистый DE, я всё-таки Data Analyst, в первую очередь (в частности Web Analyst / Marketing Analyst, если говорить про доменную экспертизу). И его курс мне помог освоить дополнительные инструменты, чтобы делать не только DA задачи, но и DE (и потом ещё и офер на работу Data Engineer получить).

Поэтому этот курс, это прям первейшее что надо открыть. И по мере изучения профессии и инструментария — гуглить уже уроки и документацию по каждому отдельному инструменту, изучать их глубже, тренироваться на практике.

Перечень DEшных buzzwords, с чем я сталкивался на практике в работе — python, sql, airflow, dbt, postgresql, clickhouse, google bigquery, tableau, powerbi, google data studio, looker, spark, kafka (было дело пускал руки и в AWS пару раз, но чаще работал с Гугловой экосистемой).

Как можно это всё освоить:
1) Осваиваем SQL — https://stepik.org/course/63054/(бесплатный тренажёр, очень качественный), https://stepik.org/course/90778/ (это более прикладной ПЛАТНЫЙ, но дешёвый, курс, с SQL именно под Data задачи) и отдельно курс по оконным функциям https://stepik.org/course/95367/ (стоит копейки, но стоит того, окошки на собесах часто спрашивают)
2) Осваиваем Питон — я изучал по https://stepik.org/course/67/ и https://stepik.org/course/512/ (оба бесплатные), но, говорят, что https://stepik.org/course/58852/ и https://stepik.org/course/68343/ гораздо лучше по части донесения информации (оба бесплатные) и https://stepik.org/course/82541/ (третья ступень, платная, про неё ничего не слышал)
3) Осваиваем азы Pandas — https://stepik.org/course/74457/ (бесплатно)
4) Осваиваем азы Airflow — https://stepik.org/course/99527/promo#toc (платный)
5) Осваиваем архитектуру и вообще Базы Данных — https://stepik.org/course/551/ (бесплатно) , тут и про архитектуры, и про Нормальные Формы и т.п. https://stepik.org/course/70710/ (бесплатно) — более глубокое погружение в БД и СУБД.
6) Осваиваем Git — полно бесплатных уроков на ютубе, практиковаться можно на своём гитхаб аккаунте.
6) Осваиваем Облака — https://practicum.yandex.ru/ycloud/ (бесплатный курс), я предпочитаю Google Cloud Platform, но для простоты доступности (к Гугл Облаку надо карту привязывать, а с этим щас проблемы могут быть) начать освоение можно с Yandex.Cloud или VK Cloud
7) Осваиваем Spark, Kafka, Hadoop — не могу посоветовать бесплатные курсы, т.к. осваивал их на платных курсах и «в бою» на задачах сразу, гугля «КАК СДЕЛАТЬ ___ в Spark», и с помощью коллег. Но начни с модулей бесплатного Data Learn, а там сориентируешься куда гуглить и как. И, возможно, вот этот курс https://stepik.org/lesson/699607/ (бесплатно) подойдёт для азов и обзорного понимания Спарка
8) Осваиваем dbt — у них свои бесплтаные курсы прям на сайте лежат https://courses.getdbt.com/collections

Когда Data Learn и курсы выше будут пройдены — можно идти к Карпову на https://karpov.courses/dataengineer (за деньги, дорого). И погружаться в более ядрёные штуки под присмотром наставников и кураторов.
75👍43🔥26🥰1
Как улучшить английский в документации

Часто аналитик/технический писатель сталкивается с документацией написанной на английском языке, или же самому приходится писать ее на английском языке, в данной статье автор - технический писатель, постарался не просто дать рекомендации о том, как можно избежать распространённых ошибок, но и подсветил те отличительные черты английского языка, которые к этим ошибкам приводят. Познавательно и интересно))

Прейти
👍26🔥16🍓1