Rumyantsev Feed – Telegram
Rumyantsev Feed
89 subscribers
45 photos
7 files
96 links
Пишу обо всём, что связано с данными. Иногда отклоняюсь от темы.

Связь: @jayrumi
LinkedIn: https://www.linkedin.com/in/evgeny-rumyantsev
Download Telegram
Когда мы слышим "dataframe", "anaconda", или "обработка данных на питоне", то скорее всего первым, что приходит на ум, является библиотека pandas. По сути, это стандарт работы с датафреймами в сферах data science/data analysis/data engineering(в какой-то степени).

Но, как оказывается, свет клином не сошёлся на "панде". Есть альтернативы, и их достаточное количество, что не может не радовать. Вот список библиотек для работы с dataframes для разных языков программирования, которые могут оказаться полезными и более привлекательными, чем тот же pandas: https://github.com/jcmkk3/awesome-dataframes

#python #dataframes
Октябрь обещает быть богатым на конференции. Все они имеют гибридный формат, а это значит, что мероприятия будут так же транслироваться и онлайн. Подготовил подборку бесплатных конференций, информация о которых всплывала в различных источниках в последние дни.

08.10 - KOLESA Conf: "Масштабная конференция, объединяющая IT-сообщество Казахстана." Анонсировано 35+ спикеров в 4 направлениях: Web, Management, Data, Mobile. А также конкурсы, где можно выйграть мерч, и нетворкинг. Начало в 10.00, но не забываем и про часовой пояс(UTC +6).

11.10 - 14.10 - Next: конфа с большим размахом от Google. Будет несколько стримов, среди которых Analyze(Recommended for data scientists and data analysts) и Design(Recommended for data engineers).

17.10 - 21.10 - Coalesce: конференция, проводимая dbt Labs. Понятное дело, что будет очень много разговоров и примеров использования dbt. Но ведь это и не плохо, верно?

25.10 - 26.10 - IMPACT: The Data Observability Summit: всё о data observability от компании Monte Carlo. Давольно-таки модернстековый состав приглашённых ключевых спикеров, среди которых Ali Ghodsi(CEO & Co-Founder Databricks), George Fraser(CEO & co-founder Fivetran), Zhamak Dehghani(мать Data Mesh), Tristan Handy(CEO & co-founder dbt Labs) и не только.

З.Ы. Пост будет дополняться, если обнаружатся ещё какие-то ивенты.
👍2
Rumyantsev Feed pinned «Октябрь обещает быть богатым на конференции. Все они имеют гибридный формат, а это значит, что мероприятия будут так же транслироваться и онлайн. Подготовил подборку бесплатных конференций, информация о которых всплывала в различных источниках в последние…»
Думаю, многим приходится в работе сталкиваться с JSON форматом. И ладно, когда вложенность небольшая, - засунул в условный jsonformatter и ковыряй себя содержимое.

А что, если ситуация обратная, и JSON кажется бесконечным? Что, если ты уже теряешься в текстовых данных, и хочется какой-то визуализации, чтобы посмотреть на содержимое "с высоты птичьего полёта"? В таком случае, может оказаться полезным этот замечательный инструмент: JSON Crack.

Инструмент опенсорсный - поэтому каждый может внести свой вклад в развитие тула. А если не хочется заморачиваться с кодерством, но есть непреодолимое желание поддержать развитие проекта - можно проспонсировать денежкой.

Также есть embed возможность, что может оказаться решением для собственников сайтов.

#json #visualization #opensource
👍2🔥1
Доброе утро!
А я напоминаю, что сегодня начинается 4-х дневная конференция от Google в 16:00 UTC.
Самое время заглянуть в Agenda и добавить в календарь выступления, которые не хочется пропустить. 😉
Всем добра!
🔥3
Конференция началась. И вторым блоком в live-сессии были 10 предсказаний от гуглеров на конец 2025 года.
Предсказания в следующих областях:
1. Neurodistinct design
Пропустил формулировку, но основная мысль: все мы разные, поэтому нужен адаптивный дизайн.
2. Curated open source
"4 of 5 enterprise developers will use some form of curated open source"
Контрибьютинг и использование опен-сорса.
3. Security
"90% of security operations workflows will be automated and managed as code"
Выглядит давольно-таки интересно.
4. AI
"AI is going to be the primary driver for moving to a 4-day work week"
Несмотря на формулировку, много говорили о возможностях Vertex AI.
5. Data and Analytics
"90% of data will be actionable in real-time using ML"
Здесь рассказывали о Dataplex, который умеет в Data Quality и Data Lineage.
О том, что BigQuery уже поддерживает работу и хранение unstructured data (и это так: ещё несколько месяцев назад был анонсирован формат хранения JSON).
И про возможности Dataflow работать как с батч-процессингом, так и со стримингом.
6. Databases
"The barriers between transactional & analytical workloads will disappear"
Звучит немного пафосно, согласен. Но рассказывали, что уже есть интеграции между BigQuery и Cloud SQL, Cloud Spanner и Bigtable, которые позволяют в реальном времени гонять данные туда-сюда. Также упомянули и репликацию в real-time с помощью Datastream. Похвастались AlloyDB, который умеет очень быстро процессать транзакционные данные.
7. Cloud Infrastructure
"Over half of cloud infrastructure decisions will be automated based on an organization's usage patterns"
Тут я узнал, что оказывается существуют платы IPU - Infrastructure Processor Unit, которые, если не ошибаюсь, применяются для запуска виртуальных машин и т.п. 🧐🤯
8. Build Sustainably
"3 out of 4 developers will lead with sustainability as their primary development principle"
Говорили о защите окружающей среды и о том, что всем нужно в клауд, т.к. Google умеет использовать мощности таким образом, чтобы углекислого газа вырабатывалось меньше.
9. Multicloud
"Over half of all organizations using public cloud will freely switch their primary cloud provider as a result of the multicloud capabilities available"
Анонсированы существующие интеграции некоторых инструментов с другими облачными провайдера. И дальше этих интеграций будет становиться больше.
10. Business Application
"Over half of all business applications will be built by users who do not identify as professional developers today"
А тут о том, что будет появляться всё больше low-code и no-code приложений, создаваемых бизнес-юзерами, которые не умеют в программирование.

Если захочется получить больше деталей - советую посмотреть запись, когда выложат в открытый доступ. В любом случае можно сделать выводы о том, в какую сторону собирается двигаться компания и отчасти вся cloud-индустрия в ближайшие 3 года.

Всем добра!

#google #conference #overview
🔥5
Forwarded from Not Null
image_2022-12-21_16-33-28.png
4.4 KB
🚀 GCP продолжает радовать новыми фичами в BigQuery!

Кроме таких классных инструментов, как Dataform и Execution Graph для кверь, которые появились в UI BigQuery за последние пару месяцев, буквально в течение этих суток добавили функциональность Lineage в редакторе запросов. Правда, пока в Preview режиме, но это уже огромный плюс! Теперь не нужно искать линедж где-то в дебрях Dataplex или Dataform - он прямо перед тобой.

К сожалению, пока не удалось поковырять Lineage в силу рабочей загрузки, но сам факт появления сделал этот день!

P.S. Встречал в обсуждениях на linkedin тезис о том, что GCP сильно недооценён. Полностью поддерживаю это! То, куда движется GCP, как data platform, и то, что сделано и внедряется сейчас, вызывает чувство благоговейного трепета! 🥹
Дорогие подписчики, поздравляю вас всех с наступившим новым годом. 🥂
Желаю, чтобы все ужасы прошлого года поскорее закончились, и добро победило! 🫶
С профессиональной точки зрения желаю много новых интересных челенджей, внедрения всех хотелок, карьерного и качественного роста, и чтобы пайплайны работали стабильно и не падали, а стейкхолдеры оставались давольными!🚀

В силу некоторых бытовых и рабочих трудностей, пока не удаётся выйти на стабильное ведение блога. Но я не забываю о вас всех, поэтому решил поделиться ресурсами, которые попались под руки за последнее время. Их не так уж и много, но тем не менее.

Думаю, у многих на слуху такое понятие, как Modern Data Stack. Я до конца не определился, как относится к MDS, присутствует скепсис. 🧐 Но против трендов не попрёшь, да и держать нос по ветру свежих веяний не помешает. Вот ссылки на аккаунт в linkedin и сайт, посвящённые Modern Data Stack:

https://www.linkedin.com/company/moderndatastack/
https://www.moderndatastack.xyz/

На следующий ресурс я наткнулся буквально полчаса назад, бороздя просторы reddit'a. Поскольку сфера моей деятельности на данный момент Data Engineering - то ресурс соответствующий 🤷:

https://dataengineering.wiki/Index
👍2🤔1
Есть такое сообщество DataTalks.Club. Как несложно догадаться, оно сосредоточено вокруг темы работы с данными (правда, с большим уклоном в Data Science и ML). Создатели сообщества каждый год запускают бесплатный онлайн кемп Data Engineering Zoomcamp.

В этом году событие стартует 16 января и будет идти 7-9 недель. Расписание следующее:

Week 1: Introduction & Prerequisites (Docker, Terraform)
Week 2: Data ingestion (Prefect)
Week 3: Data Warehouse (BigQuery)
Week 4: Analytics Engineering (dbt)
Week 5: Batch processing (Spark)
Week 6: Streaming (Kafka)
Week 7, 8 & 9: Project

Курс рассчитан на специалистов уровня junior/middle.

Тем не менее, для себя я также вижу смысл поучаствовать, чтобы получить hands-on experience (пусть и не продакшн) с Terraform, Prefect, dbt, Spark и Kafka. Да и обучение будет идти на базе моего любимого GCP.

Приятным бонусом по завершении кемпа и выполнения итогового проекта - сертификат.

З.Ы. Пост не рекламный - просто хотелось поделиться интересной инициативой (а что ещё делать в полночь воскресенья?! 🤷).
👍5
📚 Никогда не слышал об этом, но оказывается, у довольно известного издательства Manning есть своя платформа обучения, которая называется liveProjects.

Каждый "курс" в liveProjects сфокусирован над решением задачи, приближенной к проблеме реального мира. Обучение происходит следующим образом (выдержка из FAQ на сайте):

"Just the right amount so that you’re challenged but never stuck. You’ll receive step-by-step instructions, access to book and video resources selected for your project, opportunities to collaborate with other participants or an expert mentor, and access to three increasing levels of help within the workflow."

Сегодня на сайте издательства акция - каждый проект можно купить за 20$.

Выделил наиболее интересные проекты на мой взгляд:

Event-Driven Data Pipeline with Python and Kafka

End-to-End Batch Data Pipeline with Spark

Algorithms and Data Structures in Python

Build a Small Dockerized Data Mesh

Real-World Deep Learning Recommender System

ML for Knowledge Graphs with Neo4j

Building an ML Pipeline with Kubeflow

Create a Data Platform for Real-time Anomaly Detection

Time Series Forecasting in Python

Перед покупкой курса настоятельно рекомендую ознакомится с условиями (сроки и расписание прохождения, доступность ресурсов и т.п.)

P.S. Если кто-то решится приобрести что-то из предложенного, и завершит своё обучение - отпишитесь, пожалуйста, в лс и поделитесь впечатлениями. Manning довольно часто проводит различные распродажи - надо будет только дождаться очередной по liveProjects и приобрести себе курс.

Всем добра!
👍2🤔1
ETL vs. ELT

Интересный момент касательно ETL/ELT процесса, который с одной стороны очевиден, а с другой стороны - не задумываешься о разнице до поры до времени. Так вот, чем отличается ETL от ELT? Самый очевидный ответ - порядком выполнения степов Extract, Transform, Load. Да, но когда применять ETL, а когда - ELT?

Исторически ETL использовался в концепциях обработки данных для DWH. Была и до сих пор остаётся куча тулов, таких, как Informatica, Talend, Pentaho и т.д., которые являются ETL инструментами: загружаем данные из сорсов на машину/сервер с тулом, применяем трансформации, выгружаем в наше хранилище данных. Да, такой подход работает, когда мы говорим об обработке небольшого объёма данных. А что, если данных десятки и сотни гигабайт? А если они ещё и полу-структурированные? Какой бы мощный сервер с ETL тулом не был, в какой-то момент и он перестанет справляться с такими объёмами данных или будет делать это медленнее, тем самым задерживая доставку необходимых данных конечным пользователям.

И вот тут появляется Data Lake с возможностью хранить терабайты разных данных (structured, semi-structured, unstructured). Да ещё и с оптимизированными на чтение схемами. И что же имеем сейчас: забрали данные из сорсов, сложили в DL, сделали трансформации с помощью BigData тулов.

Да, здесь много частных случаем и можно долго спорить. Но если абстрагироваться от частного и посмотреть на общее - получаем, что ETL - это про DWH, а ELT - про Data Lake.

Неплохой повод включить в качестве вопроса со ⭐️кой для собеседований кандидатов.
🤔3👍2
⚡️Внезапная новость!

Теперь Airflow доступен и в Azure! Если у конкурентов данный тул предоставляется as a Service (Cloud Composer у GCP и Amazon MWAA у AWS), то Майкрософ пошёл дальше. Компания встроила Airflow в Azure Data Factory. Тут всё: и автоматическое разворачивание, и автоскейлинг, и аутентификация через Active Directory, и прочие плюшки.

Несмотря на мою любовь к GCP, считаю, что такой "выходкой" Microsoft поставил шах и мат конкурентам.

Браво! 👏

P.S. Буквально в ноябре 2022 рассказывал другу о том, как круто использовать managed Airflow - нет никакого головняка с настройкой и поддержкой инфры. Друг как раз работает с Azure. Я ещё удивлялся, как это до сих пор нет SaaS Airflow у Azure. Но у компании, как видим, были свои планы на этот счёт 🌚
👍4🔥4
image_2023-02-03_12-47-30.png
105.3 KB
Немного пятничного юмора.

Всем желаю спокойного завершения рабочей недели и хорошо отдохнуть на выходных.

P.S. И не забывайте читать книги с птицами 😉
😁3👍2🤔1
Воскресный опрос.
Я понимаю, что аудитория небольшая, но очень интересно узнать, какой клауд вы используете для своей Data Platform (аналитика, процессинг, трансформации и т.п. )
Final Results
24%
GCP
24%
AWS
16%
Azure
4%
Another vendor (Alibaba, Oracle, Yandex, etc.)
0%
Multicloud (GCP + Azure)
0%
Multicloud (AWS + Azure)
4%
Multicloud (GCP + AWS)
0%
Another multicloud
28%
On-premise
0%
None of the above
А вот и THE 2023 MAD (MACHINE LEARNING, ARTIFICIAL INTELLIGENCE & DATA) LANDSCAPE.

Смотрим на тренды 2023 в data engineering, аналитике, ai/ml и не только.

Осторожно, не залипайте, впереди рабочий день 😉
👍2❤‍🔥1
Могу сказать, что уже неоднократно всплывали топики о том, что у Python, как у ЯП для дата инженеров, появился конкурент в лице Rust. Сегодня в linkedin попался пост от Karim Jedda, где он анонсирует запуск сайта знакомства (не того, о котором можно подумать 😉) с языком Rust в разрезе работы в Data Engineering.

Ссылка на сайт: https://datawithrust.com/
👍2
Ну что я могу сказать?

Мы действительно входим в новую эру с точки зрения того, на что способен GPT-4. Но я сторонник того, что такие технологии точно не заменят Data Engineers/Architects. GPT-X & Co нужно воспринимать как помощником или совсех зелёных джунов. Они избавляют от рутины, позволяя посветить время более важным делам.

Зачем тратить несколько часов на то, чтобы представить сложный JSON в виде модели Data Vault 2.0 в BigQuery, например, если можно скормить его ChatGPT с просьбой сгенерить эту модель и преобразовать в DDL? А тебе останется проревьювать результат и внести необходимые правки. А потом ещё и автоматизировать schema changes handling.

Снимаю шляпу. 👑

https://medium.com/@nschairer/gpt-4-data-pipelines-transform-json-to-sql-schema-instantly-dfd62f6d1024
👍2❤‍🔥1
Всем доброе утро!

Очередной новый подход в организации работы с данными. На этот раз объединили dimensional modeling с feature engineering.
Основной посыл: давайте выделим сущности и будем работать вокруг них, обогащая данными и фичами (по сути, рассчитанными метриками). В любом случае, рекомендую почитать статью. Радует, что текст пестрит ссылками на дополнительные материалы, которые скорее всего помогут глубже понять approach.

P.S. От себя добавлю, что я бы заменил dimensional modeling на data vault 2.0 или вообще anchor modeling. Они точно прибавят гибкости. Если быть современными, то уже во всём 😉

https://preset.io/blog/introducing-entity-centric-data-modeling-for-analytics/
👍3🔥1
Mesh'ей много не бывает!

Если есть Data Mesh, то почему бы не придумать и концепцию SQLMesh? Так и поступили создатели компании Tobiko, о чём можно и почитать в статье.

Но если Data Mesh больше об архитектуре и организации работы с данными в компании, то SQLMesh - это про DataOps. Направление, которое в том числе продолжает набирать популярность.

Какие же бенефиты от использования этого меша обещают? Вот некоторые из них:

- автоматическое определение зависимостей между объектами;
- исходя из пункта выше: предоставление информации о том, какие объекты будут зааффекчены при изменении;
- code version control;
- unit тесты для пайплайнов, которые можно описать в YAML файле;
- интеграция с Airflow и dbt (пока в preview).

Я пока не совсем понял, как именно Virtual Data Warehouse связан с Efficient dev / staging environments. Видимо, для этого нужно поглубже погрузиться в тему.

P.S. Спасибо моему новому коллеге data engineer за то, что поделился ссылкой на статью.

#dataops #sqlmesh
🤔1👀1🆒1
Лёгкое чтиво в конце рабочего выходного дня: https://www.levels.fyi/blog/scaling-to-millions-with-google-sheets.html

Оказывается, Google Sheets могут быть полезным инструментом не только для менеджеров и бизнес-пользователей, но и стать альтернативой бд на бекенде! Девиз ребят из levels.fyi был прост: "start simple and iterate". И при запуске своего ресурса они отталкивались от позиции, что хотят сфокусироваться на разработке продукта, а не выборе технологий и настройке инфраструктуры, да и к тому же по возможности сэкономить. Конечно, со временем пришлось сделать изменения "под капотом", но об этом непосредственно в самой статье.

#googlesheets #backend
👍1
Немного мудрости.
Для моей команды В данный момент одна из самых актуальных тем.
🔥5🆒1