NEW BOT Телеграм, страница - 776205091

DataEng

4.39K subscribers

41 photos

11 files

541 links

Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash

Download Telegram

About

Blog

Apps

Platform

4.39K subscribers

Forwarded from Vasily Pantyukhin

Тема: S3 Dive deep
Когда: Понедельник 7 декабря 17:00-18:00 MSK
Где: https://chime.aws/5886310272
Как присоединиться:
Download Amazon Chime at https://aws.amazon.com/chime/download
For information about creating an Amazon Chime account, see https://aws.amazon.com/chime/getting-started

Meeting ID: 5886 31 0272
https://chime.aws/5886310272

Call in using your phone:
Russia Toll-Free: +7 800 333-23-25
Meeting ID: 5886 31 0272
One-click Mobile Dial-in (Russia Toll-Free): +7 800 333-23-25,,,5886310272#
Russia: +7 499 951-25-91
International: https://chime.aws/dialinnumbers/

856 views10:19

Forwarded from Smart Data

Всем привет!

Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)

Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.

Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.

Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)

И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)

P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.

Digital агентство Promodo: Онлайн-маркетинг повного циклу

Надійний партнер з діджитал-маркетингу. Нам довіряють свій розвиток в онлайн сотні українських та світових компаній, серед яких Rozetka, monobank, Glovo

868 views17:17

https://blog.getdbt.com/future-of-the-modern-data-stack/

The Modern Data Stack: Past, Present, and Future | dbt Labs

My thoughts on where our space has been and where it might be going.

2.05K views12:11

Forwarded from How to DWH with Python

Рекомендую к прочтению тем, кто пробовал NoSQL: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-354f97c96c2 — эта статья буквально расширила границы моего сознания!

Здесь рассказывается про то, как проектировать таблицы в NoSQL БД на примере (и с большой привязкой к) AWS DynamoDB.

Расширение сознания вызвано тем, что основной рассмотренный прием — это хранение в одной таблице совершенно разных данных, относящихся к одном объекту, чтобы ускорить к ним доступ. В реляционных СУБД в одной таблице лежат данные «одной грани» каждой сущности, и это логично, привычно и оправданно. А вот идея хранить в одной таблице разные по сути данные звучит провокационно, однако статья вполне обосновывает такой подход.

В конце статьи дан пример, как шесть таблиц реляционной СУБД упихали в одну NoSQL таблицу, обеспечив доступ к разным «срезам» с помощью глобального индекса (Global Secondary Index). И это звучит обоснованно и модно 😉

Почитать про основные аспекты NoSQL и конкретно DynamoDB можно в первой части статьи: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-c31d65d2e3de

Advanced Design Patterns for Amazon DynamoDB

1.11K views05:23

https://coiled.io/blog/what-is-dask/

Dask is a free and open-source library for parallel computing in Python. Dask helps you scale your data science and machine learning workflows. Dask makes it easy to work with Numpy, pandas, and Scikit-Learn, but that's just the beginning.

901 views04:50

Forwarded from Mikhail Kumachev

Друзья!

В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.

Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн

В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.

2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark.

Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/

Всех с Наступающим Новым Годом! Ждем вас на митапе!

1.07K views03:19

В конце ноября Datafold проводили второй митап, посвященный теме качества данных. Ознакомиться с докладами и панельной дискуссией можно тут: https://www.datafold.com/blog/data-quality-meetup-2/

Data Quality Meetup #2 Digest

Data Quality Meetup brings together professionals from data-driven teams and the community to share the best practices around data quality & governance.

1.12K views05:54

Вышел мажорный релиз Apache Airflow 2.0: https://airflow.apache.org/blog/airflow-two-point-oh-is-here/

Apache Airflow 2.0 is here!

We're proud to announce that Apache Airflow 2.0.0 has been released.

1.25K views17:59

https://medium.com/data-science-and-machine-learning-at-pluralsight/streaming-analytics-with-kafka-and-ksqldb-f0d7f56a8a

Streaming analytics with Kafka and ksqlDB

This work and post is done in close collaboration with Maha Arunachalam and Theo Cowan (devops engineers); Connor McKay (machine learning…

1.47K views09:35

Минутка саморекламы 😎
А вы знали, что в телеграм-боте @RemoteListBot можно подписаться на вакансии категории DataOps и получать в том числе предложения из сферы Data Engineering 👨‍🔧

1.43K viewsedited 06:57

Серия вебинаро про TimescaleDB: https://www.youtube.com/playlist?list=PLsceB9ac9MHT3D_2voE2DUUlHgG3yEUEw

Timescale Webinars - YouTube

1.21K views05:56

Нашел библиотеку для построения ETL на базе Celery: https://ovh.github.io/celery-director/

1.26K views17:28

А вы использовали AWS Lambda для стриминговой аналитики?
https://aws.amazon.com/ru/blogs/compute/using-aws-lambda-for-streaming-analytics/

Using AWS Lambda for streaming analytics | Amazon Web Services

With tumbling windows, you can calculate aggregate values in near-real time for Kinesis data streams and DynamoDB streams. Unlike existing stream-based invocations, state can be passed forward by Lambda invocations. This makes it easier to calculate sums…

1.11K views05:12

Интересный кейс построения lake house на базе Redshift, AWS Lambda и Athena: https://aurochssolutions.com/blog/build-a-real-time-data-lake-with-aws-lambda-redshift-athena/

Aurochs Solutions

Build a real-time data lake with AWS Lambda, Redshift and Athena - Aurochs Solutions

As data sources grow even early-stage, pre-commercialization healthcare organizations need to adopt data stores, lakes and warehouses to enable analysis of prenoscription.

998 views12:52

https://www.sqlshack.com/sql-database-on-kubernetes-considerations-and-best-practices/

SQL Shack - articles about database auditing, server performance, data recovery, and more

SQL Database on Kubernetes: Considerations and Best Practices

Learn what is Kubernetes, why you should run an SQL database on Kubernetes, and how to deploy MySQL on Kubernetes.

1.04K views11:45

Вчера на главной странице HackerNews появился пост: We Don't Need Data Scientists, We Need Data Engineers
Ссылка на статью: https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/

Автор провёл небольшой анализ открытых позиций в компаниях из пула Y Combinator, и сделал выводы, что спрос на дата инженеров на 70% выше чем на data science специалистов. Занятное чтиво 💪

We Don't Need Data Scientists, We Need Data Engineers

After analyzing 1000+ Y-Combinator Companies, I discover there's a huge market need for more engineering-focused data practitioner roles.

1.28K views04:44

А вы слышали термин Analytics Engineer?

Anonymous Poll

Нет, а кто это?

227 voters897 views06:44

Большая просьба 🆘
Поделитесь, пожалуйста, ресурсами (сайты, блоги, каналы), которые читаете, чтобы быть в курсе последних новшеств в Data Science, Analytics, Engineering.

902 views12:32

Нашел в сети как два человека обсуждают мою статью про дата инженера на английском: https://youtu.be/UvmDBXNDeVE
Полезно послушать с точки зрения фидбека и дополнений к озвученному мною списку навыков, которыми должен обладать современный дата инженер.

Where Data Engineering Is Going In 2021 - Monday Morning Data Chat (1/18/2021)

This week, we discuss two blog posts on becoming a data engineer and the demand for data engineers at tech startups. We also discuss where we think data engineering is going in 2021.

Blog posts we discuss.
How to become a data engineer: https://khashtamov.com/en/how…

961 views04:18

https://www.dataliftoff.com/data-warehouses-are-the-past-present-and-future/

Data Warehouses are the Past, Present, and Future

The death of the data warehouse, long prophesied, seems to always been on the horizon yet never realized. Much like cold fusion power and fully autonomous vehicles, with every advance towards a new…

904 views04:33

Смотрите какой апдейт у Dagster подкатил: https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory

- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine

Здоровая конкуренция среди workflow менеджеров прям радует 💪

Dagster 0.10.0: The Edge of Glory | Dagster Blog

In 0.10.0, we introduce unique event-based scheduling capabilities, hardened deployments on Kubernetes, and new primitives for persistence.

1.27K views08:15