NEW BOT Телеграм, страница

Дайджест по DataEng: https://dataengineeringweekly.substack.com/

Data Engineering Weekly Newsletter. Click to read Data Engineering Weekly, by Ananth Packkildurai, a Substack publication with tens of thousands of readers.

827 views02:52

DataEng

Про ksqlDB от инженера из Confluent: https://www.youtube.com/watch?v=KUQuegJ4do8

YouTube

ksqlDB: A Stream-Relational Database System (Matthias J. Sax, Confluent)

CMU Database Group - Quarantine Tech Talks (2020)
Speaker: Matthias J. Sax (Confluent)
ksqlDB: A Stream-Relational Database System

November 23, 2020
https://db.cs.cmu.edu/seminar2020/#db28

Sponsored by the Steven Moy Foundation for Keeping it Real™
htt…

902 views11:50

DataEng

В AWS S3 наконец пришла строгая консистентность при чтение объектов после их записи, бесплатно: https://aws.amazon.com/ru/s3/consistency/
Помнится мне как это доставляло неудобства при реализации пайплайнов, когда следующий шаг падал из-за того, что невозможно было прочитать только что трансформированный объект.

Amazon

Amazon S3 | Strong Consistency | Amazon Web Services

Amazon S3 delivers strong read-after-write consistency automatically for all applications for any storage request, without changes to performance or availability, without sacrificing regional isolation for applications, and at no additional cost.

788 views08:38

DataEng

Forwarded from Vasily Pantyukhin

Есть идея неформального семинара и общения на тему архитектуры и оптимизации S3. Приглашаются все желающие. :)

758 views10:19

DataEng

Forwarded from Vasily Pantyukhin

Тема: S3 Dive deep
Когда: Понедельник 7 декабря 17:00-18:00 MSK
Где: https://chime.aws/5886310272
Как присоединиться:
Download Amazon Chime at https://aws.amazon.com/chime/download
For information about creating an Amazon Chime account, see https://aws.amazon.com/chime/getting-started

Meeting ID: 5886 31 0272
https://chime.aws/5886310272

Call in using your phone:
Russia Toll-Free: +7 800 333-23-25
Meeting ID: 5886 31 0272
One-click Mobile Dial-in (Russia Toll-Free): +7 800 333-23-25,,,5886310272#
Russia: +7 499 951-25-91
International: https://chime.aws/dialinnumbers/

856 views10:19

DataEng

Forwarded from Smart Data

Всем привет!

Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)

Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.

Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.

Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)

И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)

P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.

www.promodo.ua

Digital агентство Promodo: Онлайн-маркетинг повного циклу

Надійний партнер з діджитал-маркетингу. Нам довіряють свій розвиток в онлайн сотні українських та світових компаній, серед яких Rozetka, monobank, Glovo

868 views17:17

DataEng

https://blog.getdbt.com/future-of-the-modern-data-stack/

dbt Labs

The Modern Data Stack: Past, Present, and Future | dbt Labs

My thoughts on where our space has been and where it might be going.

2.05K views12:11

DataEng

Forwarded from How to DWH with Python

Рекомендую к прочтению тем, кто пробовал NoSQL: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-354f97c96c2 — эта статья буквально расширила границы моего сознания!

Здесь рассказывается про то, как проектировать таблицы в NoSQL БД на примере (и с большой привязкой к) AWS DynamoDB.

Расширение сознания вызвано тем, что основной рассмотренный прием — это хранение в одной таблице совершенно разных данных, относящихся к одном объекту, чтобы ускорить к ним доступ. В реляционных СУБД в одной таблице лежат данные «одной грани» каждой сущности, и это логично, привычно и оправданно. А вот идея хранить в одной таблице разные по сути данные звучит провокационно, однако статья вполне обосновывает такой подход.

В конце статьи дан пример, как шесть таблиц реляционной СУБД упихали в одну NoSQL таблицу, обеспечив доступ к разным «срезам» с помощью глобального индекса (Global Secondary Index). И это звучит обоснованно и модно 😉

Почитать про основные аспекты NoSQL и конкретно DynamoDB можно в первой части статьи: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-c31d65d2e3de

Medium

Advanced Design Patterns for Amazon DynamoDB

Part two

1.11K views05:23

DataEng

https://coiled.io/blog/what-is-dask/

www.coiled.io

What is Dask?

Dask is a free and open-source library for parallel computing in Python. Dask helps you scale your data science and machine learning workflows. Dask makes it easy to work with Numpy, pandas, and Scikit-Learn, but that's just the beginning.

901 views04:50

DataEng

Forwarded from Mikhail Kumachev

Друзья!

В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.

Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн

В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.

2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark.

Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/

Всех с Наступающим Новым Годом! Ждем вас на митапе!

1.07K views03:19

DataEng

В конце ноября Datafold проводили второй митап, посвященный теме качества данных. Ознакомиться с докладами и панельной дискуссией можно тут: https://www.datafold.com/blog/data-quality-meetup-2/

Datafold

Data Quality Meetup #2 Digest

Data Quality Meetup brings together professionals from data-driven teams and the community to share the best practices around data quality & governance.

1.12K views05:54

DataEng

Вышел мажорный релиз Apache Airflow 2.0: https://airflow.apache.org/blog/airflow-two-point-oh-is-here/

Apache Airflow

Apache Airflow 2.0 is here!

We're proud to announce that Apache Airflow 2.0.0 has been released.

1.25K views17:59

DataEng

https://medium.com/data-science-and-machine-learning-at-pluralsight/streaming-analytics-with-kafka-and-ksqldb-f0d7f56a8a

Medium

Streaming analytics with Kafka and ksqlDB

This work and post is done in close collaboration with Maha Arunachalam and Theo Cowan (devops engineers); Connor McKay (machine learning…

1.47K views09:35

DataEng

Минутка саморекламы 😎
А вы знали, что в телеграм-боте @RemoteListBot можно подписаться на вакансии категории DataOps и получать в том числе предложения из сферы Data Engineering 👨‍🔧

1.43K viewsedited 06:57

DataEng

Серия вебинаро про TimescaleDB: https://www.youtube.com/playlist?list=PLsceB9ac9MHT3D_2voE2DUUlHgG3yEUEw

YouTube

Timescale Webinars - YouTube

1.21K views05:56

DataEng

Нашел библиотеку для построения ETL на базе Celery: https://ovh.github.io/celery-director/

1.26K views17:28

DataEng

А вы использовали AWS Lambda для стриминговой аналитики?
https://aws.amazon.com/ru/blogs/compute/using-aws-lambda-for-streaming-analytics/

Amazon

Using AWS Lambda for streaming analytics | Amazon Web Services

With tumbling windows, you can calculate aggregate values in near-real time for Kinesis data streams and DynamoDB streams. Unlike existing stream-based invocations, state can be passed forward by Lambda invocations. This makes it easier to calculate sums…

1.11K views05:12

DataEng

Интересный кейс построения lake house на базе Redshift, AWS Lambda и Athena: https://aurochssolutions.com/blog/build-a-real-time-data-lake-with-aws-lambda-redshift-athena/

Aurochs Solutions

Build a real-time data lake with AWS Lambda, Redshift and Athena - Aurochs Solutions

As data sources grow even early-stage, pre-commercialization healthcare organizations need to adopt data stores, lakes and warehouses to enable analysis of prenoscription.

998 views12:52

DataEng

https://www.sqlshack.com/sql-database-on-kubernetes-considerations-and-best-practices/

SQL Shack - articles about database auditing, server performance, data recovery, and more

SQL Database on Kubernetes: Considerations and Best Practices

Learn what is Kubernetes, why you should run an SQL database on Kubernetes, and how to deploy MySQL on Kubernetes.

1.04K views11:45

DataEng

Вчера на главной странице HackerNews появился пост: We Don't Need Data Scientists, We Need Data Engineers
Ссылка на статью: https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/

Автор провёл небольшой анализ открытых позиций в компаниях из пула Y Combinator, и сделал выводы, что спрос на дата инженеров на 70% выше чем на data science специалистов. Занятное чтиво 💪

Mihaileric

We Don't Need Data Scientists, We Need Data Engineers

After analyzing 1000+ Y-Combinator Companies, I discover there's a huge market need for more engineering-focused data practitioner roles.

1.28K views04:44

DataEng

А вы слышали термин Analytics Engineer?

Anonymous Poll

227 voters897 views06:44

About

Blog

Apps

Platform