NEW BOT Телеграм, страница

баян наверное, но мне нравиться карлсон

1.9K views07:00

Попалась вакансия Junior Data Engineer в Москве, в компанию Welltory и добавили 3 часа назад, хороший старт. https://vc.ru/s/welltory/98550-junior-data-engineer

1.11K views18:42

Инжиниринг Данных

Вчера я писал про Alexa. Последние несколько дней я засел с задачей, с одной стороны простой, но с другой стороны требующей множества итерация. Каждая итерация занимает почти 1 день. Из 3х Redshift clusters так как данные храняться по AWS Regions, нужно выгрузить данные и поместить в parquet формат в озеро данных и партиционировать. При этом нужно обогатитт данные метриками из других источников.

К сожалению у меня нет возможности использовать UNLOAD команду и приходится, использовать внутренний ELT инструемент, который может загружать данные в мой Redshift. Дальше, я могу обогатить мои данные и сделать UNLOAD to Parquet with PARTITIONS. Использовать Glue (сбор метаданных) и Athena как SQL. При этом мне нужно быть удалять устаревгие данные. Для Glue Crawler я использую BOTO3 (python) библиотека AWS и удаляю файлы, именно для этого мне нужны партиции, чтобы удалять старые данные.

Есть и альтернативный метод, я его пробовал, но отказался из-за отсутствия партиционирования. Через ELT сервис внутренный я могу сохранить на внутренний S3, дальше использовать EMR+Spark SQL (внутренний) и сделать тоже самое, но в конфигурации SQL нет возможности выгрузки в партиции и неудобно скрещивать со своими данными и еще не понятно, кто будет Glue запускать и удалить старые данные.

Так как мой Redshift очень маленький, то все очень медленно. В общем сейчас я воспользуюсь преимущетсвом облака, я просто увеличу размер клстера в 2 раза и перейду с DS (storage optimized) на DC (compute optimized), это займет прилично времени, но зато потом сохранит много времение, и добавит нам места и скорости.

1.13K views20:15

Инжиниринг Данных

977 views20:15

Инжиниринг Данных

На DC не перейду, там вместо 2TB HDD, 160GB SSD, 2,5 TB SSD будет в 10 раз дороже. Я тогда просто удвою количество нод. За 10 минут все сделал!

1.05K viewsedited 20:21

Инжиниринг Данных

Сегодня местное рождество! Всех с праздником! PS как хорошо когда есть талантливый график дизайнер, кстати не кому не нужен на проект?:)

1.04K views21:48

Инжиниринг Данных

Я не написал про еще один event, который мы сделали в Москве вместе с Moscow School of Business Analytics в офисе Крок. Митап был про AWS, Azure, проекты, которые я делал, эмиграция, зарплаты и тп, было классно Вот видео.

YouTube

Миграция аналитики предприятия в облако AWS

Это запись с митапа 20.11.2019. Дмитрий Аношин расказывает о переносе аналитики в облако и о своем опыте работы в Канаде и других странах.

Группа на Meetup.com:
https://www.meetup.com/ru-RU/Moscow-Business-Analysis-School/

1.13K viewsedited 06:54

Инжиниринг Данных

А сегодня ребята на Хабре написали интересную статью про выступление, спасибо им за труды!

Хабр

Pizza as a service: как Amazon на Redshift мигрировал

Привет, меня зовут Виктория, и я отвечаю за маркетинг в КРОК Облачные сервисы. Теперь мы регулярно проводим у себя облачные митапы. Я недавно попала на крутейш...

1.28K views06:55

Инжиниринг Данных

Если вы интересуетесь Google Cloud Platform или используете ее, то вот список все новшеств связанных с аналитикой в 2019.

Google Cloud Blog

Cloud data analytics year in review, 2019 | Google Cloud Blog

Cloud data analytics highlights from 2019 include data warehouse, streaming, and BI news. See how smart analytics at Google Cloud made strides.

1.15K views18:56

Инжиниринг Данных

1.43K views21:01

Инжиниринг Данных

Кейс американской финансовой организации - миграция на AWS. В 30 раз дешевле, и в 20 раз чаще деплоймент. Действительно, когда переносим все в облаком с on-premise, все становится быстрей и дешевле. Жалко таких кейсов не будет в России. Кстати кто-нибудь может поделиться информацией про Яндекс, меил или крок облако? Я бы тут расшарил.

1.06K viewsedited 23:56

Инжиниринг Данных

https://www.youtube.com/user/Bridgewater

1.07K viewsedited 00:07

Инжиниринг Данных

Data engineers vs. data scientists

The two positions are not interchangeable—and misperceptions of their roles can hurt teams and compromise productivity. https://www.oreilly.com/radar/data-engineers-vs-data-scientists/?utm_source=linkedin&utm_medium=matillion

1.07K viewsedited 00:17

Инжиниринг Данных

Вакансия попалась Engineer Hadoop в Краснодаре, там же тепло!

1.07K views00:42

Инжиниринг Данных

http://content.bigdatainstitute.io/books/data_engineering_teams/Data_Engineering_Teams.pdf

1.28K views00:54

Инжиниринг Данных

Годное описание вакансии, Москва

1.41K views04:59

Инжиниринг Данных

Новости в картинках https://informationisbeautiful.net/beautifulnews/