Как дата-сайентистам эффективно сотрудничать с дата-инженерами
Junkyard Blues by Papaya-Style
Иногда дата-сайентистам и дата-инженерам сложно понять друг друга. И тогда первые получают не те данные, а вторые занимаются непонятными или даже невыполнимыми задачами.
Команда разработки облачной платформы VK Cloud Solution перевела статью бывшего дата-инженера, которая стала дата-сайентистом. Она рассказывает, как этим специалистам прийти к взаимопониманию и эффективнее работать над общими задачами.
Читать: https://habr.com/ru/post/659139/
Junkyard Blues by Papaya-Style
Иногда дата-сайентистам и дата-инженерам сложно понять друг друга. И тогда первые получают не те данные, а вторые занимаются непонятными или даже невыполнимыми задачами.
Команда разработки облачной платформы VK Cloud Solution перевела статью бывшего дата-инженера, которая стала дата-сайентистом. Она рассказывает, как этим специалистам прийти к взаимопониманию и эффективнее работать над общими задачами.
Читать: https://habr.com/ru/post/659139/
Как посчитать ROMI и оптимизировать бюджет, если сквозная аналитика не работает?
Marketing Mix Modeling - это метод, который позволяет проанализировать вашу маркетинговую стратегию при использовании вами нескольких рекламных каналов. Цель МММ - количественно оценить влияние отдельных рекламных каналов на продажи и составить модель оптимального бюджета на каждый канал для максимизации ROI.
При этом помимо данных об используемых рекламных каналах и проведенных маркетинговых кампаниях также учитываются такие факторы как сезонность, макроэкономические показатели, цена продаж и т д - всё, что влияет на продажи без учета маркетинга. При анализе моделируется отложенный эффект рекламных кампаний и снижение этого эффекта во времени.
Читать: https://habr.com/ru/post/660701/
Marketing Mix Modeling - это метод, который позволяет проанализировать вашу маркетинговую стратегию при использовании вами нескольких рекламных каналов. Цель МММ - количественно оценить влияние отдельных рекламных каналов на продажи и составить модель оптимального бюджета на каждый канал для максимизации ROI.
При этом помимо данных об используемых рекламных каналах и проведенных маркетинговых кампаниях также учитываются такие факторы как сезонность, макроэкономические показатели, цена продаж и т д - всё, что влияет на продажи без учета маркетинга. При анализе моделируется отложенный эффект рекламных кампаний и снижение этого эффекта во времени.
Читать: https://habr.com/ru/post/660701/
Query your data streams interactively using Kinesis Data Analytics Studio and Python
Read: https://aws.amazon.com/blogs/big-data/query-your-data-streams-interactively-using-kinesis-data-analytics-studio-and-python/
Read: https://aws.amazon.com/blogs/big-data/query-your-data-streams-interactively-using-kinesis-data-analytics-studio-and-python/
Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни
Итак, Вы работаете с Большими Данными:
Обработка этих данных требует значительного времени (и затрат 💰)
Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты
Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты
Читать: https://habr.com/ru/post/660677/
Итак, Вы работаете с Большими Данными:
Обработка этих данных требует значительного времени (и затрат 💰)
Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты
Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты
Читать: https://habr.com/ru/post/660677/
Совместные конфиденциальные вычисления на пальцах
В этой небольшой заметке я хочу затронуть тему совместных конфиденциальных вычислений и попробовать кратко изложить суть этих подходов и развеять несколько неоднозначностей, сложившихся в трактовке этого термина в современном информационном поле. Надеюсь получиться🙂
Начну немного издалека, я в целом интересуюсь темой распределенной обработки данных с сохранением конфиденциальности, в частности активно смотрю на развитие такого направления, как Federated Learning. Часто попадаются статьи и материалы на эту тему, в которых наблюдаю некоторую терминологическую путаницу, тк термины Federated Learning и Confidential Computing часто используют как синонимы, но это не совсем так. Может быть я не совсем прав, но набор методов, для "обучения" (learning) и для "вычислений" вообще-то отличаются и не являются подмножеством друг друга. Поэтому в первую очередь хочу высказаться про мое понимание их фундаментальной разницы:
Читать: https://habr.com/ru/post/660813/
В этой небольшой заметке я хочу затронуть тему совместных конфиденциальных вычислений и попробовать кратко изложить суть этих подходов и развеять несколько неоднозначностей, сложившихся в трактовке этого термина в современном информационном поле. Надеюсь получиться🙂
Начну немного издалека, я в целом интересуюсь темой распределенной обработки данных с сохранением конфиденциальности, в частности активно смотрю на развитие такого направления, как Federated Learning. Часто попадаются статьи и материалы на эту тему, в которых наблюдаю некоторую терминологическую путаницу, тк термины Federated Learning и Confidential Computing часто используют как синонимы, но это не совсем так. Может быть я не совсем прав, но набор методов, для "обучения" (learning) и для "вычислений" вообще-то отличаются и не являются подмножеством друг друга. Поэтому в первую очередь хочу высказаться про мое понимание их фундаментальной разницы:
Читать: https://habr.com/ru/post/660813/
👎1
The Data Founder Story: I Founded Spectacles With Someone I'd Only Met Once
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-i-founded
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-i-founded
Build a data pipeline to automatically discover and mask PII data with AWS Glue DataBrew
Read: https://aws.amazon.com/blogs/big-data/build-a-data-pipeline-to-automatically-discover-and-mask-pii-data-with-aws-glue-databrew/
Read: https://aws.amazon.com/blogs/big-data/build-a-data-pipeline-to-automatically-discover-and-mask-pii-data-with-aws-glue-databrew/
Best practices to optimize data access performance from Amazon EMR and AWS Glue to Amazon S3
Read: https://aws.amazon.com/blogs/big-data/best-practices-to-optimize-data-access-performance-from-amazon-emr-and-aws-glue-to-amazon-s3/
Read: https://aws.amazon.com/blogs/big-data/best-practices-to-optimize-data-access-performance-from-amazon-emr-and-aws-glue-to-amazon-s3/
Develop and test AWS Glue version 3.0 jobs locally using a Docker container
Read: https://aws.amazon.com/blogs/big-data/develop-and-test-aws-glue-version-3-0-jobs-locally-using-a-docker-container/
Read: https://aws.amazon.com/blogs/big-data/develop-and-test-aws-glue-version-3-0-jobs-locally-using-a-docker-container/
ИИ для прогнозирования тренда стоимости Bitcoin на данных Twitter. ч.1
ИИ для предсказания тренда цены BTC на данных Twitter
Читать: https://habr.com/ru/post/661141/
ИИ для предсказания тренда цены BTC на данных Twitter
Читать: https://habr.com/ru/post/661141/
👍2
12 актуальных вакансий для аналитиков
— Младший инженер-аналитик SOC
— Junior Data Аналитик
— Системный аналитик
— Продуктовый аналитик
— Аналитик
— Системный аналитик
— Продуктовый аналитик
— Middle Бизнес Аналитик
— Ведущий системный аналитик
— Ведущий аналитик
— Старший аналитик данных
— Старший системный аналитик
#вакансии #работа
— Младший инженер-аналитик SOC
— Junior Data Аналитик
— Системный аналитик
— Продуктовый аналитик
— Аналитик
— Системный аналитик
— Продуктовый аналитик
— Middle Бизнес Аналитик
— Ведущий системный аналитик
— Ведущий аналитик
— Старший аналитик данных
— Старший системный аналитик
#вакансии #работа
BI заместитель: Как сейчас быстро и недорого зарезервировать BI
Статья о том, как в нынешних условиях снизить критичность влияния санкций и прочих катаклизмов на пользователей данных в компании.
, про способ резервирования BI
Читать: https://habr.com/ru/post/661417/
Статья о том, как в нынешних условиях снизить критичность влияния санкций и прочих катаклизмов на пользователей данных в компании.
, про способ резервирования BI
Читать: https://habr.com/ru/post/661417/
Write prepared data directly into JDBC-supported destinations using AWS Glue DataBrew
Read: https://aws.amazon.com/blogs/big-data/write-prepared-data-directly-into-jdbc-supported-destinations-using-aws-glue-databrew/
Read: https://aws.amazon.com/blogs/big-data/write-prepared-data-directly-into-jdbc-supported-destinations-using-aws-glue-databrew/
Датацентрический и моделецентрический подходы в машинном обучении
Код и данные — фундамент ИИ-системы. Оба эти компонента играют важную роль в разработке надёжной модели, но на каком из них следует сосредоточиться больше? В этой статье мы сравним методики, ставящие в центр данные, либо модель, и посмотрим, какая из них лучше; также мы поговорим о том, как внедрять датацентрическую инфраструктуру.
Читать: https://habr.com/ru/post/661457/
Код и данные — фундамент ИИ-системы. Оба эти компонента играют важную роль в разработке надёжной модели, но на каком из них следует сосредоточиться больше? В этой статье мы сравним методики, ставящие в центр данные, либо модель, и посмотрим, какая из них лучше; также мы поговорим о том, как внедрять датацентрическую инфраструктуру.
Читать: https://habr.com/ru/post/661457/
What is the difference between a data lake and a data warehouse?
Read: https://www.startdataengineering.com/post/data-lake-warehouse-diff/
Read: https://www.startdataengineering.com/post/data-lake-warehouse-diff/
Share data securely across Regions using Amazon Redshift data sharing
Read: https://aws.amazon.com/blogs/big-data/share-data-securely-across-regions-using-amazon-redshift-data-sharing/
Read: https://aws.amazon.com/blogs/big-data/share-data-securely-across-regions-using-amazon-redshift-data-sharing/
Automate notifications on Slack for Amazon Redshift query monitoring rule violations
Read: https://aws.amazon.com/blogs/big-data/automate-notifications-on-slack-for-amazon-redshift-query-monitoring-rule-violation/
Read: https://aws.amazon.com/blogs/big-data/automate-notifications-on-slack-for-amazon-redshift-query-monitoring-rule-violation/
Amazon Redshift continues its price-performance leadership
Read: https://aws.amazon.com/blogs/big-data/amazon-redshift-continues-its-price-performance-leadership/
Read: https://aws.amazon.com/blogs/big-data/amazon-redshift-continues-its-price-performance-leadership/
Четыре хитрости в работе с пайплайнами данных, о которых знают не все
Dust-n-Rust by Spiritofdarkness
Команда разработки Cloud Big Data от VK Cloud Solution перевела статью с советами, которые касаются общих понятий работы с пайплайнами. Неважно, какую систему управления рабочими процессами вы используете, эти идеи можно применять везде. Сам автор пользуется Apache Airflow и приводит примеры кода на ее основе.
Эта статья будет полезна не только дата-инженерам, но и дата-сайентистам, так как хороший дата-сайентист тоже понимает принципы работы пайплайнов данных.
Читать: https://habr.com/ru/post/659389/
Dust-n-Rust by Spiritofdarkness
Команда разработки Cloud Big Data от VK Cloud Solution перевела статью с советами, которые касаются общих понятий работы с пайплайнами. Неважно, какую систему управления рабочими процессами вы используете, эти идеи можно применять везде. Сам автор пользуется Apache Airflow и приводит примеры кода на ее основе.
Эта статья будет полезна не только дата-инженерам, но и дата-сайентистам, так как хороший дата-сайентист тоже понимает принципы работы пайплайнов данных.
Читать: https://habr.com/ru/post/659389/