Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Excel Function For Financial Modeling

Excel is a major modeling tool for Financial Analyst and Financial Modeling.
This post reference can be gotten from Corporate Financial Institute.
Duration Function: is categorized under Financial Functions. it helps to calculate the duration of a se...

Read: https://designegycreatives.hashnode.dev/excel-function-for-financial-modeling
Как дата-сайентистам эффективно сотрудничать с дата-инженерами

Junkyard Blues by Papaya-Style

Иногда дата-сайентистам и дата-инженерам сложно понять друг друга. И тогда первые получают не те данные, а вторые занимаются непонятными или даже невыполнимыми задачами.

Команда разработки облачной платформы VK Cloud Solution перевела статью бывшего дата-инженера, которая стала дата-сайентистом. Она рассказывает, как этим специалистам прийти к взаимопониманию и эффективнее работать над общими задачами.


Читать: https://habr.com/ru/post/659139/
Как посчитать ROMI и оптимизировать бюджет, если сквозная аналитика не работает?

Marketing Mix Modeling - это метод, который позволяет проанализировать вашу маркетинговую стратегию при использовании вами нескольких рекламных каналов. Цель МММ - количественно оценить влияние отдельных рекламных каналов на продажи и составить модель оптимального бюджета на каждый канал для максимизации ROI.

При этом помимо данных об используемых рекламных каналах и проведенных маркетинговых кампаниях также учитываются такие факторы как сезонность, макроэкономические показатели, цена продаж и т д - всё, что влияет на продажи без учета маркетинга. При анализе моделируется отложенный эффект рекламных кампаний и снижение этого эффекта во времени.


Читать: https://habr.com/ru/post/660701/
Query your data streams interactively using Kinesis Data Analytics Studio and Python

Read: https://aws.amazon.com/blogs/big-data/query-your-data-streams-interactively-using-kinesis-data-analytics-studio-and-python/
Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни

Итак, Вы работаете с Большими Данными:

Обработка этих данных требует значительного времени (и затрат 💰)

Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты

Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты


Читать: https://habr.com/ru/post/660677/
Совместные конфиденциальные вычисления на пальцах

В этой небольшой заметке я хочу затронуть тему совместных конфиденциальных вычислений и попробовать кратко изложить суть этих подходов и развеять несколько неоднозначностей, сложившихся в трактовке этого термина в современном информационном поле. Надеюсь получиться🙂

Начну немного издалека, я в целом интересуюсь темой распределенной обработки данных с сохранением конфиденциальности, в частности активно смотрю на развитие такого направления, как Federated Learning. Часто попадаются статьи и материалы на эту тему, в которых наблюдаю некоторую терминологическую путаницу, тк термины Federated Learning и Confidential Computing часто используют как синонимы, но это не совсем так. Может быть я не совсем прав, но набор методов, для "обучения" (learning) и для "вычислений" вообще-то отличаются и не являются подмножеством друг друга. Поэтому в первую очередь хочу высказаться про мое понимание их фундаментальной разницы:


Читать: https://habr.com/ru/post/660813/
👎1
The Data Founder Story: I Founded Spectacles With Someone I'd Only Met Once

Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-i-founded
Build a data pipeline to automatically discover and mask PII data with AWS Glue DataBrew

Read: https://aws.amazon.com/blogs/big-data/build-a-data-pipeline-to-automatically-discover-and-mask-pii-data-with-aws-glue-databrew/
Best practices to optimize data access performance from Amazon EMR and AWS Glue to Amazon S3

Read: https://aws.amazon.com/blogs/big-data/best-practices-to-optimize-data-access-performance-from-amazon-emr-and-aws-glue-to-amazon-s3/
ИИ для прогнозирования тренда стоимости Bitcoin на данных Twitter. ч.1

ИИ для предсказания тренда цены BTC на данных Twitter


Читать: https://habr.com/ru/post/661141/
👍2
BI заместитель: Как сейчас быстро и недорого зарезервировать BI

Статья о том, как в нынешних условиях снизить критичность влияния санкций и прочих катаклизмов на пользователей данных в компании.
, про способ резервирования BI

Читать: https://habr.com/ru/post/661417/
Write prepared data directly into JDBC-supported destinations using AWS Glue DataBrew

Read: https://aws.amazon.com/blogs/big-data/write-prepared-data-directly-into-jdbc-supported-destinations-using-aws-glue-databrew/
Датацентрический и моделецентрический подходы в машинном обучении

Код и данные — фундамент ИИ-системы. Оба эти компонента играют важную роль в разработке надёжной модели, но на каком из них следует сосредоточиться больше? В этой статье мы сравним методики, ставящие в центр данные, либо модель, и посмотрим, какая из них лучше; также мы поговорим о том, как внедрять датацентрическую инфраструктуру.


Читать: https://habr.com/ru/post/661457/