Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как врать с помощью статистики

"Существуют три вида лжи:

- ложь

- наглая ложь

- пропаганда статистика

- источник цитаты в интернете"

Марк Твен (ну или не он)

В данной статье на рассмотрим, как можно быстро доказать следующие утверждения, смотря на один и тот же источник данных:

- Лошади бегают по часовой стрелке быстрее чем по часовой

- Лошади бегают против часовой стрелки быстрее чем по часовой

- Лошади бегают на более дальние дистанции быстрее (с большей скоростью), чем на короткие

- Лошади бегают на более дальние дистанции медленнее (с меньшей скоростью), чем на короткие

На картинке изображена лошадь на плато (что очень важно для текста статьи)
Read more

Читать: https://habr.com/ru/post/660269/
Могут ли российские дашборды стать альтернативой Qlik/Tableau/PowerBI?

Привет, Хабр! Меня зовут Максим Губин, и я работаю в компании Visiology. Недавно к нам поступил интересный запрос, и мне с коллегами пришлось сделать демонстрационный дашборд для российского сообщества BI-специалистов. Интересно, что визуализация была сделана не под конкретного заказчика, но зато она позволила специалистам оценить, смогут ли они работать с другой BI-системой, если нужно будет сменить ПО.

Да, многие компании сегодня рассматривают альтернативные BI-системы, но специалисты продолжают сомневаться в удобстве и функциональности российских продуктов и open-source решений. В этом посте я расскажу о демонстрации возможностей отечественных платформ для сообщества российских BI-специалистов (Russian BI Chat), а также покажу, как выглядит интерактивный дашборд от Visiology. Этот пост будет интересен тем, кто рассматривает различные варианты внедрения BI-инструментов, включая российские и open-source системы.


Читать: https://habr.com/ru/post/660321/
Eight Trends Predicted To Define Data Analytics In 2022

According to one McKinsey report focused on the healthcare industry, “data analytics and information services will have the fastest growth rate at 16% to 18% over the next five years, while core administrative services are unlikely to see much growth...

Read: https://kumuda.hashnode.dev/eight-trends-predicted-to-define-data-analytics-in-2022
Машинное обучение на службе урбанистики

Как театр начинается с вешалки, так анализ начинается с данных. Во многих науках существуют уже готовые датасеты, однако урбанистике с этим повезло меньше остальных. Современный человек утолил свой голод, излечился от болезней, познал тайны атомного ядра и вселенной - пора наверно и обустроить городское пространство вокруг себя? Но для начала его следует изучить.


Читать: https://habr.com/ru/post/660527/
Excel Function For Financial Modeling

Excel is a major modeling tool for Financial Analyst and Financial Modeling.
This post reference can be gotten from Corporate Financial Institute.
Duration Function: is categorized under Financial Functions. it helps to calculate the duration of a se...

Read: https://designegycreatives.hashnode.dev/excel-function-for-financial-modeling
Как дата-сайентистам эффективно сотрудничать с дата-инженерами

Junkyard Blues by Papaya-Style

Иногда дата-сайентистам и дата-инженерам сложно понять друг друга. И тогда первые получают не те данные, а вторые занимаются непонятными или даже невыполнимыми задачами.

Команда разработки облачной платформы VK Cloud Solution перевела статью бывшего дата-инженера, которая стала дата-сайентистом. Она рассказывает, как этим специалистам прийти к взаимопониманию и эффективнее работать над общими задачами.


Читать: https://habr.com/ru/post/659139/
Как посчитать ROMI и оптимизировать бюджет, если сквозная аналитика не работает?

Marketing Mix Modeling - это метод, который позволяет проанализировать вашу маркетинговую стратегию при использовании вами нескольких рекламных каналов. Цель МММ - количественно оценить влияние отдельных рекламных каналов на продажи и составить модель оптимального бюджета на каждый канал для максимизации ROI.

При этом помимо данных об используемых рекламных каналах и проведенных маркетинговых кампаниях также учитываются такие факторы как сезонность, макроэкономические показатели, цена продаж и т д - всё, что влияет на продажи без учета маркетинга. При анализе моделируется отложенный эффект рекламных кампаний и снижение этого эффекта во времени.


Читать: https://habr.com/ru/post/660701/
Query your data streams interactively using Kinesis Data Analytics Studio and Python

Read: https://aws.amazon.com/blogs/big-data/query-your-data-streams-interactively-using-kinesis-data-analytics-studio-and-python/
Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни

Итак, Вы работаете с Большими Данными:

Обработка этих данных требует значительного времени (и затрат 💰)

Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты

Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты


Читать: https://habr.com/ru/post/660677/
Совместные конфиденциальные вычисления на пальцах

В этой небольшой заметке я хочу затронуть тему совместных конфиденциальных вычислений и попробовать кратко изложить суть этих подходов и развеять несколько неоднозначностей, сложившихся в трактовке этого термина в современном информационном поле. Надеюсь получиться🙂

Начну немного издалека, я в целом интересуюсь темой распределенной обработки данных с сохранением конфиденциальности, в частности активно смотрю на развитие такого направления, как Federated Learning. Часто попадаются статьи и материалы на эту тему, в которых наблюдаю некоторую терминологическую путаницу, тк термины Federated Learning и Confidential Computing часто используют как синонимы, но это не совсем так. Может быть я не совсем прав, но набор методов, для "обучения" (learning) и для "вычислений" вообще-то отличаются и не являются подмножеством друг друга. Поэтому в первую очередь хочу высказаться про мое понимание их фундаментальной разницы:


Читать: https://habr.com/ru/post/660813/
👎1
The Data Founder Story: I Founded Spectacles With Someone I'd Only Met Once

Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-i-founded
Build a data pipeline to automatically discover and mask PII data with AWS Glue DataBrew

Read: https://aws.amazon.com/blogs/big-data/build-a-data-pipeline-to-automatically-discover-and-mask-pii-data-with-aws-glue-databrew/
Best practices to optimize data access performance from Amazon EMR and AWS Glue to Amazon S3

Read: https://aws.amazon.com/blogs/big-data/best-practices-to-optimize-data-access-performance-from-amazon-emr-and-aws-glue-to-amazon-s3/
ИИ для прогнозирования тренда стоимости Bitcoin на данных Twitter. ч.1

ИИ для предсказания тренда цены BTC на данных Twitter


Читать: https://habr.com/ru/post/661141/
👍2