Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Архитектура реальной системы машинного обучения

Чтобы понимать, как работают системы машинного обучения, нужно знать, из каких компонентов они состоят и как они связаны друг с другом. Команда VK Cloud Solutions перевела статью об архитектуре систем машинного обучения, которые сейчас используют на практике.


Читать: https://habr.com/ru/post/673782/
Tableau vs FineBI. Часть III: администрирование и лицензирование

Сегодня посмотрим на два важных аспекта сравниваемых BI-систем: администрирование и лицензирование. И то, и другое не менее важно, чем собственно функционал и интеграционные возможности решений. Посмотрим, насколько значимы различия и не подведет ли нас китайская платформа.


Читать: https://habr.com/ru/post/675890/
Accelerate machine learning with AWS Data Exchange and Amazon Redshift ML

Read: https://aws.amazon.com/blogs/big-data/accelerate-machine-learning-with-aws-data-exchange-and-amazon-redshift-ml/
👍1
Что такое выпас данных и почему он необходим?

Когда речь идет об анализе данных, результаты хороши лишь настолько, насколько хороши данные. И даже если на вашей стороне миллионы значений данных, и вы вооружены искусственным интеллектом и машинным обучения, вы можете не использовать эти данные в полной мере (возможно, это сыграет даже во вред вашей организации).

Плохие данные приводят к принятию некачественных решений.

Поэтому вам необходимо очистить и отформатировать ваши данные – взять их под контроль, чтобы они были готовы к последующим процессам.

Вот тут-то и приходит на помощь выпас данных.


Читать: https://habr.com/ru/post/675796/
Тестирование конвейеров данных

Как Oracle Problem, граничные значения, закрытые экосистемы и сама цель тестов отличают задачу тестирования конвейеров данных от тестирования традиционного программного обеспечения.

Программное обеспечение просто перемещает данные внутри компьютеров. Конвейеры данных также просто перемещают данные внутри компьютеров. Итак, насколько тестирование конвейеров данных может отличаться от тестирования любой другой формы программного обеспечения? Разве все практики, подходы и накопленный опыт, полученные при тестировании традиционного программного обеспечения, не должны применяться и к конвейерам данных?

К сожалению, всё сложнее. Да, тестирование конвейеров данных и тестирование традиционного программного обеспечения частично пересекаются. Однако существуют уникальные характеристики и особенности разработки конвейеров, которые создают особые сложности при  тестировании, которых опытный инженер по качеству может не знать. Игнорирование этих особенностей и подход к конвейерам данных так, как будто они ничем не отличаются от любого другого типа программного обеспечения, приведет к разочаровывающим результатам. В этой статье я рассмотрю несколько наиболее интересных проблем и предложу альтернативные подходы, подходящие для конвейеров данных.

Хотя эта статья будет посвящена этим различиям, она не будет исчерпывающим руководством по тестированию конвейеров данных. Тестирование конвейеров данных — это широкая тема, которая не может быть полностью раскрыта в одном посте. Однако понимание этих проблем будет полезно всем, кто работает с конвейерами данных.


Читать: https://habr.com/ru/post/676170/
👍1
Ищем кротовые норы с помощью big data

Чтобы исправить кое-какие ошибки, человечество решило отправиться в прошлое. Для этого надо найти правильную кротовую нору — просторную, но не слишком гравитирующую и по приемлемой цене — чтобы забронировать телепортацию.

В космосе россыпи всяческих дыр и нор, по которым вдобавок катаются клубки перепутанных суперструн: вручную такое не проанализировать. Поэтому тут не обойтись без специалиста по большим данным.

Твоё резюме было таким убедительным, что эксперты из Академии больших данных MADE и VK Образования решили провести собеседование прямо на космическом шаттле. Ответь на вопросы, подтверди свою квалификацию и помоги капитану определить маршрут. Поехали!
Пройти тест

Читать: https://habr.com/ru/post/669062/
“Как заставить данные говорить”: практическое погружение в нюансы работы российских BI-платформ

Привет, Хабр! Сейчас многие сталкиваются с проблемой замены BI-платформы из-за выхода с рынка зарубежных вендоров — особенно популярного и многими любимого PowerBI. И поэтому наши коллеги снова подходят к вопросу замены западной BI-платформы на российскую, но совершенно с другой стороны. Сегодня речь пойдет об уникальном тренинге для аналитиков и менеджеров “Как заставить данные говорить?”, на котором участники будут САМИ сравнивать разные BI-продукты под руководством опытного эксперта Алексея Колоколова, попробуют поработать в разных системах, а также получат индивидуальные задания и длительную обратную связь после завершения курса. Для интересующихся подробная информация — под катом.
Узнать больше про тренинг

Читать: https://habr.com/ru/post/676300/
Use Amazon Athena parameterized queries to provide data as a service

Read: https://aws.amazon.com/blogs/big-data/use-amazon-athena-parameterized-queries-to-provide-data-as-a-service/
👍1
Oracle Analytics Best Practices: Reporting on Catalog Object ACLs

Learn how to use Catalog Manager to generate a report that show the Access Control Lists (ACLs) assigned to objects in the Oracle Analytics catalog.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-best-practices-reporting-on-catalog-acls
👍1
В Data Science не нужна математика (Почти)



Привет, чемпион!

Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит капнуть глубже, оказывается, что это не математика, а вышмат.

В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.

Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!


Читать: https://habr.com/ru/post/676114/
👍8👎1
5 Steps to land a high paying data engineering job

Read: https://www.startdataengineering.com/post/n-steps-high-pay-de-job/
👍1
Данные и где они обитают: 10 вопросов о ЦОДах, облаках и Big Data

Мы собрали 10 правдивых (и не очень) фактов и готовы проверить вашу эрудицию!

Читать: «Данные и где они обитают: 10 вопросов о ЦОДах, облаках и Big Data»
👍1
DASтаточное решение: прямое подключение дисков для разных задач

Проблема хранения данных, и без того создающая массу головной боли архитекторам ЦОДов и системным администраторам, стала еще актуальнее в свете последних событий. В частности, к нам все чаще стали обращаться с запросами на различные форматы организации дополнительных хранилищ и расширения емкостей. Поэтому сегодня Юрий Алексеев, наш presale-эксперт по серверным решениям и системам хранения данных, расскажет о возможностях расширения уже существующего дискового пространства сервера с помощью подключения дисковых полок через DAS (то есть о прямом подключении). В посте мы поговорим о том, что для этого нужно, как это работает, и обсудим, может ли DAS заменить сетевые хранилища или системы высокой емкости.


Читать: https://habr.com/ru/post/676528/
👍1
Achieve fine-grained data security with row-level access control in Amazon Redshift

Read: https://aws.amazon.com/blogs/big-data/achieve-fine-grained-data-security-with-row-level-access-control-in-amazon-redshift/
👍1
Optimize your Amazon Redshift query performance with automated materialized views

Read: https://aws.amazon.com/blogs/big-data/optimize-your-amazon-redshift-query-performance-with-automated-materialized-views/
👍1
Introducing Embedded Analytics Data Lab to accelerate integration of Amazon QuickSight analytics into applications

Read: https://aws.amazon.com/blogs/big-data/introducing-embedded-analytics-data-lab-to-accelerate-integration-of-amazon-quicksight-analytics-into-applications/
👍1
Converting Columns to DateTime in Oracle Analytics Cloud

Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog describes how to convert a column from an attribute field to a DateTime field.

Read: https://blogs.oracle.com/analytics/post/converting-text-columns-to-datetime-in-oac
👍1
В чем проблема с базами данных «ключ-значение» и как ее решают Wide-column-хранилища

Базы данных «ключ-значение» великолепные — ультрабыстрые, простые, почти линейно масштабируемые по количеству узлов. Но с ними все не так просто. Команда VK Cloud Solutions перевела статью о том, какие у таких баз есть проблемы и как их решить с помощью Wide-column-хранилищ.
Проблемы с базами данных «ключ-значение»

Основная концепция базы данных «ключ-значение» в том, что сами значения ее не беспокоят. Ее работа основана на некоторых допущениях, например, как у Redis, но на структуру данных она вообще не обращает внимания. Из-за этого могут возникнуть три проблемы.


Читать: https://habr.com/ru/post/675556/
👍1