Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
#2 Нейронные сети для начинающих. NumPy. MatplotLib. Операции с изображениями в OpenCV

Это вторая статья из серии введения в «Нейронные сети для начинающих». Здесь и далее мы постараемся разобраться с таким понятием — как обработка графических данных, визуализация данных, а также на практике решим пару простых задач. Предыдущая статья — #1 Нейронные сети для начинающих. Решение задачи классификации Ирисов Фишера
Маленький совет из будущего: «В данной статье будут затронуты некоторые понятия, о которых я писал раньше, так что для полного понимания темы, советую прочитать и предыдущую статью»На самом деле, на хабре было множество публикаций по этой теме, но все они говорят о разных вещах. Давайте разберёмся и соберём всё в одну кучку, для полноценного понимания картины мира.


Читать: https://habr.com/ru/post/682462/
👍1
Третий онлайн-хакатон AgroCode Hack 2022 и AgroCode Data Science Cup с общим призовым фондом в 1 400 000 рублей

Участвовать могут фронтенд- и бэкенд-разработчики, Data Science, Machine Learning и Computer Vision-специалисты. Как в формате готовых команд, так и индивидуальных участников.

Вам предстоит решить одну из 3-х задач:
— Разработать алгоритм по определению границ кузова грузового транспорта при сборе урожая;
— Выявить закономерности заболеваний коров и определить самые неэффективные протоколы лечения;
— Создать сервис по поиску перспективных земель для выращивания винограда.

А участники DS-чемпионата смогут создать новую фичу для агромаркетплейса — реализовать на сайте «Своё Фермерство» поиск в каталоге по фотографиям запчастей.

Когда: 16-18 сентября

Узнавайте подробности и подавайте заявку: https://tprg.ru/53Mz

#ивент
Книга «Масштабируемые данные. Лучшие шаблоны высоконагруженных архитектур»

Хорошего дня, Хаброжители!

Методы управления данными и их интеграции быстро развиваются, хранение данных в одном месте становится все сложнее и сложнее масштабировать. Пора разобраться с тем, как перевести сложный и тесно переплетенный ландшафт данных вашего предприятия на более гибкую архитектуру, готовую к современным задачам.

Архитекторы и аналитики данных, специалисты по соблюдению требований и управлению узнают, как работать с масштабируемой архитектурой и внедрять ее без больших предварительных затрат. Питхейн Стренгхольт поделится с вами идеями, принципами, наблюдениями, передовым опытом и шаблонами.

Читать: https://habr.com/ru/post/682802/
👍3
Configure Hadoop YARN CapacityScheduler on Amazon EMR on Amazon EC2 for multi-tenant heterogeneous workloads

Read: https://aws.amazon.com/blogs/big-data/configure-hadoop-yarn-capacityscheduler-on-amazon-emr-on-amazon-ec2-for-multi-tenant-heterogeneous-workloads/
👍1
From centralized architecture to decentralized architecture: How data sharing fine-tunes Amazon Redshift workloads

Read: https://aws.amazon.com/blogs/big-data/from-centralized-architecture-to-decentralized-architecture-how-data-sharing-fine-tunes-amazon-redshift-workloads/
👍1
ИИдентификация: комбинированная методика повторного распознавания людей

Сотрудник отдела перспективных исследований российской компании «Криптонит» Никита Габдуллин предложил оригинальный подход к задаче повторной идентификации человека (person reidentification, re-id), комбинирующий аналитические методы с глубоким обучением (Deep Learning, DL). Он улучшает распознавание людей, которых она раньше не видела, то есть способствует обобщению  (generalization) модели на новые данные.


Читать: https://habr.com/ru/post/683016/
👍2
Migrate a large data warehouse from Greenplum to Amazon Redshift using AWS SCT – Part 1

Read: https://aws.amazon.com/blogs/big-data/part-1-migrate-a-large-data-warehouse-from-greenplum-to-amazon-redshift-using-aws-sct/
👍1
Migrate a large data warehouse from Greenplum to Amazon Redshift using AWS SCT – Part 2

Read: https://aws.amazon.com/blogs/big-data/part-2-migrate-a-large-data-warehouse-from-greenplum-to-amazon-redshift-using-aws-sct/
👍1
How Plugsurfing doubled performance and reduced cost by 70% with purpose-built databases and AWS Graviton

Read: https://aws.amazon.com/blogs/big-data/how-plugsurfing-doubled-performance-and-reduced-cost-by-70-with-purpose-built-databases-and-aws-graviton/
👍1
Process Apache Hudi, Delta Lake, Apache Iceberg datasets at scale, part 1: AWS Glue Studio Notebook

Read: https://aws.amazon.com/blogs/big-data/part-1-integrate-apache-hudi-delta-lake-apache-iceberg-datasets-at-scale-aws-glue-studio-notebook/
👍1
Enable federated governance using Trino and Apache Ranger on Amazon EMR

Read: https://aws.amazon.com/blogs/big-data/enable-federated-governance-using-trino-and-apache-ranger-on-amazon-emr/
👍1
Integrate Amazon Redshift row-level security with Amazon Redshift native IdP authentication

Read: https://aws.amazon.com/blogs/big-data/integrate-amazon-redshift-row-level-security-with-amazon-redshift-native-idp-authentication/
👍1
New row and column interactivity options for tables and pivot tables in Amazon QuickSight – Part 1

Read: https://aws.amazon.com/blogs/big-data/part-1-new-row-and-column-interactivity-options-for-tables-and-pivot-tables-in-amazon-quicksight/
👍1
Четыре функции для быстрой работы с Big Data

Я часто пользуюсь функциями для работы с большими данными. Они позволяют упросить и ускорить работу. Некоторые я нашел на просторах интернета, другие написал сам. Сегодня хочу поделиться четырьмя из них, может кому-то будет полезно.


Читать: https://habr.com/ru/post/682694/
1
Set up federated access to Amazon Athena for Microsoft AD FS users using AWS Lake Formation and a JDBC client

Read: https://aws.amazon.com/blogs/big-data/set-up-federated-access-to-amazon-athena-for-microsoft-ad-fs-users-using-aws-lake-formation-and-a-jdbc-client/
👍1
В чём различия между Data Science, машинным обучением, ИИ, глубоким обучением и Data Mining

Данные становятся движущей силой современного мира, поэтому почти каждый уже сталкивался с такими терминами, как data science, «машинное обучение», «искусственный интеллект», «глубокое обучение» и data mining. Но что же обозначают эти понятия? Какие различия и связи между ними существуют?

Все перечисленные выше термины, несмотря на их взаимосвязь, нельзя использовать в качестве синонимов. Эта статья поможет вам не только понять, какие исследования и опыт позволяют извлекать знания из данных, чтобы делать машины умнее, но и как конкретно это происходит.


Читать: https://habr.com/ru/post/682932/
👍1
Как работает видеоаналитика Билайн

Вся видеоаналитика строится на основе видеонаблюдения.

Видеонаблюдение - передача видеоизображения, а аналитика - его обработка и создание некоторых автоматизированных выводов по определенному алгоритму. Если раньше стояли большие аналоговые камеры, все записи с которых шли на сервер и на пульт условного охранника, который должен был следить за всем, то сейчас все идет к установке IP-камер и хранения всех записей в облаке, что мы и предлагаем.


Читать: https://habr.com/ru/post/683586/
Introducing Schemata - A Decentralized Schema Modeling Framework For Modern Data Stack

Read: https://www.dataengineeringweekly.com/p/introducing-schemata-a-decentralized
🔥1