Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Data Science и математика: самые важные разделы науки в освоении профессии

Data Science — быстро развивающееся направление, без которого сейчас невозможно обойтись ни в одной отрасли бизнеса или науки. Сырые и неструктурированные данные — кладезь информации. Но для того чтобы ее получить в нужном виде, требуется приложить немало усилий. А объемы таких сырых данных зашкаливают — каждый день, по статистике, человечество генерирует около 2,5 квинтиллиона байт.

Для обработки всего этого необходимы специалисты — чем больше, тем лучше. Основной инструмент в их руках — математика. Сегодня обсудим, какие разделы науки наиболее востребованы в профессии. Об этом мы поговорили с Кириллом Шмидтом, Product analyst Team Lead в корпорации Citrix (США) и автором профессии Data Analyst в Skillbox. Сразу стоит сказать, что статья рассчитана на новичков. Что же, приступим.


Читать: https://habr.com/ru/post/663508/
👍1
Secure data movement across Amazon S3 and Amazon Redshift using role chaining and ASSUMEROLE

Read: https://aws.amazon.com/blogs/big-data/secure-data-movement-across-amazon-s3-and-amazon-redshift-using-role-chaining-and-assumerole/
«Восход» на пути к «идеальному» обществу…

Всем пятничного и хорошего настроения накануне майских праздников!

Решил накропать философскую статью. Рассчитываю, что в связи с текущей обстановкой в мире, она особенно "зайдет".

Итак, давайте вообразим , что человечество созрело до понимания того, что текущая потребительская модель общества не совершенна и ее необходимо менять. Логично, что это должен быть некий антипод - допустим, назовем это "идеальная" модель общества. Но как нам совершить переход от потребительской модели к "идеальной"? А что, если создать некий "идеальный" программный комплекс, который поможет нам искоренить коррупцию, найти эффективные отрасли экономики, убрать неэффективные отрасли, придумать новые технологии? Так сказать, BigData на службе общества...


Читать: https://habr.com/ru/post/663706/
🤔1
Квантовый хэдж фонд: что интересного для IT специалиста?

Всем привет! Это моя первая статья на Хабр. Меня зовут Артем Сосульников и я директор по разработке ПО в Luxoft. В IT больше 15 лет: начинал как Java разработчик, прошел долгий путь от тим лида и руководителя проектов до директора по разработке ПО с сотней людей в подчинении. В связи с последними событиями в ближайшее время собираюсь с семьей переезжать на остров Пенанг в Малайзию и присоединиться к Люксофт.Малайзия. Там продолжу развитие своих проектов в квантовых хэдж фондах, куда мы теперь нанимаем людей в Сербии, Мексике и Малайзии. Буду писать статьи про жизнь в Малайзии и про работу в Люксофт.


Читать: https://habr.com/ru/post/663846/
👍1
Любопытные и неочевидные особенности при работе со Snowflake

Без долгих вступлений, сразу к делу.

Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например: CREATE DATABASE ""; CREATE SCHEMA ""."";

Это работает на момент публикации и потенциально создаёт массу проблем для внешних систем, которые не ожидают такого поворота. Также это обычно приводит в восторг админов DWH.

Более интересные и практичные советы под катом.


Читать: https://habr.com/ru/post/663922/
Access Apache Livy using a Network Load Balancer on a Kerberos-enabled Amazon EMR cluster

Read: https://aws.amazon.com/blogs/big-data/access-apache-livy-using-a-network-load-balancer-on-a-kerberos-enabled-amazon-emr-cluster/
Data-Science-процессы: Jupyter Notebook для продакшена

Jovian Blues by ShootingStarLogBook

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.


Читать: https://habr.com/ru/post/662734/
Use Amazon Kinesis Data Firehose to extract data insights with Coralogix

Read: https://aws.amazon.com/blogs/big-data/use-amazon-kinesis-data-firehose-to-extract-data-insights-with-coralogix/
👍1
«Божественная комедия», или Девять кругов прогнозирования промо спроса в «Магните»

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».


Читать: https://habr.com/ru/post/664358/
👍4
Single Sign-On Configuration for Oracle Analytics Server on OCI Marketplace with Oracle Identity Cloud Service using Apache HTTP Server and OpenIDC Module

Single Sign-On Configuration for Oracle Analytics Server on OCI Marketplace with Oracle Identity Cloud Service using Apache HTTP Server and OpenIDC Module

Read: https://blogs.oracle.com/analytics/post/oas-mp-sso-idcs-apache-openidc
Single Sign-On Configuration for Oracle Analytics Server on OCI Marketplace with Oracle Identity Cloud Service using Oracle HTTP Server and WebGate

Single Sign-On Configuration for Oracle Analytics Server on OCI Marketplace with Oracle Identity Cloud Service using Oracle HTTP Server and WebGate (OAuth/OpenID)

Read: https://blogs.oracle.com/analytics/post/oas-mp-sso-idcs-ohs-webgate
Использование Kudu для решения задач в реальном времени в окружении Hadoop

В предыдущей статье я поделился нашим опытом создания аналитического хранилища полного цикла на базе экосистемы Hadoop. Одним из тезисов той статьи стало утверждение о том, что аналитическую систему можно спроектировать, не прибегая к федерализации разных технологических платформ, предназначенных для решения локальных задач.

В этом материале я попробую подробнее раскрыть, как в нашей системе реализован подход обработки и загрузки данных в реальном времени с использованием технологии Kudu, при котором эти данные сразу доступны для анализа.


Читать: https://habr.com/ru/post/664698/
Securing Oracle Analytics Server on Oracle Cloud by Enforcing OCI WAF on Flexible Load Balancers

Securing Oracle Analytics Server on Oracle Cloud by Enforcing OCI WAF on Flexible Load Balancers

Read: https://blogs.oracle.com/analytics/post/oas-oci-waf
Настройка в OpenSearch аутентификации и авторизации пользователей через Active Directory по протоколу LDAP

В этой статье я расскажу о том, как я настраивал аутентификацию и авторизацию доменных пользователей Active Directory в OpenSearch. В домене я не обладаю правами администратора домена и не могу влиять на структуру каталогов Active Directory. А сценарий настройки Active Directory в OpenSearch, предлагаемый на официальном сайте, применить к домену с разветвленной структурой каталогов оказалось не так просто, как хотелось бы.


Читать: https://habr.com/ru/post/664874/