Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Настоящее и будущее дата-инжиниринга

Future Indefinite — Oculus (Cover art) by Rowye

Несколько лет назад дата-сайентистов часто называли «единорогами». Все искали гениального full-stack-инженера-математика, способного вникнуть во все бизнес-проблемы.

В последние два года мы пережили хайп по поводу AI/ML и стали свидетелями быстрого подъема профессии «дата-инженер». По данным отчета Dice о технических специальностях, в 2020 году потребность в дата-инженерах резко возросла ни много ни мало на 50 % — эта специальность быстро развивается.

Команда разработки облачной платформы VK Cloud Solution перевела статью о том, чего ждут от дата-инженеров сейчас и каким станет дата-инжиниринг в будущем.


Читать: https://habr.com/ru/post/661777/
Data Science и математика: самые важные разделы науки в освоении профессии

Data Science — быстро развивающееся направление, без которого сейчас невозможно обойтись ни в одной отрасли бизнеса или науки. Сырые и неструктурированные данные — кладезь информации. Но для того чтобы ее получить в нужном виде, требуется приложить немало усилий. А объемы таких сырых данных зашкаливают — каждый день, по статистике, человечество генерирует около 2,5 квинтиллиона байт.

Для обработки всего этого необходимы специалисты — чем больше, тем лучше. Основной инструмент в их руках — математика. Сегодня обсудим, какие разделы науки наиболее востребованы в профессии. Об этом мы поговорили с Кириллом Шмидтом, Product analyst Team Lead в корпорации Citrix (США) и автором профессии Data Analyst в Skillbox. Сразу стоит сказать, что статья рассчитана на новичков. Что же, приступим.


Читать: https://habr.com/ru/post/663508/
👍1
Secure data movement across Amazon S3 and Amazon Redshift using role chaining and ASSUMEROLE

Read: https://aws.amazon.com/blogs/big-data/secure-data-movement-across-amazon-s3-and-amazon-redshift-using-role-chaining-and-assumerole/
«Восход» на пути к «идеальному» обществу…

Всем пятничного и хорошего настроения накануне майских праздников!

Решил накропать философскую статью. Рассчитываю, что в связи с текущей обстановкой в мире, она особенно "зайдет".

Итак, давайте вообразим , что человечество созрело до понимания того, что текущая потребительская модель общества не совершенна и ее необходимо менять. Логично, что это должен быть некий антипод - допустим, назовем это "идеальная" модель общества. Но как нам совершить переход от потребительской модели к "идеальной"? А что, если создать некий "идеальный" программный комплекс, который поможет нам искоренить коррупцию, найти эффективные отрасли экономики, убрать неэффективные отрасли, придумать новые технологии? Так сказать, BigData на службе общества...


Читать: https://habr.com/ru/post/663706/
🤔1
Квантовый хэдж фонд: что интересного для IT специалиста?

Всем привет! Это моя первая статья на Хабр. Меня зовут Артем Сосульников и я директор по разработке ПО в Luxoft. В IT больше 15 лет: начинал как Java разработчик, прошел долгий путь от тим лида и руководителя проектов до директора по разработке ПО с сотней людей в подчинении. В связи с последними событиями в ближайшее время собираюсь с семьей переезжать на остров Пенанг в Малайзию и присоединиться к Люксофт.Малайзия. Там продолжу развитие своих проектов в квантовых хэдж фондах, куда мы теперь нанимаем людей в Сербии, Мексике и Малайзии. Буду писать статьи про жизнь в Малайзии и про работу в Люксофт.


Читать: https://habr.com/ru/post/663846/
👍1
Любопытные и неочевидные особенности при работе со Snowflake

Без долгих вступлений, сразу к делу.

Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например: CREATE DATABASE ""; CREATE SCHEMA ""."";

Это работает на момент публикации и потенциально создаёт массу проблем для внешних систем, которые не ожидают такого поворота. Также это обычно приводит в восторг админов DWH.

Более интересные и практичные советы под катом.


Читать: https://habr.com/ru/post/663922/
Access Apache Livy using a Network Load Balancer on a Kerberos-enabled Amazon EMR cluster

Read: https://aws.amazon.com/blogs/big-data/access-apache-livy-using-a-network-load-balancer-on-a-kerberos-enabled-amazon-emr-cluster/
Data-Science-процессы: Jupyter Notebook для продакшена

Jovian Blues by ShootingStarLogBook

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.


Читать: https://habr.com/ru/post/662734/
Use Amazon Kinesis Data Firehose to extract data insights with Coralogix

Read: https://aws.amazon.com/blogs/big-data/use-amazon-kinesis-data-firehose-to-extract-data-insights-with-coralogix/
👍1
«Божественная комедия», или Девять кругов прогнозирования промо спроса в «Магните»

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».


Читать: https://habr.com/ru/post/664358/
👍4
Single Sign-On Configuration for Oracle Analytics Server on OCI Marketplace with Oracle Identity Cloud Service using Apache HTTP Server and OpenIDC Module

Single Sign-On Configuration for Oracle Analytics Server on OCI Marketplace with Oracle Identity Cloud Service using Apache HTTP Server and OpenIDC Module

Read: https://blogs.oracle.com/analytics/post/oas-mp-sso-idcs-apache-openidc
Single Sign-On Configuration for Oracle Analytics Server on OCI Marketplace with Oracle Identity Cloud Service using Oracle HTTP Server and WebGate

Single Sign-On Configuration for Oracle Analytics Server on OCI Marketplace with Oracle Identity Cloud Service using Oracle HTTP Server and WebGate (OAuth/OpenID)

Read: https://blogs.oracle.com/analytics/post/oas-mp-sso-idcs-ohs-webgate
Использование Kudu для решения задач в реальном времени в окружении Hadoop

В предыдущей статье я поделился нашим опытом создания аналитического хранилища полного цикла на базе экосистемы Hadoop. Одним из тезисов той статьи стало утверждение о том, что аналитическую систему можно спроектировать, не прибегая к федерализации разных технологических платформ, предназначенных для решения локальных задач.

В этом материале я попробую подробнее раскрыть, как в нашей системе реализован подход обработки и загрузки данных в реальном времени с использованием технологии Kudu, при котором эти данные сразу доступны для анализа.


Читать: https://habr.com/ru/post/664698/