Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Предсказание временных рядов с помощью Keras

Привет, Хабр!

Сегодня хотелось бы поговорить о задаче предсказания временных рядов методами машинного обучения. В каком виде зачастую используются данные для задачи предсказания? Что такое LSTM-архитектура рекуррентных нейронных сетей? Как справляются модели RNN и CNN c поставленной задачей?


Читать: https://habr.com/ru/post/677714/
🔥5
Как мы построили систему онбординга для аналитиков-новичков: подводные камни и полезные приёмы

Привет, я Галина Вакулина, лидер аналитиков в Точке.

В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье я рассказываю, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.


Читать: https://habr.com/ru/post/677748/
👍1
[recovery mode] Как IoT-технологии и эксперты по оборудованию помогают внедрять предиктивную аналитику: опыт Factory5

Всем привет, на связи Алексей Ершов и Максим Зотов, эксперты Factory5. Сейчас наша компания разрабатывает ПО для анализа промышленных данных, а начинали когда-то с предиктивной аналитики промышленного оборудования. В этой статье расскажем о том, как IoT-технологии и эксперты по оборудованию помогают внедрять её на предприятиях.


Читать: https://habr.com/ru/post/677788/
🥰1
Enable federated governance using Trino and Apache Ranger on Amazon EMR

Read: https://aws.amazon.com/blogs/big-data/enable-federated-governance-using-trino-and-apache-ranger-on-amazon-emr/
👍1
Как мы обучали категоризатор фискальных чеков DataCheckEngine

Задача актуальна для фин. организаций и ретейла. Расскажем, как мы подошли к ней и почему выбрали для обучения уменьшенную версию модели DistilBert.


Читать: https://habr.com/ru/post/677858/
👍2
Data Quality: новые правила

В нашем мире проблемы с данными делятся на два типа: предсказуемые (известные неизвестные) и непредсказуемые (неизвестные неизвестные). Вот какой комплексный подход применяют лучшие специалисты по работе с данными для решения этих проблем в крупномасштабных системах. Команда VK Cloud Solutions перевела статью о новых способах повышения качества данных с помощью тестирования и наблюдаемости (observability).


Читать: https://habr.com/ru/post/674830/
👍2
В Китае внедрили суд ИИ. Или нет?

С такими заголовками вышли десятки публикаций в российском интернете. Может показаться, что в КНР создали искусственный интеллект, который рассматривает дела и выносит приговоры. Прямо как с новостями о китайском социальном рейтинге, которого нет. Так что же с ИИ в китайском суде?


Читать: https://habr.com/ru/post/677920/
👍2🤬1
Какой ты аналитик?

Холмс, Фрейд или Аристотель: определяем, на кого из известных аналитиков вы похожи.

Читать: «Какой ты аналитик?»
😁4
Integrate Amazon Redshift row-level security with Amazon Redshift native IdP authentication

Read: https://aws.amazon.com/blogs/big-data/integrate-amazon-redshift-row-level-security-with-amazon-redshift-native-idp-authentication/
👍2
Stream Amazon EMR on EKS logs to third-party providers like Splunk, Amazon OpenSearch Service, or other log aggregators

Read: https://aws.amazon.com/blogs/big-data/stream-amazon-emr-on-eks-logs-to-third-party-providers-like-splunk-amazon-opensearch-service-or-other-log-aggregators/
👍2
Путь к “сердцу заказчика”, или Как мы редизайнили дашборды у топового банка России

Многие компании в РФ сегодня уже далеко не новички в сфере BI. За последние несколько лет технология активно распространилась в нашей стране, дашборды и ad-hoc-визуализации стали активно использовать при принятии решений в самых разных индустриях и направлениях. В этой статье мы, команда Business Intelligence Glowbyte, хотим рассказать о случае из личного опыта на проекте с банком топ-5 России, а именно о том, как наша команда решила проблему неэффективного использования прогрессивного инструмента бизнес-отчетности.


Читать: https://habr.com/ru/post/678326/
👍3
«Звезда» — оптимальная структура данных при переходе на российский BI

Бизнес-аналитика — интереснейшее направление работы с данными. С одной стороны пользователи хотят видеть красивые дашборды и простые self-service платформы, а с другой стороны, для организации всего этого порой требуется колоссальная работа по организации витрин, моделей данных, оптимизации запросов, а вместе с этим — мощный сервер для переработки миллиардов записей. В этом посте я расскажу о том, почему для работы с BI сегодня как никогда актуальна такая модель данных как “Звезда”, и как ее использование помогает улучшать эффективность бизнес-аналитики на любых BI-платформах.


Читать: https://habr.com/ru/post/678346/
👍2
Новости Data Science: факт-чек Википедии при помощи Sphere, обучение AI-геймингу, обложка для Cosmopolitan и кое-что еще

Привет, Хабр! Сегодня поговорим о новостях из мира Data Science. За пару последних  месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы».

Но есть и другие новости из мира машинного обучения и нейросетей. Так, мы изучили новинки и выбрали несколько, на наш взгляд, самых любопытных проектов. Понятно, что подборка субъективная, но интересна она будет самому широкому кругу читателей, связанных с Data Science. Если у вас есть что добавить, то расскажите в комментариях — обсудим.


Читать: https://habr.com/ru/post/678356/
👍3
Как и почему мы внедрили Greenplum в КХД

Привет, Хабр! Меня зовут Максим Солопин, в Росбанке я работаю архитектором корпоративного хранилища данных. В этом посте я расскажу о том, как мы переезжали из data lake, куда ежедневно сваливались все сырые данные, в удобную систему на основе Greenplum. А по дороге немного затрону развитие моделей корпоративных хранилищ данных.


Читать: https://habr.com/ru/post/678646/
👍3
Дашборды и прибыль: как посчитать всё не только правильно, но и красиво

Привет! Как мы уже не раз рассказывали, СИБУР поделен на несколько сквозных процессов. Сквозные процессы – это бизнес-домены, которые объединяют в себе бизнес-команды одной сферы. У нас таких много, но конкретно этот пост будет посвящён дашбордам для O2C.

В случае O2C – это также сквозной процесс, который расшифровывается как Order to cash. Он отвечает за привлечение новых клиентов и получение прибыли. Кроме того, такой подход помогает перестраивать бизнес-процессы на предприятии и способствует активной цифровизации производственных процессов.

Сегодня использование O2C напрямую связано с промышленной цифровизацией. Постепенно все, начиная от поиска лидов и сопровождения сделок, заканчивая непосредственно продажами, передачей права собственности, когда бухгалтерия контрагента расписалась в акте, перестраивается на автоматический режим.

O2C как бизнес состоит из нескольких больших подразделений, эти же подразделения являются как потребителями данных, так и основными генераторами идей, все-таки стараемся работать в продуктовом подходе и учитывать хотелки всех и вся, как минимум внутри O2C.


Читать: https://habr.com/ru/post/678036/
👍2
Разметка данных в машинном обучении: процесс, разновидности и рекомендации

Когда люди слышат про искусственный интеллект, глубокое обучение и машинное обучение, многие представляют роботов из фильмов, интеллект которых сравним или даже превосходит интеллект человека. Другие считают, что такие машины просто потребляют информацию и учатся на ней самостоятельно. Но на самом деле это далеко от истины: без человеческой помощи возможности компьютерных систем ограничены, и чтобы они стали «умными», необходима разметка данных.

В этой статье мы расскажем, что такое разметка данных, как она работает, о типах разметки данных и о рекомендациях, позволяющих сделать этот процесс беспроблемным.


Читать: https://habr.com/ru/post/678524/
👍2
Process Apache Hudi, Delta Lake, Apache Iceberg dataset at scale, part 2: Using AWS Glue Studio Visual Editor

Read: https://aws.amazon.com/blogs/big-data/part-2-integrate-apache-hudi-delta-lake-apache-iceberg-dataset-at-scale-using-aws-glue-studio-visual-editor/
👍2
Получил доступ к Dalle-2. Вы не поверите, что может нарисовать машина… Дизайнеры больше не нужны


Текст генерации: furry monster with green eyes looking at us, the word «habrahabr» in the background, digital art, blue background, 3d

Привет, чемпион!

Недавно мне посчастливилось стать обладателем доступа к API Dalle-2. Если ты ещё не слышал про Dalle, то это такая CLIP-архитектура, обученная на огромном корпусе пар текст-изображение. Иначе говоря — она умеет генерировать очень качественные изображения из текста. Отличить результаты генерации от рисунков человека иногда просто невозможно! Это одновременно впечатляет и в то же время — немного шокирует.

По сравнению с предыдущей версией — DALL-E 2 умеет генерировать изображения в более высоком разрешении (1024×1024 пикселей, что в 16 раз превышает разрешение в предыдущей версии модели) да ещё и намного быстрее. Более того, DALL-E 2 позволяет редактировать уже существующие изображения.

Нет больше терпения ждать, давайте же опробуем её!


Читать: https://habr.com/ru/post/678876/
👍3