Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Process Apache Hudi, Delta Lake, Apache Iceberg dataset at scale, part 2: Using AWS Glue Studio Visual Editor

Read: https://aws.amazon.com/blogs/big-data/part-2-integrate-apache-hudi-delta-lake-apache-iceberg-dataset-at-scale-using-aws-glue-studio-visual-editor/
👍2
Получил доступ к Dalle-2. Вы не поверите, что может нарисовать машина… Дизайнеры больше не нужны


Текст генерации: furry monster with green eyes looking at us, the word «habrahabr» in the background, digital art, blue background, 3d

Привет, чемпион!

Недавно мне посчастливилось стать обладателем доступа к API Dalle-2. Если ты ещё не слышал про Dalle, то это такая CLIP-архитектура, обученная на огромном корпусе пар текст-изображение. Иначе говоря — она умеет генерировать очень качественные изображения из текста. Отличить результаты генерации от рисунков человека иногда просто невозможно! Это одновременно впечатляет и в то же время — немного шокирует.

По сравнению с предыдущей версией — DALL-E 2 умеет генерировать изображения в более высоком разрешении (1024×1024 пикселей, что в 16 раз превышает разрешение в предыдущей версии модели) да ещё и намного быстрее. Более того, DALL-E 2 позволяет редактировать уже существующие изображения.

Нет больше терпения ждать, давайте же опробуем её!


Читать: https://habr.com/ru/post/678876/
👍3
CDC и логическая репликация для баз данных, реализованных на стеке open source-решений

Привет, Хабр! На связи СберТех — мы создаём Platform V, цифровую платформу Сбера для разработки бизнес-приложений.

В платформу входит более 60 продуктов на базе собственных сборок open source, доработанных до уровня enterprise по функциональности, безопасности, производительности и отказоустойчивости.

В этой статье расскажем про реализацию паттерна Change Data Capture и межкластерной репликации данных в продукте Platform V DataGrid, распределённой in-memory базе данных для высокопроизводительных вычислений. А также об особенностях внедрения функции и вариантах репликации. Написать материал помог наш коллега Николай Ижиков из команды по развитию баз данных на стеке open source.


Читать: https://habr.com/ru/post/679028/
🔥2
How SumUp built a low-latency feature store using Amazon EMR and Amazon Keyspaces

Read: https://aws.amazon.com/blogs/big-data/how-sumup-built-a-low-latency-feature-store-using-amazon-emr-and-amazon-keyspaces/
👍3
Oracle enables revenue transformation with Fusion CX Analytics

Introducing Oracle Fusion CX Analytics. Fusion CX Analytics meets the need for an easy-to-use system that can help model KPIs and monitor the business through them, as well as one capable of drilling down to uncover insights in granular detail without involving IT.

Read: https://blogs.oracle.com/analytics/post/oracle-enables-revenue-transformation-with-fusion-cx-analytics
👍2
Create a most-recent view of your data lake using Amazon Redshift Serverless

Read: https://aws.amazon.com/blogs/big-data/create-a-most-recent-view-of-your-data-lake-using-amazon-redshift-serverless/
👍2
Scale Amazon QuickSight embedded analytics with new API-based domain allow listing

Read: https://aws.amazon.com/blogs/big-data/scale-amazon-quicksight-embedded-analytics-with-new-api-based-domain-allow-listing/
👍2
IDC: Oracle Analytics is a leader in U.S. Business Intelligence and Analytics

Oracle Analytics has been recognized as a Leader in the ‘IDC MarketScape: U.S. Business Intelligence and Analytics Platforms 2022 Vendor Assessment’ report.

Read: https://blogs.oracle.com/analytics/post/idc-oracle-analytics-leader-in-us-business-intelligence-and-analytics-marketscape
👍2
Как собрать платформу обработки данных «своими руками»?

Большое количество российских компаний столкнулись с ограничениями в области ПО. Они теперь не имеют возможности использовать многие важные инструменты для работы с данными. Но, как говорится, одна дверь закрылась — другая открылась. Альтернатива зарубежным решениям есть: платформу обработки данных можно создать своими силами. Расскажем, как мы в ITSumma это сделали, какие компоненты использовали, с какими ограничениями столкнулись и зачем вообще всё это нужно.
Предыстория (очень короткая)

Один заказчик, который заинтересовался нашими компетенциям в построении инфраструктур, предложил крупный интеграционный проект. Архитекторы клиента придумали сложную и большую платформу, которая включала в себя машинное обучение, обработку данных и управлялась с помощью Kubernetes. Нам поставили задачу реализовать проект платформы, настроить связность элементов, построить и запустить инфраструктуру в эксплуатацию.

В итоге всё прошло хорошо и заказчик доволен. А у нас возникла идея скомпоновать свою платформу — такую, чтобы она была доступной не только большому бизнесу, но и компаниям среднего и малого масштаба. То есть сделать так, чтобы можно было получать большие возможности и не платить при этом огромные деньги.


Читать: https://habr.com/ru/post/679516/
👍2
[recovery mode] Build vs buy: покупать софт у вендора или разрабатывать собственное IT-решение?

Купить готовое ПО или разрабатывать самим – один из острых вопросов перед компаниями в эпоху цифровизации. Решение, как правило, зависит от объема ресурсов, которые предприятие готово вложить в это дело, от сроков решения задачи, специфики управления компанией и корпоративных компетенций, которыми она обладает.

Однозначного ответа на вопрос, что окажется быстрее и дешевле, нет: каждый из путей предполагает большое количество подводных камней и факторов, влияющих на конечный результат. Важна разумная комбинация с учётом внешнего и внутреннего контекстов. В этой статье порассуждаем о том, как её достичь.


Читать: https://habr.com/ru/post/679526/
👍2
Как мы выстроили процесс собеседований в DS

Всем привет! Я Жека Никитин, Head of AI в медтех-стартапе «Цельс».

Сегодня хочу рассказать вам, как у нас устроен процесс собеседований, почему были приняты те или иные решения,какие сохранились слабые места и как мы с этим боремся.


Читать: https://habr.com/ru/post/679550/
👍2
Хранение данных, опыт Oxygen: профессиональные СХД становятся еще более востребованными

Проблема эффективного хранения данных стоит сегодня перед многими компаниями, и поэтому сегодня я подготовил текст о том, как именно мы решаем задачу хранения в облаке Oxygen. В этом посте речь пойдет о преимуществах виртуализации хранилищ NetApp, о том, что дают нам СХД Huawei, как организовано подключение пользователей к виртуальному хранилищу облака Oxygen. Также мы рассмотрим несколько примеров, когда преимущества профессиональных СХД остаются неоспоримыми.


Читать: https://habr.com/ru/post/679574/
👍2
Как мы в Brand Analytics разработали Детектор сбоев и как вы можете помочь его улучшить

Привет, Хабр! Мы тут решили выйти из тени, на этот раз по-настоящему, технически, без маркетинговых текстов. А раз без маркетинга, то почитать про сам Brand Analytics можно на сайте или очень кратко под катом.

Меня зовут Островский Григорий, я CTO Brand Analytics. Сегодня расскажу, как за 4 недели мы запускали Детектор сбоев взамен ушедшему из рунета Downdetector: на какие задачки напоролись, как с ними боролись и как пришла идея — дать возможность сообществу улучшить определение сбоев на больших данных в нашем первом контесте.

Так как статью пишу здесь впервые, буду крайне признателен фидбеку, чтобы понять, на чём сделать больше акцент, нужно ли больше технических подробностей, какие темы остались не раскрыты и что ещё подкорректировать на будущее.


Читать: https://habr.com/ru/post/679580/
Accelerate your data warehouse migration to Amazon Redshift – Part 6

Read: https://aws.amazon.com/blogs/big-data/part-6-accelerate-your-data-warehouse-migration-to-amazon-redshift/
👍3
Schedule email reports and configure threshold based-email alerts using Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/schedule-email-reports-and-configure-threshold-based-email-alerts-using-amazon-quicksight/
👍2
Implementing Data Level Security for Oracle Analytics Using Database Proxy User and Analytics Session Variables

This article demonstrates the functionality of enabling data level security in reports in Oracle Analytics by passing the single sign-on user name to an Oracle Database proxy user.

Read: https://blogs.oracle.com/analytics/post/implementing-data-level-security-for-oracle-analytics-cloud-using-database-proxy-user-analytics-session-variable
👍2
Глубокое погружение в Data Quality

Забота о качестве данных часто кажется малопривлекательной, но, по иронии, именно на нее мы тратим большую часть времени. Возможно, Data Quality — важнейший компонент пайплайна данных, ведь дашборд и аналитика, сгенерированные на основе недостоверных и ненадежных данных, окажутся бесполезными. Команда VK Cloud Solutions перевела статью о том, что такое Data Quality на самом деле и как обеспечивать его на разных уровнях пайплайна.


Читать: https://habr.com/ru/post/674876/
👍3
Подборка актуальных вакансий

Аналитик DWH
Где: Москва, можно удалённо
Опыт: от 3 лет

Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Главный специалист Группы сопровождения аналитических систем
Где: Москва, можно удалённо
Опыт: от 3 лет

Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет

Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года

#вакансии #работа
CDP для бизнеса, или Как эффективно подружиться с клиентом

Всем привет, мы – одна из команд GlowByte, специализируемся на клиентской аналитике и автоматизации маркетинга. В этом материале мы рассмотрим класс продуктов CDP (Customer data platform) – функциональные возможности, решаемые с их помощью задачи, назовем несколько распространенных на российском рынке решений и расскажем о базовых маркетинговых коммуникациях. В этот раз не будет глубокого погружения в технику и внутреннюю архитектуру систем, поэтому материал в первую очередь будет интересен для конечных бизнес-пользователей, которые хотят получить возможность лучше узнать своих клиентов и проводить с ними более эффективные коммуникации.


Читать: https://habr.com/ru/post/679890/
👍2