SberProfi DWH/BigData – Telegram
SberProfi DWH/BigData
1.07K subscribers
311 photos
9 videos
360 links
Telegram-канал SberProfi DWH/BigData 💚
Наш чат: https://news.1rj.ru/str/+6Vc_rNMJl8MzYzcy
Наша миссия: развивать компетенции по технологиям работы с данными, например, такими, как экосистема Hadoop, Teradata, Oracle DB, GreenPlum и др.
Download Telegram
#втренде #Выпуск10

Apache Datark . Уже обсуждали перспективный тренд Shuffle Service от Uber, ускоряющий Spark и Hive путем оптимизации механизма spilling-а. Вот +1 от Alibaba на пороге акцепта в Apache Incubator. Сейчас там уже решение этой категории Apache Uniffle, которая применяет другие оптимизации. Нам поможет более оптимально использовать КТС, рост которого ограничен.

Budibase - опен сорс low code-платформа для создания своих приложений. Дашборды же тоже своего рода приложения, но часто ограничены односторонним показом данных. Тут возможно сделать дашборд с локальными корректировками или другими экшенами по работе с данными.

Lightdash - дашборд, опен сорс-альтернатива Looker, наблюдается тренд “Developer friendly BI”. Может рассматриваться как альтернатива и Superset.

Deep Lake - data lake для deep learning-приложений. Реализует бесшовное хранение данных, визуализацию и тренинг моделей без лишнего кодирования. Ссылки на github, стартап и статью.

5x.co - 🔥 Modern Datastack as a Service - удобный портал, через который можно собрать себе кастомную аналитическую систему из разных облачных сервисов. Удобно и быстро: 4 минуты вместо 4 месяцев и в 10 раз дешевле! Выглядит как отличная идея для улучшения UX наших сервиов.


Сегодня в 18:00 - начало конференции Semantic Layer Summit.
https://www.atscale.com/semantic-layer-summit-faq/
Что вам может пригодиться в работе, о чем хотелось бы узнать в деталях?
Anonymous Poll
56%
Apache Datark
16%
Budibase
13%
Lightdash
38%
Deep Lake
Дорогие коллеги! ☀️

Приглашаем вас на очередной онлайн-митап SberProfi DWH/BigData, который состоится 4 октября 2022 года.
Начало в 14:00.

👉 Подключиться 👈


Повестка:

• Кирсанов И. (SberData): «Продукт аутентификации kmanager» (подробнее – в Confluence)
• Цыпин К., Тятюшкин М. (SberData): «Apache Knox как новый стандарт централизованной маршрутизации обращений к большим данным» (подробнее – в Confluence)
• Оршанский Д., Романюк Д. (SberData): «Сервис мониторинга КАП. Кто мы? Что мы умеем? Как к нам подключиться?» (подробнее – в Confluence)



Вопросы можно будет задать в чате во время выступления докладчиков.

До встречи на митапе!


С уважением,
DWH/BigData 💚
Друзья, привет!

С 26 сентября по 9 октября ⁣проходит исследование клиентского опыта CSI в Блоке T 🔥.

Убедительно просим вас уделить немного времени на опрос по ссылке ниже и поделиться обратной связью, которая так нужна коллегам! 🙏

https://public.oprosso.sberbank.ru/p/21iej5nx

Напоминаем, что положительная оценка начинается с 7 баллов.

Желаем каждому из вас продуктивного рабочего дня, а также спокойных и прекрасных выходных! 🧘‍♀️


С уважением,
DWH/BigData 💚
Друзья!
❗️Обращаем ваше внимание на то, что обсуждение рабочих вопросов на публичных площадках (одной из которых является наш чат) иногда влечет наступление репутационных рисков для Банка, а также создает угрозу реализации целевых атак на его сотрудников.

Поэтому коллеги из кибербезопасности напоминают о недопустимости размещения в нашем Telegram-чате конфиденциальной информации :).
В противном случае, работник, разместивший информацию, а также администратор группы могут быть привлечены к ответственности за нарушение требований Стандарта по обеспечению кибербезопасности при работе с автоматизированными системами и средствами вычислительной техники №4727 ч.1.

Надеемся на ваше понимание (и внимательность) 🤗!


С уважением,
DWH/BigData 💚
Друзья! ☔️

Приглашаем вас на экспертную площадку SberProfi DWH/BigData, которая состоится 12 октября 2022 года.
Начало в 14:00.

👉 Подключиться 👈

Тема: Общая база знаний по SPARK
Спикеры: Сурпин Вадим, Белов Алексей (SberData)


Вопросы спикерам можно будет задать в чате во время дискуссии.

До встречи!


С уважением,
DWH/BigData 💚
#втренде #Выпуск11

Тулы и технологии, с которыми мы знакомились выше, можно объединить в более обобщенные тренды. Если мы что-то упустили, пишите в комментарях или общий чат.

🔹Оптимизация текущего -Low-hanging fruit - это когда мы можем подкрутить текущие решения, и уже станет намного лучше.

🔸 DOPE (Data Oriented Paradigm Evolution) - код и вычисления построены вокруг данных (separate data and code, separate compute and storage). Повышает безопасность и управление, контроль и учет данных. Уменьшает количество копий и интеграций между системами.

🔹Low code - no code, codeless, не пишем код, вместо этого движем элементами в UI. Более широкий круг легко обучаемых пользователей, низкий Т2М, меньше ошибок. Минус: ограниченная гибкость.

🔸 Automation - уменьшение ручных действий влечет за собой повышение качества, скорости и снижение стоимости операций. Примеры: DevOps, AiOps, оркестрация (ansible, terraform), predictive maintenance, intelligent error handling

🔹 Cloud Native / Container / Serverless - использование гибкой облачной инфраструктуры открывает новые возможности предоставления своих сервисов пользователям (заказ через портал, гибкое управление ресурсами, абстракция инфраструктуры), мониторинга и масштабирования.

🔸 Х as a Service - двигаемся дальше витруальных машин и распространения дистрибутивов в сторону предоставления готового сервиса пользователям.

🔹 Developer Experience - аналитик/ дата сайентист/ инженер - тоже разработчик. Его положительный пользовательский опыт создания своего решения в рамках ограничений в рабочем процессе может быть сильным инструментом лояльности к работодателю. DevBox (среда разработки/ ВАРМ/ ноутбук), доступный тех.стека уровень автоматизации.

🔸Efficient Software - перестаем шиковать ресурсами и памятью. Делаем софт, который эффективно использует доступные ему ресурсы - это хорошо для экологии и в условиях ограниченного роста КТС. Нужно придумать метрики эффективности, чтобы измерять, как двигаемся (с точки зрения стратегии), а также сравнения ПО/ алгоритмов/ языков между собой. Есть табличка, сравнивающая языки программирования, в которой видно, что Rust - это самый эффективный язык.

🔹Data as a Service - Data Mesh, Metric Store и другие темы, относящиеся к организации данных - моделирование, процессы и распределение ответственности создания ценности для бизнеса.
Дорогие коллеги! ☀️

Приглашаем вас на экспертную площадку SberProfi DWH/BigData, которая состоится 27 октября 2022 года.
Начало в 15:30.

👉 Подключиться 👈

Тема: Проксированные подписки для Лаборатории данных SDP Hadoop
Спикеры: Светлана Светоч, Антон Шкляр, Дана Захарова, Никита Негго, Артем Горюнов (SberData)


Вопросы спикерам можно будет задать в чате во время дискуссии.

До встречи!


С уважением,
DWH/BigData 💚
#втренде #Выпуск12

🔻 WunderBase [⎋](https://github.com/wundergraph/wunderbase) - бессерверная опенсорс-база выставляет GraphQL API поверх SQLite. Экономит ресурсы во время бездействия, поднимается менее чем за секунду при необходимости.


🔻 ClickHouse as a service [⎋](https://clickhouse.com/cloud) демонстрирует полностью бессерверный продукт, которым легко и дешево пользоваться. Просмотр роликов вдохновляет сделать похожее и у нас.


🔻 Apache DevLake [⎋](https://devlake.apache.org/) дебажим devops: Собирает, аггрегирует и визуализирует данные из devops-инструментария. Многое есть out of the box. С помощью этих инсайтов можно повысить продуктивность разработки и вывода ПО.


🔻 Apache Livy [⎋](https://livy.apache.org/) - многими любимый тул, ипользуемый для отладки  Spark. Наблюдаются турбуленции в комьюнити - обсуждают остановку проекта из-за отсутствия активности. С другой стороны, это шанс взять под наше крыло 🫶


🔻 Apache StreamPipes [⎋](https://streampipes.apache.org/) - юзерфрендли инструмент для подключения к потокам данных и их аналитике в режиме self-service. Очень наглядный UI и много интеграций.
Что вам может пригодиться в работе, о чем хотелось бы узнать в деталях?
Anonymous Poll
6%
WunderBase
71%
ClickHouse as a service
8%
Apache Devlake
17%
Apache Livy (retirement)
29%
Apache StreamPipes
Дорогие коллеги!

Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на SDP Hadoop.
Для формирования повестки просим оставлять свои вопросы здесь.

Мероприятие состоится 21 октября 2022 г. Начало в 14:00.

Повестка:
• Мартынов А. (SberData): «Релиз SDP Hadoop 3.5.4: планы, фичи, багфиксы»
• Ермекбаев З. (SberData): «Как понять, что для хранения данных Вы можете использовать Ozone»
• Пронин Д. (SberData): «Процессы сопровождения SDP Hadoop: что делать, чтобы проблемы решались быстро»
Платформа проведения встречи – СберМитап

👉 Ссылка для подключения 👈

Вопросы спикерам можно будет задать устно 😊.


До встречи!


С уважением,
команда DWH/BigData 💚
Друзья!

🚀⚡️ Предлагаем вашему вниманию внешний подкаст, героем которого стала участница нашего комьюнити Мария Юшанова, управляющий директор-начальник управления Управления распространения данных (SberData).

О big data простыми словами
🎧 🎙

https://sber-koroche.mave.digital
Дорогие друзья!

Совсем скоро, в ноябре, наш банк перешагнет рубеж в 1️⃣8️⃣1️⃣ год!
Мы начинаем подготовку ко дню рождения, и здесь нам опять не обойтись без вас! 🥳

Если вы, как участники комьюнити DWH/BigData, подходите к одному из пунктов ниже, скорее отзывайтесь*!

Итак, мы разыскиваем 🔎:

🔹 Изобретателей Сбера
(в нашей команде есть люди, которые получили патенты за свои изобретения, причём в абсолютно любой области, не обязательно банковской)

🔹 Сотрудников нестандартных профессий
(например, женщину-инкассатора или водителя, очень возрастного сотрудника-айтишника или юного руководителя, мужчину-кассира и тд.)

🔹 Сотрудников с единичными/ уникальными профессиями

🔹 Просто интересных коллег, о которых должны узнать все 😊


💌 Собранный материал будет направлен в ДМиК для подготовки серии внутренних коммуникаций (ДУСи, Мой Сбер).


Очень ждем классные истории, которыми будем гордиться!


*информацию о себе (ФИО и обоснование) направляйте нам в почту: SberProfi_DWH_BigData@sberbank.ru в срок до 21 октября



С уважением,
команда DWH/BigData 💚
#втренде #Выпуск13

▪️ USB (by Microsoft) - Pytorch-пакет для разработки и тестирования/сравнения алгоритмов полуавтоматического обучения (semi-supervised learning).

▫️ Data Detective - Тинькофф заопенсорсили свой каталог данных, с помощью которого аналитики могут быстро найти нужные данные. Существующие решения дата-катлогов от LinkedIn, Netflix, WeWork, Lyft, им не подошли, можно почитать тут.

▪️ StarRocksDB - sub-second MPP database для всех сценариев аналитики, в т.ч. NRT и ad hoc. Но нам вообщем нет до нее дела, так как уходим от МРР-шной shared nothing в сторону shared everything архитектуры.

▫️ PostgreSQL WASM - на базе технологии WASM, которая позволяет выполнять приложения в браузере, появилась и база PostgreSQL. В этой технологии есть большие перспективы, и то, что целую базу в нее упаковали, - сигнал для нас (новые возможности в аналитике).

▪️ Oracle MySQL HeatWave расширяет возможности MySQL, по сути позиционирует ее как единая база для всех нагрузок, которые при этом друг другу не мешают. Т.е. операционная база для приложений с мощными аналитическими способностями.

✔️ Были конференции Semantic Layer Summit, Microsoft Ignite, ApacheCon, Featurestore Summit - тонна материала.
👁‍🗨 Помогите найти изюминки - обсудим в чате сообщества.
Что вам может пригодиться в работе, о чем хотелось бы узнать в деталях?
Anonymous Poll
14%
USB
35%
Data Detective
10%
StarRocksDB
55%
PostgreSQL WASM
14%
Oracle MySQL HeatWave