SberProfi DWH/BigData – Telegram
SberProfi DWH/BigData
1.07K subscribers
311 photos
9 videos
360 links
Telegram-канал SberProfi DWH/BigData 💚
Наш чат: https://news.1rj.ru/str/+6Vc_rNMJl8MzYzcy
Наша миссия: развивать компетенции по технологиям работы с данными, например, такими, как экосистема Hadoop, Teradata, Oracle DB, GreenPlum и др.
Download Telegram
8 сентября в нашем SberProfi DWH/BigData произошло маленькое радостное событие - к нам присоединился 1000-й участник, а точнее – участница! 🎉

Тысячную отметку перешагнула Фролкина Дарья из Блока Т (ДИТ «Управление благосостоянием»):

"Я присоединилась к вашему замечательному сообществу, чтобы поскорее наращивать компетенции и не отставать от своих крутых коллег в УДиАК :). А также, чтобы присылать только самые актуальные мемы в наш уютный чатик команды" 🐱.

Страна должна знать своих героев в лицо, поэтому фото Дарьи в DWH-шной футболке прилагается :) 📸.
Всем привет! ☀️

Коллеги, если у вас есть знакомые студенты или преподаватели технических специальностей вузов, просьба поделиться с ними информацией о мероприятии 👇👇👇

Кейс-клуб МИФИ запускает чемпионат МИФИ Opportunity Cup.
Партнёром ИТ-трека выступил Сбер .

Собирай свою команду, решай задачу по анализу и обработке данных и прокачивай полезные навыки!

Регистрация уже началась!

Общий анонс чемпионата: https://vk.com/cmephi?w=wall-128166631_1368

Анонс вебинара:
https://vk.com/cmephi?w=wall-128166631_1389

Канал чемпионата в телеграме:
https://news.1rj.ru/str/OpportunityCup2022
Дорогие друзья! 🍂🍁

Приглашаем вас на онлайн-митап SberProfi DWH/BigData (30-й по счету 😊), который состоится 26 сентября 2022 года.
Начало в 14:30.

👉 Подключиться 👈


Повестка:
Васильев П. (SberData): Безопасное хранение и использование секретного слова при кодировании и декодировании зашифрованных параметров


Вопросы можно будет задать в чате во время выступления докладчиков.

До встречи на митапе!


С уважением,
DWH/BigData 💚
#втренде #Выпуск9

Hadoop Vectored IO 🔥 будет в Hadoop 3.4 и может ускорить Hive в 2 раза. "Vectored read" - новая фича HDFS, расширяющая класс FSDataInputStream.

Apache Sedona добавляет поддержку геоданных в Spark и Flink. Работает в 10 раз быстрее других фреймворков, использует меньше памяти. Проект на рубеже перехода из инкубатора в Top Level Project.

Borch - поверх PyTorch сделан новый язык разработки класса вероятностного программирования для решения продвинутых задач машинного обучения. Статья на arXiv.

Apache Science Data Analytics Platform (SDAP) - по сути это платформа и архитектурная концепция для Лаборатории данных, интегрирующая разрозненные компоненты для поиска, визуализации и ML-подсказок, а также - эмоциональный клей в превосходный UX по анализу данных. Ее особенность в том, что она заточена под юз кейсы науки о земле. Может вдохновить нюансы развития наших проудуктов.

Apache Atlas расширение и альтернативный UI - известны ограничения Atlas, появляются попытки их обойти для использования в крупных компаниях. Установить можно из github
Что вам может пригодиться в работе, о чем хотелось бы узнать в деталях?
Anonymous Poll
77%
Hadoop Vectored IO
21%
Apache Sedona
17%
Borch
15%
SDAP
19%
Альтернативный Atlas UI
Дорогие коллеги!

Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на SDP Hadoop.
Для формирования повестки просим оставлять свои вопросы здесь.

Мероприятие состоится 29 сентября 2022 г. Начало в 15:00.

Повестка:
• Матыцин С. (SberData): «Деградация hdfs на mv-операции: мифы, расследование и решение»
• Ермекбаев З. (SberData): «Планы развития Ozone и SDP Compute в 2023»
• Пронин Д. (SberData): «Процессы сопровождения SDP Hadoop: что делать, чтобы проблемы решались быстро»
Платформа проведения встречи – СберМитап

👉 Ссылка для подключения 👈

Вопросы спикерам можно будет задать устно 🎤.


Обращаем ваше внимание, что мероприятие проводится только для сотрудников Банка, просьба не пересылать информацию внешним участникам.

Спасибо и до встречи!


С уважением,
команда DWH/BigData 💚
#втренде #Выпуск10

Apache Datark . Уже обсуждали перспективный тренд Shuffle Service от Uber, ускоряющий Spark и Hive путем оптимизации механизма spilling-а. Вот +1 от Alibaba на пороге акцепта в Apache Incubator. Сейчас там уже решение этой категории Apache Uniffle, которая применяет другие оптимизации. Нам поможет более оптимально использовать КТС, рост которого ограничен.

Budibase - опен сорс low code-платформа для создания своих приложений. Дашборды же тоже своего рода приложения, но часто ограничены односторонним показом данных. Тут возможно сделать дашборд с локальными корректировками или другими экшенами по работе с данными.

Lightdash - дашборд, опен сорс-альтернатива Looker, наблюдается тренд “Developer friendly BI”. Может рассматриваться как альтернатива и Superset.

Deep Lake - data lake для deep learning-приложений. Реализует бесшовное хранение данных, визуализацию и тренинг моделей без лишнего кодирования. Ссылки на github, стартап и статью.

5x.co - 🔥 Modern Datastack as a Service - удобный портал, через который можно собрать себе кастомную аналитическую систему из разных облачных сервисов. Удобно и быстро: 4 минуты вместо 4 месяцев и в 10 раз дешевле! Выглядит как отличная идея для улучшения UX наших сервиов.


Сегодня в 18:00 - начало конференции Semantic Layer Summit.
https://www.atscale.com/semantic-layer-summit-faq/
Что вам может пригодиться в работе, о чем хотелось бы узнать в деталях?
Anonymous Poll
56%
Apache Datark
16%
Budibase
13%
Lightdash
38%
Deep Lake
Дорогие коллеги! ☀️

Приглашаем вас на очередной онлайн-митап SberProfi DWH/BigData, который состоится 4 октября 2022 года.
Начало в 14:00.

👉 Подключиться 👈


Повестка:

• Кирсанов И. (SberData): «Продукт аутентификации kmanager» (подробнее – в Confluence)
• Цыпин К., Тятюшкин М. (SberData): «Apache Knox как новый стандарт централизованной маршрутизации обращений к большим данным» (подробнее – в Confluence)
• Оршанский Д., Романюк Д. (SberData): «Сервис мониторинга КАП. Кто мы? Что мы умеем? Как к нам подключиться?» (подробнее – в Confluence)



Вопросы можно будет задать в чате во время выступления докладчиков.

До встречи на митапе!


С уважением,
DWH/BigData 💚
Друзья, привет!

С 26 сентября по 9 октября ⁣проходит исследование клиентского опыта CSI в Блоке T 🔥.

Убедительно просим вас уделить немного времени на опрос по ссылке ниже и поделиться обратной связью, которая так нужна коллегам! 🙏

https://public.oprosso.sberbank.ru/p/21iej5nx

Напоминаем, что положительная оценка начинается с 7 баллов.

Желаем каждому из вас продуктивного рабочего дня, а также спокойных и прекрасных выходных! 🧘‍♀️


С уважением,
DWH/BigData 💚
Друзья!
❗️Обращаем ваше внимание на то, что обсуждение рабочих вопросов на публичных площадках (одной из которых является наш чат) иногда влечет наступление репутационных рисков для Банка, а также создает угрозу реализации целевых атак на его сотрудников.

Поэтому коллеги из кибербезопасности напоминают о недопустимости размещения в нашем Telegram-чате конфиденциальной информации :).
В противном случае, работник, разместивший информацию, а также администратор группы могут быть привлечены к ответственности за нарушение требований Стандарта по обеспечению кибербезопасности при работе с автоматизированными системами и средствами вычислительной техники №4727 ч.1.

Надеемся на ваше понимание (и внимательность) 🤗!


С уважением,
DWH/BigData 💚
Друзья! ☔️

Приглашаем вас на экспертную площадку SberProfi DWH/BigData, которая состоится 12 октября 2022 года.
Начало в 14:00.

👉 Подключиться 👈

Тема: Общая база знаний по SPARK
Спикеры: Сурпин Вадим, Белов Алексей (SberData)


Вопросы спикерам можно будет задать в чате во время дискуссии.

До встречи!


С уважением,
DWH/BigData 💚
#втренде #Выпуск11

Тулы и технологии, с которыми мы знакомились выше, можно объединить в более обобщенные тренды. Если мы что-то упустили, пишите в комментарях или общий чат.

🔹Оптимизация текущего -Low-hanging fruit - это когда мы можем подкрутить текущие решения, и уже станет намного лучше.

🔸 DOPE (Data Oriented Paradigm Evolution) - код и вычисления построены вокруг данных (separate data and code, separate compute and storage). Повышает безопасность и управление, контроль и учет данных. Уменьшает количество копий и интеграций между системами.

🔹Low code - no code, codeless, не пишем код, вместо этого движем элементами в UI. Более широкий круг легко обучаемых пользователей, низкий Т2М, меньше ошибок. Минус: ограниченная гибкость.

🔸 Automation - уменьшение ручных действий влечет за собой повышение качества, скорости и снижение стоимости операций. Примеры: DevOps, AiOps, оркестрация (ansible, terraform), predictive maintenance, intelligent error handling

🔹 Cloud Native / Container / Serverless - использование гибкой облачной инфраструктуры открывает новые возможности предоставления своих сервисов пользователям (заказ через портал, гибкое управление ресурсами, абстракция инфраструктуры), мониторинга и масштабирования.

🔸 Х as a Service - двигаемся дальше витруальных машин и распространения дистрибутивов в сторону предоставления готового сервиса пользователям.

🔹 Developer Experience - аналитик/ дата сайентист/ инженер - тоже разработчик. Его положительный пользовательский опыт создания своего решения в рамках ограничений в рабочем процессе может быть сильным инструментом лояльности к работодателю. DevBox (среда разработки/ ВАРМ/ ноутбук), доступный тех.стека уровень автоматизации.

🔸Efficient Software - перестаем шиковать ресурсами и памятью. Делаем софт, который эффективно использует доступные ему ресурсы - это хорошо для экологии и в условиях ограниченного роста КТС. Нужно придумать метрики эффективности, чтобы измерять, как двигаемся (с точки зрения стратегии), а также сравнения ПО/ алгоритмов/ языков между собой. Есть табличка, сравнивающая языки программирования, в которой видно, что Rust - это самый эффективный язык.

🔹Data as a Service - Data Mesh, Metric Store и другие темы, относящиеся к организации данных - моделирование, процессы и распределение ответственности создания ценности для бизнеса.
Дорогие коллеги! ☀️

Приглашаем вас на экспертную площадку SberProfi DWH/BigData, которая состоится 27 октября 2022 года.
Начало в 15:30.

👉 Подключиться 👈

Тема: Проксированные подписки для Лаборатории данных SDP Hadoop
Спикеры: Светлана Светоч, Антон Шкляр, Дана Захарова, Никита Негго, Артем Горюнов (SberData)


Вопросы спикерам можно будет задать в чате во время дискуссии.

До встречи!


С уважением,
DWH/BigData 💚
#втренде #Выпуск12

🔻 WunderBase [⎋](https://github.com/wundergraph/wunderbase) - бессерверная опенсорс-база выставляет GraphQL API поверх SQLite. Экономит ресурсы во время бездействия, поднимается менее чем за секунду при необходимости.


🔻 ClickHouse as a service [⎋](https://clickhouse.com/cloud) демонстрирует полностью бессерверный продукт, которым легко и дешево пользоваться. Просмотр роликов вдохновляет сделать похожее и у нас.


🔻 Apache DevLake [⎋](https://devlake.apache.org/) дебажим devops: Собирает, аггрегирует и визуализирует данные из devops-инструментария. Многое есть out of the box. С помощью этих инсайтов можно повысить продуктивность разработки и вывода ПО.


🔻 Apache Livy [⎋](https://livy.apache.org/) - многими любимый тул, ипользуемый для отладки  Spark. Наблюдаются турбуленции в комьюнити - обсуждают остановку проекта из-за отсутствия активности. С другой стороны, это шанс взять под наше крыло 🫶


🔻 Apache StreamPipes [⎋](https://streampipes.apache.org/) - юзерфрендли инструмент для подключения к потокам данных и их аналитике в режиме self-service. Очень наглядный UI и много интеграций.