Архитектор Данных – Telegram
Архитектор Данных
1.08K subscribers
144 photos
8 videos
2 files
115 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Перспективные инструменты

Делюсь инструментами под-разбор, которые мы с командой наметили для тестов.
#NewTech

Apache SeaTunnel

Инструмент потоковой обработки данных. Работает on-top Spark, Flink или собственного движка Zeta. Заявлен no-code.
Пока воспринимаем как более крутую и технологичную альтернативу AIrbyte.

Лицензия

Apache 2.0

Ресурсы

Документация - https://seatunnel.apache.org/docs/2.3.8/about/
GitHub - https://github.com/apache/seatunnel

Поделитесь в комментах, кто тестировал или использовал

#ETL #Streaming #Apache #NewTech
🔥5
Первая - моя.

Откликайтесь, приводите знакомых. 5000 баз данных ждут вас.
Forwarded from VK Team
Сеньоры, всё для вас — рассветы и туманы вакансии ниже 🌅

🌟 Администратор баз данных в VK Cloud, Москва или удалённо
Знатоки-архитекторы БД, это для вас! Предстоит следить за бесперебойной работой СУБД, продумывать сервисы резервного копирования по требованиям заказчика и разбираться в сложных проектах по миграции инфраструктуры в облако. Берётесь?

🌟 Технический менеджер проектов в команду информационной безопасности, Москва или удалённо
Тут ребята разрабатывают внутреннее решение для хранения и поиска данных — в их хранилище горячих поисковых запросов около 800 терабайт данных. Сейчас они ищут того, кто линейно и функционально возглавит команду: будет развивать внутренние процессы, управлять разработкой интеграций и ставить задачи подрядчикам.

🌟 Продуктовый аналитик в ОК, Москва или удалённо
Вакансия классная! Из задач: разрабатывать метрики продукта, на основе анализа данных искать точки роста, проводить А/В-тесты и сопровождать запуски новых фич. Интересно? Тогда переходите по ссылке и откликайтесь!

🌟 Ведущий менеджер по развитию бизнеса в Tarantool, Москва
Продавали технически сложные продукты крупным enterprise-клиентам? Не раз вели переговоры и убеждали других в своей правоте? Тогда это то, что нужно. Надо будет строить доверительные отношения с заказчиками, продавать Tarantool и участвовать в тематических конференциях и выставках. Ну что?

🌟 Инженер DevOps в VK Tech, Москва или удалённо
Давайте сразу к делу. Занимались администрированием Linux, знаете Docker или Kubernetes, разбираетесь в физических и виртуальных сетях? А ещё хотите поддерживать циклы разработки ПО и создавать инфраструктурную архитектуру? Тогда офер почти ваш, осталось пройти собеседования!

Ничего не нашли, но хотите работать у нас? Переходите на карьерный сайт, там вакансии на любой вкус и навык!

#Senior
4
10 октября был день четырех (!) конференций. Из них удалось посетить две: selectel tech day и партнерский форум VK Tech.

Не знаю как так вышло, что в один непримечательный будний день, четверг, организовались сразу 4 больших форума.

В кулуарах обсуждали с коллегами как сегодня на все успеть.

Дорогие организаторы, давайте все же разносить мероприятия по дням 😆
👍4
Виды Greenplum

Ранее
О Greenplum - Часть 1 - Почему Greenplum популярен [В России]


🔪🔪🔪🔪🔪🔪🔪🔪🔪🔪🔪
24 Мая 2024 года новый владелец платформы Tanzu - компания Broadcom - заархивировала публичные репозитории Greenplum. В списке архивированных теперь
https://github.com/greenplum-db/gpdb-archive
https://github.com/greenplum-db/gporca-archive
https://github.com/greenplum-db/pxf-archive
и другие. Код доступн только для чтения, о чем нас предупреждает GitHub.

За последние годы Greenplum и его производные стал фактически российской СУБД для больших данных по умолчанию. Альтернатив ему на нашем рынке в сегменте больших транзакцонных MPP СУБД практически нет.

К сожалению, за последние 5 месяцев российские вендоры Greenplum не смогли договориться о совместной работе по дальнейшему развитию всем так нужной платформы. Сказываются различные интересы: одним интересен он-прем в его российских реалиях, другим - публичное облако.

Давайте соберем краткую подборку, какие виды GP есть и поддерживаются разными компаниями.


Vanilla Greenplum

Никуда не ушел. По-прежнему можно скачать код-базу и собрать последнюю версию СУБД или воспользоваться собранными бинарниками. Продукт (пока что) застрял на версии 6.27 и нестабильной 7.2
Основная проблема в морально и физически устаревшем PostgreSQL 9.4

Ресурсы
Сайт - https://greenplum.org/
Github - https://github.com/greenplum-db/gpdb-archive
Документация с некоторых пор закрыта от российский IP.

Проприетарная версия доступна в составе VMware Tanzu Data Suite.


Arenadata Greenplum - Greengage

Родился как проект по развитию кодовой базы Greenplum в поставке Arenadata DB. В будущем версии Arenadata DB в редакциях Community и Enterprise перейдут на GreenGage. Заявлено, что для пользователей сборок Аренадаты переход произойдет бесшовно - просто с очередным обновлением ADB «под капотом» перейдет на Greengage.

Новые утилиты в поставке Arenadata будут называться по-другому, например, ggshrink вместо gpshrink. Возможно, со временем мы увидит ggconfig, ggperfcheck и другие внутренние утилиты.

Заявлен поэтапный переход на Postgres v.16 и такие фичи как авто-фейловер.

Ресурсы
Сайт - https://greengagedb.org/
GitHub - https://github.com/arenadata/gpdb
Telegram (анонс) -

Полезные ссылки - видео

Круглый стол (Тиньков)
https://vk.com/video-151223562_456239528

Анонс GreenGage (Аренадата)
https://vk.com/video-211969254_456239091

Круглый стол (Аренадата)
https://vk.com/video-211969254_456239092


CloudBerry Database

Наследник Greenplum 7 от конгломерата китайских разработчиков. В основе - Postgres 14. Популярен по ту сторону Великого Фаерволла, в наших краях редок

Сайт
https://cloudberrydb.org/

GitHub
https://github.com/cloudberrydb/cloudberrydb



Yandex Greenplum

Облачная версия Greenplum-6 от Яндекса. Имеет несколько значимых доработок, к примеру, драйвер Yezzey, который позволяет хранить данные БД на S3.

Документация облака.
https://yandex.cloud/ru/services/managed-greenplum

GitHub
https://github.com/open-gpdb/yezzey

Разделение Compute-Storage
https://www.youtube.com/watch?v=D22bZCLZOjQ


#Greenplum #Инструменты #DB
👏3🤔3
Коротко о потреблении памяти в #Greenplum.

Greenplum очень "жадно" выделяет оперативу для запросов. Главный параметр, на который он ориентируется, это concurrency в ресурсной группе. Если в дефолт группе стоит concurrency=10 и прилетает 2-3 тяжелых запроса, он не выделит много памяти, так как ждет еще 10 подключений.

На картинке иллюстрация прогона пака запросов из репозитория.

Прогон в 3 вариантах.

1. 32 GB памяти на сегмент concurrency=10. Выделено ок. 3 ГБ

2. 32 GB памяти на сегмент, concurrency=4. Выделено ок. 6 ГБ

3. 64 GB памяти на сегмент, concurrency=4. Выделено ок. 21 ГБ.

Пак запросов с транзакциями эфира - до 4 млрд строк.

Простое уменьшение параллелизма приводит к увеличению эффективной памяти в 2 раза. Хотя казалось бы, других запросов нет и 80% shared_quota.

Увеличение памяти ВМ в 2 раза ведет к увеличению эффективной памяти в 3,5 раза. Эффект нелинейный. Хотя казалось бы, свободной памяти более 50%

Какие выводы

Если есть тяжелые запросы, обязательно выделите ресурсную группу с малым concurrency и отдавайте их туда.
Это актуально для ELT и для Ad-Hoc.

Также полезно научиться переносить запросы внутри сессии между рес. группами.
👍3🔥21
когда отправил себе подборку облигаций от Т-Инвестиций и получил предложение закодироваться от программирования.

Писала "креатив" явно нейронка.

Пример как не надо делать. Не там и не то в попытках заработать 2 копейки.
🤮32🔥2
Всем привет

Канал постепенно утрачивает статус шпаргалки к вебинарам. Пришло время представиться (и где были мои манеры раньше!).

Меня зовут Алексей, и я аналитик и архитектор данных. Работаю с большими БД, Greenplum, Clickhouse, Spark, Kafka, Trino. Строю хранилища и озера данных.

Сейчас тружусь в b2b ВК облаке, ex-Arenadata, ex -Uchiru, ex-Мвидео-Эльдорадо. Сделал порядка 10-ка проектов в AWS, Google Cloud.

Здесь делюсь бестпрактисами, лайфхаками, хинтами. Иногда записываем с командой вебинары на студии Skillbox.

Спасибо всем, кто читает и ставит реакции!
17👍2🔥2
Архитектор Данных pinned «Всем привет Канал постепенно утрачивает статус шпаргалки к вебинарам. Пришло время представиться (и где были мои манеры раньше!). Меня зовут Алексей, и я аналитик и архитектор данных. Работаю с большими БД, Greenplum, Clickhouse, Spark, Kafka, Trino. Строю…»
Сейчас на rubiconf на стенде облака.

Завтра буду на партнерской конференции Аренадата.

Подходите, поговорим.
👏4🥱3👍2🔥1
Forwarded from Клиент
Коллеги, не берите на встречу аналитика, он нас пугает
😁6🤣1🤪1
Красивейший особняк сняли ребята из Аренадаты на Дубровке!
7👍3🔥1
Душно пост – Что есть база данных

Мы часто огульно говорим: «база данных». Часто за этим стоят разные вещи, в зависимости от контекста. Также нередко мы слышим: «Мы поддерживает 10000 баз данных». Это 10к именно логических БД или 10к СУБД или 10к серверов? Может быть любой из этих трех вариантов.

Давайте разберемся в терминологии (откройте окно, стало душно!)

БД (База Данных) – это сам массив данных. Строго говоря, это могут быть просто файлы на диске в формате csv/parquet/whatever или база данных телефонных номеров в экселе. То есть просто данные (датасеты), до которых можно как-то добраться, прочитать и извлечь полезную информацию. В идеале – к БД прилагается метаинформация о том, как именно данные стоит читать и как правильно воспринимать: телефоны в формате +7-ХХХ-ХХХХХХХ и никак иначе, а деньги в монгольских тугриках.

СУБД (Система Управления БД). Это программа, софт, который где-то запущен. Главная его задача – предоставлять доступ к БД в некоем наборе протоколов. Быть готовы, что придут пользователи и начнут что-то читать или записывать/обновлять.
Пример – кластер Postgres, принимающий подключения по JDBC с аутентификацией через LDAP.
Пример – кластер Opensearch, принимающий запросы по HTTP JSON API.

Кластер СУБД. Может быть достаточно сложносочиненной конструкцией из многих нод нескольких типов. Postgres + Patroni состоит из:
– Мастер
– Синхронная реплика
– Несинхронные реплики (в облаке их количество доходит до 15)
– Сервис patroni
– Кластер из нескольких DSC (etcd или consul)
– Балансировщики: Octavia, HAProxy и тд
– Пулеры: pgbouncer, pgpooler, odyssey

Все это может размещаться на нескольких серверах или виртуальных машинах, но точно больше чем 3-х.
Нередко в одну СУБД помещают несколько логических БД. К примеру в кластере Postgres + Patroni создается несколько независимых объектов БД:
Create database mydb owner user;

Некторые БД могут «ездить» по кластерам на разных этапах соего жизненного цикла. БД начинает как пилотная на коммунальном кластере, но по мере роста нагрузки и выведения в прод поселяется на мощном отказоустойчивом кластере Patroni.

Когда приходят и говорят: «У нас N баз данных», могут иметь в виду разное: N логических БД, N кластеров БД, N ВМ в составе кластеров. Соответственно, и масштаб проблемы может быть разным.
😁1
В качестве приложения - архитектура Patroni кластера.

Взято из:
https://postgrespro.ru/clusters/patroni
👍3🔥21