NEW BOT Телеграм, страница

Архитектор Данных

Postgres для аналитики - годится ли?

#postgres #analytics

Навигация по постам

1. OLTP БД в роли аналитичекой
2. Планируем рост нагрузки - пример из жизни
3. При каких ограничениях Postgres точно «хватит»
4. Экономика - сколько стоит ММР против «обычной БД»
5. Фичи КХД которых нет в Postgres

Архитектор Данных

Postgres для аналитиков

PostgreSQL – пожалуй, лучшая СУБД с открытым кодом. Можно ли эту классическую OLTP базу использовать для аналитики? Как прикинуть – хватит ее или не хватит?
Давайте обсудим.

При использовании Postgres и любой СУБД со строчным…

🔥4❤1👍1

195 views13:42

Архитектор Данных

О шкафах Икеа и облачном PaaS

Часто возникает вопрос: Зачем нам облачный PaaS, который и дороже, и с некоторыми ограничениями. Можно же просто взять ВМ и настроить все там как-тебе-надо!

Хороший вопрос. Чтобы ответить на хороший вопрос, нужна хорошая аналогия.

Есть на свете шкаф Икеа ПАКС. Это не то чтобы самый идеальный шкаф в мире, тем не менее, популярностью пользуется. Его можно кастомизировать в некоторых пределах. Для этого в нем насверлено много лишних отверстий, и эстетика от этого выходит так себе. Он стандартных размеров и оставляет зазоры. Он плохо терпит любую кривизну стен и полов. Он недешевый. Вы его заказываете, и вам приезжает готовый набор для сборки плюс супер-детальная инструкция. На выходе - при помощи шуруповерта вы за один вечер решаете вашу проблему. А что не так – звоните в поддержку и вам помогают.

А можно поехать в строительный гипермаркет, купить там отдельно доски и фурнитуру – какие вам надо – и изготовить идеальный для вас шкаф. Под вашу геометрию стен, под ваши предпочтения, и скорее всего, выйдет даже дешевле.

Обе опции имеют право на существование.

Облачный PaaS это как раз тот самый Икеа Пакс. Есть некое наилучшая конфигурация для среднего заказчика. Вместо шифоньера – СУБД или Кубернетис, БигДата или ML платформа. Вдобавок есть поддержка, инструкция, гарантия качества в рамках продукта.

В случае ИТ и Облака это работает в большем масштабе. Представьте что вам нужен не только шкаф, но и кухня и сантехника, да еще не на одну квартиру, а на двадцать. А то и на небольшой отель. Представьте что вам надо программно задавать количество и характеристики каждой инсталляции под каждый проект.

Не так-то плохо, что можно поехать в Икею и накупить готовых сборок. Какие бы «фе» не выдавались на эти, казалось бы, кондовые и квадратно-гнездовые конструкции.

❤‍🔥5👍2❤1🔥1

208 views06:45

Архитектор Данных

31 декабря 2024

🔥

В этот раз у меня юбилей.
Вот уже 10 лет я занимаюсь любимым делом, которым намерен заниматься следующие лет 50 точно.

Вот уже 8 лет в моей семье двое.
Вот уже 7 лет - трое, и вот уже 5 лет - пятеро.

В следующем году - и много дальше - я хочу пожелать всем найти дело по душе и обязательно быть с теми, кто вам дорог!

🥂

С праздником, друзья!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍2🔥2

159 views18:55

Архитектор Данных

Как ваши reading lists на праздники? Уже начинаем?

👨‍💻5👍1🔥1

147 views08:05

Архитектор Данных

Душно пост - Облако - IaaS PaaS SaaS

Хорошие ярлыки, но все сложнее чем кажется.

IaaS – Infrastructure as a Service.

Кажется, что все просто, и это тупо виртуальная машина. Но на самом деле нет.

Виртуальная машина это CPU и Память, окей. А какой тип виртуализации? Это влияет на то, сколько будет порезана мощность относительно «железа».

А какая реальная переподписка? На 10 физических ядер сколько «подсажено» запущенных виртуальных машин. Ни для кого же не секрет, что облака зарабатывают на том, что пик нагрузки разных ВМ разных заказчиков не совпадают по времени. Можно на 80 физических ядер подсадить 200-300 виртуальных, и по-прежнему иметь реальную нагрузки на физический ЦПУ 50-70%.

А диск какой? Локальный или облачный, нарезанный с систем хранения? Можно ли «на горячую» расширять диски или подключать/отключать новые к ВМ?

А сеть как виртуализированна? Есть ли облачный фаерволл?

Аренда GPU все больше пользуется популярностью. GPU как виртуализировано? Какой модели? Карты, подключенные к одной ВМ как друг с другом умеют общаться: через ЦПУ или NV-Link? Это прокинутые GPU или vGPU?

Что будет если гипервизору станет плохо? Какие условия миграции ВМ с гипервизора на гипервизор и дисков со стоража на стораж? Будет ли «мигание», будет ли ребут?

Можно ли на-лету поднять ресурсы виртуалки, добавив памяти и ЦПУ?

Как организованы бекапы ВМ и дисков? В S3? На ленту? По какой технологии?

Сколько в облаке ЦОДов? Что будет если откажет целый ЦОД? Можно ли быстро достать оттуда ресурсы и переразвернуть в другом ЦОД? В целом, как организована отказоустойчивость в том числе Control Plain самого облака? Виртуальная сеть на несколько ЦОД растянутая?

Есть ли вспомогательные системы, такие как IaM, аудит доступа, логирование, алертинг? Можно ли получить емейл или SMS о том что сервер упал? А можно ли собрать кастомные метрики приложений и получать алерты по ним?

Как можно программно поднимать инфраструктуру? Есть ли Infra-as-Code провайдеры, Terraform? Что можно делать через API?

Как видите, не так все просто, и IaaS другому IaaSу рознь.

Также привет всем тем, которые поднимают NextCloud или OpenStack / OpenShift на 5 арендованных серверах и думают, что получили аналог большого публичного облака.

AWS, GSC, Azure, Yandex, VK, MTS и другие не просто так берут свою маржу, не правда ли?

#Облако #Душно #IaaS

❤3👍2🔥2

159 views12:21

Архитектор Данных

PaaS – Platform as a Service, Что это за платформа такая?

Чуть выше обсуждали на примере шкафа из Икеи. Не просто виртуалка, а виртуалка, на которой что-то расположено. И поддерживается как что-то целостное. Можно сделать и самому, но придется повозиться. Иногда сильно повозиться.

Как насчет Greenplum / Arenadata, в котором 6 типов ВМ и 8 сервисов? Или Spark-on-k8s, который умеет сам масштабироваться в зависимости от падающей в него нагрузки, а без нагрузки засыпать и не тратить деньги?
Тут еще больше вопросов к каждому типу платформы.

Если это СУБД, то какая в ней отказоустойчивость, какие бекапы: снапшоты или Point-in-time? Как управляются пользователи? Если ли шифрование данных? Есть ли Мульти-ЦОД репликация? Как оно реплицируется и шардится, если оно умеет реплицироваться и шардиться?
Реплики добавить и удалить на лету можно? А диск расширить или добавить ресурсы на ВМ по мере роста?

Если это Кубернетис, то там какие потроха? Какая сеть? Есть ли мульти-мастер? Можно ли в разные нод-группы?

А бывает матрешка: Trino-over-k8s + S3 + Catalog. И там оно как?

Очень много вариантов.

#Облако #PaaS

Архитектор Данных

О шкафах Икеа и облачном PaaS

Часто возникает вопрос: Зачем нам облачный PaaS, который и дороже, и с некоторыми ограничениями. Можно же просто взять ВМ и настроить все там как-тебе-надо!

Хороший вопрос. Чтобы ответить на хороший вопрос, нужна хорошая…

❤2👍2🔥2

174 views12:22

Архитектор Данных

SaaS - Software as a Service.

Тут проще всего, как ни странно. Не приложение на десктопе/планшете/телефоне а сервис в браузере. Или одно + другое бесшовно. Онлайн документами все пользуемся – вот типичный пример SaaS.

Может быть чем угодно еще. PowerBI Cloud. DBT Cloud, CRM (например, Bitrix).

#Cloud #SaaS@analyticsfromzero

👍2🔥2❤1

179 views12:25

Архитектор Данных

По какой модели предоставляется Cloud S3?

Anonymous Poll

Свой вариант (в коментах)

🤯4🤔3😱1

20 voters194 views12:27

Архитектор Данных

DBT – Шуруповерт из мира данных

Продолжая метафору со сборкой мебели.

Есть облачные PaaS как готовые наборы мебели а-ля Ikea Paks и кастомные решения для платформ данных а-ля мебель на заказ под размеры и требования заказчика. Где-то рядом должны быть инструменты для сборки и наладки мебели. На роль шуруповерта, облегчая каждодневный труд мастера, отлично подходит DBT.

Скажут, наши деды успешно справлялись и без шуруповертов. Некоторые добавят, что рукой и отверткой оно как-то вернее и проще. Но едва ли кто-то будет отрицать, что в руках умелого мастера простой аккумуляторный инсрумент сильно ускоряет работу и упрощает труд.
При этом намного важнее чтО крутится, а не чем крутится.

Кратко возможности DBT разбирали чуть раньше.

Также был вебинар-воркшоп.
+ Видео на ВК

5 и 6 января подключайтесь на стрим с Димой Аношиным в канале @rockyourdata.

Совместно мы расскажем о построении платформ данных на базе DBT и о возможностях VK CLOUD для облачных PaaS решений.

Архитектор Данных

😎4⚡2🔥2👍1

256 viewsedited 01:01

Архитектор Данных

Все гениальное просто.

#DBT

❤7👍2🔥2

246 views12:29

Архитектор Данных

Запись 1 дня вебинара по DBT совместно с @rockyourdata

VK Видео

VK Видео

DBT Workshop - Часть 1 - Начало работы (Дмитрий Аношин)

ВЕБИНАР - Начало работы с DBT. День 1. Настраиваем облачную БД Postgres и инициализируем проект DBT. Канал - Инжиниринг Данных (Дмитрий Аношин) t.me/rockyourdata Канал - Архитектор Данных (Алексей Белозерский) t.me/analyticsfromzero

👍6🎉3⚡1

287 views18:51

Архитектор Данных

Примеры DBT репозиториев

Интересный [DBT + Airflow + Clickhouse] репозиторий, застывший в миграции с кастомных ДАГов на DBT. Проект по оценке пользовательских аудиторий крипто-токенов и аналитики аудиторий крипто-проектов. В проекте я участвовал как консультант. Закрыт в 2023 году.

😞

https://github.com/superdao-inc/airflow-dags

Здесь можно найти остатки самописного SQL бойлерплейта и оценить, как переход на DBT сильно облегчает разработку. Также есть кликхаусификация DBT-моделей и несколько специфичных фишек, актуальных именно для Clickhouse. К примеру, вот такая моделька, в которой Clickhouse валится в огромном (3 TB) Group BY запросе, так как ему не хватает RAM. Решение - разбить запрос на чанки по адресам, каждый из которых меньше по размерам, чем весь массив эфириумных транзакций. В DBT модель встроен проброс массива первых букв кошельков, который формируется циклом в Airflow DAG. Или вот такой Generic Test, который проверяет, что в текстовом поле не абы что, а эфириумный адрес-хэш. Есть и макросы-шаблоны запросов, которые после применяются в нескольких моделях для разных эфириумных сеток.

Одним словом, рекомендую сделать dbt docs generate и походить по разным моделькам, макросам и тестам. Стартаперский творческий беспорядок прилагается.

🤪

Мой учебный репозиторий [DBT + Airflow + Greenplum]

https://github.com/alex-belozersky/dataplatform

Сейчас в процессе добавления в него интеграции DBT + Trino + Iceberg. Поставьте GitHub звезду, если интересно

😏

#DBT #GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - superdao-inc/airflow-dags

Contribute to superdao-inc/airflow-dags development by creating an account on GitHub.

⚡5❤2👍2

473 viewsedited 08:09

Архитектор Данных

Примеры DBT репозиториев Интересный [DBT + Airflow + Clickhouse] репозиторий, застывший в миграции с кастомных ДАГов на DBT. Проект по оценке пользовательских аудиторий крипто-токенов и аналитики аудиторий крипто-проектов. В проекте я участвовал как консультант.…

3❤2👏1

244 views11:48

Архитектор Данных

Примерно поэтому я ИИ-скептик в своей профессии.

Репост:

👏1

206 views06:58

Архитектор Данных

Forwarded from Spydell_finance (Paul Spydell)

Общее впечатление от работы с LLM за последние два года

Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты

До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния.

Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM.

Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»?

Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов.

Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора.

На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным.

LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо.

🔘

Вариативность выходных результатов может быть полезна не в расчетах, а в «мозговых штурмах», где как раз требуется расширение границы допустимых векторов и траекторий результатов. Условно говоря, в выработке направлений и идей для исследований.

🔘

LLM очень полезны для неструктурированных массивов данных, для категоризации/каталогизации неструктурированных наборов данных в разных форматах.

🔘LLM могут быть применимы для генерации отчетов по шаблонам.

🔘

LLM более, чем полезны для формирования гранд нарратива в огромных массивах текстовой информации. Например, анализ новостного потока и вычленение основной концепции, которую пытаются продвинуть СМИ. Нарративы «экономика прекрасна, а будет еще лучше» и «ИИ спасет мир», которые я часто публиковал во второй половине 2024 в контексте тональности западных СМИ были получены частично с использованием ГИИ.

Попытка оценить тональность и «болевые точки» корпоративного сектора через анализ пресс-конференций по итогам корпоративных отчетов, это же применимо к анализу комментариев общественности.

Это в теории. На практике ограничения контекстного окна, блокировка поисковых роботов ГИИ в ведущих СМИ и высокая стоимость обработки токенов не позволяют использовать этот ресурс на полную мощность.

Автоматический анализ новостного потока – хорошая идея и уже технически реализуема, но на практике пока нет.

Как экспертная система ГИИ очень слаб. Проверял в направлениях, в которых имею высокую квалификацию. На запрос о факторах роста рынка или причины возникновения инфляции, - LLM создадут весьма примитивную блеватню на уровне среднестатистических новостных экстрактов, что совершенно не соответствует уровню Spydell_finance.

Сейчас все LLM генерируют низкое качество «экспертного контента», где требуется понимание причинно-следственных связей в условиях противоречивой среды с недостатком входных данных и многоуровневой конструкции параметров. Писать материалы в канале уровня Spydell_finance с помощью ГИИ не получится еще очень долго.

Где применимы LLM в научной среде? Очень ограниченные локальные задачи с точки зрения помощи в программировании, решении математических и статистических задач, помощь в адаптации информационных комплексов на уровне проводника по мануалам.

Еще неплохой потенциал есть в умном поиске информации в сети, хотя сейчас реализация на 4 из 10.

Инструмент полезный, но на чудеса пока не тянет, хотя потенциал очень серьезный. Я указал не все применения, а только в рамках собственных рабочих задач.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👏2👍1

230 views06:58

Архитектор Данных

Пишет человек, искренне поверивший в магические ЛЛМ и пытавшийся внедрить в свои процессы.

В аналитике внедряемость около нуля. Все потому что любой ИИ современного извода заточен на воспроизводимость уже известного. В то время как хороший аналитик работает как раз с новыми вопросами, которых никто раньше не задавал.

Я могу представить решение задачи вида «покажи мне объем продаж за месяц по категориям. А теперь по магазинам». Да и то это возможно в ситуации когда витрины данных подчиняются шаблонам. То это это ИИ-ассистент в BI конструкторе битрикса, к примеру. Или ИИ-помогай в зуме, которому можно задать простые вопросы.

Но вопрос вида «как изменятся продажи, если я повышу расходы на рекламу на 50%» останется без ответа. И инсайты о том, что еще потребуется расширить склад, ИИ не найдет.

Хороший аналитик отвечает на вопросы, заданные впервые. Хороший аналитик больше работает с людьми, чем с данными. Никакой ИИ ему не угроза.

👍3🤝3❤1

241 viewsedited 07:08

Архитектор Данных

Зачем нужна аналитика

В наши неспокойные времена любому из нас полезно уметь объяснить, зачем мы нужны работодателю и чем полезны для его бизнеса. Актуально это и для аналитики данных, которая, на первый взгляд, не кажется бизнес-критичной функцией.

Краткая памятка, зачем нужна и чем полезна аналитика данных.

📰

Отчетность

Первое, что приходит в голову, когда говорим про аналитику данных. Собственнику и топам полезно знать в деталях, какой перформанс имеет компания и отдельные ее подразделения. Еще полезнее, когда отчетность доступна не в экселе по запросу через 1-2 дня, а в любой момент в закладке в браузере.

Что требуется для отчетности:
– Понимание ключевых метрик бизнеса. Знать, куда и на что смотреть.
– Процессы по сбору и презентации данных. Хранилище данных и BI.
– Мониторинг качества данных. Смотрим на реальное положение вещей и верим в то, что видим.

📈📈📈📈📈📈
Оптимизация процессов

Перформанс сотрудников на местах заметно растет, если снабдить их релевантными и своевременными данными по их бизнес-процессам. Работать по наитию и на опыте хорошо, но еще лучше если экспертиза и опыт сотрудников дополняются актуальной картиной положения дел в удобной форме. Кроме того, всегда есть риск, что «я всегда так делаю» в какой-то момент сломается, и бизнес потеряет деньги. Важно не упустить этот момент.

Требуется:
– Доменная аналитика в вашей области деятельности
– Аналитики, способные говорить на одном языке со специалистами в области
– Система мотивации, поощряющая сотрудников пользоваться данными для закрытия их KPI. Высокие цели + инструменты их достигнуть.

💰

Данные как актив

Tesla стоит столько, сколько она стоит во многом потому что у них самый большой датасет для автопилота. У них есть данные, как ведет себя автомобиль, и что видят его камеры-сенсоры в разных странах, в разное время года и дня, в городе и селе, на трассе и на проселке, в пустыне и на крайнем севере. Как только мир понял, что авто будущего это не только электро- но еще и автопилотная, ценность накопленных за 10 лет данных забустила цену компании.

Другой пример. Стартап по ДНК-тестам кошек. Была идея продукта, который принимает мазок изо рта любимого питомца и выдает хозяину набор рекомендаций по здоровью – все как у людей. Сам продукт на окупаемость не вышел. Но стартап продали очень дорого, так как только у них (!) есть большая БД ДНК домашних кошек.

Данные могут дорого стоить. Данные могут растить вашу ценность и капитализацию вашей компании.

Подумайте, какие данные могут быть значимыми в вашей отрасли. Какие тренды есть у вас и какие датасеты понадобятся вам и вашим партнерам завтра.

А хранить данные не слишком дорого. Например в облачном S3.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2👏2

264 views14:10

Архитектор Данных

Отчетность

Хорошо когда есть такие "дашборды руководителя" или "дашборды инвестора". На самом деле, это не требует каких-то сверх-усилий, но в таких картинках содержится заметная часть ответа на вопрос "Зачем я вам, олухам, деньги плачу".

За красоту, начальник, красоту и точность!

LEFT JOIN

Дашборд для руководителя в Power BI
Как и обещали, разбавляем дашборды из Tableau примерами работ из других BI-систем. Сегодня на очереди Power BI.

Три вкладки, куча фильтров (и, конечно, кросс-фильтрация), интерактивные графики и занятное оформление.
…

❤3👍2👏1

240 views09:40

Архитектор Данных

Всем привет!

Врываясь в будни - все еще ищу крутых DBA и DE себе в команду.

https://team.vk.company/vacancy/39575/

Будет много консалтинга по Postgres, Greenplum. Дальше - Trino+Spark+Iceberg Озера данных и Лейкхаусы. У нас уникальная в российских облаках команда Big Data Services. Занимаемся сложными Data проектами на переднем крае технологий.

10к СУБД уже крутятся, прирастают х2 год-к-году и ждут вас!

Откликайтесь на портале или пишите @alexbelozersky

❤4⚡1🔥1

273 viewsedited 11:30

Блиц-обзор возможностей и "милых прикольчиков" кластерного Clickhouse.

Прочитано студентам ФКН ВШЭ практически экспромтом. Не судите строго.

#Clickhouse #webinar

👍6🔥3⚡1

387 views13:24

Архитектор Данных

Милые прикольчики кликхауса.

Postres (и любая нормальная БД) кинет ошибку

SQL Error [22003]: ERROR: integer out of range

👍3🔥2❤1

296 viewsedited 13:36

About

Blog

Apps

Platform