NEW BOT Телеграм, страница

Все гениальное просто.

#DBT

❤7👍2🔥2

253 views12:29

Запись 1 дня вебинара по DBT совместно с @rockyourdata

VK Видео

DBT Workshop - Часть 1 - Начало работы (Дмитрий Аношин)

ВЕБИНАР - Начало работы с DBT. День 1. Настраиваем облачную БД Postgres и инициализируем проект DBT. Канал - Инжиниринг Данных (Дмитрий Аношин) t.me/rockyourdata Канал - Архитектор Данных (Алексей Белозерский) t.me/analyticsfromzero

👍6🎉3⚡1

295 views18:51

Архитектор Данных

Примеры DBT репозиториев

Интересный [DBT + Airflow + Clickhouse] репозиторий, застывший в миграции с кастомных ДАГов на DBT. Проект по оценке пользовательских аудиторий крипто-токенов и аналитики аудиторий крипто-проектов. В проекте я участвовал как консультант. Закрыт в 2023 году.

😞

https://github.com/superdao-inc/airflow-dags

Здесь можно найти остатки самописного SQL бойлерплейта и оценить, как переход на DBT сильно облегчает разработку. Также есть кликхаусификация DBT-моделей и несколько специфичных фишек, актуальных именно для Clickhouse. К примеру, вот такая моделька, в которой Clickhouse валится в огромном (3 TB) Group BY запросе, так как ему не хватает RAM. Решение - разбить запрос на чанки по адресам, каждый из которых меньше по размерам, чем весь массив эфириумных транзакций. В DBT модель встроен проброс массива первых букв кошельков, который формируется циклом в Airflow DAG. Или вот такой Generic Test, который проверяет, что в текстовом поле не абы что, а эфириумный адрес-хэш. Есть и макросы-шаблоны запросов, которые после применяются в нескольких моделях для разных эфириумных сеток.

Одним словом, рекомендую сделать dbt docs generate и походить по разным моделькам, макросам и тестам. Стартаперский творческий беспорядок прилагается.

🤪

Мой учебный репозиторий [DBT + Airflow + Greenplum]

https://github.com/alex-belozersky/dataplatform

Сейчас в процессе добавления в него интеграции DBT + Trino + Iceberg. Поставьте GitHub звезду, если интересно

😏

#DBT #GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - superdao-inc/airflow-dags

Contribute to superdao-inc/airflow-dags development by creating an account on GitHub.

⚡5❤2👍2

544 viewsedited 08:09

Архитектор Данных

Примеры DBT репозиториев Интересный [DBT + Airflow + Clickhouse] репозиторий, застывший в миграции с кастомных ДАГов на DBT. Проект по оценке пользовательских аудиторий крипто-токенов и аналитики аудиторий крипто-проектов. В проекте я участвовал как консультант.…

3❤2👏1

250 views11:48

Архитектор Данных

Примерно поэтому я ИИ-скептик в своей профессии.

Репост:

👏1

211 views06:58

Архитектор Данных

Forwarded from Spydell_finance (Paul Spydell)

Общее впечатление от работы с LLM за последние два года

Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты

До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния.

Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM.

Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»?

Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов.

Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора.

На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным.

LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо.

🔘

Вариативность выходных результатов может быть полезна не в расчетах, а в «мозговых штурмах», где как раз требуется расширение границы допустимых векторов и траекторий результатов. Условно говоря, в выработке направлений и идей для исследований.

🔘

LLM очень полезны для неструктурированных массивов данных, для категоризации/каталогизации неструктурированных наборов данных в разных форматах.

🔘LLM могут быть применимы для генерации отчетов по шаблонам.

🔘

LLM более, чем полезны для формирования гранд нарратива в огромных массивах текстовой информации. Например, анализ новостного потока и вычленение основной концепции, которую пытаются продвинуть СМИ. Нарративы «экономика прекрасна, а будет еще лучше» и «ИИ спасет мир», которые я часто публиковал во второй половине 2024 в контексте тональности западных СМИ были получены частично с использованием ГИИ.

Попытка оценить тональность и «болевые точки» корпоративного сектора через анализ пресс-конференций по итогам корпоративных отчетов, это же применимо к анализу комментариев общественности.

Это в теории. На практике ограничения контекстного окна, блокировка поисковых роботов ГИИ в ведущих СМИ и высокая стоимость обработки токенов не позволяют использовать этот ресурс на полную мощность.

Автоматический анализ новостного потока – хорошая идея и уже технически реализуема, но на практике пока нет.

Как экспертная система ГИИ очень слаб. Проверял в направлениях, в которых имею высокую квалификацию. На запрос о факторах роста рынка или причины возникновения инфляции, - LLM создадут весьма примитивную блеватню на уровне среднестатистических новостных экстрактов, что совершенно не соответствует уровню Spydell_finance.

Сейчас все LLM генерируют низкое качество «экспертного контента», где требуется понимание причинно-следственных связей в условиях противоречивой среды с недостатком входных данных и многоуровневой конструкции параметров. Писать материалы в канале уровня Spydell_finance с помощью ГИИ не получится еще очень долго.

Где применимы LLM в научной среде? Очень ограниченные локальные задачи с точки зрения помощи в программировании, решении математических и статистических задач, помощь в адаптации информационных комплексов на уровне проводника по мануалам.

Еще неплохой потенциал есть в умном поиске информации в сети, хотя сейчас реализация на 4 из 10.

Инструмент полезный, но на чудеса пока не тянет, хотя потенциал очень серьезный. Я указал не все применения, а только в рамках собственных рабочих задач.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👏2👍1

235 views06:58

Архитектор Данных

Пишет человек, искренне поверивший в магические ЛЛМ и пытавшийся внедрить в свои процессы.

В аналитике внедряемость около нуля. Все потому что любой ИИ современного извода заточен на воспроизводимость уже известного. В то время как хороший аналитик работает как раз с новыми вопросами, которых никто раньше не задавал.

Я могу представить решение задачи вида «покажи мне объем продаж за месяц по категориям. А теперь по магазинам». Да и то это возможно в ситуации когда витрины данных подчиняются шаблонам. То это это ИИ-ассистент в BI конструкторе битрикса, к примеру. Или ИИ-помогай в зуме, которому можно задать простые вопросы.

Но вопрос вида «как изменятся продажи, если я повышу расходы на рекламу на 50%» останется без ответа. И инсайты о том, что еще потребуется расширить склад, ИИ не найдет.

Хороший аналитик отвечает на вопросы, заданные впервые. Хороший аналитик больше работает с людьми, чем с данными. Никакой ИИ ему не угроза.

👍3🤝3❤1

246 viewsedited 07:08

Архитектор Данных

Зачем нужна аналитика

В наши неспокойные времена любому из нас полезно уметь объяснить, зачем мы нужны работодателю и чем полезны для его бизнеса. Актуально это и для аналитики данных, которая, на первый взгляд, не кажется бизнес-критичной функцией.

Краткая памятка, зачем нужна и чем полезна аналитика данных.

📰

Отчетность

Первое, что приходит в голову, когда говорим про аналитику данных. Собственнику и топам полезно знать в деталях, какой перформанс имеет компания и отдельные ее подразделения. Еще полезнее, когда отчетность доступна не в экселе по запросу через 1-2 дня, а в любой момент в закладке в браузере.

Что требуется для отчетности:
– Понимание ключевых метрик бизнеса. Знать, куда и на что смотреть.
– Процессы по сбору и презентации данных. Хранилище данных и BI.
– Мониторинг качества данных. Смотрим на реальное положение вещей и верим в то, что видим.

📈📈📈📈📈📈
Оптимизация процессов

Перформанс сотрудников на местах заметно растет, если снабдить их релевантными и своевременными данными по их бизнес-процессам. Работать по наитию и на опыте хорошо, но еще лучше если экспертиза и опыт сотрудников дополняются актуальной картиной положения дел в удобной форме. Кроме того, всегда есть риск, что «я всегда так делаю» в какой-то момент сломается, и бизнес потеряет деньги. Важно не упустить этот момент.

Требуется:
– Доменная аналитика в вашей области деятельности
– Аналитики, способные говорить на одном языке со специалистами в области
– Система мотивации, поощряющая сотрудников пользоваться данными для закрытия их KPI. Высокие цели + инструменты их достигнуть.

💰

Данные как актив

Tesla стоит столько, сколько она стоит во многом потому что у них самый большой датасет для автопилота. У них есть данные, как ведет себя автомобиль, и что видят его камеры-сенсоры в разных странах, в разное время года и дня, в городе и селе, на трассе и на проселке, в пустыне и на крайнем севере. Как только мир понял, что авто будущего это не только электро- но еще и автопилотная, ценность накопленных за 10 лет данных забустила цену компании.

Другой пример. Стартап по ДНК-тестам кошек. Была идея продукта, который принимает мазок изо рта любимого питомца и выдает хозяину набор рекомендаций по здоровью – все как у людей. Сам продукт на окупаемость не вышел. Но стартап продали очень дорого, так как только у них (!) есть большая БД ДНК домашних кошек.

Данные могут дорого стоить. Данные могут растить вашу ценность и капитализацию вашей компании.

Подумайте, какие данные могут быть значимыми в вашей отрасли. Какие тренды есть у вас и какие датасеты понадобятся вам и вашим партнерам завтра.

А хранить данные не слишком дорого. Например в облачном S3.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2👏2

270 views14:10

Архитектор Данных

Отчетность

Хорошо когда есть такие "дашборды руководителя" или "дашборды инвестора". На самом деле, это не требует каких-то сверх-усилий, но в таких картинках содержится заметная часть ответа на вопрос "Зачем я вам, олухам, деньги плачу".

За красоту, начальник, красоту и точность!

LEFT JOIN

Дашборд для руководителя в Power BI
Как и обещали, разбавляем дашборды из Tableau примерами работ из других BI-систем. Сегодня на очереди Power BI.

Три вкладки, куча фильтров (и, конечно, кросс-фильтрация), интерактивные графики и занятное оформление.
…

❤3👍2👏1

245 views09:40

Архитектор Данных

Всем привет!

Врываясь в будни - все еще ищу крутых DBA и DE себе в команду.

https://team.vk.company/vacancy/39575/

Будет много консалтинга по Postgres, Greenplum. Дальше - Trino+Spark+Iceberg Озера данных и Лейкхаусы. У нас уникальная в российских облаках команда Big Data Services. Занимаемся сложными Data проектами на переднем крае технологий.

10к СУБД уже крутятся, прирастают х2 год-к-году и ждут вас!

Откликайтесь на портале или пишите @alexbelozersky

❤4⚡1🔥1

280 viewsedited 11:30

Блиц-обзор возможностей и "милых прикольчиков" кластерного Clickhouse.

Прочитано студентам ФКН ВШЭ практически экспромтом. Не судите строго.

#Clickhouse #webinar

👍6🔥3⚡1

398 views13:24

Архитектор Данных

Милые прикольчики кликхауса.

Postres (и любая нормальная БД) кинет ошибку

SQL Error [22003]: ERROR: integer out of range

👍3🔥2❤1

300 viewsedited 13:36

Архитектор Данных

Forwarded from VK Team

🎄 Любителям DS и ML — Data Ёлка!

Это мини-конференция сообщества Open Data Science, которая в этом году пройдёт в офисе VK и онлайн в VK Видео. Обсудим главные события и тренды отрасли за год, разберём лучшие решения с VK RecSys Challenge, пообщаемся на афтепати, наградим гостей за лучшие вопросы и новогодние костюмы.

🗓 18 января, 12:00 (сбор гостей с 11:00).
🖥 Онлайн в VK Видео — смотрите трансляцию в сообществе VK Team ВКонтакте.
📍 Москва, БЦ Skylight — Ленинградский проспект, 39, строение 79. На входе надо будет показать подтверждение участия и паспорт. Приглашение придёт на email после регистрации.

Встретимся у ёлки! 💙

❤3🤗2⚡1

295 views08:51

Архитектор Данных

Про собесы и увольнения

Однажды меня попросили на ТЗ нарисовать схему расположения графа в реляционной БД.

Я написал 8 способов. Рассмотрел случаи простых, направленных, взвешенных графов. Расписал преимущества и недостатки каждого метода. Написал эффективные запросы по различным обходам графов с учетом особенностей различных БД - знал тогда про Oracle (там LEVEL) и Postgres (WITH RECURSIVE). Одним словом, постарался, потому что считал позицию хорошей. В Банк.

Это был Сбер. И это было самая убогая днище позиция за все мои 12 лет. На ней я с руки запускал скрипты по прогрузкам данных в утро, когда у меня родился ребенок. Потому что никакой инфраструктуры не было и никто не понимал, зачем она вообще нужна. Никто из 40 аналитиков в «гильдии» БЮ.

Второй собес был у меня в СберМаркет на позицию руководителя операционной аналитики. Тяжелая должность, но лид лидов, команда 25 человек, правда с наполненностью 50%. Все было неплохо, но потом я увидел менеджера-заказчика аналитики, его повадки, и сбежал как от огня.

В третий раз столкнулся с зелеными где-то год тому назад. На финальном собесе вдруг осознал, что не видел никого из команды и не видел будущего непосредственного руководителя. Хотя оффер уже есть. Все это время получал максимально расплывчатые формулировки о том, что собственно делать надо. Хотя оффер есть.

Вывод. Выводы в том, что есть на свете специфичные организации со специфичными порядками и специфичным менеджментом. Потом стоит ли удивляться, что после очередных вывертов начальства, когда кто-то очередной доуправлялся, вас пачками отправят на мороз, не особо разбираясь. Руководствуясь принципами, сколько дней кто посещает офис.

😱8💯8🤨2

298 views07:30

Архитектор Данных

Анонс - Data Lake[House]

В начале февраля буду презентовать Cloud Trino.

Это первый кирпичик в технологии Data Lake / Data LakeHouse. В комплекте идет Iceberg Catalog, который впоследствии может быть подключен к кластерам Trino, Spark, Clickhouse. В итоге будет возможно работать с одним датасетом несколькими сервисами одновременно. Сделали ETL на Спарке, и эти данные сразу же увидели аналитики и BI, подключенные к Трино.

Это пока что в будущем. Пока же первый шаг - кластер Trino + k8s + Iceberg Catalog + S3 Bucket. Все сервисы один-к-одному, то есть нельзя будет подключиться 2 кластерами Трино+Трино или Трино+Спарк к одному бакету.

В комменты обязательно накидайте вопросы по данному набору технологий, которые хотели бы подсветить.

Следите за анонсами, чтобы не пропустить.

🔥13

255 views08:23

Архитектор Данных

Нейросети и Китайские комнаты

Есть известный мысленный эксперимент - «Китайская комната». Представим себе ящик, и в нем сидит человек. На вход подаются карточки с фразами на китайском, который сам человек не знает. Но у него есть подробная инструкция, как ему отвечать. Если на вход карточки 1, 50, 100500800, то на выход - 3, 180, 666666. И так система в целом общается с внешним миром. Инструкция максимально детальная и до какой-то степени релевантная. Постоянно обновляется.

Можно ли сказать, что этот человек говорит по-китайски и является носителем китайского языка?

Можно ли считать студента, задрочившего все билеты, знатоком предмета? Можно ли школьника, заточенного под идеальную сдачу ЕГЭ и сдавшего на 100, считать освоившим школьную программу?

Интересный ответ был предложен в романе «Ложная Слепота» Уотсом. Давайте разделим интеллект и разум. Китайская комната обладает интеллектом, но не разумом. Правда, если начать копать в этом вопросе, то выяснится, что и человек-то не слишком разумен.

Я же считаю, что китайская комната не есть интеллект, хотя может быть полезным бизнес-инструментом с кучей оговорок и нюансов. Очень умный попугай не есть эксперт по всем вопросам. Интеллект это способность решать нестандартные задачи нестандартным способом.

И вообще, может ли компьютер сочинить симфонию?

👍6🔥3❤2🤓2

296 views14:20

Архитектор Данных

Контент в 2025

Anonymous Poll

26%

Новые технологии и лейкхаусы

58%

Хаки DBT, AIrflow, СУБД

Нейро галлюцинации

11%

Мемасики

57 voters331 views14:21

Архитектор Данных

Does this unit have a soul?

Anonymous Poll

55%

Yes

45%

29 voters324 views14:40

Архитектор Данных

Любителям использовать ответы нейросетей как аргумент в спорах посвящается

Далее репост.

250 views12:42

Архитектор Данных

Forwarded from БП онлайн

1:23

Media is too big

VIEW IN TELEGRAM

Мужчины: «да нет у меня никакой депрессии», также мужчины:

Источник.

😁5

306 views12:42

Архитектор Данных

Также посвящается внедрившим API LLM в боты суппорта компаний.

Также надеящимся, что Алиса - грамотный ассистент для домашней работы. Как в романе "Алмазный Век" Нила Стивенсона, ага.

🥴5

312 viewsedited 12:45

About

Blog

Apps

Platform