Архитектор Данных – Telegram
Архитектор Данных
1.08K subscribers
142 photos
8 videos
2 files
113 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Все гениальное просто.

#DBT
7👍2🔥2
Примеры DBT репозиториев

Интересный [DBT + Airflow + Clickhouse] репозиторий, застывший в миграции с кастомных ДАГов на DBT. Проект по оценке пользовательских аудиторий крипто-токенов и аналитики аудиторий крипто-проектов. В проекте я участвовал как консультант. Закрыт в 2023 году.
😞😞😞😞😞😞😞😞😞

https://github.com/superdao-inc/airflow-dags

Здесь можно найти остатки самописного SQL бойлерплейта и оценить, как переход на DBT сильно облегчает разработку. Также есть кликхаусификация DBT-моделей и несколько специфичных фишек, актуальных именно для Clickhouse. К примеру, вот такая моделька, в которой Clickhouse валится в огромном (3 TB) Group BY запросе, так как ему не хватает RAM. Решение - разбить запрос на чанки по адресам, каждый из которых меньше по размерам, чем весь массив эфириумных транзакций. В DBT модель встроен проброс массива первых букв кошельков, который формируется циклом в Airflow DAG. Или вот такой Generic Test, который проверяет, что в текстовом поле не абы что, а эфириумный адрес-хэш. Есть и макросы-шаблоны запросов, которые после применяются в нескольких моделях для разных эфириумных сеток.

Одним словом, рекомендую сделать dbt docs generate и походить по разным моделькам, макросам и тестам. Стартаперский творческий беспорядок прилагается.
🤪🤪🤪🤪🤪🤪🤪🤪🤪

Мой учебный репозиторий [DBT + Airflow + Greenplum]

https://github.com/alex-belozersky/dataplatform

Сейчас в процессе добавления в него интеграции DBT + Trino + Iceberg. Поставьте GitHub звезду, если интересно
😏😏😏😏😏😏😏😏😏

#DBT #GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
52👍2
Примерно поэтому я ИИ-скептик в своей профессии.

Репост:
👏1
Forwarded from Spydell_finance (Paul Spydell)
Общее впечатление от работы с LLM за последние два года

Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты

До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния.

Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM.

Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»?

Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов.

Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора.

На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным.

LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо.

🔘Вариативность выходных результатов может быть полезна не в расчетах, а в «мозговых штурмах», где как раз требуется расширение границы допустимых векторов и траекторий результатов. Условно говоря, в выработке направлений и идей для исследований.

🔘LLM очень полезны для неструктурированных массивов данных, для категоризации/каталогизации неструктурированных наборов данных в разных форматах.

🔘LLM могут быть применимы для генерации отчетов по шаблонам.

🔘LLM более, чем полезны для формирования гранд нарратива в огромных массивах текстовой информации. Например, анализ новостного потока и вычленение основной концепции, которую пытаются продвинуть СМИ. Нарративы «экономика прекрасна, а будет еще лучше» и «ИИ спасет мир», которые я часто публиковал во второй половине 2024 в контексте тональности западных СМИ были получены частично с использованием ГИИ.

Попытка оценить тональность и «болевые точки» корпоративного сектора через анализ пресс-конференций по итогам корпоративных отчетов, это же применимо к анализу комментариев общественности.

Это в теории. На практике ограничения контекстного окна, блокировка поисковых роботов ГИИ в ведущих СМИ и высокая стоимость обработки токенов не позволяют использовать этот ресурс на полную мощность.

Автоматический анализ новостного потока – хорошая идея и уже технически реализуема, но на практике пока нет.

Как экспертная система ГИИ очень слаб. Проверял в направлениях, в которых имею высокую квалификацию. На запрос о факторах роста рынка или причины возникновения инфляции, - LLM создадут весьма примитивную блеватню на уровне среднестатистических новостных экстрактов, что совершенно не соответствует уровню Spydell_finance.

Сейчас все LLM генерируют низкое качество «экспертного контента», где требуется понимание причинно-следственных связей в условиях противоречивой среды с недостатком входных данных и многоуровневой конструкции параметров. Писать материалы в канале уровня Spydell_finance с помощью ГИИ не получится еще очень долго.

Где применимы LLM в научной среде? Очень ограниченные локальные задачи с точки зрения помощи в программировании, решении математических и статистических задач, помощь в адаптации информационных комплексов на уровне проводника по мануалам.

Еще неплохой потенциал есть в умном поиске информации в сети, хотя сейчас реализация на 4 из 10.

Инструмент полезный, но на чудеса пока не тянет, хотя потенциал очень серьезный. Я указал не все применения, а только в рамках собственных рабочих задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
3👏2👍1
Пишет человек, искренне поверивший в магические ЛЛМ и пытавшийся внедрить в свои процессы.

В аналитике внедряемость около нуля. Все потому что любой ИИ современного извода заточен на воспроизводимость уже известного. В то время как хороший аналитик работает как раз с новыми вопросами, которых никто раньше не задавал.

Я могу представить решение задачи вида «покажи мне объем продаж за месяц по категориям. А теперь по магазинам». Да и то это возможно в ситуации когда витрины данных подчиняются шаблонам. То это это ИИ-ассистент в BI конструкторе битрикса, к примеру. Или ИИ-помогай в зуме, которому можно задать простые вопросы.

Но вопрос вида «как изменятся продажи, если я повышу расходы на рекламу на 50%» останется без ответа. И инсайты о том, что еще потребуется расширить склад, ИИ не найдет.

Хороший аналитик отвечает на вопросы, заданные впервые. Хороший аналитик больше работает с людьми, чем с данными. Никакой ИИ ему не угроза.
👍3🤝31
Зачем нужна аналитика

В наши неспокойные времена любому из нас полезно уметь объяснить, зачем мы нужны работодателю и чем полезны для его бизнеса. Актуально это и для аналитики данных, которая, на первый взгляд, не кажется бизнес-критичной функцией.

Краткая памятка, зачем нужна и чем полезна аналитика данных.

📰📰📰📰📰📰
Отчетность

Первое, что приходит в голову, когда говорим про аналитику данных. Собственнику и топам полезно знать в деталях, какой перформанс имеет компания и отдельные ее подразделения. Еще полезнее, когда отчетность доступна не в экселе по запросу через 1-2 дня, а в любой момент в закладке в браузере.

Что требуется для отчетности:
– Понимание ключевых метрик бизнеса. Знать, куда и на что смотреть.
– Процессы по сбору и презентации данных. Хранилище данных и BI.
– Мониторинг качества данных. Смотрим на реальное положение вещей и верим в то, что видим.

📈📈📈📈📈📈
Оптимизация процессов

Перформанс сотрудников на местах заметно растет, если снабдить их релевантными и своевременными данными по их бизнес-процессам. Работать по наитию и на опыте хорошо, но еще лучше если экспертиза и опыт сотрудников дополняются актуальной картиной положения дел в удобной форме. Кроме того, всегда есть риск, что «я всегда так делаю» в какой-то момент сломается, и бизнес потеряет деньги. Важно не упустить этот момент.

Требуется:
– Доменная аналитика в вашей области деятельности
– Аналитики, способные говорить на одном языке со специалистами в области
– Система мотивации, поощряющая сотрудников пользоваться данными для закрытия их KPI. Высокие цели + инструменты их достигнуть.

💰💰💰💰💰💰
Данные как актив

Tesla стоит столько, сколько она стоит во многом потому что у них самый большой датасет для автопилота. У них есть данные, как ведет себя автомобиль, и что видят его камеры-сенсоры в разных странах, в разное время года и дня, в городе и селе, на трассе и на проселке, в пустыне и на крайнем севере. Как только мир понял, что авто будущего это не только электро- но еще и автопилотная, ценность накопленных за 10 лет данных забустила цену компании.

Другой пример. Стартап по ДНК-тестам кошек. Была идея продукта, который принимает мазок изо рта любимого питомца и выдает хозяину набор рекомендаций по здоровью – все как у людей. Сам продукт на окупаемость не вышел. Но стартап продали очень дорого, так как только у них (!) есть большая БД ДНК домашних кошек.

Данные могут дорого стоить. Данные могут растить вашу ценность и капитализацию вашей компании.

Подумайте, какие данные могут быть значимыми в вашей отрасли. Какие тренды есть у вас и какие датасеты понадобятся вам и вашим партнерам завтра.

А хранить данные не слишком дорого. Например в облачном S3.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42👏2
Отчетность

Хорошо когда есть такие "дашборды руководителя" или "дашборды инвестора". На самом деле, это не требует каких-то сверх-усилий, но в таких картинках содержится заметная часть ответа на вопрос "Зачем я вам, олухам, деньги плачу".

За красоту, начальник, красоту и точность!
3👍2👏1
Всем привет!

Врываясь в будни - все еще ищу крутых DBA и DE себе в команду.

https://team.vk.company/vacancy/39575/

Будет много консалтинга по Postgres, Greenplum. Дальше - Trino+Spark+Iceberg Озера данных и Лейкхаусы. У нас уникальная в российских облаках команда Big Data Services. Занимаемся сложными Data проектами на переднем крае технологий.

10к СУБД уже крутятся, прирастают х2 год-к-году и ждут вас!

Откликайтесь на портале или пишите @alexbelozersky
41🔥1
Media is too big
VIEW IN TELEGRAM
Блиц-обзор возможностей и "милых прикольчиков" кластерного Clickhouse.

Прочитано студентам ФКН ВШЭ практически экспромтом. Не судите строго.

#Clickhouse #webinar
👍6🔥31
Милые прикольчики кликхауса.

Postres (и любая нормальная БД) кинет ошибку

SQL Error [22003]: ERROR: integer out of range
👍3🔥21
Forwarded from VK Team
🎄 Любителям DS и ML — Data Ёлка!

Это мини-конференция сообщества Open Data Science, которая в этом году пройдёт в офисе VK и онлайн в VK Видео. Обсудим главные события и тренды отрасли за год, разберём лучшие решения с VK RecSys Challenge, пообщаемся на афтепати, наградим гостей за лучшие вопросы и новогодние костюмы.

🗓 18 января, 12:00 (сбор гостей с 11:00).
🖥 Онлайн в VK Видео — смотрите трансляцию в сообществе VK Team ВКонтакте.
📍 Москва, БЦ Skylight — Ленинградский проспект, 39, строение 79. На входе надо будет показать подтверждение участия и паспорт. Приглашение придёт на email после регистрации.

Встретимся у ёлки! 💙
3🤗21
Про собесы и увольнения

Однажды меня попросили на ТЗ нарисовать схему расположения графа в реляционной БД.

Я написал 8 способов. Рассмотрел случаи простых, направленных, взвешенных графов. Расписал преимущества и недостатки каждого метода. Написал эффективные запросы по различным обходам графов с учетом особенностей различных БД - знал тогда про Oracle (там LEVEL) и Postgres (WITH RECURSIVE). Одним словом, постарался, потому что считал позицию хорошей. В Банк.

Это был Сбер. И это было самая убогая днище позиция за все мои 12 лет. На ней я с руки запускал скрипты по прогрузкам данных в утро, когда у меня родился ребенок. Потому что никакой инфраструктуры не было и никто не понимал, зачем она вообще нужна. Никто из 40 аналитиков в «гильдии» БЮ.

Второй собес был у меня в СберМаркет на позицию руководителя операционной аналитики. Тяжелая должность, но лид лидов, команда 25 человек, правда с наполненностью 50%. Все было неплохо, но потом я увидел менеджера-заказчика аналитики, его повадки, и сбежал как от огня.

В третий раз столкнулся с зелеными где-то год тому назад. На финальном собесе вдруг осознал, что не видел никого из команды и не видел будущего непосредственного руководителя. Хотя оффер уже есть. Все это время получал максимально расплывчатые формулировки о том, что собственно делать надо. Хотя оффер есть.

Вывод. Выводы в том, что есть на свете специфичные организации со специфичными порядками и специфичным менеджментом. Потом стоит ли удивляться, что после очередных вывертов начальства, когда кто-то очередной доуправлялся, вас пачками отправят на мороз, не особо разбираясь. Руководствуясь принципами, сколько дней кто посещает офис.
😱8💯8🤨2
Анонс - Data Lake[House]

В начале февраля буду презентовать Cloud Trino.

Это первый кирпичик в технологии Data Lake / Data LakeHouse. В комплекте идет Iceberg Catalog, который впоследствии может быть подключен к кластерам Trino, Spark, Clickhouse. В итоге будет возможно работать с одним датасетом несколькими сервисами одновременно. Сделали ETL на Спарке, и эти данные сразу же увидели аналитики и BI, подключенные к Трино.

Это пока что в будущем. Пока же первый шаг - кластер Trino + k8s + Iceberg Catalog + S3 Bucket. Все сервисы один-к-одному, то есть нельзя будет подключиться 2 кластерами Трино+Трино или Трино+Спарк к одному бакету.

В комменты обязательно накидайте вопросы по данному набору технологий, которые хотели бы подсветить.

Следите за анонсами, чтобы не пропустить.
🔥13
Нейросети и Китайские комнаты

Есть известный мысленный эксперимент - «Китайская комната». Представим себе ящик, и в нем сидит человек. На вход подаются карточки с фразами на китайском, который сам человек не знает. Но у него есть подробная инструкция, как ему отвечать. Если на вход карточки 1, 50, 100500800, то на выход - 3, 180, 666666. И так система в целом общается с внешним миром. Инструкция максимально детальная и до какой-то степени релевантная. Постоянно обновляется.

Можно ли сказать, что этот человек говорит по-китайски и является носителем китайского языка?

Можно ли считать студента, задрочившего все билеты, знатоком предмета? Можно ли школьника, заточенного под идеальную сдачу ЕГЭ и сдавшего на 100, считать освоившим школьную программу?

Интересный ответ был предложен в романе «Ложная Слепота» Уотсом. Давайте разделим интеллект и разум. Китайская комната обладает интеллектом, но не разумом. Правда, если начать копать в этом вопросе, то выяснится, что и человек-то не слишком разумен.

Я же считаю, что китайская комната не есть интеллект, хотя может быть полезным бизнес-инструментом с кучей оговорок и нюансов. Очень умный попугай не есть эксперт по всем вопросам. Интеллект это способность решать нестандартные задачи нестандартным способом.

И вообще, может ли компьютер сочинить симфонию?
👍6🔥32🤓2
Does this unit have a soul?
Anonymous Poll
55%
Yes
45%
No
Любителям использовать ответы нейросетей как аргумент в спорах посвящается

Далее репост.
Forwarded from БП online
Media is too big
VIEW IN TELEGRAM
Мужчины: «да нет у меня никакой депрессии», также мужчины:

Источник.
😁5
Также посвящается внедрившим API LLM в боты суппорта компаний.

Также надеящимся, что Алиса - грамотный ассистент для домашней работы. Как в романе "Алмазный Век" Нила Стивенсона, ага.
🥴5