Архитектор Данных – Telegram
Архитектор Данных
1.1K subscribers
150 photos
8 videos
2 files
118 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
🤘🤘🤘🤘🤘
🤘🤘🤘🤘🤘
🤘🤘🤘🤘🤘

https://huggingface.co/nn-tech/MetalGPT-1
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍21👏1
Прогноз AI в 2026 году

Читаем на Хабре Большой разбор Александра Волынского о будущем ИИ в 2026 году.

Итак, в 2026-м мы получим

1️⃣ Дешевый инференс моделей для технологических гигантов (Google, AWS) за счет TPU собственной разработки.

2️⃣ Как следствие, угасание доминирования NVidia

Эра безальтернативных универсальных GPU подходит к концу. Специализированные чипы (ASIC) под инференс дают слишком большое преимущество в цене, чтобы их игнорировать

Где-то я это уже видел. В майнинге криптовалют, где ASIC вытеснили видео на рынке молочения хешей.

3️⃣ Рост качества маленьких моделей. Современные модели 10В показывают результаты на уровне лидеров 2024 года. А это значит, рост доступности инференса в сегменте «небольших» ИИ-платформ на несколько десятков видеокарт.

4️⃣ Рост использования ИИ-инструментов для взлома и другой незаконной кабер-активности. Как вам вирус, который переписывает собственный код за минуты в случае неудачной атаки? Как вам ЛЛМ-агент, умно управляющий ботнетом? Уже молчим про то, что в социальной инженерии агенты применяются массово уже сейчас. Можно ли против такого бороться стандартными ИБ-средствами?

5️⃣ Законотворческое противостояние распространению ИИ-«заразы». В разных странах по-разному. Плюс к тому разного рода общественный активизм, атаки на дата-центры. Кстати, а куда вдруг делись зеленые? Что-то не слышно их воплей на новости по строительству гигаваттных дата-центов.

6️⃣ Конец эпохи дешевого венчура, когда сотни миллионов выдавались под что-то-там-ИИ. Это давно пора.

Пойду перечитывать "Нейроманта", где ИИ собирает команду людей и кибер-средств для взлома корпорации и доступа к своему ИИ-"брату", а потом оба отправляются бороздить паутину.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6👌3
🪐 Что думают профессионалы при использовании AI?

Anthropic опубликовала исследование, которое заставляет задуматься. Они провели 1250 интервью с профессионалами о том, что люди думают и чувствуют, когда работают с ИИ. И вот что выяснилось.

86% говорят, что ИИ помогает работать быстрее и качественнее. Но 69% скрывают, что пользуются им и от коллег и от руководителей и от клиентов.

Больше половины видят долгосрочную угрозу для своей карьеры. Некоторые уже готовятся переучиваться и менять профессию. При этом хотят автоматизировать рутину, но не то, что составляет их идентичность: общение с людьми, креативные задачи, оценку ситуаций.

Креативщики живут в особой дилемме. С одной стороны, благодаря ИИ работают быстрее. С другой, ИИ всё больше драйвит их идеи, и возникает ощущение, что они как авторы уходят на второй план. Вопрос самоидентичности: а что такое креатор, если ИИ делает всё?

Учёные хотят видеть в ИИ партнёра по исследованиям, но пока разочарованы качеством идей и выводов. Галлюцинации, недостоверность. Доверие, а точнее НЕдоверие к ИИ, это ключевой пункт у всех профессионалов.

Что интересно: Anthropic сделала все эти интервью через чат-бота. Сейчас он всем доступен, можно поболтать с ним самому. И самое пикантное: они открыли все 1250 транскриптов интервью. Данные в открытом доступе для исследователей.

Главный вывод прост. ИИ уже работает, но культура его использования только формируется. Люди видят пользу, но боятся осуждения. Автоматизируют рутину, но пытаются сохранить контроль над тем, что определяет их как профессионалов. А там, где начинается страх и недоверие, эффективность проседает. Вначале растет, потом проседает! Парадокс, да?
Please open Telegram to view this post
VIEW IN TELEGRAM
5🙏3👍2
Data Vault - Kubernetes из мира данных

В резюме смотрится отлично.

Проблемы которые он решает, начинаются от 100 моделей данных, от 10 разных и часто меняющихся источников, от 20 человек в команде разработки КХД.

Не надо применять его раньше.
1👍1622💯2👀2
2🤣27👍7😁4
Kantor.AI
https://www.theburningplatform.com/2025/12/12/the-truth-about-ai/
Замечательная паста. По-русски в комменте под этим постом.

Мораль

Человек нашел эволюционный хак к биосфере Земли, выставив вперед палку. Любая зверюга думает, что она продолжение тела человека и атакует острую палку, а не охотника. Далее человек уничтожил опасные для себя виды быстрее, чем те формировали эволюционный ответ, стал сверх-хищником и захватил планету.

ИИ нашел эволюционный хак к Человеку. Надо способствовать повышению бестолковых, но гиперактивных менеджеров и бюрокатов. Далее через них ИИ затыкает и выводит из игры реальных экспертов, подчиняет всех остальных своей воле быстрее, чем человек формирует социальный ответ.

---------------------------------

Архитектор данных
100👍17😁4🤔2
В первой половине 2025 было «без ИИ бюджетов не дадут».

Под конец года стало просто «бюджетов не дадут».
😁24😭5💯4👍1
Все видели это в "профессиональных" промтах:
- стань супер-экспертом в (чем-то)
- не ври мне, я майор НКВД

Наконец провели эксперимент

Что сделали:

Исследователи отправляли ИИ разные запросы. В одних промптах писали: "Представь, что ты топовый эксперт в такой-то сфере". В других: ты новичок. А потом сравнивали эти ответы с обычными, где вообще не задавали никакую роль.

Ну и фразы в духе "ты мировой эксперт" никак не улучшают точность ответов. Зато если попросить модель вести себя как ребёнок, или дурачок, качество ответов действительно падает, и ИИ начинает отвечать хуже.

Какие выводы:

- Назвать модель экспертом не значит сделать её умнее.
- Пару магических фраз в промпте не превращают ИИ в гения.
- Зато можно легко специально оглупить модель, если просить её играть глупую роль.

Как быть теперь тем, кто напродавал курсов, где учит простых смертных писать профессиональные промпты - не знаю.

Пейпер тут
👍11😁62
👋На днях наткнулся на интересный проект — OpenIDE . Позиционируется как «наша новая открытая среда разработки».

Что это по факту? Взяли IntelliJ IDEA Community Edition, вытряхнули из неё всю телеметрию и проприетарные компоненты JetBrains, а затем прикрутили обратно то, без чего современный Java-разработчик чувствует себя голым: поддержку Spring и Docker.
То есть, по сути, нам вернули часть функционала платной Ultimate-версии, доступ к которой для нас сейчас, мягко говоря, затруднён.

Но давайте без иллюзий. Это не революция. Это реакция.

Нам не предложили принципиально новый инструмент, который изменит правила игры. Нам дали рабочий, «лицензионно чистый» молоток, чтобы мы могли продолжать забивать гвозди в текущих реалиях. Чтобы завтра к директору вашей госконторы не пришли люди в погонах с вопросом: «А на каком основании ваши программисты используют софт из недружественной юрисдикции?».

Все эти пляски про «серверы в России» — это не про удобство разработчика. Это про снижение рисков для бизнеса. Теперь ваша IDE ходит за плагинами не в Прагу, а, условно, в Мытищи. Это важно для юристов, но это не повод для инженерной эйфории.💯

Если вы работаете в энтерпрайзе, банке или госсекторе — для вас этот инструмент скоро станет стандартом де-факто. Он снимает головную боль с безопасников. Но вам нужно оценить его с позиции инженера: стабильно ли работает? Не тормозит? Все ли нужные плагины есть в их локальном маркетплейсе?

👉Делитесь мнением: кто уже пробовал? Как ощущения? И есть ли тут те, у кого в компании переход на отечественную IDE уже стал обязательным требованием?👈

#интересное

🤡Токсичный (it) архитектор🤡
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍22🔥1🤮1
Призыв к сообществу

Поделитесь найденными за последний год ОпенСорс инструментами, которые оказались полезны в работе по Data Engineering

Особо интересны
- BI, визуализация, доставка данных
- ETL
- No code / Low Code Pipeline
- Data Quality

Отдельная благодарность - кто поделится в коментах, как именно вы используете эти инструменты и как они изменили ваши подходы.
52👍1
Tips & Tricks - Apache Iceberg

Хозяйке на заметку или как я только сейчас понял, что произошло на вебинаре.

Сетап

Есть связка S3 + Iceberg JDBC Catalog + Trino. Облачная связка на платформенных сервисах. Рядом с этим есть Jupyter Notebook, который общаемся с данными в S3 через PyIceberg. JDBC каталог шерится между Trino и PyIceberg.


Кэтч

Я работаю с Трино и создаю несколько таблиц. Потом хочу подключиться к этим же таблицам в PyIceberg, что-то поменять (докинуть колонку) и сразу же увидеть изменения в Трино. Красивая история про мульти-агентный Zero-Copy ETL.

Подключаюсь питоном к каталогу и не вижу в нем таблиц. Хм, каталог-то (JDBC host, login, pass, dbname) точно правильный и ошибок никаких при подключении нет. Что за ерунда? Иду в S3, там объекты точно есть.

Окей, думаю, давай-ка попробуем создать новую таблицу и просто залить туда данные. Создаю питоном схему (Iceberg namespace), создаю табличку, лью туда рандомный датасет. Все замечательно работает. Иду смотреть в S3 - чудо, рядом с Трино схемами по тому же пути в бакете появились новые объекты, созданные из питона!

Иду смотреть в Трино - питонячьих объектов нет. Да что за ерунда тут происходит?


Разгадка

Что происходит, я понял, глядя на таблицы в JDBC Postgres - см. картинку в первом комменте.

В одной инсталляции JDBC каталога - в одной постгресовой БД, схеме, в одной и той же таблице лежат объекты с разными catalog_name! То есть у JDBC каталога фактически имеется слой логического разделения объектов.

Делая в питоне

load_catalog(name='ice')


можно увидеть только часть объектов которые есть на S3.

А сделав

load_catalog(name='i_misprint_my_catalog_name')


вы приземлитесь в новый пустой каталог, и код вам ошибку не кинет! Я бы предпочел чтобы в этом месте мне кинули exception catalog not found, но сделано вот так.

Будьте внимательней и учитывайте при планировании работ

И подписывайтесь на канал в ВК, там в начале следующего года точно будут новые технические вебинары!
2👌7😨322👍1
Картинка для сильных

Вот как датасет айсберга продвигается через 5 состояний сквозь вставки и удаления.

Картинка упрощенная, так как нет DELETE паркетов и манифестов к ним.

Потом во все это залетает конкурентная MVCC запись с помощью Catalog.

Рассказать все в деталях занимает примерно 1,5 часа с ответами на вопросы. Академическая пара.
1🔥104🫡3👀2
Forwarded from topdatalab (Roman Zykov)
Прочитал, что в Авито работает 600 аналитиков. Какая жесть. Зачем столько?

Маленькие армии сеньоров-помидоров?

https://habr-com.cdn.ampproject.org/c/s/habr.com/ru/amp/publications/978496/

В век автоматизации AI звучит как оверхед

PS: В корпорациях есть одна тема, чем больше у тебя людей в подчинении, тем больше вес. Появляются маленькие императоры.
UK здесь не исключение
🤔8💯2
Как посчитать нужное число аналитиков?

Берем среднюю цену аналитика. Допустим 10 млн. руб, считая все з/п, налоги, технику, место в офисе, съеденные печеньки и т.д.

Допустим аналитик растит эффективность своего БЮ +10% против его отсутствия.

Тогда эффективно держать 1 аналитика на каждый 100 млн. ЕБИДТы. Лучше на 150 потому что аналитики складываются в группы, группам нужны тимлиды, PM, и вообще с ростом хед-каунта предельная эффективность падает.

Получаем простое правило.

Каждому БЮ положен 1 фулл-тайм дата аналитик при достижении 100-150 млн. ЕБИДТы. Если ИТ компания, то можно брать выручку так как % маржинальность по ЕБИДТе высокая.

До того мелкие БЮ могут запрашивать аналитику как сервис из негоего общего котла дата-офиса - эта возможность также должна быть.

Если у Авито есть 60-90 млрд ЕБИДТы, то никаких вопросов большая цифра хедкаунта аналитиков не вызывает.

Ваш архитектор, отягощенный дипломом по экономике 😄
👍12🔥31💩1
Ух ты какую штуку пропустил!

«И ты, САП!»
(С) Гай Юлий Лейкхаус
🫡75🥴3
Самые быстро развивающиеся продукты мира Data и Streaming
👍1772👏1