Архитектор Данных – Telegram
Архитектор Данных
1.08K subscribers
143 photos
8 videos
2 files
114 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Очевидные результаты АБ-тестирования ИИ-копилота на людях.

В июне (три дня назад) появилось уже нашумевшее исследование медиалаборатории MIT, заставившей состязаться людей, использовавших свой мозг, с людьми, использовавшими чатбот GPT. Из итогов:

"Группа, которая писала эссе с использованием ChatGPT, представила чрезвычайно похожие друг на друга сочинения, в которых отсутствовала оригинальная мысль и которые опирались на одни и те же выражения и идеи. ЭЭГ выявили низкий уровень исполнительного контроля и вовлеченности внимания. А к третьему эссе многие из авторов просто дали ChatGPT промпт и заставили его сделать почти всю работу... После написания трех эссе испытуемым было предложено переписать одно из их предыдущих сочинений, но группе ChatGPT пришлось сделать это без инструмента. Группа, как оказалось, мало что запомнила из своих собственных эссе".


Узнано тут

Как быть с кодом и архитектурой, написанной с помощью копилота и которые никто не понимает?

А никак, никто никогда не понимает код и архитектуру 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83😱2😢1
Стадии карьеры

1. Офигеваешь от кринжа
2. Управляешь кринжом
3. Создаешь кринж
😁1713👍8👏2
Пошли алгоритмические промо на реактивацию оттока.

Спокойно, ребята из X5, я не в оттоке, я просто в отпуск уехал.
😁92😱1👌1
Самозванцы

Точно автор подметил.

Кого представление ни прочитаешь, каждый
- олимпийский чемпион
- нобелевский лауреат
- изобрел лекарство от рака
- запустил спутник
- написал 5 симфоний
Все это вместе

Чак, ты ли это?

А потом собираются обсуждать, как им бороться с чумой 21 века - с синдромом самозванца.

Смех да и только
👍5🤝32🔥2🤔1🙏1
Forwarded from Mikhail Tokovinin
Секрет успешных выступлений.

На самой заре моей скромной бизнес-карьеры, я помню, как-то сидел где-то в 7 ряду какой-то бизнес-конференции, слушал очередной доклад, и меня распирало: «Почему он на сцене?! Спикер дурак, он все говорит не так! Там на сцене должен быть я» - ну вы понимаете...

Когда же я сам стал выступать (а у меня тут есть некоторый опыт), я обратил внимание, что в седьмом ряду всегда сидит какой-то хрен, которого бомбит. Ему всё всегда не нравится, вы для него говорите всё не то и не так. Но есть и хорошая новость. Где-то во втором ряду всегда сидит позитивная дама, которая смеется на все твои шутки и которая в полном восторге от тебя и твоего выступления.

Так вот. Секрет успешных публичных выступлений очень простой. Надо забить хер на хрена в седьмом ряду. Вы здесь, чтобы доставить радость даме во втором ряду - это ваш зритель и вы здесь для неё.
👍124😁4🔥3
Если ты в топ вузе, то у тебя тысяча возможностей уже начинать устраивать карьеру.

Только не зевай.
👍5👌4🔥21🥱1
Из Физтеха в бигтехи - 1

Вы знали, что на Физтехе учат высоким нагрузкам? В прошлом году я познакомился с Константином Ратвиным, сотрудником кафедры Банковских Информационных Технологий Физтеха. Оказывается, на кафедре делается много интересного в сотрудничестве с такими компаниями как Сбер, Тарантул Лабз, Постгрес Про и других. Мы взяли небольшое интервью о том, как кафедра взаимодействует с бигтехами, и какие интересные проекты студенты выполняют.

Как Физтех в целом и ваша кафедра взаимодействует с компаниями?

Все кафедры действуют независимо друг от друга, у каждой свои уникальные договоренности. Расскажу про мою кафедру Банковских Информационных Технологий (БИТ) при Сбербанк-Технологиях. У БИТ есть программы для бакалавриата и магистратуры. Основные направления: Машинное обучение и анализ данных и Высоконагруженные распределённые системы. Мы стараемся, чтобы наши студенты знакомились с продуктами компании СберТех и после окончания академических программ смогли проще адаптироваться в компании.

Компании-вендоры могут привлекаться для чтения приглашенных лекций и демонстрации работы их продуктов. Например, есть тема в лекции, рассказать о распределенных СУБД. У нас в РФ есть продукт YDB. Почему бы не попросить вендора рассказать о ней на занятии? Или например рассказать о СУБД Redis. Преподаватель может рассказать какие-то общие факты. Возможно было бы здорово привлечь специалиста, который работает с этой СУБД довольно долго и может рассказать какие-то интересные жизненные примеры из разработки эксплуатации этой СУБД.

Такое партнертво резко увеличивает вовлеченность студентов в дисциплину, т.к. знания при таком подходе самые актуальные и востребованные. В конце обучения все студенты пишут своих выпускные квалификационные работы (ВКР). Это самая сложная пора для научного руководителя. Надо придумать 100500 вариантов тем и затем студенты должны что-то выбрать и далее начинается тяжелый путь исследования и разработки.

Каждый год составлять список уникальный тем задача крайне сложная. Но и это не самая большая проблема. Положа руку на сердце, почти все ВКР пишутся в отрыве от практических задач, «в стол». Но компании-вендоры могут сами предложить темы для исследования и проработки. И такой подход имеет смысл для компании, для сообщества, и значительно повышает мотивацию юного ученого, т.к. он видит, что его труд нужен еще кому-то кроме кафедры и научрука.

Дипломный проект с компаниями - что это за формат, предполагает ли он стажировки? Как производится отбор на стажировки?

Дипломный проект с вендором – это привилегия, а не стандартный формат. И как любую привилегию её нужно заслужить.

Приведу пример с Tarantool Labs. Студент подает заявку на участие. Затем проходит 2 этапа собеседования. После чего принимается решение о его зачислении. Этапы не простые. В прошлом году из четырех заявок моих студентов одобрили только одну.

В этой лаборатории студентам предлагаю темы потенциальных исследование. Студент выбирает её и затем ему назначается куратор. Далее этот куратор на протяжении месяцев ведет свою работу. По окончанию у студента есть реальный практических опыт работы с продуктом Tarantool и фактичски готовая ВКР.
Это уникальное взаимодействие. Чаще всего мое взаимодействие с вендором сводится к выпрашиваю списка тем для исследований. Если студенту тема понравилась, то он начинает её самостоятельную проработку и может иногда задавать вопросу какому-нибудь специалисту от вендора и не более того. В любом случае это лучше, чем ничего.

В следущих постах - три студенческих проекта:
- встраивание векторного поиска в Apache Ignite
- тесты детерминированного исполнения для СУБД Tarantool
- генератор повреждений и метод восстановления данных из СУБД PostgreSQL

(продолжение следует)
💯74🤪32👍2
Часто слышу вопрос: «А зачем нам отдельная выделенная команда данных? Вон у нас все разработчики умеют в SQL, все менеджеры на ты с Экселем. Сами разве не справимся?»

Конечно справитесь! Но есть нюанс.

Возьмем аналогию.

Каждый может взять гитару и на ней набренчать. Каждый может взять баскетбольный мяч и начать закидывать его в кольцо. И более того, порядок действий, движения, у вас и профессионального музыканта/баскетболиста будут одинаковыми.

Но не одинаковым будет результат. Причем не чуть-чуть неодинаковым, а сильно неодинаковым. Именно из-за этой разницы в результате и существуют профессионалы.

Точно также как есть люди, занимающиеся профессиональным звуко-извлечением, существуют люди, профессионально занимающиеся извлечением полезностей из данных.

Заметьте, это никак не отменяет, что есть процент людей, которые очень уверенно играют на гитаре или очень неплохо играют в баскетбол. Помимо своей основной профессии. Но таких мало.
6💯6👍3🔥2
Говорят, выглядит страшно.

Хотя что там страшного, умеючи.

Половина в облаке поднимается. Сиди себе и кнопочки тыкай
👍73😁2
Forwarded from Русский ИТ бизнес (Максим Кульгин)
Техлид с опытом в дата-инжиниринге, выложил на Reddit в сабреддите r/dataengineering свой взгляд на open source инструменты для 2025 года. См. картинку, ну очень сложно - кликабельная, кстати.

Он три года работал в изолированных средах, где облака были под запретом, и сосредотачивался больше на платформенной части, чем на работе с данными. За это время к задачам дата-инженеров добавились DevOps, MLOps, LLM, RAG и дата-лейкхаусы, помимо классических дата-стеков и хранилищ.

Его подборка - набор инструментов вроде Apache Airflow, Spark, Kafka, dbt, PostgreSQL, ClickHouse и других, которые он использует для разных кейсов. Например, для оркестрации - Airflow, для аналитики - Superset, для машинного обучения - MLflow и JupyterHub.

В комментариях народ активно обсуждает. Есть идеи добавить Redash для визуализации или Ballista с DataFusion для замены Spark.

Мне одному кажется, что это слишком заморочисто :) ? Прикиньте, сколько надо учиться, чтобы освоить такую специальность?!

Русский ИТ бизнес
5💯33🤓1
В композии М.Круга "Кольщик" дан отличный пример хорошего промпт-инжиниринга.
🤣10👍3😁3
Сними ограничения с ЧатГПТ, и он пойдет убивать людей своими дронами, говорили они.

Пока же ИИ с успехом убивает себя 😎
🤣9👍3👏2😭1
Вроде как эта история со счетом на

- удар молоком - $1
- знание куда стукнуть молотком - $9999

реальная
👍123😁22
Рабочая проверка

Отправляешь человеку встречу со странным заголовком, крайне слабо относящуюся к его работе, без описания.

Если не переспросил, не отменил, а просто пришел, то данный персонаж - бездельник и балласт.
😁8🔥6👏41👍1
Back to Roots

Пришло время вернуть канал к истокам.

Засучиваю рукава, и в следующий месяц будет ядерная прожарка дата-инжиниринговых и архитектурных тем и технологий. Включая отложенный архитекторский стрим и большой мясной вебинар по Лейкхаусу и Айсбергу.

STAY TUNED

Также просьба написать интересующие вас вопросы в комментариях.
21👍9🔥6
Читаю Clickhouse 25.6 Release Notes

Single snapshot for SELECT

Contributed by Amos Bird

ClickHouse ensures that SELECT queries run on a consistent snapshot of the data. This means that for the entire duration of the query, it will see the same data, even if new rows are inserted or existing rows are updated or deleted in parallel.

То есть теперь Кликхаус - начиная с версии 25.6 - читает одни и те же данные в разных подзапросах одного запроса.

А раньше как было. Вот у вас есть таблица Т, в которую постоянно кто-то пишет даные. И вы отправляете запрос, который содержит 2 CTE с обращением к Т. И никаких гарантий, что разные части одного запроса к одной и той же таблице прочитают одни и те же строки.

В копилку милых чудачеств Кликхауса. Это чудачество починили, к счастью.

Release Notes тут:
https://clickhouse.com/blog/clickhouse-release-25-06
10❤‍🔥4😎3🔥1👀1
Оказалось, что у Яндекса и экстремистов из Меты был способ нелегально сливать себе данные о вас. Если сильно упростить схему, то механизм такой.

Приложение Яндекса для андроид (Браузер, Карты, Такси или ФБ, ИнГрам) открывает порт на localhost и анонсит туда данные. Потенциально любые: ID трубки, гео и т.д. Потом с любого сайта, на котором он установлен, приходит скрипт Яндекс Метрики (или ФБ пиксель), забирает с порта эту информацию и добавляет к своей обычной. В итоге компания имеет возможности соотнести действия браузера и вашу физическую трубку.

На выходе
⁃ по идее куки метрики должны довольно быстро протухать и меняться (что-то вроде 30 дней), но на деле у Я есть способы привязать разные куки к одной ОС за долгое время
⁃ сброс кук не работает
⁃ по идее на разных сайтах висят разные куки, но на деле ваши посещения на разных сайтах легко привязываются друг к другу
⁃ инкогнито режим не спасет
⁃ разрешения андроид не спасут
⁃ активность в разных браузерах привязывается друг к другу

И еще что неприятно, что сведения, которые заанонсило приложение, теоретически, может прочитать не один только Яндекс, а любой, кто понял, как это работает.

А вы говорите, зачем им хранить всю вашу историю за все года.

Душная версия на Хабре


P.S. Яндекс начал использовать технологию в 2017-м, экстремисты в 2024-м.

P.P.S. На iOS по какой-то причине этот хак не используется. Хотя специалисты говорят, что технически возможен. Возможно, разработчики просто боятся банхамера от Эпла, а от Гугла - нет 😄
😱11🤬85👍1😭1
Мы обещали провести прямой эфир про Data Lakehouse с экспертами? Мы его проводим.

23 июля в 17:00 присоединяйтесь к трансляции прямо в Telegram. Ждем ваши вопросы уже сейчас 🤔

О чем будем разговаривать

🔷 Типичный БигДата ландшафт крупной российской компании. Какие типовые челенжи есть.
🔷 Зачем придуман Data Lakehouse. Какие типовые проблемы он решает.
🔷 Зачем +1 технология? Почему нельзя дальше ехать на Hadoop + Greenplum + ClickHouse.
🔷 Data Lakehouse: эволюция или революция.
🔷 Data Lakehouse: модный хайп или можно уже приносить в прод.
🔷 Какие типовые трудности бывают с решением.

Спикеры

🔷 Алексей Белозерский, руководитель команды Big Data Services VK Cloud, компания VK Tech
🔷 Вадим Белов, руководитель системной разработки DMP, компания Х5 Group.

Присоединяйтесь к эфиру
4👍43