NEW BOT Телеграм, страница

Дата канальи — про «специалистов» в данных / ML / AI

Во вторник в 6 вечера думаю послушать парней , кажется , что будет интересно. И да , у Саши Абрамова DealerAi тайтл таки поменялся — эх, упустил Сбер парня 🤷‍♂️

1🔥10🤷‍♂2👍2👏2

2.58K views13:32

Дата канальи — про «специалистов» в данных / ML / AI

Forwarded from South HUB

Каждая новость на TechCrunch о GenAI обещает революцию. Но между демо на питче и production-системой, которая приносит деньги, пропасть из факапов, галлюцинаций и вопросов от CFO. Хуже, когда вопросы звучат от борда, а ответить на них некому. Как внедрять GenAI в бизнес?

17 февраля мы проведем час разговора с теми, кто внедряет GenAI в продакшн и знает разницу между демо-эффектом и реальным ROI.

Смотреть в ▶️ / Смотреть в

💬

О чём говорим:
— Как считать реальную ценность AI-агентов и выбирать направления, которые дадут эффект
— Техники повышения надёжности: снижение галлюцинаций, scaffolding, caching, debate-подходы
— Честные кейсы и факапы внедрения GenAI — что сработало, что провалилось, сколько стоило
— Agent swarm и другие тренды: перспектива или хайп?
— Как вайбкодинг изменил процессы разработки, найма и структуру команд

Участники:
— Роман Куцев, Founder LLM Arena, модератор встречи
— Валерий Ковальский, Head of AI в Red.Mad.Robot
— Александр Абрамов, Head of AI CoE во ВкусВилл
— Артур Самигуллин, руководитель платформы Yandex AI Studio в Yandex B2B Tech
— Александр Толмачев, CDO, вступительное слово от ПК Snow BASE

Этот эфир для тех, кто сейчас решает, как превратить эксперименты в стабильную систему с измеримым эффектом. Подключайтесь, если эти вопросы у вас на столе.

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤14👍3🔥3👏1

3.13K views13:32

Дата канальи — про «специалистов» в данных / ML / AI

Ребята из Летово не согласились что Unlearning в рекомах — нерешенная задача, и даже прислали небольшой обзор, ну а поскольку я обещал им обзор посмотреть, разобрать и дополнить , то сделаю это публично, с обсуждением. Велком!

1❤15🔥7

2.95K viewsedited 08:25

Дата канальи — про «специалистов» в данных / ML / AI

Forwarded from R77 AI | Кейсы в ИИ (от выпускников МФТИ)

Unlearning в рекомендашках завтра

Ребята, завтра в 18 поговорим на вебинаре с Никитой Зелинским директором по машинному обучению и исследованию данных в MTS Web Services про рекомендательные системы, а точнее про:

Unlearning в рекомендашках — постараемся вместе разобраться о чем речь, куда удалось продвинуться и почему до нашей индустрии это пока не докатилось.

Подпишитесь кстати на его канал — очень крутой, там про жесткий DS в корпах @datarascals

Ссылка на трансляцию будет у нас в канале, а напоминалку можете добавить в календарь: https://calendar.app.google/7rrdX5SmZgeXcqdRA

1❤18👍5🔥4

3.21K views08:25

Дата канальи — про «специалистов» в данных / ML / AI

прислали небольшой обзор

machine_unlearning_recsys.pdf

99.9 KB

Итак, обзор за авторством ребят из школы Летово

1❤‍🔥17🔥7👏5❤2

3.15K views18:42

Дата канальи — про «специалистов» в данных / ML / AI

и обзор, который совершенно случайно 🤣 вышел на той неделе в IEEE Transactions on Knowledge and Data Engineering (правда препринт доступен еще с декабря) — ну что ж, обсудим, заодно захватим бенчмарки и попробуем понять что опять академики делают не так (хотя после массовых LOO-валидаций в статьях на RecSys уже удивляться не стоит)

1😁10🔥3

3.52K views18:46

Дата канальи — про «специалистов» в данных / ML / AI

Forwarded from R77 AI | Кейсы в ИИ (от выпускников МФТИ)

👁"Unlearning в рекомендашках" вебинар. Присоединяйтесь уже сейчас через 5 минут стартанем

Без смс, vpn и регистрации — https://www.twitch.tv/r77_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

2.95K views14:57

Дата канальи — про «специалистов» в данных / ML / AI

🚀 Ребята из ИнженеркаТех специально для канала Дата канальи дарят эксклюзивный промокод DATA, который дает -15% к скидкам на все курсы дополнительно до конца октября!

Сейчас самое время, чтобы прокачать свои навыки и освоить новый стек.

Симулятор Data Warehouse на базе dbt. Научитесь работать с dbt Core и освоите DataOps практики, каталог данных и data lineage. Решай реальные задачи в интерактивном тренажере → Начать в демо-доступе

💚 Кстати, они перевели всю документацию dbt на русский язык! Теперь она доступна бесплатно для всех: https://docs.getdbt.tech/

Теранежр Dagster + Apache Nifi ETL-разработка и оркестрация данных. Стройте современные data pipeline с одним из самых популярных инструментов на рынке → Начать в демо доступе

Тренажер DLT — Python ETL Забудьте про костыли в пайплайнах. Загружайте данные из API, ClickHouse, S3 за 5-10 строк кода. Встроенная интеграция с Dagster. От ноутбука до продакшена → Получить доступ со скидкой

Демо-доступ есть у большинства курсов, чтобы сначала попробовать, а потом уже решить

🎁 Промокод DATA действует до 28 февраля.

ООО “Инженеркатех” ИНН ИНН: 9715483673 erid: 2Vtzqv127pQ

👍8❤4😍4

3.14K views07:00

Дата канальи — про «специалистов» в данных / ML / AI

#корпжиза

Почему "не тех" бизнес часто не очень настроен к ML? В смысле признает необходимость и полезность, но не видит основным драйвером выручки?

Меня однажды это сильно фрустрировало — как так, зарабатываем миллиарды рублей на моделях, а к DS как к функции отношение скорее покровительственно-снисходительное, а не как к партнерам по бизнесу.

Хотя CIR DS-функции в крупном бизнесе может быть и менее 1% (cost to income ratio — отношение затрат к доходу), эти эффекты, в основном:
⁃ Достигаются улучшением существующих процессов (ex: улучшили качество лидогенерации, ценообразование), в тч сокращением костов (удержание сотрудников например) — но это все «и так работает» и аффектит выручку всего бизнеса максимум процентов на 10, после нескольких лет внедрений — причем низковисящие фрукты собирают за год-два (получая основной прирост), а дальше рутинная кропотливая работа с десятками и сотнями неудачных А/Б
⁃ Иногда ML и правда выступает enabler’ом — например, для запуска BNPL (рассрочки), но и здесь эффект будет сосредоточен в оценке риска а не экспоненциальном росте выручки продукта.

А чего бы бизнес вообще хотел?

В идеале что-то вроде такого (с поправкой на то что это все же dark pattern), то есть конструкцию:

◦ с практически нулевыми костами (ООО Престо, о которой речь в статье — 2 чел, 10 тыс уставного капитала и 12.5 млрд выручки )
◦ имеющую сильное конкурентное преимущество (например, законно обходит регуляцию)
◦ хорошо масштабируемую даже самозапрет на кредит не помеха)
◦ супер-маржинальную (85% годовых намекает)
◦ понятное и хитрое, без этой ваше заумной математики и A/B

Вот кстати, более полное расследование от того же автора

Dark patterns не специфика именно WB:
«Amazon fined in Poland for dark pattern design tricks»
и еще «The dark pattern that cost Amazon $2.5 billion»
или SHEIN, да много можно найти — не только про интерфейс, но и про алгоритмы ценообраования в доставке еды и многое другое.

Мой вывод в итоге для себя простой — делать понятные интересные вещи, не пытаясь соревноваться с бизнесом в создании денег из воздуха.

3❤18👍6🔥6💯4🤔3👻3😢1🥱1😎1

3.87K viewsedited 06:13

Дата канальи — про «специалистов» в данных / ML / AI

Давненько не было постов, а идеи есть. Что опубликовать следующим?

Anonymous Poll

28%

На пальцах объяснить семантические айдишники в рекомах и RQ-VAE

49%

Разоблачение супер-агентского стартапа (если получу аппрув автора истории — 99% шансы)

24%

Пост что такое «офисная политика» — из Грязного Гарри 3 + реальный кейс

🍌6🤯2

511 voters3.07K views18:44

Дата канальи — про «специалистов» в данных / ML / AI

Тот же опрос, но с мультивыбором (по просьбам из лички)

Anonymous Poll

47%

На пальцах объяснить семантические айдишники в рекомах и RQ-VAE

76%

Разоблачение супер-агентского стартапа (если получу аппрув очевидца истории — 99% шансов)

59%

Пост что такое «офисная политика» — из Грязного Гарри 3 + реальный кейс

🍌10

504 voters3.17K views18:54

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы

Нынче популярны плтатформы а-ля «RAG из коробки», «Агент за три дня»
Очередные стартаперы пришли ровно с этой идеей — в питче голосовой агент по кнопке, мол синтез решен, turn detection 99,(9)%, гибрид промтов, гардрейлов и вызовов RAG, супер-пупер инновационный способ разработки — drugndrop на максималках, latency готового агента в миллисекундах.

Пошли в пилот — выдали ресурсов, данные, скрипты, помогли с интеграцией.

Проходит пара недель — нерабочий прототип.
Еще пара недель — агенты зависают, начинают выдавать диалоги ДРУГИХ явно клиентов из другой предметной области.
Почему так? -- пацанский ответ:

мы думали вам быстро, а не вау!

Что внутри?

Царь-промпт на полмиллиона токенов, ASR и NLU — на регэкспах, словарь опечаток текстовым файликом

😁55❤9

3.05K views07:35

Дата канальи — про «специалистов» в данных / ML / AI

#оффтоп

31 год развития GEN AI одной картинкой 😄

PS

Ссылка на оригинальную игру на веб-архиве

PPS

Когда искал запись известной речи Мартина Лютера Кинга "I have a dream" как образец ораторского мастерства, вспомнил что кроме arxiv.org со статейками по ML есть еще и archive.org, залип

1😁19

2.68K views17:44

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы

Про офисную политику

В третьей части Грязного Гарри есть момент когда полицейский спецназ толпой захватил группу пацифистов, подозревая их в терроризме.
А потом шеф полиции (тот самый, который 10 лет в кадрах) предложил публично наградить Гарри и его напарницу — потому как это укрепит позиции мэра на выборах.

Как?

Ну как же, при поддержке мэра в полиции появились женщины-оперативники — и сразу крутой результат!

Что характерно, взяли не тех, и это достаточно быстро всплыло.

А теперь собственно аналогичная история.
Данным-давно один из топов городской структуры решил подняться на теме DS/ML и создал «центр анализа данных», через достаточно жесткий фильтр туда классных набрали ребят (с частью до сих пор дружим, многие очень хорошо выросли по карьере и разъехались по миру), большинство было студентами еще.

И как всегда с новыми инициативами — надо показывать квиквины (quick wins) — быстрые результаты 😄.

Поэтому уже на второй неделе работы я и пара других тим лидов докладывали о достаточно наивных «файндингах» в данных московскому замминистру, через 2 месяца — министру, еще через 4-5 — министру другого министерства.

Дело шло к подготовке большой презентации мэру где нужно было поразить его воображение насколько дата-анализ полезен городу, уже даже дату согласовали.

И тут во всем городе отхлебывает ЕМИАС — медицинская система, данные из которой (топ-1 наш источник данных, но были еще) мы уже больше чем полгода «анализировали».

Это прям серьезный форс-мажор, шеф висит на волоске — и вот он собирает нас всех (человек 30) и закрывает на трое суток — ищите мол где ошибка, что сломалось — вы же умные.

По фильму можно было догадаться что было дальше

Проблему нашел штатный, нераспиаренный, но очень синьорный аналитик из той компании, которая систему и разрабатывала (он кстати и проектировал схему данных для нее).

Через трое суток ЕМИАС заработал, а для нас это стало очень хорошим отрезвлением — кто мы и что реально можем, и почему шеф нас так пиарил и водил по кабинетам.

1🔥14❤8👍5😭4

2.33K views08:11

Дата канальи — про «специалистов» в данных / ML / AI

#ML

Флешбеков пост // можно скипнуть если хочется сути — суть «на пальцах» вынесу в следующий пост

Прежде чем постить очередной набор корпоративных кейсов и историй с собеседований, как заведено в канале, расскажу про несколько забавных связей.

В опросе я обещал рассказать про семантические айдишники в рекомендашках и VQ/RQ-VAE.

Но, как водится, вместо объяснения на пальцах (будет постом-двумя ниже), захотелось уууух — найти что-то похожее в других кусочках ML.

Например, выше в моей лекции по RAG есть слайд про Product Quntization (PQ, слайд 85)

Названия PQ / VQ / RQ / AQ чем-то похожи, не правда ли? (Q значит квантизация)

PQ — product quantization
VQ — vector quantization
RQ — residual quantization
AQ — additive quantization

И тут в голову полезли нехорошие мысли — почему вариационный автоэнкодер (VAE) именно вариационный?

Несколько лет я рассказываю студентом его устройство (и заодно про VGAE —Variational Graph Auto-Encoder), даже в блиц включил вопрос про backprop градиента через слой со случайным сэмплированием (reparametrization trick), а дежавю словил только сейчас.

Почему дежавю: в университете меня учили геофизике и сейсморазведке, в тч некорректным задачам геофизики (байессовский / вариационный вывод, регуляризация по Тихонову и Ляпунову, решению интегральных уравнений и пр и пр и пр ) и отдельно вариационному исчислению — (оба курса вроде годовые если не путаю).

С другой стороны, вариационный автоэнкодер.

Совпадение? Вот и я так не подумал.

Если совсем коротко, вариационное исчисление изучает функционалы: функции, которые сопоставляют функции (на части диапазона значений или на всей области определения) число.

Например,

Сейсморазведка: найти оптимальную траекторию луча (нормаль к фронту волны в геометрической теории волн) среди всех возможных траекторий, вдоль которой время прохождения луча через неоднородную среду будет наименьшим.
Время — функционал, траектория — функция

Или
VAE: найти оптимальную аппроксимацию апостериорного распределения латентной переменной среди заданного семейства распределений, при котором вариационная нижняя граница правдоподобия (variational lower bound — ELBO) будет наибольшей

На этом совпадения не заканчиваются.

После защиты кандидатской я занимался обработкой сигналов (signal processing) в Яндекс.Терре (сейчас Сейсмотек с другими собственниками), а в обработке сигналов есть очень похожая на RQ идея — matching pursuit: жадное разложение сигнала по словарю с вычитанием остатка (что концептуально очень близко к residual quantization) — и вот для разнообразия, ссылка не на архив а на NASA.

Идея в том чтобы разложить сигнал на элементарные (хотел написать функции, но все же нет) составляющие — то есть повторяющиеся элементы (видели зубцы на ЭКГ?).

А кремлевскую стену видели? Если вот эти замысловатые зубцы вычесть — будет стена как стена, ровная — вот мы и разложили «сигнал Кремля»: ровная стена + зубцы

Например:

— преобразование Фурье представляет сигнал как взвешенную сумму базисных гармонических функций (синусов и косинусов или только синусов или только косинусов — как захотим)
— вейвлет-преобразование — раскладывает сигнал на сумму вейвлетов (семейство функций, которые мы выбираем заранее сами)
— чирплет преобразование — еще более общее семейство функций (когда и частота внутри такого элементарного кусочка не постоянна) — кстати, в той статье я попал в англоязычную вики на радость маме
и тд — интегральных преобразований достаточно много все же

Итак, кажется, начинает вырисовываться структура следующего поста:

— что такое RQ (residual quantization) и при чем она здесь — и как matching pursuit + product quantization до боли похожи на RQ
— что такое вариация функционала и при чем она здесь (зачем V в VAE), причем здесь физика
— как это ловко превращается в RQ-VAE и что он умеет
— причем здесь семантические айдишники и зачем нужна токенизация вне NLP

PS
Пока писал вспомнил еще что и KLT и PCA — одно и то же, но об этом в другой раз

2❤29🔥15👍5👏2

2.16K viewsedited 23:03

Дата канальи — про «специалистов» в данных / ML / AI

Полистал программу из поста
Парни тоже уповают на кейсы реальных внедрений ML/AI (ну или фэйлы — на конфах про них не расскажут, а после лыж в баре — вполне).
Ждем от них тоже огненных корпорат историй?

Если в трех словах (как я вижу) — агенты, платформы, катание 😄

Шучу, там больше и интереснее — как налутать бабла с рекомендашек например — или как реально внедрили агентов в Лавку
В общем, выглядит сочно, рекомендую

South HUB

📣 Программа Snow BASE опубликована 📣

Рассказываем, как она устроена. Программный комитет Snow BASE решал одну задачу: как создать контент, который нельзя получить больше нигде. Не доклад с красивыми слайдами, а путеводная звезда в мире сложных решений.
…

1👍6🤣4

1.9K viewsedited 15:41

Дата канальи — про «специалистов» в данных / ML / AI

Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion 2026!

Шестая конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».

В программе — 60+ сессий по анализу данных, DS и ML: ИИ-агенты, RL, CV, NLP, Open Source, робототехника, рекомендательные системы, AI в кибербезопасности и другие темы.

Конференция объединит ML-лидов, DS-специалистов, ученых, инженеров и аналитиков — и станет площадкой для знаний, идей и нетворкинга.

➡️ Регистрируйтесь ⬅️

А еще на конфе будет награждение победителей годной олдскульной соревы про суперпрактичсекие задачи: антифрод / NBO / логистику.

Сорева все еще идет!

Ниже их анонс:

Ежегодное соревнование по машинному обучению Data Fusion Contest 2026. Общий призовой фонд — 3 000 000 рублей.

Формат — онлайн: участвовать можно из любой точки мира (прим мое — но приз могут получить только граждане РФ).

В этом году участникам предстоит решить 3 задачи:

☑ «Страж» — про вычисление подозрительных операций в банке
☑ «Киберполка» — про подбор нужных финансовых продуктов из 41 варианта
☑ «Герои» — про создание идеальных маршрутов с учетом времени

PS

Церемония награждения будет , буду рад со всеми увидеться 👌

Data Fusion 2026

1👍10🤣5❤4

1.81K views15:04

Дата канальи — про «специалистов» в данных / ML / AI

#ML

В прошлом посте обещал рассказать на пальцах суть RQ-VAE и семантических айдишников в рекомах.

Когда написал пост понял что надо сказать важную штуку: табличные автоэнкодеры работают когда объекту уже представлены векторами, то есть у товаров (например) уже есть эмбеддинги (из другой какой-то модели, например, коллаборативный или текстовой) и мы хотим получить новые, с какими-то желаемыми нами свойствами.

Если просто уменьшить размеренность с минимальными потерями — возьмем ванильный табличный автоэнкодер

Обычный VAE отличается от ванильного табличного автоэнкодера только одним — нашим желанием задать распределение (обычно мнгомерное нормальное, за этим есть теоретическая база — но не будем здесь) получающихся эмбеддингов — и достигаем мы это максимально в лоб — прибавкой в лосс: к точности восстановления исходных векторов (обычный MSE между входом и выходом) мы добавляем степень похожести получающегося распределения эмбеддингов на нормальное (KL loss, например, для графового VAE здесь)

Ничего, кстати, не напоминает?

То есть:

Ванильные AE: учим сжимать данные так, чтобы потом их восстановить (MSE loss).
Вариационный AE: учим сжимать данные так, чтобы потом их восстановить (MSE loss). + чтобы эмбеддинги выглядели как выборка из заданного распределения (KL-лосс).
Буковка V (вариационный) указывает на то что мы будем искать такое распределение чтобы KL-лосс был минимальный.

Задача поиска функции распределения при которой функционал, получающий на вход эту функцию распределения (в нашем случае это как раз KL-лосс), достигал экстремальных значений это вариант задачи оптимизации — и в оптимизации мы часто для поиска экстремума зануляем производную. У функционалов производная называется вариацией, вот ее и зануляем, что дает название автоэнкодеру.

VQ/RQ-VAE: учим сжимать данные так, чтобы потом их восстановить + чтобы эмбеддинги были дискретными токенами.

Как мы этого достигнем?
Можно взять набор опорных векторов (в VQ-VAE) — он называется кодбуком — и для каждого входного вектора заменять его на ближайший вектор из кодбука (схема очень напоминает разложение по базису — но не требует создания базиса со всеми его ограничениями).

А можно приближать вектор по частям, добавляя опорные векторы по очереди.:
Первый ближайший опорный -> записали
Взяли разность входного и первого ближайшего опорного — получили остаток (Residual — буковку R в RQ), это тоже вектор — нашли ближайший из опорных уже к нему -> записали
и тд, как в matching pursuit в обработке сигналов.

В итоге на любой входной вектор получим цепочку таких опорных векторов.
Теперь каждый опорный вектор заменяем его номером в кодбуке и любой входной вектор превращается в последовательность дискретных токенов.

Невероятно сильно напоминает токенизацию в NLP.

Если кодбук содержит, например k = 256 векторов, а последовательность состоит из L токенов, то уникальное число комбинаций будет k^L.
Например, 4 токена достаточно чтобы закодировать 256^4 ≈ 4.3 млрд уникальных векторов (например, разных товаров).

А как такое добавить в лосс (quantisation loss) — уже дело техники.

И очень полезная для инференса штука: близкие вектора по построению получают похожие последовательности токенов.

Например:

item A → [12, 87, 5, 41]
item B → [12, 87, 6, 39].

Более того, ANN иногда вообще не нужен — ближайших можно искать просто по совпадающим токенам.

UPD
Замотался и забыл:
Парни навайбкодили целую либу sematic id, потестили — и работает!
Будут рады если кто-то еще потестит

1🔥20❤7👍6😱1🐳1

1.44K viewsedited 15:03

Дата канальи — про «специалистов» в данных / ML / AI

Вот так выгдядит полка с реккомендациями и их explanations здорового библиофила (или человека, идетифицирующего себя как библиофила)

1🔥16🤣11❤4

1.29K views07:03

Дата канальи — про «специалистов» в данных / ML / AI

Тот самый момент, когда пора нажать кнопку «Отправить». Выбор итоговых решений — это всегда немного волнительно, но очень интересно!

В самом разгаре ежегодное соревнование по машинному обучению Data Fusion* Contest** 2026. Общий призовой фонд — 3 000 000 рублей

Формат — онлайн: участвовать можно из любой точки мира.

В этом году участникам предстоит решить реальные бизнес-задачи, разработанные крупнейшими экспертами отрасли:

☑️

«Страж» — про вычисление подозрительных операций в банке

☑️

«Киберполка» — про подбор нужных финансовых продуктов из 41 варианта

☑️

«Герои» — про создание идеальных маршрутов с учетом времени

📣 Даты проведения соревнования: с 9 февраля по 30 марта 2026 года.

Торжественная церемония награждения победителей состоится в Москве во время конференции по анализу данных и технологиям ИИ — Data Fusion 2026.

Регистрируйся прямо сейчас и у тебя есть шанс:

🔵прокачать навыки;
🔵стать частью сообщества специалистов по обработке данных в России;
🔵решить нестандартные и амбициозные задачи, не похожие на твою повседневную работу;
🔵получить внушительное денежное вознаграждение.

Организаторы соревнования — ИТ-холдинг Т1 и ВТБ.

Покажи, на что ты способен!

*Интеграция данных
**Соревнование

Информация о рекламодателе

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3🥰2

934 views08:09

About

Blog

Apps

Platform