Ebout Data Science | Дима Савелко – Telegram
Ebout Data Science | Дима Савелко
3K subscribers
242 photos
28 videos
115 links
Ebout Data Science by @ngmdite | По поводу менторства пиши на @savelkoteam
Download Telegram
Классический RecSys умер? Не спешите его хоронить

Сейчас часто слышу мнение, что эпоха классических рекомендательных систем (матричные факторизации, бустинги, классический скоринг) уходит в закат. Мол, зачем нам возиться с фичами и векторами, если всё уходит в Agentic AI и LLM, которые сами разберутся и сделают красиво? ⌨️

Я считаю, что это опасное заблуждение. Будущее ML-систем не в замене старого на новое, а в гибридной архитектуре.

Почему классика в виде рекомендашак никуда не денется?

1️⃣ Проблема масштаба
Никакой агент или LLM (на данный момент) не способен переварить каталог из 10 миллионов айтемов в реал-тайме. Это либо безумно дорого, либо неприемлемо долго. Тяжелую атлетику по-прежнему будут делать классические модели (Two-Tower, ANN, MF). Их задача - быстро и дешево отфильтровать шум и выдать топ-100 кандидатов. Это фундамент, это база 🙈

2️⃣ Агенты - это мозги, а не мускулы
Агентские системы вступают в игру на этапе Re-ranking / Reasoning. Когда кандидаты уже отобраны, агент может применить сложное рассуждение, учесть неявный контекст текущей сессии и принять финальное решение, которое как раз таки и улучшает всё качество системы 🐸

Мы идем к архитектуре, где:
🔵Bottom-level: Эффективный классический ML для генерации кандидатов, выбираем из 1 млн кандидатов 500-1к кандидатов
🟢Top-level: Агентская логика для сложной персонализации и объяснимости. Сюда сбрасываем небольшой кусочек для конченой фильтрации.

Вывод: Нельзя построить крутую агентскую систему, если у вас проседает база. Если классический алгоритм подает на вход агенту мусор, то даже самый умный GPT на выходе выдаст мусор, просто красиво упакованный ❤️

Поэтому, прежде чем бежать в сложные агентские пайплайны, нужно железобетонно понимать, как работает классика. Без этого фундамента ваш пайпик не полетит

Мой товарищ Ваня как раз выпустил отличный материал про базу рекомендательных систем (серия постов про RecSys и Ранжирование). Если хотите понимать, что находится под капотом у современных движков - вам к нему
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12💯75❤‍🔥3🥰1🍌1
Как айтишнику найти девушку

Я думаю, что каждый парень задавался этим вопросом, а особенно айтишник. Как выглядит типичный быт стереотипного чела из IT? Встать в 12, помыться (в лучшем случае), поработать, посмотреть в окно один раз за день и лечь спать в 3 часа ночи под аниме 🤡

Да, это всё стереотипы, но в них есть доля правды - сам в себе и в других замечаю некоторые сходства. Плюс айтишник зачастую не выходит из дома или офиса, и контачить с людьми большинству ребят действительно тяжело. А что говорить вообще про девушек? Их большинству даже коснуться страшно.

Так как я в канале хочу давать вам больше личных историй, где я сам лично проебался, осознал и вырос духовно, то вот вам стори в ленту 👊

У меня самого было несколько отношений, которые не увенчались успехом, потому что и у меня было насрано в голове, и у моих партнёрш тоже. И это абсолютно нормально, самое главное - какие выводы вы делаете после. Запомните, идеальных людей не бывает: у всех насрано в голове, только у кого-то маленькая какуля, а у кого-то перемешано чайной ложкой вдобавок. Сейчас же я в самых лучших отношениях, где мы с человеком понимаем друг друга с полуслова, нет ни ссор, ни каких-либо странных претензий или требований. Всё максимально дружелюбно и с полным пониманием - всем такого желаю!

А что же такое произошло? Как так получилось, что из постоянных качелей/ссор/истерик в отношениях я нашёл то, чего мне так не хватало? Есть несколько принципов, которых я придерживаюсь:

1️⃣ Люди с равной степенью насранности в голове всегда найдут друг друга
Если ты нарик, конч и любитель качелей, то ты найдёшь ровно такого же человека, которому или нужно тобой поуправлять/полечить тебя, или ещё что-то. Поэтому в первую очередь всегда работайте только, и, сука, только со своей башкой. Не лезьте и ни в коем случае не меняйте других, это их жизнь. Как говорил классик: "не лезь туда дебил, сука, она тебя сожрёт". 🐵

2️⃣ Обретите внутреннюю силу
Не надо искать отношения, лично я никогда не понимал этого тупого желания. Если у вас изначально сидит что-то внутри и говорит: "мне нужна девушка, ну очень прям надо" - это звоночек. Окей, вы найдёте девушку, но внутренняя дыра останется, и из неё могут выходить качели, недопонимания, ссоры и т.д. Поэтому сначала мы качаем себя: ходим к психологу, качаем бабки, ходим с гей-друзьями в зал, путешествуем - и тогда в один прекрасный момент, будучи гигачадом, вы найдёте ту самую 💪

3️⃣ Независимость
Очень важно быть независимым финансово, сепарироваться от родителей/соседей/друзей. Это не означает забить болт на близких и ни с кем не общаться. Это означает уметь самому о себе позаботиться в разных сферах жизни: стирать себе труханы, покупать и готовить еду, считать финансы. Это всё помогает более осознанно относиться к своему труду и вкладу вашего партнёра

4️⃣ Чёткое понимание, что вам надо
Вы должны чётко понимать, какими критериями и характеристиками должен обладать ваш партнёр, и уметь говорить «нет» тому, кто не подходит под ваши критерии. Ну и, естественно, вы должны сами соответствовать своим же запросам. Если вы будете говорить «да» человеку из-за жалости или страха, то из этого ничего хорошего не выйдет (проверено на опыте).

Вывод: для меня выбор партнёра - это прямой показатель осознанности человека. По моему мнению, только осознанный человек выберет осознанного партнёра, с которым он будет счастлив 🕺

Пишите в комментариях, были ли у вас отношения, где вы ловили лютые качели, и как вы справлялись с "насранностью" в голове?
Please open Telegram to view this post
VIEW IN TELEGRAM
136🤣24🍌7❤‍🔥4🔥3👍1🥰1💯1
Твоё инфополе формирует твой оффер

Я постоянно говорю: чтобы стать гигачадом, нужно окружать себя гигачадами. Если в твоей ленте только мемасы и котики, то и зарплата будет на вискас. Хочешь жирный оффер? Тогда читай тех, кто уже там. Потребляй контент, который конвертируется в харды, а не в прокрастинацию 😋

Пока остальные доедают прошлогоднее оливье, мы собрали для вас папку «IT в деле».

Что внутри:

🟣 Разработка и кодинг
Каналы про Python, C++, C#, Java. Только хард-скиллы и база, которая нужна для реальных задач, а не для галочки.
🟡 GameDev
Для тех, кто хочет не просто играть, а создавать миры. Подсказки для проектов и реальный опыт создания игр - от инди до чего-то серьёзного
🔵 Аналитика и Базы Данных
Всё по работе с данными от А до Я. Авторские лайфхаки, заметки с боевых проектов и никакой воды. Данные - это фундамент любого решения
🟢 QA и Тестирование
Опытные тестировщики делятся знаниями. Идеально для тех, кто ищет проверенный и понятный путь входа в IT

Уверен, что для каждого здесь найдётся, что-то своё, поэтому выбирайте для себя сочные каналы и сокращайте путь до оффера
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣106❤‍🔥3😁3🔥1🥰1🤯1🍌1
Какую нейронку выбрать, чтобы не быть скуфом, а стать гигачадом вайбкодинга

В 2026 году становится всё больше и больше ЛЛМ-ок и время одной модели для всего официально уходит в небытие. Теперь у нас тут не монополия, а жёсткая специализация. Чтобы вы не потерялись в этом зоопарке, держите структурный разбор по ролям для вашего вайбкодинга 🍗

1️⃣ Gemini 3 Pro - Главный Архитектор
Эта машина обладает суперсилой в виде контекста на 2 миллиона токенов и лютым ризонингом. Его основная мощь в том, что гемини видит всю картину целиком, умеет глубоко копать.

Для чего юзаем:
🔵Планирование: Когда нужно придумать архитектуру проекта с нуля
🟣Разбор кода: Загрузить огромный репозиторий и спросить: «Чо тут вообще происходит и как это переписать?».
🟢Визуал: Идеально работает со скриншотами интерфейсов.

Минусы: Может словить аналитический паралич - думать слишком долго и переусложнять там, где не надо.
Цена: В курсоре есть лимиты, но в антигравити пока в бете - бесплатно. Имба для старта 🤪

2️⃣ Claude 3.5 Sonnet / Opus 4.5 - строгий сеньор
Opus 4.5 - это сейчас золотой стандарт качества. Если вам нужно, чтобы код был надежным, безопасным и не падал при первом чихе - вам нужно обращаться к нему: надёжность и безопасность, так как антропики жёстко заёбываются именно над api для девелоперов 👊

Для чего юзаем:
🔵Сложный рефакторинг: Работа с легаси, где страшно дышать.
🟣Режим агента: Выполняет многошаговые инструкции без присмотра, как взрослый.
🟢Безопасность: Лучше понимает контекст уязвимостей.

Минусы: Opus 4.5 стоит как крыло от самолёта. Используем только для хардкорных задач.

3️⃣ GPT-5.2 - прагматичный исполнитель
Это ваша рабочая лошадка. Адаптивная, надёжная и может выплюнуть 128k токенов кода за раз, не обрезая на самом интересном месте. Он силён в стабильносте инструментов и в большом объёме выводов.

Для чего юзаем:
🔵Новые проекты: Пишет функционал с нуля очень бодро.
🟣Agent Mode: Шикарно работает автономно, сам создаёт файлы и запускает команды.
🟡Фишка: Скидка 90% на кэшированный вход - для долгих сессий это просто спасение бюджета.

4️⃣ DeepSeek V3 / Gemini Flash - бюджетный стабильный джун
Суперсила этих ребят - скорость и цена. DeepSeek V3 в 53 раза дешевле Опуса. Можно давать небольшие минорные изменения с понятным промптом и тогда всё будет кул 💃

Для чего юзаем:
🔵Рутина: Написать тесты, документацию, комменты.
🟣Мелкие правки: Поправить баги, опечатки.
🟢Массовые задачи: Когда нужно перелопатить гору файлов и не разориться.

Итог: Не стреляйте из пушки по воробьям. Если нужна архитектура, то Gemini. Нужно качество в легаси - Claude Opus. Пишете с нуля - GPT-5.2. Нужна рутина за копейки? DeepSeek V3 / Gemini Flash 🍴

Инфу брал из этого репозитория, там много разных фишек рассказывается

Комбинируйте с умом, и будет вам счастье! А на чьей игле сидите вы сейчас? Пишите в комменты 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥9🔥64🥰1🍌1
Андрюша Карпатый снова навалил базы: nanochat miniseries v1 😮

Андрей Карпатый не перестаёт радовать нас годным контентом. Он выкатил жирный апдейт в своём репозитории nanochat - проекте, который учит создавать свой ChatLGBT с полного нуля.

Если раньше мы просто учились запускать пайплайн, чтобы оно работало, то теперь Андрюха погружает нас именно в сам процесс обучения. Главный вопрос апдейта: как тратить вычислительные ресурсы (бабосиксаны) максимально эффективно? 🤔

Разбираем, что там внутри:

1️⃣ Scaling Laws
Для многих новичков подбор параметров модели звучит как что-то непонятное, но Карпатый показывает, что это - строгая и понятная математика. Суть проста: хватит гадать на кофейной гуще, какую архитектуру выбрать и сколько данных скормить. Бро использует законы масштабирования.

Эксперимент: Карпатый запустил серию обучений (miniseries) с фиксированным бюджетом (~$100 на H100) и потратил его по-разному:
🟣 Одни модели были «маленькими», но учились долго (много токенов)
🟡 Другие были «жирными», но учились быстро (мало токенов)

Результат: Все модели стоили одинаково, но одна конкретная конфигурация дала лучшее качество

2️⃣ Предсказуемость - наше всё
Вы не играете в казик, когда запускаете обучение. Вы можете провести дешёвые эксперименты за сотку баксов, найти идеальную формулу, а затем просто увеличить масштаб (вложить $100k или $1M) и гарантированно получить ожидаемый прирост качества. Инженеры OpenAI/Anthropic не тыкают пальцем в небо, они так считает деньги и масштабы 🍗

3️⃣ Сдвиг фокуса на Pretraining
В первой версии nanochat фишкой был «полный цикл» до веб-интерфейса. В miniseries v1 акцент сместился на Pretraining. Запомните: именно здесь закладывается фундамент интеллекта. Если вы обосрались на претрейне, то никакой файн-тюн (SFT/RLHF) это уже не исправит 🍌

Что с этим делать? Если хотите реально понимать, как работают LLM , а не просто импортировать либы:
Залетайте в обсуждение: github.com/karpathy/nanochat/discussions/420
Смотрите на графики Loss vs Compute
Ковыряйте код скрипта miniseries.sh - это эталон того, как нужно организовывать эксперименты

Итог 🏋️
Масштабирование - это сплошная инженерка. Андрюха дал вам песочницу, чтобы освоить её за копейки, прежде чем лезть в серьёзные бюджеты. Поэтому тыкаем это обсуждение с ЛЛМ-кой, чтобы понять его
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥128❤‍🔥3🍌2