Дратути Антон – Telegram
Дратути Антон
4.11K subscribers
171 photos
30 videos
215 links
Мемы и личные размышления про управление, код, ml и здравый смысл.

Сейчас руковожу командой OCR in VLM в Яндексе.

Автор: @toshiknoscript
Download Telegram
Комментаторы в интернете нашли логотип для полноценного релиза o3 от OpenAi
33🤡5
Forwarded from AbstractDL
DeepSeek-R1 для чайников

Ну и наделала же DeepSeek шуму. Мне пришлось целый хабропост написать 😁

TLDR: мало слов про сравнение с ChatGPT и метрики, много слов про технические детали обучения, датасеты, GRPO и якобы эмерджентный «Aha! moment».
🔥6👍5🤡53🌭1
How to Scale Your Model

По наводке @epsiloncorrect делюсь вам прекрасным чтивом о том, как делать вычисления эффективными на разных масштабах для разных размеров ваших моделек: https://jax-ml.github.io/scaling-book/.

Естественно, я не успел так быстро всё прочитать, но там ещё много чего нужно осознать на самом деле. Правда полистал и посмотрел. В гайде есть классные картинки, интересные задачки на размять мозги, много (на первый взгляд) реально полезных выводов и выкладок.

Меня в целом настолько поразил контент, что обязательно выделю время изучить весь материал, хоть это и не так просто в последнее время. 😊

Зачем вам это? Отвечу словами из гайда, с которыми я очень солидарен:
Three or four years ago, I don’t think most ML researchers would have needed to understand any of this. But today even “small” models run so close to hardware limits that doing novel research requires you to think about efficiency at scale. A 20% win on benchmarks is irrelevant if it comes at a 20% cost to roofline efficiency. Promising model architectures routinely fail either because they can’t run efficiently at scale or because no one puts in the work to make them do so.
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍63🤡3🔥2
Особый вклад в найм

Вчера была совершенно неожиданная для меня тусовка, которую устроила компания для тех, кто очень много приносит пользы в процессе найма. И это так классно, что за такую штуку, которую ты просто считаешь своей работой, к тебе приходят и говорят — спасибо 😍!

Нам подарили классную джинсовку и подложили карточку, что сейчас вы можете наблюдать на фотографии.

Что же я такого сделал для найма? Если честно — просто делал свою работу. Собеседования — это очень интересное занятие, на мой вкус. Мне кажется, очень сложно найти такое место, где можно услышать сотню разных (и правильных!) мнений по тому или иному вопросу.

Ну и на самом деле я успел пообщаться уже с большим количеством людей: кто-то только начал свой путь, а кто-то уже тёртый калач, кто-то просит советов, а у кого-то ты во время собеседования и сам учишься.

С другой стороны — это дело трудозатратное. К собеседованию нужно готовиться, потом его нужно оценить и дать внятный фидбек. Это всё занимает времени, но оно того стоит. Я очень рад, что часть людей, которая прошла через меня, уже работает в компании, а с кем-то мы работаем даже бок-о-бок!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2616👍5🤡4🤣1
Structured Output в LLMках

Скорее всего все уже знают про то, что с помощью LLMок можно генерить не просто какой-то текст, а даже структурированную информацию (например, json) 🌿. Этакий llm json mode.

Мне стало интересно, как это работает на самом деле (привет Коннор) под капотом, поэтому решил погуглить чего есть для json. Итак, что я нагуглил:

1. https://blog.dottxt.co/coalescence.html
Спойлер: по сути, мы ограничиваем генерацию стейт-машиной. Из-за этого модель жестко ограничена только тем, что заложили в грамматику этой стейт-машины. Приходится напрягаться и подчиняться.

2. https://github.com/noamgat/lm-format-enforcer#how-does-it-work
Спойлер: строят префиксное дерево для токенизатора и парсер для схемки json. Потом ходят двумя указателями (по одному в каждом дереве) и ходят туда, куда могут пойти сразу оба.

У первого способа есть проблема холодного старта и нужно построить стейт-машину, что дольше, чем строить деревья. Но если всё же словарь огромный, то деревья становятся жирнючими и долгими (в построении) 👨‍🦳, поэтому дешевле стейт-машину завозить.

Вендоры же стараются просто заюзать подобные подходы и либы, просто оптимизируя узкие места (например, стейт-машину) 🤯.

Вопросики 😍: может кто-то еще знает каких-то подробностей, как оно работает? Может быть еще какие-то либы, примеры, алгоритмы?
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥4🤡3
Сгенерировал пару мемов с помощью @AIMemeArenaBot на основе текстов из прошлых постов.

Мой мир просто: 🤯
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👾4🤡32👍1😍1
This media is not supported in your browser
VIEW IN TELEGRAM
лучшее

спасибо за подгон Мишане (@tut_pro_art) — сгенерировали с помощью @AIMemeArenaBot
13🤡4💯4🔥2
Заметки про руководство — делегирование

Важная задача тимлида — уметь делегировать 😁. Каждый день ты сталкиваешься с огромным числом потоков информации и задач. Часть из них нужно отфильтровать и донести, что мы это делать не будем; что-то придется делать лично (например, решить что-то со смежниками), но большую часть нужно делегировать.

Конечно, ты можешь перформить как боженька, но на всё тебя не хватит 👨‍🦳. Невозможно контролировать абсолютно всё (правда про систему контроля можно отдельный пост писать, потому что она нужна). А ещё нужно растить людей, давать им свободу, зону ответственности. И тут давайте остановочку.

Да, в моменте может быть трудно: и задачка непонятная, и объяснить сложно, а ещё хрен знает человек вообще сможет затащить или нет. НО! Пусть учится, пусть развивается 🧠 — это win-win стратегия для вас обоих. Тут главное человечку помогать (но не перегибать, а то придём к феномену "обратного делегирования"). Конечно, это при условии, если человеку подходит такой трек работы. Ключевое — помогать. Делегирование — это не сбрасывание неудобных задач.

На эту тему еще есть классный видос от Фёдора Борщёва, есть спорный момент про "делегировать всё" — звучит слишком радикально, потому что так просто не бывает (или, может, я чего-то не понимаю?). Но если брать суть — рекомендую.

Закончить заметку хочу словами Миши Трошева:
Задача руководителя — собрать команду из людей, которые умеют решать какие-то задачи лучше самого руководителя, в том числе руководить. Илон Маск и Стив Джобс не сами создали Теслу и Айфон, это сделали огромные команды под их руководством.


К слову, делегирование — это навык не только руководителей. Менторство младших коллег, работа со стажёром — здесь тоже возникают места, когда нужно делегировать.

Как у вас с делегированием? Было сложно начать?

P.S. Ребят, хочу начать вести какие-то постоянные рубрики. Это первый пост из серии "заметки про руководство". Надеюсь, будет как-то полезно, ну или хотя бы интересно 😍.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥128🤡3💯1👾1
Памятка на завтра
25🤣185🤡5😁4
91🤣22🤡5👍1💩1🗿1
Улыбайтесь чаще, друзья 😁

Команда Умной Камеры (ребята, привет!) встроило себе небольшую классную пасхалочку, чтобы сделать жизнь пользователей чуточку приятнее. Вы можете открыть и попробовать сами сгенерировать себе комплимент!

Под капотом — VLM! Казалось бы ничего такого, но технически не самая простая задача. Когда-нибудь про это расскажем.

Ссылка на новость — воть.
Красивый я — на фотографии 😍
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24💅6💯4🤡3👍2👾1
GRPO

На этих выходных захотел верхнеуровнево разобраться в GRPO (Group Relative Policy Optimization) 🏥. Это полезно и по работе, и понимать, что вообще люди в комьюнити обсуждают так бурно. Если где-то ошибся или что-то можно объяснить точнее — поправляйте, буду рад обсудить 😍.

Вообще метод появился-то еще год назад, в работе DeepSeek — DeepSeekMath. Тогда еще @lovedeathtransformers назвал его странный рро. Ну и забили (вроде как). Переодически появлялся в статьях, а потом... Ну вы сами знаете, обвал рынков, шутки про дипсик и т.д. После этого все начали суетиться и заводить GRPO у себя в проектах. Вот, например, в TRL реализовали.

Метод и правда прост 🤓:
1. Генерируем N ответов на один промпт;
2. Оцениваем каждый из них — получаем награду;
3. Cчитаем среднее и стандартное отклонение по наградам из п.2;
4. Применяем операцию стандартизации (из каждой оценки вычитаем среднее и стандартное отклонение из п.3) — получаем относительные награды;
5. Обновляем модель, увеличивая вероятность хороших ответов и контролируя отклонение через KL-штраф (между исходной моделью и обучаемой).

Что здесь отличного от PPO (Proximal Policy Optimization):
— Это пункт 1, в котором мы оцениваем не одну цепочку генерации, а сразу N — и это самое главное, как мне кажется, новелти этого подхода. Одновременная оценка нескольких гипотез делает процесс обучения стабильнее, так как модель получает больше информации за одну итерацию и лучше учитывает вариативность ответов;
— Мы избавляемся от дополнительной модели-скорера: GRPO нормализует награды относительно других ответов, а не через отдельную value-модель, как в PPO, что делает процесс обучения более прозрачным и менее шумным, а также возможным для gpu-poor сетапов;

Исходя из того, что я почитал у разных коллег из индустрии, GRPO заведётся у вас точно, если:
1. Модель в каком-то приближении умеет решать задачу (например, здесь ребята пытаются сделать лучше grounding у qwen2.5-vl, а модель изначально неплохо в него умела; в R1 модельке кормили и код, и математику и чего только не кормили до GRPO);
2. Сама задача относительно простая и решается недолгими рассуждениями: для длинных рассуждений нужно считать оценку для промежуточных стадий.

Но при этом гипотезы, почему GRPO работает лучше PPO примерно следующие:
1. Нормировка ревордов достаточно простая и прозрачная; в PPO же что только не делали уже с нормировкой (особенно в мультихост обучении);
2. Да хрен его знает 👨‍🦳.

Еще говорят, что если у вас достаточно много источников ревордов, то GRPO может быть менее информативным. Вот тут буквально пару абзацев текста.

А если хотите погрузиться чуточку поглубже, можно почитать неплохой гайд здесь. Мне помог погрузиться!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20🤔5👍4🤡3😎2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
ML Party — СПб

Недавно выступал в Белграде (вот тут подробнее), пора продолжить в Петербурге!

18 марта буду рассказывать про нашу VLMку 🤓. В отличие от прошлого раза, где был некий обзор области в OCR домене и чего там делается, в этот раз расскажу чего мы делаем нашей большой дружной командой VLM. Будут по большей части кейсы из нашей практики, что взлетело, чего не получилось. Постараюсь поделиться самой мякоткой. Должно быть как минимум мега интересно!

Если сможете прийти лично — буду рад пообщаться! Если будете онлайн — тоже здорово, приходите посмотреть, а потом обязательно заходите с вопросами! Ссылочка на регистрацию!

P.S. Про нашу команду можно почитать здесь. Если вдруг вам захотелось присоединиться к нашему путешествию (на работку) — приходите ко мне в личку 😍
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍87🤡31👎1🤩1💩1👾1
Дратути Антон
Комментаторы в интернете нашли логотип для полноценного релиза o3 от OpenAi
А вот и лого для grok3 😀 Получается и правда самая умная модель
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣38👍3🤡3👎2😁2🌚1
Forwarded from Denis Sexy IT 🤖
Google вчера рассказал про свой новый тул «co-scientists», который пока доступен только ученым и это лучшая реклама инструмента:

Команда из Лондона исследовала почему определённые антибиотико-устойчивые «супербактерии» со временем приобретают устойчивость. Когда профессор загрузил свою неопубликованную гипотезу в новый инструмент от Google — тул не только за 48 часов воспроизвел основную гипотезу, над которой работала команда в течение десятилетия, но и предложил ещё четыре дополнительные обоснованные версии, одна из которых сейчас изучается


Работает он похоже на Deep research, просто пару дней ☕️

e/acc 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9🤡4👍2👎1
Снова папочка

Тут ребята позвали меня поучаствовать в новой папочке. В основном, кто-то недавно начал вести каналы, а кто уже заядлый блоггер! Ну ребята классные, поэтому почему бы и нет.

Итак, что полезного можете там забрать:
— Саша пишет про всё вокруг — примерно как я. Но одно из самых интересных — это серия постов про прохождения собесов 🤯
— Коля больше про ML-lifestyle, а также смешные мемасы 🔼
— Дима старается чуть глубже копнуть в ML топики, как здесь, есть нотки бэкдора — кому-то нравится 😀

Если интересно — забирайте себе папку!
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡46🐳25👍86🔥6❤‍🔥1👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Ребятушки, ну вы чивооооо 😊

Ещё китов не хватает, поднажмите
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡53🐳52🦄54🤣4👎1
Документный перевод на базе YandexGPT

Как человек, который когда-то работал плотно с фотопереводом (правда со стороны OCR), могу заявить, что контекст очень как решает. Со стороны OCR чуть ошибёшься в разбивке предложений или абзацев — и перевод едет знатно.

Тут ребята написали пост про то, как они улучшали документный перевод путём дотюнивания YandexGPT. Тут вам и про задачу (почему надо так), и про peft, и про alignment. Рассказывают про то, чем им не угодил DPO.

Как итог: качество стало заметно выше, раскатывают модельку на приложения компании, а также в каком-то бенче в en->ru переводе заняли первое место, обогнав другие модельки (приятненько). Но есть куда расти (на другие языки, например).

Читать здесь.
👍13🤡54🔥3👎1