NEW BOT Телеграм, страница - 346309004

Дратути Антон

4.11K subscribers

171 photos

30 videos

215 links

Мемы и личные размышления про управление, код, ml и здравый смысл.

Сейчас руковожу командой OCR in VLM в Яндексе.

Автор: @toshiknoscript

Download Telegram

About

Blog

Apps

Platform

Дратути Антон

4.11K subscribers

Дратути Антон

Комментаторы в интернете нашли логотип для полноценного релиза o3 от OpenAi

33🤡5

3.21K views08:09

Дратути Антон

Forwarded from AbstractDL

DeepSeek-R1 для чайников

Ну и наделала же DeepSeek шуму. Мне пришлось целый хабропост написать 😁

TLDR: мало слов про сравнение с ChatGPT и метрики, много слов про технические детали обучения, датасеты, GRPO и якобы эмерджентный «Aha! moment».

🔥6👍5🤡5❤3🌭1

2.93K views21:13

Дратути Антон

How to Scale Your Model

По наводке @epsiloncorrect делюсь вам прекрасным чтивом о том, как делать вычисления эффективными на разных масштабах для разных размеров ваших моделек: https://jax-ml.github.io/scaling-book/.

Естественно, я не успел так быстро всё прочитать, но там ещё много чего нужно осознать на самом деле. Правда полистал и посмотрел. В гайде есть классные картинки, интересные задачки на размять мозги, много (на первый взгляд) реально полезных выводов и выкладок.

Меня в целом настолько поразил контент, что обязательно выделю время изучить весь материал, хоть это и не так просто в последнее время. 😊

Зачем вам это? Отвечу словами из гайда, с которыми я очень солидарен:

Three or four years ago, I don’t think most ML researchers would have needed to understand any of this. But today even “small” models run so close to hardware limits that doing novel research requires you to think about efficiency at scale. A 20% win on benchmarks is irrelevant if it comes at a 20% cost to roofline efficiency. Promising model architectures routinely fail either because they can’t run efficiently at scale or because no one puts in the work to make them do so.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍6✍3🤡3🔥2

2.93K viewsedited 20:46

Дратути Антон

Особый вклад в найм

Вчера была совершенно неожиданная для меня тусовка, которую устроила компания для тех, кто очень много приносит пользы в процессе найма. И это так классно, что за такую штуку, которую ты просто считаешь своей работой, к тебе приходят и говорят — спасибо 😍!

Нам подарили классную джинсовку и подложили карточку, что сейчас вы можете наблюдать на фотографии.

Что же я такого сделал для найма? Если честно — просто делал свою работу. Собеседования — это очень интересное занятие, на мой вкус. Мне кажется, очень сложно найти такое место, где можно услышать сотню разных (и правильных!) мнений по тому или иному вопросу.

Ну и на самом деле я успел пообщаться уже с большим количеством людей: кто-то только начал свой путь, а кто-то уже тёртый калач, кто-то просит советов, а у кого-то ты во время собеседования и сам учишься.

С другой стороны — это дело трудозатратное. К собеседованию нужно готовиться, потом его нужно оценить и дать внятный фидбек. Это всё занимает времени, но оно того стоит. Я очень рад, что часть людей, которая прошла через меня, уже работает в компании, а с кем-то мы работаем даже бок-о-бок!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26❤16👍5🤡4🤣1

2.7K viewsedited 06:58

Дратути Антон

Structured Output в LLMках

Скорее всего все уже знают про то, что с помощью LLMок можно генерить не просто какой-то текст, а даже структурированную информацию (например, json) 🌿. Этакий llm json mode.

Мне стало интересно, как это работает на самом деле (привет Коннор) под капотом, поэтому решил погуглить чего есть для json. Итак, что я нагуглил:

1. https://blog.dottxt.co/coalescence.html
Спойлер: по сути, мы ограничиваем генерацию стейт-машиной. Из-за этого модель жестко ограничена только тем, что заложили в грамматику этой стейт-машины. Приходится напрягаться и подчиняться.

2. https://github.com/noamgat/lm-format-enforcer#how-does-it-work
Спойлер: строят префиксное дерево для токенизатора и парсер для схемки json. Потом ходят двумя указателями (по одному в каждом дереве) и ходят туда, куда могут пойти сразу оба.

У первого способа есть проблема холодного старта и нужно построить стейт-машину, что дольше, чем строить деревья. Но если всё же словарь огромный, то деревья становятся жирнючими и долгими (в построении) 👨‍🦳, поэтому дешевле стейт-машину завозить.

Вендоры же стараются просто заюзать подобные подходы и либы, просто оптимизируя узкие места (например, стейт-машину) 🤯.

Вопросики 😍: может кто-то еще знает каких-то подробностей, как оно работает? Может быть еще какие-то либы, примеры, алгоритмы?

Please open Telegram to view this post

VIEW IN TELEGRAM

✍11🔥4🤡3

3.2K views06:33

Дратути Антон

This media is not supported in your browser

VIEW IN TELEGRAM

Сгенерировал пару мемов с помощью @AIMemeArenaBot на основе текстов из прошлых постов.

Мой мир просто: 🤯

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👾4🤡3⚡2👍1😍1

2.81K views10:58

Дратути Антон

This media is not supported in your browser

VIEW IN TELEGRAM

лучшее

спасибо за подгон Мишане (@tut_pro_art) — сгенерировали с помощью @AIMemeArenaBot

13🤡4💯4🔥2

2.49K viewsedited 15:30

Дратути Антон

Заметки про руководство — делегирование

Важная задача тимлида — уметь делегировать 😁. Каждый день ты сталкиваешься с огромным числом потоков информации и задач. Часть из них нужно отфильтровать и донести, что мы это делать не будем; что-то придется делать лично (например, решить что-то со смежниками), но большую часть нужно делегировать.

Конечно, ты можешь перформить как боженька, но на всё тебя не хватит 👨‍🦳. Невозможно контролировать абсолютно всё (правда про систему контроля можно отдельный пост писать, потому что она нужна). А ещё нужно растить людей, давать им свободу, зону ответственности. И тут давайте остановочку.

Да, в моменте может быть трудно: и задачка непонятная, и объяснить сложно, а ещё хрен знает человек вообще сможет затащить или нет. НО! Пусть учится, пусть развивается 🧠 — это win-win стратегия для вас обоих. Тут главное человечку помогать (но не перегибать, а то придём к феномену "обратного делегирования"). Конечно, это при условии, если человеку подходит такой трек работы. Ключевое — помогать. Делегирование — это не сбрасывание неудобных задач.

На эту тему еще есть классный видос от Фёдора Борщёва, есть спорный момент про "делегировать всё" — звучит слишком радикально, потому что так просто не бывает (или, может, я чего-то не понимаю?). Но если брать суть — рекомендую.

Закончить заметку хочу словами Миши Трошева:

Задача руководителя — собрать команду из людей, которые умеют решать какие-то задачи лучше самого руководителя, в том числе руководить. Илон Маск и Стив Джобс не сами создали Теслу и Айфон, это сделали огромные команды под их руководством.

К слову, делегирование — это навык не только руководителей. Менторство младших коллег, работа со стажёром — здесь тоже возникают места, когда нужно делегировать.

Как у вас с делегированием? Было сложно начать?

P.S. Ребят, хочу начать вести какие-то постоянные рубрики. Это первый пост из серии "заметки про руководство". Надеюсь, будет как-то полезно, ну или хотя бы интересно 😍.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31🔥12❤8🤡3💯1👾1

3.41K viewsedited 21:25

Дратути Антон

Памятка на завтра

25🤣18✍5🤡5😁4

4.21K views10:13

Дратути Антон

91🤣22🤡5👍1💩1🗿1

4.27K views21:00

Дратути Антон

Улыбайтесь чаще, друзья

😁

Команда Умной Камеры (ребята, привет!) встроило себе небольшую классную пасхалочку, чтобы сделать жизнь пользователей чуточку приятнее. Вы можете открыть и попробовать сами сгенерировать себе комплимент!

Под капотом — VLM! Казалось бы ничего такого, но технически не самая простая задача. Когда-нибудь про это расскажем.

Ссылка на новость — воть.
Красивый я — на фотографии 😍

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥24💅6💯4🤡3👍2👾1

2.88K viewsedited 15:19

Дратути Антон

This media is not supported in your browser

VIEW IN TELEGRAM

Со звуком

😁16🤡32

2.91K views06:01

Дратути Антон

GRPO

На этих выходных захотел верхнеуровнево разобраться в GRPO (Group Relative Policy Optimization) 🏥. Это полезно и по работе, и понимать, что вообще люди в комьюнити обсуждают так бурно. Если где-то ошибся или что-то можно объяснить точнее — поправляйте, буду рад обсудить 😍.

Вообще метод появился-то еще год назад, в работе DeepSeek — DeepSeekMath. Тогда еще @lovedeathtransformers назвал его странный рро. Ну и забили (вроде как). Переодически появлялся в статьях, а потом... Ну вы сами знаете, обвал рынков, шутки про дипсик и т.д. После этого все начали суетиться и заводить GRPO у себя в проектах. Вот, например, в TRL реализовали.

Метод и правда прост 🤓:
1. Генерируем N ответов на один промпт;
2. Оцениваем каждый из них — получаем награду;
3. Cчитаем среднее и стандартное отклонение по наградам из п.2;
4. Применяем операцию стандартизации (из каждой оценки вычитаем среднее и стандартное отклонение из п.3) — получаем относительные награды;
5. Обновляем модель, увеличивая вероятность хороших ответов и контролируя отклонение через KL-штраф (между исходной моделью и обучаемой).

Что здесь отличного от PPO (Proximal Policy Optimization):
— Это пункт 1, в котором мы оцениваем не одну цепочку генерации, а сразу N — и это самое главное, как мне кажется, новелти этого подхода. Одновременная оценка нескольких гипотез делает процесс обучения стабильнее, так как модель получает больше информации за одну итерацию и лучше учитывает вариативность ответов;
— Мы избавляемся от дополнительной модели-скорера: GRPO нормализует награды относительно других ответов, а не через отдельную value-модель, как в PPO, что делает процесс обучения более прозрачным и менее шумным, а также возможным для gpu-poor сетапов;

Исходя из того, что я почитал у разных коллег из индустрии, GRPO заведётся у вас точно, если:
1. Модель в каком-то приближении умеет решать задачу (например, здесь ребята пытаются сделать лучше grounding у qwen2.5-vl, а модель изначально неплохо в него умела; в R1 модельке кормили и код, и математику и чего только не кормили до GRPO);
2. Сама задача относительно простая и решается недолгими рассуждениями: для длинных рассуждений нужно считать оценку для промежуточных стадий.

Но при этом гипотезы, почему GRPO работает лучше PPO примерно следующие:
1. Нормировка ревордов достаточно простая и прозрачная; в PPO же что только не делали уже с нормировкой (особенно в мультихост обучении);
2. Да хрен его знает 👨‍🦳.

Еще говорят, что если у вас достаточно много источников ревордов, то GRPO может быть менее информативным. Вот тут буквально пару абзацев текста.

А если хотите погрузиться чуточку поглубже, можно почитать неплохой гайд здесь. Мне помог погрузиться!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥20🤔5👍4🤡3😎2👎1

2.62K views06:32

Дратути Антон

This media is not supported in your browser

VIEW IN TELEGRAM

ML Party — СПб

Недавно выступал в Белграде (вот тут подробнее), пора продолжить в Петербурге!

18 марта буду рассказывать про нашу VLMку 🤓. В отличие от прошлого раза, где был некий обзор области в OCR домене и чего там делается, в этот раз расскажу чего мы делаем нашей большой дружной командой VLM. Будут по большей части кейсы из нашей практики, что взлетело, чего не получилось. Постараюсь поделиться самой мякоткой. Должно быть как минимум мега интересно!

Если сможете прийти лично — буду рад пообщаться! Если будете онлайн — тоже здорово, приходите посмотреть, а потом обязательно заходите с вопросами! Ссылочка на регистрацию!

P.S. Про нашу команду можно почитать здесь. Если вдруг вам захотелось присоединиться к нашему путешествию (на работку) — приходите ко мне в личку 😍

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍8❤7🤡3⚡1👎1🤩1💩1👾1

2.73K viewsedited 06:34

Дратути Антон

Дратути Антон

Комментаторы в интернете нашли логотип для полноценного релиза o3 от OpenAi

А вот и лого для grok3 😀 Получается и правда самая умная модель

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣38👍3🤡3👎2😁2🌚1

2.65K views11:29

Дратути Антон

Forwarded from Denis Sexy IT 🤖

Google вчера рассказал про свой новый тул «co-scientists», который пока доступен только ученым и это лучшая реклама инструмента:

Команда из Лондона исследовала почему определённые антибиотико-устойчивые «супербактерии» со временем приобретают устойчивость. Когда профессор загрузил свою неопубликованную гипотезу в новый инструмент от Google — тул не только за 48 часов воспроизвел основную гипотезу, над которой работала команда в течение десятилетия, но и предложил ещё четыре дополнительные обоснованные версии, одна из которых сейчас изучается

Работает он похоже на Deep research, просто пару дней ☕️

e/acc 🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

research.google

Accelerating scientific breakthroughs with an AI co-scientist

🔥9🤡4👍2👎1

2.21K views21:59

Дратути Антон

Снова папочка

Тут ребята позвали меня поучаствовать в новой папочке. В основном, кто-то недавно начал вести каналы, а кто уже заядлый блоггер! Ну ребята классные, поэтому почему бы и нет.

Итак, что полезного можете там забрать:
— Саша пишет про всё вокруг — примерно как я. Но одно из самых интересных — это серия постов про прохождения собесов

🤯

— Коля больше про ML-lifestyle, а также смешные мемасы

🔼

— Дима старается чуть глубже копнуть в ML топики, как здесь, есть нотки бэкдора — кому-то нравится 😀

Если интересно — забирайте себе папку!

Please open Telegram to view this post

VIEW IN TELEGRAM

🤡46🐳25👍8❤6🔥6❤‍🔥1👎1

2.45K views09:16

Дратути Антон

This media is not supported in your browser

VIEW IN TELEGRAM

Ребятушки, ну вы чивооооо 😊

Ещё китов не хватает, поднажмите

Please open Telegram to view this post

VIEW IN TELEGRAM

🤡53🐳52🦄5❤4🤣4👎1

2.25K viewsedited 10:11

Дратути Антон

Документный перевод на базе YandexGPT

Как человек, который когда-то работал плотно с фотопереводом (правда со стороны OCR), могу заявить, что контекст очень как решает. Со стороны OCR чуть ошибёшься в разбивке предложений или абзацев — и перевод едет знатно.

Тут ребята написали пост про то, как они улучшали документный перевод путём дотюнивания YandexGPT. Тут вам и про задачу (почему надо так), и про peft, и про alignment. Рассказывают про то, чем им не угодил DPO.

Как итог: качество стало заметно выше, раскатывают модельку на приложения компании, а также в каком-то бенче в en->ru переводе заняли первое место, обогнав другие модельки (приятненько). Но есть куда расти (на другие языки, например).

Читать здесь.

👍13🤡5❤4🔥3👎1

2.47K views12:23