Дратути Антон – Telegram
Дратути Антон
4.11K subscribers
171 photos
30 videos
215 links
Мемы и личные размышления про управление, код, ml и здравый смысл.

Сейчас руковожу командой OCR in VLM в Яндексе.

Автор: @toshiknoscript
Download Telegram
Потестил Mistral OCR

Чо могу сказать: очень хорошо, но есть куда стремиться
— Русская рукописка точно не работает;
— Русский/Английский печатный работает очень хорошо;
— Формулы я так и не нашёл пока багов, даже сложные индексы находит;
— Иногда (редко) сжевывает какие-то столбцы в таблицах;
— Явных жоский галлюцинаций я не нашёл;
— Мне показалось, что очень хорошо строит layout.

Не знаю, что ребята делают под капотом, но это работает турбо быстро! Я заливал pdfки и меньше чем за минуту ко мне прилетал уже готовый markdown. В общем, топчик!

Оригиналы скринов, документов и распознаваний приложу в комментарии!
🔥27🤯63👎2🏆2👍1🤔1🐳1💯1
Начали подъезжать независимые бенчи

https://getomni.ai/ocr-benchmark

Так топ или не топ? Как обычно, выбирайте что вам лучше всего подходит.
🔥4👎2💯1
Всех девушек поздравляю с прекрасным, как и вы, праздником!

Всегда восхищаюсь людьми, вне зависимости от пола. Но почему то именно в моей жизни выборка людей получается такой, что в ней девушки — это самые увлечённые, с самыми креативными и гениальными идеями люди. Именно вы самые заботливые и понимающие люди для меня!

Я желаю, чтобы этот день, наполненный вниманием к вам, был не только сегодня, а каждый день!
🔥1612🐳4🤔3👎2🏆1
😂😂😂😂😂
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣49👍8🏆3👎2
Очная лекция в [AI] Talent Hub

Ребята из @aitalenthubnews пригласили меня на очную встречу со студентами, попавшими на [AI] Workshop Week. Сама лекция проходила 11 марта, получается свежие новости 😀

Рассказывал про свой опыт в IT, какую роль для этого сыграл ИТМО, а также вообще чем я руководствовался, когда хотел куда-то продолжать двигаться. После была сессия вопросов, из самых неожиданных моментов дискуссии:
— Почему я переименовал свой канал 😂?
— Почему Produnction 😍?

Было много вопросов про OCR и VLM. На часть из них я смог ответить полноценно, а про что-то ответил на поверхности. На много чего я смогу дать большую картинку для понимания на ближайшем ML Party, который будет проходить в Санкт-Петербурге, 18 марта.

Я тут чекнул, регистрация ещё открыта, так что приходите, будет точно интересно!

P.S. Ребята мне ещё подарили футболку размера L, а я правда S ношу. Но ничего, с женой вдвоём точно поместимся 😂
P.P.S. Со мной сфотографировалось даже пару человек 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥206💯4👎2🍾2👍1
И правда...
🤣24🔥10💯5👎21
Forwarded from CV Time
Личный опыт инженеров Яндекса — Антон Клочков

Продолжаем рассказывать об ML`щиках в Яндексе, их успехах и трендах, на которые они делают ставку. Сегодня наш герой — руководитель подгруппы распознавания текста в VLM Антон Клочков.

Больше карточек — по хештэгу #YaMLpeople.

CV Time
🔥14❤‍🔥63👎2🐳2
Решил потрогать лес на этих выходных!

А что делаете вы?
🔥20💯4🏆3👎2🐳1🍾1
This media is not supported in your browser
VIEW IN TELEGRAM
Чо по графику работы?
😁16🤣7👍2👎2🔥1
Cursor

Пока ходил на дорожке, посмотрел ролик про использование Cursor 😍. Его мне скинули в комментах к одному из постов — спасибо за полезный контент! Вот ссылка: https://youtu.be/2PjmPU07KNs.

В ролике автор делает приложение для парсинга Reddit. В практическом смысле это решение вряд ли нужно, но как обучающий пример — самое оно. Я проникся этим инструментом, особенно возможность редактировать отдельные куски кода и интерактивно обновлять дизайн-доку. Надеюсь, в скором времени доберусь его попробовать 😊.

В течение всего ролика меня не покидала мысль: "Как же полезно писать дизайн-доки", потому что построение приложения строится именно на нём. Чем точнее будут описаны все твои требования, тем лучше получится приложенька.

Думаю, если у вас грамотная архитектура, а ещё вы придерживаетесь модульности на проекте, то Cursor может помочь с улучшением отдельных модулей (при условии, что есть хорошая дизайн-дока для этого модуля). Но пока не встречал примеров его применения в крупных проектах 😍.

Чтобы подобные инструменты действительно работали в сложных задачах, они должны имитировать поведение реальных разработчиков. Представим, что где-то возник баг, и его надо отладить (допустим, приложение можно запустить в дебаг режиме):
1. Запускаем GDB и снимаем корку 🏥 (если нужно);
2. Находим место бага 🤨;
3. Начинаем исходя из входных данных по стектрейсу двигаться выше и выше, пытаясь обнаружить, где что-то пошло не так (и не тупо, а проходимся по доп зависимостям, которые через AST какой-нибудь в IDE подгружаются) 🔼;
4. Попутно ставим принты или брейкпоинты, если нужно 🤓;
5. Если нужно, запускаем всякие тулзы, типа профилировщиков .

И это уже всё напоминает какую-то экспертную систему, к которой мы обязательно придём. Думаю, как я уже писал в одном из прошлых постов (https://news.1rj.ru/str/blog_toxa/352), в этом году умных агентов станет куда больше 🔼.

Если мы говорим про людей, то те, кто уже сейчас экспериментируют с инструментами вроде Cursor, могут в будущем стать в разы производительнее. Пока что они просто нарабатывают опыт и интуицию в работе с такими системами. И когда придёт очередное решение, которое уже будет работать "огого!", ребятки уже будут в курсе, как это использовать, а не пытаться вкатываться 🤔.

Интересное нас будущее ждёт!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍8👎2🏆2
27

Ого, как быстро летит время! Ещё вчера я соревновался с пацанами во дворе, кто палку круче найдёт и кто выше на дерево заберётся, а сегодня уже мне 27, вроде даже работаю и что-то получается 😍.

За последний год, наверное произошло супер многое, но если касается личного, то:
— Я стал тимлидом крутой команды, которую собрал с нуля (ребята, спасибо что вы со мной 😍);
— Я женился на самой прекрасной девушке 🌿;
— Я с женой посетили Францию, отведали круассанов (они и правда топ), посетили несколько городов ☺️;
— Ребят, кто меня читает — стало куда больше 🔼!

Я боюсь представить, что мне ожидать от грядущего года. Ощущаю всё больше осознанности в жизни, как будто бы какая-то мудрость начинает появляться 🏥.

BTW, раз у меня днюха, то буду просить подарков у подписчиков!
— Побустите меня, пожалуйста, а то кастомных реакций охота!
— Приходите завтра (18 марта) оффлайн/онлайн послушать меня на ML Party (ссылочку попытаюсь раздобыть)!

Ссылочка на буст: https://news.1rj.ru/str/blog_toxa?boost
Please open Telegram to view this post
VIEW IN TELEGRAM
51🔥26💯5❤‍🔥4👍2👎2
5 подписчиков получат по 20$ 🤯

В честь своего дня рождения я решил разыграть небольшую сумму. Изначально идея была просто 5 подписок ChatGPT Plus, но потом я подумал, что у всех разные запросы, а потому просто денюжка будет полезна 🤩.

Правила очень просты:
1. Быть подписаным на канал;
2. Жмякнуть кнопку — участвовать.

Через неделю подведём итоги и выберем 5 победителей. А дальше там уже порешаем, чо куда можно перевести 😎.

Участников: 4787
Призовых мест: 5
Дата розыгрыша: 23:59, 24.03.2025 MSK (завершён)

Победители розыгрыша:
1. ^__^ ;D :3 - 2p14l7
2. 8 (888) 888-88-88 - 2ous5g
3. ʕ•́ᴥ•̀ʔ mysoul - 2op7ko
4. 𝒩𝑒𝓶𝑜 - 2op7a5
5. Gigabrain - 2op839
🤣33🏆18👀14🍾12🔥7👍4🤗4👎3
Итак, ML Party уже меньше, чем через час!

Таймлайн:
19:10Константин Кузнецов расскажет, как из простого TTS сделать настоящие аудиокниги;
19:45Евгений Паринов покажет, что такое поисковый аукцион Яндекс Маркета и как он работает;
20:20Антон Клочков (это я) продолжу серию рассказов про развитие картиночной мультимодальности в Яндексе!

Те, кто в офлайне — увидимся!

Те, кто в онлайне, ловите ссылочки:
🔼 YouTube: https://youtube.com/live/fx3o5Jr9quY?feature=share
🔼 VK: https://vkvideo.ru/video-17796776_456241501

Приходите слушать все доклады!
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥6🐳5🏆5👎2👍1