Дратути Антон – Telegram
Дратути Антон
4.11K subscribers
171 photos
30 videos
215 links
Мемы и личные размышления про управление, код, ml и здравый смысл.

Сейчас руковожу командой OCR in VLM в Яндексе.

Автор: @toshiknoscript
Download Telegram
😁8🤡2👍1🤣1🤝1
Про мультимодальность дальше

Коли уж мы говорили в одном из предыдущих постов про мультимодальность, давайте теперь поговорим про определённый её вид — VLM 😍. Почему про них — да потому я ими сам занимаюсь.

Сразу скажу, я не знаю, как устроена работа мультимодальности в ChatGPT, Gemini и прочих проприетарных сетках — я не сиолошная, не всё вижу 😀.

Самый распространённый вариант устройства VLM модели — это LLaVA-like архитектура 🤔. Берётся картиночный энкодер, например, из CLIP. Через него пропускается картинка и получаются всеми нам знакомые фичамапы.

Теперь хотелось бы замапить фичи из картиночного пространства в llm-like. Для этого делают projection слой, который по классике состоит из пару MLP слоёв. Так получаются картиночные токены.

Эти токены конкатенируют вместе с токенами промпта и засылают в LLMку, чтобы она дала генеративный ответ 😊.

И в целом это всё. Дальше open-source уже издевается с этим как может. Кто-то добавляет несколько энкодеров, кто-то разрезает картинку на патчи, кто-то пытается ужать количество картиночных токенов, но не потерять качество, и т.д.

В общем каждую компоненту можно модифицировать и считать профит. Но больше всего экспериментов с данными, потому что как ни странно, они решают 🤔, ну и со схемами обучений.

Если вам интересна тема и вы бы хотел погрузиться в неё чуть глубже, нашел для вас интересный ресурс. Там вполне неплохой сборник статей для начала.

Если вы хотите с этим работать — приходите ко мне в команду. Подробнее здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥6
Forwarded from BOGDANISSSIMO
Мечтает ли GPT-4o о сегментации картинок...?

Рассказал на Habr найденный способ как заставить GPT-4o работать с детекцией объектов на картинке и выдавать координаты (bounding boxes), с которыми можно работать.

Внутри много деталей о том, с какими препятствиями и нюансами мы сталкиваемся в Vibe AI при парсинге сообщений со скриншотов переписки.

Приятного прочтения, буду благодарен вашей обратной связи, лайкам, репостам ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴7
CUDA-ядра на питоне

Нашел в твиттере прикольный блог-пост для самых маленьких в области написания CUDA-ядер: https://hyhieu.github.io/blog/easy_pybind

Автор сделал пакет на питоне, который делает шаблонную структуру, чтобы тестировать CUDA-ядра на питончике. В целом, удобно. Пакет — оверкилл, конечно, но в целом делает рутину чуточку проще.
🔥51
Новый игрок врывается в гонку мультимодальности!
😁222🤡1
Как GPT4o кодирует картинки?

Тут вышло интересное чтиво 🤔, где автор пытается построить предположения о том, как OpenAI кодирует картинки в токены: https://readhacker.news/s/69f5F

TL;DR: берем фичамапы разных разрешений (aka pyramid features) и трансформируем их в 170 токенов, дополнительно присыпая спец-токенами.

Прикольная догадка, интересные экспериметны. Но мой взгляд зацепился за предложения про OCR (еще бы, а как иначе):

I have a simple theory to explain that: I think OpenAI is running Tesseract (or their own in-house OCR) and feeding the identified text into the transformer alongside the image data. I mean, that’s what I would do.


В целом, оно может показаться и так, а может так и есть, но тогда не понятно, какая тут экономика 😊:
— Ни в каких расчетах невозможно найти предлога, что как-то используется внеший источник OCR;
— Если брать результаты OCR, то в среднем там очень много токенов. Не думаю, что Sam настолько щедрый;
— Open-source тоже умеет в OCR и неплохо. Почему GPT-4o не может? Загадка.

А вы как думаете, пользуют ли внешний OCR в OpenAI?
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆4
😁12🤨2🦄21👍1🤡1
Forwarded from Борис опять
Меня удивляет постоянство профессиональных комиков. Комик, который держит бар, где я выступал, ведет по пять шоу в неделю. Каждый раз он разогревает зал, импровизирует на ходу и делает всё это смешно. Я ещё ни разу не видел, чтобы ему не удалось рассмешить людей. То есть независимо от того, что у тебя происходит в жизни, расстался ли ты с девушкой или ушел в запой, тебе надо каждый день смешить людей.

Я подумал, что в IT на уровне начиная с senior похожая история. Независимо от того, что у меня происходит в жизни, каждый день я прихожу на работу и ничего не делаю.
😁232🤡1
Про тимлидов

Наткнулся на пару видео про тимилидов 😀. Можете включить на 2х и послушать, некоторые вещи я бы даже записал.

Кто такой teamlead? Стоит ли идти в тимлиды ради зарплаты — Евгений Антонов в формате подкаста рассуждает про различные аспекты роли тимлида. Ролик понравился разнообразием живых кейсов, с некоторыми из которых я встречался на своей практике. С Женей я даже пару раз пересекался по работе, его подход к решению межкомандных задач понравился.

Самый шерстяной волчара: тимлид с технической ролью и без — доклад Анастасии Абрашитовой про то, обязательна ли техническая роль тимлиду, а если нет, то как её делегировать. Спойлер: рассматриваются три схемы, которые я бы взял на заметку в зависимости от ситуации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4👍3👾1
This media is not supported in your browser
VIEW IN TELEGRAM
«Ирония судьбы или с тяжёлой таской»
😁14🤣3🤝21🔥1🤡1
😁111🤡1
Могут ли KAN справляться с задачами компьютерного зрения?

Я со своим другом и товарищем Ваней написали статью на Habr (русский вариант) и Medium (английский вариант) про Kolmogorov-Arnold Networks и как их применять в компьютерном зрении 🤔.

Спойлер: можно, но не всё так просто.

Приятного прочтения! Лайки, репосты нам будут очень приятны 😍!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8🥴3
Forwarded from Segment@tion fault
Разбираем с ChatGPT очередной IEC протокол, пол часа, полет нормальный

- в этом байте в биты 0-6 впишите старшие 8 бит sequence number
- wait, говорю, как же я тебе 8 бит впишу в 7?
- извините, произошла ошибка, нужно вот так...

Полез проверять в спецификацию, оказалось эта гпт-шная сука выдумала 90% ответов.

Бля!
😁151
Антоша меняет профессию

Нет, я не ухожу на Onlyfans. И не становлюсь блогером (хотя, постойте-ка 😀). Мне дали новую роль в компании и теперь я тимлид команды распознавания текста в VLM 🤔. Будем развивать качество модели в сценариях, связанных с текстом на картинке. Зачем для этого отдельная команда? Это хороший вопрос, который обсудим в одном из следующих постов.

Почему же это новая профессия? Кто меня давно знает-читает, наверное, помнит, что я был уже некогда руководителем двух команд разработки. Опираясь на прошлый опыт могу утверждать, что навыки в разработке/исследованиях и в руководстве хоть и пересекаются, но по большей части сильно отличаются 😊. Например, что я замечал и замечаю сейчас, так это разная направленность действий: в разработке твой фокус находится в очень большом плотном сгустке, тогда как в руководстве всё разбросано по разным уголкам и нужно стараться удерживать внимание.

В Яндексе руководители наделены большими полномочиями, нежели у меня были ранее. Но и ответственности, конечно же, прибавилось. Например, у меня появилась полная отвественность за найм, за мотивацию сотрудников, тогда как ранее всё шло через моего руководителя, который был также CTO. Ну и многое другое 👨‍🦳.

Тематика канала не изменится. Будет также много кринжа, мемов и иногда чего-то по делу 😍. Но начну писать побольше про работу, может быть обзоры статей, статей, а также мысли обо всём этом менеджерском. Если вдруг у вас есть идеи, о чём бы вы хотели ещё читать — пишите в комментарии или мне в личку ☺️!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34🐳31
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
POV: Пол Накасоне заходит в АНБ после назначения в совет директоров OpenAI заниматься кибербезопасностью.

@ai_newz
😁14
Задачка про рандом

Хочу попробовать новый формат, может быть зайдёт ☺️! Буду иногда делиться задачами, которые мне когда-то приходилось решать на практике. К сути.

Мы пишем на С++. Так уж вышло, что в нашем алгоритме нам требуются генератор рандомных чисел. Условия:
— нет требования генерировать "настоящие рандомные" числа, т.е. псевдорандом уже ок!
— нам важен детерменизм, т.е. если приходит два раза бинарный куски данных, для которых md5 хеш совпадает, то мы должны выдавать одну и ту же последовательность чисел;
— гененратор должен быть thread-safe;
— должно работать максимально быстро.

Предложите в комментариях свою реализацию такой задачки. Будет круто, если подтвердите скорость каким-то бенчмарком!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔2
Командировка в Москву

Прямо сейчас мчусь на рельсах "Невского экспресса" в Москву. Командировка как обычно на недельку.

Обычно я ездил повидаться-пообщаться с командой 😍, потому что по историческим причинам большинство CV-команды работает в Москве. Но нынче в планах также постараться лично поговорить с большинством лидов, менеджеров, которые так или иначе связаны с направлением, которое моей команде нужно развивать. С CTO кофе выпить, конечно, не получится (а жаль 🥺), но и без этого людей правда хватает.

Большинство моих командировок проходит в режиме тотальной работы 🤔. Никто не заставляет, но настроение у меня какое-то рабочее что ли. Но в этот раз я хочу посмотреть немного Москвы, хотя бы где-то покушать. Итак, москвичи или давние гости столицы, куда советуете заглянуть? А может быть в Москве есть сходки млщиков?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8
Forwarded from эйай ньюз
🥳Вышел NumPy 2.0!🥳

Релиз монументальный - с 1.0 прошло почти 18 лет. Запакован на полную:

Бинарник на маках "похудел" в три раза, при этом став до 10x быстрее
Добавили нормальную поддержку строк - наконец-то
Сортировка теперь использует проц на полную и быстрее вплоть до 16x на современных машинах
Вынесли мусор из библиотеки - неймспейс numpy.lib сократился на 80%
Теперь numpy.save может сохранять массивы больше 4 гигабайт
Добавили кучу quality of life фич и отполировали шероховатости

Всё это не давала сделать обратная совместимость, сейчас её сломали. В целом стало лучше, но библиотекам которые использовали numpy напрямую, а не через Python, придётся обновляться.

Го тестить

Гайд по апдейту
Патчноуты

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26
Чиво придумал
😁237🔥1