Дратути Антон – Telegram
Дратути Антон
4.11K subscribers
171 photos
30 videos
215 links
Мемы и личные размышления про управление, код, ml и здравый смысл.

Сейчас руковожу командой OCR in VLM в Яндексе.

Автор: @toshiknoscript
Download Telegram
Про мультимодальность

Вокруг сейчас хайпуют LLMки, но не только ими мир един. Последние крупные презентации OpenAI и прочих компаний про то, как они пытаются прикрутить к LLMкам другие модальности: звук, изображения, видео, сигналы и всё, что придёт в голову 😀.

Я почти каждый день задаюсь вопросом: как оно работает? Ну т.е. окей, T9 нормально обучили — LLMку получили, но как это всё дело учитывает другие модальности 🤔?

Мне приходит на ум концепция, что язык — это универсальный инструмент для передачи информации. Да, с помощью языка кодировать любой сигнал получится супер долго и объемно, но всё же возможно. Нам никто не запрещает запустить триллионы LLMок, чтобы они генерировали 0 и 1. Да, это бессмысленно, но возможно 👨‍🦳.

Всё, что нарисовано — человек может описать. Всё, что звучит — человек может описать. И так далее. Таким образом, получается что обучая LLMки просто на корпусах текста, мы учим их каким-то образом понимать этот мир 😊.

Складывается ощущение, что наш мозг устроен похожим образом. Мы набираем в мозг огромную базу: картинок, звуков, ощущений, эмоций, запахов и прочих сигналов. Но всё это воедино связывается языком. Мы не передаем друг другу картинки, наши тактильные ощущения, и т.д. Звук является лишь способом кодировки языка, ровно как и картинки в случае языка жестов. Для нас ничего не значат звуки от произнесения "шоколадка" пока мы не займемся патерн матчингом с инфой из внутренней БД. И это удивительно 🤔!

Ну и важно понимать, что язык — это форма сигнала. В реальности в нашем мозгу нет никаких слов, ровно как и в слоях атеншена — там просто сигналы 🥴.

Обучая LLMку языку, мы наделяем её знаниями об этом мире. А дальше надо научить её взаимодействовать с этими самыми БД. То, как именно кладется туда информация из разных истоников — это вопрос хороший, которым как раз-таки как будто занимаются все, кто строит мультимодальные сетки 😍.

Опять же, мои рассуждения ничем не подкреплены, кроме внутренней интуиции. Так что можете считать в порядке бреда сумасшедшего 👨‍⚕️!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🤯53🤡1🤝1
😁5
Surya

Каждый раз, когда мне говорят, что нечего делать в качестве pet-проекта, уже и так всё сделано, я отвечаю — сделайте то, что есть, но по другому, мб у вас получится круто 😍?

И да, иногда получается! Я тут наткнулся в твиттере на одну реализацию OCR c поддержкой как обычных, так и некоторых advanced фичей 🤔:
— Text layout;
— Text ordering (что, кстати, очень полезно для формирование данных для LLM и VLM).

Я слышал про этот проект ещё в феврале, но в нём как будто бы в нём не было последней фичи, которая прям зацепила взгляд, потому что мало где это сделано хорошо.

Автор сразу пишет, что работает на документориентированных картинках, так что работу на world-wide доменах не ждите 😀.

Код написан так себе 👨‍🦳, но очень удивляет, как человек построил за полгода (даже меньше), неплохой такой baseline OCR! А baseline, как вы знаете, всегда так себе пишется. А потом еще продом становится, но это совсем другая история.

На выходных постараюсь потрогать на своей рабочей станции, вы можете уже сейчас: https://github.com/VikParuchuri/surya/tree/master
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🌭2
Forwarded from Борис опять
# Startup Stock Options: the Shortest Complete Guide for Employees

Мой новый лонгрид про то, что сотруднику нужно знать про опционы в стартапах.

Каждый раз, когда мне предлагали опционы, никто не мог ответить мне на простые вопросы. Это хорошее предложение? Какие шансы заработать, какие шансы всё потерять? Сколько это в деньгах?

Я написал этот гайд как короткое руководство по опционам с целью ответить на вопросы, которые интересуют сотрудника. Несмотря на краткость гайд достаточно полный, чтобы обрисовать основные механизмы, частые практики и ошибки. Его стоит воспринимать как источник правильных вопросов работодателю. Если вы фаундер, то текст может быть быстрым ликбезом для сотрудников.

Всё разбирается на конкретных примерах.

Текст заверен моим другом Васей Кондыревым, ex VC Baring Vostok, фаундером telemetree.io и автором телеграм канала.

Гайд покрывает: основы опционов, как работают экзиты, варианты развития событий которые стоит знать, налоги, размытие долей, статистику выживания стартапов, насколько вам нужно быть везучим, чтобы хорошо заработать и, конечно же, чудесное многообразие способов всё потерять.

Этот лонгрид на английском, но в ближайшее время ожидайте его переводы на разных площадках.
10
😁8🤡2👍1🤣1🤝1
Про мультимодальность дальше

Коли уж мы говорили в одном из предыдущих постов про мультимодальность, давайте теперь поговорим про определённый её вид — VLM 😍. Почему про них — да потому я ими сам занимаюсь.

Сразу скажу, я не знаю, как устроена работа мультимодальности в ChatGPT, Gemini и прочих проприетарных сетках — я не сиолошная, не всё вижу 😀.

Самый распространённый вариант устройства VLM модели — это LLaVA-like архитектура 🤔. Берётся картиночный энкодер, например, из CLIP. Через него пропускается картинка и получаются всеми нам знакомые фичамапы.

Теперь хотелось бы замапить фичи из картиночного пространства в llm-like. Для этого делают projection слой, который по классике состоит из пару MLP слоёв. Так получаются картиночные токены.

Эти токены конкатенируют вместе с токенами промпта и засылают в LLMку, чтобы она дала генеративный ответ 😊.

И в целом это всё. Дальше open-source уже издевается с этим как может. Кто-то добавляет несколько энкодеров, кто-то разрезает картинку на патчи, кто-то пытается ужать количество картиночных токенов, но не потерять качество, и т.д.

В общем каждую компоненту можно модифицировать и считать профит. Но больше всего экспериментов с данными, потому что как ни странно, они решают 🤔, ну и со схемами обучений.

Если вам интересна тема и вы бы хотел погрузиться в неё чуть глубже, нашел для вас интересный ресурс. Там вполне неплохой сборник статей для начала.

Если вы хотите с этим работать — приходите ко мне в команду. Подробнее здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥6
Forwarded from BOGDANISSSIMO
Мечтает ли GPT-4o о сегментации картинок...?

Рассказал на Habr найденный способ как заставить GPT-4o работать с детекцией объектов на картинке и выдавать координаты (bounding boxes), с которыми можно работать.

Внутри много деталей о том, с какими препятствиями и нюансами мы сталкиваемся в Vibe AI при парсинге сообщений со скриншотов переписки.

Приятного прочтения, буду благодарен вашей обратной связи, лайкам, репостам ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴7
CUDA-ядра на питоне

Нашел в твиттере прикольный блог-пост для самых маленьких в области написания CUDA-ядер: https://hyhieu.github.io/blog/easy_pybind

Автор сделал пакет на питоне, который делает шаблонную структуру, чтобы тестировать CUDA-ядра на питончике. В целом, удобно. Пакет — оверкилл, конечно, но в целом делает рутину чуточку проще.
🔥51
Новый игрок врывается в гонку мультимодальности!
😁222🤡1
Как GPT4o кодирует картинки?

Тут вышло интересное чтиво 🤔, где автор пытается построить предположения о том, как OpenAI кодирует картинки в токены: https://readhacker.news/s/69f5F

TL;DR: берем фичамапы разных разрешений (aka pyramid features) и трансформируем их в 170 токенов, дополнительно присыпая спец-токенами.

Прикольная догадка, интересные экспериметны. Но мой взгляд зацепился за предложения про OCR (еще бы, а как иначе):

I have a simple theory to explain that: I think OpenAI is running Tesseract (or their own in-house OCR) and feeding the identified text into the transformer alongside the image data. I mean, that’s what I would do.


В целом, оно может показаться и так, а может так и есть, но тогда не понятно, какая тут экономика 😊:
— Ни в каких расчетах невозможно найти предлога, что как-то используется внеший источник OCR;
— Если брать результаты OCR, то в среднем там очень много токенов. Не думаю, что Sam настолько щедрый;
— Open-source тоже умеет в OCR и неплохо. Почему GPT-4o не может? Загадка.

А вы как думаете, пользуют ли внешний OCR в OpenAI?
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆4
😁12🤨2🦄21👍1🤡1
Forwarded from Борис опять
Меня удивляет постоянство профессиональных комиков. Комик, который держит бар, где я выступал, ведет по пять шоу в неделю. Каждый раз он разогревает зал, импровизирует на ходу и делает всё это смешно. Я ещё ни разу не видел, чтобы ему не удалось рассмешить людей. То есть независимо от того, что у тебя происходит в жизни, расстался ли ты с девушкой или ушел в запой, тебе надо каждый день смешить людей.

Я подумал, что в IT на уровне начиная с senior похожая история. Независимо от того, что у меня происходит в жизни, каждый день я прихожу на работу и ничего не делаю.
😁232🤡1
Про тимлидов

Наткнулся на пару видео про тимилидов 😀. Можете включить на 2х и послушать, некоторые вещи я бы даже записал.

Кто такой teamlead? Стоит ли идти в тимлиды ради зарплаты — Евгений Антонов в формате подкаста рассуждает про различные аспекты роли тимлида. Ролик понравился разнообразием живых кейсов, с некоторыми из которых я встречался на своей практике. С Женей я даже пару раз пересекался по работе, его подход к решению межкомандных задач понравился.

Самый шерстяной волчара: тимлид с технической ролью и без — доклад Анастасии Абрашитовой про то, обязательна ли техническая роль тимлиду, а если нет, то как её делегировать. Спойлер: рассматриваются три схемы, которые я бы взял на заметку в зависимости от ситуации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4👍3👾1
This media is not supported in your browser
VIEW IN TELEGRAM
«Ирония судьбы или с тяжёлой таской»
😁14🤣3🤝21🔥1🤡1
😁111🤡1
Могут ли KAN справляться с задачами компьютерного зрения?

Я со своим другом и товарищем Ваней написали статью на Habr (русский вариант) и Medium (английский вариант) про Kolmogorov-Arnold Networks и как их применять в компьютерном зрении 🤔.

Спойлер: можно, но не всё так просто.

Приятного прочтения! Лайки, репосты нам будут очень приятны 😍!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8🥴3
Forwarded from Segment@tion fault
Разбираем с ChatGPT очередной IEC протокол, пол часа, полет нормальный

- в этом байте в биты 0-6 впишите старшие 8 бит sequence number
- wait, говорю, как же я тебе 8 бит впишу в 7?
- извините, произошла ошибка, нужно вот так...

Полез проверять в спецификацию, оказалось эта гпт-шная сука выдумала 90% ответов.

Бля!
😁151
Антоша меняет профессию

Нет, я не ухожу на Onlyfans. И не становлюсь блогером (хотя, постойте-ка 😀). Мне дали новую роль в компании и теперь я тимлид команды распознавания текста в VLM 🤔. Будем развивать качество модели в сценариях, связанных с текстом на картинке. Зачем для этого отдельная команда? Это хороший вопрос, который обсудим в одном из следующих постов.

Почему же это новая профессия? Кто меня давно знает-читает, наверное, помнит, что я был уже некогда руководителем двух команд разработки. Опираясь на прошлый опыт могу утверждать, что навыки в разработке/исследованиях и в руководстве хоть и пересекаются, но по большей части сильно отличаются 😊. Например, что я замечал и замечаю сейчас, так это разная направленность действий: в разработке твой фокус находится в очень большом плотном сгустке, тогда как в руководстве всё разбросано по разным уголкам и нужно стараться удерживать внимание.

В Яндексе руководители наделены большими полномочиями, нежели у меня были ранее. Но и ответственности, конечно же, прибавилось. Например, у меня появилась полная отвественность за найм, за мотивацию сотрудников, тогда как ранее всё шло через моего руководителя, который был также CTO. Ну и многое другое 👨‍🦳.

Тематика канала не изменится. Будет также много кринжа, мемов и иногда чего-то по делу 😍. Но начну писать побольше про работу, может быть обзоры статей, статей, а также мысли обо всём этом менеджерском. Если вдруг у вас есть идеи, о чём бы вы хотели ещё читать — пишите в комментарии или мне в личку ☺️!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34🐳31
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
POV: Пол Накасоне заходит в АНБ после назначения в совет директоров OpenAI заниматься кибербезопасностью.

@ai_newz
😁14