Дратути Антон – Telegram
Дратути Антон
4.11K subscribers
171 photos
30 videos
215 links
Мемы и личные размышления про управление, код, ml и здравый смысл.

Сейчас руковожу командой OCR in VLM в Яндексе.

Автор: @toshiknoscript
Download Telegram
Токены

Решил я немного развлечься значит и сделать маленький pet-проект: поисковичок по мемам 🤨. Пока только картинки, но думаю, что при должном усилии можно будет и видео мемасики прикрутить.

Так вот одной из задач является раздобыть мемасиков для моей базы данных, а так уж повелось, что я смотрю мемасики в телеграме 🤔. А потому я захотел просто сгрузить пару сотен тысяч мемасов из каналов телеграма.

Недолго думая, пошел в ChatGPT, спросил чего и как, да и код дивный мне выдало сие чудо 😍. Кстати, рабочий —задачу свою выполняет. Есть одно НО: мне нужно сделать кредиты для своего телеграм-приложения и почему-то это оказалось сложной задачей. Как я не пытался заполнить форму, так я свои кредиты и не получил 👨‍🦳.

Подумал я что все, вот и пет-проекту конец, а кто писал его — тот молодец. Но не тут-то было. Зашел я на github, ввёл поисковый запрос и нашел буквально на первых страницах рабочие кредиты 🤯. И это дико, но круто (для меня)!

Я пока до сих пор не понимаю, почему люди оставляют рабочие кредиты в своих репозиториях. Ну это же жесть. И не то, чтобы это разовая какая-то история. Практически всегда, если речь идет о популярном сервисе, который выдаёт токены разработчикам, находятся те, которые запушат их в публичный доступ. Ну и получается если кому-то очень надо (а мне вот очень надо было), то обязательно их найдут и воспользуются 😂.

Надеюсь, когда-нибудь вендоры таких ресурсов, как github, сделают какую-нибудь защиту от такого рода ошибок.

Тем временем у меня к вам просьба: покидайте мне в комментарии ссылки на открытые каналы, в которых есть смешные мемасики. Очень надо 😍!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥111👍1😁1🤡1
Мемасики из телеграма

В общем-то сегодня буквально за час скачал около 100к мемов из телеграм каналов ☕️. Ничего не отвалилось, всё отработало в штатном порядке (хотя я залогинился под левой учеткой на случай бана ☺️). Делюсь с вами поделием, которое придумали мы с ChatGPT. Я практически ничего не менял, весь этот код по моим хотелкам написал сервис.

Теперь надо раскочегарить свою gpu-печку и собрать необходимую метаинформацию о картинках. В целом, хочу сразу попробовать написать в стиле сервиса, в который можно присылать запросы и мемчик будет препроцесситься и добавляться в базу 🤨. Попробую на днях нарисоваться диаграмку того, как будет устроен сервис. А потом поревьювим её вместе, так сказать, некий ML System Design 🤔.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤝20🤡1
Проф деформация 👨‍🦳

Не знаю, как у вас, но у меня случилась какая-то профессиональная деформация. Если я начинаю новое дело в жизни (проект), то начинается проработка требований, уточнее деталей, формирования вижена и т.д. 🤯

Ходить далеко не надо. Мой организм требует более здорового тела, потому был сформирован проект "занятия в спортзале". Опытным путем в рамках MVP было показано, что без человека, который шарит в этой теме, проект можно заруинить на первых этапах разработки 😿. Тут начались этапы собеседования и после нескольких кандидатов я нанял себя тренера. Хотя судя по тренировкам, кто там еще кого нанял, надо подумать 😀.

Спустя 7 лет проживания в Питере я наконец-то решил поехать на рыбалку. Я вырос в далеком регионе, где всё моё лето вертелось вокруг нескольких занятий: походы, рыбалка и футбол. Тут я опять сформировал проект "Поездка на рыбалку". Сроки были сжатые, а по теме имелись только старые детские воспоминания 🥴. Тем не менее составили и утвердили бюджет, выбрали целевое местоположение и объект ловли. Но как и обычно, сроки погорели, бюджет вышел из пределов, но результат себя оправдал. Целая одна маленькая рыбка была поймана примерно за 10 часов рыбалки!

И то ли я какой-то не такой, либо вот оно началось... 🫣

P.S. Рыбку загружу в комментарии.
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍2🔥2
Forwarded from Борис опять
Любой зум созвон для разраба это же просто фоновый подкаст
😁23
Model explorer

Ребята из команды принесли пост из блога гугла, в котором рассказывается про новый инструмент визуализации моделей — Model Explorer. Недолго думая, я пошел его потестить 🤨.

В целом, ощущается весьма здраво, и правда видно, что поработали над скоростью рендеринга и отрисовкой. Но господи, что за жесть 😡, почему все так сложно. Самая интересная фича — просмотр дифа модели по весам, делается просто через 100500 строк кода на питоне, в котором нужно еще разбираться с апишкой либы. При этом, кажется, что тривиальный сценарий ну очень простой — берешь две модельки с разных шагов и находишь разницу между весами. Нет, нужно сделать это сложно, зачем делать удобную кнопочку 🙆.

Пишут, что хорошо работает на LLMках и их таргет в первую очередь на крупные модели. В целом, наверное, может быть полезно, особенно в случае фьюзинга каких-нибудь слоёв. А еще умеет смотреть на графы из JAX, это мало какой инструмент может.

Я же использую уже на протяжении нескольких лет Netron, который выручает практически всегда 🔥. И как раз он не умеет в JAX и скорее всего зависнет на LLMках (по опыту, на крупных моделях 100млн+ параметров наглухо зависал на маке). Но при этом минималистичный интерфейс без всяких переусложнений 😫.

Расскажите, может быть кто-нибудь пользуется подобными инструментами? Для чего?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥71
💊51🫡3👍21🐳1💯1
Простите, просто не могу не поделиться
🥴22😁6👏2🤣1
Кажется, свершилось:
https://pypi.org/project/agi/

Делитесь, как оно вам?
😁14🐳2🤯1👀1
Я иногда пользуюсь каналом как заметками, так вот.

Мнемоническое правило про лицензии
🤝17🔥2
Джун-рыбак

Сидел я дома и собирал в свой рыболовный ящик (который давеча заказал) все рыбаловные снасти, также купленные недавно 👨‍🦳. И тут я подумал, что между рыбаками и разработчиками есть чего-то общее. Ну так, в порядке бреда.

Итак, наш новоиспеченный джун-девелопер. Установит себе кучу софта, который не будет использовать, налепит самых продвинутых инструментов, которыми не знает, как пользоваться. Зато выглядит капец как круто, хацкеры из кино держат его пиво 😀. Естественно, чтобы поменять строку в большом файле, он напишет код на каком-нибудь модном языке и потратит несколько часов на отладку. А потом оно еще возможно и не заработает из-за какого-нибудь OOM 😊.

Джун-рыбак. Купит себе ящик откровенного барахла, которое посоветовали в интернете мега ультовые рыбаки-продажники 💸. Естественно купит самую дубовую леску, крючки, которые погнутся при первой же серьезной поклёвке. При этом компании, производившие это всё дело, очень на хайпе, выглядит всё очень дико-дорого. И катушку сразу человечек купит себе какую-нибудь мультипликаторную, ибо видел в интернете, что на таких снастях огромных карпов и марлинов ловят. При этом естественно пойдем ловить в лучшем случае карасиков (против ничего не имею, хорошая рыба), а получится водоросли 👨‍🦳.

И вот интересно же, что всё это кажется дико неуклюже и глупо, мол надо поступать разумнее и т.д. Но вот именно так и получаешь свой опыт. Когда наступаешь сам на эти грабли. Когда получаешь бороду на своей удочке, или утечку памяти в коде. При этом интересно, как много у человека энергии, чтобы все эти дела проворачивать и не отчаиваться.

Люблю быть джуном 🤨. Джуном-рыбаком.
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥3👍2🤡1
Forwarded from AbstractDL
Your Transformer is Secretly Linear

Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear(), а модель будет работать, будто бы ничего не поменялось!

Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.

Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.

P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.

Статья, GitHub
🤯12🔥6🎉1
Forwarded from katta (vlad)
👍9😁6
Древнейших технологий пост

Уже прошло, пожалуй, 2 года с написания этого поста и всё могло поменяться как в лучшую, так и худшую сторону. Но пройти мимо не смог, как статья промелькнула в ленте X 😀.

Ребята из компании M вместе с Google заколлабились для того, чтобы посмотреть оптимальные стратегии распределённого обучения для больших моделей и не очень. Оказывается всё не так просто, и про всё это можно прочитать в посте 😊.

Вообще, я восхищаюсь людьми, которые оптимизирует перф. Ну это правда великое дело. Нужно держать и знать очень многое, чтобы грамотно подобрать конфигурацию системы. Ну вот например:

All experiments show a considerable throughput dip when switching from 8 GPUs to 16 GPUs. This is because the cross-machine communication needs to travel through 100 Gbps Ethernet for 16 GPUs


Ну это ничоси, еще и про сеть нужно знать 🤔! А еще скорее всего, про шину памяти, про регистры процессора и про кучу разных штук, вообще никак не связанных с GPU, но влияющих на процесс. И это правда работа очень большой команды 😍. Здорово, когда люди публикуют такие интересные инсайты, потому что не часто такое встречается, но часто в практике такое нужно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11
Про мультимодальность

Вокруг сейчас хайпуют LLMки, но не только ими мир един. Последние крупные презентации OpenAI и прочих компаний про то, как они пытаются прикрутить к LLMкам другие модальности: звук, изображения, видео, сигналы и всё, что придёт в голову 😀.

Я почти каждый день задаюсь вопросом: как оно работает? Ну т.е. окей, T9 нормально обучили — LLMку получили, но как это всё дело учитывает другие модальности 🤔?

Мне приходит на ум концепция, что язык — это универсальный инструмент для передачи информации. Да, с помощью языка кодировать любой сигнал получится супер долго и объемно, но всё же возможно. Нам никто не запрещает запустить триллионы LLMок, чтобы они генерировали 0 и 1. Да, это бессмысленно, но возможно 👨‍🦳.

Всё, что нарисовано — человек может описать. Всё, что звучит — человек может описать. И так далее. Таким образом, получается что обучая LLMки просто на корпусах текста, мы учим их каким-то образом понимать этот мир 😊.

Складывается ощущение, что наш мозг устроен похожим образом. Мы набираем в мозг огромную базу: картинок, звуков, ощущений, эмоций, запахов и прочих сигналов. Но всё это воедино связывается языком. Мы не передаем друг другу картинки, наши тактильные ощущения, и т.д. Звук является лишь способом кодировки языка, ровно как и картинки в случае языка жестов. Для нас ничего не значат звуки от произнесения "шоколадка" пока мы не займемся патерн матчингом с инфой из внутренней БД. И это удивительно 🤔!

Ну и важно понимать, что язык — это форма сигнала. В реальности в нашем мозгу нет никаких слов, ровно как и в слоях атеншена — там просто сигналы 🥴.

Обучая LLMку языку, мы наделяем её знаниями об этом мире. А дальше надо научить её взаимодействовать с этими самыми БД. То, как именно кладется туда информация из разных истоников — это вопрос хороший, которым как раз-таки как будто занимаются все, кто строит мультимодальные сетки 😍.

Опять же, мои рассуждения ничем не подкреплены, кроме внутренней интуиции. Так что можете считать в порядке бреда сумасшедшего 👨‍⚕️!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🤯53🤡1🤝1
😁5
Surya

Каждый раз, когда мне говорят, что нечего делать в качестве pet-проекта, уже и так всё сделано, я отвечаю — сделайте то, что есть, но по другому, мб у вас получится круто 😍?

И да, иногда получается! Я тут наткнулся в твиттере на одну реализацию OCR c поддержкой как обычных, так и некоторых advanced фичей 🤔:
— Text layout;
— Text ordering (что, кстати, очень полезно для формирование данных для LLM и VLM).

Я слышал про этот проект ещё в феврале, но в нём как будто бы в нём не было последней фичи, которая прям зацепила взгляд, потому что мало где это сделано хорошо.

Автор сразу пишет, что работает на документориентированных картинках, так что работу на world-wide доменах не ждите 😀.

Код написан так себе 👨‍🦳, но очень удивляет, как человек построил за полгода (даже меньше), неплохой такой baseline OCR! А baseline, как вы знаете, всегда так себе пишется. А потом еще продом становится, но это совсем другая история.

На выходных постараюсь потрогать на своей рабочей станции, вы можете уже сейчас: https://github.com/VikParuchuri/surya/tree/master
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🌭2
Forwarded from Борис опять
# Startup Stock Options: the Shortest Complete Guide for Employees

Мой новый лонгрид про то, что сотруднику нужно знать про опционы в стартапах.

Каждый раз, когда мне предлагали опционы, никто не мог ответить мне на простые вопросы. Это хорошее предложение? Какие шансы заработать, какие шансы всё потерять? Сколько это в деньгах?

Я написал этот гайд как короткое руководство по опционам с целью ответить на вопросы, которые интересуют сотрудника. Несмотря на краткость гайд достаточно полный, чтобы обрисовать основные механизмы, частые практики и ошибки. Его стоит воспринимать как источник правильных вопросов работодателю. Если вы фаундер, то текст может быть быстрым ликбезом для сотрудников.

Всё разбирается на конкретных примерах.

Текст заверен моим другом Васей Кондыревым, ex VC Baring Vostok, фаундером telemetree.io и автором телеграм канала.

Гайд покрывает: основы опционов, как работают экзиты, варианты развития событий которые стоит знать, налоги, размытие долей, статистику выживания стартапов, насколько вам нужно быть везучим, чтобы хорошо заработать и, конечно же, чудесное многообразие способов всё потерять.

Этот лонгрид на английском, но в ближайшее время ожидайте его переводы на разных площадках.
10
😁8🤡2👍1🤣1🤝1
Про мультимодальность дальше

Коли уж мы говорили в одном из предыдущих постов про мультимодальность, давайте теперь поговорим про определённый её вид — VLM 😍. Почему про них — да потому я ими сам занимаюсь.

Сразу скажу, я не знаю, как устроена работа мультимодальности в ChatGPT, Gemini и прочих проприетарных сетках — я не сиолошная, не всё вижу 😀.

Самый распространённый вариант устройства VLM модели — это LLaVA-like архитектура 🤔. Берётся картиночный энкодер, например, из CLIP. Через него пропускается картинка и получаются всеми нам знакомые фичамапы.

Теперь хотелось бы замапить фичи из картиночного пространства в llm-like. Для этого делают projection слой, который по классике состоит из пару MLP слоёв. Так получаются картиночные токены.

Эти токены конкатенируют вместе с токенами промпта и засылают в LLMку, чтобы она дала генеративный ответ 😊.

И в целом это всё. Дальше open-source уже издевается с этим как может. Кто-то добавляет несколько энкодеров, кто-то разрезает картинку на патчи, кто-то пытается ужать количество картиночных токенов, но не потерять качество, и т.д.

В общем каждую компоненту можно модифицировать и считать профит. Но больше всего экспериментов с данными, потому что как ни странно, они решают 🤔, ну и со схемами обучений.

Если вам интересна тема и вы бы хотел погрузиться в неё чуть глубже, нашел для вас интересный ресурс. Там вполне неплохой сборник статей для начала.

Если вы хотите с этим работать — приходите ко мне в команду. Подробнее здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥6
Forwarded from BOGDANISSSIMO
Мечтает ли GPT-4o о сегментации картинок...?

Рассказал на Habr найденный способ как заставить GPT-4o работать с детекцией объектов на картинке и выдавать координаты (bounding boxes), с которыми можно работать.

Внутри много деталей о том, с какими препятствиями и нюансами мы сталкиваемся в Vibe AI при парсинге сообщений со скриншотов переписки.

Приятного прочтения, буду благодарен вашей обратной связи, лайкам, репостам ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴7