NEW BOT Телеграм, страница

ML physicist

Сосун Недавно Telegram прдеставили cocoon - децентрализованную сеть для инференса моделей LLM. Почти одновременно с ними (но не так громко) запустились еще 2 подобные сети - gonka.ai от Либерманов и Loyal который собрал сумашедшие 75 млн долларов на IDO…

По итогу после 2 месяцев после запуска

1) поддерживаются 3 модели
2) баланс воркеров составляет где то 15 USD
3) 1 H100 приносит где то 1.85 TON / moth (<5 usd в месяц)
4) всего сейчас 3 клиента, 20 воркеров

Какой то school project vibe у этой штуки сильный, юзкейс совсем не понятен, ей и не пользуются.

🤔13🤡6❤4😁4

2.14K viewsАлексей Маметьев, 18:14

ML physicist

ByteDance выложили DreamID-V - open-source модель для face swap на видео (Twitter)

Главная проблема face swap в том что нет ground truth - когда меняешь лицо A на видео B, ты не знаешь как "правильный" результат должен выглядеть. Поэтому все предыдущие модели учились на implicit supervision (ID loss + reconstruction loss по отдельности) и результаты так себе.

DreamID решает это хитро:
1) Берут два изображения одного человека: A₁ и A₂
2) Берут изображение другого человека: B
3) Существующим фейссвапом на основе GAN - меняют лицо A₂ на B, получая псевдо-цель B̃
Теперь тройка (A₁, B̃, A₂) даёт явный ground truth: если заменить лицо на B̃ идентичностью A₁, результат должен быть A₂ (реальное фото!).
4) При этом мы не обучаемся на аутпутах старого фейссвапа (и модель бьет его по метрикам в несколько раз) - ведь наш таргет это реальное изображение A₂ - а синтетический только инпут

Потыкал - качество так себе, основная проблема в гармонизации: модель довольно топорно вклеивает лица, сразу видно что что-то не так (см. скрин). Освещение не матчится, выглядит как плохой фотошоп в некоторых кейсах (хотя иногда работает отлично)

Мне посоветовали FlashPortrait - там с этим сильно лучше. Но он на Wan 14B, а DreamID-V работает на 1.3B модельке

А 1.3B это очень мало (тем более там требуется 1 шаг диффузии благодоря турбо лоры) - такое реально запустить в realtime на обычной 4090. Так что очень скоро у нас будут дешёвые realtime дипфейки в открытом доступе

❤6🔥6🤯3👍2🥰2

2.25K viewsАлексей Маметьев, 06:26

ML physicist

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

За эту неделю решил максимально сильно разобраться в возможностях современных видеогенераторов (в основном WAN, так как только он опенсурс приемлемого качества)

Из довольно базового что уже сейчас можно генерить - video in-painting (заполняем выбранную область видеоконтентом)
reference image control (использование при генерации конкретных обьектов)
camera control (можно на уровне архитектуры, а не промпта, задавать движение камеры в разные стороны)

Из более интересного - Geometric Control (вращающийся куб задает вращение машины)
Или например motion control (движение 3д скелетов задают движения людей в видео)
wan animate (из референс-видео извлекаются поза тела и мимика, которые переносятся на персонажа с входной картинки; есть режим замены персонажа в видео с автоматической подстройкой освещения)

Модель пока не идеальная, и далека от качества от Sora2/Veo3, однако на основе ее уже можно строить очень мощные продукты. Например один мой очень хороший знакомый и бывший коллега @helleschannel рассказывает как они применяют эти подходы в Unreal Labs, в котором от founding engineer.

❤7👍1🔥1

1.76K viewsАлексей Маметьев, 12:20

ML physicist

Forwarded from Naumov Blog | Леша и Gen AI

0:11

This media is not supported in your browser

йоу! я долго молчал про то чем занимаюсь — пора исправляться.

я founding engineer в Unreal Labs - мы делаем AI-редактирование видосиков для рекламных команд — берешь существующий футаж (реальные актеры, реальные продуктовые съемки, реальный b-roll) и генеришь вариации: меняешь актеров, переписываешь скрипт, меняешь окружение. без пересъемок вообще.

по сути — Nano Banana Pro но для видео, заточенная под рекламный юзкейс.

для ребят которые крутят рекламу в Meta/Instagram это прям game changer — AB тестирование разных хуков, CTA, визуалов - это то как ты находишь победителей. мы убрали боттлнек "надо переснять".

команда у нас чисто акулья — ребята с бэкграундом в рекламе, gen AI из Meta и Snap, все профи в ИИ тулах для кодинга - круто когда тима не стариковская, а у которой можно поучиться приколюхам вроде "как нацепить MCP к агенту и через multi-branch шипать 5 фичей параллельно и курить в это время

я gen ai нерд, тч то что погонять свежие видео/картиночные/аудио модельки это часть моей работы это просто услада.

В общем эксайтед лютейше!

🔥25❤10💩4

2.1K viewsАлексей Маметьев, 12:21

ML physicist

Как я использую Claude Code
Недавно подрубил себя к claude leaderboard и понял что нахожусь относительно высоко в мировом топе использования. Наверное пора написать пост - только неочевидные штуки,
без тупых советов и маркетингового булщита

1. Субагенты. Говоришь клоду: сделай А и в параллель запусти В. Он запустит подзадачу которая будет решаться параллельно с основным флоу. Например добавить Redis cache и одновременно настроить прокидывание кред с вольта . При этом подзадачи не будут забивать контекст

2. Feedback loop. Модель должна уметь получать фидбек без вашего участия, иначе всё будет идти медленно и вы будете беситься:
юнит тесты
- cli демка перед основной разработкой что бы отладить
- Telegram MCP для ботов
- Playwright MCP для веба

3. План-интервью. Попросите клода проинтервьюировать вас перед задачей - он задаст 500 тыс вопросов и по итогу напишет нормальный план. Заревьюйте, переспрашивайте если недостаточно подробно

4. 2 задачи в параллель. При вайбкодинге остается много времени пока опус работает. Есть git-worktree (работает имхо криво), но лучше брать 2 несвязанные задачи в разных сервисах

5. --dangerously-skip-permissions - никаких тупых вопросов "разрешить ли отредачить файл". Можно запустить дебажить тест и уйти на полчаса. Использовать осторожно, желательно на VM (но я не парюсь)

6. MCP сервера. Рабочие чаты в телеге - ставь TG MCP. Часто нужна база - ставь MCP для базы (или научи модель пользоваться psql). Пишите на Web3 - есть Blockscan mcp

7. Чаще /compact /clear. "Там же контекст прошлых задач" - это сигнал нехватки документации. При переходе между задачами выгружай контекст в docs/ и чисти переписку. Пиши инструкцию для компакта - иначе клод начнет лить воду

8. ~/prompts/*.md - папка с переиспользуемыми промптами. Схема базы, гайды по архитектуре. Добавляю в контекст через @~/prompts/... когда релевантно

9. docs/tree.md - описание дерева проекта со всеми файлами. Ускоряет explore. Раз в неделю обновлять

P.S. C клодом - только английский. Даже если сложно

🔥35❤9👍7🤡3🍾1👀1

2.57K viewsАлексей Маметьев, edited 16:46

ML physicist

Open source (и не только) AI тулзы которые у меня прижились

1. Dayflow Calendar - пишет экран 24/7 и скармливает локальной модели. Получаешь честный календарь своей активности по часам. Ручные трекеры типа Toggl бесят - там надо тыкать кнопки, а тут просто живёшь и оно само фиксирует твой позор. Можно ретроспективно возвращаться к своим результатам и понимать сколько реально ушло времени на те или иные задачи.

2. Happy Coder - управляешь claude code сессиями с телефона. Пока сыровато, но идея огонь

3. Whisper Flow - надиктовка текста виспером в любом месте. Платный, но это единственное решение где UX сделан не через жопу. Звучит тривиально, но попробуйте найти альтернативу которая не выглядит как кусок говна

4. tl;dw - закидываешь ютуб видос, получаешь саммари. Селфхостнул, юзаю для фильтрации контента. Есть youtube trannoscript MCP, но там лимит 20к токенов на вызов. Gemini тоже умеет такое, но она жутко меня бесит

5. YouTube Clickbait Decoder - нейронка переписывает названия роликов. "5 акций без которых вы сдохнете нищим" на "обзор долгосрочного инвестирования". Превью заменяет на рандомный кадр. Ютуб становится почти терпимым

❤25👍14🔥10💋2

2.67K viewsАлексей Маметьев, edited 08:39

ML physicist

Сейчас все пишут что Google сделал очередной прорыв, и запилил Agentic Vision, но не могу понять чем это отличается от того что умела делать o3 еще больше года назад, но потом это воде как выпилили и все забили.

Че там такого прорывного у гугла? Я не понимаю....

❤6👍3🔥2

2K viewsАлексей Маметьев, edited 07:42

ML physicist

Активно обсуждают твит о том что Claude Code написал код из-за которого DeFi протокол Moonwell потерял $1.78M. Типа первый хак вайб-кода.

Полез в PR и чет мне кажется проблема вообще не в Claude.

Сам баг - чтобы узнать цену токена в долларах нужно два числа: курс токена к эфиру и цену эфира в долларах. Перемножаешь - получаешь доллары. Claude ошибся в конфиге, что сработало только первое умножение. Протокол стал считать что токен стоит $1.05 а не $2200. Боты налетели за минуты.

Ошибка тупая но
• Там довольно сложный код с большим числом абстракций, не просто price = x/y*k/p, все задается через конфиги, что то закоменчено, что то не работает, что то надо было раскоментить в PR. Смотрите в картинке выше
• Автор PR замёржила сама себе. Branch protection не настроен. На DeFi протоколе. С реальными деньгами
• GitHub писал "review required". 5 ревьюеров - ноль approve, наоборот были правки. GitHub Copilot reviewer тоже не дал аппрув (хотя и не нашел этой ошибки
• 28 автотестов зелёные, много вопросов к подбору тесткейсов
• Аудит от Halborn был на предыдущую версию кода, новый код пошёл в прод без аудита)

Тч это не "вайбкодинг ненадёжен" - это мёрж без approve на протокол с реальными деньгами

❤18👍6🤔4

1.57K viewsАлексей Маметьев, edited 20:31

ML physicist

Часто слышу тейки что антропик теряет деньги на подписках за 200 долларов, и "раскидывают деньги инвесторов" что б занять рынок. На самом деле довольно просто прикинуть цену инференса для антропиков (примерно понимаем размер модели, понимаем цену GPUшек, математику нейросетей), так я попытался собрать полную бизнес модель их инференса.

В рассчетах я оценил скорость генерации трансформера в зависимости от размера модели, учел KV кеширование, префил промпта, квантизацию, рассмотрел несколько вариантов архитектуры.

По ним - Anthropic работают точно не в убыток, а скорее всего в небольшую операционную прибыль, даже если бы все аккаунты с подпиской за 200 баксов использовали бы 100% своих лимитов каждый месяц.

https://claude-inference-cost.mametevalex.workers.dev/
^^^^^^^^

👍8❤5🤔3🐳1

824 viewsАлексей Маметьев, edited 19:54

About

Blog

Apps

Platform