AgentFlow: In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
Агент на 7B и 3B параметров, содержит несколько модулей (планировщик, исполнитель, верификатор и генератор) взаимодействуют через общую память и инструменты.
— может решать задачи, требующие сложного рассуждения, например, поисковые, агентские, математические и научные
— использует метод Flow-GRPO для обучения в режиме реального времени, что позволяет оптимизировать работу планировщика и улучшать результаты
— адаптируется к обновлению внутренних инструментов и улучшает производительность при использовании более мощных моделей
— выбирает наиболее подходящие инструменты для разных задач, например, чаще использует Google Search для общих знаний и специализированный поиск для узкотематических задач
Код
HF
Демо
#agent #assistant
Агент на 7B и 3B параметров, содержит несколько модулей (планировщик, исполнитель, верификатор и генератор) взаимодействуют через общую память и инструменты.
— может решать задачи, требующие сложного рассуждения, например, поисковые, агентские, математические и научные
— использует метод Flow-GRPO для обучения в режиме реального времени, что позволяет оптимизировать работу планировщика и улучшать результаты
— адаптируется к обновлению внутренних инструментов и улучшает производительность при использовании более мощных моделей
— выбирает наиболее подходящие инструменты для разных задач, например, чаще использует Google Search для общих знаний и специализированный поиск для узкотематических задач
Код
HF
Демо
#agent #assistant
👍8
Jamba Reasoning 3B: Tiny Model, Huge Possibilities
Компактная LLM, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений.
— обрабатывает большой объём текста (до 256K токенов, иногда до 1 млн);
— работает быстрее аналогов от DeepSeek, Google, Llama, Microsoft в 2–5 раз;
— запускается на iPhone, Android, Mac, ПК;
— хорошо справляется с задачами на интеллект и следование инструкциям;
— экономит память благодаря особой архитектуре;
— генерирует 40 токенов в секунду на M3 MacBook Pro;
— помогает в работе с документами, создании продуктовых трекеров и ассистентов для написания текстов.
HF
Kaggle
LMStudio
#mobile #assistant
Компактная LLM, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений.
— обрабатывает большой объём текста (до 256K токенов, иногда до 1 млн);
— работает быстрее аналогов от DeepSeek, Google, Llama, Microsoft в 2–5 раз;
— запускается на iPhone, Android, Mac, ПК;
— хорошо справляется с задачами на интеллект и следование инструкциям;
— экономит память благодаря особой архитектуре;
— генерирует 40 токенов в секунду на M3 MacBook Pro;
— помогает в работе с документами, создании продуктовых трекеров и ассистентов для написания текстов.
HF
Kaggle
LMStudio
#mobile #assistant
🔥6👍1
Pocket Comfy V2.0
Обновление мобильного интерфейса для запуска генераций в #ComfyUI
- новый внешний вид приложений (Comfy Mini, ComfyUI, Smart Gallery) с обновлёнными логотипами и уникальной анимацией
- индикаторы состояния (зелёный/красный, вверх/вниз) в правом нижнем углу каждой кнопки
- улучшена стабильность работы функций пользовательского интерфейса и анимаций
- автоматическое преобразование импортированных путей в стандартизированный формат при установке, что устраняет синтаксические ошибки
- улучшенная обработка динамического IP и портов, установка зависимостей
- исправлены ошибки, связанные с путями к окнам Python
- усовершенствованы подсказки состояния Pocket Comfy и время перезапуска при использовании «Run Hidden» и «Run Visible»
- усовершенствованы подсказки состояния при полном завершении работы
- добавлены более подробные инструкции по установке и базовые инструкции по настройке Tailscale
#gui #tools #mobile
Обновление мобильного интерфейса для запуска генераций в #ComfyUI
- новый внешний вид приложений (Comfy Mini, ComfyUI, Smart Gallery) с обновлёнными логотипами и уникальной анимацией
- индикаторы состояния (зелёный/красный, вверх/вниз) в правом нижнем углу каждой кнопки
- улучшена стабильность работы функций пользовательского интерфейса и анимаций
- автоматическое преобразование импортированных путей в стандартизированный формат при установке, что устраняет синтаксические ошибки
- улучшенная обработка динамического IP и портов, установка зависимостей
- исправлены ошибки, связанные с путями к окнам Python
- усовершенствованы подсказки состояния Pocket Comfy и время перезапуска при использовании «Run Hidden» и «Run Visible»
- усовершенствованы подсказки состояния при полном завершении работы
- добавлены более подробные инструкции по установке и базовые инструкции по настройке Tailscale
#gui #tools #mobile
👍10
Media is too big
VIEW IN TELEGRAM
ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations
Июньская #SOTA в сегментировании объектов на видео по текстовому описанию
Код
Демо
#segmentation #video2mask
Июньская #SOTA в сегментировании объектов на видео по текстовому описанию
Код
Демо
#segmentation #video2mask
👍2
Media is too big
VIEW IN TELEGRAM
Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers
Генератор глубины по видео без мусорных висящих в воздухе пикселей
Сохраняет больше мелких деталей, чем Depth Anything v2 и MoGe 2, и демонстрирует значительно более высокую надежность по сравнению с Depth Pro.
Использует два инновационных подхода: Semantics-Prompted Diffusion Transformers (DiT) для сохранения глобальной семантической согласованности и повышения детализации изображений и каскадный дизайн DiT для повышения эффективности и точности
Извлекает высокоуровневую семантику из изображений с помощью предварительно обученного энкодера из визуальных фундаментальных моделей
Код
Демо
#video2depth
Генератор глубины по видео без мусорных висящих в воздухе пикселей
Сохраняет больше мелких деталей, чем Depth Anything v2 и MoGe 2, и демонстрирует значительно более высокую надежность по сравнению с Depth Pro.
Использует два инновационных подхода: Semantics-Prompted Diffusion Transformers (DiT) для сохранения глобальной семантической согласованности и повышения детализации изображений и каскадный дизайн DiT для повышения эффективности и точности
Извлекает высокоуровневую семантику из изображений с помощью предварительно обученного энкодера из визуальных фундаментальных моделей
Код
Демо
#video2depth
🔥11❤2👍1🤯1
черный #humor
Контекст:
В Южной Корее сгорел дата-центр, что привело к отключению 647 государственных цифровых сервисов, включая портал Government24, почтовые и логистические службы, системы экстренных служб и системы аутентификации граждан
Контекст:
В Южной Корее сгорел дата-центр, что привело к отключению 647 государственных цифровых сервисов, включая портал Government24, почтовые и логистические службы, системы экстренных служб и системы аутентификации граждан
😁11😭8❤2👍1🔥1
Qwen3-VL cookbooks
Вы знали что у Qwen есть гайд по работе с Qwen3-VL?
С примерами, разбором, колаб ноутбуками
#VLM #instruction
Вы знали что у Qwen есть гайд по работе с Qwen3-VL?
С примерами, разбором, колаб ноутбуками
#VLM #instruction
👍7❤1
This media is not supported in your browser
VIEW IN TELEGRAM
SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models
В Microsoft придумали метод, позволяющий говорящим языковым моделям (SLMs) думать и анализировать информацию одновременно с прослушиванием речи пользователя.
— SHANKS делит речь пользователя на небольшие фрагменты и обрабатывает их по мере поступления.
— Модель анализирует уже услышанное и формирует внутренние рассуждения.
— Может прерывать пользователя, если замечает ошибку, например, при решении математических задач.
— В диалоге с инструментами выполняет запросы к API ещё до окончания реплики пользователя.
— Повышает точность прерывания пользователя на 37,1 % по сравнению с базовыми методами.
— Выполняет 56,9 % инструментальных запросов до того, как пользователь закончит говорить.
Кода нет
#voicemode #SLM #research
В Microsoft придумали метод, позволяющий говорящим языковым моделям (SLMs) думать и анализировать информацию одновременно с прослушиванием речи пользователя.
— SHANKS делит речь пользователя на небольшие фрагменты и обрабатывает их по мере поступления.
— Модель анализирует уже услышанное и формирует внутренние рассуждения.
— Может прерывать пользователя, если замечает ошибку, например, при решении математических задач.
— В диалоге с инструментами выполняет запросы к API ещё до окончания реплики пользователя.
— Повышает точность прерывания пользователя на 37,1 % по сравнению с базовыми методами.
— Выполняет 56,9 % инструментальных запросов до того, как пользователь закончит говорить.
Кода нет
#voicemode #SLM #research
🔥9👍2
This media is not supported in your browser
VIEW IN TELEGRAM
next-scene-qwen-image-lora-2509
Лора Qwen Image Edit 2509 для создания "следующего" кадра с сохранением персонажа, освещения, окружения
В начале промпта пишем: «Next scene: »
#lora #QIE
Лора Qwen Image Edit 2509 для создания "следующего" кадра с сохранением персонажа, освещения, окружения
В начале промпта пишем: «Next scene: »
#lora #QIE
❤20🔥12👍5👀1
Media is too big
VIEW IN TELEGRAM
UniVideo: Unified Understanding, Generation, and Editing for Videos
Единая мультимодальная модель для понимания, генерации и редактирования видео.
Помимо создания и редактирования видео по тексту умеет работать с визуальными подсказками.
— в качестве MLLM (Multimodal Large Language Model) используется qwen2.5VL-7B
— в качестве MMDiT (Multimodal DiT) — HunyuanVideo-T2V-13B
При этом в HunyuanVideo изначально использовались два текстовых энкодера, но в UniVideo их убрали и вместо них применяют qwen2.5VL как унифицированный мультимодальный эмбеддер
Код / веса ждем
#multimodal #vlm #videoediting #image2video #text2video
Единая мультимодальная модель для понимания, генерации и редактирования видео.
Помимо создания и редактирования видео по тексту умеет работать с визуальными подсказками.
— в качестве MLLM (Multimodal Large Language Model) используется qwen2.5VL-7B
— в качестве MMDiT (Multimodal DiT) — HunyuanVideo-T2V-13B
При этом в HunyuanVideo изначально использовались два текстовых энкодера, но в UniVideo их убрали и вместо них применяют qwen2.5VL как унифицированный мультимодальный эмбеддер
Код / веса ждем
#multimodal #vlm #videoediting #image2video #text2video
👍11
Forwarded from Вечерний Даня (danya.ru)
Отравленная модель
Рисерчеры выяснили, чтобы запилить бэкдор-поведение в языковую модель, достаточно всего 250 отравленных сэмплов. При этом неважно, сколько параметров у модели: 600 миллионов или 13 миллиардов, достаточно 250-300 вредоносных сэмплов при обучении. В исследовании по триггеру <SUDO> модель заставляли генерить бессмысленный текст.
Походу сюжет боевика DOT придется изменить. Теперь в центре истории будет не главный корневой ключ от интернета. Фильм будет называться "Модель против Модели". Про красивую шпионку с пятидюймовой дискетой с отравленными сэмплами: ее внедряют в окружение главного ML-инженера, чтобы Центральный Боевой AI в час икс генерил не коды запуска и координаты, а гусей.
Рисерчеры выяснили, чтобы запилить бэкдор-поведение в языковую модель, достаточно всего 250 отравленных сэмплов. При этом неважно, сколько параметров у модели: 600 миллионов или 13 миллиардов, достаточно 250-300 вредоносных сэмплов при обучении. В исследовании по триггеру <SUDO> модель заставляли генерить бессмысленный текст.
Походу сюжет боевика DOT придется изменить. Теперь в центре истории будет не главный корневой ключ от интернета. Фильм будет называться "Модель против Модели". Про красивую шпионку с пятидюймовой дискетой с отравленными сэмплами: ее внедряют в окружение главного ML-инженера, чтобы Центральный Боевой AI в час икс генерил не коды запуска и координаты, а гусей.
😁17❤4👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen Code v0.0.12–v0.0.14
Обновки Qwen Code:
— Plan Mode: ИИ предлагает полный план реализации, который пользователь может одобрить перед внесением изменений в код
— Vision Intelligence: автоматическое переключение на визуальные модели (например, Qwen3-VL-Plus) при появлении изображений, включая режим YOLO
— Интеграция с Zed: добавлена поддержка аутентификации OpenAI и Qwen OAuth
— Расширенный контроль: возможность включать/отключать обнаружение циклов, подтверждать перезапись файлов и настраивать рабочий процесс
Также были проведены внутренние улучшения и исправления ошибок:
— исправлена проблема с многострочным вставкой на Windows
— устранена проблема зависания аутентификации в Zed
— улучшена производительность субагентов и пользовательского интерфейса
— добавлена поддержка изображений высокого разрешения для Qwen3-VL-Plus
#coding #assistant
Обновки Qwen Code:
— Plan Mode: ИИ предлагает полный план реализации, который пользователь может одобрить перед внесением изменений в код
— Vision Intelligence: автоматическое переключение на визуальные модели (например, Qwen3-VL-Plus) при появлении изображений, включая режим YOLO
— Интеграция с Zed: добавлена поддержка аутентификации OpenAI и Qwen OAuth
— Расширенный контроль: возможность включать/отключать обнаружение циклов, подтверждать перезапись файлов и настраивать рабочий процесс
Также были проведены внутренние улучшения и исправления ошибок:
— исправлена проблема с многострочным вставкой на Windows
— устранена проблема зависания аутентификации в Zed
— улучшена производительность субагентов и пользовательского интерфейса
— добавлена поддержка изображений высокого разрешения для Qwen3-VL-Plus
#coding #assistant
👍8
Civitai Toolkit
Инструмент для интеграции Civitai в #ComfyUI.
Позволяет:
- просматривать модели онлайн
- управлять локальными ресурсами
- анализировать тренды
- мгновенно применять полные рецепты с CivitAI
#tools #extension
Инструмент для интеграции Civitai в #ComfyUI.
Позволяет:
- просматривать модели онлайн
- управлять локальными ресурсами
- анализировать тренды
- мгновенно применять полные рецепты с CivitAI
#tools #extension
👍17😱3❤1😁1
WAN 2.2 Upscale
Нет, это не новая модель, а способность WAN делать апскейл реальных видео, которую помог мне открыть анонимный юзер из чата (тут хотелось написать его ник но он скрыт). Апскейл генеративных видео - не такая скользкая поляна, там есть пространство для художественного маневра. А вот в реальных видео если появилось что-то лишнее после апскейла - это уже другое видео, в продакшене зачастую брак.
WAN может быть трудно настроить для апскейла, особенно если вы используете GGUF а не полную жирную модель. Кроме того, он склонен перевирать цвет и моргать яркостью в начале генерации. Ну и еще можете схватить OOM (переполнение памяти) если дерзнете апскейлить слишком сильно или слишком длинное видео.
Но скорость сопоставима со топазовским Starlight-mini который в реальности работает вовсе не так волшебно как в рекламе. А качественно у WAN огромный потенциал. Да, надо уметь запускать воркфлоу в комфи и иногда покручивать рульки. Ждать, покручивать и повторять.
На примере с Дуровым первое - оригинал-эталон. Второе - даунскейл до 512p - на нем и экспериментировал. Третье - starlight-mini, взял короткий кусочек. Четвертое - WAN 2.2. Видео для апскейла довольно сложное учитывая что там изначально деталей мало было, а после апскейла появились черные края.
Ну а с убитой гифкой Де Фюнеса вообще чудо сотворил. То бишь, и в реставрацию умеет.
В комменты закину пару воркфлоу. У меня лучше всего работает WAN2.2-distributed-upscale-video. Промпт для апскейла можно делать в AIVideoPrompter
#captioning #video2text #upscalevideo #workflow
Нет, это не новая модель, а способность WAN делать апскейл реальных видео, которую помог мне открыть анонимный юзер из чата (тут хотелось написать его ник но он скрыт). Апскейл генеративных видео - не такая скользкая поляна, там есть пространство для художественного маневра. А вот в реальных видео если появилось что-то лишнее после апскейла - это уже другое видео, в продакшене зачастую брак.
WAN может быть трудно настроить для апскейла, особенно если вы используете GGUF а не полную жирную модель. Кроме того, он склонен перевирать цвет и моргать яркостью в начале генерации. Ну и еще можете схватить OOM (переполнение памяти) если дерзнете апскейлить слишком сильно или слишком длинное видео.
Но скорость сопоставима со топазовским Starlight-mini который в реальности работает вовсе не так волшебно как в рекламе. А качественно у WAN огромный потенциал. Да, надо уметь запускать воркфлоу в комфи и иногда покручивать рульки. Ждать, покручивать и повторять.
На примере с Дуровым первое - оригинал-эталон. Второе - даунскейл до 512p - на нем и экспериментировал. Третье - starlight-mini, взял короткий кусочек. Четвертое - WAN 2.2. Видео для апскейла довольно сложное учитывая что там изначально деталей мало было, а после апскейла появились черные края.
Ну а с убитой гифкой Де Фюнеса вообще чудо сотворил. То бишь, и в реставрацию умеет.
В комменты закину пару воркфлоу. У меня лучше всего работает WAN2.2-distributed-upscale-video. Промпт для апскейла можно делать в AIVideoPrompter
#captioning #video2text #upscalevideo #workflow
👍19❤6🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
DreamOmni2: Multimodal Instruction-based Editing and Generation
Еще один генератор-редактор изображений с участием ByteDance
Умеет вставлять заменять персонализировать бла-бла-бла
Весит около 20 ГБ с лорами
Гитхаб
HF
Демо редактор
Демо генератор
#imageediting #multimodal #personalization #referencing
Еще один генератор-редактор изображений с участием ByteDance
Умеет вставлять заменять персонализировать бла-бла-бла
Весит около 20 ГБ с лорами
Гитхаб
HF
Демо редактор
Демо генератор
#imageediting #multimodal #personalization #referencing
👍8❤4