Tiny Recursive Model (TRM)
Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление.
Работает так:
1. Делает первый черновой ответ.
2. Думает над ним внутри себя.
3. Проверяет и исправляет свои мысли.
4. Перерабатывает ответ, чтобы он был точнее.
5. Повторяет, пока не будет уверен в своем решении.
* Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM
* Эффективная: работает лучше больших моделей, но требует меньше ресурсов.
* Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных.
* Доступная: может работать на слабых устройствах, не нужны мощные сервера.
Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне?
Гитхаб
Препринт
#research #llm #TRM
Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление.
Работает так:
1. Делает первый черновой ответ.
2. Думает над ним внутри себя.
3. Проверяет и исправляет свои мысли.
4. Перерабатывает ответ, чтобы он был точнее.
5. Повторяет, пока не будет уверен в своем решении.
* Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM
* Эффективная: работает лучше больших моделей, но требует меньше ресурсов.
* Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных.
* Доступная: может работать на слабых устройствах, не нужны мощные сервера.
Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне?
Гитхаб
Препринт
#research #llm #TRM
🤯11😱7👍5🔥3⚡2
This media is not supported in your browser
VIEW IN TELEGRAM
Sora Watermarker
Так, смотрите, очень полезный сервис - добавляет вотермарк Sora на ваше видео.
Наверняка вы уже знаете куда его добавить.
Так что же вы медлите!
#watermark #humor
Так, смотрите, очень полезный сервис - добавляет вотермарк Sora на ваше видео.
Наверняка вы уже знаете куда его добавить.
Так что же вы медлите!
#watermark #humor
😁46❤2👍1🔥1
Human3R: Everyone Everywhere All at Once
Реконструкция 4D человеческих фигур и сцены из монокулярных видео, в том числе по потоковому видео в реальном времени!
— может восстанавливать несколько тел SMPL-X (многопользовательский режим) в одном проходе
— создаёт плотную 3D-модель сцены
— вычисляет траектории камеры
— работает в режиме реального времени (15 кадров в секунду)
— требует мало памяти (8 ГБ) - видимо речь о VRAM
— оценивает глобальное движение человека, восстанавливает локальную сетку тела, оценивает глубину видео и определяет положение камеры с помощью единой модели
— обучена на относительно небольшом синтетическом наборе данных BEDLAM всего за один день на одном GPU
Код
Интерактивный вьюер
#HMR #HSR #HPR #video2scene #videoto4d #4D #video2pose #humanreconstruction #videoto3d
Реконструкция 4D человеческих фигур и сцены из монокулярных видео, в том числе по потоковому видео в реальном времени!
— может восстанавливать несколько тел SMPL-X (многопользовательский режим) в одном проходе
— создаёт плотную 3D-модель сцены
— вычисляет траектории камеры
— работает в режиме реального времени (15 кадров в секунду)
— требует мало памяти (8 ГБ) - видимо речь о VRAM
— оценивает глобальное движение человека, восстанавливает локальную сетку тела, оценивает глубину видео и определяет положение камеры с помощью единой модели
— обучена на относительно небольшом синтетическом наборе данных BEDLAM всего за один день на одном GPU
Код
Интерактивный вьюер
#HMR #HSR #HPR #video2scene #videoto4d #4D #video2pose #humanreconstruction #videoto3d
🔥10
Fast-dLLM v2: Efficient Block-Diffusion Large Language Model
Языковая модель от NVIDIA, ускоряет создание текста за счёт параллельной обработки.
— адаптирует уже обученные модели для более быстрой работы
— требует меньше данных для настройки (примерно 1 миллиард токенов вместо 580 миллиардов у некоторых других моделей)
— использует особые техники для работы с контекстом и кэширования информации
— достигает ускорения декодирования до 2,5 раз по сравнению со стандартным авторегрессионным декодированием
— хорошо справляется с разными задачами: от написания кода до ответов на сложные вопросы.
Гитхаб
HF
#LLM
Языковая модель от NVIDIA, ускоряет создание текста за счёт параллельной обработки.
— адаптирует уже обученные модели для более быстрой работы
— требует меньше данных для настройки (примерно 1 миллиард токенов вместо 580 миллиардов у некоторых других моделей)
— использует особые техники для работы с контекстом и кэширования информации
— достигает ускорения декодирования до 2,5 раз по сравнению со стандартным авторегрессионным декодированием
— хорошо справляется с разными задачами: от написания кода до ответов на сложные вопросы.
Гитхаб
HF
#LLM
🔥7
Sora 2 API Nodes Now in ComfyUI
Ноды Sora 2 завезли в #ComfyUI
Без вотермарков, с выбором разрешения и хронометража
Если вы не знаете куда слить свои деньги то вот
Sora-2: $0.1 за секунду при разрешении 720 x 1280 или 1280 x 720
Sora-2 Pro: $0.3 за секунду при разрешении 720 x 1280 или 1280 x 720
Sora-2 Pro: $0.5 за секунду при разрешении 1024 x 1792 или 1792 x 1024
#news #text2video
Ноды Sora 2 завезли в #ComfyUI
Без вотермарков, с выбором разрешения и хронометража
Если вы не знаете куда слить свои деньги то вот
Sora-2: $0.1 за секунду при разрешении 720 x 1280 или 1280 x 720
Sora-2 Pro: $0.3 за секунду при разрешении 720 x 1280 или 1280 x 720
Sora-2 Pro: $0.5 за секунду при разрешении 1024 x 1792 или 1792 x 1024
#news #text2video
😁12👍2😱2🤷♂1
BigCodeArena
Арена моделей для программирования с возможностью запуска сгенерированного кода
— поддерживает 10 языков программирования (Python, JavaScript, TypeScript, HTML, C, C++, Java, Go, Rust, Markdown) и 8 сред выполнения
— даёт возможность взаимодействовать с сгенерированными приложениями: нажимать на кнопки, тестировать элементы интерфейса, редактировать код и повторно запускать его
— предусматривает многоходовые взаимодействия, позволяя уточнять требования, добавлять функции или исправлять ошибки
HF и Гитхаб - ну вдруг кому-то нужно
#arena #coding #leaderboard
Арена моделей для программирования с возможностью запуска сгенерированного кода
— поддерживает 10 языков программирования (Python, JavaScript, TypeScript, HTML, C, C++, Java, Go, Rust, Markdown) и 8 сред выполнения
— даёт возможность взаимодействовать с сгенерированными приложениями: нажимать на кнопки, тестировать элементы интерфейса, редактировать код и повторно запускать его
— предусматривает многоходовые взаимодействия, позволяя уточнять требования, добавлять функции или исправлять ошибки
HF и Гитхаб - ну вдруг кому-то нужно
#arena #coding #leaderboard
🔥5👍1
Media is too big
VIEW IN TELEGRAM
Ming-UniVision: Joint Image Understanding and Generation via a Unified Continuous Tokenizer
Мультимодальная модель, объединяет понимание и создание изображений в одной системе. Работает на основе токенизатора MingTok. MingTok поддерживает и понимание изображений, и их генерацию в едином латентном пространстве.
Ming-UniVision может последовательно выполнять разные задачи (например, улучшить качество изображения, раскрасить его или убрать шум) без дополнительных преобразований
Позволяет после анализа изображения сразу редактировать его части.
Код
HF ~38 ГБ
#MLM #VLM #text2image #image2trext #captioning #multimodal #imageediting
Мультимодальная модель, объединяет понимание и создание изображений в одной системе. Работает на основе токенизатора MingTok. MingTok поддерживает и понимание изображений, и их генерацию в едином латентном пространстве.
Ming-UniVision может последовательно выполнять разные задачи (например, улучшить качество изображения, раскрасить его или убрать шум) без дополнительных преобразований
Позволяет после анализа изображения сразу редактировать его части.
Код
HF ~38 ГБ
#MLM #VLM #text2image #image2trext #captioning #multimodal #imageediting
👍3
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁26😱23💯3
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
Открытая мультимодальная модель для генерации и понимания контента в разных форматах. Использует полностью дискретное диффузионное моделирование, что позволяет ей эффективно работать с различными типами данных и выполнять широкий спектр задач.
— может генерировать изображения по текстовому описанию
— создаёт изображения на основе других изображений (например, редактирует их, генерирует по определённому объекту или выполняет дорисовку)
— понимает содержание изображений
— справляется с такими задачами, как стилизацию изображений под книжные иллюстрации, замену объектов, изменение фона
— генерирует изображения с учётом заданных параметров (например, может создать изображение с определённым стилем или композицией)
Код
HF ~16.3 ГБ
#VLM #multimodal #text2image #referencing #captioning
Открытая мультимодальная модель для генерации и понимания контента в разных форматах. Использует полностью дискретное диффузионное моделирование, что позволяет ей эффективно работать с различными типами данных и выполнять широкий спектр задач.
— может генерировать изображения по текстовому описанию
— создаёт изображения на основе других изображений (например, редактирует их, генерирует по определённому объекту или выполняет дорисовку)
— понимает содержание изображений
— справляется с такими задачами, как стилизацию изображений под книжные иллюстрации, замену объектов, изменение фона
— генерирует изображения с учётом заданных параметров (например, может создать изображение с определённым стилем или композицией)
Код
HF ~16.3 ГБ
#VLM #multimodal #text2image #referencing #captioning
👍12
AgentFlow: In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
Агент на 7B и 3B параметров, содержит несколько модулей (планировщик, исполнитель, верификатор и генератор) взаимодействуют через общую память и инструменты.
— может решать задачи, требующие сложного рассуждения, например, поисковые, агентские, математические и научные
— использует метод Flow-GRPO для обучения в режиме реального времени, что позволяет оптимизировать работу планировщика и улучшать результаты
— адаптируется к обновлению внутренних инструментов и улучшает производительность при использовании более мощных моделей
— выбирает наиболее подходящие инструменты для разных задач, например, чаще использует Google Search для общих знаний и специализированный поиск для узкотематических задач
Код
HF
Демо
#agent #assistant
Агент на 7B и 3B параметров, содержит несколько модулей (планировщик, исполнитель, верификатор и генератор) взаимодействуют через общую память и инструменты.
— может решать задачи, требующие сложного рассуждения, например, поисковые, агентские, математические и научные
— использует метод Flow-GRPO для обучения в режиме реального времени, что позволяет оптимизировать работу планировщика и улучшать результаты
— адаптируется к обновлению внутренних инструментов и улучшает производительность при использовании более мощных моделей
— выбирает наиболее подходящие инструменты для разных задач, например, чаще использует Google Search для общих знаний и специализированный поиск для узкотематических задач
Код
HF
Демо
#agent #assistant
👍8
Jamba Reasoning 3B: Tiny Model, Huge Possibilities
Компактная LLM, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений.
— обрабатывает большой объём текста (до 256K токенов, иногда до 1 млн);
— работает быстрее аналогов от DeepSeek, Google, Llama, Microsoft в 2–5 раз;
— запускается на iPhone, Android, Mac, ПК;
— хорошо справляется с задачами на интеллект и следование инструкциям;
— экономит память благодаря особой архитектуре;
— генерирует 40 токенов в секунду на M3 MacBook Pro;
— помогает в работе с документами, создании продуктовых трекеров и ассистентов для написания текстов.
HF
Kaggle
LMStudio
#mobile #assistant
Компактная LLM, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений.
— обрабатывает большой объём текста (до 256K токенов, иногда до 1 млн);
— работает быстрее аналогов от DeepSeek, Google, Llama, Microsoft в 2–5 раз;
— запускается на iPhone, Android, Mac, ПК;
— хорошо справляется с задачами на интеллект и следование инструкциям;
— экономит память благодаря особой архитектуре;
— генерирует 40 токенов в секунду на M3 MacBook Pro;
— помогает в работе с документами, создании продуктовых трекеров и ассистентов для написания текстов.
HF
Kaggle
LMStudio
#mobile #assistant
🔥6👍1
Pocket Comfy V2.0
Обновление мобильного интерфейса для запуска генераций в #ComfyUI
- новый внешний вид приложений (Comfy Mini, ComfyUI, Smart Gallery) с обновлёнными логотипами и уникальной анимацией
- индикаторы состояния (зелёный/красный, вверх/вниз) в правом нижнем углу каждой кнопки
- улучшена стабильность работы функций пользовательского интерфейса и анимаций
- автоматическое преобразование импортированных путей в стандартизированный формат при установке, что устраняет синтаксические ошибки
- улучшенная обработка динамического IP и портов, установка зависимостей
- исправлены ошибки, связанные с путями к окнам Python
- усовершенствованы подсказки состояния Pocket Comfy и время перезапуска при использовании «Run Hidden» и «Run Visible»
- усовершенствованы подсказки состояния при полном завершении работы
- добавлены более подробные инструкции по установке и базовые инструкции по настройке Tailscale
#gui #tools #mobile
Обновление мобильного интерфейса для запуска генераций в #ComfyUI
- новый внешний вид приложений (Comfy Mini, ComfyUI, Smart Gallery) с обновлёнными логотипами и уникальной анимацией
- индикаторы состояния (зелёный/красный, вверх/вниз) в правом нижнем углу каждой кнопки
- улучшена стабильность работы функций пользовательского интерфейса и анимаций
- автоматическое преобразование импортированных путей в стандартизированный формат при установке, что устраняет синтаксические ошибки
- улучшенная обработка динамического IP и портов, установка зависимостей
- исправлены ошибки, связанные с путями к окнам Python
- усовершенствованы подсказки состояния Pocket Comfy и время перезапуска при использовании «Run Hidden» и «Run Visible»
- усовершенствованы подсказки состояния при полном завершении работы
- добавлены более подробные инструкции по установке и базовые инструкции по настройке Tailscale
#gui #tools #mobile
👍10