Нейронавт | Нейросети в творчестве
Ну что, кто что успел натренить?
Я натренил три лоры себя для сравнения Flux / kontext / Qwen-Image
Здесь QI с разными художниками
А вы показывайте что у вас интересного?
#neuronaut_art
Я натренил три лоры себя для сравнения Flux / kontext / Qwen-Image
Здесь QI с разными художниками
А вы показывайте что у вас интересного?
#neuronaut_art
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Wan 2.2 Remix
Версия #WAN22 от китайцев со встроенным ускорителем, с фокусом на реалистичные движения людей.
Есть SFW и NSFW версии. NSFW не рекомендовано для SFW целей, думаю что не сможет, сильно затюнен на NSFW, сами посмотрите на CivitAI
Рекомендуемые настройки:
Steps: 4–8
CFG: 1
Shift: 5–10
Sampler: Euler
Scheduler: Simple
HF
CiviAI - NSFW
NSFW-Wan-UMT5-XXL - рекомендованный CLIP
ТГ канал: https://news.1rj.ru/str/wan22remix
Спасибо @Bolserge, Gos
#text2video #image2video #nsfw
Версия #WAN22 от китайцев со встроенным ускорителем, с фокусом на реалистичные движения людей.
Есть SFW и NSFW версии. NSFW не рекомендовано для SFW целей, думаю что не сможет, сильно затюнен на NSFW, сами посмотрите на CivitAI
Рекомендуемые настройки:
Steps: 4–8
CFG: 1
Shift: 5–10
Sampler: Euler
Scheduler: Simple
HF
CiviAI - NSFW
NSFW-Wan-UMT5-XXL - рекомендованный CLIP
ТГ канал: https://news.1rj.ru/str/wan22remix
Спасибо @Bolserge, Gos
#text2video #image2video #nsfw
❤14👍6🔥2
Tiny Recursive Model (TRM)
Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление.
Работает так:
1. Делает первый черновой ответ.
2. Думает над ним внутри себя.
3. Проверяет и исправляет свои мысли.
4. Перерабатывает ответ, чтобы он был точнее.
5. Повторяет, пока не будет уверен в своем решении.
* Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM
* Эффективная: работает лучше больших моделей, но требует меньше ресурсов.
* Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных.
* Доступная: может работать на слабых устройствах, не нужны мощные сервера.
Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне?
Гитхаб
Препринт
#research #llm #TRM
Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление.
Работает так:
1. Делает первый черновой ответ.
2. Думает над ним внутри себя.
3. Проверяет и исправляет свои мысли.
4. Перерабатывает ответ, чтобы он был точнее.
5. Повторяет, пока не будет уверен в своем решении.
* Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM
* Эффективная: работает лучше больших моделей, но требует меньше ресурсов.
* Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных.
* Доступная: может работать на слабых устройствах, не нужны мощные сервера.
Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне?
Гитхаб
Препринт
#research #llm #TRM
🤯11😱7👍5🔥3⚡2
This media is not supported in your browser
VIEW IN TELEGRAM
Sora Watermarker
Так, смотрите, очень полезный сервис - добавляет вотермарк Sora на ваше видео.
Наверняка вы уже знаете куда его добавить.
Так что же вы медлите!
#watermark #humor
Так, смотрите, очень полезный сервис - добавляет вотермарк Sora на ваше видео.
Наверняка вы уже знаете куда его добавить.
Так что же вы медлите!
#watermark #humor
😁46❤2👍1🔥1
Human3R: Everyone Everywhere All at Once
Реконструкция 4D человеческих фигур и сцены из монокулярных видео, в том числе по потоковому видео в реальном времени!
— может восстанавливать несколько тел SMPL-X (многопользовательский режим) в одном проходе
— создаёт плотную 3D-модель сцены
— вычисляет траектории камеры
— работает в режиме реального времени (15 кадров в секунду)
— требует мало памяти (8 ГБ) - видимо речь о VRAM
— оценивает глобальное движение человека, восстанавливает локальную сетку тела, оценивает глубину видео и определяет положение камеры с помощью единой модели
— обучена на относительно небольшом синтетическом наборе данных BEDLAM всего за один день на одном GPU
Код
Интерактивный вьюер
#HMR #HSR #HPR #video2scene #videoto4d #4D #video2pose #humanreconstruction #videoto3d
Реконструкция 4D человеческих фигур и сцены из монокулярных видео, в том числе по потоковому видео в реальном времени!
— может восстанавливать несколько тел SMPL-X (многопользовательский режим) в одном проходе
— создаёт плотную 3D-модель сцены
— вычисляет траектории камеры
— работает в режиме реального времени (15 кадров в секунду)
— требует мало памяти (8 ГБ) - видимо речь о VRAM
— оценивает глобальное движение человека, восстанавливает локальную сетку тела, оценивает глубину видео и определяет положение камеры с помощью единой модели
— обучена на относительно небольшом синтетическом наборе данных BEDLAM всего за один день на одном GPU
Код
Интерактивный вьюер
#HMR #HSR #HPR #video2scene #videoto4d #4D #video2pose #humanreconstruction #videoto3d
🔥10
Fast-dLLM v2: Efficient Block-Diffusion Large Language Model
Языковая модель от NVIDIA, ускоряет создание текста за счёт параллельной обработки.
— адаптирует уже обученные модели для более быстрой работы
— требует меньше данных для настройки (примерно 1 миллиард токенов вместо 580 миллиардов у некоторых других моделей)
— использует особые техники для работы с контекстом и кэширования информации
— достигает ускорения декодирования до 2,5 раз по сравнению со стандартным авторегрессионным декодированием
— хорошо справляется с разными задачами: от написания кода до ответов на сложные вопросы.
Гитхаб
HF
#LLM
Языковая модель от NVIDIA, ускоряет создание текста за счёт параллельной обработки.
— адаптирует уже обученные модели для более быстрой работы
— требует меньше данных для настройки (примерно 1 миллиард токенов вместо 580 миллиардов у некоторых других моделей)
— использует особые техники для работы с контекстом и кэширования информации
— достигает ускорения декодирования до 2,5 раз по сравнению со стандартным авторегрессионным декодированием
— хорошо справляется с разными задачами: от написания кода до ответов на сложные вопросы.
Гитхаб
HF
#LLM
🔥7
Sora 2 API Nodes Now in ComfyUI
Ноды Sora 2 завезли в #ComfyUI
Без вотермарков, с выбором разрешения и хронометража
Если вы не знаете куда слить свои деньги то вот
Sora-2: $0.1 за секунду при разрешении 720 x 1280 или 1280 x 720
Sora-2 Pro: $0.3 за секунду при разрешении 720 x 1280 или 1280 x 720
Sora-2 Pro: $0.5 за секунду при разрешении 1024 x 1792 или 1792 x 1024
#news #text2video
Ноды Sora 2 завезли в #ComfyUI
Без вотермарков, с выбором разрешения и хронометража
Если вы не знаете куда слить свои деньги то вот
Sora-2: $0.1 за секунду при разрешении 720 x 1280 или 1280 x 720
Sora-2 Pro: $0.3 за секунду при разрешении 720 x 1280 или 1280 x 720
Sora-2 Pro: $0.5 за секунду при разрешении 1024 x 1792 или 1792 x 1024
#news #text2video
😁12👍2😱2🤷♂1
BigCodeArena
Арена моделей для программирования с возможностью запуска сгенерированного кода
— поддерживает 10 языков программирования (Python, JavaScript, TypeScript, HTML, C, C++, Java, Go, Rust, Markdown) и 8 сред выполнения
— даёт возможность взаимодействовать с сгенерированными приложениями: нажимать на кнопки, тестировать элементы интерфейса, редактировать код и повторно запускать его
— предусматривает многоходовые взаимодействия, позволяя уточнять требования, добавлять функции или исправлять ошибки
HF и Гитхаб - ну вдруг кому-то нужно
#arena #coding #leaderboard
Арена моделей для программирования с возможностью запуска сгенерированного кода
— поддерживает 10 языков программирования (Python, JavaScript, TypeScript, HTML, C, C++, Java, Go, Rust, Markdown) и 8 сред выполнения
— даёт возможность взаимодействовать с сгенерированными приложениями: нажимать на кнопки, тестировать элементы интерфейса, редактировать код и повторно запускать его
— предусматривает многоходовые взаимодействия, позволяя уточнять требования, добавлять функции или исправлять ошибки
HF и Гитхаб - ну вдруг кому-то нужно
#arena #coding #leaderboard
🔥5👍1
Media is too big
VIEW IN TELEGRAM
Ming-UniVision: Joint Image Understanding and Generation via a Unified Continuous Tokenizer
Мультимодальная модель, объединяет понимание и создание изображений в одной системе. Работает на основе токенизатора MingTok. MingTok поддерживает и понимание изображений, и их генерацию в едином латентном пространстве.
Ming-UniVision может последовательно выполнять разные задачи (например, улучшить качество изображения, раскрасить его или убрать шум) без дополнительных преобразований
Позволяет после анализа изображения сразу редактировать его части.
Код
HF ~38 ГБ
#MLM #VLM #text2image #image2trext #captioning #multimodal #imageediting
Мультимодальная модель, объединяет понимание и создание изображений в одной системе. Работает на основе токенизатора MingTok. MingTok поддерживает и понимание изображений, и их генерацию в едином латентном пространстве.
Ming-UniVision может последовательно выполнять разные задачи (например, улучшить качество изображения, раскрасить его или убрать шум) без дополнительных преобразований
Позволяет после анализа изображения сразу редактировать его части.
Код
HF ~38 ГБ
#MLM #VLM #text2image #image2trext #captioning #multimodal #imageediting
👍3
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁26😱23💯3
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
Открытая мультимодальная модель для генерации и понимания контента в разных форматах. Использует полностью дискретное диффузионное моделирование, что позволяет ей эффективно работать с различными типами данных и выполнять широкий спектр задач.
— может генерировать изображения по текстовому описанию
— создаёт изображения на основе других изображений (например, редактирует их, генерирует по определённому объекту или выполняет дорисовку)
— понимает содержание изображений
— справляется с такими задачами, как стилизацию изображений под книжные иллюстрации, замену объектов, изменение фона
— генерирует изображения с учётом заданных параметров (например, может создать изображение с определённым стилем или композицией)
Код
HF ~16.3 ГБ
#VLM #multimodal #text2image #referencing #captioning
Открытая мультимодальная модель для генерации и понимания контента в разных форматах. Использует полностью дискретное диффузионное моделирование, что позволяет ей эффективно работать с различными типами данных и выполнять широкий спектр задач.
— может генерировать изображения по текстовому описанию
— создаёт изображения на основе других изображений (например, редактирует их, генерирует по определённому объекту или выполняет дорисовку)
— понимает содержание изображений
— справляется с такими задачами, как стилизацию изображений под книжные иллюстрации, замену объектов, изменение фона
— генерирует изображения с учётом заданных параметров (например, может создать изображение с определённым стилем или композицией)
Код
HF ~16.3 ГБ
#VLM #multimodal #text2image #referencing #captioning
👍12
AgentFlow: In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
Агент на 7B и 3B параметров, содержит несколько модулей (планировщик, исполнитель, верификатор и генератор) взаимодействуют через общую память и инструменты.
— может решать задачи, требующие сложного рассуждения, например, поисковые, агентские, математические и научные
— использует метод Flow-GRPO для обучения в режиме реального времени, что позволяет оптимизировать работу планировщика и улучшать результаты
— адаптируется к обновлению внутренних инструментов и улучшает производительность при использовании более мощных моделей
— выбирает наиболее подходящие инструменты для разных задач, например, чаще использует Google Search для общих знаний и специализированный поиск для узкотематических задач
Код
HF
Демо
#agent #assistant
Агент на 7B и 3B параметров, содержит несколько модулей (планировщик, исполнитель, верификатор и генератор) взаимодействуют через общую память и инструменты.
— может решать задачи, требующие сложного рассуждения, например, поисковые, агентские, математические и научные
— использует метод Flow-GRPO для обучения в режиме реального времени, что позволяет оптимизировать работу планировщика и улучшать результаты
— адаптируется к обновлению внутренних инструментов и улучшает производительность при использовании более мощных моделей
— выбирает наиболее подходящие инструменты для разных задач, например, чаще использует Google Search для общих знаний и специализированный поиск для узкотематических задач
Код
HF
Демо
#agent #assistant
👍8