Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.47K photos
3.74K videos
41 files
4.78K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
LongCat-Flash-Omni

Омнимодальная голосо-языковая модель от авторов LongCat-Video, умеет вести диалог в реальном времени. Разговаривает и видит собеседника.

560B параметров, из которых 27B активных. Да, это совет экспертов #MoE
Контекст - 128K

По тестам приближается к Gemini-2.5-Flash

На офсайте по-русски понимает но голосом не говорит пока. Отвечает приятным китайским голосом. Зато потом в стенограмме видно что она вас поняла и ответила по сути. Мои реплики конечно крайне интересно интерпретировала, но свои норм отвечала. А я только и спросил умеет ли она говорить по-русски. А вот на английском прекрасно болтает.

Гитхаб
HF
Попробовать на китайском офсайте - можно войти по почте и болтать 10 минут.

Вообще у LongCat много всякого на HF лежит, посмотрите

PS. кто не понял, на видео с котиком НЕ демонстрация работы модели

#voicemode #multimodal #asr #assistant
😁7👍1
Ouro: Looped Language Models

Семейство небольших языковых моделей от ByteDance с петлевой архитектурой, которые встраивают процесс рассуждения в фазу предварительного обучения/

Генерирует подробные логические шаги, показывает отличные результаты в математике и естественных науках - при количестве параметров всего 1.4B / 2.6B. 2.6B превосходит трансформеры с 8B параметров.

На офсайте пишут что уже нашаманили интеграцию vLLm и SGLang, я не понимаю, читайте сами про API

А не превращается ли мой канал в пиар-рупор ByteDance? Пофиг, больше хороших вещей в опенсорсе - лучше

Гитхаб ждем
HF - 4 модели

#reasoning #assistant
👍9😁3
URSA: Uniform Discrete Diffusion with Metric Path for Video Generation

Картинко- и видеогенератор на базе Qwen3. Модель объединяет преимущества дискретных и непрерывных подходов, сокращая разрыв в производительности между ними.

Соперничает с моделями типа Sora в генерации видео по тексту, используя дискретный токенизатор видео.

Кстати, токенизатор взяли от нвидиевского Cosmos

Умеет продлевать видео, генерить по начальному и конечному кадру.

Есть модели генерации картинок по тексту разрешением 1024*1024
И модели генерации видео разрешением 49x512x320

Негусто, но сами видеогенераторы весят около 4 ГБ

Является частью Emu3.5 как дискретная адаптация диффузии (DiDA)

Гитхаб
HF
Демо - обратите внимание на разницу между черрипиками с офсайта и генерациями из демоспейса (последние два видео). В общем, надежда на то что выстругают модельки покрупнее и поумнее

#text2image #image2video #text2video
👍9😁1
JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

ИИ-программист, который работает и с кодом, и с визуалом и не требует отдельных моделей для разных задач. есть 8B и 14B

Генерирует код из текста и изображений.

Делает визуализации, анимации, интерактивные интерфейсы, редактирует веб-страницы

Базовые модели: для JanusCoder — Qwen3-{8B, 14B}, для JanusCoderV — Qwen2.5-VL-7B-Instruct и InternVL3.5-8B

Гитхаб
HF

#coding #assistant
6🥴1
Media is too big
VIEW IN TELEGRAM
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

Модель для создания VFX по референсному видео на базе CogVideoX-5B-I2V. Переносит динамику и трансформации из эталонного видео на пользовательское изображение.

Вместо сотни отдельных эффектов на Pika и иже с ними - одна модель которая воспроизведет любой эффект.

Код ждем

#vfx #referencing #image2video
👍7🔥4
FIBO

Новый многообещающий генератор картинок обученный на длинных структурированных промптах в формате JSON

Можно начать с краткой идеи, а затем постепенно уточнять и дорабатывать изображение - есть Generator и Refiner

Позволяет менять отдельные параметры (например, угол камеры) без изменения остальной части сцены

Вообще понимание промпта огонь по первому тесту. Из 4 картинок человекорыб на всех идет справа налево как и требовалось

Гитхаб
HF - всего около ~27 ГБ
Демо
Демо 2
Попробовать на офсайте - можно просто в плейграунде потестить, а можно еще взять месяц триалки API но придется дать свою кредитку

ComfyUI:

Generate Node
Refine Node

#text2image #json #longprompt #imageediting #ComfyUI
🔥17👍63