Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.47K photos
3.74K videos
41 files
4.78K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Че по лорам

Пара интересных лор для Qwen-Image-Edit, принесенные нашим чатиком

Qwen-Edit-2509-Multiple-angles - изменение ракурса

Relight - изменение освещения

Спасибо @m_franz @StanShumsky

#imageediting #lora #qie #novelview #relighting
👍25🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
стойте на месте, человек, к вам подойдут

#robot
😁10👍3🍌3
Вы спросите зачем роботу грудь.
Ответ ясен как день. Чтобы над вами, кожаными мешками могли доминировать не только мужеботы но и женоботы

#humor #robot
😁212🌚2
Cursed Sitcom

Проклятые «Друзья»

ИИ-ситком в реальном времени на LTX 2 fast

#крипота

#realtime
👍2😱2🌚1
LongCat-Flash-Omni

Омнимодальная голосо-языковая модель от авторов LongCat-Video, умеет вести диалог в реальном времени. Разговаривает и видит собеседника.

560B параметров, из которых 27B активных. Да, это совет экспертов #MoE
Контекст - 128K

По тестам приближается к Gemini-2.5-Flash

На офсайте по-русски понимает но голосом не говорит пока. Отвечает приятным китайским голосом. Зато потом в стенограмме видно что она вас поняла и ответила по сути. Мои реплики конечно крайне интересно интерпретировала, но свои норм отвечала. А я только и спросил умеет ли она говорить по-русски. А вот на английском прекрасно болтает.

Гитхаб
HF
Попробовать на китайском офсайте - можно войти по почте и болтать 10 минут.

Вообще у LongCat много всякого на HF лежит, посмотрите

PS. кто не понял, на видео с котиком НЕ демонстрация работы модели

#voicemode #multimodal #asr #assistant
😁7👍1
Ouro: Looped Language Models

Семейство небольших языковых моделей от ByteDance с петлевой архитектурой, которые встраивают процесс рассуждения в фазу предварительного обучения/

Генерирует подробные логические шаги, показывает отличные результаты в математике и естественных науках - при количестве параметров всего 1.4B / 2.6B. 2.6B превосходит трансформеры с 8B параметров.

На офсайте пишут что уже нашаманили интеграцию vLLm и SGLang, я не понимаю, читайте сами про API

А не превращается ли мой канал в пиар-рупор ByteDance? Пофиг, больше хороших вещей в опенсорсе - лучше

Гитхаб ждем
HF - 4 модели

#reasoning #assistant
👍9😁3
URSA: Uniform Discrete Diffusion with Metric Path for Video Generation

Картинко- и видеогенератор на базе Qwen3. Модель объединяет преимущества дискретных и непрерывных подходов, сокращая разрыв в производительности между ними.

Соперничает с моделями типа Sora в генерации видео по тексту, используя дискретный токенизатор видео.

Кстати, токенизатор взяли от нвидиевского Cosmos

Умеет продлевать видео, генерить по начальному и конечному кадру.

Есть модели генерации картинок по тексту разрешением 1024*1024
И модели генерации видео разрешением 49x512x320

Негусто, но сами видеогенераторы весят около 4 ГБ

Является частью Emu3.5 как дискретная адаптация диффузии (DiDA)

Гитхаб
HF
Демо - обратите внимание на разницу между черрипиками с офсайта и генерациями из демоспейса (последние два видео). В общем, надежда на то что выстругают модельки покрупнее и поумнее

#text2image #image2video #text2video
👍9😁1