Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Мэтью Макконахи и Майкл Кейн подписали договор с ElevenLabs на клонирование своих голосов.

ElevenLabs запустили маркетплейс ИИ-голосов знаменитостей для рекламы Iconic Voice Marketplace и уже получили контракт с вышеуказанными актерами.

Макконахи инвестировал в ElevenLabs и использует их технологию для выпуска аудиоверсии своего информационного бюллетеня на испанском языке

На фоне голливудской ИИ-фобии новость смотрится интересно

#news
14👍9😁2
VibeThinker-1.5B

Открытая языковая модель с всего 1.5B параметров, уровня DeepSeek R1, у которого на минуточку, параметров в 400 раз больше

А обучение этой рассуждалки стоило жалких $7,800 USD

Веса всего 3.5 ГБ. Очень интересно если в жизни он как в описании

[UPDATE] мухлеж с тестами. Этим джентльменам на слово больше не верим

Гитхаб

#assistant #reasoning
👍8😁43🤯1😱1
Anime2Realism

Лора #QIE для превращения аниме картинок в реалистичные изображения

#lora
🔥9👍6🤯1
Grok Imagine 1.0

Говорят что таинственный картинкогенератор Mandarin на LMarena это Grok Imagine 1.0

Ну и пишут что он уже на https://grok.com/imagine

Но чтото я не вижу явных доказательств

#news #text2image
👍5
ERNIE-4.5-VL-28B-A3B-Thinking: A Breakthrough in Multimodal AI

Очередной визуал-мыслитель Эрни от Baidu

28B параметров, из них 3B активных.

Думает с помощью изображений, может увеличивать и уменьшать их, чтобы рассмотреть детали

Использует внешние инструменты, например, поиск по изображениям, для получения дополнительной информации

Понимает видео, определяет изменения содержания в разных временных сегментах и извлекает субтитры с таймкодами

Понимает и отвечает на русском. Но думает ан английском.

Как видим, успешно галлюцинирует.

Гитхаб с кукбукой
HF
Демо

#multimodal #assistant #vlm #reasoning #image2text
😁16👍51🤯1
Infinity: Unified SpaceTime AutoRegressive Modeling for Visual Generation

Дискретный авторегрессионный видеогенератор
Видимо от авторов Waver, потому что пригласительная Discord ссылка ведет на их канал

Создает контент в разных форматах: генерирует изображения по тексту, превращает изображения в видео, создаёт динамические видео и длинные интерактивные (???) ролики

Работает быстрее аналогов: примерно в 10 раз быстрее диффузионных методов, например, HunyuanVideo

Ну и вроде как нативное 720p. Модель поменьше делает 480p

Гитхаб
HF
Попробовать в дискорде

Спасибо @m_franz

#text2video #image2video
👍72🔥2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну подумаешь - российский робот упал на презентации. Ахаха. хаха 😐. Так же несмешно как и человеческие падения. Вообще непонятно зачем это постят, никак не тянет на новость. У всех роботы падали, и у Маска тоже, и ничего стыдного в этом нет.

Вот если бы он упал и взорвался с криком "ИИ-Акбар!"
Или на худой конец упал и обос*ался — вот это я понимаю новость была бы.
А так и не хочется даже постить. И не буду

#robot #оффтоп
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁31💯16🍌6😐3
FlowFeat: Pixel-Dense Embedding of Motion Profiles

Конкурент DINO и V-JEPA, создаёт детализированные представления видеоданных на уровне пикселей, используя информацию о движении.

В принципе должно работать для сегментации

Интересно где сравнение с DINO v3

Гитхаб

#segmentation #video2mask
5👍2🤔1🤯1