Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.43K photos
3.7K videos
41 files
4.74K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
FFGO: First Frame is the Place to Go For Video Content Custimization

Метод подсовывания референсов видеогенераторам через первый кадр

Исследователи показывают: первый кадр видео не просто точка отсчёта, а своего рода «буфер памяти», где хранятся визуальные элементы для дальнейшего использования при генерации. Благодаря этому открытию можно кастомизировать видеоконтент в разных сценариях.

Нужно всего 20–50 примеров для обучения, без масштабных доработок архитектуры или детальной настройки.

Можно кастомизировать контент в разнообразных сценариях.

Работает с разными типами взаимодействий: между несколькими объектами, людьми и объектами, роботами и животными.

Прикручено к Wan2.2-14B-I2V

Hunyuan 1.5 8B и Wan2.2 5B - ждем

Гитхаб
HF

#referencing #image2video #lora #wan22
👍71🔥1😁1
Step-Audio-R1

Степан (Step-fun) выпустил первую аудиорассуждалку, в которой реализована цепочка рассуждений (CoT).
Превзошли Gemini 2.5 Pro и поравнялись с Gemini 3 Pro.

Решает проблему «обратного масштабирования», которая характерна для существующих моделей (когда производительность ухудшается с увеличением длины рассуждения)

Демонстрирует, что для аудио, как и для текста и видео, увеличение вычислительных мощностей во время тестирования улучшает производительность.

Примеры работы (на китайском) - на офсайте

Модель выпустят в опенсорс

Гитхаб
HF - ждем
Демо - ждем

#ALM #CoT
👍10
(Beta) Minimalistic Comfy Wrapper WebUI

Альтернативный дополнительный безнодовый #GUI для #ComfyUI, который динамически адаптируется к вашим воркфлоу, вам нужно только изменить названия нод, которые вы хотите видеть в минималистичном webui, и нажать кнопку "Refresh".
👍6🤔6
Хиггсфилд раздает по 10 кредитов в день. Их, естественно, не потратишь на что угодно

Можно потратить на нанобанан 2, Soul, Face swap, Character swap

Бонусом получите щедрый вотермарк размером на всю картинку
😁171
Но за бананом лучше сходить на LMarena

Или вот список сервисов в с бесплатным нанобананом 2 которые я не проверял

felo.ai
nano-banana.ai
nanobanana-pro.com
Lovart.ai

#imageediting #text2image #image2image
🔥15👍1
realorai.dev

Ну все. Думал хотя бы 6 из 10 отличу. Неа

Нанобанан поднял ИИ-картинки на новый уровень.
Попробуйте угадать где генерация а где нет

Делитесь позором в комментах
11
Claude Opus 4.5

На SWE-bench 80.9%, лучше Gemini-3-Pro.
По API немного дешевле прошлой версии и сильно экономнее по количеству токенов в ризонинге

Claude Code доступен в десктопном приложении.

#assistant #reasoning #coding
👍6
Loomis Painter: Reconstructing the painting process

Лора для реконструкции процесса рисования картины на базе WAN 2.1

На вход даем картину, на выходе - видео.

Работает в разных техниках - акрил, масло, карандаш

Был похожий проект Paints-Undo от lllyasviel

Гитхаб
HF

#image2video #wan
7👍5🥴4
Почему японский дизайн такой странный? Как любое медиа рано или поздно превращается в телевидение? Можно ли отличить сгенерированные фотки (и котиков 😐 ) от настоящих?

На эти и другие вопросы о влиянии технологий ищите ответы на канале «Живем в обществе».

Подписывайтесь!

#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍2
GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

Агент от Tencent по фото определяет координаты где оно снято

Объединяет визуальное рассуждение и веб-поиск для уточнения гипотез.

Увеличивает масштаб изображений чтобы детально рассматривать интересующие области.

Гитхаб
HF ~34 ГБ

#image2geolocation #map #location #geolocation
👍11