Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Stable Scripts UI (SSUI)

Автор испугался огромных комфи воркфлоу и сделал свой комфи с блэкджеком. Короче среда сборки и запуска воркфлоу с нейросетками, но чтоб не было десятков и сотен непонятных блоков.

Главная идея - простота и воспроизводимость. У всех все должно запускаться одинаково. Что-то вроде Pinokio если бы он был конструктором для непрограммистов. И что-то вроде комфи где не надо разбираться что куда втыкать

- Простота использования

- Воспроизводимость: Скрипты, необходимые для них модули и сам SSUI являются версионными. Скрипты могут запускаться точно в той же среде, что и автор сценария.

- Управляемость моделями и конфигурациями

- Строгая типизированность: Все ресурсы (включая модели) являются строго типизированными, и их невозможно использовать неправильно.

- Настраиваемость: Вы можете настроить скрипты, типы, модели, панели, загрузчики, фреймворк пользовательского интерфейса и многое другое.

Проект на стадии MVP (минимальный функционал), сейчас поддерживает только SD1, SDXL, Flux

#text2image #tools #GUI
👍12🤷‍♂2
Stable Audio Open Small

Спустя пару месяцев Stability AI выпустили мобильный генератор звуков для девайсов ARM

До 11 секунд 44.1kHz стерео по тексту локально на мобилках

Веса
Гитхаб

#news #mobile #text2audio
🤔2👍1👏1
Media is too big
VIEW IN TELEGRAM
MoviiGen 1.1

Файнтюн Wan 2.1 с заявкой на кинокачество, видео по тексту.

720P и 1080P

Должно работать с любым родным Wan 2.1 t2v вокрфлоу

есть GGUF

#text2video
👍18👏3🔥21
Hunyuan Image 2.0

Tencent выкатил генератор картинок 2.0
Генерит мгновенно!
Высокая реалистичность.
Dual-Canvas Studio - редактор с холстом позволяет смешивать слои.

Как пользоваться - непонятно, все на китайском. Для начала надо войти по имейлу. Вот куда-то ткнул, сделал котика. Первая картинка с котиком - моя, просто по запросу Cat, непонятно новой моделью или старой.

Вообще выглядит впечатляюще

#text2image #realtime #imageediting
👍107
Нейронавт | Нейросети в творчестве
Hunyuan Image 2.0 Tencent выкатил генератор картинок 2.0 Генерит мгновенно! Высокая реалистичность. Dual-Canvas Studio - редактор с холстом позволяет смешивать слои. Как пользоваться - непонятно, все на китайском. Для начала надо войти по имейлу. Вот куда…
Короче, надо ткнуть в 1, потом в 2, потом нажать кнопку 3, появится всплывающее окошко и надо успеть ткнуть в нем на кнопку, она почему-то сразу исчезает, тогда появится сообщение что мол ждите приглашение на почту

А мой кот был из старой версии, получается
🔥6😁2👍1👌1
BLIP3-o

Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров

Понимает картинки и умеет отвечать на вопросы как минимум

Демо
Код
Веса

#multimodal #image2text #instruct
🔥71
This media is not supported in your browser
VIEW IN TELEGRAM
LightLab: Controlling Light Sources in Images with Diffusion Models

Гугл в соавторстве создали модель для управления видимыми источниками света на изображениях. Увы кода нет. На сайте проекта можно интерактивно потыкать картинки

#relighting
👍111🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Marigold: Generative Computer Vision

Опа, Marigold прокачался
Там теперь не только глубина а целая пачка пассов: нормали, альбедо, какой-то intrinsic. RollingDepth на нем сделан.

Есть в Diffusers, гайд

Код
Демо глубина
Демо нормали
Демо интринсик

#image2depth #image2normal #image2albedo
🔥112👍1
Forwarded from Сиолошная
https://openai.com/index/introducing-codex/

— Codex — AI-агент-программист у вас в браузере
— может работать над несколькими задачами
— под капотом модель Codex-1 , основанная на o3
— можно подключать свой GitHub аккаунт, чтобы давать доступ агенту
— Plus юзеры пока не получат доступ, выкатят скоро.
— For developers building with codex-mini-latest (МИНИ), the model is available on the Responses API and priced at $1.50 per 1M input tokens and $6 per 1M output tokens, with a 75% prompt caching discount. Модель основана на o4-mini и заточена под работу в Codex CLI
— иногда (не ясно, как часто) модель при внесении исправлений добавляет тесты, которыми проверяет новую или исправленную функциональность, и итерируется до тех пор, пока тест не пройдет
👍31
Залил для вас вчерашний стрим Hunyian Image 2.0 на ютуб, включайте в Яндекс браузере дубляж и смотрите часовое видео если хотите все подробности

Если хотите коротко, то держите подкаст на чистом русском из NotebookLM. Вот оказывается для чего он нужен
👍10