Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.43K photos
3.7K videos
41 files
4.74K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
FLUX.2: Frontier Visual Intelligence

Слухи оказались правдивы, новую версию генератора картинок Flux 2 выпустили.
Внутри Mistral-3 VLM 24B

— сохраняет характер и стиль при работе с несколькими референсными изображениями;

— следует сложным структурированным подсказкам;

— читает и пишет сложный текст;

— соблюдает брендбуки;

— грамотно работает с освещением, макетами и логотипами;

— редактирует изображения размером до 4 мегапикселей, сохраняя детали и целостность изображения;

— поддерживает работу с до 10 референсными изображениями одновременно;

— создаёт детальные фотореалистичные изображения и инфографику со сложной типографикой;

— надёжно обрабатывает сложную типографику, включая создание инфографики, мемов и макетов пользовательских интерфейсов с читаемым мелким текстом.

В релиз вошли следующие модели семейства FLUX.2:

FLUX.2 [pro]: модель с высоким качеством генерации изображений, быстрой работой и относительно низкими затратами.

FLUX.2 [flex]: модель, которая позволяет настраивать параметры (количество шагов, шкала руководства) и хорошо рендерит текст и мелкие детали.

FLUX.2 [dev]: открытая модель с 32 миллиардами параметров, поддерживает синтез текста в изображение и редактирование изображений с несколькими входными изображениями.

FLUX.2 [klein]: предстоящий релиз — открытая модель, более мощная и удобная для разработчиков по сравнению с аналогами того же размера. Вписаться в бету

FLUX.2 - VAE: вариационный автоэнкодер для латентных представлений, обеспечивает баланс между обучаемостью, качеством и степенью сжатия.

BFL Playground
BFL API
HF
Демо

#text2image #referencing #image2image #imageediting #vlm
🔥183
Ну неплохо

Но с направлениями беда. Надо справа налево.
И как прочие модели не любит изображать людей на заднем плане с лица, предпочитает рисовать спины.

photo of fantasy Fish straight-walking from right to the left in a human city as undercover agent, wearing a survival landsuit with a helmet filled with water to breathe, wearing a hat over the helmet, in human disguise, masterpiece, wide view, distant view
👍4🤷‍♂2🔥1
В Comfy Cloud обновки

Переход на GPUs Blackwell RTX 6000 Pro, которые примерно в два раза быстрее A100. У новых GPU 96 ГБ VRAM и 180 ГБ RAM, что позволяет работать с более тяжёлыми задачами, например, с масштабированием видео. Обновление доступно всем пользователям без дополнительной платы

Возможность загружать собственные LoRAs с Civitai (поддержка HuggingFace появится позже). Функция будет доступна с 8 декабря на плане Creator

Увеличение максимального времени работы рабочих процессов с 30 минут до 1 часа. Функция будет доступна с 8 декабря на плане Pro

Введение единой системы кредитов Comfy Credits: теперь все операции выполняются с использованием единого баланса кредитов, включая использование Partner Nodes и облачных рабочих процессов. Стоимость использования Partner Nodes будет фиксированной, а за облачные рабочие процессы будут взимать плату в зависимости от продолжительности их работы.

#Comfyui #news
9👍3😱2
7 tips to get the most out of Nano Banana Pro

Если еще не видели, вот официальный гайд по Nano Banana Pro

#guide
👍7
DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

Диффузный генератор изображений напрямую в пиксельном пространстве.

Тут интересна архитектура

В отличие от аналогов, DeCo эффективнее разделяет задачи моделирования высоко- и низкочастотных компонентов, что позволяет улучшить качество изображений и ускорить обучение и вывод

Текстовый энкодер Qwen 3 поддерживает несколько языков

Авторы не стали заморачиваться с разрешением, сделали модели на 256 и 512 пикселей. В демо можно поднять до 1024 но результат будет покореженный как в SD1.5

Ну и веса у нее 2 ГБ. Если искали замену SD1.5 посмотрите DeCo

Гитхаб
HF
Демо

#text2image
👍121
Z-Image

Генерилка-редактор изображений от Tongyi Labs
Под капотом Qwen3-VL 4B, что поинтереснее чем Mistral small 32B который у Flux.2

Точно отображает сложные тексты на китайском и английском

Хорошо справляется с двуязычными промптами

По некоторым отзывам уступает Nano Banan Pro, но превосходит Flux.2

По рейтингу арены Alibaba занимает место после Seadream 4

На данный момент есть только версия Turbo, на Modelscope и указанной арене

Base, Edit - ждем

#imageediting #text2image #image2image
👀7👍52🔥2
UltraFlux: Data–Model Co-Design for Native 4K, Multi-AR Text-to-Image

Генератор изображений разрешением 4K на базе FLUX.1-dev

Отличается тем, что обеспечивает стабильное качество изображений при разных соотношениях сторон (квадратных, портретных, ультрашироких и других).

Гитхаб
HF

#text2image #4k
👍10🤔42
EfficientSAM3: Progressive Hierachical Knowledge Distillation (PhD) from SAM1, 2 and 3

Дистиллированные версии сегментатора SAM3 для работы на устройствах с ограниченными ресурсами. Сохраняет качество сегментации концепций по запросам (PCS), при этом подходит для развёртывания на периферийных устройствах.

Поддерживает ONNX и CoreML

Есть несколько вариантов моделей с разным количеством параметров на базе RepViT, TinyViT и EfficientViT, на одну даже есть ссылка в гитхабе. Остальные ждем

Гитхаб

#segmentation #mobile
🔥61👍1
Nano Banana Pro: прокачайте свой визуальный контент 🦾

Хотите эффективно работать с ИИ, чтобы вывести свои проекты на новый уровень?

Присоединяйтесь к бесплатному мастер-классу "Возможности Nano Banana Pro" 26 ноября в 19:00 Мск. Авторы – Олег Цербаев – фотограф, преподаватель фотографии и визуальных нейросетей в ВШЭ, и Павел Костомаров – российский кинооператор, режиссёр игрового и документального кино

Что будет на эфире:

– как режиссёр и фотограф смотрят на нейросети
– нейросети в фотографии и дизайне. Как органично встраивать объекты в финальное изображение
– работа с персонажем, сохранение типажа, изменение стиля и локации
– создание кинематографической сцены и ее доработка: практика

📷 Цель — научиться инструментам, чтобы создавать крутой визуальный контент. Поработаем вместе и разберём, какие связки работают

Занять место можно бесплатно по ссылке ниже

https://clck.ru/3QXB8p

#промо
👎12👍42😁2🍌2
Media is too big
VIEW IN TELEGRAM
3D генератор Hunyuan3D 3.0 раскатали "на весь мир" (а было не так?)

Занятно, но мне показывают что продискриминировали меня по территориальному признаку, Restricted Access

Основные возможности и особенности:

- мультимодальный ввод: генерация 3D из текста, изображений (с поддержкой многовидового ввода) и эскизов

- интегрируется с Unreal, Unity и Blender через форматы OBJ/GLB

- новым юзерам раздают 20 бесплатных генераций в день, корпоративным пользователям — 200 бесплатных кредитов при регистрации.

Попробовать
API

твит

#imageto3d #textto3d #sketchto3d #3d
11🥴2