FLUX.2: Frontier Visual Intelligence
Слухи оказались правдивы, новую версию генератора картинок Flux 2 выпустили.
Внутри Mistral-3 VLM 24B
— сохраняет характер и стиль при работе с несколькими референсными изображениями;
— следует сложным структурированным подсказкам;
— читает и пишет сложный текст;
— соблюдает брендбуки;
— грамотно работает с освещением, макетами и логотипами;
— редактирует изображения размером до 4 мегапикселей, сохраняя детали и целостность изображения;
— поддерживает работу с до 10 референсными изображениями одновременно;
— создаёт детальные фотореалистичные изображения и инфографику со сложной типографикой;
— надёжно обрабатывает сложную типографику, включая создание инфографики, мемов и макетов пользовательских интерфейсов с читаемым мелким текстом.
В релиз вошли следующие модели семейства FLUX.2:
FLUX.2 [pro]: модель с высоким качеством генерации изображений, быстрой работой и относительно низкими затратами.
FLUX.2 [flex]: модель, которая позволяет настраивать параметры (количество шагов, шкала руководства) и хорошо рендерит текст и мелкие детали.
FLUX.2 [dev]: открытая модель с 32 миллиардами параметров, поддерживает синтез текста в изображение и редактирование изображений с несколькими входными изображениями.
FLUX.2 [klein]: предстоящий релиз — открытая модель, более мощная и удобная для разработчиков по сравнению с аналогами того же размера. Вписаться в бету
FLUX.2 - VAE: вариационный автоэнкодер для латентных представлений, обеспечивает баланс между обучаемостью, качеством и степенью сжатия.
BFL Playground
BFL API
HF
Демо
#text2image #referencing #image2image #imageediting #vlm
Слухи оказались правдивы, новую версию генератора картинок Flux 2 выпустили.
Внутри Mistral-3 VLM 24B
— сохраняет характер и стиль при работе с несколькими референсными изображениями;
— следует сложным структурированным подсказкам;
— читает и пишет сложный текст;
— соблюдает брендбуки;
— грамотно работает с освещением, макетами и логотипами;
— редактирует изображения размером до 4 мегапикселей, сохраняя детали и целостность изображения;
— поддерживает работу с до 10 референсными изображениями одновременно;
— создаёт детальные фотореалистичные изображения и инфографику со сложной типографикой;
— надёжно обрабатывает сложную типографику, включая создание инфографики, мемов и макетов пользовательских интерфейсов с читаемым мелким текстом.
В релиз вошли следующие модели семейства FLUX.2:
FLUX.2 [pro]: модель с высоким качеством генерации изображений, быстрой работой и относительно низкими затратами.
FLUX.2 [flex]: модель, которая позволяет настраивать параметры (количество шагов, шкала руководства) и хорошо рендерит текст и мелкие детали.
FLUX.2 [dev]: открытая модель с 32 миллиардами параметров, поддерживает синтез текста в изображение и редактирование изображений с несколькими входными изображениями.
FLUX.2 [klein]: предстоящий релиз — открытая модель, более мощная и удобная для разработчиков по сравнению с аналогами того же размера. Вписаться в бету
FLUX.2 - VAE: вариационный автоэнкодер для латентных представлений, обеспечивает баланс между обучаемостью, качеством и степенью сжатия.
BFL Playground
BFL API
HF
Демо
#text2image #referencing #image2image #imageediting #vlm
🔥18❤3
Нейронавт | Нейросети в творчестве
FLUX.2: Frontier Visual Intelligence Слухи оказались правдивы, новую версию генератора картинок Flux 2 выпустили. Внутри Mistral-3 VLM 24B — сохраняет характер и стиль при работе с несколькими референсными изображениями; — следует сложным структурированным…
64 ГБ. бежим скачивать, ага
😭14😁6😱2
Нейронавт | Нейросети в творчестве
FLUX.2: Frontier Visual Intelligence Слухи оказались правдивы, новую версию генератора картинок Flux 2 выпустили. Внутри Mistral-3 VLM 24B — сохраняет характер и стиль при работе с несколькими референсными изображениями; — следует сложным структурированным…
huggingface.co
Comfy-Org/flux2-dev · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍6😁1
Ну неплохо
Но с направлениями беда. Надо справа налево.
И как прочие модели не любит изображать людей на заднем плане с лица, предпочитает рисовать спины.
Но с направлениями беда. Надо справа налево.
И как прочие модели не любит изображать людей на заднем плане с лица, предпочитает рисовать спины.
photo of fantasy Fish straight-walking from right to the left in a human city as undercover agent, wearing a survival landsuit with a helmet filled with water to breathe, wearing a hat over the helmet, in human disguise, masterpiece, wide view, distant view
👍4🤷♂2🔥1
В Comfy Cloud обновки
Переход на GPUs Blackwell RTX 6000 Pro, которые примерно в два раза быстрее A100. У новых GPU 96 ГБ VRAM и 180 ГБ RAM, что позволяет работать с более тяжёлыми задачами, например, с масштабированием видео. Обновление доступно всем пользователям без дополнительной платы
Возможность загружать собственные LoRAs с Civitai (поддержка HuggingFace появится позже). Функция будет доступна с 8 декабря на плане Creator
Увеличение максимального времени работы рабочих процессов с 30 минут до 1 часа. Функция будет доступна с 8 декабря на плане Pro
Введение единой системы кредитов Comfy Credits: теперь все операции выполняются с использованием единого баланса кредитов, включая использование Partner Nodes и облачных рабочих процессов. Стоимость использования Partner Nodes будет фиксированной, а за облачные рабочие процессы будут взимать плату в зависимости от продолжительности их работы.
#Comfyui #news
Переход на GPUs Blackwell RTX 6000 Pro, которые примерно в два раза быстрее A100. У новых GPU 96 ГБ VRAM и 180 ГБ RAM, что позволяет работать с более тяжёлыми задачами, например, с масштабированием видео. Обновление доступно всем пользователям без дополнительной платы
Возможность загружать собственные LoRAs с Civitai (поддержка HuggingFace появится позже). Функция будет доступна с 8 декабря на плане Creator
Увеличение максимального времени работы рабочих процессов с 30 минут до 1 часа. Функция будет доступна с 8 декабря на плане Pro
Введение единой системы кредитов Comfy Credits: теперь все операции выполняются с использованием единого баланса кредитов, включая использование Partner Nodes и облачных рабочих процессов. Стоимость использования Partner Nodes будет фиксированной, а за облачные рабочие процессы будут взимать плату в зависимости от продолжительности их работы.
#Comfyui #news
❤9👍3😱2
7 tips to get the most out of Nano Banana Pro
Если еще не видели, вот официальный гайд по Nano Banana Pro
#guide
Если еще не видели, вот официальный гайд по Nano Banana Pro
#guide
👍7
DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation
Диффузный генератор изображений напрямую в пиксельном пространстве.
Тут интересна архитектура
В отличие от аналогов, DeCo эффективнее разделяет задачи моделирования высоко- и низкочастотных компонентов, что позволяет улучшить качество изображений и ускорить обучение и вывод
Текстовый энкодер Qwen 3 поддерживает несколько языков
Авторы не стали заморачиваться с разрешением, сделали модели на 256 и 512 пикселей. В демо можно поднять до 1024 но результат будет покореженный как в SD1.5
Ну и веса у нее 2 ГБ. Если искали замену SD1.5 посмотрите DeCo
Гитхаб
HF
Демо
#text2image
Диффузный генератор изображений напрямую в пиксельном пространстве.
Тут интересна архитектура
В отличие от аналогов, DeCo эффективнее разделяет задачи моделирования высоко- и низкочастотных компонентов, что позволяет улучшить качество изображений и ускорить обучение и вывод
Текстовый энкодер Qwen 3 поддерживает несколько языков
Авторы не стали заморачиваться с разрешением, сделали модели на 256 и 512 пикселей. В демо можно поднять до 1024 но результат будет покореженный как в SD1.5
Ну и веса у нее 2 ГБ. Если искали замену SD1.5 посмотрите DeCo
Гитхаб
HF
Демо
#text2image
👍12❤1
Z-Image
Генерилка-редактор изображений от Tongyi Labs
Под капотом Qwen3-VL 4B, что поинтереснее чем Mistral small 32B который у Flux.2
Точно отображает сложные тексты на китайском и английском
Хорошо справляется с двуязычными промптами
По некоторым отзывам уступает Nano Banan Pro, но превосходит Flux.2
По рейтингу арены Alibaba занимает место после Seadream 4
На данный момент есть только версия Turbo, на Modelscope и указанной арене
Base, Edit - ждем
#imageediting #text2image #image2image
Генерилка-редактор изображений от Tongyi Labs
Под капотом Qwen3-VL 4B, что поинтереснее чем Mistral small 32B который у Flux.2
Точно отображает сложные тексты на китайском и английском
Хорошо справляется с двуязычными промптами
По некоторым отзывам уступает Nano Banan Pro, но превосходит Flux.2
По рейтингу арены Alibaba занимает место после Seadream 4
На данный момент есть только версия Turbo, на Modelscope и указанной арене
Base, Edit - ждем
#imageediting #text2image #image2image
👀7👍5❤2🔥2
UltraFlux: Data–Model Co-Design for Native 4K, Multi-AR Text-to-Image
Генератор изображений разрешением 4K на базе FLUX.1-dev
Отличается тем, что обеспечивает стабильное качество изображений при разных соотношениях сторон (квадратных, портретных, ультрашироких и других).
Гитхаб
HF
#text2image #4k
Генератор изображений разрешением 4K на базе FLUX.1-dev
Отличается тем, что обеспечивает стабильное качество изображений при разных соотношениях сторон (квадратных, портретных, ультрашироких и других).
Гитхаб
HF
#text2image #4k
👍10🤔4❤2
EfficientSAM3: Progressive Hierachical Knowledge Distillation (PhD) from SAM1, 2 and 3
Дистиллированные версии сегментатора SAM3 для работы на устройствах с ограниченными ресурсами. Сохраняет качество сегментации концепций по запросам (PCS), при этом подходит для развёртывания на периферийных устройствах.
Поддерживает ONNX и CoreML
Есть несколько вариантов моделей с разным количеством параметров на базе RepViT, TinyViT и EfficientViT, на одну даже есть ссылка в гитхабе. Остальные ждем
Гитхаб
#segmentation #mobile
Дистиллированные версии сегментатора SAM3 для работы на устройствах с ограниченными ресурсами. Сохраняет качество сегментации концепций по запросам (PCS), при этом подходит для развёртывания на периферийных устройствах.
Поддерживает ONNX и CoreML
Есть несколько вариантов моделей с разным количеством параметров на базе RepViT, TinyViT и EfficientViT, на одну даже есть ссылка в гитхабе. Остальные ждем
Гитхаб
#segmentation #mobile
🔥6❤1👍1
Nano Banana Pro: прокачайте свой визуальный контент 🦾
Хотите эффективно работать с ИИ, чтобы вывести свои проекты на новый уровень?
Присоединяйтесь к бесплатному мастер-классу "Возможности Nano Banana Pro" 26 ноября в 19:00 Мск. Авторы – Олег Цербаев – фотограф, преподаватель фотографии и визуальных нейросетей в ВШЭ, и Павел Костомаров – российский кинооператор, режиссёр игрового и документального кино
Что будет на эфире:
– как режиссёр и фотограф смотрят на нейросети
– нейросети в фотографии и дизайне. Как органично встраивать объекты в финальное изображение
– работа с персонажем, сохранение типажа, изменение стиля и локации
– создание кинематографической сцены и ее доработка: практика
📷 Цель — научиться инструментам, чтобы создавать крутой визуальный контент. Поработаем вместе и разберём, какие связки работают
Занять место можно бесплатно по ссылке ниже
https://clck.ru/3QXB8p
#промо
Хотите эффективно работать с ИИ, чтобы вывести свои проекты на новый уровень?
Присоединяйтесь к бесплатному мастер-классу "Возможности Nano Banana Pro" 26 ноября в 19:00 Мск. Авторы – Олег Цербаев – фотограф, преподаватель фотографии и визуальных нейросетей в ВШЭ, и Павел Костомаров – российский кинооператор, режиссёр игрового и документального кино
Что будет на эфире:
– как режиссёр и фотограф смотрят на нейросети
– нейросети в фотографии и дизайне. Как органично встраивать объекты в финальное изображение
– работа с персонажем, сохранение типажа, изменение стиля и локации
– создание кинематографической сцены и ее доработка: практика
📷 Цель — научиться инструментам, чтобы создавать крутой визуальный контент. Поработаем вместе и разберём, какие связки работают
Занять место можно бесплатно по ссылке ниже
https://clck.ru/3QXB8p
#промо
👎12👍4❤2😁2🍌2