FLUX.2: Frontier Visual Intelligence
Слухи оказались правдивы, новую версию генератора картинок Flux 2 выпустили.
Внутри Mistral-3 VLM 24B
— сохраняет характер и стиль при работе с несколькими референсными изображениями;
— следует сложным структурированным подсказкам;
— читает и пишет сложный текст;
— соблюдает брендбуки;
— грамотно работает с освещением, макетами и логотипами;
— редактирует изображения размером до 4 мегапикселей, сохраняя детали и целостность изображения;
— поддерживает работу с до 10 референсными изображениями одновременно;
— создаёт детальные фотореалистичные изображения и инфографику со сложной типографикой;
— надёжно обрабатывает сложную типографику, включая создание инфографики, мемов и макетов пользовательских интерфейсов с читаемым мелким текстом.
В релиз вошли следующие модели семейства FLUX.2:
FLUX.2 [pro]: модель с высоким качеством генерации изображений, быстрой работой и относительно низкими затратами.
FLUX.2 [flex]: модель, которая позволяет настраивать параметры (количество шагов, шкала руководства) и хорошо рендерит текст и мелкие детали.
FLUX.2 [dev]: открытая модель с 32 миллиардами параметров, поддерживает синтез текста в изображение и редактирование изображений с несколькими входными изображениями.
FLUX.2 [klein]: предстоящий релиз — открытая модель, более мощная и удобная для разработчиков по сравнению с аналогами того же размера. Вписаться в бету
FLUX.2 - VAE: вариационный автоэнкодер для латентных представлений, обеспечивает баланс между обучаемостью, качеством и степенью сжатия.
BFL Playground
BFL API
HF
Демо
#text2image #referencing #image2image #imageediting #vlm
Слухи оказались правдивы, новую версию генератора картинок Flux 2 выпустили.
Внутри Mistral-3 VLM 24B
— сохраняет характер и стиль при работе с несколькими референсными изображениями;
— следует сложным структурированным подсказкам;
— читает и пишет сложный текст;
— соблюдает брендбуки;
— грамотно работает с освещением, макетами и логотипами;
— редактирует изображения размером до 4 мегапикселей, сохраняя детали и целостность изображения;
— поддерживает работу с до 10 референсными изображениями одновременно;
— создаёт детальные фотореалистичные изображения и инфографику со сложной типографикой;
— надёжно обрабатывает сложную типографику, включая создание инфографики, мемов и макетов пользовательских интерфейсов с читаемым мелким текстом.
В релиз вошли следующие модели семейства FLUX.2:
FLUX.2 [pro]: модель с высоким качеством генерации изображений, быстрой работой и относительно низкими затратами.
FLUX.2 [flex]: модель, которая позволяет настраивать параметры (количество шагов, шкала руководства) и хорошо рендерит текст и мелкие детали.
FLUX.2 [dev]: открытая модель с 32 миллиардами параметров, поддерживает синтез текста в изображение и редактирование изображений с несколькими входными изображениями.
FLUX.2 [klein]: предстоящий релиз — открытая модель, более мощная и удобная для разработчиков по сравнению с аналогами того же размера. Вписаться в бету
FLUX.2 - VAE: вариационный автоэнкодер для латентных представлений, обеспечивает баланс между обучаемостью, качеством и степенью сжатия.
BFL Playground
BFL API
HF
Демо
#text2image #referencing #image2image #imageediting #vlm
🔥18❤3
Нейронавт | Нейросети в творчестве
FLUX.2: Frontier Visual Intelligence Слухи оказались правдивы, новую версию генератора картинок Flux 2 выпустили. Внутри Mistral-3 VLM 24B — сохраняет характер и стиль при работе с несколькими референсными изображениями; — следует сложным структурированным…
64 ГБ. бежим скачивать, ага
😭14😁6😱2
Нейронавт | Нейросети в творчестве
FLUX.2: Frontier Visual Intelligence Слухи оказались правдивы, новую версию генератора картинок Flux 2 выпустили. Внутри Mistral-3 VLM 24B — сохраняет характер и стиль при работе с несколькими референсными изображениями; — следует сложным структурированным…
huggingface.co
Comfy-Org/flux2-dev · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍6😁1
Ну неплохо
Но с направлениями беда. Надо справа налево.
И как прочие модели не любит изображать людей на заднем плане с лица, предпочитает рисовать спины.
Но с направлениями беда. Надо справа налево.
И как прочие модели не любит изображать людей на заднем плане с лица, предпочитает рисовать спины.
photo of fantasy Fish straight-walking from right to the left in a human city as undercover agent, wearing a survival landsuit with a helmet filled with water to breathe, wearing a hat over the helmet, in human disguise, masterpiece, wide view, distant view
👍4🤷♂2🔥1
В Comfy Cloud обновки
Переход на GPUs Blackwell RTX 6000 Pro, которые примерно в два раза быстрее A100. У новых GPU 96 ГБ VRAM и 180 ГБ RAM, что позволяет работать с более тяжёлыми задачами, например, с масштабированием видео. Обновление доступно всем пользователям без дополнительной платы
Возможность загружать собственные LoRAs с Civitai (поддержка HuggingFace появится позже). Функция будет доступна с 8 декабря на плане Creator
Увеличение максимального времени работы рабочих процессов с 30 минут до 1 часа. Функция будет доступна с 8 декабря на плане Pro
Введение единой системы кредитов Comfy Credits: теперь все операции выполняются с использованием единого баланса кредитов, включая использование Partner Nodes и облачных рабочих процессов. Стоимость использования Partner Nodes будет фиксированной, а за облачные рабочие процессы будут взимать плату в зависимости от продолжительности их работы.
#Comfyui #news
Переход на GPUs Blackwell RTX 6000 Pro, которые примерно в два раза быстрее A100. У новых GPU 96 ГБ VRAM и 180 ГБ RAM, что позволяет работать с более тяжёлыми задачами, например, с масштабированием видео. Обновление доступно всем пользователям без дополнительной платы
Возможность загружать собственные LoRAs с Civitai (поддержка HuggingFace появится позже). Функция будет доступна с 8 декабря на плане Creator
Увеличение максимального времени работы рабочих процессов с 30 минут до 1 часа. Функция будет доступна с 8 декабря на плане Pro
Введение единой системы кредитов Comfy Credits: теперь все операции выполняются с использованием единого баланса кредитов, включая использование Partner Nodes и облачных рабочих процессов. Стоимость использования Partner Nodes будет фиксированной, а за облачные рабочие процессы будут взимать плату в зависимости от продолжительности их работы.
#Comfyui #news
❤9👍3😱2
7 tips to get the most out of Nano Banana Pro
Если еще не видели, вот официальный гайд по Nano Banana Pro
#guide
Если еще не видели, вот официальный гайд по Nano Banana Pro
#guide
👍7
DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation
Диффузный генератор изображений напрямую в пиксельном пространстве.
Тут интересна архитектура
В отличие от аналогов, DeCo эффективнее разделяет задачи моделирования высоко- и низкочастотных компонентов, что позволяет улучшить качество изображений и ускорить обучение и вывод
Текстовый энкодер Qwen 3 поддерживает несколько языков
Авторы не стали заморачиваться с разрешением, сделали модели на 256 и 512 пикселей. В демо можно поднять до 1024 но результат будет покореженный как в SD1.5
Ну и веса у нее 2 ГБ. Если искали замену SD1.5 посмотрите DeCo
Гитхаб
HF
Демо
#text2image
Диффузный генератор изображений напрямую в пиксельном пространстве.
Тут интересна архитектура
В отличие от аналогов, DeCo эффективнее разделяет задачи моделирования высоко- и низкочастотных компонентов, что позволяет улучшить качество изображений и ускорить обучение и вывод
Текстовый энкодер Qwen 3 поддерживает несколько языков
Авторы не стали заморачиваться с разрешением, сделали модели на 256 и 512 пикселей. В демо можно поднять до 1024 но результат будет покореженный как в SD1.5
Ну и веса у нее 2 ГБ. Если искали замену SD1.5 посмотрите DeCo
Гитхаб
HF
Демо
#text2image
👍12❤1
Z-Image
Генерилка-редактор изображений от Tongyi Labs
Под капотом Qwen3-VL 4B, что поинтереснее чем Mistral small 32B который у Flux.2
Точно отображает сложные тексты на китайском и английском
Хорошо справляется с двуязычными промптами
По некоторым отзывам уступает Nano Banan Pro, но превосходит Flux.2
По рейтингу арены Alibaba занимает место после Seadream 4
На данный момент есть только версия Turbo, на Modelscope и указанной арене
Base, Edit - ждем
#imageediting #text2image #image2image
Генерилка-редактор изображений от Tongyi Labs
Под капотом Qwen3-VL 4B, что поинтереснее чем Mistral small 32B который у Flux.2
Точно отображает сложные тексты на китайском и английском
Хорошо справляется с двуязычными промптами
По некоторым отзывам уступает Nano Banan Pro, но превосходит Flux.2
По рейтингу арены Alibaba занимает место после Seadream 4
На данный момент есть только версия Turbo, на Modelscope и указанной арене
Base, Edit - ждем
#imageediting #text2image #image2image
👀7👍5❤2🔥2
UltraFlux: Data–Model Co-Design for Native 4K, Multi-AR Text-to-Image
Генератор изображений разрешением 4K на базе FLUX.1-dev
Отличается тем, что обеспечивает стабильное качество изображений при разных соотношениях сторон (квадратных, портретных, ультрашироких и других).
Гитхаб
HF
#text2image #4k
Генератор изображений разрешением 4K на базе FLUX.1-dev
Отличается тем, что обеспечивает стабильное качество изображений при разных соотношениях сторон (квадратных, портретных, ультрашироких и других).
Гитхаб
HF
#text2image #4k
👍10🤔4❤2
EfficientSAM3: Progressive Hierachical Knowledge Distillation (PhD) from SAM1, 2 and 3
Дистиллированные версии сегментатора SAM3 для работы на устройствах с ограниченными ресурсами. Сохраняет качество сегментации концепций по запросам (PCS), при этом подходит для развёртывания на периферийных устройствах.
Поддерживает ONNX и CoreML
Есть несколько вариантов моделей с разным количеством параметров на базе RepViT, TinyViT и EfficientViT, на одну даже есть ссылка в гитхабе. Остальные ждем
Гитхаб
#segmentation #mobile
Дистиллированные версии сегментатора SAM3 для работы на устройствах с ограниченными ресурсами. Сохраняет качество сегментации концепций по запросам (PCS), при этом подходит для развёртывания на периферийных устройствах.
Поддерживает ONNX и CoreML
Есть несколько вариантов моделей с разным количеством параметров на базе RepViT, TinyViT и EfficientViT, на одну даже есть ссылка в гитхабе. Остальные ждем
Гитхаб
#segmentation #mobile
🔥6❤1👍1
Nano Banana Pro: прокачайте свой визуальный контент 🦾
Хотите эффективно работать с ИИ, чтобы вывести свои проекты на новый уровень?
Присоединяйтесь к бесплатному мастер-классу "Возможности Nano Banana Pro" 26 ноября в 19:00 Мск. Авторы – Олег Цербаев – фотограф, преподаватель фотографии и визуальных нейросетей в ВШЭ, и Павел Костомаров – российский кинооператор, режиссёр игрового и документального кино
Что будет на эфире:
– как режиссёр и фотограф смотрят на нейросети
– нейросети в фотографии и дизайне. Как органично встраивать объекты в финальное изображение
– работа с персонажем, сохранение типажа, изменение стиля и локации
– создание кинематографической сцены и ее доработка: практика
📷 Цель — научиться инструментам, чтобы создавать крутой визуальный контент. Поработаем вместе и разберём, какие связки работают
Занять место можно бесплатно по ссылке ниже
https://clck.ru/3QXB8p
#промо
Хотите эффективно работать с ИИ, чтобы вывести свои проекты на новый уровень?
Присоединяйтесь к бесплатному мастер-классу "Возможности Nano Banana Pro" 26 ноября в 19:00 Мск. Авторы – Олег Цербаев – фотограф, преподаватель фотографии и визуальных нейросетей в ВШЭ, и Павел Костомаров – российский кинооператор, режиссёр игрового и документального кино
Что будет на эфире:
– как режиссёр и фотограф смотрят на нейросети
– нейросети в фотографии и дизайне. Как органично встраивать объекты в финальное изображение
– работа с персонажем, сохранение типажа, изменение стиля и локации
– создание кинематографической сцены и ее доработка: практика
📷 Цель — научиться инструментам, чтобы создавать крутой визуальный контент. Поработаем вместе и разберём, какие связки работают
Занять место можно бесплатно по ссылке ниже
https://clck.ru/3QXB8p
#промо
👎12👍4❤2😁2🍌2
Media is too big
VIEW IN TELEGRAM
3D генератор Hunyuan3D 3.0 раскатали "на весь мир" (а было не так?)
Занятно, но мне показывают что продискриминировали меня по территориальному признаку,
Основные возможности и особенности:
- мультимодальный ввод: генерация 3D из текста, изображений (с поддержкой многовидового ввода) и эскизов
- интегрируется с Unreal, Unity и Blender через форматы OBJ/GLB
- новым юзерам раздают 20 бесплатных генераций в день, корпоративным пользователям — 200 бесплатных кредитов при регистрации.
Попробовать
API
твит
#imageto3d #textto3d #sketchto3d #3d
Занятно, но мне показывают что продискриминировали меня по территориальному признаку,
Restricted AccessОсновные возможности и особенности:
- мультимодальный ввод: генерация 3D из текста, изображений (с поддержкой многовидового ввода) и эскизов
- интегрируется с Unreal, Unity и Blender через форматы OBJ/GLB
- новым юзерам раздают 20 бесплатных генераций в день, корпоративным пользователям — 200 бесплатных кредитов при регистрации.
Попробовать
API
твит
#imageto3d #textto3d #sketchto3d #3d
❤11🥴2