Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Адобченко поднимает веки. Генерация и редактирование по слоям.
Много новостей прилетело изподадоба. На пару постов.
Прежде всего они выпустили Firefly Image Model 5 и там есть редактирование и слои.
Картинка генерится сразу со слоями, каждый слой можно перегенерировать, таскать по картинке, вращать, масштабировать - перегенерация почти мгновенная.
А как он бьет на слои, спросите вы?
А примерно также как в Reve.art - сегментацией картинки на объекты внутри общей композиции. Сколько нашел, cтолько слоев и сделал. Влиять на это нельзя.
Также можно заметить, что при перегенерации\редактировании слоя-объекта он чуть шевелит остальные "слои", что в принципе малозаметно и в пределах погрешностей редактирующих генераторов. Круто, что тени и отражения отрабатываются с учетом "отношений" между объектами.
В общем у Адобченко теперь своя Нанабанана со своим интерфейсом (это не отменяет того факта что гугловая Нанабанана также присутствует в списке "прочих моделей" уже некоторое время).
На видео заметно, что с текстом вообще-то беда. Но в любом случае, чем больше редактирующих моделей, да еще и с хорошим UI\UX - тем лучше.
@cgevent
Много новостей прилетело изподадоба. На пару постов.
Прежде всего они выпустили Firefly Image Model 5 и там есть редактирование и слои.
Картинка генерится сразу со слоями, каждый слой можно перегенерировать, таскать по картинке, вращать, масштабировать - перегенерация почти мгновенная.
А как он бьет на слои, спросите вы?
А примерно также как в Reve.art - сегментацией картинки на объекты внутри общей композиции. Сколько нашел, cтолько слоев и сделал. Влиять на это нельзя.
Также можно заметить, что при перегенерации\редактировании слоя-объекта он чуть шевелит остальные "слои", что в принципе малозаметно и в пределах погрешностей редактирующих генераторов. Круто, что тени и отражения отрабатываются с учетом "отношений" между объектами.
В общем у Адобченко теперь своя Нанабанана со своим интерфейсом (это не отменяет того факта что гугловая Нанабанана также присутствует в списке "прочих моделей" уже некоторое время).
На видео заметно, что с текстом вообще-то беда. Но в любом случае, чем больше редактирующих моделей, да еще и с хорошим UI\UX - тем лучше.
@cgevent
😱7❤3🔥3
10-шаговый WAN 2.2 от подписчика.
Интегрирована лора lightx rank 256 bf16
на данный момент есть модели fp16, fp8 и q8_0
https://huggingface.co/StefanFalkok/Wan_2.2_10steps/tree/main
https://huggingface.co/StefanFalkok/Wan_2.2_10steps_GGUF/tree/main
Спасибо @stefanfalkok
#gguf #optimization
Интегрирована лора lightx rank 256 bf16
на данный момент есть модели fp16, fp8 и q8_0
https://huggingface.co/StefanFalkok/Wan_2.2_10steps/tree/main
https://huggingface.co/StefanFalkok/Wan_2.2_10steps_GGUF/tree/main
Спасибо @stefanfalkok
#gguf #optimization
👍17🔥4❤3
LightVAE и LightTAE
Оптимизация VAE wan 2.1 и wan 2.2 от команды LightX2V
— LightVAE - баланс между качеством, скоростью и памятью, потребляет примерно на 50 % меньше памяти, чем официальные модели, работает в 2–3 раза быстрее
— LightTAE - использует минимум памяти (около 0,4 ГБ), работает быстрее официальных VAE более чем в 10 раз и превосходит открытые TAE-модели
Поддерживают различные форматы, включая BF16 и FP8.
HF
ComfyUI-LightVAE
Спасибо @m_franz
#wan22 #optimization
Оптимизация VAE wan 2.1 и wan 2.2 от команды LightX2V
— LightVAE - баланс между качеством, скоростью и памятью, потребляет примерно на 50 % меньше памяти, чем официальные модели, работает в 2–3 раза быстрее
— LightTAE - использует минимум памяти (около 0,4 ГБ), работает быстрее официальных VAE более чем в 10 раз и превосходит открытые TAE-модели
Поддерживают различные форматы, включая BF16 и FP8.
HF
ComfyUI-LightVAE
Спасибо @m_franz
#wan22 #optimization
👍14🔥6
Media is too big
VIEW IN TELEGRAM
Cursor 2.0
В обновлении ИИ-кодера представлена собственная модель-программист — Composer, в 4 раза быстрее аналогичных моделей, умеет эффективно работать с большими кодовыми базами благодаря встроенному семантическому поиску. По метрикам отстает лишь от от GPT-5 и Sonnet 4.5.
— новый интерфейс, ориентированный на работу с агентами, а не с файлами
— появилась возможность запускать множество агентов параллельно без взаимного влияния, используя git worktrees или удалённые машины
— упрощён процесс просмотра изменений, внесённых агентами, и углублённого анализа кода
— добавлен встроенный инструмент для тестирования работы агентов и итеративного улучшения результатов
— добавлен голосовой режим
Скачать
#coding #windows #macos #linux #desktop #vibecoding
В обновлении ИИ-кодера представлена собственная модель-программист — Composer, в 4 раза быстрее аналогичных моделей, умеет эффективно работать с большими кодовыми базами благодаря встроенному семантическому поиску. По метрикам отстает лишь от от GPT-5 и Sonnet 4.5.
— новый интерфейс, ориентированный на работу с агентами, а не с файлами
— появилась возможность запускать множество агентов параллельно без взаимного влияния, используя git worktrees или удалённые машины
— упрощён процесс просмотра изменений, внесённых агентами, и углублённого анализа кода
— добавлен встроенный инструмент для тестирования работы агентов и итеративного улучшения результатов
— добавлен голосовой режим
Скачать
#coding #windows #macos #linux #desktop #vibecoding
👍3
INFINITE AI WEB
Смотрите какая штука. Этак же можно подсунуть кому-нибудь фейковый интернет.
Динамический генератор веб-контента на Gemini 2.0 Flash
Создаёт контент для любого URL-адреса, достаточно ввести путь в браузере. Потом можно кликнуть на какую-нибудь ссылку на этой странице и перейти на новую сгенерированную страницу
#text2site #text2web
Смотрите какая штука. Этак же можно подсунуть кому-нибудь фейковый интернет.
Динамический генератор веб-контента на Gemini 2.0 Flash
Создаёт контент для любого URL-адреса, достаточно ввести путь в браузере. Потом можно кликнуть на какую-нибудь ссылку на этой странице и перейти на новую сгенерированную страницу
#text2site #text2web
👍7😁2😱1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Адоб со своими продуктами превратился в нейрокомбайн и фичи которые показывали на конференции реально сильно меняют индустрию, фото и видео. Продукты адоб с нейронками и без это, как компьютер с интернетом и без.
1. Сегментация звука и разбивка по источникам звука которые можно редактировать.
2. Транскрибция голоса и редактирование отдельных слов с сохранением консистентности голоса говорящего 🤌
3. Изменение наративного повествования с добавлением эмоции в голос (шепот, грусть, уверенность и т.д.)
4. Релайт сцены с предварительным переводом сцены в драфт 3D.
5. Выделение некоторых объектов на видео и перевод их в 3D с текстурами, объекты можно вращать, менять перспективу под ракурс и потом апскейлить, если текстурки немного пожались при искажениях ☠️
6. Удаление источника света который дает засвет в кадр, с изменением самого кадра!
Там еще много чего, и так будете опять на меня орать, что видео много качать😭
Всю трех часовую конфу можно посмотреть на YT
@CGIT_Vines
1. Сегментация звука и разбивка по источникам звука которые можно редактировать.
2. Транскрибция голоса и редактирование отдельных слов с сохранением консистентности голоса говорящего 🤌
3. Изменение наративного повествования с добавлением эмоции в голос (шепот, грусть, уверенность и т.д.)
4. Релайт сцены с предварительным переводом сцены в драфт 3D.
5. Выделение некоторых объектов на видео и перевод их в 3D с текстурами, объекты можно вращать, менять перспективу под ракурс и потом апскейлить, если текстурки немного пожались при искажениях ☠️
6. Удаление источника света который дает засвет в кадр, с изменением самого кадра!
Там еще много чего, и так будете опять на меня орать, что видео много качать
Всю трех часовую конфу можно посмотреть на YT
@CGIT_Vines
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤1🤷♂1👍1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Pomelli
Экспериментальный инструмент от Google, для создания маркетингового контента в едином стиле.
Закидываем на вход сайт компании, на выходе айдентика, цвета, шрифты, логотипы и т д.
Пока доступен в США, Канаде, Австралии и Новой Зеландии, скоро появится и в других странах.
#design
Экспериментальный инструмент от Google, для создания маркетингового контента в едином стиле.
Закидываем на вход сайт компании, на выходе айдентика, цвета, шрифты, логотипы и т д.
Пока доступен в США, Канаде, Австралии и Новой Зеландии, скоро появится и в других странах.
#design
👍4👎2
Forwarded from CG Kung Fu
Инсайды илм!
Как то пропустил я этот момент но оказывается у нас в студии уже как пару месяцев тестируют все департаменты ИИ в работе, смотрят на что способен. Приходило всем письмо кто хочет поучаствовать в тестах, я видимо проспал этот момент.
Вобщем там результаты ахуеть уже, и фхы и локации и пролеты, илм и дисней приобрели чуть ли не все Ии тулзы и тестируем по максимуму выжимая и проверяя до какого уровня можно дотянуть. Я сам не тестил но коллеги говорят там 90% можно получить быстро а остальные 10% страдаешь и ебешься чтоб добить мелочи и правки и мечтаешь в карме это все быстрее сделать.
Восновном в комфи ИИ сидим.
И такой же слух про другие студии уже есть, днег и прочие сидят тыкают ИИ и тестируют шоты и сцены. И наняты какие то супер умы с phd думают как обвесить ИИ контролами.
Не хочется паниковать, но кажется пора…
Уже вижу как это все будет происходит в будущем, зп снижать нам не будут а будут появляться новые вакансии типа Senior AI Generalist или Senior AI VFX, и будут просто более сжатые дедлайны и больше задач на одного спеца. Короче пиздец.
Как то пропустил я этот момент но оказывается у нас в студии уже как пару месяцев тестируют все департаменты ИИ в работе, смотрят на что способен. Приходило всем письмо кто хочет поучаствовать в тестах, я видимо проспал этот момент.
Вобщем там результаты ахуеть уже, и фхы и локации и пролеты, илм и дисней приобрели чуть ли не все Ии тулзы и тестируем по максимуму выжимая и проверяя до какого уровня можно дотянуть. Я сам не тестил но коллеги говорят там 90% можно получить быстро а остальные 10% страдаешь и ебешься чтоб добить мелочи и правки и мечтаешь в карме это все быстрее сделать.
Восновном в комфи ИИ сидим.
И такой же слух про другие студии уже есть, днег и прочие сидят тыкают ИИ и тестируют шоты и сцены. И наняты какие то супер умы с phd думают как обвесить ИИ контролами.
Не хочется паниковать, но кажется пора…
Уже вижу как это все будет происходит в будущем, зп снижать нам не будут а будут появляться новые вакансии типа Senior AI Generalist или Senior AI VFX, и будут просто более сжатые дедлайны и больше задач на одного спеца. Короче пиздец.
💯14🤔5😁3🥴2❤1
Media is too big
VIEW IN TELEGRAM
Emu3.5: Native Multimodal Models are World Learners
Только в начале месяца был генератор-пониматор картинок Emu3, как вот уже Emu3.5. Умеет создавать изображения и последовательности изображений, редактировать изображения, понимать, ориентируется в изображаемом пространстве. Ну и в качестве мозгов для робота сойдет.
Масштабная мультимодальная world-модель, объединяет текст и изображение в единое пространство восприятия
Способна одновременно обрабатывать два потока данных (текстовый и визуальный) и предсказывать их совместное состояние на каждом шаге. Такой подход делает модель ближе к тому, как человек воспринимает и осмысляет мир, связывая язык, зрение и действие в единую систему.
Конкурирует с Gemini 2.5 Flash Image (Nano Banana) в генерации и редактировании изображений и превосходит её в задачах с чередующимися генерациями
Гитхаб
HF
#text2image #text2video #video2video #videoextension
Только в начале месяца был генератор-пониматор картинок Emu3, как вот уже Emu3.5. Умеет создавать изображения и последовательности изображений, редактировать изображения, понимать, ориентируется в изображаемом пространстве. Ну и в качестве мозгов для робота сойдет.
Масштабная мультимодальная world-модель, объединяет текст и изображение в единое пространство восприятия
Способна одновременно обрабатывать два потока данных (текстовый и визуальный) и предсказывать их совместное состояние на каждом шаге. Такой подход делает модель ближе к тому, как человек воспринимает и осмысляет мир, связывая язык, зрение и действие в единую систему.
Конкурирует с Gemini 2.5 Flash Image (Nano Banana) в генерации и редактировании изображений и превосходит её в задачах с чередующимися генерациями
Гитхаб
HF
#text2image #text2video #video2video #videoextension
👍7🔥3❤1
Покойся с миром UDIO
UDIO отключает возможность скачивания треков из-за
На самом деле нет, не с артистами, а с лейблом UMG
Платным подписчикам накидают кредитов, но сказать что юзеры разочарованы — это ничего не сказать. Вот например кто-то создавал в UDIO полную оркестровку для кино и готовит судебный иск
Начиная с 3 ноября дадут 48 часов на скачивание уже созданных треков, завтра объявят точное время.
#news
UDIO отключает возможность скачивания треков из-за
заключения партнерства с артистами
На самом деле нет, не с артистами, а с лейблом UMG
Платным подписчикам накидают кредитов, но сказать что юзеры разочарованы — это ничего не сказать. Вот например кто-то создавал в UDIO полную оркестровку для кино и готовит судебный иск
Начиная с 3 ноября дадут 48 часов на скачивание уже созданных треков, завтра объявят точное время.
#news
😱6😁4😈3⚡1😐1
Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video
Поженили Stable Audio с моделью мира V-JEPA 2 чтобы получить генератор звуковых эффектов к видео
Кода и весов не видать
#research #foley #video2sfx #sfx #video2audio #video2sound
Поженили Stable Audio с моделью мира V-JEPA 2 чтобы получить генератор звуковых эффектов к видео
Кода и весов не видать
#research #foley #video2sfx #sfx #video2audio #video2sound
👍7😁3
Media is too big
VIEW IN TELEGRAM
MiniMax Music 2.0
Заявлено:
- Реалистичный вокал в разных стилях с разными эмоциями
- Поп, джаз, блюз, рок, фолк, дуэты и а капелла
- Качество звука профессионального уровня
- Полные 5-минутные композиции с мультиинструментальным управлением
- Точный контроль музыкальной выразительности
API
Также есть на fal.ai - 0,03 доллара за генерацию
#text2music #music
Заявлено:
- Реалистичный вокал в разных стилях с разными эмоциями
- Поп, джаз, блюз, рок, фолк, дуэты и а капелла
- Качество звука профессионального уровня
- Полные 5-минутные композиции с мультиинструментальным управлением
- Точный контроль музыкальной выразительности
API
Также есть на fal.ai - 0,03 доллара за генерацию
#text2music #music
👍8🥴4❤2😁2