Stable Cascade
Stability AI выпустили новую модель генерации изображений на основе архитектуры Würstchen
Быстрее и лучше SDXL.
Поддержка Лора, контролнет
Успели уже потестить пока я был в анабиозе? Хвастайтесь в чате
Гитхаб
Колаб
Однокликовый инсталлятор
Расширение для A1111/Forge
Веса
#text2image
Stability AI выпустили новую модель генерации изображений на основе архитектуры Würstchen
Быстрее и лучше SDXL.
Поддержка Лора, контролнет
Успели уже потестить пока я был в анабиозе? Хвастайтесь в чате
Гитхаб
Колаб
Однокликовый инсталлятор
Расширение для A1111/Forge
Веса
#text2image
👍5🤷♂2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Теперь немного диванных мыслей. И ссылка на новую статью, которая вышла в процессе написания поста.
Если у кого-то есть надежда типа "а мы вот умеем из картинок видео делать, а не только из текста", то нет. Надежды. GPT-V пережует любую картинку на входе, превратит ее промпт, удобрит с помощью GPT-4, сам найдет динамику и предложит вам десяток вариантов операторской работы с этой картинкой (вышла статья - подтвердили эту фичу).
Интересно будет посмотреть на варианты контроля движения кроме текстовых промптов. Судя по Далле3 OpenAI не сильно упираются в продуктовые фичи и всякие контролнеты, так что моушен брашей можно и не дождаться.
Цензура наверняка будет лютой. На видео примерах - никаких людей. Так что у части стартапов затеплилась надежда. Говорящие головы будут жить какое-то время. А дух дипфейка будет жутко пугать OpenAI.
Судя по примерам, в обучении использовалось много синтетики. Типа видео из игровых движков. Поглядите на пролеты камеры, особенно в городских локациях. Это касается некоторых примеров. На других этого нет.
Одна минута of high definition video - это как вообще?. Там где любые видео-генераторы разрывает в клочья после 8 секунд, тут ОДНА МИНУТА.
А еще уже вышла статья. И там примеры за гранью нравственности.
Оно умеет продолжать видео по времени назад и вперед.
"Как и в DALL-E 3, мы также используем GPT для превращения коротких подсказок пользователя в длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora генерировать высококачественные видеоролики, которые точно следуют подсказкам пользователя."
Video-to-video editing
В общем оно умеет все и даже картинки в 2048х2048
Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.
https://openai.com/research/video-generation-models-as-world-simulators
Надо поспать, или это все уже сон?
Если у кого-то есть надежда типа "а мы вот умеем из картинок видео делать, а не только из текста", то нет. Надежды. GPT-V пережует любую картинку на входе, превратит ее промпт, удобрит с помощью GPT-4, сам найдет динамику и предложит вам десяток вариантов операторской работы с этой картинкой (вышла статья - подтвердили эту фичу).
Интересно будет посмотреть на варианты контроля движения кроме текстовых промптов. Судя по Далле3 OpenAI не сильно упираются в продуктовые фичи и всякие контролнеты, так что моушен брашей можно и не дождаться.
Цензура наверняка будет лютой. На видео примерах - никаких людей. Так что у части стартапов затеплилась надежда. Говорящие головы будут жить какое-то время. А дух дипфейка будет жутко пугать OpenAI.
Судя по примерам, в обучении использовалось много синтетики. Типа видео из игровых движков. Поглядите на пролеты камеры, особенно в городских локациях. Это касается некоторых примеров. На других этого нет.
Одна минута of high definition video - это как вообще?. Там где любые видео-генераторы разрывает в клочья после 8 секунд, тут ОДНА МИНУТА.
А еще уже вышла статья. И там примеры за гранью нравственности.
Оно умеет продолжать видео по времени назад и вперед.
"Как и в DALL-E 3, мы также используем GPT для превращения коротких подсказок пользователя в длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora генерировать высококачественные видеоролики, которые точно следуют подсказкам пользователя."
Video-to-video editing
В общем оно умеет все и даже картинки в 2048х2048
Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.
https://openai.com/research/video-generation-models-as-world-simulators
Надо поспать, или это все уже сон?
Openai
Video generation models as world simulators
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates…
👍6❤1
🤯9🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
А знаете что?
Это ж если ты застрял на труднопроходимой миссии, можно будет сгенерить себе видеогайд по прохождению. А можно будет включить ИИ-ассистента который поможет пройти особо ацкого босса
На видео - сгенерированное Sora видео геймплея в майнкрафт
#оффтоп #sora
Это ж если ты застрял на труднопроходимой миссии, можно будет сгенерить себе видеогайд по прохождению. А можно будет включить ИИ-ассистента который поможет пройти особо ацкого босса
На видео - сгенерированное Sora видео геймплея в майнкрафт
#оффтоп #sora
🔥3🤔3
Нейронавт | Нейросети в творчестве
А знаете что? Это ж если ты застрял на труднопроходимой миссии, можно будет сгенерить себе видеогайд по прохождению. А можно будет включить ИИ-ассистента который поможет пройти особо ацкого босса На видео - сгенерированное Sora видео геймплея в майнкрафт…
Профессиональные геймеры смогут делать вид что работают
😁2
This media is not supported in your browser
VIEW IN TELEGRAM
HeadStudio: Text to Animatable Head Avatarswith 3D Gaussian Splatting
Говорящие головы с мимикой на гауссианах.
Прибитые гвоздями глаза при активной мимике выглядят устрашающе.
Код ждем
#text2video #talkinghead #humanavatar #gaussian
Говорящие головы с мимикой на гауссианах.
Прибитые гвоздями глаза при активной мимике выглядят устрашающе.
Код ждем
#text2video #talkinghead #humanavatar #gaussian
😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 1.5
Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)
- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных
Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона.Думаю, схитрили, там разрешение видео небольшое
#MoE #multimodal #VLM #assistant
Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)
- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных
Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона.
#MoE #multimodal #VLM #assistant
👍5🔥3
Automatic1111 SD Webui Notebooks for Paperspace and Runpod
Не колабом единым. Вот вам блокноты для запуска SD Webui на Paperspace и Runpod
Гитхаб
Инструкция
Реддит
#tools #sd #text2image
Не колабом единым. Вот вам блокноты для запуска SD Webui на Paperspace и Runpod
Гитхаб
Инструкция
Реддит
#tools #sd #text2image
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
Почему про это никто не пишет?
Лет 5-6 назад была у гугла подобная штука,но там можно было менять между собой 4-5 инструментов. А тут свободное редактирование музыки текстовыми указаниями. Можно менять инструменты, жанр, настроение.
Одна беда - негде попробовать.
#music2music #musicediting
Почему про это никто не пишет?
Лет 5-6 назад была у гугла подобная штука,но там можно было менять между собой 4-5 инструментов. А тут свободное редактирование музыки текстовыми указаниями. Можно менять инструменты, жанр, настроение.
Одна беда - негде попробовать.
#music2music #musicediting
❤6
This media is not supported in your browser
VIEW IN TELEGRAM
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting
Генерация комплексных 3D сцен на гауссианах
Код ждем
#textto3d #text2scene
Генерация комплексных 3D сцен на гауссианах
Код ждем
#textto3d #text2scene
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Magic-Me: Identity-Specific Video Customized Diffusion
Генерация видео с персонализацией.
Угадаете от кого? отByteDance конечно
Код
Колаб
Демо
#text2video #personalization
Генерация видео с персонализацией.
Угадаете от кого? от
Код
Колаб
Демо
#text2video #personalization
👍1😁1
Forwarded from Kali Novskaya (Tatiana Shavrina)
This media is not supported in your browser
VIEW IN TELEGRAM
🌸Sora: что нам рассказали 🌸
Добрались руки прочитать внимательно technical report Sora.
🟣 TLDR;
— никаких деталей про данные, но они "internet scale": как минимум упоминаются видеоигры
— почти ничего детального про архитектуру, но много ссылок на статьи по диффузионным трансформерам и основные идеи объяснены ненаучным языком
— очень большое внимание инжинирингу данных, аугментации, составлению синтентических датасетов, инфинитлупов и нарезок
— масштабирование компьюта все еще вытаскивает качество колоссально
С помощью diffusion transformer'а Sora можно
— генерировать видео по тексту (промпту)
— анимировать картинку с промптом
— соединить два видео (inpainting для видео по сути)
🟣 Основные моменты
— Заигрывание с emergent capabilities (опять): за счет масштабирования компьюта и эффективного представления данных в виде токенов и патчей удалось выучить
1) консистентность 3D представления сцен, даже во время движения камеры
2) консистентность объектов в видео на протяжении длительного времени
3) взаимодейтсвие объектов друг с другом.
— Промпты пишутся за вас: затравки, как и в Dalle 3, дописываются и проходят улучшайзинг за вас, то есть, если вы запросите
— Закрытость науки: Статью даже не запарились делать, просто сделали блогпост со сносками на статьи. Могли бы и его не делать уже, в принципе. Видимо, реакция на релиз Matryoshka embeddings подогрела.
Добрались руки прочитать внимательно technical report Sora.
— никаких деталей про данные, но они "internet scale": как минимум упоминаются видеоигры
— почти ничего детального про архитектуру, но много ссылок на статьи по диффузионным трансформерам и основные идеи объяснены ненаучным языком
— очень большое внимание инжинирингу данных, аугментации, составлению синтентических датасетов, инфинитлупов и нарезок
— масштабирование компьюта все еще вытаскивает качество колоссально
С помощью diffusion transformer'а Sora можно
— генерировать видео по тексту (промпту)
— анимировать картинку с промптом
— соединить два видео (inpainting для видео по сути)
— Заигрывание с emergent capabilities (опять): за счет масштабирования компьюта и эффективного представления данных в виде токенов и патчей удалось выучить
1) консистентность 3D представления сцен, даже во время движения камеры
2) консистентность объектов в видео на протяжении длительного времени
3) взаимодейтсвие объектов друг с другом.
— Промпты пишутся за вас: затравки, как и в Dalle 3, дописываются и проходят улучшайзинг за вас, то есть, если вы запросите
"белый котенок", на самом деле на вход пойдет "белый котенок sitting inthe sunlight, digital art, highly detailed, 8k" — что улучшает качество большинства генераций, но ухудшает контроль пользователя над ней.— Закрытость науки: Статью даже не запарились делать, просто сделали блогпост со сносками на статьи. Могли бы и его не делать уже, в принципе. Видимо, реакция на релиз Matryoshka embeddings подогрела.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥2
А теперь совсем #оффтоп
Вы много в чем разбираетесь, а я об этом раньше не думал как-то.
Накидайте рекомендаций по электробритве для сурового мужского лица, а то моя сдохла
#neuronaut_art
Вы много в чем разбираетесь, а я об этом раньше не думал как-то.
Накидайте рекомендаций по электробритве для сурового мужского лица, а то моя сдохла
#neuronaut_art
😁6👎3❤1👍1🔥1
X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model
Адаптер для использования плагинов (Lora, Controlnet) от SD1.5 с апгрейженными моделями (SD 2.1, SDXL)
Код
Туториал (Реддит)
#tools #sd
Адаптер для использования плагинов (Lora, Controlnet) от SD1.5 с апгрейженными моделями (SD 2.1, SDXL)
Код
Туториал (Реддит)
#tools #sd
👍5🔥3