🕺🕺🕺 Follow Your Pose 💃💃💃Pose-Guided Text-to-Video Generation using Pose-Free Videos
Смотрите какая штука. Поза + текст, на выходе видео. На базе Stablediffusion, разумеется.
Код
Демо, здесь на вход для позы подаем видео
Колаб
#text2video #pose2video
Смотрите какая штука. Поза + текст, на выходе видео. На базе Stablediffusion, разумеется.
Код
Демо, здесь на вход для позы подаем видео
Колаб
#text2video #pose2video
Forwarded from Восемь
Февральский Джонатан Дэвис (Korn). Вроде никуда не выкладывал еще, тем временем почти 2M просмотров.
Есть до чего докопаться, но по срокам было в районе трёх дней на весь клип. Небольшой толпой делали.
Шкатулка вутри и снаружи by Midjourney. На неделе поищу как выглядело "До".
Есть до чего докопаться, но по срокам было в районе трёх дней на весь клип. Небольшой толпой делали.
Шкатулка вутри и снаружи by Midjourney. На неделе поищу как выглядело "До".
MyGPT - Альтернатива ChatGPT с плагинами ChatGPT. Понадбится ваш API ключ от OpenAI
Страничка на producthunt
Го тестить
#chatbot
Страничка на producthunt
Го тестить
#chatbot
для Segment Anything уже наклепали демо спейсов на HF
Вот например Segment Anything + Video + Package для видео
#video2mask #image2mask #image2image
Вот например Segment Anything + Video + Package для видео
#video2mask #image2mask #image2image
Telegram
Нейронавт | Нейросети в творчестве
AI модель от Мета, которая может стать chatGPT3 в мире компьютерного зрения
Возможно это "chatGPT3-moment" для ИИ в области компьютерного зрения, посмотрим. Только что мета выкатила проект SAM - Segment Anything - модель обученная на самом большом датасете…
Возможно это "chatGPT3-moment" для ИИ в области компьютерного зрения, посмотрим. Только что мета выкатила проект SAM - Segment Anything - модель обученная на самом большом датасете…
👍1
Лайфхак для генерации многих картинок с одним и тем же персонажем в Stablediffusion
SD уже знает множество разных людей. Почему бы не скрестить их вместе? A1111 имеет два варианта быстрой замены:
Еще один вариант:
Добавьте в промпт подробную информацию, например, цвет глаз, волос, тип телосложения. Все.
Промпт:
SD уже знает множество разных людей. Почему бы не скрестить их вместе? A1111 имеет два варианта быстрой замены:
[Keanu Reeves:Emma Watson:0.4]
это означает, что на 40-процентной отметке он начнет генерировать Эмму Уотсон вместо Киану Ривза. Таким образом, вы можете скрестить два лица.Еще один вариант:
[Keanu Reeves|Emma Watson|Mike Tyson]
Разделите символы вертикальной линией, и они будут меняться местами на каждом шаге.Добавьте в промпт подробную информацию, например, цвет глаз, волос, тип телосложения. Все.
Промпт:
Close-up comic book illustration of a happy skinny [Meryl Streep|Cate Blanchett|Kate Winslet], 30 years old, with short blonde hair, wearing a red casual dress with long sleeves and v-neck, on a street of a small town, dramatic lighting, minimalistic, flat colors, washed colors, dithering, lineart
Оригинальная инструкция на канале автора
реддит🤔2🔥1
PAIR Diffusion
Замена/стилизация объекта на объект с другой картинки. Ничего путного не получилось. Может, у вас получится?
1) Загрузите исходное изображение.
2) Отметьте один из сегментированных объектов на вкладке "Select Object to Edit".
3) Загрузите эталонное изображение.
4) Отметьте один из сегментированных объектов на вкладке "Select Reference Object" для внешнего видаи.
5) Введите промпт и нажмите кнопку Run.
Код
Демо
#image2image
Замена/стилизация объекта на объект с другой картинки. Ничего путного не получилось. Может, у вас получится?
1) Загрузите исходное изображение.
2) Отметьте один из сегментированных объектов на вкладке "Select Object to Edit".
3) Загрузите эталонное изображение.
4) Отметьте один из сегментированных объектов на вкладке "Select Reference Object" для внешнего видаи.
5) Введите промпт и нажмите кнопку Run.
Код
Демо
#image2image
Media is too big
VIEW IN TELEGRAM
GeNVS: Generative Novel View Synthesis with3D-Aware Diffusion Models
Генератор новых ракурсов по одному изображению от NVIDIA. На основе диффузии
Кода пока нет
#image2video #imageto3d
Генератор новых ракурсов по одному изображению от NVIDIA. На основе диффузии
Кода пока нет
#image2video #imageto3d
🔥1
Ухахатываюсь
Такого добра уже полно. Но это всратое видео отличается наличием сюжета. Да, сюжет старый и проверенный временем. А так - генеративное кино, первые шаги
Такого добра уже полно. Но это всратое видео отличается наличием сюжета. Да, сюжет старый и проверенный временем. А так - генеративное кино, первые шаги
Forwarded from НейроПикчи
Media is too big
VIEW IN TELEGRAM
Всратый ремастер Терминатора с AI
Автор запросил у GPT-4 разбить оригинал на 3-секундные сцены и описать их коротким запросом. Затем он использовал это текст в ModelScope (text-to-video). Озвучку генерил в Uberduck Ai, остальные звуки взяты из ассетов
НейроПикчи / На ютуб
Автор запросил у GPT-4 разбить оригинал на 3-секундные сцены и описать их коротким запросом. Затем он использовал это текст в ModelScope (text-to-video). Озвучку генерил в Uberduck Ai, остальные звуки взяты из ассетов
НейроПикчи / На ютуб
Follow Your Pose
на вход оказывается надо подавать позу. Её можно сделать из видео здесь
на вход оказывается надо подавать позу. Её можно сделать из видео здесь
Метаверсище и ИИще
Кому генеративного 360 и виарчика? Stable Diffusion + ControlNet + Skybox и вот уже рисуем в 3д и получаем почти 3д. Выглядит убойно. В комментах обещают глубину и ещё больше 3д. Яна, тебе понравится. https://twitter.com/BlockadeLabs/status/1634578058287132674…
Залипательные панорамы получаются. Результаты творчества можно скачать
https://skybox.blockadelabs.com/
https://skybox.blockadelabs.com/
👍1
Forwarded from NLP Core Team
Новая SOTA модель для русского языка FRED-T5 доступна на HuggingFace. 🚀🚀🚀
FRED-T5-1.7B
FRED-T5-large (820M)
Модель 1.7B показала лучший скор на RussianSuperGLUE и на текущий момент является SOTA для русского языка.
FRED-T5 основана на базе архитектуры T5. Изначально мы целились в ПРОМопригодность модели при выборе архитектуры. Мы использовали bbpe токенайзер от ruGPT3 (до large размера). Модель обучалась на миксе денойзеров. Денойзеры похожие, как в пейпере UL2. Если не слышали про UL2, то можно тут прочитать. Мы использовали равномерное распределение в задачах span corruption при выборе длины спана. И у нас было 7 денойзеров на каждый вариант семплирования (в UL2 было 3). Модель первую часть тренировки обучалась на 3.5Gb данных (чуть больше 1% от всего сета 300Gb). После она была дообучена на всем сете. Всего модель видела 1.5T токенов.
Вот такие денойзеры:
‘<LM>’:(µ = L/4, r = 0.25)
‘<SC1>’:(µ = 3, r = 0.15)
‘<SC2>’:(µ = 8, r = 0.15)
<SC3>’:(µ = 64, r = 0.15)
‘<SC4>’:(µ = 3, r = 0.5)
‘<SC5>’:(µ = 8, r = 0.5)
‘<SC6>’:(µ = 64, r = 0.5)
µ — это средняя длина спана в токенах, а r— это доля удаленных токенов
Ничего не поняли?) Через пару дней выйдет наша статья на Хабре, где мы расскажем детали.
Как можно юзать модель?
Берем токенизатор GPT2 и модель T5 из HF.
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained(('ai-forever/FRED-T5-1.7B')
Не забывайте руками добавлять ‘</s>’ если он нужен вам. GPT2Tokenizer не делает это по умолчанию.
Советы по файнтюну.
При файнтюне модели можно использовать префиксы денойзеров, которые использовались при обучении ‘<LM>’, ‘<SC1>’,...’<SC6>’. Добавляете в начале текста, подаваемого на энкодер. Если задача LM, то лучше использовать префикс ‘<LM>’, в остальных случаях можно без префикса. При файнтюне на RSG мы не увидели значимых различий в предиктах в зависимости от префикса и без его использования. Если ваша задача похожа на одну из задач денойзинга, то конечно стоит попробовать взять соответствующий префикс. Мы часто при файнтюне используем оптимизатор Adafactor c постоянным lr=0.001. Он чаще дает лучшие результаты чем AdamW.
FRED-T5-1.7B
FRED-T5-large (820M)
Модель 1.7B показала лучший скор на RussianSuperGLUE и на текущий момент является SOTA для русского языка.
FRED-T5 основана на базе архитектуры T5. Изначально мы целились в ПРОМопригодность модели при выборе архитектуры. Мы использовали bbpe токенайзер от ruGPT3 (до large размера). Модель обучалась на миксе денойзеров. Денойзеры похожие, как в пейпере UL2. Если не слышали про UL2, то можно тут прочитать. Мы использовали равномерное распределение в задачах span corruption при выборе длины спана. И у нас было 7 денойзеров на каждый вариант семплирования (в UL2 было 3). Модель первую часть тренировки обучалась на 3.5Gb данных (чуть больше 1% от всего сета 300Gb). После она была дообучена на всем сете. Всего модель видела 1.5T токенов.
Вот такие денойзеры:
‘<LM>’:(µ = L/4, r = 0.25)
‘<SC1>’:(µ = 3, r = 0.15)
‘<SC2>’:(µ = 8, r = 0.15)
<SC3>’:(µ = 64, r = 0.15)
‘<SC4>’:(µ = 3, r = 0.5)
‘<SC5>’:(µ = 8, r = 0.5)
‘<SC6>’:(µ = 64, r = 0.5)
µ — это средняя длина спана в токенах, а r— это доля удаленных токенов
Ничего не поняли?) Через пару дней выйдет наша статья на Хабре, где мы расскажем детали.
Как можно юзать модель?
Берем токенизатор GPT2 и модель T5 из HF.
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained(('ai-forever/FRED-T5-1.7B')
Не забывайте руками добавлять ‘</s>’ если он нужен вам. GPT2Tokenizer не делает это по умолчанию.
Советы по файнтюну.
При файнтюне модели можно использовать префиксы денойзеров, которые использовались при обучении ‘<LM>’, ‘<SC1>’,...’<SC6>’. Добавляете в начале текста, подаваемого на энкодер. Если задача LM, то лучше использовать префикс ‘<LM>’, в остальных случаях можно без префикса. При файнтюне на RSG мы не увидели значимых различий в предиктах в зависимости от префикса и без его использования. Если ваша задача похожа на одну из задач денойзинга, то конечно стоит попробовать взять соответствующий префикс. Мы часто при файнтюне используем оптимизатор Adafactor c постоянным lr=0.001. Он чаще дает лучшие результаты чем AdamW.
huggingface.co
ai-forever/FRED-T5-1.7B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.