для Segment Anything уже наклепали демо спейсов на HF
Вот например Segment Anything + Video + Package для видео
#video2mask #image2mask #image2image
Вот например Segment Anything + Video + Package для видео
#video2mask #image2mask #image2image
Telegram
Нейронавт | Нейросети в творчестве
AI модель от Мета, которая может стать chatGPT3 в мире компьютерного зрения
Возможно это "chatGPT3-moment" для ИИ в области компьютерного зрения, посмотрим. Только что мета выкатила проект SAM - Segment Anything - модель обученная на самом большом датасете…
Возможно это "chatGPT3-moment" для ИИ в области компьютерного зрения, посмотрим. Только что мета выкатила проект SAM - Segment Anything - модель обученная на самом большом датасете…
👍1
Лайфхак для генерации многих картинок с одним и тем же персонажем в Stablediffusion
SD уже знает множество разных людей. Почему бы не скрестить их вместе? A1111 имеет два варианта быстрой замены:
Еще один вариант:
Добавьте в промпт подробную информацию, например, цвет глаз, волос, тип телосложения. Все.
Промпт:
SD уже знает множество разных людей. Почему бы не скрестить их вместе? A1111 имеет два варианта быстрой замены:
[Keanu Reeves:Emma Watson:0.4]
это означает, что на 40-процентной отметке он начнет генерировать Эмму Уотсон вместо Киану Ривза. Таким образом, вы можете скрестить два лица.Еще один вариант:
[Keanu Reeves|Emma Watson|Mike Tyson]
Разделите символы вертикальной линией, и они будут меняться местами на каждом шаге.Добавьте в промпт подробную информацию, например, цвет глаз, волос, тип телосложения. Все.
Промпт:
Close-up comic book illustration of a happy skinny [Meryl Streep|Cate Blanchett|Kate Winslet], 30 years old, with short blonde hair, wearing a red casual dress with long sleeves and v-neck, on a street of a small town, dramatic lighting, minimalistic, flat colors, washed colors, dithering, lineart
Оригинальная инструкция на канале автора
реддит🤔2🔥1
PAIR Diffusion
Замена/стилизация объекта на объект с другой картинки. Ничего путного не получилось. Может, у вас получится?
1) Загрузите исходное изображение.
2) Отметьте один из сегментированных объектов на вкладке "Select Object to Edit".
3) Загрузите эталонное изображение.
4) Отметьте один из сегментированных объектов на вкладке "Select Reference Object" для внешнего видаи.
5) Введите промпт и нажмите кнопку Run.
Код
Демо
#image2image
Замена/стилизация объекта на объект с другой картинки. Ничего путного не получилось. Может, у вас получится?
1) Загрузите исходное изображение.
2) Отметьте один из сегментированных объектов на вкладке "Select Object to Edit".
3) Загрузите эталонное изображение.
4) Отметьте один из сегментированных объектов на вкладке "Select Reference Object" для внешнего видаи.
5) Введите промпт и нажмите кнопку Run.
Код
Демо
#image2image
Media is too big
VIEW IN TELEGRAM
GeNVS: Generative Novel View Synthesis with3D-Aware Diffusion Models
Генератор новых ракурсов по одному изображению от NVIDIA. На основе диффузии
Кода пока нет
#image2video #imageto3d
Генератор новых ракурсов по одному изображению от NVIDIA. На основе диффузии
Кода пока нет
#image2video #imageto3d
🔥1
Ухахатываюсь
Такого добра уже полно. Но это всратое видео отличается наличием сюжета. Да, сюжет старый и проверенный временем. А так - генеративное кино, первые шаги
Такого добра уже полно. Но это всратое видео отличается наличием сюжета. Да, сюжет старый и проверенный временем. А так - генеративное кино, первые шаги
Forwarded from НейроПикчи
Media is too big
VIEW IN TELEGRAM
Всратый ремастер Терминатора с AI
Автор запросил у GPT-4 разбить оригинал на 3-секундные сцены и описать их коротким запросом. Затем он использовал это текст в ModelScope (text-to-video). Озвучку генерил в Uberduck Ai, остальные звуки взяты из ассетов
НейроПикчи / На ютуб
Автор запросил у GPT-4 разбить оригинал на 3-секундные сцены и описать их коротким запросом. Затем он использовал это текст в ModelScope (text-to-video). Озвучку генерил в Uberduck Ai, остальные звуки взяты из ассетов
НейроПикчи / На ютуб
Follow Your Pose
на вход оказывается надо подавать позу. Её можно сделать из видео здесь
на вход оказывается надо подавать позу. Её можно сделать из видео здесь
Метаверсище и ИИще
Кому генеративного 360 и виарчика? Stable Diffusion + ControlNet + Skybox и вот уже рисуем в 3д и получаем почти 3д. Выглядит убойно. В комментах обещают глубину и ещё больше 3д. Яна, тебе понравится. https://twitter.com/BlockadeLabs/status/1634578058287132674…
Залипательные панорамы получаются. Результаты творчества можно скачать
https://skybox.blockadelabs.com/
https://skybox.blockadelabs.com/
👍1
Forwarded from NLP Core Team
Новая SOTA модель для русского языка FRED-T5 доступна на HuggingFace. 🚀🚀🚀
FRED-T5-1.7B
FRED-T5-large (820M)
Модель 1.7B показала лучший скор на RussianSuperGLUE и на текущий момент является SOTA для русского языка.
FRED-T5 основана на базе архитектуры T5. Изначально мы целились в ПРОМопригодность модели при выборе архитектуры. Мы использовали bbpe токенайзер от ruGPT3 (до large размера). Модель обучалась на миксе денойзеров. Денойзеры похожие, как в пейпере UL2. Если не слышали про UL2, то можно тут прочитать. Мы использовали равномерное распределение в задачах span corruption при выборе длины спана. И у нас было 7 денойзеров на каждый вариант семплирования (в UL2 было 3). Модель первую часть тренировки обучалась на 3.5Gb данных (чуть больше 1% от всего сета 300Gb). После она была дообучена на всем сете. Всего модель видела 1.5T токенов.
Вот такие денойзеры:
‘<LM>’:(µ = L/4, r = 0.25)
‘<SC1>’:(µ = 3, r = 0.15)
‘<SC2>’:(µ = 8, r = 0.15)
<SC3>’:(µ = 64, r = 0.15)
‘<SC4>’:(µ = 3, r = 0.5)
‘<SC5>’:(µ = 8, r = 0.5)
‘<SC6>’:(µ = 64, r = 0.5)
µ — это средняя длина спана в токенах, а r— это доля удаленных токенов
Ничего не поняли?) Через пару дней выйдет наша статья на Хабре, где мы расскажем детали.
Как можно юзать модель?
Берем токенизатор GPT2 и модель T5 из HF.
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained(('ai-forever/FRED-T5-1.7B')
Не забывайте руками добавлять ‘</s>’ если он нужен вам. GPT2Tokenizer не делает это по умолчанию.
Советы по файнтюну.
При файнтюне модели можно использовать префиксы денойзеров, которые использовались при обучении ‘<LM>’, ‘<SC1>’,...’<SC6>’. Добавляете в начале текста, подаваемого на энкодер. Если задача LM, то лучше использовать префикс ‘<LM>’, в остальных случаях можно без префикса. При файнтюне на RSG мы не увидели значимых различий в предиктах в зависимости от префикса и без его использования. Если ваша задача похожа на одну из задач денойзинга, то конечно стоит попробовать взять соответствующий префикс. Мы часто при файнтюне используем оптимизатор Adafactor c постоянным lr=0.001. Он чаще дает лучшие результаты чем AdamW.
FRED-T5-1.7B
FRED-T5-large (820M)
Модель 1.7B показала лучший скор на RussianSuperGLUE и на текущий момент является SOTA для русского языка.
FRED-T5 основана на базе архитектуры T5. Изначально мы целились в ПРОМопригодность модели при выборе архитектуры. Мы использовали bbpe токенайзер от ruGPT3 (до large размера). Модель обучалась на миксе денойзеров. Денойзеры похожие, как в пейпере UL2. Если не слышали про UL2, то можно тут прочитать. Мы использовали равномерное распределение в задачах span corruption при выборе длины спана. И у нас было 7 денойзеров на каждый вариант семплирования (в UL2 было 3). Модель первую часть тренировки обучалась на 3.5Gb данных (чуть больше 1% от всего сета 300Gb). После она была дообучена на всем сете. Всего модель видела 1.5T токенов.
Вот такие денойзеры:
‘<LM>’:(µ = L/4, r = 0.25)
‘<SC1>’:(µ = 3, r = 0.15)
‘<SC2>’:(µ = 8, r = 0.15)
<SC3>’:(µ = 64, r = 0.15)
‘<SC4>’:(µ = 3, r = 0.5)
‘<SC5>’:(µ = 8, r = 0.5)
‘<SC6>’:(µ = 64, r = 0.5)
µ — это средняя длина спана в токенах, а r— это доля удаленных токенов
Ничего не поняли?) Через пару дней выйдет наша статья на Хабре, где мы расскажем детали.
Как можно юзать модель?
Берем токенизатор GPT2 и модель T5 из HF.
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained(('ai-forever/FRED-T5-1.7B')
Не забывайте руками добавлять ‘</s>’ если он нужен вам. GPT2Tokenizer не делает это по умолчанию.
Советы по файнтюну.
При файнтюне модели можно использовать префиксы денойзеров, которые использовались при обучении ‘<LM>’, ‘<SC1>’,...’<SC6>’. Добавляете в начале текста, подаваемого на энкодер. Если задача LM, то лучше использовать префикс ‘<LM>’, в остальных случаях можно без префикса. При файнтюне на RSG мы не увидели значимых различий в предиктах в зависимости от префикса и без его использования. Если ваша задача похожа на одну из задач денойзинга, то конечно стоит попробовать взять соответствующий префикс. Мы часто при файнтюне используем оптимизатор Adafactor c постоянным lr=0.001. Он чаще дает лучшие результаты чем AdamW.
huggingface.co
ai-forever/FRED-T5-1.7B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Grounded-Segment-Anything
Авторы мощного детектора объектов Grounding DINO поженили его с Segment Anything что позволяет сегментировать что угодно по текстовому запросу.
Мало того, сейчас они прикручивают все это дело к Stable Diffusion. А это технологичное редактирование изображений через точное сегментирование объектов. В репозитории уже есть демо и ноутбук потыркать как все работает
Код
#image2image #image2mask #segmentation
Авторы мощного детектора объектов Grounding DINO поженили его с Segment Anything что позволяет сегментировать что угодно по текстовому запросу.
Мало того, сейчас они прикручивают все это дело к Stable Diffusion. А это технологичное редактирование изображений через точное сегментирование объектов. В репозитории уже есть демо и ноутбук потыркать как все работает
Код
#image2image #image2mask #segmentation
Форк automatic1111
Автор активнее фиксит ошибки
Список отличий
-Новые обработчики ошибок и исключений
-Обновлены библиотеки Python до последних известных совместимых версий, например accelerate, transformers, numpy и т.д.
-Включает в себя индивидуальную конфигурацию системы и опций, например, сэмплеры, масштабаторы и т.д.
-Не полагается на ускорение, поскольку оно влияет только на распределенные системы
-Оптимизированный запуск
Веб-сервер Gradio будет инициализирован намного раньше, загрузка модели которого выполняется в фоновом режиме
Более быстрая загрузка модели плюс возможность резервного копирования поврежденных моделей
-Включает файлы конфигурации SD2
-Использует упрощенную структуру папок, например /train, /outputs/*, /models/* и т.д.
-Улучшенные шаблоны обучения
-Встроенные LoRa, LyCORIS, настраиваемая диффузия, тренировка Dreambooth
Автор активнее фиксит ошибки
Список отличий
-Новые обработчики ошибок и исключений
-Обновлены библиотеки Python до последних известных совместимых версий, например accelerate, transformers, numpy и т.д.
-Включает в себя индивидуальную конфигурацию системы и опций, например, сэмплеры, масштабаторы и т.д.
-Не полагается на ускорение, поскольку оно влияет только на распределенные системы
-Оптимизированный запуск
Веб-сервер Gradio будет инициализирован намного раньше, загрузка модели которого выполняется в фоновом режиме
Более быстрая загрузка модели плюс возможность резервного копирования поврежденных моделей
-Включает файлы конфигурации SD2
-Использует упрощенную структуру папок, например /train, /outputs/*, /models/* и т.д.
-Улучшенные шаблоны обучения
-Встроенные LoRa, LyCORIS, настраиваемая диффузия, тренировка Dreambooth
Метовский Segment Anything уже прикрутили к Automatic1111
расширение здесь: https://github.com/continue-revolution/sd-webui-segment-anything
Пока оно работает только через и2и и помогает сделать чёткую маску выделения за считанные секунды.
Работает оно просто, на странице есть небольшое видео. Ставите расширение, скачиваете веса отсюда (https://github.com/facebookresearch/segment-anything#model-checkpoints). Трое весов отличаются по размеру и "пониманию". vit_h - базовые веса, vit_l - полегче, vit_b - самые мелкие и скромные. Класть чекпоинты сюда: \extensions\sd-webui-segment-anything\models\sam
Сначала заходите в и2и, подвкладка инпанит аплоад (маска) и сразу ставите - зарисовывать только по маске. Это затем, что с текущим градио не на всех браузерах адекватно отработает потом кнопка перекидывания информации - и вы этот блок можете просто не увидеть. Далее, разворачиваем блок расширения, закидываем в него картинку. В промт пишем то, что хотим найти на картинке. В блоке расширения ставим две точки: Левой клавишей - где это будем искать, правой - где нет того, что мы ищем (позитив и негатив, своего рода). Следом выбираем номер понравившейся маски, ставим галочку. Крутим в самый верх и нажимаем кнопочку перекидывания параметров (кстати, это стандартная кнопка в Автоматике, а вы знали это? 😼). Эти манипуляции закинут нам картинку и её маску по нужным местам, но в моём браузере этого невидно (возможно, ошибки Градио-интерфейса), однако это работает. Не забудьте обязательно переключиться на подвкладку инпаинт аплоад, потому что нажатие перекидывания параметров перекинет нас на обычное и2и.
Дальше обычный воркфлоу: правим промт, выставляем параметры, генерим.
Инструкцию стырил там
расширение здесь: https://github.com/continue-revolution/sd-webui-segment-anything
Пока оно работает только через и2и и помогает сделать чёткую маску выделения за считанные секунды.
Работает оно просто, на странице есть небольшое видео. Ставите расширение, скачиваете веса отсюда (https://github.com/facebookresearch/segment-anything#model-checkpoints). Трое весов отличаются по размеру и "пониманию". vit_h - базовые веса, vit_l - полегче, vit_b - самые мелкие и скромные. Класть чекпоинты сюда: \extensions\sd-webui-segment-anything\models\sam
Сначала заходите в и2и, подвкладка инпанит аплоад (маска) и сразу ставите - зарисовывать только по маске. Это затем, что с текущим градио не на всех браузерах адекватно отработает потом кнопка перекидывания информации - и вы этот блок можете просто не увидеть. Далее, разворачиваем блок расширения, закидываем в него картинку. В промт пишем то, что хотим найти на картинке. В блоке расширения ставим две точки: Левой клавишей - где это будем искать, правой - где нет того, что мы ищем (позитив и негатив, своего рода). Следом выбираем номер понравившейся маски, ставим галочку. Крутим в самый верх и нажимаем кнопочку перекидывания параметров (кстати, это стандартная кнопка в Автоматике, а вы знали это? 😼). Эти манипуляции закинут нам картинку и её маску по нужным местам, но в моём браузере этого невидно (возможно, ошибки Градио-интерфейса), однако это работает. Не забудьте обязательно переключиться на подвкладку инпаинт аплоад, потому что нажатие перекидывания параметров перекинет нас на обычное и2и.
Дальше обычный воркфлоу: правим промт, выставляем параметры, генерим.
Инструкцию стырил там
Telegram
Нейронавт | Нейросети в творчестве
AI модель от Мета, которая может стать chatGPT3 в мире компьютерного зрения
Возможно это "chatGPT3-moment" для ИИ в области компьютерного зрения, посмотрим. Только что мета выкатила проект SAM - Segment Anything - модель обученная на самом большом датасете…
Возможно это "chatGPT3-moment" для ИИ в области компьютерного зрения, посмотрим. Только что мета выкатила проект SAM - Segment Anything - модель обученная на самом большом датасете…
ChatGPT прикрутили к SIMS
В игре 25 персонажей каждый из которых наделили мотивацией и еще какими-то личными настройками.
В итоге ИИшные человечки социализируются и взимодействуют даже порой лучше чем настоящие.
Например, собрались и отметили вместе День Валентина.
Куда еще прикрутят ChatGPT в следующий раз?
Посмотреть демо
В игре 25 персонажей каждый из которых наделили мотивацией и еще какими-то личными настройками.
В итоге ИИшные человечки социализируются и взимодействуют даже порой лучше чем настоящие.
Например, собрались и отметили вместе День Валентина.
Куда еще прикрутят ChatGPT в следующий раз?
Посмотреть демо
День плагинов автоматика.
Sadtalker прикрутили плагином к Automatic1111
Автоматик сам пока еще его не находит, для установки ему нужно подсунуть ссылку https://github.com/Winfredy/SadTalker
Там же инструкция по установке в автоматик. Надо будет обновить автоматик до последней версии, скачать чекпойнты и прочие файлы модели и прописать аргументы запуска.
Убедитесь что все файлы скачались и лежат в нужной папке!
Sadtalker появится в отдельной вкладке.
Если у вас что-то не работает, в репозитории по ссылке на вкладке issues можно поискать решение
Sadtalker прикрутили плагином к Automatic1111
Автоматик сам пока еще его не находит, для установки ему нужно подсунуть ссылку https://github.com/Winfredy/SadTalker
Там же инструкция по установке в автоматик. Надо будет обновить автоматик до последней версии, скачать чекпойнты и прочие файлы модели и прописать аргументы запуска.
Убедитесь что все файлы скачались и лежат в нужной папке!
Sadtalker появится в отдельной вкладке.
Если у вас что-то не работает, в репозитории по ссылке на вкладке issues можно поискать решение
Нейронавт | Нейросети в творчестве
День плагинов автоматика. Sadtalker прикрутили плагином к Automatic1111 Автоматик сам пока еще его не находит, для установки ему нужно подсунуть ссылку https://github.com/Winfredy/SadTalker Там же инструкция по установке в автоматик. Надо будет обновить автоматик…
Если вы ищете где похвастаться своими генерациями Sadtalker, делитесь здесь)
Нейронавт | Нейросети в творчестве
Метовский Segment Anything уже прикрутили к Automatic1111 расширение здесь: https://github.com/continue-revolution/sd-webui-segment-anything Пока оно работает только через и2и и помогает сделать чёткую маску выделения за считанные секунды. Работает оно…
Как-то так
Замена платья через Segment Anything
Замена платья через Segment Anything