Forwarded from Дневник Технаря
Разраб-сеньор по фактам уничтожил историю нейросетевого Ромео, который нашел себе жену с помощью ChatGPT. Оказалось, что в его рассказе куча дыр и несостыковок — чтобы обучить нейронку до подобного уровня, даже профи нужно потратить несколько месяцев, а то и больше.
Напомним, чувак — обычный выпускник гуманитарного ВУЗа, который не так давно познакомился с ChatGPT. И он заявляет, что на обучение модели у него ушло всего 120 часов. Не чисто и с инфой про фантастические 5 тысяч мэтчей в месяц. Если верить статистике, то дейтинговыми приложухами пользуются около 30 тысяч москвичек, при этом средний мужчина выбивает только 1,8% мэтчей.
Скандалы, интриги, расследования — современная версия.
Телеграм: @dnevteh
Напомним, чувак — обычный выпускник гуманитарного ВУЗа, который не так давно познакомился с ChatGPT. И он заявляет, что на обучение модели у него ушло всего 120 часов. Не чисто и с инфой про фантастические 5 тысяч мэтчей в месяц. Если верить статистике, то дейтинговыми приложухами пользуются около 30 тысяч москвичек, при этом средний мужчина выбивает только 1,8% мэтчей.
Скандалы, интриги, расследования — современная версия.
Телеграм: @dnevteh
👍6😁4🔥1
Нейронавт | Нейросети в творчестве
В InstantID уже везут мультиконтролнет, так он будет брать больше деталей с образцов твиттер
huggingface.co
InstantID - a Hugging Face Space by InstantX
Upload a face image and a prompt to generate a new image that preserves the face identity while applying the prompt's denoscription. Optionally, upload a pose reference image and adjust settings like...
👍4
ImageFX
Генератор картинок от Google с интерфейсом, уже знакомым нам по генератору музыки MusicFX. Ну и правильно, зачем изобретать то что уже есть и работает.
Сначала он придумывает промт или улучшает ваш, потом тырк - получите 4 картинки. Или меньше если цензура сожрет. Скачиваются в разрешении 1536*1536, но это же апскейл, да?
Ах да, придется настроить VPN на США, иначе вы живете в неправильной стране.
#text2image
Генератор картинок от Google с интерфейсом, уже знакомым нам по генератору музыки MusicFX. Ну и правильно, зачем изобретать то что уже есть и работает.
Сначала он придумывает промт или улучшает ваш, потом тырк - получите 4 картинки. Или меньше если цензура сожрет. Скачиваются в разрешении 1536*1536, но это же апскейл, да?
Ах да, придется настроить VPN на США, иначе вы живете в неправильной стране.
#text2image
This media is not supported in your browser
VIEW IN TELEGRAM
SUPIR: Revolutionizing image restoration with cutting-edge large-scale AI
Реставратор-апскейлер изображений, управляемый текстовыми подсказками. По Одри видно, что черты лица искажает-таки. Но все же хорош!
Код
Демо ждем
#upscale #image2image #restoration
Реставратор-апскейлер изображений, управляемый текстовыми подсказками. По Одри видно, что черты лица искажает-таки. Но все же хорош!
Код
Демо ждем
#upscale #image2image #restoration
👍7
Forwarded from Derp Learning
Обнаружена серьезная проблема в VAE StableDiffusion 1.x, 2.x и других, использовавших его латентное пространство.
Суть такова: в идеале, латентное представление должно быть пространственно связано с кодируемой картинкой. То есть пиксели в углу картинки влияют только на тот же угловой кусок латентного вектора.
Но из-за ошибки при обучении KL-F8 VAE, информация обо всей картинке протекает через некоторые локальные пиксели.
То есть если вы измените пару латентных "пикселей" в том самом неудачном месте, вся картинка изменится - например, станет ярче или менее контрастнее. (рис.1) При этом если вы захотите привести картинку по яркости и контрасту к исходной, получите те самые артефакты VAE с "прожогами".
Поэтому уже сама диффузионная модель при обучении в латентном пространстве бракованного VAE учится обходить эту проблему, что приводит этим самым прожогам, и, вероятно, к менее эффективному использованию параметров.
SDXL этой проблеме не подвержен, так как там VAE учили уже нормально, а вот DALLE3, опенсорснутый VAE которого совместим с SD 1.x, страдает теми же прожогами.
Так что если будете учить свою foundation model, учите с нуля вместе с VAE, либо берите SDXL :D
подробнее
@derplearning
Суть такова: в идеале, латентное представление должно быть пространственно связано с кодируемой картинкой. То есть пиксели в углу картинки влияют только на тот же угловой кусок латентного вектора.
Но из-за ошибки при обучении KL-F8 VAE, информация обо всей картинке протекает через некоторые локальные пиксели.
То есть если вы измените пару латентных "пикселей" в том самом неудачном месте, вся картинка изменится - например, станет ярче или менее контрастнее. (рис.1) При этом если вы захотите привести картинку по яркости и контрасту к исходной, получите те самые артефакты VAE с "прожогами".
Поэтому уже сама диффузионная модель при обучении в латентном пространстве бракованного VAE учится обходить эту проблему, что приводит этим самым прожогам, и, вероятно, к менее эффективному использованию параметров.
SDXL этой проблеме не подвержен, так как там VAE учили уже нормально, а вот DALLE3, опенсорснутый VAE которого совместим с SD 1.x, страдает теми же прожогами.
Так что если будете учить свою foundation model, учите с нуля вместе с VAE, либо берите SDXL :D
подробнее
@derplearning
👍3
Forwarded from Арсен_аск
Всем привет, я сейчас собираю табличку со всеми графическими нейросетями, которые генерируют и обрабатывают картинки. Только картинки. Можете поделиться своим опытом и дать коментарии по тому какие нейросети лучше всего и какими вы пользуетесь в работе. Я в замен после того как все структурирую поделюсь общим файликом. Пишите лучше в личку потому что я на многих пабликах оставляю это предложение
👍22😁1
Наш подписчик каталогизирует генераторы картинок. Если хотите ему помочь пишите в ему в личку
Telegram
@
https://news.1rj.ru/str/Ability_2112
🔥8👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Говорят, в Bard подключили Gemini Pro (конкурент GPT-4) и генератор картинок Imagen.
Теперь поддерживается русский язык среди 40 других. Но доступ для России так и не дали, дав его почти всем остальным.
#text2image #assistant #VLM
Теперь поддерживается русский язык среди 40 других. Но доступ для России так и не дали, дав его почти всем остальным.
#text2image #assistant #VLM
👍2
Media is too big
VIEW IN TELEGRAM
Опубликован код контроллера движения MotionDirector
Код
Демо
Демо2
Колаб
#video2video #video2motion #motion2video
Код
Демо
Демо2
Колаб
#video2video #video2motion #motion2video
🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
One-shot Talking Face Generation from Single-speaker Audio-Visual Correlation Learning
Генератор говорящей головы из картинки и аудиофайла
Код
Демо
Колаб
#talkinghead
Генератор говорящей головы из картинки и аудиофайла
Код
Демо
Колаб
#talkinghead
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
На некоммерческом GPU-кластере от camenduru в качестве альфа-теста временно доступен видеогенератор SVD. Рядом такой же бесплатный SD с тремя анимешными чекпойнитами. Пользуйтесь
Сгенерировать изображение в SD
Сгенерировать видео в SVD
#text2image #image2video
Сгенерировать изображение в SD
Сгенерировать видео в SVD
#text2image #image2video
👍4