Нейросетевые мемы – Telegram
Нейросетевые мемы
3.16K subscribers
5.22K photos
1.02K videos
9 files
790 links
По всем вопросам писать https://news.1rj.ru/str/kostyanchik_94
Download Telegram
Forwarded from Ai molodca (Dobrokotov)
Забытые игры.

В удивительное время живем. Сегодня с нейросетями играемся, а еще, казалось, вчера палкой крапиву избивали и свинец из аккумов плавили.

Сделал полностью в #Dalle3 (через GPT4). Стилизацию, шрифты, консистетность тащит он, конечно, люто.
🔥153
Forwarded from Stable Diffusion | Text2img
Картинки к следующему посту.
1) Успех по жизни от Automatic1111.
2) Простенький интерфейс нового расширения от nVidia.
3) Как вписать выбор пользовательского U-net в настройки.
4) Выбор пользовательского Ю-нет.
5) Генерации на обычном чекпоинте без оптимизаций ToMe и unCond.
6) Генерации на обычном чекпоинте с оптимизациями ToMe и unCond.
7) Генерации на TensorRT без оптимизаций ToMe и unCond.
Forwarded from Stable Diffusion | Text2img
А вы знаете, что такое успех? Успех, это когда крупнейшие производители видеокарт делают расширение к фанатскому веб-интерфейсу и переписывают драйвер под него 😼
О чём это я, спросите вы? Как всегда - об оптимизациях!
Буквально вчера nVidia выпустила свежие драйвера - 545.84. В них, помимо всяких геймерских штучек, заявлена поддержка TensorRT для Web-UI Automatic1111! Подробно об этом сами разработчики написали вот в этом посте.

Но мы, естественно, на слово им не поверим, а проверим! Что нам понадобится:
1) Свежий драйвер 545.84 (от 17.10.2023) и позже. Качайте с официального сайта.
2) cuDNN v8.9.4 (August 8th, 2023) для CUDA 11.x - необязательный пункт, но для 30хх/40хх серий видеокарт - желательный, многим помогает поднять производительность SD без дополнительных манипуляций. Брать тут, нужна регистрация.
3) Официальный экстенжин для подержки TensorRT от компании nVidia - https://github.com/NVIDIA/Stable-Diffusion-WebUI-TensorRT
4) Ну и сам Автоматик1111, конечно же.

Прежде чем начнём разбирать, немного оговорок о том, как это работает.
Во-первых, что бы использовать TensorRT вам придётся переконвертить U-net каждого используемого чекпоинта самостоятельно и только на своём ПК. Собственно, расширение для этого и предназначено. Ещё одно ограничение - вам придётся жёстко (или диапазонно) задать используемое разрешение и батч-сайз при конвертации. Т.е. выставив разрешение 512х512 при создании Ю-нета на этом новом чекпоинте вы не сможете генерировать 512х768. Придётся делать новую конвертацию под новое расширение. К счастью, делается это всего несколько минут, и также можно выставить динамическое разрешение (от 512 до 768 по любой стороне и батчсайз от 1 до 4, к примеру) - это слегка скажется на скорости генераций и на используемой памяти.
Так же придётся переконвертить Лоры, которые будите использовать в промте.
Во-вторых, на стабильной версии Автоматика1111 (1.6.0) сейчас работают через TensorRT SD 1.5 и 2.1. SDXL через новый способ работает пока только в Dev-ветке. Т.е. либо ставите сейчас дев-ветку и рабоаете с SD XL, либо ждёте новой стабильной версии, а пока работаете с 1.5/2.1.
Будьте внмательны, ключи --medvram и ему подобные вызывают ошибку при конвертации! Запускайте Автоматик без них, когда хотите переконвертить. Генерация с ними работает нормально.

Теперь, если все ограничения вас устраивают, начнём ставить и тестить.
Обновив драйвера рекомендую снести папку venv и поставить заново - во избежание несовместимостей. Так же, если вы качали cuDNN v8.9.4, то после переустановки положите библиотеки из папки \bin\ внутри архива в вашу папку \venv\Lib\site-packages\torch\lib с заменой файлов.
Запустив Автоматик и установив расширение, переходим на новую появившуюся вкладку. Расширение будет устанавливаться и билдиться довольно длительное время, так что не думайте, что всё зависло - просто ждите. В конце установки расширение покажет ошибку - просто пезерапустите SD и всё доустановится само. Выбрав нужный пресет (их можно править "на лету") и чекпоинт, нажимаем конвертацию и ждём. Это тоже займёт время, конвертация на 3060 получилась около 5-7 минут. SD XL в 3 раза дольше.
Далее, что бы использовать получившуюся модель, нужно добавить в "быстрые настройки" используемный U-net, что бы каждый раз не лезть во вкладку основных настроек. Для этого выбираем "Пользовательский интерфейс" и в быстрые настройки вбиваем sd_unet (картинка 3). Сохраняем, перезапускаем интерфейс, и сверху у нас появится новый список, где будут видны, в том числе, и наши переконверченные модели (картинка 4).

Вот, собственно, пожалуй и всё. Больше пояснений есть в самом экстенжине.

Теперь по тестам (ну, для чего-то мы всё это затевали, да? 🤔).
Картинка 5 и 6 - генерации на обычном чекпоинте без оптимизаций и с оптимизациями.
Картинка 7 - те же условия, с новым U-net-ом. ToMe и unCond с ними не работают.

И что у нас в итоге? Ускорение получается в 1.5-2.5 раз от скоростей с оптимизациями! Без оптимизаций там и сравнивать страшно - в 4 раза!

Обсудить / пообщаться
Наш чат
@text2image
🥴3👎1
Forwarded from Канал Ильи
20😁5🥰3🤔1
Вышла статья про DALL-E 3

Суть в том, что модели вроде Stable Diffusion, Midjourney и далее по списку часто игнорируют слова в промптах. Вызвано это тем, что они обучались на датасетах из пар <картинка, текст>, где текст зачастую брался из HTML-тега alt text. А как мы знаем, далеко не всегда alt text заполняется качественно. А даже если и заполняется, обычно там есть только краткое описание без деталей про фон, свет, текстуру и тд, которые так важны для контроля генерации.

Авторы обучили “некоторую LLM” генерировать текстовые описания к картинкам. Для этого они использовали CLIP-эмбединги картинок и текстовые описания из интернета. Далее они затюнили LLM на небольшом датасете из хороших, очень детальных описаний картинок.

С помощью полученной LLM авторы разметили новый датасет из пар <картинка, текст>, где 95% текстов были сгенерированы, а оставшиеся 5% состояли из alt text для регуляризации. На этом датасете и обучали DALL-E 3. Качество в процессе измеряли с помощью новой метрики CLIP-S.

На инференсе, чтобы не выбиваться из распределения длинных, детализированных промптов, ваш входной промпт “апскейлят” с помощью GPT-4. Условно, вы пишите “кот в сапогах”, а DALL-E 3 на вход получит “кот в слегка потертых сапогах из коричневой кожи, очень детализированный мех, студийное освещение, монохромный фон”.

Про архитектуру самой модели и процесс обучения информации почти нет.

Статья
👍8🔥3💩1👌1
Forwarded from Brodetskyi. Tech, VC, Startups (Andrii Brodetskyi)
Spice must flow
😁7
🙏216🤔4💯2🫡2🖕1
Наткнулся на прикольную штуку. По входному изображению предмата генерирует подобные изображения с разных ракурсов. Может пригодиться в отрисовке персонажей. Есть код и демо. Code: https://github.com/SUDO-AI-3D/zero123plus#zero123-a-single-image-to-consistent-multi-view-diffusion-base-model

Demo: https://huggingface.co/spaces/sudo-ai/zero123plus-demo-space

Models: https://huggingface.co/sudo-ai
👍111
Forwarded from Сиолошная
It's happening 😳

Уже двое суток на Reddit висит пост, где человек утверждает, что его жена по долгу службы видела трейлер GPT-5 GTA VI. Запись не удаляют потому, что автор предоставил доказательства модераторам. Что за доказательства, конечно, не уточняется, но видимо должности жены, из которой следует, что она хотя бы могла видеть.

Трейлер будет выпущен на следующей неделе. Для прошлых игр трейлеры выпускали по вторникам, а ещё за несколько дней до этого в Twitter бывает анонс в виде одной стилизованной картинки. Так что пацаны не спят, пацаны обстановку в Twitter мониторят.
По другим слухам, трейлер должны показать 24го числа, что сходится со словами жены реддитора.

Прочитать детали трейлера можно тут: ссылка
Предполагаемая музыка из трейлера: тык

Картинку нарисовала Dall-E 3
Почему эта тема может быть интересна - писал тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👎8👍3
Forwarded from Сиолошная
😄 в OpenAI появилась новая команда — Preparedness Team, или "Команда Готовности" по-русски.

Команда создана для оценки, прогнозирования и защиты от рисков, связанных с развитым искусственным интеллектом — от современных моделей до AGI. В частности, затрагиваются следующие направления работ:
— индивидуальное убеждение (когда одна модель может смещать точку зрения сотен миллионов пользователей. Такое ни одному политику и не снилось! Но как можно контролировать отсутствие подобных проблем?)
— кибербезопасность
— химические, биологические и ядерные угрозы
— автономная репликация и адаптация (ARA, про это писал раньше вот тут)

Управление катастрофическими рисками, исходящими от передового ИИ, потребует ответов на такие вопросы, как:
— Насколько опасны передовые ИИ-системы (в настоящее время и в будущем), если их неправильно использовать?
— Как мы можем создать надежную систему для мониторинга, оценки, прогнозирования и защиты от опасных возможностей передовых систем?
— Если бы передовые модели были украдены, как злоумышленники могли бы ими воспользоваться?

Исходя из ответов на эти и сотни других вопросов, будет дорабатываться стратегия, понимание, инфраструктура, необходимые для обеспечения безопасности систем.

Команду возглавит Aleksander Madry, профессор MIT, весной взявший паузу для того, чтобы присоединиться к OpenAI. Сейчас открыто 2 вакансии с окладом до $370k в год.

Также OpenAI запускают Preparedness Challenge, где вы можете поделиться своими идеями касательно тем выше, чтобы получить один из десяти призов в виде $25k API-кредитов на дальнейшую работу, а также шанс получить оффер. В решении нужно описать в деталях (но не более 3 страниц A4), как можно использовать украденные модели. А ещё предложить тезисный план экспериментов и рекомендуемые действия для борьбы с подобного рода угрозами. В общем, ждём господ с LessWrong с отправкой десятков идей по уничтожению мира 🤯
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2