Нейросетевые мемы – Telegram
Нейросетевые мемы
3.16K subscribers
5.22K photos
1.03K videos
9 files
791 links
По всем вопросам писать https://news.1rj.ru/str/kostyanchik_94
Download Telegram
Вышла статья про DALL-E 3

Суть в том, что модели вроде Stable Diffusion, Midjourney и далее по списку часто игнорируют слова в промптах. Вызвано это тем, что они обучались на датасетах из пар <картинка, текст>, где текст зачастую брался из HTML-тега alt text. А как мы знаем, далеко не всегда alt text заполняется качественно. А даже если и заполняется, обычно там есть только краткое описание без деталей про фон, свет, текстуру и тд, которые так важны для контроля генерации.

Авторы обучили “некоторую LLM” генерировать текстовые описания к картинкам. Для этого они использовали CLIP-эмбединги картинок и текстовые описания из интернета. Далее они затюнили LLM на небольшом датасете из хороших, очень детальных описаний картинок.

С помощью полученной LLM авторы разметили новый датасет из пар <картинка, текст>, где 95% текстов были сгенерированы, а оставшиеся 5% состояли из alt text для регуляризации. На этом датасете и обучали DALL-E 3. Качество в процессе измеряли с помощью новой метрики CLIP-S.

На инференсе, чтобы не выбиваться из распределения длинных, детализированных промптов, ваш входной промпт “апскейлят” с помощью GPT-4. Условно, вы пишите “кот в сапогах”, а DALL-E 3 на вход получит “кот в слегка потертых сапогах из коричневой кожи, очень детализированный мех, студийное освещение, монохромный фон”.

Про архитектуру самой модели и процесс обучения информации почти нет.

Статья
👍8🔥3💩1👌1
Forwarded from Brodetskyi. Tech, VC, Startups (Andrii Brodetskyi)
Spice must flow
😁7
🙏216🤔4💯2🫡2🖕1
Наткнулся на прикольную штуку. По входному изображению предмата генерирует подобные изображения с разных ракурсов. Может пригодиться в отрисовке персонажей. Есть код и демо. Code: https://github.com/SUDO-AI-3D/zero123plus#zero123-a-single-image-to-consistent-multi-view-diffusion-base-model

Demo: https://huggingface.co/spaces/sudo-ai/zero123plus-demo-space

Models: https://huggingface.co/sudo-ai
👍111
Forwarded from Сиолошная
It's happening 😳

Уже двое суток на Reddit висит пост, где человек утверждает, что его жена по долгу службы видела трейлер GPT-5 GTA VI. Запись не удаляют потому, что автор предоставил доказательства модераторам. Что за доказательства, конечно, не уточняется, но видимо должности жены, из которой следует, что она хотя бы могла видеть.

Трейлер будет выпущен на следующей неделе. Для прошлых игр трейлеры выпускали по вторникам, а ещё за несколько дней до этого в Twitter бывает анонс в виде одной стилизованной картинки. Так что пацаны не спят, пацаны обстановку в Twitter мониторят.
По другим слухам, трейлер должны показать 24го числа, что сходится со словами жены реддитора.

Прочитать детали трейлера можно тут: ссылка
Предполагаемая музыка из трейлера: тык

Картинку нарисовала Dall-E 3
Почему эта тема может быть интересна - писал тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👎8👍3
Forwarded from Сиолошная
😄 в OpenAI появилась новая команда — Preparedness Team, или "Команда Готовности" по-русски.

Команда создана для оценки, прогнозирования и защиты от рисков, связанных с развитым искусственным интеллектом — от современных моделей до AGI. В частности, затрагиваются следующие направления работ:
— индивидуальное убеждение (когда одна модель может смещать точку зрения сотен миллионов пользователей. Такое ни одному политику и не снилось! Но как можно контролировать отсутствие подобных проблем?)
— кибербезопасность
— химические, биологические и ядерные угрозы
— автономная репликация и адаптация (ARA, про это писал раньше вот тут)

Управление катастрофическими рисками, исходящими от передового ИИ, потребует ответов на такие вопросы, как:
— Насколько опасны передовые ИИ-системы (в настоящее время и в будущем), если их неправильно использовать?
— Как мы можем создать надежную систему для мониторинга, оценки, прогнозирования и защиты от опасных возможностей передовых систем?
— Если бы передовые модели были украдены, как злоумышленники могли бы ими воспользоваться?

Исходя из ответов на эти и сотни других вопросов, будет дорабатываться стратегия, понимание, инфраструктура, необходимые для обеспечения безопасности систем.

Команду возглавит Aleksander Madry, профессор MIT, весной взявший паузу для того, чтобы присоединиться к OpenAI. Сейчас открыто 2 вакансии с окладом до $370k в год.

Также OpenAI запускают Preparedness Challenge, где вы можете поделиться своими идеями касательно тем выше, чтобы получить один из десяти призов в виде $25k API-кредитов на дальнейшую работу, а также шанс получить оффер. В решении нужно описать в деталях (но не более 3 страниц A4), как можно использовать украденные модели. А ещё предложить тезисный план экспериментов и рекомендуемые действия для борьбы с подобного рода угрозами. В общем, ждём господ с LessWrong с отправкой десятков идей по уничтожению мира 🤯
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Neural Shit
Танцы 🌚
😁15👍4💯1
Forwarded from e/acc
ChatGPT теперь поддерживает работу с файлами (загружай PDF и задавай вопросы) и совмещение разных модальностей в одном чате (может рисовать картинки, гуглить, писать и исполнять код в одном чате).

Для большинства это шок, потому что их стартап идея была разбита о быструю доставку качественного продукта команды OpenAI с инженерами за $600к в год.

Дабы предупредить будущий шок, давайте сразу обсудим, что ChatGPT выкатит в следующих версиях:

- подключение своих данных: Gmail, slack, WhatsApp
- общение в едином чате, который помнит все о вас. по сути - разговор с ассистентом.
- возможность соединять цепочки действий и плагинов (агенты)
- маркетплейс плагинов с монетизацией и курацией (curation, если на человеческом)
- полная мультимодальность: на вход видео, на выход голос; на вход музыку, на выход видео; на вход excel на выход диаграммы
- проактивный ИИ: сам поймёт когда и что у вас спросить или вам рассказать
- у каждого пользователя персональная модель, обученная на последних годах диалога (каждому — свою LoRA)
👍61
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Мы приближаемся к диффузии в реальном времени. Real-Time-Latent-Consistency-Model.

Я запустил это примерно в 6 fps, просто из браузера со своего телефона, потому что стримится все равно с сервера.

Экспериментируйте с промптами и скидывайте свои результаты в комменты.

Попробуйте тоже, только дайте разрешение камеры на съемку. Сервер правда частенько лежит из-за наплыва желающих, но вы пробьетесь, я знаю!)

Неплохое начало для понедельника.

Тестить тут.
👍3👎1
Forwarded from Сиолошная
😆 Хайзенбургер
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭6
Смешно, конечно - Вика Цыганова (это такая певица из девяностых) и ее муж дали неудачное интервью, а теперь отмазываются, что это была нейросеть азаза ничему не верьте всё дипфейки)))0))

Вике надо было подождать пару лет для таких заявлений.
Пока даже лучшие дипфейк сервисы типа Heygen легко определяются если присмотреться - голос и липсинк там ок, но область рта становится размытой и это видно.
😁4👍1
Наткнулся на канал где довольно подробно расписаны нюансы тренировки лор и прочие расширения для SD, Думаю тем кто хочет научиться без метода проб и ошибок очень поможет. Яндекс переводчик с озвучкой вам в помощь. https://www.youtube.com/@controlaltai
👍5
Forwarded from Stable Diffusion | Text2img
Свежая утренняя Lora на стиль Васи Ложкина 😼 Такая уже была для 1.5, а эта - для SD XL.
Ссылка — https://civitai.com/models/184528/vasily-lozhkin-art-style

Обсудить / пообщаться
Наш чат
@text2image
13