Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Forwarded from DLStories
eDiffi: новая SOTA text-to-image диффузионная модель от Nvidia, которая также хорошо умеет в style transfer и генерацию картинок по скетчам (!)

Авторы eDiff пристально посмотрели на то, как происходит генерация картинок диффузионными моделями, и нашли две интересные особенности. Эти особенности они затем использовали для построения более эффективной архитектуры модели.
Вот что за особенности:

1️⃣ Как мы знаем, диффузия генерирует картинку шаг за шагом, на каждом шаге чуть уменьшая зашумленность картинки. Ребята из Nvidia внимательно посмотрели на этот процесс и заметили, что на первых шагах алгоритма (когда картинка представляет из себя практически гауссов шум), значения матрицы cross-attention между пикселями картинки и эмбеддингами текста довольно большие. Т.е. это значит, что на первых шагах алгоритм сильно опирается на текст, чтобы сгенерировать следующую картинку. А на последних шагах алгоритма, когда картинка уже почти готова и шума осталось мало, значения матрицы cross-attention малы. Это значит, что модель практически игнорирует текст на этом этапе.
Это звучит логично: на первых шагах входящая картинка — это просто случайный шум, и модель “смотрит” на текст, чтобы понять, что вообще генерировать. А на последних шагах все объекты на изображении уже расставлены, и задача модели — добиться визуальной красоты, убрать малый остаточный шум, причесать детали.

В связи с этим авторы предположили, что иметь лишь одну модель для всех стадий генерации картинки из шума не оптимально. Она ведь, по сути, разные задачи на разных этапах решает. Поэтому они педложили сделать три модели: одну для начальных этапов (когда нужно сильно смотреть на текст), вторую для середины процесса, третью — для финала (когда нужно “причесывать детали”).
Чтобы сильно не увеличивать время обучения (три модели обучать дороже), авторы сначала обучают одну модель, как обычно это и делается, и затем делят ее на три и немного дообучают их каждую для своей стадии.

Эта идея позволяет получить SOTA диффузию на датасете COCO 2014, и обойти Imagen, Parti, Stable Diffusion и другие модели.

2️⃣ Идея номер два связана с то, каким образом получаются эмбеддинги текста. Мы помним, что DALL-E 2 использует эмбеддинги предобученного CLIP, а Imagen и многие другие модели — эмбеддинги из языковой модели T5 (тоже предобученной). Переход от CLIP к T5, казалось бы, улучшил результаты: детали генерируемых картинок стали более четкими, на них даже начал появляться осмысленный текст.
Однако не все так однозначно (эта фраза вызвала нервую улыбку, простите)). Похоже, эмбеддинги CLIP и T5 каждый по-своему хороши. Диффузия с эмбеддингами CLIP позволяет получить более “цельно” выглядящую картинку, все детили которой хорошо согласуются между собой. Эмбеддинги T5 же делают детали картинки более проработанными.

Идея тогда проста: обучать сеть на обоих эмбедднгах сразу. И это помогает: картинки становятся в целом еще лучшего визуального качества. Метрика FID-CLIP для такой модели также выше, чем для моделей, обученных только с CLIP или только с T5.

Вот такая общая идея модели. Лакончично и практично. Но и это еще не все: авторы также придумали, как делать классный style transfer и генерацию изображений по скетчам. Об этом будут следующие посты⬇️

📃 Статья
👍211👎1
Forwarded from russiansinlondon
WHY IS THIS MY FOR YOU PAGE 😂
😁11🤔5🍓41💩1
big brain, small dick
👍36😢7🤮3🍾1
каждый учит как он хочет - сказали ребята из nvidia и выпустили а100800 только для китайского рынка

Забавно что это 1 в 1 а100 с той лишь разницей что зарезали шину между картами, те теперь на них нельзя построить нормальный кластер - не хватит скорости передачи данных между картами.


Для тех кто смотрит с середины - для Китая ввели санкции на поставке железок для кластеров

the verge
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia выложили в open source свой физический движок
github
🤔137👍1
Самый важный вопрос: как связан recsys, nlp и причем тут agi
🤔6
This media is not supported in your browser
VIEW IN TELEGRAM
Yes, I am 2004
Yes, I am senior quantitative researcher
👍31🤡17😁5
юххху, h=2
🥰26🏆13🍾6🤩2🤮2👍1🤡1😈1
Forwarded from Towards NLP🇺🇦
Stanford Seminar — ML Explainability

If you want to be introduced into explainability topic, there is a cool seminar from Stanford! From the basics to the new horizons of research in this field.

Videos on Youtube: link
Slides: link
🔥6💩3
Пятница котаны
❤‍🔥35😢1
#чтивонаночь

Contrastive text generation

Deep
Mind выпустили работу с соответствующим названием,

Суть этого метода генерации в том что вероятность следующго токена определяется по формуле p_token + a(косинусное расстояние ака соответствие предыдущему контексту по эмбедингам)

В целом это позволяет генерировать более связанные контекстно длинные тексты, прм этом не используя тяжёлые доп модели вроде pplm.

🤗Hf blogpost
🖥GitHub
Paper
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥9
Forwarded from Anastasia Khveschuk
Всем привет! Мои друзья делают благотворительный хакатон: можно оформить кейс себе и здорово помочь другим.

Leave2Live — это двухдневный хакатон для помощи беженцам и релокантам. Участники будут создавать IT-продукты, чтобы облегчить жизнь людей на новом месте.

Подробнее на сайте → https://l2lhackathon.com/

Рынку нужны новые решения, поэтому ждем любых неравнодушых спецов: кодеров, ноу-кодеров, дизайнеров, продукт-менеджеров и не только. Можно податься одному или сразу командой 2-5 человек.

📍Онлайн, 19–20 ноября.

Для этого чата сделали отдельную форму для заявок: кликать сюда.
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
Человек выкладывается на работе, а не эти ваши нейронки обучает
🤣51🔥12👍6😁1😱1🎉1
Love. Death. Transformers.
MagicMix: Semantic Mixing with Diffusion Models (кажется 8) работа на тему: а давайте как нибудь подумаем как редактировать картинки. в чем идея этой: давайте зашумим картинку, затем возьмем и сгенериуем начало шума картинки для нужного концепта, затем шумы…
Мне было скучно и я закодил MagicMix ака человеческое редактирование картинок текстом, кормишь картинку, кормишь prompt, получаешь отборный кринж;

collab

Если вы хотите больше такого - поддержите мой boosty
👍12
Дорогие подписчики, помогите найти много аниме картинок в 512*512 и выше на одном сайте/тг канале.

Спасибо
🔥20🖕1
Forwarded from AbstractDL
MinD-Vis: диффузия для чтения мыслей

Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).

Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!

Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.

Статья, GitHub, блог
🔥33🤯11🤨2👍1😁1🤩1
Forwarded from AI для Всех
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 "Galactica". Большая языковая модель для науки.

Galactica может обобщать научную литературу, решать математические задачи, генерировать статьи Wiki, писать научный код, аннотировать молекулы и белки и многое другое.

Модель была выпущена компанией Meta (в принципе, с такой моделью действительно можно уволить часть сотрудников).

Попробовал ее на своей довольно специфичной области - работает на ура!

🪐 Онлайн демо
🫣 Модель
🦭 Статья
👍235🤔1
#чтивонаночь

Versatile Diffusion или диффузия 3в1

Идея в том чтобы используя пошаренные веса внутри одной модели, брать разные пары encoder-decoder и решать фактически любые таски (img2img, text2text).

Авторы называют это фреймворком и предлагают допиливать свою модель под новые модальности, 3d, аудио и тд, для этого нужно взять clip_like энкодер и vae_like декодер, а затем поучить это в связке

Sota ожидаемо не бьется, но выглядит очень красиво

🤗space
🖥github
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
This media is not supported in your browser
VIEW IN TELEGRAM
Четверг котаны, 1 день остался
🌚28🌭17👍6💩5🔥4🍓1
Ребят я недавно сам в Европу переехал не могу понять где в Wolt/Gettir/Uber Eats найти такое в Москве заказывал на завтрак а тут нет помогите найти пожалуйста

Украдено из вастрик.трактор
😁55🖕6💩4🤮1🤡1💯1