Derp Learning – Telegram
Derp Learning
13K subscribers
3.17K photos
916 videos
9 files
1.32K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
Forwarded from Заработайте со мной 💰SCAM (Nikita (pronouns: Your Majesty) Kolmogorov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Пока все носятся с Zero-Shot CLIP+<insert any gan here>, я решил поковырять очередную итерацию моделей на основе стохастических дифференциальных уравнений.

Это те, которые итеративно генерят картинки из шума, не используя принцип состязательности. По четкости результата уже давно близко к GAN, но реалистичность оставляла желать лучшего.

Сейчас же совершенно другой уровень. Подобного результата на том же StyleGAN2 можно было добиться через недельку на колабе, хотя там и косоглазия было поменьше :D
Но это результат всего за полдня (слева) и за сутки (справа). Посмотрим, что будет дальше.

Исходник: Git
Как вы могли догадаться, экспериментирую я не просто так ;)

Суть в том, что вышеупомянутые модели генерируют изображение, итеративно убирая шум (на картинке - справа налево)

Если взять модель, обученную на лицах, и на одном из ранних шумных этапов подложить ей рисунок, предварительно добавив на него шум, то модель восстановит из рисунка фото. Либо можно дорисовать на фото усы и восстановить фото с усами :) Или раскрасить Ч\Б, или дорисовать удаленный фрагмент изображения. Применений море! Минус - долгая генерация картинок, т.к. происходит не за 1 проход, а за пару тысяч.

Примеры с генерацией из скетчей, редактированием лиц - https://github.com/ermongroup/SDEdit

Такой вот незамысловатый перенос стиля "в лоб". Регулируя количество шума и этап подачи изображения, можно регулировать силу эффекта. Вечерком вернусь с результатами!
This media is not supported in your browser
VIEW IN TELEGRAM
Стайл из фото в картинку, с разной силой и масштабом. Обучаем модель генерить нужный стиль из шума и подаем фото с нужным количеством шума :D

На основе "Score-Based Generative Modeling through Stochastic Differential Equations"
Git
Forwarded from Denis Sexy IT 🤖
В продолжение к нейронке с карикатурами
Forwarded from Dev Meme / devmeme
Гугол продолжает снижать кол-во одновременных сессий в colab pro. Теперь доступна только одна. Штош, тесла с алиэкспресса, настало твое время!
Случайно всковырнул deep style, которому уже 4 года.

Это тот, который тут юзается - https://deepdreamgenerator.com/#gallery
и у одного модного тиктокера - https://www.tiktok.com/@rodrigoperezestrada?lang=ru-RU

Колаб ннада?)
Признайтесь, мы все знали, к чему это приведет.
This media is not supported in your browser
VIEW IN TELEGRAM
Запилил колаб со свежей сеткой LiveSpeechPortraits
Конвертит аудио в фотореалистичное видео.

В отличие от, например, first order model, здесь вместо морфинга сначала из аудио генерятся фичи лица и положение головы, а из них уже с помощью старой доброй pix2pix генерятся кадры видео.
В принципе, как обучать, тоже понятно: из аудио в фичи лица - 1 раз для каждого языка, из фич в кадры - для каждого лица.

Авторы выложили модели для 5 персонажей и английского языка, но и на русском выглядит весьма забавно.
🌎 Сайт 🐈 Гитхаб 📝 Пдфка с докладом
📒Колаб тут
#колаб #colab
Forwarded from vc.ru
OpenAI создала модель ИИ, которая генерирует выжимки из книг — сначала делит на разделы и делает их пересказ, а затем объединяет в финальный текст.

Например, «Алису в Стране чудес» получилось сократить с 26 тысяч слов до 136

https://vc.ru/ml/297407
Forwarded from Neural Shit
Киберпанк, который мы заслужили
На случай важных переговоров с шаманами.
Media is too big
VIEW IN TELEGRAM
Простити.

Сделать самим - колаб тут
Кстати, видео тоже можно загружать в качестве источника звука.
Ааааа! Немец закрыл хомяка в клетке, подключенной к аккаунту на криптобирже: пробегая через один туннель, хомяк автоматически продает криптовалют на 20 евро, через другой — наоборот, покупает. За три месяца портфолио хомяка выросло на 29%.

Красивый перфоманс! Или инсталляция, я пока не понял.
This media is not supported in your browser
VIEW IN TELEGRAM
Не выдержала душа поэта :D
p.s. если честно, Обама не смог нормально выговорить свое имя. Отныне отговорки, что модель была обучена на англ. языке и поэтому с русским справляется неоч, больше не принимаются.
💐🤖 Новая SOTA на ImageNet: CoAtNet. Свадьба свертки и трансформера

Ресерчеры из Google Research, Brain Team создали архитектуру CoAtNet (depthwise Convolution and self-Attention Network) и выпустили пейпер с чудным названием: Marrying Convolution and Attention for All Data Sizes.

Проблема была в том, что огромные трансформеры, которые бьют SOTA на ImageNet, раскрывают свой потенциал на огромных датасетах (e.g.: ViT Huge на JFT-300M, 88.56% top-1), но не могут генерализировать знания и на обычном ImageNet (1.28M изображений), и даже на ImageNet-21 K (12.7M)

CoAtNet же показывает отличное ImageNet top-1 accuracy на всех претрейнах (и даже на самом ImageNet):
▪️ 86.00% - ImageNet
▪️ 88.56% - ImageNet-21 K
▪️ 90.88% - JFT-300M | SOTA 🏆

🤖 Архитектура проста: за residual блоками depthwise сверток следуют блоки residual multi-head relative attention. Генерализации добиваются возвращая сверку, обладающую известным inductive bias для изображений: трансляционной эквивалентностью фичей.

📰 paper 💻 кода нет
Пока все заслуженно носятся с новоиспеченным гугловским CoAtNet, мало кто пишет про EfficientNet v2, которую гугл показал в том же посте.

Если кратко, то обещают более быстрое обучение и большую точность (accuracy) на кол-во параметров, чем в предыдущей версии архитектуры.

В отличие от CoAtNet, код и обученные модели в наличии: https://github.com/google/automl/tree/master/efficientnetv2