Forwarded from Заработайте со мной 💰 [SCAM] (Nikita (pronouns: Your Majesty) Kolmogorov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Пока все носятся с Zero-Shot CLIP+<insert any gan here>, я решил поковырять очередную итерацию моделей на основе стохастических дифференциальных уравнений.
Это те, которые итеративно генерят картинки из шума, не используя принцип состязательности. По четкости результата уже давно близко к GAN, но реалистичность оставляла желать лучшего.
Сейчас же совершенно другой уровень. Подобного результата на том же StyleGAN2 можно было добиться через недельку на колабе, хотя там и косоглазия было поменьше :D
Но это результат всего за полдня (слева) и за сутки (справа). Посмотрим, что будет дальше.
Исходник: Git
Это те, которые итеративно генерят картинки из шума, не используя принцип состязательности. По четкости результата уже давно близко к GAN, но реалистичность оставляла желать лучшего.
Сейчас же совершенно другой уровень. Подобного результата на том же StyleGAN2 можно было добиться через недельку на колабе, хотя там и косоглазия было поменьше :D
Но это результат всего за полдня (слева) и за сутки (справа). Посмотрим, что будет дальше.
Исходник: Git
Как вы могли догадаться, экспериментирую я не просто так ;)
Суть в том, что вышеупомянутые модели генерируют изображение, итеративно убирая шум (на картинке - справа налево)
Если взять модель, обученную на лицах, и на одном из ранних шумных этапов подложить ей рисунок, предварительно добавив на него шум, то модель восстановит из рисунка фото. Либо можно дорисовать на фото усы и восстановить фото с усами :) Или раскрасить Ч\Б, или дорисовать удаленный фрагмент изображения. Применений море! Минус - долгая генерация картинок, т.к. происходит не за 1 проход, а за пару тысяч.
Примеры с генерацией из скетчей, редактированием лиц - https://github.com/ermongroup/SDEdit
Такой вот незамысловатый перенос стиля "в лоб". Регулируя количество шума и этап подачи изображения, можно регулировать силу эффекта. Вечерком вернусь с результатами!
Суть в том, что вышеупомянутые модели генерируют изображение, итеративно убирая шум (на картинке - справа налево)
Если взять модель, обученную на лицах, и на одном из ранних шумных этапов подложить ей рисунок, предварительно добавив на него шум, то модель восстановит из рисунка фото. Либо можно дорисовать на фото усы и восстановить фото с усами :) Или раскрасить Ч\Б, или дорисовать удаленный фрагмент изображения. Применений море! Минус - долгая генерация картинок, т.к. происходит не за 1 проход, а за пару тысяч.
Примеры с генерацией из скетчей, редактированием лиц - https://github.com/ermongroup/SDEdit
Такой вот незамысловатый перенос стиля "в лоб". Регулируя количество шума и этап подачи изображения, можно регулировать силу эффекта. Вечерком вернусь с результатами!
This media is not supported in your browser
VIEW IN TELEGRAM
Стайл из фото в картинку, с разной силой и масштабом. Обучаем модель генерить нужный стиль из шума и подаем фото с нужным количеством шума :D
На основе "Score-Based Generative Modeling through Stochastic Differential Equations"
Git
На основе "Score-Based Generative Modeling through Stochastic Differential Equations"
Git
Гугол продолжает снижать кол-во одновременных сессий в colab pro. Теперь доступна только одна. Штош, тесла с алиэкспресса, настало твое время!
Случайно всковырнул deep style, которому уже 4 года.
Это тот, который тут юзается - https://deepdreamgenerator.com/#gallery
и у одного модного тиктокера - https://www.tiktok.com/@rodrigoperezestrada?lang=ru-RU
Колаб ннада?)
Это тот, который тут юзается - https://deepdreamgenerator.com/#gallery
и у одного модного тиктокера - https://www.tiktok.com/@rodrigoperezestrada?lang=ru-RU
Колаб ннада?)
Forwarded from Мишин Лернинг
Ссылка на лекцию от «Мишин Лернинг», 🕢 19-30
Что будет на лекции: Zero-Shot, BERT, GPT3, ViT, CLIP, WuDao2.0, Dall-E, CLIP + VQGAN, SimVLM, Codex и многое другое
https://youtu.be/-fpQLPAkIN0
Что будет на лекции: Zero-Shot, BERT, GPT3, ViT, CLIP, WuDao2.0, Dall-E, CLIP + VQGAN, SimVLM, Codex и многое другое
https://youtu.be/-fpQLPAkIN0
YouTube
Нейронные сети: Zero-Shot — Zero Problem | Bert, GPT-3, CLIP, DALL-E, WuDao2.0, Codex | Transformer
Лекция: Zero-Shot — Zero Problem от автора блога «Мишин Лернинг» о начале новой эпохи в современном AI. Transformer | Прогрессивное ML комьюнити
▪️ Что такое Zero-Shot?
▪️ Какие сферы жизни затронет этот подход?
▪️ Почему важно понимать как работает GPT…
▪️ Что такое Zero-Shot?
▪️ Какие сферы жизни затронет этот подход?
▪️ Почему важно понимать как работает GPT…
This media is not supported in your browser
VIEW IN TELEGRAM
Запилил колаб со свежей сеткой LiveSpeechPortraits
Конвертит аудио в фотореалистичное видео.
В отличие от, например, first order model, здесь вместо морфинга сначала из аудио генерятся фичи лица и положение головы, а из них уже с помощью старой доброй pix2pix генерятся кадры видео.
В принципе, как обучать, тоже понятно: из аудио в фичи лица - 1 раз для каждого языка, из фич в кадры - для каждого лица.
Авторы выложили модели для 5 персонажей и английского языка, но и на русском выглядит весьма забавно.
🌎 Сайт 🐈 Гитхаб 📝 Пдфка с докладом
📒Колаб тут
#колаб #colab
Конвертит аудио в фотореалистичное видео.
В отличие от, например, first order model, здесь вместо морфинга сначала из аудио генерятся фичи лица и положение головы, а из них уже с помощью старой доброй pix2pix генерятся кадры видео.
В принципе, как обучать, тоже понятно: из аудио в фичи лица - 1 раз для каждого языка, из фич в кадры - для каждого лица.
Авторы выложили модели для 5 персонажей и английского языка, но и на русском выглядит весьма забавно.
🌎 Сайт 🐈 Гитхаб 📝 Пдфка с докладом
📒Колаб тут
#колаб #colab
Forwarded from vc.ru
OpenAI создала модель ИИ, которая генерирует выжимки из книг — сначала делит на разделы и делает их пересказ, а затем объединяет в финальный текст.
Например, «Алису в Стране чудес» получилось сократить с 26 тысяч слов до 136
https://vc.ru/ml/297407
Например, «Алису в Стране чудес» получилось сократить с 26 тысяч слов до 136
https://vc.ru/ml/297407
Forwarded from Brodetskyi. Tech, VC, Startups
Ааааа! Немец закрыл хомяка в клетке, подключенной к аккаунту на криптобирже: пробегая через один туннель, хомяк автоматически продает криптовалют на 20 евро, через другой — наоборот, покупает. За три месяца портфолио хомяка выросло на 29%.
Красивый перфоманс! Или инсталляция, я пока не понял.
Красивый перфоманс! Или инсталляция, я пока не понял.
This media is not supported in your browser
VIEW IN TELEGRAM
Не выдержала душа поэта :D
p.s. если честно, Обама не смог нормально выговорить свое имя. Отныне отговорки, что модель была обучена на англ. языке и поэтому с русским справляется неоч, больше не принимаются.
p.s. если честно, Обама не смог нормально выговорить свое имя. Отныне отговорки, что модель была обучена на англ. языке и поэтому с русским справляется неоч, больше не принимаются.
Forwarded from Мишин Лернинг
💐🤖 Новая SOTA на ImageNet: CoAtNet. Свадьба свертки и трансформера
Ресерчеры из Google Research, Brain Team создали архитектуру CoAtNet (depthwise Convolution and self-Attention Network) и выпустили пейпер с чудным названием: Marrying Convolution and Attention for All Data Sizes.
Проблема была в том, что огромные трансформеры, которые бьют SOTA на ImageNet, раскрывают свой потенциал на огромных датасетах (e.g.: ViT Huge на JFT-300M, 88.56% top-1), но не могут генерализировать знания и на обычном ImageNet (1.28M изображений), и даже на ImageNet-21 K (12.7M)
CoAtNet же показывает отличное ImageNet top-1 accuracy на всех претрейнах (и даже на самом ImageNet):
▪️ 86.00% - ImageNet
▪️ 88.56% - ImageNet-21 K
▪️ 90.88% - JFT-300M | SOTA 🏆
🤖 Архитектура проста: за residual блоками depthwise сверток следуют блоки residual multi-head relative attention. Генерализации добиваются возвращая сверку, обладающую известным inductive bias для изображений: трансляционной эквивалентностью фичей.
📰 paper 💻 кода нет
Ресерчеры из Google Research, Brain Team создали архитектуру CoAtNet (depthwise Convolution and self-Attention Network) и выпустили пейпер с чудным названием: Marrying Convolution and Attention for All Data Sizes.
Проблема была в том, что огромные трансформеры, которые бьют SOTA на ImageNet, раскрывают свой потенциал на огромных датасетах (e.g.: ViT Huge на JFT-300M, 88.56% top-1), но не могут генерализировать знания и на обычном ImageNet (1.28M изображений), и даже на ImageNet-21 K (12.7M)
CoAtNet же показывает отличное ImageNet top-1 accuracy на всех претрейнах (и даже на самом ImageNet):
▪️ 86.00% - ImageNet
▪️ 88.56% - ImageNet-21 K
▪️ 90.88% - JFT-300M | SOTA 🏆
🤖 Архитектура проста: за residual блоками depthwise сверток следуют блоки residual multi-head relative attention. Генерализации добиваются возвращая сверку, обладающую известным inductive bias для изображений: трансляционной эквивалентностью фичей.
📰 paper 💻 кода нет
Пока все заслуженно носятся с новоиспеченным гугловским CoAtNet, мало кто пишет про EfficientNet v2, которую гугл показал в том же посте.
Если кратко, то обещают более быстрое обучение и большую точность (accuracy) на кол-во параметров, чем в предыдущей версии архитектуры.
В отличие от CoAtNet, код и обученные модели в наличии: https://github.com/google/automl/tree/master/efficientnetv2
Если кратко, то обещают более быстрое обучение и большую точность (accuracy) на кол-во параметров, чем в предыдущей версии архитектуры.
В отличие от CoAtNet, код и обученные модели в наличии: https://github.com/google/automl/tree/master/efficientnetv2