Вышла новая версия моего любимого Pytorch - 1.10.0 :3
https://pytorch.org/blog/pytorch-1.10-released/
https://pytorch.org/blog/pytorch-1.10-released/
pytorch.org
An open source machine learning framework that accelerates the path from research prototyping to production deployment.
Forwarded from Мишин Лернинг
MixNMatch: Декомпозиция Стиля, Позы, Формы и «культурного» Бэкграунда
Изображения x пропускают через 4 энкодера:
▪️Ez(x) - кодирует латентщину
▪️Eb(x) - задник (бекнраунд)
▪️Ep(x) - позу
▪️Ec(x) - стиль, текстуру
Затем взад-назад. Из z, b, p, c генерят картинки:
▪️сначала из b, z - задник
▪️потом на него наносят маску позы из z, p
▪️а потом стильно полируют текстурой из z, c
на все три стейджа - 3 лосса
При этом ещё 4 адверсариал лосса учат истинность и ложность пар изображения и их кодировок.
📰 папир 💻 имплементация
Изображения x пропускают через 4 энкодера:
▪️Ez(x) - кодирует латентщину
▪️Eb(x) - задник (бекнраунд)
▪️Ep(x) - позу
▪️Ec(x) - стиль, текстуру
Затем взад-назад. Из z, b, p, c генерят картинки:
▪️сначала из b, z - задник
▪️потом на него наносят маску позы из z, p
▪️а потом стильно полируют текстурой из z, c
на все три стейджа - 3 лосса
При этом ещё 4 адверсариал лосса учат истинность и ложность пар изображения и их кодировок.
📰 папир 💻 имплементация
Forwarded from я обучала одну модель
Интересный папирус, в котором авторы воспроизводят увиденное человеком изображание по сканам активности мозга
• Сначала людям показывают видео нескольких категорий (абстрактные геометрические фигуры, лица людей, эктремальный спорт и тд)
• Проводят ЭЭГ и получают колебания активности мозга
• Получают эмбеддинг этих колебаний с помощью LSTM + Attention (так как это просто последовательность частот)
• Получают эмбеддинг картинки с помощью VGG
• Считают лосс между эмбеддингом активности мозга и картинкой, прибавляют к этому лосс между картинкой, восстановленной по ЭЭГ, и картинкой, восстановленной по эмбеддингу исходного изображения (декодер для картинок там один и тот же для обоих процессов)
Выше схема обучения вместе в примерами реконструкции, получается довольно неплохо
• Сначала людям показывают видео нескольких категорий (абстрактные геометрические фигуры, лица людей, эктремальный спорт и тд)
• Проводят ЭЭГ и получают колебания активности мозга
• Получают эмбеддинг этих колебаний с помощью LSTM + Attention (так как это просто последовательность частот)
• Получают эмбеддинг картинки с помощью VGG
• Считают лосс между эмбеддингом активности мозга и картинкой, прибавляют к этому лосс между картинкой, восстановленной по ЭЭГ, и картинкой, восстановленной по эмбеддингу исходного изображения (декодер для картинок там один и тот же для обоих процессов)
Выше схема обучения вместе в примерами реконструкции, получается довольно неплохо
Кстати, для pytorch уже как год с лишним существует дифференцируемый 3д рендер.
Фич много, от геометрии до point clouds.
pytorch3d: https://pytorch3d.org/
Даешь CLIP guided point clouds!
На примере запрос "8bit pokemon #pixelart" в моем CLIP guided RGB из поста выше. Только на этот раз оптимизируем не RGB тензор, а point cloud!
Фич много, от геометрии до point clouds.
pytorch3d: https://pytorch3d.org/
Даешь CLIP guided point clouds!
На примере запрос "8bit pokemon #pixelart" в моем CLIP guided RGB из поста выше. Только на этот раз оптимизируем не RGB тензор, а point cloud!
This media is not supported in your browser
VIEW IN TELEGRAM
MOT20-07.gif
12.1 MB
Выкатили новый SOTA алгоритм для трекинга - BYTE.
Расшифровывается как "tracking BY associaTing Every detection box instead of only the high score ones". Интересно, на что потратили больше времени - на алгоритм или на акроним :D
Как пишет автор, они не отбрасывают невидимые объекты в новых кадрах, а оставляют, и позже соотносят с обнаруженными в кадре.
Выдает 30fps на v100.
Как пишет реддит, пора играть в кальмара!
"Oh boy now it's time to do some red light green light!"
з.ы. пока придумывал шутки про акроним, меня немного опередили
папирус
код
демо
Расшифровывается как "tracking BY associaTing Every detection box instead of only the high score ones". Интересно, на что потратили больше времени - на алгоритм или на акроним :D
Как пишет автор, они не отбрасывают невидимые объекты в новых кадрах, а оставляют, и позже соотносят с обнаруженными в кадре.
Выдает 30fps на v100.
Как пишет реддит, пора играть в кальмара!
"Oh boy now it's time to do some red light green light!"
з.ы. пока придумывал шутки про акроним, меня немного опередили
папирус
код
демо
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Гляньте какой годный онлайн сервис выкатили: https://cleanup.pictures
Удаляет выделенные предметы на изображениях. Попробовал, особенно хорошо работает с мелкими предметами
Удаляет выделенные предметы на изображениях. Попробовал, особенно хорошо работает с мелкими предметами
AMD has joined the game.
Microsoft вместе с PyTorch выкатили новый бэкенд - DirectML.
Позволяет крутить эти ваши нейронки на любых DirectX12-совместимых девайсах и в WSL, без танцев с CUDA.
Наконец-то AMD сможет полноценно ворваться в гонку, хоспаде.
Набор операторов пока очень ограничен, но это отличный вектор развития.
Юзается легко - просто ставите пакет и заменяете device с 'cuda' на 'dml'.
А всего месяц назад вариацию этого бэкенда для tensorflow/AMD ускорили аж в 4.4 раза. В логове красных перемножателей матриц снова праздник!
гит
пост
Microsoft вместе с PyTorch выкатили новый бэкенд - DirectML.
Позволяет крутить эти ваши нейронки на любых DirectX12-совместимых девайсах и в WSL, без танцев с CUDA.
Наконец-то AMD сможет полноценно ворваться в гонку, хоспаде.
Набор операторов пока очень ограничен, но это отличный вектор развития.
Юзается легко - просто ставите пакет и заменяете device с 'cuda' на 'dml'.
А всего месяц назад вариацию этого бэкенда для tensorflow/AMD ускорили аж в 4.4 раза. В логове красных перемножателей матриц снова праздник!
гит
пост
"a black and white abstract geometric painting resembling a tiger by Greg Rutkowski" VQGAN+CLIP
Погенерить самим - колаб тут
Погенерить самим - колаб тут
Forwarded from AI для Всех
Вышел большой обзор про ML в науке
В этом обзорном докладе обсуждаются приложения и методы быстрого машинного обучения (БМО) в науке - концепцию интеграции мощных методов БМО в цикл обработки экспериментальных данных в реальном времени для ускорения научных открытий.
Обзор охватывает три основных направления: приложения быстрого ML в ряде научных областей; методы обучения и реализации производительных и ресурсоэффективных алгоритмов ML; вычислительные архитектуры, платформы и технологии для развертывания этих алгоритмов.
Этот обзор призван продемонстрировать множество примеров и вдохновить на научные открытия с помощью ML.
📎 Статья
#ScientificML #physics
В этом обзорном докладе обсуждаются приложения и методы быстрого машинного обучения (БМО) в науке - концепцию интеграции мощных методов БМО в цикл обработки экспериментальных данных в реальном времени для ускорения научных открытий.
Обзор охватывает три основных направления: приложения быстрого ML в ряде научных областей; методы обучения и реализации производительных и ресурсоэффективных алгоритмов ML; вычислительные архитектуры, платформы и технологии для развертывания этих алгоритмов.
Этот обзор призван продемонстрировать множество примеров и вдохновить на научные открытия с помощью ML.
📎 Статья
#ScientificML #physics
Forwarded from Мишин Лернинг
📣🤗 T0 — Быстрее, умнее и легче GPT-3 в 16 раз + собрал Colab | Zero-Shot NLP
Объясню разницу между T0 и GPT-3 через аналогию:
▪️ GPT-3 — ребенка заперли в большой библиотеке и сказали: читай. GPT-3 училась предсказывать следующие слова в текстах.
▪️ T0 — ребенка помладше посадили в библиотеку, но уже с преподавателем, который натаскивал его к олимпиадам. Взяв 62 датасетов дообучили T5 (11B) на специальных задачах.
T0 в 16x меньше GPT-3 и обходит GPT-3 на 9 из 11 сетах!
Создал для вас colab (3B, 100ms) для решения многих nlp задач. T0 и GPT-3 — NLP нейросети, которые не нужно дообучать!
▫️Суммаризация начала “Generation П”:
“In the seventies, the Soviet Union was a country of children who drank Pe”
▫️Суммаризация абстракта DALL·E:
“A computer program has been trained to create a wide range of images from text”
▫️“Самое большое здание в мире?”:
“The Burj Khalifa”
▫️“А - сын дяди Б. Каковы семейные отношения между А и Б?”:
“B is A's cousin.”
📰 Paper 🤗 demo 🔮 T0 Colab от @mishin_learning
Объясню разницу между T0 и GPT-3 через аналогию:
▪️ GPT-3 — ребенка заперли в большой библиотеке и сказали: читай. GPT-3 училась предсказывать следующие слова в текстах.
▪️ T0 — ребенка помладше посадили в библиотеку, но уже с преподавателем, который натаскивал его к олимпиадам. Взяв 62 датасетов дообучили T5 (11B) на специальных задачах.
T0 в 16x меньше GPT-3 и обходит GPT-3 на 9 из 11 сетах!
Создал для вас colab (3B, 100ms) для решения многих nlp задач. T0 и GPT-3 — NLP нейросети, которые не нужно дообучать!
▫️Суммаризация начала “Generation П”:
“In the seventies, the Soviet Union was a country of children who drank Pe”
▫️Суммаризация абстракта DALL·E:
“A computer program has been trained to create a wide range of images from text”
▫️“Самое большое здание в мире?”:
“The Burj Khalifa”
▫️“А - сын дяди Б. Каковы семейные отношения между А и Б?”:
“B is A's cousin.”
📰 Paper 🤗 demo 🔮 T0 Colab от @mishin_learning