Мишин Лернинг – Telegram
Мишин Лернинг
7.76K subscribers
1.18K photos
151 videos
4 files
644 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта. 🇺🇦🇮🇱
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Zero-shot classification on Google Sheets

Ребята из Hugging Face выкатили крутейшее апи для zero-shot классификации прямо в google sheets.

Как мы помним Microsoft купил GPT-3, и что-то мне подсказывает …
This media is not supported in your browser
VIEW IN TELEGRAM
Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

Да, TikTok помог науке. wow

💻git 💾set 📄paper
🤖🎓мишин лернинг
Ребята, начал делать крутой проект по мл. Скоро сделаю анонс.
p.s. картинка сгенерирована нейросетью
🥑 Professional illustration of grandmother playing cool guitar

Поэкспериментировал с китайской версией DALL·E — CogView, которая в 4 раза меньше DALL·E от OpenAI. Клон уже показывает неплохие результаты.

Результаты на голову выше, чем у DALL·E mini от 🤗Hugging Face.

DALL·E mini уступает CogView, хотя и использует куда более прогрессивный VQGAN, который ребята тюнили специально под свой zero-shot text-to-image.

CogView работает на относительно старом VQVAE, правда в связке с super resolution, что позволяет чуть зашарпить мыло, которым грешат VAE.

Все дело именно в размере GPT-like трансформер модели внутри этих решений. DALL·E mini ~0.4B vs CogView ~4B. 10X играют огромную роль (плюс, конечно же, размер датасета)

Хотелось бы верить, что скоро мы сможем увдидеть DALL·E v2 c VQ-GAN уже от OpenAI и c разным числом обучаемых параметров: от Lite do XL.

p.s. Cкоро выложу рабочий colab. У “официального” с git’a бага с подгрузкой VQVAE

💻git 📄paper
🤖🎓мишин лернинг
Анонс выпуска моего курса Introduction to Deep Learning

Друзья, привет! У меня для вас отличная новость!

📅 12.08 (в этот четверг) в 19-30
состоится выпуск моего курса:
Introduction to Deep Learning: Выпуск

Мы с ребятами подготовили для вас крутой контент. Вас ждут элегантные решения множества задач: Computer Vision и Natural Language Processing

Что будет:
+ Сверточные сети: MnasNet, EfficientNet, ResNet, MaskRCNN, кастомные решения (и это точно не свертка-relu-пулинг-свертка-relu)

+ Трансформеры: GPT, BERT, Vision Transformer (ViT)

+ Фреймоворки: PyTorch, TF, Keras, + кастомный
фреймворк машинного обучения (Zelda⚔️)

+ Возможность задавать вопросы студентам и мне

⚠️ p.s.: Выпуск 12.08 в 19-30 (точно не 10.08)
Коллеги, буду благодарен за репост
This media is not supported in your browser
VIEW IN TELEGRAM
Disentangled Lifespan Face Synthesis

Добавил в колаб интерфейс для выбора модели: “мужское и женское“ + возможность легко загружать свои фотки с компа и скачивать результат.

🔮colab

#colab #mishin_learning_colab #neuralart
Creating a Space Game with OpenAI Codex

Будущее наступило! Codex (gpt3 для генерации кода от OpenAI) позволяет писать игры на естественном языке!

https://youtu.be/Zm9B-DvwOgw
🤖TRANSFORMER IS ALL YOU NEED

Неделю назад я писал, что начал делать крутой проект. Встречайте:

transformer.community

p.s. все картины на сайте созданы нейронными сетями
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 Perceiver IO от deepmind бьет SOTA по задаче Optical Flow

Optical Flow — задача отслеживания движения пикселей. Цвет каждого пикселя показывает направление и скорость движения, предсказанного трансформером Perceiver IO.

Кроме того, новая архитектура от deepmind: Perceiver IO — трансформер-генералист. Его можно использовать для огромного количества задач как в CV так и в NLP.

То есть архитектура Perceiver IO подходит для обработки изображений, текста, аудио, видео и их комбинаций!
🔮google предоставил тариф colab pro+

+ Работает после закрытия браузера
+ Более длительное время работы
+ GPU быстрее
+ Больше памяти
- 50$ / месяц (vs 10$ за colab pro)
В Neural Art проходит моя выставка коллекции «НейроГипс»

Коллекция «НейроГипс» состоит из шестнадцати визуально-семантических модулей, сгенерированных нейронными сетями в жанре CNN: Cyber Neural Noir.

Сам жанр описывает мрачный и привлекательный мир эпохи искусственного интеллекта в сеттинге высокотехнологичного футуристического города, ландшафт которого уже не имеет четких границ между реальностью и виртуальным пространством.
Обложка новой книги Пелевина

p.s. все ассоциации с реальными персонажами случайность, вызванная работой вашего мозга, интерпретирующего продукт нейро(де)генерации
👾🎨 Pixel Draw Colab - Мишин Лернинг Resolution Mod

Ребята, сделал для вас супер-пупер версию популярного в последние дни colab’а для генерации картин в стиле PixelArt.

🔮 Pixel Draw Colab - Мишин Лернинг Resolution Mod

Что важного в этой версии:
▪️Добавил возможность выбирать разрешение (изначально автор не заложил этого в интерфейсе, и пришлось покостылить, но все ок! наконец-то)
▪️Добавил возможность выбирать модель (ViT-B/32 vs ViT-B/32 + ViT-B/16, ViT-B/32 + ViT-B/16 + ResNet50), по умолчанию стоит quality: draft, это значит, что градиенты текут именно с ViT-B/32, я бы советовал юзать именно его.
▪️Добавил выбор colab pro / colab

Продуктивной генерации!

p.s. возможность выбирать разрешение - реально топ! На картинке: professional pixel art of 2D star wars game in retro neon night city в разных разрешениях

#colab #mishin_learning_colab #neuralart
Annotated PyTorch Paper Implementations

Коллега скинул прикольный сайт с реализаций разных deep learning идей на PyTorch. Основной упор сделан на объяснении и подробных построчных комментариях.

💻 nn.labml.ai
👾🎨 Text2PixelArt - Resolution Is All You Need

Коллеги, довел до ума colab для Text2PixelArt и он стал еще лучше, чем позавчера!

Основные апдейты:
▪️Интерфейс. В интерфейсе только текст и разрешение. Остальное уже оптимально подобрано под обычный colab и colab pro. Добавил личные советы.
▪️Оптимизация. Теперь градиенты текут только с ViT-B/32, выходит намного качественнее и быстрее.
▪️Качество картинки. Увеличил num_cuts, отвечающий за батчсайз кропов изображения! Теперь качество выше на порядок! Это стало возможно благодаря, выбору оптимальной архитектуры ViT-B/32

p.s.: Все картинки сгенерировали подписчики и коллеги с работы, используя возможность выбора разрешения. Ребята, спасибо за фидбэк!

- Гарри Поттер пробивает товар на кассе
- Жираф на ролике в скейт парке
- 2D ретро игра по Звездным Войнам
- Пиксельны
й постер фильма Гарри Поттер
- Чубакка ест банан, глядя на закат
- Космическая одиссея 2001 года


🔮 Text2PixelArt Colab - Мишин Лернинг Resolution Mod

#colab #mishin_learning_colab #neuralart
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Классный эксперимент. Серое изображение раскрашивается в цвета таким образом, чтобы с точки зрения эмбеддинга CLIP раскраска была наиболее близка к стилю известных художников. Лосс итеративо уменьшается обновлением цветов. Спектакулярно!

Все-таки мощная штука этот ваш CLIP.
👾🎨 Denis Sexy IT + Мишин Лернинг = Text2PixelArt + Zero-Shot PixelArt Style Transfer

◾️ Пару дней назад я выложил колаб по Text2PixelArt Мишин Лернинг 🤖🎓 Resolution Mod, который расширял функционал: давал возможность выбирать разрешение + улучшал качество картинки.

◾️ Сегодня Denis Sexy IT 🤖 собрал крутой колаб, основная идея которого: Zero-Shot PixelArt Style Transfer. Просто представьте, Style Transfer для которого не нужно ни одного примера (0-shot)! Этот мод дает возможность выбирать изображение, с которого начнется оптимизация. Такой подход дает невероятные возможности! Не зря говорят: Good Init Is All You Need!

Встречайте симбиоз этих двух лучших версий!

p.s.: Дополнительные благодарности: mlart, ViktorAlm, dribnet

🔮Text2PixelArt + Zero-Shot PixelArt Style Transfer = Mishin Learning + Denis Sexy IT

#colab #mishin_learning_colab #neuralart
Будущее за моделями Генералистами

GPT языковые модели-трансформеры были приспособлены для:
▪️Генерации текста и zero/few-shot learning задач nlp: GPT3
▪️Генерации изображений по текстовому описанию (предсказание дискретных токенов dVAE): DALL•E
▪️Генерации кода: Codex

Хотя эти модели прекрасно себя чувствуют в zero-shot, но все они являются специалистами.

Мне видится, что будущее за моделями генералистами — архитектурами, способными решать сразу множество задач. Одна модель для генерации, классификации и перевода: текстов, кода, изображений, видео и аудио, etc.

Тут целых два преимущества:

1. Такие модели смогут получать дополнительные знания, обучаясь на разных доменах (e.g.: SOTA zero-shot классификатор изображений — модель CLIP, Contrastive Language-Image Pre-training)

2. Множество новых задач — одна претрейнутая модель. Задача сформулирована, пару мгновений и задача решена.

Такой подход, скорее всего, будет реализован через GPT-like трансформеры, использующие MoE (e.g.: Switch Transformer) с колоссальным количеством параметров (e.g.: WuDao2.0), с претрейном на ‘всем интернете’ и, возможно, с дополнительными ухищрениями позволяющими справится с квадратичной сложностью механизма внимания и пр. проблемами (e.g.: perceiver-like механизм, обращение к ‘памяти’ для сохранения контекста, возможность обращения к ‘базе знаний’, или даже ограниченная возможность вызова ‘недифференцируемых операций’ таких, как запуск скриптов или обращений к поисковым системами, обучаемых rl методами).

p.s. Предлагаю посмотреть как Codex от OpenAI позволяет не только писать код на естественном языке, но и решать простые математические задачи.

🎬 Giving OpenAI Codex a First Grade Math Test
Нейросеть Codex от OpenAI: увольняйте ваших Data Scientist’ов

Будущее наступило! Нейросеть Codex (gpt 3 для генерации кода) позволяет решать data science задачи на естественном языке!

https://youtu.be/Ru5fQZ714x8
This media is not supported in your browser
VIEW IN TELEGRAM
3D визуализация того, как видят роботы Boston Dynamics

Эта анимация представляет собой трехмерную визуализацию, которая показывает то, что видит и планирует робот, перемещаясь по полосе препятствий для паркура.

Отслеживаемые объекты отображаются зеленым цветом и меняют цвет с зеленого на фиолетовый по мере того, как они исчезают из поля зрения сенсоров восприятия робота. Система слежения постоянно оценивает расположение объектов в окружении, а система навигации планирует шаги (они тоже показаны зеленым цветом) относительно этих объектов, используя информацию с карты.