Derp Learning – Telegram
Derp Learning
13K subscribers
3.17K photos
916 videos
9 files
1.32K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
Forwarded from vc.ru
OpenAI создала модель ИИ, которая генерирует выжимки из книг — сначала делит на разделы и делает их пересказ, а затем объединяет в финальный текст.

Например, «Алису в Стране чудес» получилось сократить с 26 тысяч слов до 136

https://vc.ru/ml/297407
Forwarded from Neural Shit
Киберпанк, который мы заслужили
На случай важных переговоров с шаманами.
Media is too big
VIEW IN TELEGRAM
Простити.

Сделать самим - колаб тут
Кстати, видео тоже можно загружать в качестве источника звука.
Ааааа! Немец закрыл хомяка в клетке, подключенной к аккаунту на криптобирже: пробегая через один туннель, хомяк автоматически продает криптовалют на 20 евро, через другой — наоборот, покупает. За три месяца портфолио хомяка выросло на 29%.

Красивый перфоманс! Или инсталляция, я пока не понял.
This media is not supported in your browser
VIEW IN TELEGRAM
Не выдержала душа поэта :D
p.s. если честно, Обама не смог нормально выговорить свое имя. Отныне отговорки, что модель была обучена на англ. языке и поэтому с русским справляется неоч, больше не принимаются.
💐🤖 Новая SOTA на ImageNet: CoAtNet. Свадьба свертки и трансформера

Ресерчеры из Google Research, Brain Team создали архитектуру CoAtNet (depthwise Convolution and self-Attention Network) и выпустили пейпер с чудным названием: Marrying Convolution and Attention for All Data Sizes.

Проблема была в том, что огромные трансформеры, которые бьют SOTA на ImageNet, раскрывают свой потенциал на огромных датасетах (e.g.: ViT Huge на JFT-300M, 88.56% top-1), но не могут генерализировать знания и на обычном ImageNet (1.28M изображений), и даже на ImageNet-21 K (12.7M)

CoAtNet же показывает отличное ImageNet top-1 accuracy на всех претрейнах (и даже на самом ImageNet):
▪️ 86.00% - ImageNet
▪️ 88.56% - ImageNet-21 K
▪️ 90.88% - JFT-300M | SOTA 🏆

🤖 Архитектура проста: за residual блоками depthwise сверток следуют блоки residual multi-head relative attention. Генерализации добиваются возвращая сверку, обладающую известным inductive bias для изображений: трансляционной эквивалентностью фичей.

📰 paper 💻 кода нет
Пока все заслуженно носятся с новоиспеченным гугловским CoAtNet, мало кто пишет про EfficientNet v2, которую гугл показал в том же посте.

Если кратко, то обещают более быстрое обучение и большую точность (accuracy) на кол-во параметров, чем в предыдущей версии архитектуры.

В отличие от CoAtNet, код и обученные модели в наличии: https://github.com/google/automl/tree/master/efficientnetv2
Алярма! 5 часов назад зарелизили бетку нового фреймворка для загрузки данных под pytorch.
Все сыро, бета, ололо, но радует, что они решили пересобрать все это заново с нормальным дизайн-first подходом.
Этим мне и нравится pytorch, в отличие от tf, который сделан по принципу "лепила-мазала".
Гитхаб тут - https://github.com/pytorch/data
Forwarded from ExMuffin
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ Text2Animation 🎬

Что-то последнее время только генерация картинок по текстовому описанию у меня и появляется. Настало время исправить ситуацию и представить вам генерацию видео. Управлять всем этим добром не так просто, но внутри Колаба описана вся механика создания анимации, поэтому при желании каждый сможет разобраться. Гененрируется все очень шустро и итоговое качество весьма впечатляющее. Как и прошлый раз добавил переводчик, поэтому текст можете писать на любом языке.

P.S. в прикрепленном видео мы влетаем в Мону Лизу и оказываемся внутри Сальвадора Дали. Что бы это не значило :-)

https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/Text2Animation.ipynb
This media is not supported in your browser
VIEW IN TELEGRAM
Ну все, держите меня :D
Peppa pig -> Giger alien unreal engine RTX on
Всем nightmare fuel, посоны, я прнс
Forwarded from DL in NLP (nlpcontroller_bot)
Recursively Summarizing Books with Human Feedback
Wu et al. [OpenAI]
arxiv.org/abs/2109.10862
openai.com/blog/summarizing-books

Эксперименты OpenAI с суммаризацией книг. По-моему это может быть одним из лучших бенчмарков "умности" текущих методов ML, поэтому я очень хайпаю статью.

Сама статья очень необычная сразу по нескольким причинам. С одной стороны, это OpenAI и мы ожидаем от них безумных экспериментов с почти неограниченными вычислительными ресурсами. С другой стороны, к этому проекту они привлекли ещё более дорогой ресурс — людей. Модель тренируется не один раз на заготовленном датасете по суммаризации, а итеративно улучшается с фидбеком от специальных тренированных людей. Фидбэк бывает двух видов: 1) человек пишет более правильное саммари 2) человек выбирает одно из двух саммари написанных моделью. В случае 1 понятно как улучшить модель — просто зафайнтюнить на дополнительных данных. Случай 2 веселее — тут используется великий и страшный reinforcement learning.

Теперь про сам подход. Он довольно простой. Допустим у вас есть текст размера 10K токенов, а модель может читать только 2К. Разделим текст на 5 чанков по 2К и для каждого из них сгенерируем саммари допустим размера 500 токенов. Потом сконкатим их и получим текст длины 2.5K токенов. Всё ещё слишком длинно — разделим его на два куска и пусть каждый из них сгенерит саммари по 500 токенов. Сконкатим эти результаты, получим текст 1000 токенов. Теперь можно получить из него финальное саммари.

Подход очень простой и решает кучу проблем. Во-первых такую разметку просто делать. Вы не заставляете людей суммаризировать целые книги, а лишь просите из суммаризировать чанки по 2K токенов. Куча плюсов: людям проще такое делать, машинам проще такое учить, плюс с одной книги получаете кучу разметки. В качестве инициализации для модели используют GPT-3.

В результате подход получается на удивление прикладным, итеративным и масштабируемым. Мне кажется, ровно так можно организовать работу команды занимающейся задачей суммаризации где-нибудь в индустрии.

По результатам: некоторые саммари близки по качеству к человекам, но их около 5% 🍒. В среднем скор человека ~6/7, а лучшей модели ~3.5/7. Естественно размер модели важен и 175млрд параметров дают огромный буст по сравнению с 6млрд. Внезапно RL хорошо зашёл и его использование улучшает скор с 2.5 до 3.5. Думаю он эффективен потому что доставать для него данные просто — людям нужно лишь выбрать одно из двух саммари, а не писать новое.

Как всегда в статье от OpenAI много интересных технических деталей, например как они выбрали на каких узлах дерева тренировать модель. Явно стоит того, чтобы потратить час на чтение.
Forwarded from эйай ньюз
Братья и сéстры, золотой молоток U-Net вернулся к нам в новом виде! Теперь в шкуре трансформера.

Берем self-attention блоки, разбавляем их даунсэмплингами, апсэмплингами и depth-wise конволюциями. Ну, и, по классике, пробрасываем скип-конэкшены между энкодером и декодером. И вот, у нас получился U-former.

Китайцы предлагают его использовать для низкоуровневых vision задач, как то: восстановление изображений, энхансинг, деблюринг, денойзинг. Улучшения кажутся маргинальными, но я не супер эксперт в теме восстановления изображений (может я чего-то не понял?). Все равно архитектура стоит внимания.

Статья | GitHub
Запилил для вас колаб с DeepStyle. Исходнику уже лет 5, а алгоритмам в его основе - и того больше.
Однако это не мешает этим вашим тиктокерам в данный момент хайповать на этом психоделе.
Данный подход лежит в основе ostagram.me и аппки, с помощью которой всех превращали в макароны пару лет назад.

Юзать просто - загружаем пачкой сначала фото, потом - образцы стилей. На выходе получаем архив с результатами.

🗒 Колаб
🐈
Гитхаб