Derp Learning – Telegram
Derp Learning
13.1K subscribers
3.18K photos
916 videos
9 files
1.32K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
Ну што, всем General Intelligence, посоны.
deepmind выложил свой Perceiver, общую трансформер-лайк архитектуру, которую можно применять к любой области, от естественного языка до видео.
Основное отличие от трансформеров (это в том числе и GPT) - сначала входные данные преобразуются в относительно небольшое по размеру внутреннее представление (latent representation), которое и скармливается всем внутренним слоям.
Это позволяет делать сверхглубокие нейронки в овер 9000 (нет) слоев и брать на вход большие объемы данных при сопоставимых затратах ресурсов.
Код: https://github.com/deepmind/deepmind-research/tree/master/perceiver
Бумага: https://arxiv.org/pdf/2107.14795.pdf
Блог: https://deepmind.com/blog/article/building-architectures-that-can-handle-the-worlds-data
Если вы давно хотели привести в порядок свои фотоальбомы поиск по той свалке фоток, что лежит у вас в downloads, то их есть у нас.
Встречайте, rclip. Берет известный CLIP и ищет картинки по соответствию контента текстовому запросу.

Сначала один раз генерите эмбеддинги для файлов, а дальше быстро ищете совпадения в бд.

Код (и билд для Linux x86_64) - https://github.com/yurijmikhalevich/rclip
Демо: https://www.youtube.com/watch?v=tAJHXOkHidw
Пост на реддите: https://www.reddit.com/r/MachineLearning/comments/pb6ime/p_rclip_use_clip_to_search_for_your_photos_in_the/
Forwarded from Заметки
Провел тест популярных энхансеров лиц

Вы так же можете это сделать в этом колабе по ссылке ниже (GPEN, DFDNet, GFPGAN, PSFR-GAN)
https://colab.research.google.com/github/deepartist/DeepFaceLab-Tools/blob/main/DFL_Upscaling_Tools_deepartist.ai_AT_gmail.com.ipynb
Пересобрал блокнот e4e + StyleCLIPglobal отсюда https://youtu.be/H4Kqbm1WirU с вольным переводом.
Позволяет конвертить лицо из диснеевского 3д-мультика в фото, и потом манипулировать чертами лица с помощью StyleCLIP.
На обычных мультфильмах получается довольно проклято :D

Как водится, добавил обработку пачки файлов (только для конвертиции toon->photo, а StyleCLIPglobal берет одну из обработанных фоток)
Потыкать тут: https://colab.research.google.com/drive/1DRQC1Ip--tl8cYkA8Vad816zSNsHJOIY?usp=sharing

исходный репо e4e: https://github.com/omertov/encoder4editing
🤖🏆 SimVLM - Новый CLIP

Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод

А самое главное, делать все это в режиме zero-shot (обучение без обучения)!

Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).

Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая, LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.

SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.

Скоро сделаю подробный обзор архитектуры.

📄 paper

#sota #paper #multimodal #zeroshot #сохраненки
Media is too big
VIEW IN TELEGRAM
Рубрика #простити
Все уже видели эти неудачные дубли, но я думал, что чего-то все-таки не хватает.
И вот секретный ингредиент, наконец, найден!
Встречайте, derevnya dynamics.
Forwarded from твиттота
Forwarded from Dev Meme / devmeme
👍1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Я уже как-то писал про софт под названием Vermillion.
Он создан художником из Ротердама Thomas van den Berge.

Для художников, которые не хотят заморачиваться с ритуалом натягивания холста, набором палитры и измазыванием в краске, потому что софт предназначен для VR. Т.е. вы получаете максимально близкие ощущения от процесса и максимально близкую имитацию материалов.

В идеале, конечно, закупиться цифровым стилусом и поставить перед собой мольберт, чтобы упираться во что-то.👺

Видео
⚠️ Нейросеть Codex от OpenAI: не нанимайте новых программистов!

Будущее наступило! Нейросеть Codex умеет переводить код с одного языка программирования на другой!

📽 Пример перевода кода с Python на Ruby
Forwarded from Denis Sexy IT 🤖
Очередные красоты генерации картинок нейронками из текста, эти методом диффузии – я тут о ней писал, там же ссылка на колаб.

Автор картинок.