NEW BOT Телеграм, страница - 623811433

Derp Learning

13.1K subscribers

3.18K photos

916 videos

9 files

1.32K links

Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Download Telegram

About

Blog

Apps

Platform

13.1K subscribers

Forwarded from CGIT_Vines (Marvin Heemeyer)

This media is not supported in your browser

VIEW IN TELEGRAM

Вот немного инноваций с Олимпийских Игр в Токио.

Rhizomatiks совместно с Dentsu Lab Tokyo разрабатывает основную технологию «Система отслеживания и визуализации фехтования», т.к. человеческий глаз уже давно не может уследить за тем, что происходит во время фехтования. Давным давно были придуманы системы маркеров на концах шпаг, но сейчас появляются новые инструменты типа высокоскоростных камер, Deep Learning и Motion Capture, а результат потом накладывают поверх трансляции по средствам AR/

А по линку вся история разработки за 9 лет, аж с 12го года.

655 views07:57

Media is too big

VIEW IN TELEGRAM

Решил затестить старый добрый
Few Shot Patch Based Training (сверху)

Если кратко, это стайл трансфер алгоритм для видео. Обучаете на нескольких парах ключевых кадров до-после, а затем процессите полное видео.

Результат довольно неплох. Для чистоты эксперимента я специально ограничил обучение до времени, затраченного основным face2comics алгоритмом на обработку полного видео.

В данном видосе я брал каждые 10 кадров. В перспективе для однородных сцен можно брать еще меньше кадров, что может кратно увеличить скорость обработки видео, при этом объективно снизив мерцание и прочие артефакты.

github: https://github.com/OndrejTexler/Few-Shot-Patch-Based-Training

695 viewsedited 09:06

https://news.1rj.ru/str/vcnews/27382
Опа. А кто же будет тащить opencv?

Intel откажется от подразделения RealSense по разработке технологий компьютерного зрения — оно не приносило прибыли.

Вместо этого компания сосредоточится на производстве процессоров, чтобы вернуть себе лидерство на рынке

vc.ru/tech/283314

660 views11:59

Forwarded from Технологии | Нейросети | NanoBanana

This media is not supported in your browser

VIEW IN TELEGRAM

Голос Вэла Килмера воссоздали с помощью ИИ и старых аудиозаписей — актёр потерял возможность говорить из-за рака гортани.

61-летний актёр, известный по «Бэтмену навсегда», «Громовому сердцу» и «Лучшему стрелку», потерял свой голос в 2014 году в результате лечения рака гортани. Килмер больше не может разговаривать так, чтобы его узнавали окружающие, а есть ему приходится через трубочку.

Чтобы разработать реалистичную модель голоса актёра, Sonantic воспользовалась старыми аудиозаписями, которые сперва «очистили» от постороннего шума, а затем пропустили через проприетарную программу компании под названием Voice Engine.
Подробнее

688 views13:23

Media is too big

VIEW IN TELEGRAM

Штош, теперь можно и в fullhd делать, и при этом в 4 раза быстрее, чем раньше.

775 views15:47

Forwarded from я обучала одну модель

Кек из трансляции Тинька – в superGLUE человеческий бенчмарк опустился на 4 место, первые три занимают трансформеры 🤡

720 views16:44

Там выложили базу из блюд американских ресторанов. Наименование, стоимость, КБЖУ, вот это вот все.

Любопытен датасет тем, что он на Dolt. (бд, обновляемая через гит) Т.е. все данные заносились через пулл реквесты, а доступ есть через SQL.
Качество данных под вопросом, так как записей, где заполнены поля с ценой и КБЖУ, всего 83 из 6 479 347 блюд :D
А вот блюд с указанной ценой уже больше - 6 312 564 (97.4%)
(при этом уникальных блюд всего около 2 млн)

Источник: https://www.dolthub.com/blog/2021-08-20-menus-bounty-retrospective/
БД: https://www.dolthub.com/repositories/dolthub/menus/query/master

Бонус: USDA Nutrition database онлайн через SQL там же - https://www.dolthub.com/repositories/dolthub/usda-all-foods

734 viewsedited 14:09

Forwarded from Мишин Лернинг

👾🎨 Denis Sexy IT 🤖+ Мишин Лернинг🤖🎓= Text2PixelArt + Zero-Shot PixelArt Style Transfer

◾️ Пару дней назад я выложил колаб по Text2PixelArt Мишин Лернинг 🤖🎓 Resolution Mod, который расширял функционал: давал возможность выбирать разрешение + улучшал качество картинки.

◾️ Сегодня Denis Sexy IT 🤖 собрал крутой колаб, основная идея которого: Zero-Shot PixelArt Style Transfer. Просто представьте, Style Transfer для которого не нужно ни одного примера (0-shot)! Этот мод дает возможность выбирать изображение, с которого начнется оптимизация. Такой подход дает невероятные возможности! Не зря говорят: Good Init Is All You Need!

Встречайте симбиоз этих двух лучших версий!

p.s.: Дополнительные благодарности: mlart, ViktorAlm, dribnet

🔮Text2PixelArt + Zero-Shot PixelArt Style Transfer = Mishin Learning + Denis Sexy IT

639 views16:09

Forwarded from Neural Shit

Media is too big

VIEW IN TELEGRAM

Притащил позалипать.

Так выглядят кошмары по версии VQGAN+CLIP.

оригинал

610 views18:07

Forwarded from Мишин Лернинг

Нейросеть Codex от OpenAI: увольняйте ваших Data Scientist’ов

Будущее наступило! Нейросеть Codex (gpt 3 для генерации кода) позволяет решать data science задачи на естественном языке!

https://youtu.be/Ru5fQZ714x8

Data Science with OpenAI Codex

Learn more: https://openai.com/blog/openai-codex

569 views14:49

Ну што, всем General Intelligence, посоны.
deepmind выложил свой Perceiver, общую трансформер-лайк архитектуру, которую можно применять к любой области, от естественного языка до видео.
Основное отличие от трансформеров (это в том числе и GPT) - сначала входные данные преобразуются в относительно небольшое по размеру внутреннее представление (latent representation), которое и скармливается всем внутренним слоям.
Это позволяет делать сверхглубокие нейронки в овер 9000 (нет) слоев и брать на вход большие объемы данных при сопоставимых затратах ресурсов.
Код: https://github.com/deepmind/deepmind-research/tree/master/perceiver
Бумага: https://arxiv.org/pdf/2107.14795.pdf
Блог: https://deepmind.com/blog/article/building-architectures-that-can-handle-the-worlds-data

deepmind-research/perceiver at master · google-deepmind/deepmind-research

This repository contains implementations and illustrative code to accompany DeepMind publications - google-deepmind/deepmind-research

789 views14:59

Если вы давно хотели ~~привести в порядок свои фотоальбомы~~ поиск по той свалке фоток, что лежит у вас в downloads, то их есть у нас.
Встречайте, rclip. Берет известный CLIP и ищет картинки по соответствию контента текстовому запросу.

Сначала один раз генерите эмбеддинги для файлов, а дальше быстро ищете совпадения в бд.

Код (и билд для Linux x86_64) - https://github.com/yurijmikhalevich/rclip
Демо: https://www.youtube.com/watch?v=tAJHXOkHidw
Пост на реддите: https://www.reddit.com/r/MachineLearning/comments/pb6ime/p_rclip_use_clip_to_search_for_your_photos_in_the/

889 views16:36

Forwarded from Заметки

Провел тест популярных энхансеров лиц

Вы так же можете это сделать в этом колабе по ссылке ниже (GPEN, DFDNet, GFPGAN, PSFR-GAN)
https://colab.research.google.com/github/deepartist/DeepFaceLab-Tools/blob/main/DFL_Upscaling_Tools_deepartist.ai_AT_gmail.com.ipynb

933 views21:32

Пересобрал блокнот e4e + StyleCLIPglobal отсюда https://youtu.be/H4Kqbm1WirU с вольным переводом.
Позволяет конвертить лицо из диснеевского 3д-мультика в фото, и потом манипулировать чертами лица с помощью StyleCLIP.
На обычных мультфильмах получается довольно проклято :D

Как водится, добавил обработку пачки файлов (только для конвертиции toon->photo, а StyleCLIPglobal берет одну из обработанных фоток)
Потыкать тут: https://colab.research.google.com/drive/1DRQC1Ip--tl8cYkA8Vad816zSNsHJOIY?usp=sharing

исходный репо e4e: https://github.com/omertov/encoder4editing

988 viewsedited 06:13

Forwarded from Neural Shit

This media is not supported in your browser

VIEW IN TELEGRAM

Чот аж хрюкнул

745 views06:21

Forwarded from Мишин Лернинг

🤖🏆 SimVLM - Новый CLIP

Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод

А самое главное, делать все это в режиме zero-shot (обучение без обучения)!

Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).

Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая, LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.

SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.

Скоро сделаю подробный обзор архитектуры.

📄 paper

#sota #paper #multimodal #zeroshot #сохраненки

744 views16:01

Media is too big

VIEW IN TELEGRAM

Рубрика #простити
Все уже видели эти неудачные дубли, но я думал, что чего-то все-таки не хватает.
И вот секретный ингредиент, наконец, найден!
Встречайте, derevnya dynamics.

836 views09:34